Hvis du allerede er fra IT-industri , skal du være opmærksom på det Big Data er dagens snak. Det være sig, nye startups, der kommer med innovative forretningsmodeller, eller dine kolleger går videre til disse startups, af en eller anden grund, dagens grønnere græsgange synes at være den Big Data industri.
Hvis du undrer dig over hvorfor, så anbefaler jeg, at du læser dette helt til slutningen, fordi dette kan være en selvudforskende blog, der fører dig til det, du er bestemt til.
Så hvorfor alt detteHYPEomgivende STORE DATA?
Er det bare et andet domæne, der midlertidigt lander flygtninge fra alle andre domæner? Eller vil det være her i det lange løb?
Hvis jeg skulle gætte, ville jeg sige, at det ikke kun vil være her i det lange løb, men Big Data-industrien vil være i centrum for teknologisk fremskridt.
Fordi alt handler omDATA!
Ligesom solenstigerfraØstogsætiVest, kontinuerlig brug af computere / ikke-computerenheder vil resultere i et udbrud af uhåndterbare data.
java split streng flere afgrænsere
Når disse data krydser grænsen for at blive håndteret af Excel eller ethvert databasestyringssystem, betegner vi det STORE DATA .
Tænk, hvilket var det sidste produkt, du købte fra Amazon? Hvilket kan være det næste produkt, du måske køber baseret på tidligere aktivitet? Svarene på sådanne spørgsmål er gemt i Big Data.
Er der en voksende tendens bag et produkt? Eller er der en faldende tendens? Vil en kunde købe 'strømper', når han køber 'sko'? Dette er spørgsmål til forretningsproblemløsning.
Og disse spørgsmål kan let være svarede ved hjælp af Big Data Analytics .
Når alt kommer til alt, hvad er brugen af data, når du ikke er det analysere det?
Så er Big Datahelt omAnalytics?Ikke helt, men Analytics er den ultimative pris.
Andre store streams i Big Data erOpbevaringogLedelse.
Det er her du som professionel kan bidrage. Du kan påtage dig rollen som enten:
- Big Data Engineer
- Big Data Solution Architect
Og sørg for, at de store data, der genereres, altid er tilgængelige, og at de kan bruges til analyse på et senere tidspunkt. Så dette bringer os til spørgsmålet & hellip
Hvor opbevares store data?
Kan den opbevares i enExcel-fil? Kan den opbevares i enrelationsdatabasesystem?
Nej for helvede!
Hvis det kunne have været, så ville det have været!
Og kaldes noget andet alt sammen. Måske noget i retning afExcel-dataellerRDBMS-data: D
Og det ville tage os tilbage til TRIN 1 : - Hvorfor kan ikke Big Data administreres ved hjælp af Excel? FordiBig Data er bare for varmt til, at Excel kan håndtere. Og endda andre databasestyringssystemer faktisk.
Så hvad er alternativet?
Til håndtering af Big Data har vi det HADOOP . Du er måske også opmærksom på dette ord. Men du undrer dig måske over, hvordan fungerer det nøjagtigt?
For begyndere er HADOOP et produkt afAPACHE Foundation. Apache er en amerikansk nonprofitorganisation, der understøtter udviklingen af open source-software.
Hadoop er defineret som en open source Java-baseret programmeringsramme, der understøtter behandling og lagring af ekstremt store datasæt i et distribueret computermiljø.
Hvad kan Hadoop gøre, men Excel ikke?
Behandle og forstå ustrukturerede data!Strukturerede data, der er i tabelform eller på anden måde, kan let håndteres. Excel kan gøre det, og det kan enhver anden RDBMS også.
Men når læsbarheden reduceres, og data er ustrukturerede, er det her Big Dataværktøjer som Hadoopscore. Et eksempel på ustrukturerede data er syslog . Et eksempelbillede er nedenfor.
Sådanne logfiler kan bestemt ikke spørges ved hjælp af Excel.
Hadoop kan ligesom Big Data-værktøjer forstå data, som de er, ved at finde mønstre og danne relationer mellem forskellige felter. Og når dataene først har en relationel berøring, er de detAnalytics-klar.
Analytics er det, der får virksomheden indflydelse på en organisation! Din karriere vil stort set drage fordel af dens involvering i dette Big Data-domæne.
' Kan jeg gøre det som en Hadoop-er? '
... kan være det næste spørgsmål i dit sind. Og med rette tænkt, Big Data er et marked, der er lige så varmt som nogensinde og lige så vigtigt som nogensinde.
Uden Hadoop vil virksomheder have svært ved at håndtere Big Data. Og uden dygtige fagfolk som dig vil virksomheder have svært ved at håndtere Hadoop.
Der er en rapport, der siger, at der er et talentunderskud i dette domæne. Talentunderskud betyder mindre fagfolk, men stor efterspørgsel. Og dette er på global skala og ikke begrænset til en bestemt geografi.
Vil du have tal?
TIL McKinsey Global Institute undersøgelse siger, at USA vil stå over for en mangel på omkring 190.000 dataforskere og 1,5 millioner ledere og analytikere, der kan forstå og træffe beslutninger ved hjælp af Big Data inden 2018.
Karriererådgivning til dig? Surf, når tidevandet er lavt!
Men er du begrænset til kun Hadoop ?
Ikke rigtig. Der er en række værktøjer til behandling af Big Data, og Hadoop betragtes som en af de bedste. Men ikke hver gang!
Der er tidspunkter, hvor Hadoop ikke passer bedst. For eksempel, hvis du er en ikke-teknisk person, der ikke er særlig god til at skrive MapReduce-programmer.
I sådanne tilfælde kan du brugeTALEND, som giver dig en grafisk brugergrænseflade til at gøre hvad du ellers ville have gjort med MapReduce.
Du kan bruge til at skrive enklere Java-koderSVIN.
Hvis du vil køre SQL-lignende forespørgsler på Big Data, såHIVEKan bruges.
Hvis du vil bruge data gemt i en NoSQL-database, såHBaseKan bruges.
Til udførelse af analyser i realtid kan du brugeGNIST.
Dette er Big Data-værktøjer, der går hånd i hånd med Hadoop, men alligevel erstatter de ikke Hadoop overhovedet. De er Hadoop-tilføjelser til Big Data.
Derudover er der et par flere værktøjer som SQOOP, FLUME, OOZIE osv., Der kan integreres med Hadoop-rammen til løsning af forskellige forretningsproblemer.
Hvad forventer branchen af dig som Big Data-ekspert?
Industrien har et stort behov for STORE DATA ARKITEKTER der kan opbygge en end-to-end big data-løsning til deres organisationer. Big Data Architects er dem med ekspertise inden for alle ovennævnte værktøjer.
Her er et vidnesbyrd fra en Edureka-lærer Rute:
Blive en startende fra Edurekas Big Data And Hadoop-certificeringstræning, som hjælper elever med at blive ekspert i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved hjælp af realtidsbrugssager på Retail, Social Media, Aviation, Tourism, Finance domain .