Væsentlige Hadoop-værktøjer til at knuse store data



Hadoop er buzz-ordet i IT-verdenen i dag, og dette indlæg beskriver de vigtige Hadoop-værktøjer, der knuser Big Data.

I dag er det mest populære udtryk i it-verdenen 'Hadoop'. Inden for en kort tidsperiode Hadoop er vokset massivt og har vist sig at være nyttigt til en stor samling af forskellige projekter. Hadoop-samfundet udvikler sig hurtigt og har en fremtrædende rolle i sit økosystem.





Her er et kig på de essentielle Hadoop-værktøjer, der bruges til at håndtere Big Data.

hvad er kontekstfilter i tableau

ambari



Ambari er et Apache-projekt understøttet af Hortonworks. Det tilbyder en webbaseret GUI (grafisk brugergrænseflade) med guidescripts til opsætning af klynger med de fleste standardkomponenter. Ambari sørger for, administrerer og overvåger alle klynger af Hadoop-job.

hdfs-logo

Det HDFS , distribueret under Apache-licens tilbyder en grundlæggende ramme til opdeling af datasamlinger mellem flere noder. I HDFS er de store filer opdelt i blokke, hvor flere noder holder alle blokke fra en fil. Filsystemet er designet på en måde til at blande fejltolerance med høj kapacitet. Blokkene på HDFS indlæses for at opretholde en jævn streaming. De gemmes normalt ikke for at minimere ventetid.



hbaselogo

HBase er et kolonneorienteret databasestyringssystem, der kører oven på HDFS. HBase-applikationer er skrevet i Java, meget lig MapReduce-applikationen. Den består af et sæt tabeller, hvor hver tabel indeholder rækker og kolonner som en traditionel database. Når dataene falder ind i den store tabel, gemmer HBase dataene, søger i dem og deler automatisk tabellen på tværs af flere noder, så MapReduce-job kan køre dem lokalt. HBase tilbyder en begrænset garanti for nogle lokale ændringer. De ændringer, der sker i en enkelt række, kan lykkes eller mislykkes på samme tid.

hive

Hvis du allerede er flydende med SQL, kan du udnytte Hadoop ved hjælp af Hive . Hive blev udviklet af nogle på Facebook. Apache Hive regulerer processen med at udtrække bits fra alle filerne i HBase. Det understøtter analyse af store datasæt, der er gemt i Hadoop's HDFS og kompatible filsystemer. Det giver også et SQL-lignende sprog kaldet HSQL (HiveSQL), der kommer ind i filerne og udtrækker de krævede uddrag til koden.

sqoop

Apache Sqoop er specielt designet til at overføre bulkdata effektivt fra de traditionelle databaser til Hive eller HBase. Det kan også bruges til at udtrække data fra Hadoop og eksportere dem til eksterne strukturerede datalagre som relationsdatabaser og virksomhedsdatalager. Sqoop er et kommandolinjeværktøj, der kortlægger mellem tabellerne og datalagringslaget og oversætter tabellerne til en konfigurerbar kombination af HDFS, HBase eller Hive.

Pig1

Når de gemte data er synlige for Hadoop, Apache Pig dykker ned i dataene og kører den kode, der er skrevet på sit eget sprog, kaldet Pig Latin. Pig Latin er fyldt med abstraktioner til håndtering af dataene. Gris leveres med standardfunktioner til almindelige opgaver som gennemsnit af data, arbejde med datoer eller for at finde forskelle mellem strenge. Gris tillader også brugeren at skrive sprog alene, kaldet UDF (brugerdefineret funktion), når standardfunktionerne mangler.

zookeper

Dyrepasser er en central tjeneste, der vedligeholder, konfigurerer information, giver et navn og giver distribueret synkronisering på tværs af en klynge. Det pålægger klyngen et filsystemlignende hierarki og gemmer alle metadataene til maskinerne, så vi kan synkronisere arbejdet med de forskellige maskiner.

NoSQL

Nogle Hadoop-klynger integreres med NoSQL datalagre, der kommer med deres egne mekanismer til lagring af data på tværs af en klynge af noder. Dette giver dem mulighed for at gemme og hente data med alle funktionerne i NoSQL-databasen, hvorefter Hadoop kan bruges til at planlægge dataanalyserjob i samme klynge.

mahoutlogo

Mahout er designet til at implementere et stort antal algoritmer, klassifikationer og filtrering af dataanalyse til Hadoop-klynge. Mange af standardalgoritmerne som K-betyder, Dirichelet, parallel mønster og Bayesianske klassifikationer er klar til at køre på dataene med et Hadoop-stilkort og reducere.

Lucene, skrevet i Java og let integreret med Hadoop, er en naturlig ledsager for Hadoop. Det er et værktøj beregnet til indeksering af store blokke af ustruktureret tekst. Lucene håndterer indekseringen, mens Hadoop håndterer de distribuerede forespørgsler på tværs af klyngen. Lucene-Hadoop-funktioner udvikler sig hurtigt, efterhånden som nye projekter udvikles.

Avro

Euro er et serialiseringssystem, der samler dataene sammen med et skema til forståelse af det. Hver pakke leveres med en JSON-datastruktur. JSON forklarer, hvordan dataene kan parses. Overskriften på JSON specificerer strukturen for dataene, hvor behovet for at skrive ekstra tags i dataene for at markere felterne kan undgås. Outputtet er betydeligt mere kompakt end de traditionelle formater som XML.

Et job kan forenkles ved at opdele det i trin. Ved at bryde projektet ind i flere Hadoop-job, Oozie begynder at behandle dem i den rigtige rækkefølge. Det styrer arbejdsgangen som specificeret af DAG (Directed Acyclic Graph), og der er ikke behov for rettidig overvågning.

GIS-værktøjer

Arbejde med geografiske kort er et stort job for klynger, der kører Hadoop. GIS ( Geografisk informationssystem ) værktøjer til Hadoop-projekter har tilpasset de bedste Java-baserede værktøjer til forståelse af geografisk information, der skal køres med Hadoop. Databaserne kan nu håndtere geografiske forespørgsler ved hjælp af koordinater, og koderne kan implementere GIS-værktøjerne.

At samle alle data er lig med at gemme og analysere det. Apache Flume sender 'specialagenter' for at indsamle information, der lagres i HDFS. De indsamlede oplysninger kan være logfiler, Twitter API eller webstedsrester. Disse data kan kædes sammen og udsættes for analyser.

Spark

Gnist er den næste generation, der stort set fungerer som Hadoop, der behandler data, der er cachelagret i hukommelsen. Dens mål er at foretage dataanalyse hurtigt til at køre og skrive med en generel udførelsesmodel. Dette kan optimere vilkårlige operatørgrafer og understøtte computing i hukommelsen, hvilket gør det muligt at forespørge data hurtigere end diskbaserede motorer som Hadoop.

SQL på Hadoop

Når det kræves at køre en hurtig ad hoc-forespørgsel af alle data i klyngen, kan der skrives et nyt Hadoop-job, men det tager noget tid. Da programmører begyndte at gøre dette oftere, kom de op med værktøjer skrevet på det enkle sprog i SQL. Disse værktøjer giver hurtig adgang til resultaterne.

Apache Drill

Apache Drill leverer ad-hoc-forespørgsler med lav latens til adskillige og varierede datakilder, herunder indlejrede data. Drill, inspireret af Googles Dremel, er designet til at skalere til 10.000 servere og forespørge på petabytes data på få sekunder.

Dette er de væsentlige Hadoop-værktøjer til at knuse Big Data!

Har du et spørgsmål til os? Nævn dem i kommentarfeltet, så vender vi tilbage til dig.

Relaterede indlæg:

Praktiske grunde til at lære Hadoop 2.0