VÆSENTLIGE HADOOP-VÆRKTØJER TIL AT KNUSE STORE DATA BLOG

I dag er det mest populære udtryk i it-verdenen 'Hadoop'. Inden for en kort tidsperiode Hadoop er vokset massivt og har vist sig at være nyttigt til en stor samling af forskellige projekter. Hadoop-samfundet udvikler sig hurtigt og har en fremtrædende rolle i sit økosystem.

Her er et kig på de essentielle Hadoop-værktøjer, der bruges til at håndtere Big Data.

hvad er kontekstfilter i tableau

Ambari er et Apache-projekt understøttet af Hortonworks. Det tilbyder en webbaseret GUI (grafisk brugergrænseflade) med guidescripts til opsætning af klynger med de fleste standardkomponenter. Ambari sørger for, administrerer og overvåger alle klynger af Hadoop-job.

Det HDFS , distribueret under Apache-licens tilbyder en grundlæggende ramme til opdeling af datasamlinger mellem flere noder. I HDFS er de store filer opdelt i blokke, hvor flere noder holder alle blokke fra en fil. Filsystemet er designet på en måde til at blande fejltolerance med høj kapacitet. Blokkene på HDFS indlæses for at opretholde en jævn streaming. De gemmes normalt ikke for at minimere ventetid.

HBase er et kolonneorienteret databasestyringssystem, der kører oven på HDFS. HBase-applikationer er skrevet i Java, meget lig MapReduce-applikationen. Den består af et sæt tabeller, hvor hver tabel indeholder rækker og kolonner som en traditionel database. Når dataene falder ind i den store tabel, gemmer HBase dataene, søger i dem og deler automatisk tabellen på tværs af flere noder, så MapReduce-job kan køre dem lokalt. HBase tilbyder en begrænset garanti for nogle lokale ændringer. De ændringer, der sker i en enkelt række, kan lykkes eller mislykkes på samme tid.

hive

Hvis du allerede er flydende med SQL, kan du udnytte Hadoop ved hjælp af Hive . Hive blev udviklet af nogle på Facebook. Apache Hive regulerer processen med at udtrække bits fra alle filerne i HBase. Det understøtter analyse af store datasæt, der er gemt i Hadoop's HDFS og kompatible filsystemer. Det giver også et SQL-lignende sprog kaldet HSQL (HiveSQL), der kommer ind i filerne og udtrækker de krævede uddrag til koden.

Apache Sqoop er specielt designet til at overføre bulkdata effektivt fra de traditionelle databaser til Hive eller HBase. Det kan også bruges til at udtrække data fra Hadoop og eksportere dem til eksterne strukturerede datalagre som relationsdatabaser og virksomhedsdatalager. Sqoop er et kommandolinjeværktøj, der kortlægger mellem tabellerne og datalagringslaget og oversætter tabellerne til en konfigurerbar kombination af HDFS, HBase eller Hive.

Når de gemte data er synlige for Hadoop, Apache Pig dykker ned i dataene og kører den kode, der er skrevet på sit eget sprog, kaldet Pig Latin. Pig Latin er fyldt med abstraktioner til håndtering af dataene. Gris leveres med standardfunktioner til almindelige opgaver som gennemsnit af data, arbejde med datoer eller for at finde forskelle mellem strenge. Gris tillader også brugeren at skrive sprog alene, kaldet UDF (brugerdefineret funktion), når standardfunktionerne mangler.

Dyrepasser er en central tjeneste, der vedligeholder, konfigurerer information, giver et navn og giver distribueret synkronisering på tværs af en klynge. Det pålægger klyngen et filsystemlignende hierarki og gemmer alle metadataene til maskinerne, så vi kan synkronisere arbejdet med de forskellige maskiner.

NoSQL

Nogle Hadoop-klynger integreres med NoSQL datalagre, der kommer med deres egne mekanismer til lagring af data på tværs af en klynge af noder. Dette giver dem mulighed for at gemme og hente data med alle funktionerne i NoSQL-databasen, hvorefter Hadoop kan bruges til at planlægge dataanalyserjob i samme klynge.

Mahout er designet til at implementere et stort antal algoritmer, klassifikationer og filtrering af dataanalyse til Hadoop-klynge. Mange af standardalgoritmerne som K-betyder, Dirichelet, parallel mønster og Bayesianske klassifikationer er klar til at køre på dataene med et Hadoop-stilkort og reducere.

Lucene, skrevet i Java og let integreret med Hadoop, er en naturlig ledsager for Hadoop. Det er et værktøj beregnet til indeksering af store blokke af ustruktureret tekst. Lucene håndterer indekseringen, mens Hadoop håndterer de distribuerede forespørgsler på tværs af klyngen. Lucene-Hadoop-funktioner udvikler sig hurtigt, efterhånden som nye projekter udvikles.

Euro er et serialiseringssystem, der samler dataene sammen med et skema til forståelse af det. Hver pakke leveres med en JSON-datastruktur. JSON forklarer, hvordan dataene kan parses. Overskriften på JSON specificerer strukturen for dataene, hvor behovet for at skrive ekstra tags i dataene for at markere felterne kan undgås. Outputtet er betydeligt mere kompakt end de traditionelle formater som XML.

Et job kan forenkles ved at opdele det i trin. Ved at bryde projektet ind i flere Hadoop-job, Oozie begynder at behandle dem i den rigtige rækkefølge. Det styrer arbejdsgangen som specificeret af DAG (Directed Acyclic Graph), og der er ikke behov for rettidig overvågning.

GIS-værktøjer

Arbejde med geografiske kort er et stort job for klynger, der kører Hadoop. GIS ( Geografisk informationssystem ) værktøjer til Hadoop-projekter har tilpasset de bedste Java-baserede værktøjer til forståelse af geografisk information, der skal køres med Hadoop. Databaserne kan nu håndtere geografiske forespørgsler ved hjælp af koordinater, og koderne kan implementere GIS-værktøjerne.

At samle alle data er lig med at gemme og analysere det. Apache Flume sender 'specialagenter' for at indsamle information, der lagres i HDFS. De indsamlede oplysninger kan være logfiler, Twitter API eller webstedsrester. Disse data kan kædes sammen og udsættes for analyser.

Gnist er den næste generation, der stort set fungerer som Hadoop, der behandler data, der er cachelagret i hukommelsen. Dens mål er at foretage dataanalyse hurtigt til at køre og skrive med en generel udførelsesmodel. Dette kan optimere vilkårlige operatørgrafer og understøtte computing i hukommelsen, hvilket gør det muligt at forespørge data hurtigere end diskbaserede motorer som Hadoop.

SQL på Hadoop

Når det kræves at køre en hurtig ad hoc-forespørgsel af alle data i klyngen, kan der skrives et nyt Hadoop-job, men det tager noget tid. Da programmører begyndte at gøre dette oftere, kom de op med værktøjer skrevet på det enkle sprog i SQL. Disse værktøjer giver hurtig adgang til resultaterne.

Apache Drill

Apache Drill leverer ad-hoc-forespørgsler med lav latens til adskillige og varierede datakilder, herunder indlejrede data. Drill, inspireret af Googles Dremel, er designet til at skalere til 10.000 servere og forespørge på petabytes data på få sekunder.

Dette er de væsentlige Hadoop-værktøjer til at knuse Big Data!

Har du et spørgsmål til os? Nævn dem i kommentarfeltet, så vender vi tilbage til dig.

Relaterede indlæg:

Praktiske grunde til at lære Hadoop 2.0

Væsentlige Hadoop-værktøjer til at knuse store data

Hadoop er buzz-ordet i IT-verdenen i dag, og dette indlæg beskriver de vigtige Hadoop-værktøjer, der knuser Big Data.

Kategorier

Popular Articles

Sådan lærer du Python 3 fra Scratch - En begynderevejledning

Hvad er logger i Java, og hvorfor bruger du det?

Edureka Success Story - Srirams passion for at kæmpe data

Sådan vender du et tal i Python?

Hvad er Vector i Java, og hvordan bruger vi det?

Hvad er HTML metatags? Er det virkelig nødvendigt?

Alt hvad du behøver at vide om objektorienteret programmering i C ++

PHP Curl Tutorial: Alt hvad du behøver at vide

Python Seaborn Tutorial: Hvad er Seaborn og hvordan man bruger det?

JavaScript vs jQuery: Nøgleforskelle, du har brug for at vide

DBMS Tutorial: Et komplet crashkursus om DBMS

Azure Boards: Hvordan kommer du i gang med agil planlægning på Azure?