Cloudera Hadoop: Kom godt i gang med CDH Distribution



Denne Edureka-blog på Cloudera Hadoop-tutorial giver dig et komplet indblik i forskellige Cloudera-komponenter som Cloudera Manager, pakker, farvetone osv.

Med den stigende efterspørgsel efter Big Data, og Apache Hadoop errevolutionens hjerte, det har ændret den måde, vi organiserer og beregner dataene på. Behovet for organisationer til at tilpasse Hadoop til deres forretningsbehov har drevet fremvæksten af ​​de kommercielle distributioner. Kommercielle Hadoop-distributioner er normalt pakket med funktioner, der er designet til at strømline implementeringen af ​​Hadoop. Cloudera Hadoop Distribution giver en skalerbar, fleksibel, integreret platform, der gør det nemt at styre hurtigt stigende mængder og sorter af data i din virksomhed.

I denne blog om Cloudera Hadoop Distribution vil vi dække følgende emner:





Cloudera Hadoop: Introduktion til Hadoop

Hadoop er en Apache open source-ramme, der gemmer og behandler Big Data i et distribueret miljøpå tværs afklynge ved hjælp af enkle programmeringsmodeller. Hadoop leverer parallel beregning oven på distribueret lager.For at lære mere om Hadoop i detaljer fra du kan henvise til dette

Efter denne korte introduktion til Hadoop, lad mig nu forklare de forskellige typer Hadoop-distribution.



Cloudera Hadoop: Hadoop-distributioner

Da Apache Hadoop er open source, har mange virksomheder udviklet distributioner, der går ud over den oprindelige open source-kode. Dette er meget beslægtet med Linux-distributioner som RedHat, Fedora og Ubuntu. Hver af Linux-distributionerne understøtter sine egne funktioner og funktioner som brugervenlig GUI i Ubuntu. Tilsvarende rød hat er populær inden for virksomheder, fordi den tilbyder support og også giver ideologi til at foretage ændringer i enhver del af systemet efter ønske. Red Hat fritager dig for softwarekompatibilitetsproblemer. Dette er normalt et stort problem for brugerneder overgår fra Windows.

Ligeledes er der 3 hovedtyper af Hadoop-distributioner, der har sit eget sæt funktionaliteter og funktioner og er bygget under basen HDFS.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop Distribution

Cloudera er markedstrenden i Hadoop-rummet og er den første til at frigive kommerciel Hadoop-distribution. Det tilbyder konsulenttjenester for at bygge bro over kløften mellem - 'hvad Apache Hadoop tilbyder' og 'hvad organisationer har brug for'.

Cloudera Distribution er:

Fibonacci sekvens c ++
  • Hurtig til erhvervslivet : Fra analyse til datalogi og alt imellem leverer Cloudera den ydelse, du har brug for, for at frigøre potentialet i ubegrænset data.
  • Gør Hadoop let at administrere : Med Cloudera Manager giver automatiserede guider dig mulighed for hurtigt at implementere din klynge, uanset skala eller implementeringsmiljø.
  • Sikker uden kompromis: Opfylder strenge datasikkerheds- og compliancebehov uden at gå på kompromis med forretningsfleksibilitet. Cloudera giver en integreret tilgang til datasikkerhed og styring.

Horton-Works Fordeling

Horton-Works Data Platform (HDP) er udelukkende en open source-platform designet til at manøvrere data fra mange kilder og formater. Platformen indeholder forskellige Hadoop-værktøjer som Hadoop Distribueret Filsystem (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive og yderligere komponenter.

Det understøtter også funktioner som:

  • HDP gør Hive hurtigere gennem sit nye Stinger-projekt.
  • HDP undgår låsning af leverandør ved at pantsætte en forked version af Hadoop.
  • HDP er fokuseret på at forbedre anvendelighed af Hadoop-platformen.

MapR Distribution

MapR er en platformfokuseret Hadoop-udbyder, ligesom HortonWorks og Cloudera. MapR integrerer sit eget databasesystem, kendt som MapR-DB, mens det tilbyder Hadoop-distributionstjenester. MapR-DB hævdes at være fire til syv gange hurtigere end stock Hadoop-databasen, dvs. HBase, der udføres på andre distributioner.

Det har sine spændende funktioner som:

  • Det er den eneste Hadoop-distribution, der inkluderer Pig, Hive og Sqoop uden Java-afhængigheder - da den er afhængig af MapR-File System.
  • MapR er den mest produktionsklare Hadoop-distribution med mange forbedringer, der gør den mere brugervenlig, hurtigere og pålidelig.

Lad os nu diskutere Cloudera Hadoop-distributionen i dybden.

Abonner på vores YouTube-kanal for at få nye opdateringer ...

Cloudera Hadoop: Cloudera Distribution

Cloudera er den bedst kendte spiller i Hadoop-rummet til at frigive den første kommercielle Hadoop-distribution.

Fig: Cloudera Hadoop-distribution

Cloudera Hadoop Distribution understøtter følgende sæt funktioner:

  1. Clouderas CDH omfatter alle open source-komponenter, er målrettet implementeringer i virksomhedsklassen og er en af ​​de mest populære kommercielle Hadoop-distributioner.
  2. Cloudera var kendt for sine innovationer og var den første til at tilbyde SQL-for-Hadoop med sin Impala forespørgsel motor.
  3. Ledelseskonsollen - Cloudera Manager , er let at bruge og implementere med den rige brugergrænseflade, der viser alle klyngens oplysninger på en organiseret og ren måde.
  4. I CDH kan du tilføje tjenester til den kørende klynge uden forstyrrelse.
  5. Andre tilføjelser af Cloudera inkluderer sikkerhed, brugergrænseflade og grænseflader til integration med tredjepartsapplikationer.
  6. CDH leverer Node skabeloner dvs. det tillader oprettelse af en gruppe noder i en Hadoop-klynge med varierende konfiguration. Det udrydder brugen af ​​den samme konfiguration i hele Hadoop-klyngen.
  7. Det understøtter også:
    • Pålidelighed
      Hadoop-leverandører handler hurtigt som svar, hver gang der opdages en fejl. Med den hensigt at gøre kommercielle løsninger mere stabile, indsættes rettelser og rettelser med det samme.
    • Support
      Cloudera Hadoop-leverandører leverer teknisk vejledning og assistance, der gør det nemt for kunder at anvende Hadoop til virksomhedsopgaver og missionskritiske applikationer.

    • Fuldstændighed
      Hadoop-leverandører parrer deres distributioner med forskellige andre tilføjelsesværktøjer, der hjælper kunder med at tilpasse Hadoop-applikationen til at løse deres specifikke opgaver.

Cloudera-distributioner kommer med 2 forskellige typer udgaver.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Lad os nu se på forskellene mellem dem.

Funktioner Cloudera-Express Cloudera-Enterprise
Klyngestyring
1. Styring af flere klyngerJaJa
2. RessourcestyringJaJa
Implementering
1. Support til CDH 4 og 5JaJa
2. Rullende opgradering af CDHIngenJa
Service- og konfigurationsstyring
1. Administrer HDFS-, MapReduce-, YARN-, Impala-, HBase-, Hive-, Hue-, Oozie-, Zookeeper-, Solr-, Spark- og Accumulo-tjenesterJaJa
2. Rullende genstart af tjenesterIngenJa
Sikkerhed
1. LDAP-godkendelseIngenJa
2. SAML AuthenticationIngenJa
Overvågning og diagnostik
1. SundhedshistorieJaJa
Alert Management
1. Advar via e-mailJaJa
2. Alarmer via SNMPIngenJa
Avancerede styringsfunktioner
1. Automatiseret sikkerhedskopiering og gendannelseIngenJa
2. Fil browsing og søgningIngenJa
3. Rapporter om MapReduce, Impala, HBase, GarnbrugIngenJa

Cloudera Hadoop: Cloudera Manager

Ifølge Cloudera er Cloudera Manager den bedste måde at gøre det på installere , konfigurere , styre og overvåge Hadoop-stakken.

Det giver:

  1. Automatiseret implementering og konfiguration
  2. Kan tilpasses overvågning og rapportering
  3. Ubesværet robust fejlfinding
  4. Nul - Vedligeholdelse af nedetid

Få dybdegående viden om Cloudera Hadoop og dens forskellige værktøjer

Demonstration af Cloudera Manager

Lad os udforske Cloudera Manager.

1. Nedenstående figur viser antallet af tjenester, der aktuelt kører i Cloudera Manager. Du kan også se diagrammerne om klynge-CPU-brug, Disk IO-brug osv.

Fig: Hjemmeside for Cloudera Manager

2. Nedenstående billede viser HBase-klyngen. Det giver dig diagrammer og grafer om sundhedsforholdene for den aktuelt kørende HBase REST-server.

Figur: HBase-serverens helbredsforhold

3. Lad os nu se på fanen Instanser i HBase-klynge, hvor du kan kontrollere status og IP-konfiguration.

Fig: Status og IP-adresse for værtsserveren i HBase-klyngen

4. Dernæst har du fanen Konfiguration. Her kan du se alle konfigurationsparametrene og ændre deres værdier.

Fig: Konfiguration af HBase-klyngen

Lad os nu forstå, hvad der er pakker i Cloudera.

Cloudera Hadoop: Pakker

En pakke er et binært distributionsformat, der indeholder programfilerne sammen med yderligere metadata, der bruges af Cloudera Manager.

Pakker er selvstændige og installeres i et versioneret bibliotek, hvilket betyder, at flere versioner af en given tjeneste kan installeres side om side.

Nedenfor er fordelene ved at bruge pakke:

  • Det giver distribution af CDH som et enkelt objekt, dvs. i stedet for at have en separat pakke til hver del af CDH, har pakker bare et enkelt objekt at installere.

  • Det giver intern konsistens (da den komplette CDH distribueres som en enkelt pakke, matches alle CDH-komponenterne, og der er ingen risiko for, at forskellige dele kommer fra forskellige versioner af CDH).

  • Du kan installere, opgradere, nedgradere, distribuere og aktivere pakkerne i CDH med få klik.

Lad os nu se, hvordan du installerer og aktiverer Kafka-tjenesten i CDH ved hjælp af pakker.

hvordan man skriver en tostring-metode i java
  1. Gå til Cloudera manager-hjemmesiden >> Værter >> Pakker som vist nedenfor

    Fig: Valg af pakker fra værterne

2. Hvis du ikke kan se Kafka på listen over pakker, kan du føje pakken til listen.

  1. Find pakken med den Kafka-version, du vil bruge. Hvis du ikke kan se det, kan du føje pakkelageret til listen.
  2. Find pakken til den version af Kafka, du vil installere - Cloudera distribution af Apache Kafka versioner .
    Nedenstående figur viser det samme.

Fig: arkivsti for pakken.

3. Kopier linket som vist i ovenstående figur og tilføj det til Remote Parcel Repository som vist nedenfor.

Fig: Tilføjelse af Kafka-stien fra arkivet

Fire.Efter tilføjelse af stien vil Kafka være klar til download. Du kan bare klikke på download-knappen og downloade Kafka.

Fig: Download af Kafka

5. Når Kafka er downloadet, skal du blot distribuere og aktivere det.

Fig: Aktivering af Kafka

Når den er aktiveret, kan du gå videre og se Kafka i fanen tjenester i Cloudera manager.

Fig: Kafka service

Cloudera Hadoop: Oprettelse af en Oozie-arbejdsgang

Det er kompliceret at oprette en arbejdsgang ved manuelt at skrive XML-koden og derefter udføre den. Du kan henvise dette Planlægning af Oozie-jobbet blog, at vide om den traditionelle tilgang.

Du kan se nedenstående billede, hvor vi har skrevet en XML-fil for at oprette en simpel Oozie-arbejdsgang. Fig: Oprettelse af en Oozie-arbejdsgang ved hjælp af en traditionel tilgang

Som du kan se, selv for at oprette en simpel Oozie-planlægning, måtte vi skrive enorm XML-kode, som er tidskrævende, og fejlretning af hver enkelt linje bliver besværlig. For at overvinde dette introducerede Cloudera Manager en ny funktion kaldet Nuance som giver en GUI og en simpel træk og slip-funktion til at oprette og udføre Oozie-arbejdsgange.

Lad os nu se, hvordan Hue udfører den samme opgave på en forenklet måde.

Før vi opretter en arbejdsgang, skal vi først oprette inputfiler, dvs. clickstream.txt og user.txt.
I filen user.txt har vi bruger-id, navn, alder, land, køn som vist nedenfor. Vi har brug for denne brugerfil for at kende, hvordan brugerne tæller og klikker på URL'en (nævnt i clickstream-filen) baseret på bruger-id'en.

Fig: Oprettelse af en tekstfil

For at kende antallet af klik for brugeren på hver URL, har vi en klikstrøm, der indeholder bruger-id og URL.

Fig: Clickstream-fil

hvorfor har vi brug for serialisering i java

Lad os skrive forespørgslerne i scriptfilen.

Fig: Scriptfil

Efter at have oprettet brugerfilen, clickstream-filen og scriptfilen næste, kan vi gå videre og oprette Oozie-arbejdsgangen.

1. Du kan blot trække og slippe Oozie-arbejdsgangen som vist på billedet.

Fig: Træk og slip-funktion til oprettelse af Oozie-workflow

2. Snart efter at du har droppet din handling, skal du angive stierne til scriptfilen og tilføje de parametre, der er nævnt i scriptfilen. Her skal du tilføje parametre OUTPUT, CLICKSTREAM og USER og angive stien til hver af parametrene.

Fig: Tilføjelse af en scriptfil og de krævede parametre for at udføre handlingen

3. Når du har angivet stierne og tilføjet parametrene, skal du blot gemme og indsende arbejdsgangen som vist i nedenstående billede.

Fig: Gemme og indsende Oozie-handlingen

4. Når du har indsendt opgaven, er dit job afsluttet. Udførelse og de andre trin håndteres af Hue.

Fig: Udførelsesstatus for Oozie-jobbet

5.Nu hvor vi har udført Oozie-jobbet, skal vi se på handlingsfanen. Den indeholder bruger-id'et og status for arbejdsgangen. Det viser også fejlkoder, hvis de er nogen, start- og sluttidspunktet for handlingselementet.

Fig: Elementer til stede i handlingsfanen i Oozie-arbejdsgangen

6. Ved siden af ​​handlingsfanen er fanen detaljer. I dette kan vi se starttidspunktet og den sidste ændrede tid for jobbet.

Fig: Detaljer om Oozie-arbejdsgangen.

7. Ved siden af ​​fanen Detaljer har vi fanen Konfiguration af arbejdsgangen.

Fig: Konfigurationsindstillinger for Oozie-arbejdsgangen

7. Hvis der er fejl under handlingen, udføres det under fanen Log. Du kan henvise til fejlmeddelelserne og fejle det i overensstemmelse hermed.

Fig: Logfil, der indeholder fejlkoder og fejlmeddelelser

8. Her er XML-koden for arbejdsgangen, der automatisk genereres af Hue.

Fig: XML-kode for Oozie-arbejdsgangen

9.1. Da du allerede har angivet stien til outputkataloget i trin 2, har du outputkataloget i HDFS-browseren som vist nedenfor.

Fig: Outputmappe for HDFS-browseren

9.2 Når du klikker på outputmappen, finder du en tekstfil med navnet output.txt, og den tekstfil indeholder den aktuelle output som vist i nedenstående figur.

Fig: Endelig outputtekst

Sådan gør Hue vores arbejde simpelt ved at give træk og slip-mulighederne for at oprette en Oozie-arbejdsgang.

Jeg håber, at denne blog var nyttig til forståelse af Cloudera-distributionen og de forskellige Cloudera-komponenter.

Vil du deltage i Big Data-revolutionen?

Nu hvor du har forstået Cloudera Hadoop Distribution, skal du tjekke af Edureka, et pålideligt online læringsfirma med et netværk på mere end 250.000 tilfredse elever spredt over hele kloden. Edureka Big Data Hadoop-certificeringskursus hjælper elever med at blive eksperter i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved hjælp af realtidsanvendelsessager på Retail, Social Media, Aviation, Tourism, Finance domæne.

Har du et spørgsmål til os? Nævn det i kommentarfeltet, og vi vender tilbage til dig.