Sådan oprettes Hadoop-klynge med Amazon EMR?



I denne artikel vil vi undersøge AWS EMR Service, og i processen lærer vi, hvordan man opretter Hadoop-klynge med Amazon EMR?

I denne artikel om hvordan man opretter Klynge Med Amazon EMR ville vi se, hvordan man let kan køre og skalere Hadoop- og Big Data-applikationer. Følgende punkter vil blive dækket i denne artikel,

Gå videre med dette Sådan oprettes Hadoop-klynge med Amazon EMR?





Sådan oprettes Hadoop-klynge med Amazon EMR?

Når vi søger efter noget i Google eller Yahoo, får vi svaret på en brøkdel af et sekund. Hvordan er det muligt, at Google, Yahoo og andre søgemaskiner returnerer resultaterne så hurtigt fra det stadigt voksende web? Søgemaskinerne gennemsøger internettet, downloader websiderne og opretter et indeks som vist nedenfor. For enhver forespørgsel fra os bruger de indekset til at finde ud af, hvad der er alle websider, der indeholder den tekst, vi søgte efter. Ved at se på nedenstående indeks på højre side kan vi tydeligt vide, at Hadoop er der webside 1, 2 og 3.

Billede - Sådan oprettes Hadoop-klynge med Amazon EMR - EdurekaSå, den PageRanking-algoritme bruges, der er baseret på, hvordan siderne er forbundet, for at finde ud af, hvilken side der skal vises øverst og hvilken i bunden. I nedenstående scenarie er W1 det 'mest populære', fordi alle linker til det, og W4 er det 'mindst populære', da ingen linker til det. Så W1 vises øverst og W4 nederst i søgeresultaterne.



Med eksplosionen af ​​websiderne fandt disse søgemaskiner udfordringer med at oprette indeks og udføre PageRanking-beregningerne. Det er her Hadoop blev født i Yahoo og senere blev FOSS (gratis og open source software) under ASF (Apache Software Foundation). En gang under ASF begyndte mange virksomheder at interessere sig for Hadoop og begyndte at bidrage til at forbedre det. Hadoop var den, der startede Big Data-revolutionen, men mange andre software som Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume begyndte at udvikle sig for at imødegå begrænsningerne og hullerne i Hadoop.

Websøgemaskiner var de første til at bruge Hadoop, men senere begyndte en masse brugssager at udvikle sig, efterhånden som flere og flere data blev genereret. Lad os tage eksemplet med en e-handelsapplikation, der bruges til at anbefale bøger til brugeren. I henhold til nedenstående diagram købte bruger1 bog1, bog2 og bog3, bruger2 købte nogle bøger og så videre. Når vi ser nøje, kan vi se, at bruger1 og bruger2 har samme smag, som de har købt book1 og book2. Så book3 kan anbefales til bruger2 og book4 kan anbefales til bruger1. Dette kaldes Collaborative Filtering, en type Machine Learning-algoritme. Vi kan vende nedenstående diagram og få lignende bøger.

I ovenstående tilfælde har vi oprettet et indeks, PageRanked og anbefalet til brugeren, størrelsen på dataene var lille, så vi var i stand til at visualisere dataene og udlede nogle resultater ud af dem. Da datastørrelsen bliver større dag for dag og ude af kontrol, er det her Big Data-værktøjer som Hadoop kommer ind i billedet.



Hadoop løser mange problemer, men installation af Hadoop og anden Big Data-software havde aldrig været en let opgave. Der er mange konfigurationsparametre at tilpasse, som integrations-, installations- og konfigurationsproblemer at arbejde med. Det er her virksomheder som Cloudera, og Databricks hjælp. De gør installationen af ​​Big Data-softwaren nemmere og giver kommerciel support, for eksempel lad os sige, at der sker noget i produktionen. Amazon EMR (Elastic MapReduce) gør det nemmere at bruge Hadoop osv. Meget lettere. Navnet Elastic MapReduce er lidt misvisende, da EMR også understøtter andre distribuerede computermodeller som Resilient Distribuerede datasæt og ikke kun MapReduce.

I denne vejledning vil vi undersøge, hvordan man opsætter en EMR-klynge på AWS Cloud, og i den kommende tutorial vil vi undersøge, hvordan man kører Spark, Hive og andre programmer oven på den.

Gå videre med dette Sådan oprettes Hadoop-klynge med Amazon EMR?

Demo: Oprettelse af en EMR-klynge i AWS

Trin 1: Gå til EMR Management Console og klik på 'Opret klynge'. I konsollen er metadata for afsluttet klynge gemmes også i to måneder gratis. Dette gør det muligt at klone og oprette den afsluttede klynge igen.

Trin 2 : Fra skærmbilledet hurtigindstillinger skal du klikke på “Gå til avancerede indstillinger” for at angive meget flere detaljer om klyngen.

Trin 3: På fanen Avancerede indstillinger kan vi vælge anden software, der skal installeres i EMR-klyngen. For en SQL-grænseflade kan Hive vælges. For en dataflydssproggrænseflade kan svin vælges. Til distribueret applikationskoordinering kan ZooKeeper vælges og så videre. Denne fane giver os også mulighed for at tilføje trin, som er en valgfri opgave. Trin er store databehandlingsjob ved hjælp af MapReduce, Pig, Hive osv. De kan tilføjes i denne fane eller senere, når klyngen er oprettet. Klik på 'Næste' for at vælge den nødvendige hardware til EMR-klyngen.

Trin 4: Hadoop følger mesterarbejderarkitekturen, hvor skibsføreren foretager al koordinering som planlægning og tildeling af arbejdet og kontrol af deres fremskridt, mens arbejderne gør det egentlige arbejde med at behandle og lagre dataene. En enkelt mester er en SPOF (Single-Point-Of-Failure). Amazon EMR understøtter multi-master til høj tilgængelighed (HA). Det forrige trin giver mulighed for at opsætte en multimasterklynge i EMR.

EMR tillader to typer noder, Core og Task. Kerneknudepunktet bruges til både behandling og lagring af data, opgaveknudepunktet bruges til kun behandling af dataene. Til denne vejledning kan vi kun vælge en kerne og ingen opgaveknudepunkter, da det medfører mindre omkostninger for os. Vælg også Spot forekomster over Efterspørgsel da Spot-forekomsterne er billigere. Fangsten med Spot-forekomsterne er, at de automatisk kan afsluttes af AWS med en to minutters varsel . Dette er fint for praksisens skyld og også i nogle faktiske scenarier. Spotforekomster afsluttes automatisk, da de har lav prioritet frem for andre forekomststyper. Klik på 'Næste'.

Trin 5: Angiv klyngenavnet. og klik på 'Næste'. Bemærk, at 'Afslutningsbeskyttelse' er slået til som standard, dette sørger for, at EMR-klyngen ikke slettes ved et uheld ved at indføre et par trin, mens klyngen afsluttes.

Trin 6: I fanen specificeres de forskellige sikkerhedsindstillinger for EMR-klyngen. KeyPair skal vælges for at logge ind på EC2-forekomsten. EMR opretter automatisk de relevante roller og sikkerhedsgrupper og vedhæfter dem til master- og arbejder-EC2-noder. Klik på 'Opret klynge'.

Oprettelsen af ​​klyngen tager et par minutter, da EC2-forekomsterne skal købes op, og de forskellige Big Data-software skal installeres og konfigureres. Oprindeligt ville klyngestatus være i 'Start' -tilstand og gå videre til 'Venter' -tilstand. I tilstanden 'Venter' venter EMR-klyngen simpelthen på, at vi sender forskellige Big Data-behandlingsjob som MR, Spark, Hive osv.

forskel mellem interface og klasse

Bemærk også fra EC2 Management Console, og bemærk, at master- og arbejdstager-EC2-forekomsterne skal køre. Dette er Spot-forekomsterne, der er oprettet som en del af oprettelsen af ​​EMR-klyngen. Den samme EC2 kan også ses fra fanen Hardware i EMR Management Console. Bemærk, at prisen på Spot EC2-forekomsterne i fanen Hardware er nævnt som 0,032 $ / time. Prisen på Spot-forekomsterne ændrer sig med tiden og er meget lavere end på On-Demand EC2-prissætningen.

Trin 7: Nu hvor EMR-klyngen er tilføjet med succes, kan trin eller Big Data-behandlingsjob tilføjes. Gå til fanen Trin, og klik på “Tilføj trin”, og vælg typen af ​​trin (MR, Hive, Spark osv.). Vi vil undersøge det samme i den kommende tutorial. For nu skal du klikke på Annuller.

Trin 8: Nu hvor vi har set, hvordan man starter EMR, kan vi se, hvordan man stopper det samme.

Trin 8.1: Klik på Afslut.

Trin 8.2: Som nævnt i de foregående trin er 'Afslutningsbeskyttelse' Til for EMR-klyngen, og knappen Afslut er deaktiveret. Klik på Skift.

Trin 8.3: Vælg alternativknappen “Fra”, og klik på fluebenet. Nu skal knappen Afslut være aktiveret. Dette er det ekstra trin, EMR har introduceret, bare for at sikre, at vi ikke ved et uheld sletter EMR-klyngen.

Bemærk, at EMR-klyngen vil være i afslutningsstatus, og at EC2'er vil blive afsluttet. Endelig flyttes EMR-klyngen til status afsluttet, herfra stopper vores fakturering med AWS. Sørg for at afslutte klyngen for ikke at medføre yderligere AWS-omkostninger.

Konklusion

I denne vejledning har vi set, hvordan man starter EMR-klyngen inden for få minutter fra webkonsollen (browser), det samme kan automatiseres ved hjælp af , AWS SDK eller ved hjælp af AWS CloudFormation . Som bemærket at opsætte en EMR-klynge kan gøres er et spørgsmål om minutter, og Big Data-behandlingen kan startes med det samme, når behandlingen er færdig, kan outputen gemmes i S3 eller DynamoDB og så nedlukningen af ​​klyngen for at stoppe fakturering. På grund af denne prisfastsættelsesmodel og brugervenlighed er EMR et stort hit hos dem, der laver Big Data-behandling. Ingen grund til at købe server i stort antal, få licenser til Big Data-softwaren og vedligeholde dem. '

Så dette er det fyre, dette bringer os til slutningen af ​​denne artikel om Sådan oprettes Hadoop-klynge med Amazon EMR?Hvis du ønsker at få ekspertise inden for dette emne, er Edureka kommet med en læseplan, der dækker nøjagtigt, hvad du har brug for for at knække løsningsarkitekteksamen! Du kan se på kursusoplysningerne for uddannelse.

I tilfælde af spørgsmål relateret til denne blog, er du velkommen til at stille spørgsmål i kommentarfeltet nedenfor, og vi vil mere end gerne svare dig tidligst.