Installer Hadoop: Opsætning af en enkelt node Hadoop-klynge



Denne vejledning er en trinvis vejledning til installation af Hadoop-klynge og konfiguration på en enkelt node. Alle Hadoop-installationstrin er til CentOS-maskine.

Installer Hadoop: Opsætning af en enkelt node Hadoop-klynge

Fra vores tidligere blogs , skal du have en teoretisk idé om Hadoop, HDFS og dens arkitektur.Men at få du har brug for god praktisk viden.Jeg håber, du ville have ønsket vores tidligere blog den , nu tager jeg dig gennem den praktiske viden om Hadoop og HDFS. Det første skridt fremad er at installere Hadoop.

Der er to måder at installere Hadoop på, dvs. Enkelt knude og Multi knude .





Enkelt knudepunktsklynge betyder kun en DataNode, der kører og opsætter alle NameNode, DataNode, ResourceManager og NodeManager på en enkelt maskine. Dette bruges til at studere og teste formål. Lad os for eksempel overveje et eksempeldatasæt inden for en sundhedsindustri. Så til at teste, om Oozie-jobene har planlagt alle processerne som indsamling, sammenlægning, lagring og behandling af dataene i en korrekt sekvens, bruger vi en enkelt knudepunktsklynge. Det kan nemt og effektivt teste den sekventielle arbejdsgang i et mindre miljø sammenlignet med store miljøer, der indeholder terabyte data fordelt på hundredvis af maskiner.

Mens i en Klynge med flere knudepunkter , der kører mere end en DataNode, og hver DataNode kører på forskellige maskiner. Multiknudeklyngen bruges praktisk talt i organisationer til analyse af Big Data. I betragtning af ovenstående eksempel skal det i realtid, når vi beskæftiger os med petabyte data, distribueres på hundredvis af maskiner, der skal behandles. Så her bruger vi multi node-klynge.



I denne blog vil jeg vise dig, hvordan du installerer Hadoop på en enkelt node-klynge.

Forudsætninger

  • VIRTUAL BOX : det bruges til at installere operativsystemet på det.
  • OPERATIV SYSTEM : Du kan installere Hadoop på Linux-baserede operativsystemer. Ubuntu og CentOS er meget almindeligt anvendte. I denne vejledning bruger vi CentOS.
  • JAVA : Du skal installere Java 8-pakken på dit system.
  • HADOOP : Du har brug for Hadoop 2.7.3-pakke.

Installer Hadoop

Trin 1: Klik her for at downloade Java 8-pakken. Gem denne fil i dit hjemmekatalog.

Trin 2: Uddrag Java Tar File.

Kommando : tjære -xvf jdk-8u101-linux-i586.tar.gz

datastruktur og algoritme i java

Smear Java - Installer Hadoop - Edureka



Fig: Installation af Hadoop - udpakning af Java-filer

Trin 3: Download Hadoop 2.7.3-pakken.

Kommando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Installation af Hadoop - Download af Hadoop

Trin 4: Uddrag Hadoop-tjærefilen.

Kommando : tjære -xvf hadoop-2.7.3.tar.gz

Fig: Installation af Hadoop - Udpakning af Hadoop-filer

Trin 5: Tilføj Hadoop- og Java-stierne i bash-filen (.bashrc).

Åben . bashrc fil. Tilføj nu Hadoop og Java Path som vist nedenfor.

Kommando : vi .bashrc

Fig: Installation af Hadoop - Indstillingsmiljøvariabel

Gem derefter bash-filen og luk den.

For at anvende alle disse ændringer på den aktuelle terminal skal du udføre kildekommandoen.

Kommando : kilde .bashrc

Fig: Installation af Hadoop - Forfriskende miljøvariabler

For at sikre, at Java og Hadoop er korrekt installeret på dit system og kan tilgås via Terminal, f.eksx udfør kommandoerne java -version og hadoop-version.

Kommando : java-version

Fig: Installation af Hadoop - Kontrol af Java-version

Kommando : hadoopversion

Fig: Installation af Hadoop - Kontrol af Hadoop-version

Trin 6 : Rediger .

Kommando: cd hadoop-2.7.3 / etc / hadoop /

Kommando: ls

Alle Hadoop-konfigurationsfiler findes i hadoop-2.7.3 / etc / hadoop katalog som du kan se i snapshotet nedenfor:

Fig: Installation af Hadoop - Hadoop-konfigurationsfiler

Trin 7 : Åben core-site.xml og rediger nedenstående egenskab i konfigurationstagget:

core-site.xml informerer Hadoop-dæmonen, hvor NameNode kører i klyngen. Den indeholder konfigurationsindstillinger for Hadoop-kernen, såsom I / O-indstillinger, der er fælles for HDFS & MapReduce.

Kommando : vi core-site.xml

Fig: Installation af Hadoop - Konfiguration af core-site.xml

fs.default.name hdfs: // localhost: 9000

Trin 8: Redigere hdfs-site.xml og rediger nedenstående egenskab i konfigurationstagget:

hdfs-site.xml indeholder konfigurationsindstillinger for HDFS-dæmoner (dvs. NameNode, DataNode, Secondary NameNode). Det inkluderer også replikationsfaktoren og blokstørrelsen på HDFS.

Kommando : vi hdfs-site.xml

Fig: Installation af Hadoop - Konfiguration af hdfs-site.xml

dfs.replication 1 dfs.permission false

Trin 9 : Rediger mapred-site.xml fil og rediger nedenstående egenskab inde i konfigurationstagget:

mapred-site.xml indeholder konfigurationsindstillinger for MapReduce-applikation som antallet af JVM, der kan køre parallelt, størrelsen på kortlæggeren og reduceringsprocessen, CPU-kerner tilgængelige til en proces osv.

I nogle tilfælde er mapred-site.xml-filen ikke tilgængelig. Så vi er nødt til at oprette filen mapred-site.xmlved hjælp af mapred-site.xml-skabelon.

Kommando : cp mapred-site.xml.template mapred-site.xml

java til eksempler på loopprogrammer

Kommando : vi mapred-websted.xml.

Fig: Installation af Hadoop - Konfiguration af mapred-site.xml

mapreduce.framework.name garn

Trin 10: Redigere garn-site.xml og rediger nedenstående egenskab i konfigurationstagget:

garn-site.xml indeholder konfigurationsindstillinger for ResourceManager og NodeManager som applikationshukommelsesstyringsstørrelse, den nødvendige operation på program & algoritme osv.

Kommando : vi garn-site.xml

Fig: Installation af Hadoop - Konfiguration af garn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle garn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Trin 11: Redigere hadoop-env.sh og tilføj Java-stien som nævnt nedenfor:

hadoop-env.sh indeholder de miljøvariabler, der bruges i scriptet til at køre Hadoop som Java-hjemmesti osv.

Kommando : vi hadoop-env.sh

Fig: Installation af Hadoop - Konfiguration af hadoop-env.sh

Trin 12: Gå til Hadoop-hjemmekatalog og formater NameNode.

Kommando : CD

Kommando : cd hadoop-2.7.3

Kommando : bin / hadoop formål -format

Fig: Installation af Hadoop - Formatering af NameNode

Dette formaterer HDFS via NameNode. Denne kommando udføres kun første gang. Formatering af filsystemet betyder at initialisere den mappe, der er specificeret af variablen dfs.name.dir.

Formater aldrig, start og kør Hadoop-filsystem. Du mister alle dine data, der er gemt i HDFS.

Trin 13: Når NameNode er formateret, skal du gå til hadoop-2.7.3 / sbin-biblioteket og starte alle dæmoner.

Kommando: cd hadoop-2.7.3 / sbin

Enten kan du starte alle dæmoner med en enkelt kommando eller gøre det individuelt.

Kommando: ./ start-all.sh

Ovenstående kommando er en kombination af start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Eller du kan køre alle tjenesterne individuelt som nedenfor:

StartnavnNode:

NameNode er midtpunktet i et HDFS-filsystem. Det holder katalogtræet for alle filer, der er gemt i HDFS, og sporer alle de filer, der er gemt over hele klyngen.

Kommando: ./hadoop-daemon.sh start formål

Fig: Installation af Hadoop - Start NameNode

Start DataNode:

Ved opstart opretter en DataNode forbindelse til Namenode, og den reagerer på anmodningerne fra Namenode om forskellige operationer.

Kommando: ./hadoop-daemon.sh start datanode

Fig: Installation af Hadoop - Start af DataNode

Start ResourceManager:

ResourceManager er mesteren, der arbitrerer alle de tilgængelige klyngeressourcer og dermed hjælper med at administrere de distribuerede applikationer, der kører på YARN-systemet. Dets arbejde er at styre hver NodeManagers og applikationens ApplicationMaster.

Kommando: ./garn-daemon.sh start resourcemanager

Fig: Installation af Hadoop - Start af ResourceManager

Start NodeManager:

NodeManager i hver maskinstruktur er den agent, der er ansvarlig for at administrere containere, overvåge deres ressourceforbrug og rapportere det samme til ResourceManager.

Kommando: ./garn-daemon.sh start nodemanager

Fig: Installation af Hadoop - Start af NodeManager

Start JobHistoryServer:

JobHistoryServer er ansvarlig for at servicere alle jobhistorikrelaterede anmodninger fra klienten.

Kommando : ./mr-jobhistory-daemon.sh start historyserver

Trin 14: For at kontrollere, at alle Hadoop-tjenesterne er i gang, skal du køre nedenstående kommando.

Kommando: jps

hvad der udskrives i python

Fig: Installation af Hadoop - Kontrol af dæmoner

Trin 15: Åbn nu Mozilla-browseren, og gå til lokal vært : 50070 / dfshealth.html for at kontrollere NameNode-grænsefladen.

Fig: Installation af Hadoop - Start af WebUI

Tillykke, du har med succes installeret en enkelt node Hadoop-klynge på én gang.I vores næste blog af , vi vil også dække, hvordan man installerer Hadoop på en klynge med flere noder.

Nu hvor du har forstået, hvordan du installerer Hadoop, skal du tjekke af Edureka, et pålideligt online læringsfirma med et netværk på mere end 250.000 tilfredse elever spredt over hele kloden. Edureka Big Data Hadoop-certificeringskursus hjælper elever med at blive eksperter i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved hjælp af realtidsanvendelsessager på Retail, Social Media, Aviation, Tourism, Finance domæne.

Har du et spørgsmål til os? Nævn det i kommentarfeltet, og vi vender tilbage til dig.