Installer Hadoop: Opsætning af en enkelt node Hadoop-klynge
Fra vores tidligere blogs , skal du have en teoretisk idé om Hadoop, HDFS og dens arkitektur.Men at få du har brug for god praktisk viden.Jeg håber, du ville have ønsket vores tidligere blog den , nu tager jeg dig gennem den praktiske viden om Hadoop og HDFS. Det første skridt fremad er at installere Hadoop.
Der er to måder at installere Hadoop på, dvs. Enkelt knude og Multi knude .
Enkelt knudepunktsklynge betyder kun en DataNode, der kører og opsætter alle NameNode, DataNode, ResourceManager og NodeManager på en enkelt maskine. Dette bruges til at studere og teste formål. Lad os for eksempel overveje et eksempeldatasæt inden for en sundhedsindustri. Så til at teste, om Oozie-jobene har planlagt alle processerne som indsamling, sammenlægning, lagring og behandling af dataene i en korrekt sekvens, bruger vi en enkelt knudepunktsklynge. Det kan nemt og effektivt teste den sekventielle arbejdsgang i et mindre miljø sammenlignet med store miljøer, der indeholder terabyte data fordelt på hundredvis af maskiner.
Mens i en Klynge med flere knudepunkter , der kører mere end en DataNode, og hver DataNode kører på forskellige maskiner. Multiknudeklyngen bruges praktisk talt i organisationer til analyse af Big Data. I betragtning af ovenstående eksempel skal det i realtid, når vi beskæftiger os med petabyte data, distribueres på hundredvis af maskiner, der skal behandles. Så her bruger vi multi node-klynge.
I denne blog vil jeg vise dig, hvordan du installerer Hadoop på en enkelt node-klynge.
Forudsætninger
- VIRTUAL BOX : det bruges til at installere operativsystemet på det.
- OPERATIV SYSTEM : Du kan installere Hadoop på Linux-baserede operativsystemer. Ubuntu og CentOS er meget almindeligt anvendte. I denne vejledning bruger vi CentOS.
- JAVA : Du skal installere Java 8-pakken på dit system.
- HADOOP : Du har brug for Hadoop 2.7.3-pakke.
Installer Hadoop
Trin 1: Klik her for at downloade Java 8-pakken. Gem denne fil i dit hjemmekatalog.
Trin 2: Uddrag Java Tar File.
Kommando : tjære -xvf jdk-8u101-linux-i586.tar.gz
datastruktur og algoritme i java
Fig: Installation af Hadoop - udpakning af Java-filer
Trin 3: Download Hadoop 2.7.3-pakken.
Kommando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Fig: Installation af Hadoop - Download af Hadoop
Trin 4: Uddrag Hadoop-tjærefilen.
Kommando : tjære -xvf hadoop-2.7.3.tar.gz
Fig: Installation af Hadoop - Udpakning af Hadoop-filer
Trin 5: Tilføj Hadoop- og Java-stierne i bash-filen (.bashrc).
Åben . bashrc fil. Tilføj nu Hadoop og Java Path som vist nedenfor.
Kommando : vi .bashrc
Fig: Installation af Hadoop - Indstillingsmiljøvariabel
Gem derefter bash-filen og luk den.
For at anvende alle disse ændringer på den aktuelle terminal skal du udføre kildekommandoen.
Kommando : kilde .bashrc
Fig: Installation af Hadoop - Forfriskende miljøvariabler
For at sikre, at Java og Hadoop er korrekt installeret på dit system og kan tilgås via Terminal, f.eksx udfør kommandoerne java -version og hadoop-version.
Kommando : java-version
Fig: Installation af Hadoop - Kontrol af Java-version
Kommando : hadoopversion
Fig: Installation af Hadoop - Kontrol af Hadoop-version
Trin 6 : Rediger .
Kommando: cd hadoop-2.7.3 / etc / hadoop /
Kommando: ls
Alle Hadoop-konfigurationsfiler findes i hadoop-2.7.3 / etc / hadoop katalog som du kan se i snapshotet nedenfor:
Fig: Installation af Hadoop - Hadoop-konfigurationsfiler
Trin 7 : Åben core-site.xml og rediger nedenstående egenskab i konfigurationstagget:
core-site.xml informerer Hadoop-dæmonen, hvor NameNode kører i klyngen. Den indeholder konfigurationsindstillinger for Hadoop-kernen, såsom I / O-indstillinger, der er fælles for HDFS & MapReduce.
Kommando : vi core-site.xml
Fig: Installation af Hadoop - Konfiguration af core-site.xml
fs.default.name hdfs: // localhost: 9000
Trin 8: Redigere hdfs-site.xml og rediger nedenstående egenskab i konfigurationstagget:
hdfs-site.xml indeholder konfigurationsindstillinger for HDFS-dæmoner (dvs. NameNode, DataNode, Secondary NameNode). Det inkluderer også replikationsfaktoren og blokstørrelsen på HDFS.
Kommando : vi hdfs-site.xml
Fig: Installation af Hadoop - Konfiguration af hdfs-site.xml
dfs.replication 1 dfs.permission false
Trin 9 : Rediger mapred-site.xml fil og rediger nedenstående egenskab inde i konfigurationstagget:
mapred-site.xml indeholder konfigurationsindstillinger for MapReduce-applikation som antallet af JVM, der kan køre parallelt, størrelsen på kortlæggeren og reduceringsprocessen, CPU-kerner tilgængelige til en proces osv.
I nogle tilfælde er mapred-site.xml-filen ikke tilgængelig. Så vi er nødt til at oprette filen mapred-site.xmlved hjælp af mapred-site.xml-skabelon.
Kommando : cp mapred-site.xml.template mapred-site.xml
java til eksempler på loopprogrammer
Kommando : vi mapred-websted.xml.
Fig: Installation af Hadoop - Konfiguration af mapred-site.xml
mapreduce.framework.name garn
Trin 10: Redigere garn-site.xml og rediger nedenstående egenskab i konfigurationstagget:
garn-site.xml indeholder konfigurationsindstillinger for ResourceManager og NodeManager som applikationshukommelsesstyringsstørrelse, den nødvendige operation på program & algoritme osv.
Kommando : vi garn-site.xml
Fig: Installation af Hadoop - Konfiguration af garn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle garn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Trin 11: Redigere hadoop-env.sh og tilføj Java-stien som nævnt nedenfor:
hadoop-env.sh indeholder de miljøvariabler, der bruges i scriptet til at køre Hadoop som Java-hjemmesti osv.
Kommando : vi hadoop-env.sh
Fig: Installation af Hadoop - Konfiguration af hadoop-env.sh
Trin 12: Gå til Hadoop-hjemmekatalog og formater NameNode.
Kommando : CD
Kommando : cd hadoop-2.7.3
Kommando : bin / hadoop formål -format
Fig: Installation af Hadoop - Formatering af NameNode
Dette formaterer HDFS via NameNode. Denne kommando udføres kun første gang. Formatering af filsystemet betyder at initialisere den mappe, der er specificeret af variablen dfs.name.dir.
Formater aldrig, start og kør Hadoop-filsystem. Du mister alle dine data, der er gemt i HDFS.
Trin 13: Når NameNode er formateret, skal du gå til hadoop-2.7.3 / sbin-biblioteket og starte alle dæmoner.
Kommando: cd hadoop-2.7.3 / sbin
Enten kan du starte alle dæmoner med en enkelt kommando eller gøre det individuelt.
Kommando: ./ start-all.sh
Ovenstående kommando er en kombination af start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh
Eller du kan køre alle tjenesterne individuelt som nedenfor:
StartnavnNode:
NameNode er midtpunktet i et HDFS-filsystem. Det holder katalogtræet for alle filer, der er gemt i HDFS, og sporer alle de filer, der er gemt over hele klyngen.
Kommando: ./hadoop-daemon.sh start formål
Fig: Installation af Hadoop - Start NameNode
Start DataNode:
Ved opstart opretter en DataNode forbindelse til Namenode, og den reagerer på anmodningerne fra Namenode om forskellige operationer.
Kommando: ./hadoop-daemon.sh start datanode
Fig: Installation af Hadoop - Start af DataNode
Start ResourceManager:
ResourceManager er mesteren, der arbitrerer alle de tilgængelige klyngeressourcer og dermed hjælper med at administrere de distribuerede applikationer, der kører på YARN-systemet. Dets arbejde er at styre hver NodeManagers og applikationens ApplicationMaster.
Kommando: ./garn-daemon.sh start resourcemanager
Fig: Installation af Hadoop - Start af ResourceManager
Start NodeManager:
NodeManager i hver maskinstruktur er den agent, der er ansvarlig for at administrere containere, overvåge deres ressourceforbrug og rapportere det samme til ResourceManager.
Kommando: ./garn-daemon.sh start nodemanager
Fig: Installation af Hadoop - Start af NodeManager
Start JobHistoryServer:
JobHistoryServer er ansvarlig for at servicere alle jobhistorikrelaterede anmodninger fra klienten.
Kommando : ./mr-jobhistory-daemon.sh start historyserver
Trin 14: For at kontrollere, at alle Hadoop-tjenesterne er i gang, skal du køre nedenstående kommando.
Kommando: jps
hvad der udskrives i python
Fig: Installation af Hadoop - Kontrol af dæmoner
Trin 15: Åbn nu Mozilla-browseren, og gå til lokal vært : 50070 / dfshealth.html for at kontrollere NameNode-grænsefladen.
Fig: Installation af Hadoop - Start af WebUI
Tillykke, du har med succes installeret en enkelt node Hadoop-klynge på én gang.I vores næste blog af , vi vil også dække, hvordan man installerer Hadoop på en klynge med flere noder.
Nu hvor du har forstået, hvordan du installerer Hadoop, skal du tjekke af Edureka, et pålideligt online læringsfirma med et netværk på mere end 250.000 tilfredse elever spredt over hele kloden. Edureka Big Data Hadoop-certificeringskursus hjælper elever med at blive eksperter i HDFS, Garn, MapReduce, Pig, Hive, HBase, Oozie, Flume og Sqoop ved hjælp af realtidsanvendelsessager på Retail, Social Media, Aviation, Tourism, Finance domæne.
Har du et spørgsmål til os? Nævn det i kommentarfeltet, og vi vender tilbage til dig.