Hadoop 2.0 - Ofte stillede spørgsmål



Interessen for Hadoop er steget til mange gange de sidste par år. Dette indlæg besvarer dine forespørgsler og rydder mange tvivl om Hadoop 2.0 og dets brug.

Dette er et opfølgende indlæg med svar på ofte stillede spørgsmål under det offentlige webinar af edureka! på .

Ofte stillede spørgsmål om Hadoop

Deepak:





Hvad er Hadoop?
Apache Hadoop er en open source-software-ramme til opbevaring og storforarbejdning af datasæt på en klynge af råvarehardware. Det er en open source-datastyringssoftwarestruktur med opskalering af lager og distribueret behandling. Det bygges og bruges af et globalt samfund af bidragsydere og brugere.

Læs mere på vores Hadoop-blogindlæg og .



Søg:

Hvad er tilfældene med big data i rejse-, transport- og luftfartsindustrien?

Solrig:



Kan du pege os på en prøve fra det virkelige liv af Hadoop Implementation, som vi kan studere?
Vi er liviafi en æra med stigende overbelastning i spidsbelastning. Transportoperatører søger konstant at finde omkostningseffektive måder at levere deres tjenester på, mens de holder deres transportflåde under gode forhold. Big Data Analytics-brug på dette domæne kan hjælpe organisationen med:

  • Ruteoptimering
  • Geospatial analytics
  • Trafikmønstre og overbelastning
  • Aktiver vedligeholdelse
  • Indtægtsstyring (dvs. flyselskab)
  • Lagerstyring
  • Brændstofbesparelse
  • Målrettet markedsføring
  • Kunde loyalitet
  • Kapacitetsprognoser
  • Netværksydelse og optimering

Få virkelige brugssager er:
til) Bestemmelse af flyomkostninger
b) Prediction Modelling for Inventory Logistics
c) Orbitz Worldwide - Kundekøbsmønstre
d) Seks super-skala Hadoop-implementeringer
er) Hadoop - Mere end tilføjer
f) Hadoop i Enterprise

hvad kan serienummeres i java

Du kan lære mere om Hadoop Real-world implementeringer på:

Hirdesh:

Er Hadoop alt om datahåndtering og behandling? Hvordan går vi til rapportering og Visual Analytics. Kan Qlikview, Tableau bruges oven på Hadoop?
De centrale Hadoop-komponenter HDFS og MapReduce handler om datalagring og behandling. HDFS til opbevaring og MapReduce til behandling. Men kernekomponenter fra Hadoop som Pig og Hive bruges til analyse. For Visual Reports Tableau kan QlikView tilsluttes Hadoop til visuel rapportering.

Amit:

Hadoop Vs. mongoDB
MongoDB bruges som den 'operationelle' realtids datalager, mens Hadoop bruges til offline batch databehandling og analyse.
mongoDB er en dokumentorienteret, skemafri datalager, som du kan bruge i en webapplikation som backend i stedet for RDBMS som MySQL, mens Hadoop hovedsageligt bruges til at skalere op og distribueret behandling til store mængder data.

Læs mere på vores mongoDB og Hadoop blogindlæg .

Her:

Er Apache Spark en del af Hadoop ?
Apache Spark er en hurtig og generel motor til databehandling i stor skala. Spark er hurtigere og understøtter In-Memory-behandling. Spark-eksekveringsmotor udvider typen af ​​computerarbejdsbelastninger, som Hadoop kan håndtere og kan køre på Hadoop 2.0 YARN-klynge. Det er et behandlingsrammesystem, der giver mulighed for lagring af In-Memory-objekter (RDD) sammen med en evne til at behandle disse objekter ved hjælp af Scala-lukninger. Det understøtter Graph, Data Warehouse, Machine Learning og Stream-behandling.

Hvis du har en Hadoop 2-klynge, kan du køre Spark uden installation. Ellers er Spark let at køre enkeltstående eller på EC2 eller Mesos. Det kan læses fra HDFS, HBase, Cassandra og enhver Hadoop-datakilde.

Læs mere om Spark her .

Prasad:

Hvad er Apache Flume?
Apache Flume er et distribueret, pålideligt og tilgængeligt system til effektiv indsamling, sammenlægning og flytning af store mængder logdata fra mange forskellige kilder til en central datakilde.

Amit:

SQL vs NO-SQL-databaser
NoSQL-databaser er Next Generation-databaser og adresserer for det meste nogle af punkterne

  • ikke-relationel
  • distribueret
  • open source
  • vandret skalerbar

Ofte gælder flere egenskaber som skemafri, let replikeringsunderstøttelse, enkel API, til sidst konsekvent / BASE (ikke ACID), en enorm mængde data og mere. For eksempel er få af differentiererne:

  • NoSQL-databaser skaleres vandret op og tilføjer flere servere til at håndtere større belastninger. SQL-databaser, på den anden side, skaleres normalt lodret op og tilføjer flere og flere ressourcer til en enkelt server, når trafikken øges.
  • SQL-databaser krævede, at du definerede dine skemaer, før du tilføjede oplysninger og data, men NoSQL-databaser er skemafrie, kræver ikke skemadefinition på forhånd.
  • SQL-databaser er tabelbaserede med rækker og kolonner efter RDBMS-principper, hvorimod NoSQL-databaser er dokument-, nøgleværdipar, graf eller store kolonnelagre.
  • SQL-databaser bruger SQL (struktureret forespørgselssprog) til at definere og manipulere dataene. I NoSQL-database varierer forespørgsler fra en database til en anden.

Populære SQL-databaser: MySQL, Oracle, Postgres og MS-SQL
Populær NoSQL-databaser: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j og CouchDB

java-program for at kontrollere palindrom

Gennemgå vores blogs på Hadoop og NoSQL databaser og fordele ved en sådan database:

Koteswararao:

Har Hadoop en indbygget klyngeteknologi?
En Hadoop-klynge bruger Master-Slave-arkitektur. Den består af en enkelt master (NameNode) og en klynge af slaver (DataNodes) til at gemme og behandle data. Hadoop er designet til at køre på et stort antal maskiner, der ikke deler hukommelse eller diske. Disse DataNodes er konfigureret som Cluster ved hjælp af . Hadoop bruger et replikeringsbegreb for at sikre, at mindst en kopi af data er tilgængelig i klyngen hele tiden. Da der er flere kopier af data, kan data, der er gemt på en server, der går offline eller dør, automatisk replikeres fra en kendt god kopi.

Dinesh:

Hvad er et job i Hadoop? Hvad alt kan opnås via et job?
I Hadoop er et job et MapReduce-program til at behandle / analysere dataene. Udtrykket MapReduce refererer faktisk til to separate og forskellige opgaver, som Hadoop-programmer udfører. Den første er kortopgaven, som tager et sæt data og konverterer det til et andet sæt mellemliggende data, hvor individuelle elementer er opdelt i nøgleværdipar. Den anden del af et MapReduce-job, Reducer-opgaven, tager output fra et kort som input og kombinerer nøgleværdiparene i et mindre sæt aggregeret nøgleværdipar. Som sekvensen af ​​navnet MapReduce antyder, udføres Reducer-opgaven altid efter afslutningen af ​​Map-opgaver. Læs mere om MapReduce Job .

Sukruth:

Hvad er specielt ved NameNode ?
NameNode er hjertet i et HDFS-filsystem. Det gemmer metadataene, såsom katalogtræet for alle filer i filsystemet og sporer, hvor fildataene over hele klyngen opbevares. De faktiske data gemmes på DataNodes som HDFS-blokke.
Klientapplikationer taler med NameNode, når de ønsker at finde en fil, eller når de vil tilføje / kopiere / flytte / slette en fil. NameNode svarer på de vellykkede anmodninger ved at returnere en liste over relevante DataNodes-servere, hvor dataene lever. Læs mere om HDFS Architecture .

Dinesh:

Hvornår blev Hadoop 2.0 introduceret på markedet?
Apache Software foundation (ASF), open source-gruppen, der administrerer Hadoop Development, har i sin blog den 15. oktober 2013 meddelt, at Hadoop 2.0 nu er generelt tilgængelig (GA). Denne meddelelse betyder, at Apache Hadoop 2.0 og YARN efter lang ventetid nu er klar til implementering af produktionen. Mere om Blog.

Dinesh:

Hvad er de få eksempler på ikke-MapReduce Big Data-applikation?
MapReduce er fantastisk til mange applikationer til at løse Big Data-problemer, men ikke for alt, hvad andre programmeringsmodeller tjener bedre som grafbehandling (f.eks. Google Pregel / Apache Giraph) og iterativ modellering med Message Passing Interface (MPI).

Marish:

Hvordan arrangeres og indekseres dataene i HDFS?
Data er opdelt i blokke på 64 MB (konfigureres af en parameter) og lagres i HDFS. NameNode gemmer lagringsoplysninger for disse blokke som blok-id'er i sit RAM (NameNode-metadata). MapReduce-job kan få adgang til disse blokke ved hjælp af de metadata, der er gemt i NameNode RAM.

Shashwat:

Kan vi bruge både MapReduce (MRv1) og MRv2 (med YARN) i samme klynge?
Hadoop 2.0 har introduceret en ny ramme YARN til at skrive og udføre forskellige applikationer på Hadoop. Så YARN og MapReduce er to forskellige begreber i Hadoop 2.0 og bør ikke blandes og bruges om hverandre. Det rigtige spørgsmål er 'Er det muligt at køre både MRv1 og MRv2 på en YARN-aktiveret Hadoop 2.0-klynge?' Svaret på dette spørgsmål er et 'Ingen' som selvom en Hadoop-klynge kan konfigureres til at køre både MRv1 og MRv2, men kun kan køre et sæt dæmoner på ethvert tidspunkt. Begge disse rammer bruger i sidste ende de samme konfigurationsfiler ( garn-site.xml og mapred-site.xml ) for at køre dæmoner, kan derfor kun en af ​​de to konfigurationer aktiveres på en Hadoop-klynge.

Dukke:

Hvad er forskellen mellem Next Generation MapReduce (MRv2) og GARN?
YARN og Next Generation MapReduce (MRv2) er to forskellige koncepter og teknologier i Hadoop 2.0. YARN er en softwarestruktur, der kan bruges til ikke kun at køre MRv2, men også andre applikationer. MRv2 er en applikationsramme skrevet ved hjælp af YARN API, og den kører inden for YARN.

Bharat:

sql server integration tjenester tutorial

Tilbyder Hadoop 2.0 bagudkompatibilitet til Hadoop 1.x-applikationer?
Neha:

Kræver Hadoop 1.0 til 2.0-migrering tung applikationskode migration?
Nej, det meste af applikationen, der er udviklet ved hjælp af 'org.apache.hadoop.mapred' API'er, kan køre på YARN uden nogen kompilering. YARN er binærkompatibel til MRv1-applikationer, og 'bin / hadoop' kan bruges til at indsende disse ansøgninger på YARN. Læs mere om dette her .

Sherin:

Hvad sker der, hvis Resource Manager-node mislykkes i Hadoop 2.0?
Fra Hadoop Release 2.4.0 er understøttelse af høj tilgængelighed til Resource Manager også tilgængelig. ResourceManager bruger Apache ZooKeeper til fail-over. Når Resource Manager-noden mislykkes, kan en sekundær node hurtigt gendannes via klyngetilstand gemt i ZooKeeper. ResourceManager genstarter alle de programmer, der kører og kører, ved en fail-over.

Sabbirali:

Fungerer Apache's Hadoop-ramme på Cloudera Hadoop?
Apache Hadoop blev introduceret i 2005 med kernen i MapReduce-behandlingsmotoren til understøttelse af distribueret behandling af store dataarbejdsbelastninger gemt i HDFS. Det er et open source-projekt og har flere distributioner (svarende til Linux). Cloudera Hadoop (CDH) er en sådan distribution fra Cloudera. Andre lignende distributioner er HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights osv.

Arulvadivel:

Enhver nem måde at installere Hadoop på min bærbare computer og prøve at migrere Oracle-databasen til Hadoop?
Du kan Start med en HortonWorks Sandbox eller Cloudera Quick VM på din bærbare computer (med mindst 4 GB RAM og i3 eller derover processor). Brug SQOOP til at flytte data fra Oracle til Hadoop som forklaret her .

Bhabani:

Hvad er de bedste tilgængelige bøger til at lære Hadoop?
Start med Hadoop: Den endelige vejledning af Tom White og Hadoop-operationer by Eric Sammer.

Mahendra:

Er der nogen læsning tilgængelig for Hadoop 2.0 ligesom Hadoop den endelige guide?
Gennemgå seneste ankomst på bogreoler skrevet af få af skaberne af Hadoop 2.0.

Hold øje med flere spørgsmål i denne serie.