Apache Hive er en af de vigtigste rammer i Hadoop-økosystemet, hvilket igen gør det meget afgørende for . I denne blog vil vi lære om Apache Hive og Hive-installation på Ubuntu.
Hvad er Apache Hive?
Apache Hive er en datalagerinfrastruktur, der letter forespørgsel og styring af store datasæt, der findes i distribueret lagersystem. Det er bygget oven på Hadoop og udviklet af Facebook. Hive giver en måde at forespørge på data ved hjælp af et SQL-lignende forespørgselssprog kaldet HiveQL (Hive query Language).
Internt oversætter en kompilator HiveQL udsagn til MapReduce job, som derefter sendes til Hadoop ramme til udførelse.
Forskel mellem Hive og SQL:
Hive ligner meget traditionel database med SQL adgang. Men fordi Hive er baseret på Hadoop og MapReduce operationer, er der flere nøgleforskelle:
Da Hadoop er beregnet til lange sekventielle scanninger og Hive er baseret på Hadoop , ville du forvente, at forespørgsler har en meget høj ventetid. Det betyder at Hive ville ikke være passende for de applikationer, der har brug for meget hurtige svartider, som du kan forvente med en traditionel RDBMS-database.
Langt om længe, Hive er læsebaseret og derfor ikke egnet til transaktionsbehandling, der typisk involverer en høj procentdel af skriveoperationer.
hvordan man viser array i php
Hive Installation på Ubuntu:
Følg nedenstående trin for at installere Apache Hive på Ubuntu:
Trin 1: Hent Hive tjære.
Kommando: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
Trin 2: Uddrag tjære fil.
Kommando: tar -xzf apache-hive-2.1.0-bin.tar.gz
Kommando: ls
Trin 3: Rediger “.Bashrc” fil for at opdatere miljøvariablerne for brugeren.
Kommando: sudo gedit .bashrc
Tilføj følgende i slutningen af filen:
# Indstil HIVE_HOME
eksporter HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
eksporter PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin
Sørg også for, at hadoop-stien også er indstillet.
Kør under kommandoen for at få ændringerne til at fungere i samme terminal.
Kommando: kilde .bashrc
Trin 4: Tjek hive version.
parse streng til dato java
Trin 5: skab Hive kataloger inden for HDFS . Mappen 'lager' er placeringen for at gemme tabellen eller data relateret til bikube.
Kommando:
- hdfs dfs -mkdir -p / bruger / bikube / lager
- hdfs dfs -mkdir / tmp
Trin 6: Indstil læse / skrive tilladelser til tabel.
Kommando:
I denne kommando giver vi skrivetilladelse til gruppen:
- hdfs dfs -chmod g + w / bruger / bikube / lager
- hdfs dfs -chmod g + w / tmp
Trin 7: Sæt Hadoop sti ind h ive-env.sh
Kommando: cd apache-hive-2.1.0-bin /
Kommando: gedit conf / hive-env.sh
Indstil parametrene som vist i nedenstående snapshot.
Trin 8: Redigere hive-site.xml
Kommando: gedit conf / hive-site.xml
javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = sand JDBC-forbindelsesstreng til en JDBC-metastore. For at bruge SSL til at kryptere / godkende forbindelsen skal du angive databasespecifikt SSL-flag i forbindelses-URL'en. For eksempel jdbc: postgresql: // myhost / db? Ssl = true for postgres-database. hive.metastore.warehouse.dir / bruger / hive / lager placering af standarddatabase for lageret hive.metastore.uris Thrift URI til fjernmetastore. Brugt af metastore-klienten til at oprette forbindelse til fjernmetastore. javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriver Driverklassens navn til en JDBC-metastore javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory klasse implementerer jdo persistens
Trin 9: Som standard bruger Hive Derby database. Initialiser Derby-database.
Kommando: bin / schematool -initSchema -dbType derby
Trin 10 :Start Hive.
Kommando: bikube
Trin 11 :Kør få forespørgsler i Hive shell.
Kommando: Vis databaser
Kommando: Opret tabelmedarbejder (id-streng, navnestreng, afdelingsstreng) rækkeformat afgrænsede felter afsluttet med '' gemt som tekstfil
Kommando: vis tabeller
Trin 12: For at forlade Hive:
Kommando: Afslut
Nu hvor du er færdig med Hive-installationen, er det næste skridt fremad at afprøve Hive-kommandoer på Hive-shell. Derfor vores næste blog “ Top Hive-kommandoer med eksempler i HQL ”Hjælper dig med at mestre Hive-kommandoer.
Relaterede indlæg:
Fibonacci-serieprogram i Java