Introduktion til Apache Hive



Apache Hive er en Data Warehousing-pakke bygget oven på Hadoop og bruges til dataanalyse. Hive er målrettet mod brugere, der er fortrolige med SQL.

Apache Hive er en Data Warehousing-pakke bygget oven på Hadoop og bruges til dataanalyse. Hive er målrettet mod brugere, der er fortrolige med SQL. Det ligner SQL og kaldes HiveQL, der bruges til styring og forespørgsel på strukturerede data. Apache Hive bruges til at abstrakte Hadoops kompleksitet. Dette sprog tillader også traditionelle kort- / reduceringsprogrammerere at tilslutte deres brugerdefinerede kortlæggere og reduceringsprogrammer. Det populære ved Hive er, at der ikke er behov for at lære Java.





hvordan man bruger en iterator i java

Hive, en open source-oplagringsramme til peta-byte-skala baseret på Hadoop, blev udviklet af Data Infrastructure Team på Facebook. Hive er også en af ​​de teknologier, der bruges til at imødekomme kravene på Facebook. Hive er meget populær blandt alle brugere internt på Facebook og bruges til at køre tusindvis af job på klyngen med hundredvis af brugere til en bred vifte af applikationer. Hive-Hadoop-klynge på Facebook gemmer mere end 2 PB rådata og indlæser regelmæssigt 15 TB data dagligt.

Lad os se på nogle af dens funktioner, der gør den populær og brugervenlig:



  • Tillader programmører at tilslutte brugerdefinerede Mappers og Reducers.
  • Har datavarehusinfrastruktur.
  • Tilbyder værktøjer til at muliggøre let data ETL.
  • Definerer SQL-lignende forespørgselssprog kaldet QL.

Apache Hive-brugssag - Facebook:

Hive Use Case - Facebook

Før implementering af Hive stod Facebook over for mange udfordringer, da størrelsen på data, der blev genereret, steg eller snarere eksploderede, hvilket gjorde det virkelig svært at håndtere dem. Den traditionelle RDBMS kunne ikke håndtere presset, og som et resultat så Facebook på bedre muligheder. For at løse dette forestående problem forsøgte Facebook oprindeligt at bruge Hadoop MapReduce, men med problemer med programmering og obligatorisk viden i SQL gjorde det det til en upraktisk løsning. Hive tillod dem at overvinde de udfordringer, de stod overfor.

Med Hive er de nu i stand til at udføre følgende:



  • Borde kan deles op og spandes
  • Skema fleksibilitet og udvikling
  • JDBC / ODBC-drivere er tilgængelige
  • Hive-tabeller kan defineres direkte i HDFS
  • Udvidelig - Typer, formater, funktioner og scripts

Hive-brugssag i sundhedsvæsenet:

Hvor skal jeg bruge bikuben?

Apache Hive kan bruges følgende steder:

  • Data Mining
  • Logbehandling
  • Dokumentindeksering
  • Kunde overfor Business Intelligence
  • Forudsigelig modellering
  • Hypotese testning

Hive Arkitektur:

Hive består af følgende hovedkomponenter:

  • Metastore - At gemme metadataene.
  • JDBC / ODBC - Query Compiler and Execution Engine til at konvertere SQL-forespørgsler til en sekvens af MapReduce.
  • SerDe og ObjectInspectors - Til dataformater og typer.
  • UDF/UDAF – For User Defined Functions.
  • Klienter - Svarende til MySQL-kommandolinjen og et web-UI.

Komponenter i Hive:

Metastore:

spørgsmål til Google Data Scientist Interview

Metastore gemmer oplysningerne om tabellerne, partitionerne og kolonnerne i tabellerne. Der er 3 måder at gemme i Metastore: Embedded Metastore, Local Metastore og Remote Metastore. For det meste vil Remote Metastore blive brugt i produktionstilstand.

Begrænsninger af Hive:

Hive har følgende begrænsninger og kan ikke bruges under sådanne omstændigheder:

  • Ikke designet til online transaktionsbehandling.
  • Giver acceptabel latenstid til interaktiv browsing af data.
  • Tilbyder ikke realtidsforespørgsler og opdateringer på rækkeniveau.
  • Latency for Hive-forespørgsler er generelt meget høj.

Har du et spørgsmål til os? Nævn dem i kommentarfeltet, så vender vi tilbage til dig.

hvad er charat i java

Relaterede indlæg:

Hive-kommandoer