Boring ned på Apache Drill, New Age Query Engine



Denne Apache Drill-tutorial giver dig alle de oplysninger, du har brug for for at komme i gang med Apache Drill-forespørgselsmotor, brug med Hadoop, Big Data & Apache Spark.

Apache Drill er branchens første skemafri SQL Engine. Drill er ikke verdens første forespørgselsmotor, men det er den første, der finder den fine balance mellem fleksibilitet og hastighed. Drill er designet til at skalere til flere tusinder af noder og forespørge på petabytes af data ved interaktive hastigheder, som BI / Analytics-miljøer kræver.





Det kan integreres med flere datakilder som Hive, HBase, MongoDB, filsystem, RDBMS. Også inputformater som Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence-filer og mange andre kan let bruges i Drill.

Hvorfor Apache Drill?

Den største fordel ved Apache Drill er, at den kan opdage skemaet i farten, når du spørger om data. Desuden kan det arbejde med dine BI-værktøjer som Tableau, Qlikview, MicroStrategy osv. Til bedre analyse.



Her er et citat fra en brancheanalytiker, der opsummerer værdien af ​​Apache Drill:

”Drill handler ikke kun om SQL-on-Hadoop. Det handler om SQL-on-pretty-much-anything, med det samme og uden formalitet. '

- Andrew Burst, Gigaom Research, januar 2015



Drillbit er Apache Drills dæmon, der kører på hver node i klyngen. Det bruger ZooKeeper til al kommunikation i klyngen og vedligeholdelse af klyngemedlemskab. Det er ansvarligt for at acceptere anmodninger fra klienten, behandle forespørgslerne og returnere resultater til klienten. Drillbit, der modtager anmodningen fra klienten, kaldes 'formand'. Det genererer udførelsesplanen, eksekveringsfragmenterne sendes til andre drillbits, der kører i klyngen.

Drillbits-Apache-Drill

En yderligere fordel er, at installationen og opsætningen af ​​boremaskiner er ret enkel. Lad os lære at installere Apache Drill.

Det første trin er at downloade borepakken.

abstrakt klasse og interface forskel

Kommando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Kommando: tjære -xvf apache-drill-1.5.0.tar.gz

Kommando: ls

Indstil derefter miljøvariablerne i .bashrc-filen.

Kommando: sudo gedit .bashrc

eksporter DRILL_HOME = / home / edureka / apache-drill-1.5.0

eksporter PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Denne kommando opdaterer ændringerne:

Kommando: kilde .bashrc

Gå nu til drill conf-mappe og rediger drill-override.conf-fil med klynge-id og zookeeper-vært og port, vi kører den på en lokal klynge.

Kommando: cd apache-drill-1.5.0

Kommando: sudo gedit conf / drill-override.conf

DRILL_MAX_DIRECT_MEMORY vil som standard være 8 GB i drill-env.sh, og vi skal beholde det i henhold til den hukommelse, vi har.

Kommando: sudo gedit conf / drill-env.sh

Hvis du kun skal installere drill i en enkelt node, kan du bruge integreret tilstand, hvor den kører lokalt. Det starter automatisk drillbit-tjenesten, når du kører denne kommando.

Kommando: ./bin/drill-embedded

kaste en dobbelt til en int

Du kan køre en simpel forespørgsel for at kontrollere installationen.

Kommando: vælg * fra sys.optioner WHERE type = 'SYSTEM' og navn som 'sikkerhed%'

For at kontrollere webkonsollen for Apache Drill skal vi gå til localhost: 8047 i webbrowseren.

Du kan også køre din forespørgsel fra fanen Forespørgsel.

For at køre drill i distribueret tilstand skal du redigere klynge-ID og tilføje ZooKeeper-oplysninger i drill-override.conf som nedenfor.

Så er vi nødt til at starte ZooKeeper-tjenesten på hver knude. Derefter skal du starte drillbit-tjenesten på hver node med denne kommando.

Kommando: ./bin/drillbit.sh start

Kommando: jps

Nu bruger vi kommandoen nedenfor til at starte boreskallen.

Nu kan vi udføre vores forespørgsler på klyngen i distribueret tilstand.

Dette er det første blogindlæg i en todelt Apache Drill-blogserie. Den anden blog i serien kommer snart.

Har du et spørgsmål til os? Nævn dem i kommentarsektionen, så vender vi tilbage til dig.

Relaterede indlæg:

Boring ned på Apache Drill del 2

Apache Spark mod Hadoop MapReduce