Apache Drill er branchens første skemafri SQL Engine. Drill er ikke verdens første forespørgselsmotor, men det er den første, der finder den fine balance mellem fleksibilitet og hastighed. Drill er designet til at skalere til flere tusinder af noder og forespørge på petabytes af data ved interaktive hastigheder, som BI / Analytics-miljøer kræver.
Det kan integreres med flere datakilder som Hive, HBase, MongoDB, filsystem, RDBMS. Også inputformater som Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence-filer og mange andre kan let bruges i Drill.
Hvorfor Apache Drill?
Den største fordel ved Apache Drill er, at den kan opdage skemaet i farten, når du spørger om data. Desuden kan det arbejde med dine BI-værktøjer som Tableau, Qlikview, MicroStrategy osv. Til bedre analyse.
Her er et citat fra en brancheanalytiker, der opsummerer værdien af Apache Drill:
”Drill handler ikke kun om SQL-on-Hadoop. Det handler om SQL-on-pretty-much-anything, med det samme og uden formalitet. '
- Andrew Burst, Gigaom Research, januar 2015
Drillbit er Apache Drills dæmon, der kører på hver node i klyngen. Det bruger ZooKeeper til al kommunikation i klyngen og vedligeholdelse af klyngemedlemskab. Det er ansvarligt for at acceptere anmodninger fra klienten, behandle forespørgslerne og returnere resultater til klienten. Drillbit, der modtager anmodningen fra klienten, kaldes 'formand'. Det genererer udførelsesplanen, eksekveringsfragmenterne sendes til andre drillbits, der kører i klyngen.
En yderligere fordel er, at installationen og opsætningen af boremaskiner er ret enkel. Lad os lære at installere Apache Drill.
Det første trin er at downloade borepakken.
abstrakt klasse og interface forskel
Kommando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Kommando: tjære -xvf apache-drill-1.5.0.tar.gz
Kommando: ls
Indstil derefter miljøvariablerne i .bashrc-filen.
Kommando: sudo gedit .bashrc
eksporter DRILL_HOME = / home / edureka / apache-drill-1.5.0
eksporter PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Denne kommando opdaterer ændringerne:
Kommando: kilde .bashrc
Gå nu til drill conf-mappe og rediger drill-override.conf-fil med klynge-id og zookeeper-vært og port, vi kører den på en lokal klynge.
Kommando: cd apache-drill-1.5.0
Kommando: sudo gedit conf / drill-override.conf
DRILL_MAX_DIRECT_MEMORY vil som standard være 8 GB i drill-env.sh, og vi skal beholde det i henhold til den hukommelse, vi har.
Kommando: sudo gedit conf / drill-env.sh
Hvis du kun skal installere drill i en enkelt node, kan du bruge integreret tilstand, hvor den kører lokalt. Det starter automatisk drillbit-tjenesten, når du kører denne kommando.
Kommando: ./bin/drill-embedded
kaste en dobbelt til en int
Du kan køre en simpel forespørgsel for at kontrollere installationen.
Kommando: vælg * fra sys.optioner WHERE type = 'SYSTEM' og navn som 'sikkerhed%'
For at kontrollere webkonsollen for Apache Drill skal vi gå til localhost: 8047 i webbrowseren.
Du kan også køre din forespørgsel fra fanen Forespørgsel.
For at køre drill i distribueret tilstand skal du redigere klynge-ID og tilføje ZooKeeper-oplysninger i drill-override.conf som nedenfor.
Så er vi nødt til at starte ZooKeeper-tjenesten på hver knude. Derefter skal du starte drillbit-tjenesten på hver node med denne kommando.
Kommando: ./bin/drillbit.sh start
Kommando: jps
Nu bruger vi kommandoen nedenfor til at starte boreskallen.
Nu kan vi udføre vores forespørgsler på klyngen i distribueret tilstand.
Dette er det første blogindlæg i en todelt Apache Drill-blogserie. Den anden blog i serien kommer snart.
Har du et spørgsmål til os? Nævn dem i kommentarsektionen, så vender vi tilbage til dig.
Relaterede indlæg: