APACHE FLINK: DEN NÆSTE GENERATION AF BIG DATA ANALYTICS FRAMEWORK

Apache Flink er en open source-platform til distribueret stream og batch databehandling. Det kan køre på Windows, Mac OS og Linux OS. Lad os i dette blogindlæg diskutere, hvordan du konfigurerer Flink-klyngen lokalt. Det svarer til Spark på mange måder - det har API'er til behandling af graf og maskinindlæring som Apache Spark - men Apache Flink og Apache Spark er ikke nøjagtigt de samme.

For at oprette Flink-klynge skal du have java 7.x eller højere installeret på dit system. Da jeg har Hadoop-2.2.0 installeret i min ende på CentOS (Linux), har jeg downloadet Flink-pakke, som er kompatibel med Hadoop 2.x. Kør under kommandoen for at downloade Flink-pakken.

Kommando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

Untar filen for at hente flink-biblioteket.

abstrakt klasse og interface forskel

Kommando: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Kommando: ls

Tilføj Flink-miljøvariabler i .bashrc-filen.

Kommando: sudo gedit .bashrc

Du skal køre nedenstående kommando, så ændringerne i .bashrc-filen aktiveres

Kommando: kilde .bashrc

Gå nu til flink-biblioteket og start klyngen lokalt.

Kommando: cd hefty-1.0.0

Kommando: bin / start-local.sh

Når du har startet klyngen, vil du kunne se en ny dæmon JobManager køre.

Kommando: jps

Åbn browseren, og gå til http: // localhost: 8081 for at se Apache Flink web UI.

Lad os køre et simpelt ordtællingseksempel ved hjælp af Apache Flink.

Inden du kører eksemplet, skal du installere netcat på dit system (sudo yum install nc).

Kør nu kommandoen nedenfor i en ny terminal.

Kommando: nc -lk 9000

Kør nedenstående kommando i flinkterminalen. Denne kommando kører et program, der tager de streamede data som input og udfører ordtælling på de streamede data.

Kommando: bin / flink run eksempler / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

På web-brugergrænsefladen vil du kunne se et job i kørende tilstand.

Kør under kommandoen i en ny terminal, dette udskriver de data, der streames og behandles.

Kommando: tail -f log / flink - * - jobmanager - *. ud

er en vs har en java

Gå nu til terminalen, hvor du startede netcat, og skriv noget.

I det øjeblik du trykker på enter-knappen på dit nøgleord, efter at du har skrevet nogle data på netcat-terminalen, vil ordtælling blive anvendt på disse data, og output vil blive udskrevet her (flinks jobmanager-log) inden for millisekunder!

Inden for en meget kort tidsperiode streames, behandles og udskrives data.

Der er meget mere at lære om Apache Flink. Vi vil berøre andre Flink-emner i vores kommende blog.

Har du et spørgsmål til os? Nævn dem i kommentarsektionen, så vender vi tilbage til dig.

Relaterede indlæg:

Apache Falcon: Ny datastyringsplatform til Hadoop-økosystemet

Apache Flink: Den næste generations Big Data Analytics-ramme til stream- og batch-databehandling

Lær alt om Apache Flink & opsætning af en Flink-klynge i denne blog. Flink understøtter realtids- og batchbehandling og er et must-watch Big Data-teknologi til Big Data Analytics.

Kategorier

Popular Articles

Sådan implementeres Goto-erklæring i C ++?

Vol. XVI - Edureka Career Watch - 13. juli 2019

#IndiaITRepublic - Top 10 fakta om Wipro

Hvad er forskellen mellem CSS og CSS3?

Top 10 bedste IDE til Python: Hvordan vælger man den bedste Python IDE?

Git vs Github - Afmystificering af forskellene

Sådan deler du dit arbejde på et git remote repository

Sådan implementeres optisk karaktergenkendelse i Python

Hvad er Remote Method Invocation i Java?

Docker-netværk - Udforsk, hvordan containere kommunikerer med hinanden

Hvad er KeyError i Python? Ordbog og håndtering af dem

Sådan tager du et skærmbillede i Selen WebDriver