Apache Flink: Den næste generations Big Data Analytics-ramme til stream- og batch-databehandling



Lær alt om Apache Flink & opsætning af en Flink-klynge i denne blog. Flink understøtter realtids- og batchbehandling og er et must-watch Big Data-teknologi til Big Data Analytics.

Apache Flink er en open source-platform til distribueret stream og batch databehandling. Det kan køre på Windows, Mac OS og Linux OS. Lad os i dette blogindlæg diskutere, hvordan du konfigurerer Flink-klyngen lokalt. Det svarer til Spark på mange måder - det har API'er til behandling af graf og maskinindlæring som Apache Spark - men Apache Flink og Apache Spark er ikke nøjagtigt de samme.





For at oprette Flink-klynge skal du have java 7.x eller højere installeret på dit system. Da jeg har Hadoop-2.2.0 installeret i min ende på CentOS (Linux), har jeg downloadet Flink-pakke, som er kompatibel med Hadoop 2.x. Kør under kommandoen for at downloade Flink-pakken.

Kommando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Untar filen for at hente flink-biblioteket.

abstrakt klasse og interface forskel

Kommando: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Kommando: ls

Tilføj Flink-miljøvariabler i .bashrc-filen.

Kommando: sudo gedit .bashrc

Du skal køre nedenstående kommando, så ændringerne i .bashrc-filen aktiveres

Kommando: kilde .bashrc

Gå nu til flink-biblioteket og start klyngen lokalt.

Kommando: cd hefty-1.0.0

Kommando: bin / start-local.sh

Når du har startet klyngen, vil du kunne se en ny dæmon JobManager køre.

Kommando: jps

Åbn browseren, og gå til http: // localhost: 8081 for at se Apache Flink web UI.

Lad os køre et simpelt ordtællingseksempel ved hjælp af Apache Flink.

Inden du kører eksemplet, skal du installere netcat på dit system (sudo yum install nc).

Kør nu kommandoen nedenfor i en ny terminal.

Kommando: nc -lk 9000

Kør nedenstående kommando i flinkterminalen. Denne kommando kører et program, der tager de streamede data som input og udfører ordtælling på de streamede data.

Kommando: bin / flink run eksempler / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

På web-brugergrænsefladen vil du kunne se et job i kørende tilstand.

Kør under kommandoen i en ny terminal, dette udskriver de data, der streames og behandles.

Kommando: tail -f log / flink - * - jobmanager - *. ud

er en vs har en java

Gå nu til terminalen, hvor du startede netcat, og skriv noget.

I det øjeblik du trykker på enter-knappen på dit nøgleord, efter at du har skrevet nogle data på netcat-terminalen, vil ordtælling blive anvendt på disse data, og output vil blive udskrevet her (flinks jobmanager-log) inden for millisekunder!

Inden for en meget kort tidsperiode streames, behandles og udskrives data.

Der er meget mere at lære om Apache Flink. Vi vil berøre andre Flink-emner i vores kommende blog.

Har du et spørgsmål til os? Nævn dem i kommentarsektionen, så vender vi tilbage til dig.

Relaterede indlæg:

Apache Falcon: Ny datastyringsplatform til Hadoop-økosystemet