Apache Flink: seuraavan sukupolven Big Data Analytics -kehys suoratoistoon ja erätietojen käsittelyyn



Opi tästä Apache Flinkistä ja Flink-klusterin määrittämisestä tästä blogista. Flink tukee reaaliaikaista ja eräkäsittelyä ja on Big Data Analyticsin pakko katsella Big Data -tekniikka.

Apache Flink on avoimen lähdekoodin alusta hajautetun virtauksen ja erätietojen käsittelyyn. Se voi toimia Windows-, Mac OS- ja Linux-käyttöjärjestelmissä. Tässä blogiviestissä keskustellaan Flink-klusterin määrittämisestä paikallisesti. Se on samanlainen kuin Spark monin tavoin - sillä on API: t graafi- ja koneoppimisen prosessointiin, kuten Apache Spark, mutta Apache Flink ja Apache Spark eivät ole täsmälleen samat.



Flink-klusterin määrittäminen edellyttää, että järjestelmään on asennettu java 7.x tai uudempi. Koska minulla on Hadoop-2.2.0 asennettuna CentOSiin (Linux), olen ladannut Flink-paketin, joka on yhteensopiva Hadoop 2.x: n kanssa. Suorita alla oleva komento ladataksesi Flink-paketin.

Komento: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Poista tiedosto purkamalla hakemaan välkkyvä hakemisto.

Komento: tar -xvf Lataukset / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Komento: Ls

Lisää Flink-ympäristömuuttujia .bashrc-tiedostoon.

Komento: sudo gedit .bashrc

Sinun on suoritettava alla oleva komento, jotta .bashrc-tiedoston muutokset aktivoidaan

Komento: lähde .bashrc

Siirry nyt välkkyvään hakemistoon ja käynnistä klusteri paikallisesti.

Komento: cd mojova-1.0.0

Komento: bin / start-local.sh

Kun olet aloittanut klusterin, voit nähdä uuden daemon JobManagerin käynnissä.

Komento: jps

Avaa selain ja siirry osoitteeseen http: // localhost: 8081 nähdäksesi Apache Flink -verkkokäyttöliittymän.

Suoritetaan yksinkertainen sanamääräesimerkki Apache Flinkin avulla.

Ennen kuin suoritat esimerkin, asenna netcat järjestelmään (sudo yum install nc).

Suorita nyt uudessa terminaalissa alla oleva komento.

Komento: nc -lk 9000

Suorita alla annettu komento välkkymispäätteessä. Tämä komento suorittaa ohjelman, joka ottaa suoratoistetun datan syötteeksi ja suorittaa sanamäärän operaation kyseiselle suoratoistetulle tiedolle.

Komento: bin / flink run esimerkkejä / suoratoisto / SocketTextStreamWordCount.jar –isännän nimi localhost –port 9000

Web-käyttöliittymässä näet työn käynnissä olevassa tilassa.

Suorita alla-komento uudessa päätelaitteessa, tämä tulostaa suoratoistetut ja käsitellyt tiedot.

adapteriluokka Java-sovelluksessa

Komento: tail -f log / flink - * - jobmanager - *. ulos

Siirry nyt päätelaitteeseen, josta aloitit netcatin, ja kirjoita jotain.

Heti kun painat Enter-painiketta avainsanallasi, kun olet kirjoittanut joitain tietoja netcat-päätelaitteeseen, kyseisiin tietoihin sovelletaan sanalaskutoimintoa ja tulosteet tulostetaan tähän (flink's jobmanager -loki) millisekuntien kuluessa!

Hyvin lyhyessä ajassa tiedot lähetetään, käsitellään ja tulostetaan.

Apache Flinkistä on paljon muuta opittavaa. Käsittelemme muita Flink-aiheita tulevassa blogissamme.

Onko sinulla kysymys meille? Mainitse ne kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut:

Apache Falcon: Hadoop-ekosysteemin uusi tiedonhallinta-alusta