Apache Flume -opetusohjelma: Twitter-tietojen suoratoisto

Tämä Apache Flume -opetusblogi selittää Apache Flumen perusteet ja sen ominaisuudet. Se esittelee myös Twitter-suoratoistoa Apache Flumen avulla.

Tässä Apache Flume -opetusblogissa ymmärrämme, kuinka Flume auttaa suoratoistamaan tietoja eri lähteistä. Mutta ennen sitä meidän on ymmärrettävä tietojen nielemisen merkitys. Tietojen käyttö on ensimmäinen ja tärkeä vaihe tietojen käsittelemiseksi ja analysoimiseksi ja liiketoiminnan arvojen johtamiseksi siitä. Organisaatiossa on useita lähteitä, joista tiedot kerätään.

Puhutaan toisesta tärkeästä syystä, miksi Flumesta tuli niin suosittu. Toivon, että saatat tuntea , jota käytetään valtavasti teollisuudessa, koska se voi tallentaa kaikenlaisia ​​tietoja. Flume voi helposti integroida Hadoopin kanssa ja viedä HDFS-järjestelmässä strukturoimattomia sekä puolirakenteisia tietoja täydentäen Hadoopin voimaa. Siksi Apache Flume on tärkeä osa Hadoop-ekosysteemiä.



Tässä Apache Flume -opetusblogissa käsitellään:

Aloitamme tämän Flume-opetusohjelman keskustelemalla siitä, mikä on Apache Flume. Sitten eteenpäin ymmärrämme Flumen käytön edut.

Apache Flume -opetusohjelma: Johdatus Apache Flume -ohjelmaan

Apache Flume -logo - Apache Flume -opastus - EdurekaApache Flume on työkalu tietojen syöttämiseen HDFS: ssä. Se kerää, yhdistää ja kuljettaa HDFS: ään suuren määrän suoratoistotietoja, kuten lokitiedostoja, tapahtumia eri lähteistä, kuten verkkoliikenne, sosiaalinen media, sähköpostiviestit jne.Flume on erittäin luotettava ja jaettu.

Flume-suunnittelun pääidea on kaapata suoratoistodataa eri verkkopalvelimilta HDFS: ään. Sillä on yksinkertainen ja joustava arkkitehtuuri, joka perustuu tietovirtoihin. Se on vikasietoista ja tarjoaa luotettavuusmekanismin vikasietoisuuden ja vikojen palauttamiseksi.

Kun ymmärrämme, mikä on Flume, anna meidän edetä tässä Flume Tutorial -blogissa ja ymmärtää Apache Flumen edut. Sitten eteenpäin katsomme Flume-arkkitehtuuria ja yritämme ymmärtää, miten se toimii perusteellisesti.

avattava valikko angularjsissa

Apache Flume -opetusohjelma: Apache Flumen edut

Apache Flumella on useita etuja, mikä tekee siitä paremman valinnan muihin verrattuna. Edut ovat:

  • Flume on skaalautuva, luotettava, vikasietoinen ja muokattavissa eri lähteille ja nieluille.
  • Apache Flume voi tallentaa tietoja keskitettyihin myymälöihin (eli tiedot toimitetaan yhdestä myymälästä), kuten HBase ja HDFS.
  • Flume on vaakasuunnassa skaalautuva.
  • Jos lukunopeus ylittää kirjoitusnopeuden, Flume tarjoaa tasaisen tiedonkulun luku- ja kirjoitusoperaatioiden välillä.
  • Flume tarjoaa luotettavan viestin toimituksen. Flumen tapahtumat ovat kanavapohjaisia, jolloin kutakin viestiä varten ylläpidetään kahta tapahtumaa (yksi lähettäjä ja yksi vastaanottaja).
  • Flumea käyttämällä voimme viedä tietoja useista palvelimista Hadoopiin.
  • Se antaa meille luotettavan ja jaetun ratkaisun, joka auttaa meitä keräämään, yhdistämään ja siirtämään suuria määriä tietojoukkoja, kuten Facebook, Twitter ja verkkokauppasivustot.
  • Se auttaa meitä nielemään online-suoratoistodataa eri lähteistä, kuten verkkoliikenteestä, sosiaalisesta mediasta, sähköpostiviesteistä, lokitiedostoista jne. HDFS: ssä.
  • Se tukee laajaa joukkoa lähteitä ja kohdetyyppejä.

Arkkitehtuuri on sellainen, joka antaa Apache Flumelle nämä edut. Nyt kun tiedämme Apache Flumen edut, voimme edetä ja ymmärtää Apache Flume -arkkitehtuuria.

Apache Flume -opetusohjelma: Flume-arkkitehtuuri

Nyt ymmärretään Flume-arkkitehtuuri alla olevasta kaaviosta:

On olemassa Flume-agentti, joka käsittelee suoratoistotiedot eri tietolähteistä HDFS: ään. Kaaviosta voit helposti ymmärtää, että verkkopalvelin osoittaa tietolähteen. Twitter on yksi kuuluisimmista tietojen suoratoistolähteistä.

Savuaineella on 3 komponenttia: lähde, pesuallas ja kanava.

    1. Lähde : Se hyväksyy saapuvan virtaviivan tiedot ja tallentaa tiedot kanavalle.
    2. Kanava : Yleensä lukunopeus on nopeampi kuin kirjoitusnopeus. Tarvitsemme siis jonkin verran puskuria luku- ja kirjoitusnopeuseron sovittamiseksi. Pohjimmiltaan puskuri toimii välitallennustilana, joka tallentaa siirrettävät tiedot väliaikaisesti ja estää siten tietojen menetyksen. Vastaavasti kanava toimii paikallisena tallennustilana tai väliaikaisena tallennustilana tietolähteen ja HDFS: ssä olevan pysyvän datan välillä.
    3. Pesuallas : Sitten viimeinen komponenttimme eli Sink kerää tiedot kanavalta ja sitoutuu tai kirjoittaa tiedot HDFS: ään pysyvästi.

Nyt kun tiedämme kuinka Apache Flume toimii, katsotaanpa käytännönläheinen paikka, jossa upotamme Twitter-tiedot ja tallennamme ne HDFS: ään.

Apache Flume -opetusohjelma: Twitter-tietojen suoratoisto

Tässä käytännössä suoratoistamme tietoja Twitteristä Flumella ja tallennamme sitten tiedot HDFS: ään alla olevan kuvan mukaisesti.

Ensimmäinen vaihe on luoda Twitter-sovellus. Tätä varten sinun on ensin siirryttävä tähän URL-osoitteeseen: https://apps.twitter.com/ ja kirjaudu sisään Twitter-tilillesi. Siirry luomaan sovellusvälilehti alla olevan kuvan mukaisesti.

Luo sitten sovellus alla olevan kuvan mukaisesti.

Kun olet luonut tämän sovelluksen, löydät Key & Access -tunnuksen. Kopioi avain ja käyttöoikeustunnus. Lähetämme nämä tunnukset Flume-määritystiedostoon yhteyden muodostamiseksi tähän sovellukseen.

Luo nyt flume.conf-tiedosto flume-juurihakemistoon alla olevan kuvan mukaisesti. Kuten keskustelimme, Flume's Architecture -sovelluksessa määritetään lähde, pesuallas ja kanava. Lähteemme on Twitter, josta suoratoistamme tietoja ja Sink on HDFS, johon kirjoitamme tietoja.

Lähdekokoonpanossa ohitamme Twitter-lähdetyypin nimellä org.apache.flume.source.twitter.TwitterSource. Sitten välitämme kaikki neljä tunnusta, jotka saimme Twitteristä. Viimeinkin lähdekokoonpanossa välitämme avainsanat, joille haemme twiitit.

Sink-kokoonpanossa aiomme määrittää HDFS-ominaisuudet. Asetamme HDFS-polun, kirjoitusmuodon, tiedostotyypin, eräkoon jne. Viimeinkin aiomme asettaa muistikanavan alla olevan kuvan mukaisesti.

Nyt olemme kaikki valmiita suorittamaan. Mennään eteenpäin ja suoritetaan tämä komento:

$ FLUME_HOME / bin / flume-ng agentti --conf ./conf/ -f $ FLUME_HOME / flume.conf

Suoritettuasi tämän komennon jonkin aikaa, voit lopettaa päätelaitteen painamalla CTRL + C. Sitten voit mennä eteenpäin Hadoop-hakemistossa ja tarkistaa mainitun polun, onko tiedosto luotu vai ei.

kuinka asentaa pimennys ide

Lataa tiedosto ja avaa se. Saat jotain alla olevan kuvan mukaisesti.

Toivon, että tämä blogi on informatiivinen ja lisäarvoa sinulle. Jos olet kiinnostunut oppimaan lisää, voit käydä tämän läpi joka kertoo sinulle Big Dataista ja siitä, kuinka Hadoop ratkaisee Big Dataan liittyviä haasteita.

Nyt kun olet ymmärtänyt Apache Flumen, tutustu Edureka, luotettava verkko-oppimisyritys, jolla on yli 250 000 tyytyväisen oppijan verkosto, joka levisi ympäri maailmaa. Edureka Big Data Hadoop -sertifiointikoulutus auttaa oppijoita tulemaan HDFS: n, langan, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop -asiantuntijoiksi reaaliaikaisten käyttötapausten avulla vähittäiskaupan, sosiaalisen median, ilmailun, matkailun ja rahoituksen verkkotunnuksissa.

Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.