Hadoop Lankaopetus - Opi Lanka-arkkitehtuurin perusteet



Tämä blogi keskittyy Apache Hadoop YARNiin, joka otettiin käyttöön Hadoopin versiossa 2.0 resurssien hallintaa ja työn ajoitusta varten. Se selittää YARN-arkkitehtuurin sen komponenteilla ja kunkin suorittamilla tehtävillä. Se kuvaa hakemusten jättämistä ja työnkulun Apache Hadoop YARNissa.

Hadoop YARN neuloo Hadoopin eli HDFS: n (Hadoop Distributed File System) tallennusyksikön eri käsittelytyökaluilla. Niille teistä, jotka olette aivan uusia tässä aiheessa, YARN tarkoittaa Y ja TO ei mitään R toimittaa N egotiator ”. Ehdotan myös, että käisit läpi meidän ja ennen kuin opit Apache Hadoop LANkaa. Selitän seuraavia aiheita täällä varmistaakseni, että tämän blogin lopussa ymmärryksesi Hadoop LANASTA on selvä.

Miksi Lanka?

Hadoop-versiossa 1.0, johon viitataan myös nimellä MRV1 (MapReduce Version 1), MapReduce suoritti sekä käsittely- että resurssienhallintatoiminnot. Se koostui Job Trackerista, joka oli ainoa päällikkö. Työn seuranta jakoi resurssit, suoritti ajoituksen ja seurasi käsittelytyöt. Se osoitti kartan ja pienensi tehtäviä useissa ala-asemassa olevissa prosesseissa, joita kutsutaan Tehtävänseuraisiksi. Tehtäväseurannat ilmoittivat edistymisensä säännöllisesti Job Trackerille.





MapReduce-versio 1.0 - Hadoop LANKA - Edureka

Tämä suunnittelu johti skaalautuvuuden pullonkaulaan yhden Job Trackerin ansiosta.IBM mainitsi artikkelissaan, että Yahoo!: N mukaan tällaisen suunnittelun käytännön rajat saavutetaan, kun 5000 solmua ja 40 000 tehtävää suoritetaan samanaikaisesti.Tämän rajoituksen lisäksi laskennallisten resurssien käyttö on tehotonta MRV1: ssä. Lisäksi Hadoop-kehys rajoittui vain MapReduce-prosessointiparadigmaan.



Kaikkien näiden ongelmien ratkaisemiseksi Yahoo ja Hortonworks esittivät YARNin Hadoop-versiossa 2.0 vuonna 2012. YARNin perusajatuksena on helpottaa MapReducea ottamalla vastuu resurssienhallinnasta ja työaikataulusta. Lanka alkoi antaa Hadoopille mahdollisuuden suorittaa muita kuin MapReduce-töitä Hadoop-puitteissa.

Voit myös katsoa alla olevan videon missä asiantuntija keskustelee YARN-käsitteistä ja sen arkkitehtuurista yksityiskohtaisesti.

Hadoop-langan opetusohjelma Hadoop-lankaarkkitehtuuri | Edureka

Lankan käyttöönoton myötä oli täysin vallankumouksellinen. Siitä tuli paljon joustavampi, tehokkaampi ja skaalautuvampi. Kun Yahoo siirtyi YARNin palvelukseen vuoden 2013 ensimmäisellä neljänneksellä, se auttoi yritystä pienentämään Hadoop-klusterinsa kokoa 40 000 solmusta 32 000 solmuun. Mutta työpaikkojen määrä kaksinkertaistui 26 miljoonaan kuukaudessa.



Johdanto Hadoop LANKAAN

Nyt kun olen valjastanut sinut LANAN tarpeella, haluan esitellä sinulle Hadoop v2.0: n ydinkomponentin, LANKA . YARN mahdollistaa erilaisten tietojenkäsittelymenetelmien, kuten kaavioiden käsittely, vuorovaikutteinen käsittely, suoratoisto sekä eräkäsittely, HDFS: ään tallennettujen tietojen suorittamiseksi ja käsittelemiseksi. Siksi YARN avaa Hadoopin muuntyyppisille hajautetuille sovelluksille MapReducen lisäksi.

YARN antoi käyttäjille mahdollisuuden suorittaa vaatimusten mukaisia ​​toimintoja käyttämällä erilaisia ​​työkaluja, kuten reaaliaikaiseen käsittelyyn, Pesä SQL: lle, HBase NoSQL: lle ja muille.

Resurssienhallinnan lisäksi YARN suorittaa myös työn ajoituksen. YARN suorittaa kaikki käsittelytoiminnot jakamalla resursseja ja aikatauluttamalla tehtäviä. Apache Hadoop YARN -arkkitehtuuri koostuu seuraavista pääkomponenteista:

informatica powercenter -opastus aloittelijoille
  1. Resurssien hallinta : Toimii päädemonilla ja hallinnoi resurssien allokointia klusterissa.
  2. Solmujen hallinta: Ne juoksevat orja-demoneilla ja ovat vastuussa tehtävän suorittamisesta jokaisessa tietosolmussa.
  3. Sovelluksen päällikkö: Hallitsee yksittäisten sovellusten käyttäjän työn elinkaarta ja resurssitarpeita. Se toimii yhdessä solmunhallinnan kanssa ja valvoo tehtävien suorittamista.
  4. Kontti: Resurssipaketti, joka sisältää RAM-muistin, suorittimen, verkon, kiintolevyn jne. Yhdelle solmulle.

LANKAN komponentit

Voit pitää YARNia Hadoop-ekosysteemisi aivoina. Alla oleva kuva edustaa YARN-arkkitehtuuria.

ensimmäinen komponentti YARN-arkkitehtuurista on,

Resurssien hallinta

  • Se on lopullinen auktoriteetti resurssien kohdentamisessa .
  • Vastaanotettuaan käsittelypyynnöt se välittää osan pyynnöistä vastaaville solmupäälliköille vastaavasti, missä varsinainen käsittely tapahtuu.
  • Se on klusteriresurssien välimies ja päättää käytettävissä olevien resurssien jakamisen kilpaileville sovelluksille.
  • Optimoi klusterin käytön, kuten pitää kaikki resurssit käytössä koko ajan erilaisilla rajoituksilla, kuten kapasiteettitakuilla, oikeudenmukaisuudella ja palvelutasosopimuksilla.
  • Siinä on kaksi pääkomponenttia:a) Aikataulub)Sovellusten hallinta

a) Aikataulu

  • Ajoittaja on vastuussa resurssien allokoinnista eri käynnissä oleville sovelluksille kapasiteetin, jonojen jne. Rajoitusten alaisena.
  • Sitä kutsutaan puhtaaksi aikatauluttajaksi ResourceManagerissa, mikä tarkoittaa, että se ei seuraa mitään sovellusten tilan seurantaa tai seurantaa.
  • Jos sovellus- tai laitteistovika on, ajoitin ei takaa epäonnistuneiden tehtävien käynnistämistä uudelleen.
  • Suorittaa ajoituksen sovellusten resurssitarpeiden perusteella.
  • Siinä on laajennettava käytäntö-laajennus, joka vastaa klusteriresurssien jakamisesta eri sovellusten kesken. Tällaisia ​​laajennuksia on kaksi: Kapasiteetin ajastin ja Oikeudenmukainen aikataulu , joita käytetään tällä hetkellä Ajastimina ResourceManagerissa.

b) Sovellusten hallinta

  • Se vastaa työhakemusten hyväksymisestä.
  • Neuvottelee ensimmäisen säilön Resurssienhallinnasta sovelluskohtaisen sovelluspäällikön suorittamiseksi.
  • Hallitsee Application Mastersin suorittamista klusterissa ja tarjoaa palvelun Application Master -säiliön uudelleenkäynnistykseen vian yhteydessä.

Tulossa toinen komponentti mikä on:

Solmujen hallinta

  • Se huolehtii yksittäisistä solmuista Hadoop-klusterissa jahallinnoi tietyn solmun käyttäjätöitä ja työnkulkua.
  • Se rekisteröi resurssienhallinnan ja lähettää sydämenlyöntejä solmun terveydentilan kanssa.
  • Sen ensisijainen tavoite on hallita resurssienhallinnan sille osoittamia sovelluskontteja.
  • Se pysyy ajan tasalla Resurssienhallinnan kanssa.
  • Sovelluspäällikkö pyytää määritettyä säilöä solmunhallinnalta lähettämällä sille Container Launch Context (CLC), joka sisältää kaiken sovelluksen suorittamiseen tarvittavan. Solmujen hallinta luo pyydetyn säilöprosessin ja käynnistää sen.
  • Valvoo yksittäisten säiliöiden resurssien käyttöä (muisti, CPU).
  • Suorittaa lokin hallintaa.
  • Se tappaa myös säilön Resurssienhallinnan ohjeiden mukaan.

kolmas komponentti Apache Hadoop YARN on,

Sovelluksen päällikkö
  • Hakemus on yksi puiteohjelmaan toimitettu työ. Jokaiseen tällaiseen sovellukseen on liitetty ainutlaatuinen Application Master, joka on kehyskohtainen kokonaisuus.
  • Prosessi koordinoi sovelluksen suorituksen klusterissa ja hallitsee myös vikoja.
  • Sen tehtävänä on neuvotella resursseista Resurssienhallinnasta ja työskennellä solmujen hallinnan kanssa komponenttitehtävien suorittamiseksi ja valvomiseksi.
  • Sen tehtävänä on neuvotella asianmukaiset resurssisäiliöt ResourceManagerilta, seurata niiden tilaa ja seurata edistymistä.
  • Kun se on aloitettu, se lähettää säännöllisesti sydämenlyöntejä Resurssienhallinnalle vahvistaakseen terveytensä ja päivittääksesi resurssivaatimustensa tietueen.

neljäs komponentti On:

Kontti
  • Se on kokoelma fyysisiä resursseja, kuten RAM, CPU-ytimet ja levyt yhdessä solmussa.
  • LANASäiliöitä hallinnoi konttien laukaisukonteksti, joka on konttien elinkaari (CLC). Tämä tietue sisältää kartan ympäristömuuttujista, etäkäytettävään tallennustilaan tallennetuista riippuvuuksista, suojaustunnuksista, Node Manager -palveluiden hyötykuormasta ja prosessin luomiseen tarvittavan komennon.
  • Se antaa sovellukselle oikeuden käyttää tietyn määrän resursseja (muistia, suorittimia jne.) Tietyllä isännällä.

Hakemuksen jättäminen langassa

Katso kuvaa ja tutustu Hadoop LANGAN hakemuksen jättämisen vaiheisiin:

1) Lähetä työ

yhdistä lajittelualgoritmi c ++

2)Hanki sovellustunnus

3) Hakemusten jättämisen konteksti

4 a) Käynnistä säiliöTuoda markkinoille

b) Käynnistä Application Master

5) Jaa resurssit

6 a) Kontti

b) Käynnistä

7) Suorita

Sovelluksen työnkulku Hadoop-langassa

Katso annettu kuva ja katso seuraavat vaiheet Apache Hadoop YARN -sovelluksen työnkulussa:

  1. Asiakas lähettää hakemuksen
  2. Resurssienhallinta osoittaa säilön käynnistämään Application Manager
  3. Application Manager rekisteröidy Resource Manageriin
  4. Application Manager pyytää säiliöitä Resource Managerilta
  5. Application Manager ilmoittaa Node Managerille konttien käynnistämisestä
  6. Sovelluskoodi suoritetaan säilössä
  7. Asiakas ottaa yhteyttä Resource Manageriin / Application Manageriin seuratakseen sovelluksen tilaa
  8. Sovellusten hallinta poistaa rekisteröinnin Resource Managerista

Nyt kun tiedät Apache Hadoop YARNin, tutustu Edureka, luotettava verkko-oppimisyritys, jolla on yli 250 000 tyytyväisen oppijan verkosto, joka levisi ympäri maailmaa. Edureka Big Data Hadoop -sertifiointikoulutus auttaa oppijoita tulemaan HDFS: n, langan, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop -asiantuntijoiksi reaaliaikaisten käyttötapausten avulla vähittäiskaupan, sosiaalisen median, ilmailun, matkailun ja rahoituksen verkkotunnuksissa.

Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.