Katsaus Hadoop 2.0 Cluster Architecture Federationiin



Apache Hadoop 2.x koostuu merkittävistä parannuksista verrattuna Hadoop 1.x: ään. Tämä blogi kertoo Hadoop 2.0 Cluster Architecture Federationista ja sen komponenteista.

Hadoop 2.0 Cluster Architecture Federation

Johdanto:

Tässä blogissa sukellan syvälle Hadoop 2.0 Cluster Architecture Federationiin. Apache Hadoop on kehittynyt paljon Apache Hadoop 1.x: n julkaisun jälkeen. Kuten tiedät edellisestä blogistani, että seuraa isäntä / orja-topologiaa, jossa NameNode toimii päädemonina ja vastaa muiden orjasolmujen, nimeltään DataNodes, hallinnasta. Tässä ekosysteemissä tästä ainoasta Master Daemonista tai NameNodesta tulee pullonkaula, ja päinvastoin yrityksillä on oltava NameNode, joka on erittäin saatavilla. Juuri tästä syystä tuli HDFS Federation Architecture- ja HA (korkea saatavuus) -arkkitehtuuri .

Tässä blogissa käsittelemäni aiheet ovat seuraavat:





  • Nykyinen HDFS-arkkitehtuuri
  • Nykyisen HDFS-arkkitehtuurin rajoitukset
  • HDFS-federaation arkkitehtuuri

Katsaus nykyiseen HDFS-arkkitehtuuriin:

Yhden nimitilan HDFS-arkkitehtuuri - yleiskatsaus Hadoop 2.0 -klusteriarkkitehtuuriliittoon - Edureka

Kuten yllä olevasta kuvasta näet, nykyisellä HDFS: llä on kaksi kerrosta:



  • HDFS-nimitila (NS): Tämä kerros on vastuussa hakemistojen, tiedostojen ja lohkojen hallinnasta. Se tarjoaa kaikki nimitilaan liittyvät tiedostojärjestelmän toiminnot, kuten tiedostojen tai hakemistojen luomisen, poistamisen tai muokkaamisen.
  • Varastokerros: Se käsittää kaksi peruskomponenttia.
    1. Estä hallinta : Se suorittaa seuraavat toiminnot:
      • Tarkistaa DataNodes-sykettä säännöllisesti ja hallitsee DataNode-jäsenyyttä klusterissa.
      • Hallitsee lohkoraportteja ja ylläpitää lohkon sijaintia.
      • Tukee lohkotoimintoja, kuten lohkon sijainnin luomista, muokkaamista, poistamista ja allokointia.
      • Säilyttää replikointikertoimen yhdenmukaisena koko klusterissa.

2. Fyysinen varastointi : Sitä hallinnoivat DataNodes, jotka vastaavat tietojen tallentamisesta ja tarjoavat siten luku- / kirjoitusoikeuden HDFS: ään tallennettuihin tietoihin.

Joten nykyisen HDFS-arkkitehtuurin avulla sinulla voi olla yksi nimitila klusterille. Tässä arkkitehtuurissa yksi NameNode vastaa nimitilan hallinnasta. Tämä arkkitehtuuri on erittäin kätevä ja helppo toteuttaa. Lisäksi se tarjoaa riittävän kyvyn vastata pienen tuotantoklusterin tarpeisiin.

Nykyisen HDFS: n rajoitukset:

Kuten aiemmin keskusteltiin, nykyinen HDFS riitti pienen tuotantoklusterin tarpeisiin ja käyttötapauksiin. Mutta suuret organisaatiot, kuten Yahoo, Facebook löysi joitain rajoituksia, kun HDFS-klusteri kasvoi räjähdysmäisesti. Tarkastellaan lyhyesti joitain rajoituksia:



laajuuden resoluutiooperaattori c ++: ssa
  1. Nimitila on ei skaalautuva kuten DataNodes. Siksi klusterissa voi olla vain niin monta DataNodea, jonka yksi NameNode pystyy käsittelemään.
  2. Kaksi kerrosta, ts. Nimiavaruuskerros ja tallennuskerros ovat tiukasti kytketty mikä vaikeuttaa NameNoden vaihtoehtoista toteutusta.
  3. Koko Hadoop-järjestelmän suorituskyky riippuu suorituskyky NameNodesta. Siksi kaikkien HDFS-operaatioiden koko suorituskyky riippuu siitä, kuinka monta tehtävää NameNode pystyy käsittelemään tiettynä ajankohtana.
  4. NameNode tallentaa koko nimitilan RAM-muistiin nopeaa käyttöä varten. Tämä johtaa rajoituksiin muistin koko ts. nimitilaobjektien (tiedostojen ja lohkojen) lukumäärä, jonka yksittäinen nimiavaruuspalvelin pystyy käsittelemään.
  5. Monet organisaatioista (toimittajista), joilla on HDFS-käyttöönotto, sallivat useiden organisaatioiden (vuokralaisten) käyttää klusterin nimitilaa. Joten nimitilaa ei ole erotettu toisistaan, ja siksi on ei eristystä klusteria käyttävien vuokralaisorganisaatioiden joukossa.

HDFS-federaation arkkitehtuuri:

  • HDFS-federaation arkkitehtuurissa meillä on nimipalvelun horisontaalinen skaalautuvuus. Siksi meillä on useita nimisolmuja, jotka ovat yhdistettyjä, toisin sanoen itsenäisiä.
  • DataNodit ovat alareunassa eli taustalla olevalla tallennuskerroksella.
  • Kukin DataNode rekisteröi kaikki klusterin NameNodes.
  • DataNodes välittää jaksoittaisia ​​sydämenlyöntejä, estää raportteja ja käsittelee komentoja NameNodeista.

HDFS-federaation arkkitehtuurin kuvaesitys on annettu alla:

Ennen kuin eden eteenpäin, haluan puhua lyhyesti yllä olevasta arkkitehtonisesta kuvasta:

  • Nimitiloja on useita (NS1, NS2,…, NSn), ja kutakin niistä hallitsee vastaava NameNode.
  • Jokaisella nimiavaruudella on oma lohkopoolinsa (NS1: llä on pooli 1, NSk: llä pooli k ja niin edelleen).
  • Kuten kuvasta näkyy, lohkot poolista 1 (taivaansininen) tallennetaan DataNode 1: een, DataNode 2: een ja niin edelleen. Vastaavasti kunkin lohkon kaikki lohkot sijaitsevat kaikissa DataNodeissa.

Ymmärretään nyt HDFS-federaation arkkitehtuurin osat yksityiskohtaisesti:

Estä allas:

Lohkoryhmä on vain joukko lohkoja, jotka kuuluvat tiettyyn nimitilaan. Joten meillä on kokoelma lohko-allasta, jossa kutakin lohko-allasta hallitaan toisistaan ​​riippumatta. Tämä riippumattomuus, jossa kutakin lohkoryhmää hallitaan itsenäisesti, sallii nimitilan luoda lohkotunnuksia uusille lohkoille ilman koordinointia muiden nimiavaruuksien kanssa. Kaikissa lohkoryhmissä olevat datalohkot tallennetaan kaikkiin datasolmuihin. Periaatteessa lohkopaketti tarjoaa abstraktion siten, että DataNodeissa (kuten yhden nimitilan arkkitehtuurissa) olevat datalohkot voidaan ryhmitellä vastaamaan tiettyä nimiavaruutta.

Nimitilan tilavuus:

Nimitilan tilavuus ei ole muuta kuin nimitila yhdessä sen lohkon kanssa. Siksi HDFS-federaatiossa meillä on useita nimitilavolyymejä. Se on itsenäinen hallintayksikkö, ts. Kukin nimitilan asema voi toimia itsenäisesti. Jos NameNode tai nimiavaruus poistetaan, myös vastaava DataNode-soluissa oleva lohkoryhmä poistetaan.

Demo On Hadoop 2.0 Cluster Architecture Federation | Edureka

Luulen, että sinulla on melko hyvä idea HDFS-federaation arkkitehtuurista. Se on pikemminkin teoreettinen käsite, ja ihmiset eivät käytä sitä käytännössä tuotantojärjestelmässä yleensä. HDFS-federaation kanssa on joitain käyttöönotto-ongelmia, jotka vaikeuttavat käyttöönottoa. Siksi HA (korkea saatavuus) -arkkitehtuuri on suositeltava ratkaisemaan yhden epäonnistumispisteen ongelma. Olen käsitellyt HDFS HA ​​-arkkitehtuuri seuraavassa blogissani.

Nyt kun olet ymmärtänyt Hadoop HDFS Federation -arkkitehtuurin, tutustu Edureka, luotettava verkko-oppimisyritys, jolla on yli 250 000 tyytyväisen oppijan verkosto, joka levisi ympäri maailmaa. Edureka Big Data Hadoop -sertifiointikoulutus auttaa oppijoita tulemaan HDFS: n, langan, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop -asiantuntijoiksi reaaliaikaisilla käyttötapauksilla vähittäiskaupan, sosiaalisen median, ilmailun, matkailun ja rahoituksen aloilla.

Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.

python muuntaa desimaalin binääriksi