HDFS-opetusohjelma: Johdatus HDFS: ään ja sen ominaisuuksiin



Tämä HDFS-opetusblogi auttaa sinua ymmärtämään HDFS- tai Hadoop Distributed File System -järjestelmää ja sen ominaisuuksia. Tutki myös sen ydinkomponentteja lyhyesti.

HDFS-opetusohjelma

Ennen kuin jatkan eteenpäin tässä HDFS-opetusblogissa, haluan tutustua eräisiin HDFS: ään liittyvistä hulluista tilastoista:

  • Vuonna 2010, Facebook väitti olevansa yksi suurimmista HDFS-klustereista 21 petatavua tietoja.
  • Vuonna 2012 Facebook ilmoitti, että heillä on suurin yksittäinen HDFS-klusteri, jossa on yli 100 PB tietoja .
  • Ja Yahoo ! on enemmän kuin 100000 suoritinta yli 40 000 palvelinta käynnissä Hadoop, sen suurin Hadoop-klusteri 4500 solmua . Kaikki kertoi, Yahoo! myymälöissä 455 petatavua HDFS: ssä.
  • Itse asiassa vuoteen 2013 mennessä suurin osa Fortune 50: n suurista nimistä alkoi käyttää Hadoopia.

Liian vaikea sulattaa? Aivan. Kuten keskusteltiin , Hadoopilla on kaksi perusyksikköä - S raivota ja Käsittely . Kun sanon Hadoopin varastointiosan, viittaan siihen HDFS mikä tarkoittaa Hadoopin hajautettu tiedostojärjestelmä . Joten tässä blogissa esitän sinut HDFS .





Tässä puhun:

  • Mikä on HDFS?
  • HDFS: n edut
  • HDFS: n ominaisuudet

Ennen kuin puhut HDFS: stä, haluan kertoa sinulle, mikä on hajautettu tiedostojärjestelmä?



DFS tai hajautettu tiedostojärjestelmä:

Hajautettu tiedostojärjestelmä puhuu hallinta tiedot eli tiedostoja tai kansioita useilla tietokoneilla tai palvelimilla. Toisin sanoen, DFS on tiedostojärjestelmä, jonka avulla voimme tallentaa tietoja useisiin solmuihin tai koneisiin klusterissa ja mahdollistaa useiden käyttäjien pääsyn tietoihin. Pohjimmiltaan sillä on sama tarkoitus kuin koneellasi käytettävissä olevalla tiedostojärjestelmällä, kuten Windows-käyttöjärjestelmillä, joissa on NTFS (uusi tekniikan tiedostojärjestelmä), tai Mac-tietokoneilla, joilla on HFS (hierarkkinen tiedostojärjestelmä). Ainoa ero on, että hajautetun tiedostojärjestelmän tapauksessa tallennat tietoja useisiin koneisiin yhden koneen sijaan. Vaikka tiedostot on tallennettu verkon yli, DFS järjestää ja näyttää tiedot siten, että koneella istuva käyttäjä tuntee, että kaikki tiedot on tallennettu juuri tähän koneeseen.

Mikä on HDFS?

Hadoop Distributed File System tai HDFS on Java-pohjainen hajautettu tiedostojärjestelmä, jonka avulla voit tallentaa suuria tietoja useisiin solmuihin Hadoop-klusterissa. Joten jos asennat Hadoopin, saat HDFS: n taustalla olevaksi tallennusjärjestelmäksi tietojen tallentamiseksi hajautettuun ympäristöön.

Otetaan esimerkki sen ymmärtämiseksi. Kuvittele, että jokaisessa koneessa on kymmenen konetta tai kymmenen tietokonetta, joissa on 1 Tt: n kiintolevy. Nyt HDFS sanoo, että jos asennat Hadoopin alustaksi näiden kymmenen koneen päälle, saat HDFS: n tallennuspalveluna. Hadoop-hajautettu tiedostojärjestelmä on jaettu siten, että jokainen kone osallistuu omaan tallennustilaansa kaikenlaisten tietojen tallentamiseen.



datan tyyppi päivämäärälle neliömetriin

HDFS-opetusohjelma: HDFS: n edut

1. Hajautettu varastointi:

Hajautettu tallennustila - HDFS-opetusohjelma - Edureka

Kun käytät Hadoop Distributed -tiedostojärjestelmää millä tahansa Hadoop-klusterin kymmenestä koneesta, tunnet kuin olisit kirjautunut yhteen suureen koneeseen, jonka tallennuskapasiteetti on 10 Tt (tallennustilaa yli kymmenen konetta). Mitä se tarkoittaa? Se tarkoittaa, että voit tallentaa yhden suuren 10 Tt: n tiedoston, joka jaetaan kymmenelle koneelle (1 Tt kullekin).Niin se on ei rajoitu fyysisiin rajoihin jokaisen yksittäisen koneen.

2. Hajautettu ja rinnakkainen laskenta:

Koska data on jaettu koneiden kesken, se antaa meille mahdollisuuden hyödyntää niitä Hajautettu ja rinnakkainen laskenta . Ymmärretään tämä käsite yllä olevan esimerkin avulla. Oletetaan, että yhden TB-tiedoston käsittely yhdellä koneella kestää 43 minuuttia. Joten nyt kerro minulle, kuinka kauan kestää saman 1 TB: n tiedoston käsittely, kun sinulla on 10 konetta Hadoop-klusterissa, joilla on samanlainen kokoonpano - 43 minuuttia tai 4,3 minuuttia? 4,3 minuuttia, oikein! Mitä täällä tapahtui? Kukin solmuista työskentelee rinnakkain osan 1 TB: n tiedostosta. Siksi työ, joka kesti 43 minuuttia ennen, valmistuu nyt vain 4,3 minuutissa, kun työ jaettiin kymmenelle koneelle.

3. Vaakasuuntainen skaalautuvuus:

Viimeisenä mutta ei vähäisimpänä, puhutaanpa vaakasuuntainen skaalaus tai laajentaminen Hadoopissa. Skaalausta on kahta tyyppiä: pystysuora ja vaakasuorassa . Pystysuuntaisessa skaalauksessa (suurenna) suurennat järjestelmän laitteistokapasiteettia. Toisin sanoen hankit lisää RAM-muistia tai suorittinta ja lisäät sen nykyiseen järjestelmääsi, jotta se olisi vankempi ja tehokkaampi. Pystysuuntaiseen skaalaamiseen tai suurentamiseen liittyy kuitenkin haasteita:

  • Laitteistokapasiteettia on aina rajoitettu. Joten et voi jatkaa koneen RAM-muistin tai suorittimen lisäämistä.
  • Pystysuuntaisen skaalauksen aikana pysäytät koneesi ensin. Sitten lisäät RAM-muistia tai suorittinta, jotta siitä tulee vankempi laitteistopino. Kun olet lisännyt laitteistokapasiteettia, käynnistät koneen uudelleen. Tästä seisokista, kun pysäytät järjestelmän, tulee haaste.

Jos kyseessä on vaakasuuntainen skaalaus (skaalata) , lisäät lisää solmuja olemassa olevaan klusteriin yksittäisten koneiden laitteistokapasiteetin lisäämisen sijaan. Ja mikä tärkeintä, voit lisää koneita tien päällä ts. pysäyttämättä järjestelmää . Siksi, vaikka laajennetaan, meillä ei ole seisokiaikaa tai vihreää vyöhykettä, ei mitään sellaista. Päivän lopussa sinulla on enemmän koneita, jotka työskentelevät rinnakkain tarpeidesi täyttämiseksi.

HDFS-opetusvideo:

Voit tarkistaa alla olevan videon, jossa kaikkia HDFS: ään liittyviä käsitteitä on käsitelty yksityiskohtaisesti:

HDFS-opetusohjelma: HDFS: n ominaisuudet

Ymmärrämme nämä ominaisuudet yksityiskohtaisesti, kun tutkimme HDFS-arkkitehtuuria seuraavassa HDFS-opetusblogissamme. Nyt toistetaan yleiskatsaus HDFS: n ominaisuuksista:

  • Kustannus: HDFS on yleensä käytössä hyödykelaitteistossa, kuten työpöydässäsi / kannettavassasi, jota käytät päivittäin. Joten se on erittäin taloudellinen hankkeen omistuskustannusten kannalta. Koska käytämme edullisia hyödykelaitteistoja, sinun ei tarvitse käyttää valtavasti rahaa Hadoop-klusterin laajentamiseen. Toisin sanoen uusien solmujen lisääminen HDFS: ään on kustannustehokasta.
  • Tietojen lajike ja määrä: Kun puhumme HDFS: stä, puhumme valtavien tietojen, kuten teratavujen ja petatavujen, ja erilaisten tietojen tallentamisesta. Joten voit tallentaa minkä tahansa tyyppistä dataa HDFS: ään, olipa se sitten jäsennelty, rakenteeton tai osittain jäsennelty.
  • Luotettavuus ja vikasietoisuus: Kun tallennat tietoja HDFS: ään, se jakaa annetut tiedot sisäisesti datalohkoihin ja tallentaa ne hajautetusti Hadoop-klusteriin. Tiedot siitä, mikä datalohko sijaitsee missä datasolmuissa, on tallennettu metatietoihin. NameNode hallinnoi metatietoja ja DataNodes ovat vastuussa tietojen tallentamisesta.
    Nimisolmu kopioi myös tiedot, eli ylläpitää useita kopioita tiedoista. Tämä tietojen kopiointi tekee HDFS: stä erittäin luotettavan ja vikasietoisen. Joten, vaikka jokin solmuista epäonnistuu, voimme noutaa tiedot toisissa solmuissa sijaitsevista kopioista. Oletuksena replikointikerroin on 3. Jos siis tallennat 1 Gt tiedostoa HDFS: ään, se vie lopulta 3 Gt tilaa. Nimisolmu päivittää säännöllisesti metatiedot ja pitää replikointikertoimen yhtenäisenä.
  • Tietojen eheys: Data Integrity kertoo, ovatko HDFS-järjestelmääni tallennetut tiedot oikeat. HDFS tarkistaa jatkuvasti tallennettujen tietojen eheyden sen tarkistussummasta. Jos se löytää vian, se ilmoittaa siitä nimisolmulle. Sitten nimisolmu luo uusia uusia kopioita ja poistaa siten vioittuneet kopiot.
  • Suuri suorituskyky: Läpäisykyky on yksikössä tehdyn työn määrä. Siinä kerrotaan, kuinka nopeasti voit käyttää tietoja tiedostojärjestelmästä. Pohjimmiltaan se antaa sinulle käsityksen järjestelmän suorituskyvystä. Kuten edellä olevasta esimerkistä näet, käytimme kymmenen konetta yhdessä laskennan tehostamiseksi. Siellä pystyimme lyhentämään käsittelyaikaa 43 minuuttia pelkälle 4,3 minuuttia koska kaikki koneet työskentelivät rinnakkain. Siksi prosessoimalla tietoja rinnakkain, lyhensimme käsittelyaikaa valtavasti ja saavuttaimme siten korkean suorituskyvyn.
  • Tietojen sijainti: Tietopaikassa puhutaan prosessoriyksikön siirtämisestä dataan datan sijaan käsittelyyksikköön. Perinteisessä järjestelmässämme käytimme tietojen tuomista sovellustasolle ja sitten niiden käsittelyä. Mutta nyt, tietojen arkkitehtuurin ja valtavan määrän vuoksi tietojen tuominen sovelluskerrokseen tuleevähentää verkon suorituskykyä huomattavassa määrin.Joten HDFS: ssä tuomme laskentaosan datasolmuihin, joissa data on. Siksi et siirrä tietoja, vaan tuot ohjelman tai prosessinosa tietoihin.

Joten nyt sinulla on lyhyt idea HDFS: stä ja sen ominaisuuksista. Mutta luota minuun kaverit, tämä on vain jäävuoren huippu. Seuraavassa , Sukelan syvälle HDFS-arkkitehtuuri ja paljastan HDFS: n menestyksen takana olevat salaisuudet. Yhdessä vastaamme kaikkiin kysymyksiin, jotka miettivät päähäsi, kuten:

  • Mitä tapahtuu kulissien takana, kun luet tai kirjoitat tietoja Hadoop Distributed File System -järjestelmässä?
  • Mitkä ovat algoritmit, kuten telinetietoisuus, joka tekee HDFS: stä niin vikasietoisen?
  • Kuinka Hadoopin hajautettu tiedostojärjestelmä hallitsee ja luo kopiota?
  • Mitä ovat lohkotoiminnot?

Nyt kun olet ymmärtänyt HDFS: n ja sen ominaisuudet, tutustu Edureka, luotettava verkko-oppimisyritys, jolla on yli 250 000 tyytyväisen oppijan verkosto, joka levisi ympäri maailmaa. Edureka Big Data Hadoop -sertifiointikoulutus auttaa oppijoita tulemaan HDFS-, Lanka-, MapReduce-, Pig-, Hive-, HBase-, Oozie-, Flume- ja Sqoop-asiantuntijoiksi reaaliaikaisten käyttötapausten avulla vähittäiskaupan, sosiaalisen median, ilmailun, matkailun ja rahoituksen toimialueilla.

Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.