Kuinka luoda Hadoop-klusteri Amazon EMR: llä?



Tässä artikkelissa tutkimme AWS EMR -palvelua ja opimme prosessin aikana kuinka luoda Hadoop-klusteri Amazon EMR: n avulla?

Tässä artikkelissa kuinka luoda Klusteri Amazon EMR: n avulla näemme, kuinka Hadoop- ja Big Data -sovelluksia voidaan helposti suorittaa ja skaalata. Seuraavat vihjeet käsitellään tässä artikkelissa,

Siirtyminen tähän Miten luoda Hadoop-klusteri Amazon EMR: llä?





Kuinka luoda Hadoop-klusteri Amazon EMR: llä?

Kun etsimme jotain Googlesta tai Yahoo: sta, saamme vastauksen murto-osassa sekuntia. Kuinka on mahdollista, että Google, Yahoo ja muut hakukoneet palauttavat tulokset niin nopeasti jatkuvasti kasvavasta verkosta? Hakukoneet indeksoivat Internetiä, lataavat verkkosivut ja luovat hakemiston alla olevan kuvan mukaisesti. Kaikista kyselyistämme he käyttävät hakemistoa selvittääkseen, mitkä ovat kaikki verkkosivut, joissa on etsimämme teksti. Tarkastelemalla alla olevaa hakemistoa oikealla puolella voimme selvästi tietää, että Hadoop on verkkosivut 1, 2 ja 3.

Kuva - Hadoop-klusterin luominen Amazon EMR: llä - EdurekaSitten PageRanking-algoritmi käytetään, mikä perustuu siihen, miten sivut on kytketty selvittämään, mikä sivu näytetään yläosassa ja mikä alareunassa. Alla olevassa skenaariossa W1 on 'suosituin', koska kaikki linkittävät siihen ja W4 on 'vähiten suosittu', koska kukaan ei linkitä siihen. Joten W1 näkyy hakutuloksissa yläosassa ja W4 alhaalla.



Verkkosivujen räjähdyksen myötä nämä hakukoneet löysivät haasteita hakemiston luomiseksi ja PageRanking-laskelmien tekemiseksi. Täällä Hadoopin syntymä tapahtui Yahoossa ja siitä tuli myöhemmin FOSS (ilmainen ja avoin lähdekoodin ohjelmisto) ASF: n (Apache Software Foundation) alaisuudessa. ASF: n alaisuudessa monet yritykset alkoivat kiinnostaa Hadoopia ja alkoivat osallistua sen parantamiseen. Hadoop aloitti Big Data -vallankumouksen, mutta monet muut ohjelmistot, kuten Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume, alkoivat kehittyä vastaamaan Hadoopin rajoituksiin ja aukkoihin.

Verkkohakukoneet käyttivät ensimmäisiä Hadoopia, mutta myöhemmin monet käyttötapaukset alkoivat kehittyä, kun yhä enemmän tietoa tuotettiin. Otetaan esimerkki verkkokauppasovelluksesta, jota käytetään kirjojen suosittelemiseen käyttäjille. Alla olevan kaavion mukaisesti käyttäjä1 osti kirja1, kirja2 ja kirja3, käyttäjä2 osti kirjoja ja niin edelleen. Tarkkailemalla voimme havaita, että käyttäjän1 ja käyttäjän2 maku on samanlainen kuin he ovat ostaneet kirjan1 ja kirjan2. Joten kirja3 voidaan suositella käyttäjälle2 ja kirja4 voidaan suositella käyttäjälle1. Tätä kutsutaan yhteistoiminnalliseksi suodatukseksi, eräänlaiseksi koneoppimisalgoritmiksi. Voimme kääntää alla olevan kaavion ja saada samanlaisia ​​kirjoja.

Edellä mainitussa tapauksessa olemme luoneet hakemiston, PageRankedin ja suosittaneet käyttäjälle, datan koko oli pieni, joten pystyimme visualisoimaan tiedot ja päättelemään siitä joitain tuloksia. Kun datan koko kasvaa päivittäin ja hallitsematon, tässä tulevat Big Data -työkalut, kuten Hadoop.



Hadoop ratkaisee paljon ongelmia, mutta Hadoopin ja muiden Big Data -ohjelmistojen asentaminen ei ollut koskaan ollut helppo tehtävä. Säädettävissä on paljon kokoonpanoparametreja, kuten integrointi-, asennus- ja määritysongelmat. Täällä yritykset, kuten Cloudera, ja Databricks-ohjeet. Ne helpottavat Big Data -ohjelmiston asentamista ja tarjoavat kaupallista tukea, esimerkiksi sanotaan, että jotain tapahtuu tuotannossa. Amazon EMR (Elastic MapReduce) vie Hadoopin jne. Käytön helppouden paljon helpommin. Nimi Elastic MapReduce on hieman väärä nimi, koska EMR tukee myös muita hajautettuja laskentamalleja, kuten Resilient Distributed Datasets, eikä vain MapReduce.

Tässä opetusohjelmassa tutkitaan, kuinka EMR-klusteri asetetaan AWS Cloudiin ja tulevassa opetusohjelmassa, miten Spark, Hive ja muut sen päällä olevat ohjelmat suoritetaan.

Siirtyminen tähän Miten luoda Hadoop-klusteri Amazon EMR: llä?

Esittely: EMR-klusterin luominen AWS: ssä

Vaihe 1: Siirry EMR-hallintakonsoliin ja napsauta 'Luo klusteri'. Konsolissa päättynyt klusteri tallennetaan myös kahdeksi kuukaudeksi ilmaiseksi. Tämä mahdollistaa lopetetun klusterin kloonaamisen ja luomisen uudelleen.

miten system.exit-tiedostoa käytetään java-tiedostossa

Vaihe 2 : Napsauta pika-asetusten näytössä Siirry lisäasetuksiin tarkentaaksesi paljon lisätietoja klusterista.

Vaihe 3: Lisäasetukset-välilehdessä voimme valita erilaiset ohjelmistot asennettaviksi EMR-klusteriin. SQL-käyttöliittymälle Hive voidaan valita. Tiedonkulun kielirajapintaa varten Pig voidaan valita. Hajautettua sovelluksen koordinointia varten voidaan valita ZooKeeper ja niin edelleen. Tämän välilehden avulla voimme myös lisätä vaiheita, mikä on valinnainen tehtävä. Vaiheet ovat suuria tietojenkäsittelytehtäviä MapReduce, Pig, Hive jne. Avulla. Ne voidaan lisätä tähän välilehteen tai myöhemmin, kun klusteri on luotu. Napsauta Seuraava ja valitse EMR-klusterille tarvittava laitteisto.

Vaihe 4: Hadoop noudattaa päällikön ja työntekijän välistä arkkitehtuuria, jossa päällikkö tekee kaiken koordinoinnin, kuten työn aikatauluttamisen, osoittamisen ja työn etenemisen, kun taas työntekijät tekevät varsinaisen tiedon käsittelyn ja tallennuksen. Yksi päällikkö on yhden pisteen epäonnistuminen (SPOF). Amazon EMR tukee monikäyttöistä korkeaa saatavuutta (HA). Edellisen vaiheen avulla voidaan määrittää monen master-klusteri EMR: ssä.

EMR sallii kahden tyyppiset solmut, Core ja Task. Ydinsolmua käytetään sekä tietojen käsittelyyn että tallentamiseen, tehtäväsolmua käytetään vain tietojen käsittelyyn. Tätä opetusohjelmaa varten voimme valita vain yhden ytimen eikä tehtäväsolmuja, koska se maksaa meille vähemmän kustannuksia. Valitse myös Spot-esiintymät yli Tarpeen vaatiessa koska Spot-esiintymät ovat halvempia. Spot-instanssien saalis on, että AWS voi lopettaa ne automaattisesti a kahden minuutin varoitusajalla . Tämä on hienoa käytännön vuoksi ja joissakin todellisissa skenaarioissa. Spot-instanssit lopetetaan automaattisesti, koska niillä on matala prioriteetti muihin ilmentymätyyppeihin verrattuna. Napsauta “Seuraava”.

Vaihe 5: Määritä klusterin nimi. ja napsauta ”Seuraava”. Huomaa, että ”Päätösuojaus” on oletusarvoisesti käytössä, mikä varmistaa, että EMR-klusteria ei poisteta vahingossa ottamalla käyttöön muutama vaihe lopettamalla klusterin.

Vaihe 6: Välilehdessä määritetään EMR-klusterin eri suojausasetukset. KeyPair on valittava kirjautumista varten EC2-ilmentymään. EMR luo automaattisesti sopivat roolit ja suojausryhmät ja liittää ne pää- ja työntekijä EC2-solmuihin. Napsauta 'Luo klusteri'.

kuinka tehdä joukko esineitä

Klusterin luominen kestää muutaman minuutin, koska EC2-esiintymät on ostettava ja eri Big Data -ohjelmistot on asennettava ja konfiguroitava. Aluksi klusterin tila olisi 'Aloitus' -tilassa ja siirtyisi 'Odottaa' -tilaan. 'Odottaa' -tilassa EMR-klusteri yksinkertaisesti odottaa meitä lähettämään erilaisia ​​Big Data -käsittelytehtäviä, kuten MR, Spark, Hive jne.

Huomaa myös EC2-hallintakonsolista ja huomaa, että pää- ja työntekijä-EC2-esiintymien tulisi olla käynnissä. Nämä ovat Spot-esiintymiä, jotka on luotu osana EMR-klusterin luomista. Sama EC2 voidaan havaita myös EMR-hallintakonsolin Laitteisto-välilehdeltä. Huomaa, että Laitteisto-välilehdessä Spot EC2 -esiintymien hinnaksi mainitaan 0,032 $ / tunti. Spot-instanssien hinta muuttuu jatkuvasti ajan myötä ja on paljon alhaisempi kuin On-Demand EC2 -hinnoittelussa.

Vaihe 7: Nyt kun EMR-klusteri on lisätty onnistuneesti, Steps- tai Big Data -käsittelytyöt voidaan lisätä. Siirry Vaiheet-välilehteen ja napsauta Lisää vaihe -vaihtoehtoa ja valitse vaiheen tyyppi (MR, Hive, Spark jne.). Tutkimme samaa tulevassa opetusohjelmassa. Napsauta toistaiseksi Peruuta.

Vaihe 8: Nyt kun olemme nähneet, miten EMR käynnistetään, voimme nähdä, kuinka lopettaa sama.

yhdistä lajittelukoodi c ++

Vaihe 8.1: Napsauta Lopeta.

Vaihe 8.2: Kuten edellisissä vaiheissa mainittiin, ”Termination protection” on päällä EMR-klusterille ja Terminate-painike on poistettu käytöstä. Napsauta Vaihda.

Vaihe 8.3: Valitse ”Pois” -valintanappi ja napsauta valintamerkkiä. Nyt Lopeta-painikkeen pitäisi olla käytössä. Tämä on uusi vaihe, jonka EMR on ottanut käyttöön varmistaakseen, ettemme vahingossa poista EMR-klusteria.

Huomaa, että EMR-klusteri on lopetettavassa tilassa ja EC2: t lopetetaan. Lopuksi EMR-klusteri siirretään lopetettuun tilaan, josta laskutus AWS: llä lopetetaan. Varmista, että lopetat klusterin, jotta et aiheuta ylimääräisiä AWS-kustannuksia.

Johtopäätös

Tässä opetusohjelmassa olemme nähneet, kuinka EMR-klusteri käynnistetään muutamassa minuutissa verkkokonsolista (selaimesta), sama voidaan automatisoida , AWS SDK tai käyttämällä AWS CloudFormation . Kuten huomasin, EMR-klusterin perustaminen voidaan tehdä muutamassa minuutissa ja Big Data -käsittely voidaan aloittaa heti, kun käsittely on suoritettu, tulos voidaan tallentaa S3 tai DynamoDB ja niin klusterin sammutus laskutuksen lopettamiseksi. Tämän hinnoittelumallin ja helppokäyttöisyyden takia EMR on iso hitti niiden kanssa, jotka tekevät Big Data -käsittelyä. Ei tarvitse ostaa palvelimia valtavasti, hankkia lisenssejä Big Data -ohjelmistolle ja ylläpitää niitä. ”

Joten tämä on se kaverit, tämä johtaa meidät tämän artikkelin loppuun, kuinka luoda Hadoop-klusteri Amazon EMR: llä?Jos haluat hankkia asiantuntemusta tästä aiheesta, Edureka on keksinyt opetussuunnitelman, joka kattaa tarkalleen, mitä sinun tarvitsee murtaa Ratkaisuarkkitehti-tentti! Voit tutustua kurssin yksityiskohtiin koulutus.

Jos tähän blogiin liittyy kysyttävää, voit esittää kysymyksesi alla olevaan kommenttiosioon, ja vastaamme mielellämme sinulle aikaisintaan.