Cloudera Hadoop: CDH-jakelun aloittaminen



Tämä Cloudera Hadoop -oppaassa oleva Edureka-blogi antaa sinulle täydellisen käsityksen erilaisista Cloudera-komponenteista, kuten Cloudera Manager, Paketit, Hue jne.

Big Datan kysynnän kasvaessa Apache Hadoop onklovallankumouksen ydin, se on muuttanut tapaa, jolla järjestämme ja laskemme tietoja. Organisaatioiden tarve sovittaa Hadoop liiketoimintatarpeisiinsa on voimistanut kaupallisten jakelujen syntymistä. Kaupalliset Hadoop-jakelut on yleensä pakattu ominaisuuksiin, jotka on suunniteltu virtaviivaistamaan Hadoopin käyttöönottoa. Cloudera Hadoop Distribution tarjoaa skaalautuvan, joustavan, integroidun alustan, jonka avulla on helppo hallita nopeasti kasvavia tietomääriä ja lajikkeita yrityksessäsi.

Tässä Cloudera Hadoop Distribution -blogissa käsitellään seuraavia aiheita:





Cloudera Hadoop: Johdanto Hadoopiin

Hadoop on Apache-avoimen lähdekoodin kehys, joka tallentaa ja käsittelee Big Data -järjestelmää hajautetussa ympäristössäpoikkiklusteri yksinkertaisilla ohjelmointimalleilla. Hadoop tarjoaa rinnakkaisen laskennan hajautetun tallennustilan päälle.Lisätietoja Hadoopista yksityiskohtaisesti osoitteesta voit viitata tähän

Tämän Hadoopin lyhyen johdannon jälkeen haluan nyt selittää Hadoop-jakelun erityyppiset tyypit.



Cloudera Hadoop: Hadoop-jakelut

Koska Apache Hadoop on avoimen lähdekoodin, monet yritykset ovat kehittäneet jakeluja, jotka ylittävät alkuperäisen avoimen lähdekoodin. Tämä on hyvin samanlainen kuin Linux-jakelut, kuten RedHat, Fedora ja Ubuntu. Jokainen Linux-jakelusta tukee omia toimintojaan ja ominaisuuksia, kuten käyttäjäystävällinen käyttöliittymä Ubuntussa. Samoin, punainen hattu on suosittu yrityksissä, koska se tarjoaa tukea ja tarjoaa ideologiaa muutosten tekemiseksi mihin tahansa järjestelmän osaan haluamallasi tavalla. Red Hat vapauttaa sinut ohjelmistojen yhteensopivuusongelmista. Tämä on yleensä iso ongelma käyttäjillejotka siirtyvät Windowsista.

Samoin on 3 päätyyppiä Hadoop-jakeluja, joilla on oma joukko toimintoja ja ominaisuuksia ja jotka on rakennettu HDFS-peruskokoonpanon alle.

Cloudera vs MapR vs Hortonworks

Kuva: MapR vs Hortonworks vs Cloudera

Kuva: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop -jakelu

Cloudera on markkinoiden trendi Hadoop-avaruudessa ja julkaisee ensimmäisenä kaupallisen Hadoop-jakelun. Se tarjoaa konsultointipalveluja kuilun kaventamiseksi - 'mitä Apache Hadoop tarjoaa' ja 'mitä organisaatiot tarvitsevat'.

Cloudera-jakelu on:

  • Nopea liiketoiminnalle : Cloudera tarjoaa analyysistä datatieteeseen ja kaikkeen siltä väliltä suorituskyvyn, jota tarvitset rajoittamattoman tiedon potentiaalin vapauttamiseksi.
  • Tekee Hadoopin hallittavaksi : Cloudera Managerin avulla automatisoidut ohjatut toiminnot mahdollistavat klusterin nopean käyttöönoton mittakaavasta tai asennusympäristöstä riippumatta.
  • Suojattu tinkimättä: Täyttää tiukat tietoturva- ja vaatimustenmukaisuuden tarpeet uhraamatta liiketoiminnan ketteryyttä. Cloudera tarjoaa integroidun lähestymistavan tietoturvaan ja hallintoon.

Horton-Works Jakelu

Horton-Works Data Platform (HDP) on täysin avoimen lähdekoodin alusta, joka on suunniteltu hallitsemaan tietoja monista lähteistä ja muodoista. Alusta sisältää erilaisia ​​Hadoop-työkaluja, kuten Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive ja muita komponentteja.

Se tukee myös ominaisuuksia, kuten:

  • HDP tekee pesästä nopeammin uuden Stinger-projektin kautta.
  • HDP välttää toimittajan lukitsemista sitoutumalla haarautuneeseen versioon Hadoopista.
  • HDP on keskittynyt parantamaan käytettävyys Hadoop-alustan.

MapR-jakelu

MapR on alustakeskeinen Hadoop-ratkaisujen tarjoaja, aivan kuten HortonWorks ja Cloudera. MapR integroi oman tietokantajärjestelmänsä, joka tunnetaan nimellä MapR-DB, samalla kun se tarjoaa Hadoop-jakelupalveluja. MapR-DB: n väitetään olevan neljästä seitsemään kertaa nopeampi kuin muissa jakeluissa suoritettava Hadoopin osakekanta eli HBase.

Sillä on kiehtovia ominaisuuksia, kuten:

  • Se on ainoa Hadoop-jakelu, joka sisältää Pig, Hive ja Sqoop ilman Java-riippuvuuksia - koska se perustuu MapR-tiedostojärjestelmään.
  • MapR on eniten tuotantovalmiita Hadoop-jakelu, jossa on monia parannuksia, jotka tekevät siitä käyttäjäystävällisemmän, nopeamman ja luotettavamman.

Keskustelkaamme nyt perusteellisesti Cloudera Hadoop -jakelusta.

Tilaa YouTube-kanavamme saadaksesi uusia päivityksiä ...

Cloudera Hadoop: Cloudera-jakelu

Cloudera on Hadoop-tilan tunnetuin pelaaja, joka julkaisee ensimmäisen kaupallisen Hadoop-jakelun.

Kuva: Cloudera Hadoop -jakelu

Cloudera Hadoop Distribution tukee seuraavia ominaisuuksia:

  1. Clouderan CDH sisältää kaikki avoimen lähdekoodin komponentit, kohdistuu yritystason käyttöönottoihin ja on yksi suosituimmista kaupallisista Hadoop-jakeluista.
  2. Innovaatioistaan ​​tunnettu Cloudera tarjosi ensimmäisenä SQL-for-Hadoop sen kanssa Impala kyselymoottori.
  3. Hallintakonsoli - Cloudera Manager , on helppo käyttää ja toteuttaa monipuolisella käyttöliittymällä, joka näyttää kaikki klusteritiedot organisoidulla ja puhtaalla tavalla.
  4. CDH: ssa voit lisätä palveluja käynnissä olevaan klusteriin ilman häiriöitä.
  5. Muita Cloudera-lisäyksiä ovat tietoturva, käyttöliittymä ja rajapinnat integroitumiseen kolmansien osapuolten sovellusten kanssa.
  6. CDH tarjoaa Solmumallit ts. se mahdollistaa solmuryhmän luomisen vaihtelevalla kokoonpanolla varustetussa Hadoop-klusterissa. Se poistaa saman kokoonpanon käytön koko Hadoop-klusterissa.
  7. Se tukee myös:
    • Luotettavuus
      Hadoop-toimittajat toimivat nopeasti vastauksena aina, kun havaitaan virhe. Kaupallisten ratkaisujen vakauttamiseksi korjaustiedostot ja korjaukset otetaan käyttöön välittömästi.
    • Tuki
      Cloudera Hadoop -toimittajat tarjoavat teknistä ohjausta ja apua, jonka avulla asiakkaiden on helppo ottaa Hadoop käyttöön yritystason tehtävissä ja tehtäväkriittisissä sovelluksissa.

    • Täydellisyys
      Hadoop-toimittajat yhdistävät jakelunsa useiden muiden lisälaitteiden avulla, joiden avulla asiakkaat voivat mukauttaa Hadoop-sovellusta vastaamaan heidän erityistehtäviinsä.

Cloudera-jakeluissa on 2 erilaista versiota.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Katsotaan nyt niiden välisiä eroja.

ominaisuudet Cloudera-Express Cloudera-Enterprise
Klusterien hallinta
1. Usean klusterin hallintaJooJoo
2. Resurssien hallintaJooJoo
Käyttöönotto
1. Tuki CDH 4: lle ja 5: lleJooJoo
2. CDH: n jatkuva päivitysEiJoo
Palvelun ja kokoonpanon hallinta
1. Hallitse HDFS-, MapReduce-, YARN-, Impala-, HBase-, Hive-, Hue-, Oozie-, Zookeeper-, Solr-, Spark- ja Accumulo-palveluitaJooJoo
2. Palvelujen jatkuva uudelleenkäynnistysEiJoo
Turvallisuus
1. LDAP-todennusEiJoo
2. SAML-todennusEiJoo
Seuranta ja diagnoosi
1. TerveyshistoriaJooJoo
Hälytysten hallinta
1. Hälytys sähköpostitseJooJoo
2. Hälytys SNMP: n kauttaEiJoo
Edistyneet hallintaominaisuudet
1. Automaattinen varmuuskopiointi ja palautusEiJoo
2. Tiedostojen selaaminen ja hakuEiJoo
3. MapReduce-, Impala-, HBase-, langankäyttöraportitEiJoo

Cloudera Hadoop: Cloudera Manager

Clouderan mukaan Cloudera Manager on paras tapa Asentaa , määritä , hallita ja monitori Hadoop-pino.

Se tarjoaa:

  1. Automaattinen käyttöönotto ja määritys
  2. Mukautettava seuranta ja raportointi
  3. Vaivaton ja vankka vianmääritys
  4. Nolla - seisokkien huolto

Hanki syvällistä tietoa Cloudera Hadoopista ja sen eri työkaluista

Cloudera Managerin esittely

Tutkitaan Cloudera Manageria.

1. Alla olevassa kuvassa näkyy Cloudera Managerissa tällä hetkellä suoritettavien palvelujen määrä. Voit myös tarkastella taulukoita klusterin suorittimen käytöstä, levyn IO-käytöstä jne.

Kuva: Cloudera Managerin kotisivu

2. Alla oleva kuva havainnollistaa HBase-klusteria. Se antaa sinulle kaavioita ja käyriä parhaillaan käynnissä olevan HBase REST -palvelimen terveydentilasta.

Kuva: HBase-palvelimen terveysolosuhteet

3. Katsotaanpa nyt HBase-klusterin Instances-välilehteä, jossa voit tarkistaa tilan ja IP-kokoonpanon.

Kuva: HBase-klusterin isäntäpalvelimen tila ja IP-osoite

4. Seuraavaksi sinulla on Kokoonpano-välilehti. Täällä voit nähdä kaikki kokoonpanoparametrit ja muuttaa niiden arvoja.

Kuva: HBase-klusterin kokoonpano

Ymmärretään nyt, mitä ovat paketit Clouderassa.

Cloudera Hadoop: Paketit

Paketti on binäärinen jakelumuoto, joka sisältää ohjelmatiedostot sekä Cloudera Managerin käyttämät metatiedot.

Paketit ovat itsenäisiä ja asennettu versioituun hakemistoon, mikä tarkoittaa, että tietystä palvelusta voidaan asentaa useita versioita rinnakkain.

kuinka asettaa java classpath

Alla on paketin käytön edut:

  • Se tarjoaa CDH: n jakelun yhtenä objektina, ts. Sen sijaan, että paketeilla olisi erillinen paketti CDH: n jokaiselle osalle, paketeilla on vain yksi objekti asennettavaksi.

  • Se tarjoaa sisäisen johdonmukaisuuden (koska koko CDH jaetaan yhtenä pakettina, kaikki CDH-komponentit sovitetaan yhteen ja ei ole vaaraa, että CDH: n eri versiot tulevat eri osiin).

  • Voit asentaa, päivittää, päivittää, jakaa ja aktivoida paketteja CDH: ssa muutamalla napsautuksella.

Katsotaan nyt, kuinka Kafka-palvelu asennetaan ja aktivoidaan CDH: ssa pakettien avulla.

  1. Siirry Cloudera managerin etusivulle >> Palvelimet >> Paketit alla olevan kuvan mukaisesti

    Kuva: Pakettien valinta isännistä

2. Jos et näe Kafkaa pakettiluettelossa, voit lisätä paketin luetteloon.

  1. Etsi paketti Kafka-versiosta, jota haluat käyttää. Jos et näe sitä, voit lisätä pakettivaraston luetteloon.
  2. Etsi paketti asennettavalle Kafka-versiolle - Apera Kafka -versioiden Cloudera-jakelu .
    Alla oleva kuva osoittaa saman.

Kuva: Paketin arkistopolku.

3. Kopioi linkki yllä olevassa kuvassa esitetyllä tavalla ja lisää se etäpakettivarastoon alla olevan kuvan mukaisesti.

Kuva: Kafka-polun lisääminen arkistosta

Neljä.Polun lisäämisen jälkeen Kafka on valmis ladattavaksi. Voit vain napsauttaa latauspainiketta ja ladata Kafka.

Kuva: Kafkan lataaminen

5. Kun Kafka on ladattu, sinun tarvitsee vain levittää ja aktivoida se.

Kuva: Kafkan aktivointi

Kun se on aktivoitu, voit mennä eteenpäin ja tarkastella Kafkaa Cloudera managerin palvelut-välilehdessä.

Kuva: Kafkan palvelu

Cloudera Hadoop: Oozie-työnkulun luominen

Työnkulun luominen kirjoittamalla XML-koodi manuaalisesti ja suorittamalla se on monimutkaista. Voit viitata tähän Oozie-työn aikataulu blogi, tietää perinteisestä lähestymistavasta.

Näet alla olevan kuvan, johon olemme kirjoittaneet XML-tiedoston yksinkertaisen Oozie-työnkulun luomiseksi. Kuva: Oozie-työnkulun luominen perinteisellä lähestymistavalla

Kuten näette jopa yksinkertaisen Oozie-ajastimen luomiseksi, jouduimme kirjoittamaan valtavan XML-koodin, joka on aikaa vievää, ja jokaisen rivin virheenkorjaus on hankalaa. Tämän voittamiseksi Cloudera Manager esitteli uuden ominaisuuden nimeltä Värisävy joka tarjoaa käyttöliittymän ja yksinkertaiset vedä ja pudota -ominaisuudet Oozie-työnkulkujen luomiseen ja suorittamiseen.

Katsotaan nyt, kuinka Hue suorittaa saman tehtävän yksinkertaistetulla tavalla.

Ennen työnkulkun luomista luodaan ensin syötetiedostot, kuten clickstream.txt ja user.txt.
User.txt-tiedostossa meillä on käyttäjätunnus, nimi, ikä, maa, sukupuoli, kuten alla on esitetty. Tarvitsemme tämän käyttäjätiedoston, jotta voimme tietää, että käyttäjä laskee ja napsauttaa URL-osoitetta (mainitaan clickstream-tiedostossa) käyttäjätunnuksen perusteella.

Kuva: Tekstitiedoston luominen

Jotta saisimme tietää käyttäjän napsautusten määrän jokaisessa URL-osoitteessa, meillä on napsautusvirta, joka sisältää käyttäjätunnuksen ja URL-osoitteen.

Kuva: Clickstream-tiedosto

Kirjoitetaan kyselyt komentotiedostoon.

Kuva: Komentosarjatiedosto

Kun olet luonut seuraavaksi käyttäjätiedoston, clickstream-tiedoston ja komentosarjatiedoston, voimme edetä ja luoda Oozie-työnkulun.

1. Voit vetää ja pudottaa Oozie-työnkulun kuvan osoittamalla tavalla.

Kuva: Vedä ja pudota-ominaisuus Oozie-työnkulun luomisessa

2. Pian toiminnon pudottamisen jälkeen sinun on määritettävä komentotiedoston polut ja lisättävä komentotiedostossa mainitut parametrit. Tässä sinun on lisättävä OUTPUT-, CLICKSTREAM- ja USER-parametrit ja määritettävä kunkin parametrin polku.

Kuva: Komentotiedoston ja tarvittavien parametrien lisääminen toiminnon suorittamiseen

3. Kun olet määrittänyt polut ja lisännyt parametrit, tallenna ja lähetä nyt työnkulku alla olevan kuvan mukaisesti.

Kuva: Oozie-toiminnon tallentaminen ja lähettäminen

4. Kun olet lähettänyt tehtävän, työsi on valmis. Suorituksesta ja muista vaiheista huolehtii Hue.

Kuva: Oozie-työn suoritustila

5.Nyt kun olemme suorittaneet Oozie-työn, katsotaanpa toiminto-välilehteä. Se sisältää käyttäjätunnuksen ja työnkulun tilan. Se näyttää myös virhekoodit, jos niitä on, toimintokohteen aloitus- ja lopetusaika.

Kuva: Oozie-työnkulun toimintavälilehdessä olevat elementit

6. Toiminto-välilehden vieressä on tiedot-välilehti. Tässä voimme nähdä työn aloitusajan ja viimeksi muokatun ajan.

Kuva: Oozie-työnkulun tiedot.

7. Tiedot-välilehden vieressä on työnkulun Kokoonpano-välilehti.

Kuva: Oozie-työnkulun kokoonpanoasetukset

7. Kun suoritetaan toimintokohde, jos siinä on virheitä, se näkyy Loki-välilehdessä. Voit viitata virhelausekkeisiin ja korjata sen vastaavasti.

Kuva: Lokitiedosto, joka sisältää virhekoodeja ja virheilmoituksia

8. Tässä on työnkulun XML-koodi, jonka Hue luo automaattisesti.

Kuva: Oozie-työnkulun XML-koodi

9.1. Koska olet jo määrittänyt lähtöhakemiston polun vaiheessa 2, tässä on lähtöhakemisto HDFS-selaimessa alla olevan kuvan mukaisesti.

Kuva: HDFS-selaimen lähtöhakemisto

9.2 Kun napsautat lähtöhakemistoa, löydät tekstitiedoston nimeltä output.txt ja kyseinen tekstitiedosto sisältää todellisen lähdön alla olevan kuvan mukaisesti.

Kuva: Lopullinen tulostusteksti

if-lause SQL-kyselyssä

Näin Hue tekee työmme yksinkertaiseksi tarjoamalla vedä ja pudota -vaihtoehdot Oozie-työnkulun luomiseksi.

Toivon, että tästä blogista oli hyötyä Cloudera-jakelun ja eri Cloudera-komponenttien ymmärtämisessä.

Haluatko osallistua Big Data -vallankumoukseen?

Nyt kun olet ymmärtänyt Cloudera Hadoop Distributionin, tarkista Edureka, luotettava verkko-oppimisyritys, jolla on yli 250 000 tyytyväisen oppijan verkosto, joka levisi ympäri maailmaa. Edureka Big Data Hadoop -sertifiointikoulutus auttaa oppijoita tulemaan HDFS: n, langan, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop -asiantuntijoiksi reaaliaikaisilla käyttötapauksilla vähittäiskaupan, sosiaalisen median, ilmailun, matkailun ja rahoituksen aloilla.

Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.