Hadoop 2.0 - usein kysytyt kysymykset



Kiinnostus Hadoopia kohtaan on kasvanut moninkertaiseksi parin viime vuoden aikana. Tämä viesti vastaa kyselyihisi ja poistaa monia epäilyjä Hadoop 2.0: sta ja sen käytöstä.

Tämä on jatko viesti, jossa on vastaus edurekan julkisen webinaarin aikana usein kysyttyihin kysymyksiin! päällä .

Usein kysytyt kysymykset Hadoopista

Deepak:





Mikä on Hadoop?
Apache Hadoop on avoimen lähdekoodin ohjelmistokehys tietojoukkojen tallentamiseen ja laajamittaiseen käsittelyyn hyödykelaitteistoklustereissa. Se on avoimen lähdekoodin tiedonhallintaohjelmisto, jossa on laajennettava varastointi ja hajautettu käsittely. Sitä rakentaa ja käyttää globaali avustajien ja käyttäjien yhteisö.

Lue lisää Hadoop-blogiviestistämme ja .



Hae:

Mitkä ovat suurten datan käyttötapaukset matka-, kuljetus- ja lentoteollisuudessa?

Aurinkoinen:



Voitteko osoittaa meille jonkin todellisen otoksen Hadoop-toteutuksesta, jota voimme tutkia?
Olemme livi/ruuhka-aikojen aikana. Kuljetusoperaattorit etsivät jatkuvasti kustannustehokkaita tapoja tarjota palvelujaan pitäen kuljetuskalustonsa hyvissä olosuhteissa. Big Data Analyticsin käyttö tällä toimialueella voi auttaa organisaatiota:

  • Reitin optimointi
  • Paikkatieteellinen analytiikka
  • Liikennemallit ja ruuhkat
  • Omaisuuden ylläpito
  • Tulojen hallinta (eli lentoyhtiö)
  • Varastonhallinta
  • Polttoaineen säästö
  • Kohdennettu markkinointi
  • Asiakasuskollisuus
  • Kapasiteetin ennustaminen
  • Verkon suorituskyky ja optimointi

Harvat reaalimaailman käyttötapaukset ovat:
) Lentokustannusten määrittäminen
b) Varastologistiikan ennustemallinnus
c) Orbitz Worldwide - Asiakas ostaa malleja
d) Kuusi Super-Scale Hadoop -asennusta
On) Hadoop - enemmän kuin lisää
f) Hadoop yritystoiminnassa

Voit oppia lisää Hadoop-todellisesta toteutuksesta osoitteessa:

Hirdesh:

Onko Hadoopissa kyse tietojen käsittelystä ja käsittelystä? Kuinka jatkamme raportointia ja visuaalista analyysia. Voiko Qlikview, Tableaua käyttää Hadoopin päällä?
Hadoopin ydinkomponentit HDFS ja MapReduce koskevat kaikki tietojen tallennusta ja käsittelyä. HDFS tallennusta varten ja MapReduce käsittelyä varten. Mutta Hadoopin ydinkomponentteja, kuten Pig ja Hive, käytetään analytiikkaan. Visuaalisten raporttien taulukossa QlikView voidaan yhdistää Hadoop for Visual Reporting -ohjelmaan.

Amit:

Hadoop vs. mongoDB
MongoDB: tä käytetään reaaliaikaisena ”operatiivisena” tietovarastona, kun taas Hadoopia käytetään offline-erätietojen käsittelyyn ja analysointiin.
mongoDB on asiakirjapainotteinen, skeematon tietovarasto, jota voit käyttää verkkosovelluksessa backendinä RDBMS: n, kuten MySQL: n sijaan, kun taas Hadoopia käytetään pääasiassa laajennettuna tallennustilana ja hajautettuna käsittelyyn suurelle määrälle tietoa.

Lue lisää osoitteesta mongoDB ja Hadoop-blogikirjoitus .

Tässä:

Onko Apache Spark osa Hadoopia ?
Apache Spark on nopea ja yleinen moottori laajamittaiseen tietojenkäsittelyyn. Spark on nopeampi ja tukee muistin sisäistä käsittelyä. Kipinän suoritusmoottori laajentaa Hadoopin käsittelemien laskentatehtävien määrää ja voi toimia Hadoop 2.0 YARN -klusterissa. Se on prosessointikehysjärjestelmä, joka mahdollistaa muistiin tallennettujen objektien (RDD) tallentamisen sekä kyvyn käsitellä näitä objekteja Scala-sulkimien avulla. Se tukee Graph-, Data Warehouse-, Machine Learning- ja Stream-käsittelyä.

Jos sinulla on Hadoop 2 -klusteri, voit käyttää Sparkia ilman asennusta. Muuten Sparkia on helppo käyttää erillisenä tai EC2: lla tai Mesosilla. Se voi lukea HDFS-, HBase-, Cassandra- ja Hadoop-tietolähteistä.

Lue lisää Sparkista tässä .

Prasad:

Mikä on Apache Flume?
Apache Flume on hajautettu, luotettava ja käytettävissä oleva järjestelmä suurten lokitietojen määrän tehokkaaseen keräämiseen, yhdistämiseen ja siirtämiseen monista eri lähteistä keskitettyyn tietolähteeseen.

kuinka tarkistaa palindromi java

Amit:

SQL vs. NO-SQL-tietokannat
NoSQL-tietokannat ovat seuraavan sukupolven tietokantoja, ja ne käsittelevät enimmäkseen joitain kohtia

  • ei-suhteellinen
  • hajautettu
  • avoin lähdekoodi
  • vaakasuunnassa skaalautuva

Usein käytetään enemmän ominaisuuksia, kuten skeematon, helppo replikointituki, yksinkertainen API, lopulta yhdenmukainen / BASE (ei ACID), valtava määrä tietoa ja paljon muuta. Esimerkiksi harvat erottelijoista ovat:

  • NoSQL-tietokannat laajentuvat vaakasuoraan lisäämällä lisää palvelimia suurempien kuormien käsittelemiseksi. SQL-tietokannat puolestaan ​​yleensä kasvavat pystysuunnassa ja lisäävät yhä enemmän resursseja yhteen palvelimeen liikenteen kasvaessa.
  • SQL-tietokannat vaativat sinun määrittelemään skeemasi ennen tietojen lisäämistä, mutta NoSQL-tietokannat eivät ole skeemia, eivätkä ne tarvitse skeeman määrittelyä etukäteen.
  • SQL-tietokannat perustuvat RDBMS-periaatteita noudattaviin riveihin ja sarakkeisiin, kun taas NoSQL-tietokannat ovat asiakirja-, avainarvopareja, kaavio- tai laajapylväisiä varastoja.
  • SQL-tietokannat käyttävät SQL: ää (strukturoitu kyselykieli) tietojen määrittelemiseen ja käsittelyyn. NoSQL-tietokannassa kyselyt vaihtelevat tietokannasta toiseen.

Suositut SQL-tietokannat: MySQL, Oracle, Postgres ja MS-SQL
Suosittu NoSQL-tietokannat: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j ja CouchDB

Tarkista blogimme Hadoop ja NoSQL tietokannat ja yhden tällaisen tietokannan edut:

Koteswararao:

Onko Hadoopilla sisäänrakennettua klusteritekniikkaa?
Hadoop-klusteri käyttää Master-Slave-arkkitehtuuria. Se koostuu yhdestä päälliköstä (NameNode) ja orjaryhmästä (DataNodes) tietojen tallentamiseksi ja käsittelemiseksi. Hadoop on suunniteltu toimimaan useilla koneilla, jotka eivät jaa muistia tai levyjä. Nämä DataNodes on määritetty klusteriksi . Hadoop käyttää replikaatiokonseptia varmistaakseen, että ainakin yksi kopio tiedoista on käytettävissä klusterissa koko ajan. Koska datasta on useita kopioita, palvelimelle tallennetut tiedot, jotka menevät offline-tilaan tai kuolevat, voidaan kopioida automaattisesti tunnetusta hyvästä kopiosta.

Dinesh:

Mikä on työ Hadoopissa? Mitä kaikki voidaan saavuttaa Jobin kautta?
Hadoopissa Job on MapReduce-ohjelma tietojen käsittelemiseksi / analysoimiseksi. Termi MapReduce viittaa itse asiassa kahteen erilliseen ja erilliseen tehtävään, jotka Hadoop-ohjelmat suorittavat. Ensimmäinen on Map-tehtävä, joka ottaa joukon tietoja ja muuntaa ne toiseksi välitietojoukoksi, jossa yksittäiset elementit jaetaan avainarvopareihin. MapReduce Job -sovelluksen toinen osa, Pienennä-tehtävä, ottaa tuloksen kartalta tulona ja yhdistää avainarvoparit pienempään yhdistettyyn avain-arvo-pariin. Kuten nimen MapReduce järjestys merkitsee, Pienennä-tehtävä suoritetaan aina karttatehtävien suorittamisen jälkeen. Lue lisää MapReduce Job -sivulta .

Sukruth:

Mikä on erityistä NameNodessa ?
NameNode on HDFS-tiedostojärjestelmän sydän. Se pitää metatiedot, kuten hakemistopuun, kaikista tiedostojärjestelmässä olevista tiedostoista ja seuraa, missä tiedostotiedot klusterin poikki säilyvät. Todelliset tiedot tallennetaan DataNodesiin HDFS-lohkoina.
Asiakassovellukset keskustelevat NameNoden kanssa aina, kun he haluavat etsiä tiedoston tai kun he haluavat lisätä / kopioida / siirtää / poistaa tiedoston. NameNode vastaa onnistuneisiin pyyntöihin palauttamalla luettelon asiaankuuluvista DataNodes-palvelimista, joissa data elää. Lue lisää HDFS-arkkitehtuurista .

Dinesh:

Milloin Hadoop 2.0 otettiin markkinoille?
Hadoop Developmentia hallinnoiva avoimen lähdekoodin ryhmä Apache Software Foundation (ASF) on ilmoittanut blogissaan 15. lokakuuta 2013, että Hadoop 2.0 on nyt yleisesti saatavilla (GA). Tämä ilmoitus tarkoittaa, että pitkän odotuksen jälkeen Apache Hadoop 2.0 ja YARN ovat nyt valmiita tuotantokäyttöön. Enemmän Blogi.

Dinesh:

Mitkä ovat muutamat esimerkit muusta kuin MapReduce Big Data -sovelluksesta?
MapReduce soveltuu erinomaisesti moniin sovelluksiin Big Data -ongelmien ratkaisemiseen, mutta ei kaikkiin muihin ohjelmointimalleihin, jotka palvelevat paremmin vaatimuksia, kuten kaavioiden käsittely (esim. Google Pregel / Apache Giraph) ja iteratiivinen mallinnus Message Passing Interface (MPI) -sovelluksella.

Marish:

Kuinka tiedot järjestetään ja indeksoidaan HDFS: ssä?
Tiedot on jaettu 64 Mt: n lohkoihin (konfiguroitavissa parametrilla) ja tallennetaan HDFS: ään. NameNode tallentaa näiden lohkojen tallennustiedot lohkotunnuksina RAM-muistiinsa (NameNode Metadata). MapReduce-työt voivat käyttää näitä lohkoja käyttämällä NameNode-muistiin tallennettuja metatietoja.

Shashwat:

Voimmeko käyttää sekä MapReduce (MRv1) että MRv2 (with YARN) samassa klusterissa?
Hadoop 2.0 on ottanut käyttöön uuden kehyslangan eri sovellusten kirjoittamiseen ja suorittamiseen Hadoopissa. Joten, YARN ja MapReduce ovat kaksi eri käsitettä Hadoop 2.0: ssa, eikä niitä tule sekoittaa ja käyttää keskenään. Oikea kysymys on 'Onko mahdollista suorittaa sekä MRv1 että MRv2 YARN-yhteensopivalla Hadoop 2.0 -klusterilla?' Vastaus tähän kysymykseen on a 'Ei' vaikka Hadoop-klusteri voidaan konfiguroida suorittamaan sekä MRv1 että MRv2, mutta se voi suorittaa vain yhden joukon demoneja milloin tahansa. Molemmat kehykset käyttävät lopulta samoja määritystiedostoja ( lanka-site.xml ja mapred-site.xml ) demonien ajamiseksi, joten vain yksi kahdesta kokoonpanosta voidaan ottaa käyttöön Hadoop-klusterissa.

Nukke:

Mitä eroa on seuraavan sukupolven MapReduce (MRv2) ja YARN välillä?
Lanka ja Next Generation MapReduce (MRv2) ovat kaksi erilaista konseptia ja tekniikkaa Hadoop 2.0: ssa. YARN on ohjelmistokehys, jota voidaan käyttää paitsi MRv2: n myös muiden sovellusten ajamiseen. MRv2 on YARN API: lla kirjoitettu sovelluskehys, joka toimii YARN: n sisällä.

Bharat:

Tarjoaako Hadoop 2.0 taaksepäin yhteensopivuuden Hadoop 1.x -sovelluksille?
Neha:

Edellyttääkö Hadoop 1.0: n tai 2.0: n siirtyminen raskasta sovelluskoodia muuttoliike?
Ei, suurin osa sovelluksesta, joka on kehitetty “org.apache.hadoop.mapred” -sovellusliittymien avulla, voi toimia YARN: lla ilman uudelleenkääntämistä. YARN on binaarisesti yhteensopiva MRv1-sovellusten kanssa, ja 'bin / hadoop' -toimintoa voidaan käyttää näiden hakemusten lähettämiseen YARN-palveluun. Lue lisää tästä tässä .

Sherin:

menetelmän ylikuormitus vs. menetelmän ohittaminen

Mitä tapahtuu, jos Resource Manager -solmu epäonnistuu Hadoop 2.0: ssa?
Alkaen Hadoop Release 2.4.0: sta, Resource Managerille on saatavana myös korkean käytettävyyden tuki. ResourceManager käyttää Apache ZooKeeper -ohjelmaa epäonnistumiseen. Kun Resource Manager -solmu epäonnistuu, toissijainen solmu voi nopeasti palautua ZooKeeperiin tallennettujen klustereiden kautta. ResourceManager käynnistää vianmäärityksen yhteydessä uudestaan ​​kaikki jonossa olevat ja käynnissä olevat sovellukset.

Sabbirali:

Toimiiko Apachen Hadoop-kehys Cloudera Hadoopissa?
Apache Hadoop otettiin käyttöön vuonna 2005 ytimen MapReduce-prosessorilla, joka tukee HDFS: ään tallennettujen laajamittaisten datakuormitusten hajautettua käsittelyä. Se on avoimen lähdekoodin projekti ja sillä on useita jakeluja (samanlainen kuin Linux). Cloudera Hadoop (CDH) on yksi tällainen jakelu Clouderalta. Muita vastaavia jakeluja ovat HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights jne.

Arulvadivel:

Onko helppo tapa asentaa Hadoop kannettavaan tietokoneeseen ja kokeilla Oracle-tietokannan siirtämistä Hadoopiin?
Sinä pystyt alkaa kanssa a HortonWorks Sandbox tai Cloudera Quick VM kannettavalla tietokoneellasi (vähintään 4 Gt RAM-muistia ja vähintään i3-prosessori). Käytä SQOOP: ta siirtääksesi tietoja Oraclesta Hadoopiin, kuten on selitetty tässä .

Bhabani:

Mitkä ovat parhaat saatavilla olevat kirjat Hadoopin oppimiseen?
Aloita Hadoop: Lopullinen opas kirjoittanut Tom White ja Hadoop-operaatiot kirjoittanut Eric Sammer.

Mahendra:

Onko Hadoop 2.0: lle saatavana lukua aivan kuten lopullinen opas Hadoop?
Tarkista viimeisin saapuminen muutamien Hadoop 2.0: n tekijöiden kirjoittamille kirjahyllyille.

Pysy kuulolla tämän sarjan lisää kysymyksiä.