Johdatus Apache Hiveen



Apache Hive on Hadoopin päälle rakennettu tietovarastopaketti, jota käytetään tietojen analysointiin. Hive on suunnattu käyttäjille, jotka ovat tyytyväisiä SQL: ään.

Apache Hive on Hadoopin päälle rakennettu tietovarastopaketti, jota käytetään tietojen analysointiin. Hive on suunnattu käyttäjille, jotka ovat tyytyväisiä SQL: ään. Se on samanlainen kuin SQL ja sitä kutsutaan HiveQL: ksi, jota käytetään jäsenneltyjen tietojen hallintaan ja kyselyihin. Apache Hiveä käytetään abstraktin Hadoopin monimutkaisuuteen. Tämä kieli antaa myös perinteisille kartta- / vähennysohjelmoijille mahdollisuuden liittää mukautetut kartoittimet ja vähennyslaskurit. Hiveen suosittu ominaisuus on, että Java: ta ei tarvitse oppia.





Hive, joka on Hadoopiin perustuva avoimen lähdekoodin beta-tavuinen päivämäärävarastointikehys, kehitti Data Infrastructure -tiimi Facebookissa. Hive on myös yksi tekniikoista, joita käytetään vastaamaan Facebookin vaatimuksiin. Hive on erittäin suosittu kaikkien käyttäjien keskuudessa Facebookissa, ja sitä käytetään tuhansien työpaikkojen suorittamiseen klusterissa satojen käyttäjien kanssa monenlaisissa sovelluksissa. Hive-Hadoop-klusteri Facebookissa tallentaa yli 2PB raakatietoja ja lataa säännöllisesti 15 TB dataa päivittäin.

Katsotaanpa joitain sen ominaisuuksia, jotka tekevät siitä suositun ja käyttäjäystävällisen:



  • Antaa ohjelmoijien liittää mukautettuja kartoittajia ja reduktoreita.
  • Sisältää Data Warehouse -infrastruktuurin.
  • Tarjoaa työkaluja, jotka helpottavat datan ETL: ää.
  • Määrittää SQL-tyyppisen kyselykielen nimeltä QL.

Apache Hive -laukku - Facebook:

Hive-käyttökotelo - Facebook

Ennen Hiven käyttöönottoa Facebookilla oli paljon haasteita, kun luotavan datan koko kasvoi tai pikemminkin räjähti, mikä vaikeutti niiden käsittelyä. Perinteinen RDBMS ei kyennyt käsittelemään painetta ja sen seurauksena Facebook etsi parempia vaihtoehtoja. Tämän lähestyvän ongelman ratkaisemiseksi Facebook yritti alun perin käyttää Hadoop MapReducea, mutta vaikeuksissa ohjelmoinnissa ja pakollisissa tiedoissa SQL: ssä teki siitä epäkäytännöllisen ratkaisun. Hive antoi heidän selviytyä kohtaamistaan ​​haasteista.

Hiveen avulla he voivat nyt suorittaa seuraavat:



  • Pöydät voidaan jakaa jaoteltuna
  • Kaavion joustavuus ja kehitys
  • JDBC / ODBC-ohjaimet ovat käytettävissä
  • Hive-taulukot voidaan määrittää suoraan HDFS: ssä
  • Laajennettavissa - tyypit, muodot, toiminnot ja komentosarjat

Hive-käyttötapa terveydenhuollossa:

Missä käyttää pesää?

Apache Hiveä voidaan käyttää seuraavissa paikoissa:

  • Tiedonlouhinta
  • Lokin käsittely
  • Asiakirjojen indeksointi
  • Asiakas, joka kohtaa liiketoimintatiedon
  • Ennakoiva mallinnus
  • Hypoteesin testaus

Hive-arkkitehtuuri:

Hive koostuu seuraavista pääkomponenteista:

milloin käyttää tätä Java-sovelluksessa
  • Metastore - metatietojen tallentamiseen.
  • JDBC / ODBC - Query Compiler and Execution Engine muuntaa SQL-kyselyt MapReduce-sekvenssiksi.
  • SerDe ja ObjectInspectors - datamuotoja ja -tyyppejä varten.
  • UDF / UDAF - Käyttäjän määrittelemille toiminnoille.
  • Asiakkaat - samanlainen kuin MySQL-komentorivi ja web-käyttöliittymä.

Hive-komponentit:

Metastore:

Metastore tallentaa taulukoiden, osioiden ja taulukoiden sarakkeiden tiedot. Metastoreessa on 3 tapaa tallentaa: upotettu metastore, paikallinen metastore ja etämetastore. Enimmäkseen Remote Metastore -ohjelmaa käytetään tuotantotilassa.

Hiveen rajoitukset:

Pesällä on seuraavat rajoitukset, eikä sitä voida käyttää tällaisissa olosuhteissa:

  • Ei suunniteltu online-tapahtumien käsittelyyn.
  • Tarjoaa hyväksyttävän viiveen vuorovaikutteiselle datan selailulle.
  • Ei tarjoa reaaliaikaisia ​​kyselyitä ja rivitason päivityksiä.
  • Hive-kyselyjen viive on yleensä erittäin korkea.

Onko sinulla kysymys meille? Mainitse ne kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut:

Hive-komennot