JOHDATUS APACHE HIVEEN .CO

Apache Hive on Hadoopin päälle rakennettu tietovarastopaketti, jota käytetään tietojen analysointiin. Hive on suunnattu käyttäjille, jotka ovat tyytyväisiä SQL: ään. Se on samanlainen kuin SQL ja sitä kutsutaan HiveQL: ksi, jota käytetään jäsenneltyjen tietojen hallintaan ja kyselyihin. Apache Hiveä käytetään abstraktin Hadoopin monimutkaisuuteen. Tämä kieli antaa myös perinteisille kartta- / vähennysohjelmoijille mahdollisuuden liittää mukautetut kartoittimet ja vähennyslaskurit. Hiveen suosittu ominaisuus on, että Java: ta ei tarvitse oppia.

Hive, joka on Hadoopiin perustuva avoimen lähdekoodin beta-tavuinen päivämäärävarastointikehys, kehitti Data Infrastructure -tiimi Facebookissa. Hive on myös yksi tekniikoista, joita käytetään vastaamaan Facebookin vaatimuksiin. Hive on erittäin suosittu kaikkien käyttäjien keskuudessa Facebookissa, ja sitä käytetään tuhansien työpaikkojen suorittamiseen klusterissa satojen käyttäjien kanssa monenlaisissa sovelluksissa. Hive-Hadoop-klusteri Facebookissa tallentaa yli 2PB raakatietoja ja lataa säännöllisesti 15 TB dataa päivittäin.

Katsotaanpa joitain sen ominaisuuksia, jotka tekevät siitä suositun ja käyttäjäystävällisen:

Antaa ohjelmoijien liittää mukautettuja kartoittajia ja reduktoreita.
Sisältää Data Warehouse -infrastruktuurin.
Tarjoaa työkaluja, jotka helpottavat datan ETL: ää.
Määrittää SQL-tyyppisen kyselykielen nimeltä QL.

Apache Hive -laukku - Facebook:

Hive-käyttökotelo - Facebook

Ennen Hiven käyttöönottoa Facebookilla oli paljon haasteita, kun luotavan datan koko kasvoi tai pikemminkin räjähti, mikä vaikeutti niiden käsittelyä. Perinteinen RDBMS ei kyennyt käsittelemään painetta ja sen seurauksena Facebook etsi parempia vaihtoehtoja. Tämän lähestyvän ongelman ratkaisemiseksi Facebook yritti alun perin käyttää Hadoop MapReducea, mutta vaikeuksissa ohjelmoinnissa ja pakollisissa tiedoissa SQL: ssä teki siitä epäkäytännöllisen ratkaisun. Hive antoi heidän selviytyä kohtaamistaan haasteista.

Hiveen avulla he voivat nyt suorittaa seuraavat:

Pöydät voidaan jakaa jaoteltuna
Kaavion joustavuus ja kehitys
JDBC / ODBC-ohjaimet ovat käytettävissä
Hive-taulukot voidaan määrittää suoraan HDFS: ssä
Laajennettavissa - tyypit, muodot, toiminnot ja komentosarjat

Hive-käyttötapa terveydenhuollossa:

Missä käyttää pesää?

Apache Hiveä voidaan käyttää seuraavissa paikoissa:

Tiedonlouhinta
Lokin käsittely
Asiakirjojen indeksointi
Asiakas, joka kohtaa liiketoimintatiedon
Ennakoiva mallinnus
Hypoteesin testaus

Hive-arkkitehtuuri:

Hive koostuu seuraavista pääkomponenteista:

milloin käyttää tätä Java-sovelluksessa

Metastore - metatietojen tallentamiseen.
JDBC / ODBC - Query Compiler and Execution Engine muuntaa SQL-kyselyt MapReduce-sekvenssiksi.
SerDe ja ObjectInspectors - datamuotoja ja -tyyppejä varten.
UDF / UDAF - Käyttäjän määrittelemille toiminnoille.
Asiakkaat - samanlainen kuin MySQL-komentorivi ja web-käyttöliittymä.

Hive-komponentit:

Metastore:

Metastore tallentaa taulukoiden, osioiden ja taulukoiden sarakkeiden tiedot. Metastoreessa on 3 tapaa tallentaa: upotettu metastore, paikallinen metastore ja etämetastore. Enimmäkseen Remote Metastore -ohjelmaa käytetään tuotantotilassa.

Hiveen rajoitukset:

Pesällä on seuraavat rajoitukset, eikä sitä voida käyttää tällaisissa olosuhteissa:

Ei suunniteltu online-tapahtumien käsittelyyn.
Tarjoaa hyväksyttävän viiveen vuorovaikutteiselle datan selailulle.
Ei tarjoa reaaliaikaisia kyselyitä ja rivitason päivityksiä.
Hive-kyselyjen viive on yleensä erittäin korkea.

Onko sinulla kysymys meille? Mainitse ne kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut:

Hive-komennot

Johdatus Apache Hiveen

Apache Hive on Hadoopin päälle rakennettu tietovarastopaketti, jota käytetään tietojen analysointiin. Hive on suunnattu käyttäjille, jotka ovat tyytyväisiä SQL: ään.

Apache Hive -laukku - Facebook:

Hive-käyttötapa terveydenhuollossa:

Missä käyttää pesää?

Hive-arkkitehtuuri:

Hive-komponentit:

Hiveen rajoitukset:

Luokat

Popular Articles

Kuinka suorittaa logistinen regressio Pythonissa?

Power BI -arkkitehtuuri: Kuinka työskennellä tietoturvassa

Mikä on Azure? - Johdatus Microsoft Azure Cloudiin

Kuinka asentaa MongoDB Windows-käyttöjärjestelmään?

JavaFX-opetusohjelma: Kuinka luoda sovellus?

Projektin laajuuden hallinta - osaa hallita projektia tehokkaasti

Toimintojen kuuntelijan toteuttaminen Java-sovelluksessa

Kuinka hyödyntää sisäkkäisiä taulukoita HTML-muodossa?

Kaikki mitä sinun tarvitsee tietää urasta iOS-kehityksessä

Mikä on hakemisto SQL: ssä?

10 parasta koneoppimisen kehystä, jotka sinun on tiedettävä

Kaikki mitä sinun tarvitsee tietää Booleanista Pythonissa