Suosituimmat pesäkomennot ja esimerkkejä HQL: stä



Tässä blogissa käsitellään Hive-komentoja esimerkkien kanssa HQL: ssä. Luo, pudota, siirry, vaihda, näytä, kuvaa, käytä, lataa, lisää, liity ja monia muita pesäkomentoja

Tässä blogiviestissä keskustellaan parhaista Hive-komennoista esimerkkien avulla. Nämä Hive-komennot ovat erittäin tärkeitä perustuksen luomiselle .

Edureka 2019 Tech Uraopas on ilmestynyt! Kuumimmat työroolit, tarkat oppimispolut, toimialanäkymät ja paljon muuta oppaassa. ladata nyt.

Mikä on Hive?

Apache Hive on tietovarastojärjestelmä, joka on rakennettu toimimaan Hadoopilla. Sitä käytetään kyselemään ja hallitsemaan hajautetussa tallennustilassa olevia suuria tietojoukkoja. Ennen kuin hänestä tuli Apache Hadoopin avoimen lähdekoodin projekti, Hive oli peräisin Facebookista. Se tarjoaa mekanismin rakenteen heijastamiseksi Hadoopin tietoihin ja tietojen kyselyyn käyttämällä SQL-tyyppistä kieltä nimeltä HiveQL (HQL).





Hiveä käytetään, koska Hiven taulukot ovat samanlaisia ​​kuin relaatiotietokannan taulukot. Jos olet perehtynyt SQL: ään, se on kakkukävely. Monet käyttäjät voivat kysellä tietoja samanaikaisesti Hive-QL: n avulla.

Mikä on HQL?

Hive määrittelee yksinkertaisen SQL-tyyppisen kyselykielen suurten Hive-QL (HQL) -tietojoukkojen kyselyyn ja hallintaan. Sitä on helppo käyttää, jos olet perehtynyt SQL-kieleen. Hive antaa kieltä tunteville ohjelmoijille kirjoittaa mukautetun MapReduce-kehyksen monimutkaisemman analyysin suorittamiseksi.



Hiveen käyttö:

1. Apache Hiven hajautettu tallennustila.

2. Hive tarjoaa työkaluja tietojen helppoon purkamiseen / muuntamiseen / lataamiseen (ETL)

3. Se tarjoaa rakenteen useille tietomuodoille.



4. Käyttämällä Hiveä voimme käyttää tiedostoja, jotka on tallennettu Hadoop Distributed File System -järjestelmään (HDFS: ää käytetään kyselemään ja hallinnoimaan suuria kotimaassa olevia tietojoukkoja) tai muissa datan tallennusjärjestelmissä, kuten Apache HBase.

Hiveen rajoitukset:

& bull Hiveä ei ole suunniteltu verkkotapahtumien käsittelyyn (OLTP), sitä käytetään vain online-analyyttiseen käsittelyyn.

& bull Hive tukee tietojen korvaamista tai pidättämistä, mutta ei päivityksiä ja poistoja.

java muuntaa kaksinkertainen kokonaislukuksi

& bull Hivessa alakyselyjä ei tueta.

Miksi pesää käytetään Possusta huolimatta?

Seuraavat ovat syyt miksi pesää käytetään sian saatavuudesta huolimatta:

  • Hive-QL on selittävä kielirivi SQL, PigLatin on tietovirran kieli.
  • Sika: tietovirran kieli ja ympäristö erittäin suurten tietojoukkojen tutkimiseen.
  • Hive: hajautettu tietovarasto.

Hive-komponentit:

Metastore:

Hive tallentaa Hive-taulukoiden kaavion Hive Metastoreen. Metastore-palvelua käytetään kaikkien varastossa olevien taulukoiden ja osioiden tallentamiseen. Metastore suoritetaan oletusarvoisesti samassa prosessissa kuin Hive-palvelu, ja oletuksena Metastore on DerBy Database.

SerDe:

Serializer, Deserializer antaa ohjeet levyn käsittelyyn.

Hive-komennot:

Tietomäärityskieli (DDL)

DDL-käskyjä käytetään taulukoiden ja muiden tietokannan objektien rakentamiseen ja muokkaamiseen.

DDL-komento Toiminto
LUODA Sitä käytetään taulukon tai tietokannan luomiseen
NÄYTÄ Sitä käytetään tietokannan, taulukon, ominaisuuksien jne. Näyttämiseen
IKÄ Sitä käytetään muuttamaan olemassa olevaa taulukkoa
KUVAUS Se kuvaa taulukon sarakkeita
KATKAISTA Käytetään katkaisemaan ja poistamaan taulukkorivit pysyvästi
POISTAA Poistaa taulukon tiedot, mutta voidaan palauttaa

Siirry Hive-kuoreen antamalla komento sudo hive ja kirjoita komento 'luoda tietokanta nimi> luoda uusi tietokanta pesään.

Luo Hive-tietokanta Hive-komentojen avulla

Luetteloi Hive-varaston tietokannat kirjoittamalla komento ‘ Näytä tietokannat ”.

Tietokanta luo Hive-varaston oletussijaintiin. Clouderessa Hive-tietokantamyymälä a / user / hive / varastossa.

Tietokannan käyttökomento on KÄYTTÄÄ

Kopioi syötetyt tiedot HDFS: ään paikallisesta käyttämällä Kopioi paikalliselta -komentoa.

Kun luot taulukon pesässä, se luodaan pesän varaston oletussijaintiin. - '/ käyttäjä / pesää / varasto', taulukon luomisen jälkeen voimme siirtää tiedot HDFS: stä pesäkkeeseen.

Seuraava komento luo taulukon, jonka sijainti on '/user/hive/warehouse/retail.db'

Huomautus : retail.db on Hive-varastoon luotu tietokanta.

Kuvaile tarjoaa tietoja taulukon kaavasta.

Tiedonkäsittelykieli (DML)

DML-käskyjä käytetään tietojen hakemiseen, tallentamiseen, muokkaamiseen, poistamiseen, lisäämiseen ja päivittämiseen tietokantaan.

Esimerkki:

LOAD, INSERT -lausekkeet.

Syntaksi :

LATAA tietojen syöttötaulukko taulukkoon [pöytänimi]

Lataustoimintoa käytetään tietojen siirtämiseen vastaavaan Hive-taulukkoon. Jos avainsana paikallinen on määritetty, niin latauskomennossa antaa paikallisen tiedostojärjestelmän polun. Jos avainsanaa paikallinen ei ole määritetty, meidän on käytettävä tiedoston HDFS-polkua.

Tässä on joitain esimerkkejä LOAD data LOCAL -komennosta

Ladattuamme tiedot Hive-taulukkoon voimme soveltaa tiedonkäsittelylausekkeita tai yhdistetyt toiminnot noutaa tiedot.

Esimerkki tietueiden määrän laskemisesta:

Count aggregate -toimintoa käytetään laskemaan taulukon tietueiden kokonaismäärä.

‘Luo ulkoinen’ taulukko:

luoda ulkoisia avainsanaa käytetään taulukon luomiseen ja tarjoaa sijainnin, johon taulukko luodaan, jotta Hive ei käytä oletussijaintia tälle taulukolle. An ULKOINEN taulukko osoittaa mihin tahansa HDFS-sijaintiin sen tallennustilan sijasta oletustallennustilan sijasta.

Lisää komento:

lisää komentoa käytetään lataamaan data-taulukko. Lisäykset voidaan tehdä taulukkoon tai osioon.

& bull INSERT OVERWRITE käytetään korvaamaan taulukossa tai osiossa olevat tiedot.

& bull INSERT INTO -toimintoa käytetään tietojen liittämiseen taulukon olemassa oleviin tietoihin. (Huomaa: INSERT INTO -syntaksi toimii versiosta 0.8)

Esimerkki 'Partitioned By' ja 'Clustered By' -komennoille:

”Jaettu ’Käytetään jakamaan taulukko osioon ja se voidaan jakaa ryhmiin käyttämällä Ryhmitteli ”Komento.

Kun syötämme datanpesän heittovirheitä, dynaaminen osiotila on tiukka eikä dynaamista osiota ole otettu käyttöön (by Jeff klo dresshead -sivusto ). Joten meidän on asetettava seuraavat parametrit Hive-kuoreen.

aseta hive.exec.dynamic.partition = true

Dynaamisten osioiden ottaminen käyttöön oletuksena on väärä

aseta hive.exec.dynamic.partition.mode = ei-tiukka

Osio tehdään luokan mukaan, ja se voidaan jakaa ryhmiin käyttämällä 'Clustered By' -komentoa.

Pudotuspöytä-käsky poistaa taulukon tiedot ja metatiedot. Ulkoisten taulukoiden tapauksessa vain metatiedot poistetaan.

Pudotuspöytä-käsky poistaa taulukon tiedot ja metatiedot. Ulkoisten taulukoiden tapauksessa vain metatiedot poistetaan.

Lataa data local inpath ‘aru.txt’ taulukkonimen nimeen ja tarkistamme sitten työntekijä1 -taulukon käyttämällä Select * from table name -komentoa

Voit laskea taulukon tietueiden määrä valitsemalla Valitse Kreivi(*) alkaen txnrecords

Yhteenveto:

Valitse määrä (DISTINCT-luokka) taulukon nimestä

Tämä komento laskee eri cate-taulukon luokat. Tässä on 3 erilaista luokkaa.

Oletetaan, että on toinen taulukko, jossa f1 on luokan kenttänimi.

Ryhmittely:

Ryhmäkomentoa käytetään tulossarjan ryhmittelemiseen yhdellä tai useammalla sarakkeella.

Valitse luokka, summa (määrä) txt-tietueiden ryhmästä luokan mukaan

Se laskee saman luokan määrän.

Yhden taulukon tulos tallennetaan toiseen taulukkoon.

Luo taulukko newtablename nimellä select * from oldtablename

Liity komentoon:

Tässä nimessä luodaan vielä yksi taulukko 'Viestit'

talend etl -työkalun opas pdf

Liity operaatioon :

Liity-operaatio suoritetaan yhdistämällä kahden taulukon kentät käyttämällä kullekin yhteisiä arvoja.

Vasen ulompi liittymä :

Taulukoiden A ja B vasemman ulomman liitoksen (tai yksinkertaisesti vasemman liitoksen) tulos sisältää aina kaikki 'vasemman' taulukon (A) tietueet, vaikka liittämisehto ei löydä vastaavaa tietuetta oikeanpuoleisesta taulukosta (B).

Oikea ulompi liitos :

Oikea ulompi liitos (tai oikea liitos) muistuttaa läheisesti vasenta ulompaa liitosta lukuun ottamatta pöytien käsittelyä päinvastaisessa järjestyksessä. Jokainen rivi oikealta taulukosta (B) näkyy liitetyssä taulukossa ainakin kerran.

Täysi liittyminen :

Yhdistetty taulukko sisältää kaikki molempien taulukoiden tietueet ja täytä NULL-arvot puuttuvista otteluista kummaltakin puolelta.

Kun olet tehnyt pesän, voimme poistua pesän kuoresta quit-komennolla.

Poistuminen pesästä

Hive on vain osa isoa palapeliä nimeltä Big Data ja Hadoop. Hadoop on paljon muutakin kuin vain pesää. Napsauta alla nähdäksesi, mitä muita taitoja sinun tulisi hallita Hadoopissa.

Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut:

7 tapaa, jolla big data -koulutus voi muuttaa organisaatiotasi

Hive-tietomallit