Tärkeät Hadoop-työkalut suurten tietojen murskaamiseen



Hadoop on nykypäivän IT-maailman suosittu sana, ja tämä viesti kuvaa olennaiset Hadoop-työkalut, jotka murskata Big Data.

Nykyään suosituin termi IT-maailmassa on ”Hadoop”. Lyhyen ajan kuluessa Hadoop on kasvanut valtavasti ja osoittautunut hyödylliseksi suuressa joukossa erilaisia ​​hankkeita. Hadoop-yhteisö kehittyy nopeasti ja sillä on merkittävä rooli ekosysteemissään.





Tässä on katsaus tärkeisiin Hadoop-työkaluihin, joita käytetään Big Datan käsittelemiseen.

miten löytää taulukon pituus javascriptissä

ambari



Ambari on Hortonworksin tukema Apache-projekti. Se tarjoaa verkkopohjaisen käyttöliittymän (Graphical User Interface), jossa on ohjatut komentosarjat, klustereiden asettamiseksi useimmilla vakiokomponenteilla. Ambari huolehtii, hallinnoi ja valvoo kaikkia Hadoopin työpaikkojen klustereita.

hdfs-logo

HDFS , joka on jaettu Apache-lisenssillä, tarjoaa peruskehyksen datakokoelmien jakamiseksi useille solmuille. HDFS: ssä suuret tiedostot on jaettu lohkoihin, joissa useat solmut pitävät kaikkia tiedoston lohkoja. Tiedostojärjestelmä on suunniteltu siten, että vikasietoisuus ja suuri suorituskyky voidaan sekoittaa. HDFS-lohkot ladataan tasaisen suoratoiston ylläpitämiseksi. Niitä ei yleensä tallenneta välimuistiin viiveen minimoimiseksi.



hbaselogo

HBase on sarakekohtainen tietokannan hallintajärjestelmä, joka toimii HDFS: n päällä. HBase-sovellukset kirjoitetaan Java-muodossa, aivan kuten MapReduce-sovellus. Se sisältää joukon taulukoita, joissa jokainen taulukko sisältää rivejä ja sarakkeita kuten perinteinen tietokanta. Kun tiedot putoavat isoon taulukkoon, HBase tallentaa tiedot, etsii ne ja jakaa taulukon automaattisesti useiden solmujen välillä, jotta MapReduce-työt voivat suorittaa sen paikallisesti. HBase tarjoaa rajoitetun takuun joillekin paikallisille muutoksille. Yhdellä rivillä tapahtuvat muutokset voivat onnistua tai epäonnistua samanaikaisesti.

hive

Jos sinulla on jo sujuvaa SQL: ää, voit hyödyntää Hadoopia Pesä . Jotkut ihmiset ovat kehittäneet pesän Facebookissa. Apache Hive säätelee bittien purkamista kaikista HBasen tiedostoista. Se tukee Hadoopin HDFS-järjestelmään ja yhteensopiviin tiedostojärjestelmiin tallennettujen suurten tietojoukkojen analysointia. Se tarjoaa myös SQL: n kaltaisen kielen nimeltä HSQL (HiveSQL), joka pääsee tiedostoihin ja poimii tarvittavat koodinpätkät koodille.

sqoop

Apache Sqoop on suunniteltu erityisesti siirtämään massatietoja tehokkaasti perinteisistä tietokannoista Hiveen tai HBaseen. Sitä voidaan käyttää myös tietojen keräämiseen Hadoopista ja viemiseen ulkoisiin jäsenneltyihin tietovarastoihin, kuten relaatiotietokantoihin ja yritystietovarastoihin. Sqoop on komentorivityökalu, joka kartoittaa taulukoiden ja tietovarastokerroksen välillä, kääntää taulukot määritettäväksi yhdistelmäksi HDFS, HBase tai Hive.

Pig1

Kun Hadoop näkee tallennetut tiedot, Apache-sika sukeltaa tietoihin ja suorittaa koodin, joka on kirjoitettu sen omalla kielellä, nimeltään Pig Latin. Sika Latin on täynnä abstrakteja tietojen käsittelyä varten. Sikalla on vakiotoiminnot yleisiin tehtäviin, kuten tietojen keskiarvoistamiseen, päivämäärien kanssa työskentelyyn tai merkkijonojen erojen löytämiseen. Pig sallii käyttäjän myös kirjoittaa kieliä itse, nimeltään UDF (User Defined Function), kun vakiotoiminnot puuttuvat.

zookeper

Eläintarhanhoitaja on keskitetty palvelu, joka ylläpitää, konfiguroi tietoja, antaa nimen ja tarjoaa hajautetun synkronoinnin klusterin yli. Se asettaa tiedostojärjestelmällisen hierarkian klusteriin ja tallentaa kaikki koneiden metatiedot, jotta voimme synkronoida eri koneiden työn.

NoSQL

Jotkut Hadoop-klusterit integroituvat NoSQL tietovarastot, joissa on omat mekanisminsa tietojen tallentamiseksi solmujen joukossa. Tämä antaa heille mahdollisuuden tallentaa ja hakea tietoja kaikilla NoSQL-tietokannan ominaisuuksilla, minkä jälkeen Hadoopia voidaan käyttää tietojen analysointityön ajoitukseen samassa klusterissa.

mahoutlogo

Mahout on suunniteltu toteuttamaan suuri määrä algoritmeja, luokituksia ja suodattamalla data-analyyseja Hadoop-klusteriin. Monet tavallisista algoritmeista, kuten K-keskiarvo, Dirichelet, rinnakkaiskuvio ja Bayesin luokitukset, ovat valmiita toimimaan datalla Hadoop-tyylisellä kartalla ja pienentämään.

Lucene, kirjoitettu Java-muodossa ja integroitu helposti Hadoopin kanssa, on luonnollinen kumppani Hadoopille. Se on työkalu, joka on tarkoitettu indeksoimaan suuria strukturoimattoman tekstilohkoja. Lucene hoitaa indeksoinnin, kun taas Hadoop käsittelee jaetut kyselyt koko klusterissa. Lucene-Hadoop-ominaisuudet kehittyvät nopeasti uusien projektien kehittyessä.

Avro

Euro on sarjaliitäntäjärjestelmä, joka niputtaa tiedot yhdessä skeeman kanssa sen ymmärtämiseksi. Jokaisessa paketissa on JSON-tietorakenne. JSON selittää, miten tietoja voidaan jäsentää. JSON-otsikko määrittelee datan rakenteen, jossa vältetään tarve kirjoittaa ylimääräisiä tunnisteita tietoihin kenttien merkitsemiseksi. Tulos on huomattavasti pienempi kuin perinteiset muodot, kuten XML.

Työ voidaan yksinkertaistaa jakamalla se vaiheisiin. Hajottaen projektin useaan Hadoop-työhön, Oozie alkaa käsitellä niitä oikeassa järjestyksessä. Se hallitsee DAG: n (Directed Acyclic Graph) määrittelemää työnkulkua, eikä seurantaa ole tarpeen.

GIS-työkalut

Maantieteellisten karttojen parissa työskentely on iso tehtävä klustereille, jotka käyttävät Hadoopia. GIS ( Paikkatietojärjestelmä ) Hadoop-projektien työkalut ovat mukauttaneet parhaat Java-pohjaiset työkalut paikkatietojen ymmärtämiseen Hadoopin kanssa. Tietokannat voivat nyt käsitellä maantieteellisiä kyselyjä koordinaattien avulla, ja koodit voivat käyttää GIS-työkaluja.

Kaikkien tietojen kerääminen on yhtä suuri kuin niiden tallentaminen ja analysointi. Apache Flume lähettää 'erikoisagentteja' kerätäksesi tietoja, jotka tallennetaan HDFS: ään. Kerätyt tiedot voivat olla lokitiedostoja, Twitter-sovellusliittymää tai verkkosivuston leikkeitä. Nämä tiedot voidaan ketjuttaa ja analysoida.

Spark

Kipinä on seuraava sukupolvi, joka toimii melkein kuin Hadoop, joka käsittelee muistissa välimuistissa olevia tietoja. Sen tavoitteena on tehdä tietojen analysoinnista nopeaa ajaa ja kirjoittaa yleisen toteutusmallin avulla. Tämä voi optimoida mielivaltaiset operaattorikaaviot ja tukea muistin sisäistä laskentaa, mikä antaa sen kysellä tietoja nopeammin kuin levypohjaiset moottorit, kuten Hadoop.

SQL Hadoopilla

Kun vaaditaan nopean tapauskohtaisen kyselyn suorittaminen kaikista klusterin tiedoista, uusi Hadoop-työ voidaan kirjoittaa, mutta tämä vie jonkin aikaa. Kun ohjelmoijat alkoivat tehdä tätä useammin, he keksivät työkalut, jotka oli kirjoitettu yksinkertaisella SQL-kielellä. Nämä työkalut tarjoavat nopean pääsyn tuloksiin.

Apache Drill

Apache Drill tarjoaa matalan viiveen omaavia kyselyjä lukuisille ja monipuolisille tietolähteille, mukaan lukien sisäkkäiset tiedot. Googlen Dremelin innoittama Drill on suunniteltu skaalautumaan 10000 palvelimeen ja kyselemään petatavun dataa sekunneissa.

Nämä ovat välttämättömiä Hadoop-työkaluja Big Datan murskaamiseen!

Onko sinulla kysymys meille? Mainitse ne kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut:

Käytännön syitä oppia Hadoop 2.0