Apache Spark Hadoopin kanssa - miksi sillä on merkitystä?



Huippuyhtiöiden toteuttama Apache Spark Hadoopin kanssa laajamittaisesti osoittaa sen onnistumisen ja potentiaalin reaaliaikaisessa prosessoinnissa.

Hadoop, tietojenkäsittelykehys, josta on tullut itsensä foorumi, tulee entistä paremmaksi, kun siihen on kytketty hyviä komponentteja. Joillakin Hadoopin puutteilla, kuten Hadoopin MapReduce-komponentilla, on maine olla hidas reaaliaikaisessa data-analyysissä.





Anna Apache Spark, Hadoop-pohjainen tietojenkäsittelymoottori, joka on suunniteltu sekä erä- että suoratoistokuormituksille, nyt 1.0-versiossaan ja varustettuna ominaisuuksilla, jotka havainnollistavat millaista työtä Hadoop on pakotettu sisällyttämään. Spark toimii olemassa olevien Hadoop-klustereiden päällä tarjotakseen parannettuja ja lisätoimintoja.

Katsotaanpa kipinän tärkeimpiä ominaisuuksia ja miten se toimii yhdessä Hadoopin ja .



Apache Sparkin tärkeimmät edut:

img2-R

Sparkin mahtavat ominaisuudet:

  • Hadoop-integraatio - Spark voi toimia HDFS: ään tallennettujen tiedostojen kanssa.
  • Sparkin interaktiivinen kuori - Spark on kirjoitettu Scalassa, ja sillä on oma versio Scalan tulkkista.
  • Sparkin analyyttinen sviitti - Spark sisältää työkalut interaktiiviseen kyselyanalyysiin, laajamittaiseen kaavioiden käsittelyyn ja analysointiin sekä reaaliaikaiseen analyysiin.
  • Joustavat hajautetut tietojoukot (RDD) - RDD: t ovat hajautettuja objekteja, jotka voidaan tallentaa välimuistiin muistiin solmujen joukon yli. Ne ovat Sparkin ensisijaisia ​​dataobjekteja.
  • Hajautetut operaattorit - MapReducen lisäksi RDD: llä on monia muita operaattoreita.

Apache Sparkin käytön edut Hadoopin kanssa:

mikä on hashmap ja hashtable java
  • Apache Spark sopii Hadoop-avoimen lähdekoodin yhteisöön, rakennuksen päälle Hadoop Distributed File System (HDFS). Spark ei kuitenkaan ole sidottu kaksivaiheiseen MapReduce-paradigmaan, ja se lupaa jopa 100 kertaa nopeamman suorituskyvyn kuin Hadoop MapReduce tietyissä sovelluksissa.



  • Sopii hyvin koneoppimisalgoritmeihin - Spark tarjoaa primitiivejä muistin klusterilaskennalle, jonka avulla käyttäjäohjelmat voivat ladata tietoja klusterin muistiin ja kysellä sitä toistuvasti.

  • Suorita 100 kertaa nopeammin - Spark-analyysiohjelmisto voi myös nopeuttaa Hadoop-tietojenkäsittelyalustalla suoritettavia töitä. 'Hadoop Swiss Army -veitsi' -nimellä Apache Spark tarjoaa mahdollisuuden luoda data-analyysityöpaikkoja, jotka voivat toimia 100 kertaa nopeammin kuin tavallisella Apache Hadoop MapReducella. MapReducea on kritisoitu laajalti pullonkaulana Hadoop-klustereissa, koska se suorittaa töitä erätilassa, mikä tarkoittaa, että tietojen reaaliaikainen analysointi ei ole mahdollista.

  • Vaihtoehto MapReduce - Spark tarjoaa vaihtoehdon MapReducelle. Se suorittaa töitä lyhyinä mikropaketteina, joiden välinen etäisyys on enintään viisi sekuntia. Se tarjoaa myös enemmän vakautta kuin reaaliaikaiset, suoratoistetut Hadoop-kehykset, kuten Twitter Storm. Ohjelmistoa voidaan käyttää monenlaisiin töihin, kuten live-datan jatkuvaan analysointiin, ja ohjelmistokirjaston ansiosta laskennallisesti syvällisempiin työtehtäviin, joihin kuuluu koneoppiminen ja graafien käsittely.

  • Tuki useille kielille - Sparkin avulla kehittäjät voivat kirjoittaa tietojen analysointityöt Java, Scala tai Python, käyttämällä yli 80 korkean tason operaattoria.

    tiukka kytkentä vs löysä kytkentä
  • Kirjastotuki - Sparkin kirjastot on suunniteltu täydentämään aggressiivisemmin tutkittavia käsittelytyötyyppejä viimeisimmällä kaupallisesti tuetulla Hadoopin käyttöönotolla. MLlib toteuttaa joukon yleisiä koneoppimisalgoritmeja, kuten naiivi Bayesin luokitus tai klusterointi Spark Streaming, mahdollistaa useista lähteistä syötetyn tiedon nopean käsittelyn ja GraphX ​​mahdollistaa graafisten tietojen laskemisen.

  • Vakaa API - Versiolla 1.0 Apache Spark tarjoaa vakaan sovellusliittymän (sovellusohjelmointirajapinta), jota kehittäjät voivat käyttää vuorovaikutuksessa Sparkin kanssa omien sovellustensa kautta. Tämä auttaa Stormin käyttöä helpommin Hadoop-pohjaisessa käyttöönotossa.

  • SPARK SQL -komponentti - Spark SQL -komponentti strukturoitujen tietojen käyttämiseen, mahdollistaa tietojen kyselyn jäsentämättömien tietojen rinnalla analyysityössä. Spark SQL, joka on tällä hetkellä vain alfa, sallii SQL-tyyppisten kyselyjen suorittamisen Apache Hiveen tallennettuihin tietoihin. Tietojen poimiminen Hadoopista SQL-kyselyjen kautta on jälleen yksi muunnos reaaliaikaisesta kyselytoiminnosta, joka alkaa Hadoopin ympärillä.

  • Apache Spark -yhteensopivuus Hadoopin kanssa [HDFS, HBASE ja YARN] - Apache Spark on täysin yhteensopiva Hadoopin hajautetun tiedostojärjestelmän (HDFS) sekä muiden Hadoop-komponenttien, kuten YARN (Yet Another Resource Negotiator) ja HBase-hajautetun tietokannan, kanssa.

Teollisuuden käyttöönottajat:

IT-yritykset, kuten Cloudera, Pivotal, IBM, Intel ja MapR, ovat kaikki taittaneet Sparkin Hadoop-pinoihinsa. Joidenkin Sparkin kehittäjien perustama Databricks tarjoaa ohjelmistolle kaupallista tukea. Sekä Yahoo että NASA käyttävät ohjelmistoa päivittäisiin datatoimintoihin.

Päätelmä:

Sparkin tarjonta on varmasti iso vetovoima sekä käyttäjille että Hadoopin kaupallisille toimittajille. Käyttäjät, jotka haluavat ottaa käyttöön Hadoopin ja jotka ovat jo rakentaneet monet analyysijärjestelmänsä Hadoopin ympärille, houkuttelevat ajatusta siitä, että Hadoopia voidaan käyttää reaaliaikaisena prosessointijärjestelmänä.

Spark 1.0 tarjoaa heille toisenlaisen toiminnallisuuden omien tuotteiden tukemiseen tai rakentamiseen. Itse asiassa yksi kolmesta suuresta Hadoop-myyjästä, Cloudera, on jo tarjonnut kaupallista tukea Sparkille Cloudera Enterprise -tuotteensa kautta. Hortonworks on myös tarjonnut Sparkia osana Hadoop-jakelua. Sparkin laajamittainen toteutus huippuyrityksissä osoittaa sen onnistumisen ja potentiaalin reaaliaikaisessa prosessoinnissa.

Onko sinulla kysymys meille? Mainitse ne kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut:

kuinka asettaa luokkatie Windows 10: ssä