4 tapaa käyttää R: tä ja Hadoopia yhdessä

R ja Hadoop täydentävät toisiaan varsin hyvin isojen tietojen visualisoinnissa ja analyysissä. Tämä blogiviesti kertoo neljästä tapasta käyttää niitä yhdessä.

Hadoop on häiritsevä Java-pohjainen ohjelmointikehys, joka tukee suurten tietojoukkojen käsittelyä hajautetussa laskentaympäristössä, kun taas R on ohjelmointikieli ja ohjelmistoympäristö tilastolliseen laskentaan ja grafiikkaan. R-kieltä käytetään laajasti tilastotieteilijöiden ja tiedonlouhijoiden keskuudessa tilasto-ohjelmistojen kehittämiseen ja data-analyysien suorittamiseen. Interaktiivisen data-analyysin, yleiskäyttöisten tilastojen ja ennakoivan mallinnuksen alueilla R on saavuttanut valtavan suosion luokittelunsa, klustereidensa ja sijoitustoimintojensa ansiosta.

KM





Hadoop ja R täydentävät toisiaan varsin hyvin isojen tietojen visualisoinnissa ja analyysissä.

miten muuntaa kaksinkertainen int java

R: n ja Hadoopin käyttäminen

On neljä erilaista tapaa käyttää Hadoopia ja R: tä yhdessä:



1. RHadoop

RHadoop on kokoelma kolmesta R-paketista: rmr, rhdfs ja rhbase. rmr-paketti tarjoaa Hadoop MapReduce -toiminnon R: ssä, rhdfs tarjoaa HDFS-tiedostojen hallinnan R: ssä ja rhbase tarjoaa HBase-tietokantojen hallinnan R: n sisällä. Kutakin näistä ensisijaisista paketeista voidaan analysoida ja hallita Hadoop-kehystietoja paremmin.

2. ORKU



ORCH tarkoittaa Oracle R Connector for Hadoop. Se on kokoelma R-paketteja, jotka tarjoavat tarvittavat käyttöliittymät Hive-taulukkojen, Apache Hadoop -laskentainfrastruktuurin, paikallisen R-ympäristön ja Oracle-tietokantataulukoiden kanssa työskentelyyn. Lisäksi ORCH tarjoaa myös ennakoivia analyyttisiä tekniikoita, joita voidaan soveltaa HDFS-tiedostojen tietoihin.

3. RIPPU

RHIPE on R-paketti, joka tarjoaa API: n Hadoopin käyttämiseen. RHIPE tarkoittaa R- ja Hadoop-integroitua ohjelmointiympäristöä ja on lähinnä RHadoop, jolla on erilainen sovellusliittymä.

Neljä. Hadoop-suoratoisto

Hadoop-suoratoisto on apuohjelma, jonka avulla käyttäjät voivat luoda ja suorittaa töitä kaikilla suoritettavilla tiedostoilla kartoittajana ja / tai supistimena. Suoratoistojärjestelmän avulla voidaan kehittää toimivia Hadoop-töitä, joilla on vain tarpeeksi Java-osaamista, jotta voidaan kirjoittaa kaksi komentosarjaa, jotka toimivat yhdessä.

R: n ja Hadoopin yhdistelmä on tulossa pakolliseksi työkalupakiksi ihmisille, jotka työskentelevät tilastojen ja suurten tietojoukkojen kanssa. Jotkut Hadoop-harrastajat ovat kuitenkin nostaneet punaisen lipun käsitellessään erittäin suuria Big Data -fragmentteja. He väittävät, että R: n etu ei ole sen syntaksitapa, vaan primitiivien kattava kirjasto visualisointia ja tilastoja varten. Nämä kirjastot ovat pohjimmiltaan jakamattomia, mikä tekee tietojen hakemisesta aikaa vievää asiaa. Tämä on R: n luontainen virhe, ja jos päätät unohtaa sen, R ja Hadoop yhdessä voivat silti tehdä ihmeitä.

Katsotaanpa nyt demo:

miten käyttää tiedostoja java

miten lopettaa ohjelma java

Onko sinulla kysymys meille? Mainitse ne kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut: