Suuret tiedot AWS: ssä - älykäs ratkaisu suurille tiedoille



Tämä artikkeli auttaa sinua ymmärtämään, kuinka AWS käsittelee älykkäästi Big Dataa. Se osoittaa myös, kuinka AWS voi ratkaista Big Data -haasteet helposti.

Big Datan idea ei yksinkertaisesti ole uusi, se on kaikkialla. Big Datan vaikutus on kaikkialla, liike-elämästä tieteeseen, hallituksesta taiteeseen ja niin edelleen. Ei ole parempaa kumppania kuin käsitellä ja analysoida Big Data. Tässä artikkelissa aion näyttää, kuinka AWS torjuu Big Datan haasteet, ja aion käsitellä seuraavia:

Mikä on Big Data?

suurten tietojen ominaisuudet





Voit pitää Big-dataa suurten määrien, nopean nopeuden ja / tai monipuolisina tietovaroina, jotka vaativat kustannustehokkaita, innovatiivisia tietojenkäsittelymuotoja, jotka mahdollistavat paremman näkemyksen, päätöksenteon ja prosessiautomaation.

Big Data koostuu viidestä tärkeästä V: stä, jotka määrittelevät Big Data -ominaisuudet. Keskustelkaamme näistä ennen siirtymistä AWS: ään.



Mikä on AWS?

koostuu monista erilaisista pilvipalvelutuotteista ja -palveluista. Erittäin kannattava Amazon-divisioona tarjoaa palvelimia, tallennustilaa, verkkoyhteyksiä, etälaskentaa, sähköpostia, mobiilikehitystä ja turvallisuutta. Lisäksi. AWS koostuu kahdesta päätuotteesta: EC2, Amazonin virtuaalikonepalvelu ja S3, Amazonin tallennusjärjestelmä. Se on niin suuri ja läsnä tietokonemaailmassa, että se on nyt vähintään 10 kertaa lähimmän kilpailijansa kokoinen ja ylläpitää suosittuja verkkosivustoja, kuten Netflix ja Instagram.

.

AWS on jaettu maailmanlaajuisesti 12 globaaliin alueeseen, joista kullakin on useita käytettävyysvyöhykkeitä, joissa sen palvelimet sijaitsevat.Nämä palvellut alueet on jaettu, jotta käyttäjät voivat asettaa maantieteellisiä rajoituksia palveluilleen, mutta myös tarjota turvallisuutta monipuolistamalla fyysisiä sijainteja, joissa tietoja säilytetään.



Miksi Big Data AWS: ssä?

Tutkijat, kehittäjät ja muut tekniikan harrastajat monilta eri aloilta hyödyntävät AWS: ää hyödyntääkseen big data -analytiikkaa ja vastaamaan digitaalisen tiedon lisääntyvän Vs: n kriittisiin haasteisiin. AWS tarjoaa sinulle pilvipalveluportfolion, joka auttaa hallitsemaan suuria tietoja vähentämällä merkittävästi kustannuksia, skaalaamalla vastaamaan kysyntää ja lisäämällä innovaatioiden nopeutta.

Amazon Web Services tarjoaa täysin integroitu salkku pilvipalvelujen tarjoamista. Lisäksi se auttaa sinua rakentamaan, suojaamaan ja asentamaan big data -sovelluksesi. AWS: n kanssa ei myöskään tarvita laitteistoa hankintaan ja infrastruktuuria ylläpitämiseen ja laajentamiseen. Tämän vuoksi voit keskittää resurssit uusien oivallusten löytämiseen.Koska uusia ominaisuuksia lisätään jatkuvasti, voit aina hyödyntää uusinta tekniikkaa tarvitsematta tehdä pitkäaikaisia ​​investointisitoumuksia.

Kuinka AWS voi ratkaista Big Data -haasteet?

AWS-ratkaisut Big Dataa varten

AWS: llä on lukuisia ratkaisuja kaikkiin kehittämis- ja käyttöönottotarkoituksiin. Myös datatieteen ja big datan alalla AWS on keksinyt viimeaikaisen kehityksen suurten tietojen käsittelyn eri osa-alueilla. Ennen kuin siirryt työkaluihin, anna meidän ymmärtää Big Datan eri näkökohtia, joille AWS voi tarjota ratkaisuja.

  1. Tietojen syöttö
    Raakatietojen - tapahtumien, lokien, mobiililaitteiden ja muun - kerääminen on ensimmäinen haaste, jonka monet organisaatiot kohtaavat käsitellessään suuria tietoja. Hyvä big data -alusta tekee tämän vaiheen helpommaksi, jolloin kehittäjät voivat syödä monenlaista tietoa - strukturoidusta strukturoimattomaan - millä tahansa nopeudella - reaaliaikaisesta erään.

  2. Tietojen tallentaminen
    Mikä tahansa iso data-alusta tarvitsee turvallisen, skaalautuvan ja kestävän arkiston tietojen tallentamiseen ennen tehtävien käsittelyä tai jopa sen jälkeen. Erityistarpeistasi riippuen saatat tarvita myös väliaikaisia ​​varastoja tiedonsiirtoa varten.

  3. Tietojenkäsittely
    Tämä on vaihe, jossa datan muunnos tapahtuu raakatilastaan ​​kulutusmuodoksi - yleensä lajittelemalla, yhdistämällä, yhdistämällä ja jopa suorittamalla edistyneempiä toimintoja ja algoritmeja. Tuloksena olevat tietojoukot varastoidaan jatkokäsittelyä varten tai asetetaan kulutukseen liiketoimintatiedon ja tietojen visualisointityökalujen avulla.

  4. Visualisointi

    milloin käyttää tätä jaavaa

    Suurten tietojen tarkoituksena on saada arvokkaita, käytännöllisiä oivalluksia tietovaroista. Ihannetapauksessa tiedot ovat sidosryhmien saatavilla itsepalveluliiketoimintatiedon ja ketterien tietojen visualisointityökalujen avulla, jotka mahdollistavat aineistojen nopean ja helpon etsinnän.

AWS-työkalut suurille tiedoille

Edellisissä osioissa tarkastelimme Big Datan kenttiä, joihin AWS voi tarjota ratkaisuja. Lisäksi AWS: n arsenalissa on useita työkaluja ja palveluja, joiden avulla asiakkaat voivat hyödyntää Big Data -ominaisuuksia.

Katsotaanpa AWS: n tarjoamia ratkaisuja Big Data -palvelun käsittelyn eri vaiheiden käsittelyyn

Nieleminen

  1. Kinesis

    Amazon Kinesis Firehose on täysin hallittu palvelu reaaliaikaisen suoratoistodatan toimittamiseksi suoraan Amazon S3: een. Kinesis Firehose skaalaa automaattisesti vastaamaan suoratoistodatan määrää ja läpimenoa eikä vaadi jatkuvaa ylläpitoa. Voit määrittää Kinesis Firehosen muuttamaan suoratoistodataa ennen kuin tallennat sen Amazon S3: een.

  2. Lumipallo
    Voit käyttää AWS-lumipallo siirtää joukkotiedot turvallisesti ja tehokkaasti paikallisista tallennusalustoista ja Hadoop-klustereista S3-ämpäriin. Kun olet luonut työn AWS Management Consolessa, saat automaattisesti Snowball-laitteen. Kun lumipallo on saapunut, liitä se paikalliseen verkkoosi, asenna Snowball-asiakas paikalliselle tietolähteellesi ja valitse sitten Snowball-asiakasohjelmalla tiedostohakemisto ja siirrä se lumipallolaitteeseen.

Varastointi

  1. Amazon S3

Amazon S3 on turvallinen, erittäin skaalautuva, kestävä objektien tallennustila millisekunnin viiveellä tiedonsiirtoon. S3 voi tallentaa kaiken tyyppisiä tietoja mistä tahansa - verkkosivustoista ja mobiilisovelluksista, yrityssovelluksista sekä IoT-antureista tai laitteista. Se voi myös tallentaa ja hakea mitä tahansa datamäärää vertaansa vailla olevalla saatavuudella ja rakennettu alusta alkaen tuottamaan 99,99999999999% (11 yhdeksän) kestävyyttä.

2. AWS-liima

Liima on täysin hallittu palvelu, joka tarjoaa tietoluettelon, jonka avulla datajärven tiedot voidaan löytää. Lisäksi sillä on kyky purkaa, muuntaa ja ladata (ETL) tietojen valmistamiseksi analyysiä varten. Sisäänrakennettu tietoluettelo on myös kuin kaikkien tietovarojen pysyvä metatietovarasto, jolloin kaikki tiedot ovat haettavissa ja haettavissa yhdessä näkymässä.

Käsittely

  1. EMR
    Suurten tietojen käsittelyyn Sparkin ja Hadoopin avulla Amazon EMR tarjoaa hallitun palvelun, jonka avulla on helppo, nopea ja kustannustehokas käsitellä suuria määriä dataa. Lisäksi EMR tukee 19 erilaista avoimen lähdekoodin projektia, mukaan lukien Hadoop , Kipinä ja Lisäksi sen mukana toimitetaan hallitut EMR-muistikirjat datatekniikkaa, datatieteen kehittämistä ja yhteistyötä varten.

  2. Punainen vaihto
    Tietovarastointiin, Amazon Redshift tarjoaa mahdollisuuden suorittaa monimutkaisia, analyyttisiä kyselyjä petatavuilla strukturoitua dataa vastaan. Se sisältää myös Punainen siirtymä spektri joka suorittaa SQL-kyselyt suoraan Exabytes-rakenteista tai strukturoimattomia tietoja vastaan ​​S3: ssa ilman tarpeetonta tiedonsiirtoa.

Visualisoinnit

  1. Amazon QuickSight

    Koontinäyttöjä ja visualisointeja varten Amazon Quicksight tarjoaa sinulle nopean, pilvipohjaisen yritysanalytiikkapalvelun. Sen avulla on helppo luoda upeita visualisointeja ja rikkaita koontinäyttöjä. Lisäksi voit käyttää niitä millä tahansa selaimella tai mobiililaitteella.

Demo - Australian uhanalaisten kasvien ja eläinten lajien analysointi.

Tässä esittelyssä käytämme otantatietoja uhanalaisista kasvi- ja eläinlajeista Australian osavaltioista ja alueilta. Täällä luomme EMR-klusterin ja määritämme sen suorittamaan monivaiheisia Apache Hive -työjä. EMR-klusteriin on asennettu Apache Hive. Tämä klusteri käyttää tiedostojärjestelmänä EMRFS: ää, joten sen tietojen syöttö- ja lähtöpaikat on kartoitettu S3-ämpäriin. Klusteri käyttää myös samaa S3-ämpäriä lokitiedostojen tallentamiseen.

Luomme nyt joukon EMR-vaiheita klusteriin näytekokonaisuuden käsittelemiseksi. Tässä jokaisessa näistä vaiheista suoritetaan Hive-komentosarja, ja lopullinen tulos tallennetaan S3-ämpäriin. Nämä vaiheet tuottavat MapReduce-lokeja, koska Hive-komennot käännetään MapReduce-töiksi ajon aikana. Kunkin vaiheen lokitiedostot kootaan sen kutemista säiliöistä.

Näytetiedot

Tämän käyttötapauksen näytetiedostot ovat julkisesti saatavissa Australian hallituksen avoimen datan verkkosivusto . Tämä tietojoukko koskee uhanalaisia ​​eläin- ja kasvilajeja Australian eri osavaltioista ja alueilta. Tämän tietojoukon ja CSV-tiedoston kenttien kuvaus voidaan nähdä ja ladata tässä .

Käsittelyvaiheet

Ensimmäinen EMR-työvaihe sisältää Hive-taulukon luomisen mallina S3: n taustalla olevalle lähdetiedostolle. Toisessa työvaiheessa suoritamme nyt onnistuneen kyselyn tietoja vastaan. Vastaavasti suoritamme sitten kolmannen ja neljännen kyselyn.

Toistamme nämä neljä vaihetta muutaman kerran tunnissa, simuloimalla monivaiheisen erätyön peräkkäisiä ajoja. Tosielämän skenaariossa aikaerot normaalisti jokaisen eräajon välillä voivat kuitenkin olla paljon suuremmat. Pieni aikaero peräkkäisten ajojen välillä on tarkoitettu nopeuttamaan testaustamme.

S3 ämpäri ja kansiot

Ennen EMR-klusterin luomista meidän oli luotava S3-ämpäri sen tiedostojen isännöimiseksi. Esimerkissämme nimitämme tämän kauhan arvind1-bucketiksi. Tämän kauhan alla olevat kansiot näkyvät alla S3: n AWS-konsolissa:

lajittelualgoritmilla voidaan järjestää joukko ________ ________ järjestyksessä.

  • Syöttökansio sisältää näytetiedot

  • Scripts-kansio sisältää Hive-komentotiedostot EMR-työvaiheille

  • Tuloskansio pitää luonnollisesti Hive-ohjelman lähdön

  • EMR-klusteri tallentaa lokitiedostot lokit-kansioon.

Hive-komentosarjat EMR-työvaiheille

1. Tämä työvaihe suorittaa Hive-komentosarjanluoda ulkoinen Hive-taulukko. Tässä taulukossa kuvataan taustalla olevan CSV-datatiedoston taulukkomalli. Tämän skripti on seuraava:

kuinka kirjoittaa skanneri java
LUO ULKOINEN TAULUKKO 'uhkaavat_lajit' ('tieteellinen nimi' merkkijono, 'yleinen nimi' merkkijono, 'nykyinen tieteellinen nimi' merkkijono, 'uhanalainen tila' merkkijono, 'toimi' merkkijono, 'nsw' merkkijono, 'nt' merkkijono, 'qld' merkkijono, 'sa' merkkijono, 'tas' merkkijono, 'vic' merkkijono, 'wa' merkkijono, 'aci' merkkijono, 'cki' merkkijono, 'ci' merkkijono, 'csi' merkkijono, 'jbt' merkkijono, 'nfi' merkkijono, `hmi` merkkijono,` aat` merkkijono, `cma` merkkijono,` listattu kilohailin taksonidi` bigint, `nykyinen kilohailin taksonidi` bigint,` kuningaskunnan merkkijono, `luokka` merkkijono,` profiili` merkkijono, `päivämäärä purettu` merkkijono, `nsl nimi` merkkijono,` perhe` merkkijono, `` suku`` merkkijono, `` lajimerkkijono '', `` infraspesifinen merkkijono '', `` infrasuora`` merkkijono, `` lajikirjoittaja merkkijono, `` infralaatuinen kirjoittaja`` merkkijono) RIVIMUOTO ERITYISET KENTTÄT LOPETETTU ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script

2. Tämä työvaihe suorittaa kyselyn, jolla lasketaan viisi suosituinta uhanalaista lajia Uusi Etelä-Walesin osavaltiossa (NSW). Hive-kyselytiedoston nimi on uhanalainen lajiNSW.q ja se näkyy alla:

VALITSE lajeja, COUNT (nsw) AS_loppujen_lajien_luku FROM uhkailtu_laji MISSÄ (nsw = 'Kyllä' TAI nsw = 'Uhanalainen') JA 'Uhanalainen tila' = 'Uhanalainen' RYHMÄ lajeittain, joilla on COUNT (nsw)> 1 TILAA MÄÄRÄN_LUONTO_Laji KUVAUSRAJA 5

3.Tämä työvaihe suorittaa kyselyn, jolla lasketaan uhanalaisten kasvilajien kokonaismäärä Australian jokaiselle kasviperheelle. Hive-kyselytiedoston nimi onendangeredPlantSpecies.qja näkyy alla

VALITSE perhe, COUNT (laji) AS_joukko_lajien_laji FROM uhkailtu_laji2 MISSÄ valtakunta = 'Plantae' JA 'uhanalainen tila' = 'Uhanalainen' RYHMÄ perheittäin

4. Tässä vaiheessa luetellaan sukupuuttoon menneiden eläinlajien tieteelliset nimet Australian Queenslandin osavaltiossa. Komentosarjatiedostoa kutsutaan kuollut sukupuuttoon ja näkyy alla:

VALITSE 'yleinen nimi', 'tieteellinen nimi' FROM uhkailtu_laji MISSÄ valtakunta = 'Animalia' AND (qld = 'Kyllä' TAI qld = 'Kuollut sukupuuttoon') JA 'Uhanalainen tila' = 'Kuollut sukupuuttoon'

Lokien yhdistäminen

Täällä olemme myös ladanneet JSON-tiedoston nimeltä logAggregation.json S3-ämpäriin komentosarjakansioon. Käytämme tätä tiedostoa YARN-lokitiedostojen yhdistämiseen. Lokien yhdistäminen määritetään lanka-site.xml-määritystiedostossa, kun klusteri käynnistyy. LogAggregation.json-tiedoston sisältö on seuraava:

[{'Luokittelu': 'lanka-sivusto', 'Ominaisuudet': {'lanka.log-aggregaatio-mahdollista': 'tosi', 'lanka.log-aggregaatio.retain-sekunnit': '-1', 'lanka .nodemanager.remote-app-log-dir ':' s3: // arvind1-ämpäri / lokit '}}]

Kun olet luonut S3-ämpärin ja kopioinut data- ja komentotiedostot vastaaviin kansioihin, on nyt aika määrittää EMR-klusteri. Seuraavat tilannekuvat kuvaavat prosessia, kun luomme klusterin pääosin oletusasetuksilla.

EMR-klusterin asetukset

Ensimmäisessä kuvassa, klusterin määrittämiseksi AWS-konsolissa, olemme säilyttäneet kaikki EMR: n suosittelemat sovellukset, mukaan lukien Hive. Meidän ei tarvitse käyttää AWS-liimaa Hive-metatietojen tallentamiseen, emmekä lisää työvaiheita tällä hetkellä. Meidän on kuitenkin lisättävä Hiveen ohjelmistoasetus. Täällä sinun on tarkkailtava huolellisesti, miten määritämme lokikoostumuksen JSON-tiedoston polun tässä kentässä.

Seuraavassa vaiheessa olemme pitäneet kaikki oletusasetukset. Testimme vuoksi klusterilla on yksi pääsolmu ja kaksi ydinsolmua. Jokainen tässä oleva solmu on m3.xlarge-ilmentymä ja siinä on 10 Gt juuritilavuus. Nimeämme klusterin arvind1-klusteriksi seuraavassa vaiheessa ja määritämme mukautetun s3-sijainnin sen lokitiedostoille.

Lopuksi määritimme EC2-avainparin klusterin pääsolmulle pääsemiseksi. EMR-, EC2-ilmentymäprofiilin ja automaattisen skaalausasetusten IAM-oletusrooleissa ei ole muutoksia. Lisäksi pää- ja ydinsolmut käyttävät oletusarvoisesti käytettävissä olevia suojausryhmiä. Normaalisti tämä on EMR-klusterin oletusasetus. Kun kaikki on valmis, klusteri on odotustilassa, kuten alla on esitetty:

Lähetä Hive Job Steps

Tämän jälkeen meidän on sallittava SSH-yhteys.

  1. Avaa Amazon EMR -konsoli osoitteessa https://console.aws.amazon.com/elasticmapreduce/ .
  2. Valita Klusterit .
  3. Valitse Nimi klusterin.
  4. Alla Turvallisuus ja pääsy Valitse Suojausryhmät päällikölle linkki.
  5. Valita ElasticMapReduce-master luettelosta.
  6. Valita Saapuva , Muokata .
  7. Etsi sääntö seuraavilla asetuksilla ja valitse x -kuvaketta sen poistamiseksi:
    • Tyyppi SSH
    • Satama 22
    • Lähde Mukautettu 0.0.0.0/0
  8. Vieritä sääntöluettelon loppuun ja valitse Lisää sääntö .
  9. Sillä Tyyppi , valitse SSH .Tämä tulee automaattisesti sisään TCP varten Pöytäkirja ja 22 varten Satama-alue .
  10. Valitse lähde Oma IP-osoite Tämä lisää automaattisesti asiakastietokoneesi IP-osoitteen lähdeosoitteeksi. Vaihtoehtoisesti voit lisätä alueen Mukautettu luotettujen asiakkaiden IP-osoitteita ja valitse lisää sääntö luoda lisää sääntöjä muille asiakkaille. Monissa verkkoympäristöissä jaat IP-osoitteet dynaamisesti, joten sinun on ehkä ajoittain muokattava suojausryhmäsääntöjä päivittääksesi luotettujen asiakkaiden IP-osoitteet.
  11. Valita Tallentaa .
  12. Vaihtoehtoisesti valitse ElasticMapPienennä orja toistamalla yllä olevat vaiheet, jotta SSH-asiakas voi käyttää luotettavien asiakkaiden ydin- ja tehtäväsolmuja.

Koska EMR-klusteri on käynnissä, olemme lisänneet neljä työn vaihetta. Nämä ovat vaiheet, joita EMR ajaa peräkkäin. Seuraava kuva näyttää AWS EMR -konsolin vaiheet:

Kun olemme lisänneet neljä vaihetta, voimme tarkistaa näiden vaiheiden tilan suoritettuna. Vaikka näiden vaiheiden suorittamisessa onkin ongelmia, se voidaan tällaisissa tapauksissa ratkaista näiden vaiheiden lokitiedostoilla.

Joten tämä on minun puoleltani tässä artikkelissa Big Data AWS: ssä. Toivon, että olet ymmärtänyt kaiken, mitä olen selittänyt täällä.

Jos pidit tätä Big Data -palvelua AWS: ssä merkityksellisenä, voit tutustua Edurekan live- ja ohjaajan vetämään kurssiin , jonka ovat luoneet alan ammattilaiset.

Onko sinulla kysymys meille? Mainitse se tämän Java-verkkosovelluksen käyttöönotto AWS: ssä -kommenttiosassa ja palaamme sinuun.