Big Data -opetusohjelma: kaikki mitä sinun tarvitsee tietää Big Data -palvelusta!



Tämä Big Data Tutorial -blogi antaa sinulle täydellisen yleiskuvan Big Data -palvelusta, sen ominaisuuksista, sovelluksista sekä Big Data -palvelun haasteista.

Big Data -opastus

Big Data, etkö ole kuullut tätä termiä aiemmin? Olen varma, että sinulla on. Viimeisten 4-5 vuoden aikana kaikki puhuvat Big Data -palvelusta. Mutta tiedätkö todella, mikä tämä Big Data tarkalleen ottaen on, miten se vaikuttaa elämäämme ja miksi organisaatiot metsästävät ammattilaisia ? Tässä Big Data -oppaassa annan sinulle täydellisen käsityksen Big Data -oppaasta.

Alla on aiheet, jotka käsittelen tässä Big Data -oppaassa:





  • Big Datan tarina
  • Big Data -ajotekijät
  • Mikä on Big Data?
  • Suurten tietojen ominaisuudet
  • Suurten tietojen tyypit
  • Esimerkkejä suurista tiedoista
  • Big Data -sovellukset
  • Haasteet suurilla tiedoilla

Big Data -opastus - Edureka

Haluan aloittaa tämän Big Data Tutorialin novellilla.



Big Datan tarina

Muinaisina aikoina ihmiset matkustivat kylästä toiseen kylään hevosvaunulla, mutta ajan myötä kylistä tuli kaupunkeja ja ihmiset levisivät. Etäisyys matkustaa kaupungista toiseen kasvoi myös. Joten siitä tuli ongelma matkustaa kaupunkien välillä matkatavaroiden mukana. Yksi älykäs kaveri ehdotti, että meidän pitäisi hämmentää ja ruokkia hevosta enemmän tämän ongelman ratkaisemiseksi. Kun tarkastelen tätä ratkaisua, se ei ole niin paha, mutta luuletko, että hevosesta voi tulla norsu? En usko niin. Toinen fiksu kaveri sanoi, että sen sijaan, että yksi hevonen vetäisi kärryä, olkaamme 4 hevosta vetämään sama kärry. Mitä mieltä olette tästä ratkaisusta? Mielestäni se on loistava ratkaisu. Ihmiset voivat nyt matkustaa suuria matkoja lyhyemmässä ajassa ja kuljettaa jopa enemmän matkatavaroita.

Sama käsite pätee myös Big Dataan. Big Data sanoo, että tähän päivään asti olimme kunnossa tallentaa tietoja palvelimillemme, koska tietojen määrä oli melko rajallinen, ja myös aika näiden tietojen käsittelyyn oli kunnossa. Mutta nyt tässä nykyisessä teknologisessa maailmassa data kasvaa liian nopeasti, ja ihmiset luottavat tietoihin monta kertaa. Myös datan kasvunopeudella on mahdotonta tallentaa tietoja mihinkään palvelimeen.

Tämän Big Data Tutorial -blogin avulla tutkitaan Big Data -lähteitä, joita perinteiset järjestelmät eivät pysty tallentamaan ja käsittelemään.



Big Data -ajotekijät

Tietojen määrä maapallolla kasvaa räjähdysmäisesti monista syistä. Eri lähteet ja päivittäiset toimintamme tuottavat paljon tietoa. Verkon keksimisen myötä koko maailma on siirtynyt verkkoon, jokainen tekemämme asia jättää digitaalisen jäljen. Kun älykkäät objektit siirtyvät verkkoon, datan kasvuvauhti on kasvanut nopeasti. Suurten tietojen suurimmat lähteet ovat sosiaalisen median sivustot, anturiverkot, digitaaliset kuvat / videot, matkapuhelimet, ostotapahtumatiedot, verkkolokit, lääketieteelliset tiedot, arkistot, sotilaallinen valvonta, verkkokauppa, monimutkainen tieteellinen tutkimus ja niin edelleen. Kaikki nämä tiedot ovat noin kvintillionia tavua tietoja. Vuoteen 2020 mennessä tietomäärät ovat noin 40 zettatavua, mikä vastaa jokaisen planeetan hiekanjyvän lisäämistä seitsemälläkymmenellä viidellä.

Mikä on Big Data?

Big Data on termi, jota käytetään kokoamaan suuria ja monimutkaisia ​​tietojoukkoja, joita on vaikea tallentaa ja käsitellä käytettävissä olevien tietokannan hallintatyökalujen tai perinteisten tietojenkäsittelysovellusten avulla. Haasteena on näiden tietojen kaappaaminen, kuratointi, tallentaminen, etsiminen, jakaminen, siirtäminen, analysointi ja visualisointi.

Suurten tietojen ominaisuudet

Viisi ominaisuutta, jotka määrittelevät suuret tiedot, ovat: määrä, nopeus, vaihtelevuus, todellisuus ja arvo.

lajittele c ++ -taulukko
  1. ÄÄNENVOIMAKKUUS

    Määrä viittaa ”datan määrään”, joka kasvaa päivä päivältä erittäin nopeasti. Ihmisten, koneiden ja niiden vuorovaikutuksen sosiaalisessa mediassa itse tuottama data on valtava. Tutkijat ovat ennustaneet, että 40 zettatavua (40 000 eksatavua) syntyy vuoteen 2020 mennessä, mikä on 300 kertaa enemmän kuin vuonna 2005.

  2. NOPEUS

    Nopeus määritellään nopeudeksi, jolla eri lähteet tuottavat tietoja päivittäin. Tämä tiedonkulku on massiivista ja jatkuvaa. Matkapuhelimessa on tällä hetkellä 1,03 miljardia päivittäistä aktiivista käyttäjää (Facebook DAU), mikä on 22% enemmän kuin vuosi sitten. Tämä osoittaa, kuinka nopeasti käyttäjien määrä kasvaa sosiaalisessa mediassa ja kuinka nopeasti tietoja syntyy päivittäin. Jos pystyt käsittelemään nopeutta, pystyt tuottamaan oivalluksia ja tekemään päätöksiä reaaliaikaisen datan perusteella.

  3. Lajike

    Koska on olemassa monia lähteitä, jotka osallistuvat Big Data -palveluun, niiden tuottama data on erilainen. Se voi olla strukturoitu, puolirakenteinen tai strukturoimaton. Siksi on olemassa erilaisia ​​tietoja, joita syntyy joka päivä. Aikaisemmin saimme tietoja Excelistä ja tietokannoista, nyt tiedot tulevat kuvien, äänien, videoiden, anturitietojen jne. Muodossa, kuten alla olevassa kuvassa näkyy. Tästä syystä tämä strukturoimattoman tiedon monimuotoisuus aiheuttaa ongelmia tietojen sieppauksessa, varastoinnissa, louhinnassa ja analysoinnissa.

  4. VERACITY

    Todenmukaisuudella tarkoitetaan tietoja, jotka ovat epävarmoja tai epävarmoja käytettävissä olevista tiedoista johtuen tietojen epäjohdonmukaisuudesta ja puutteellisuudesta. Alla olevasta kuvasta näet, että muutama arvo puuttuu taulukosta. Lisäksi muutamia arvoja on vaikea hyväksyä, esimerkiksi - 15000 minimiarvoa 3. rivillä, se ei ole mahdollista. Tämä epäjohdonmukaisuus ja epätäydellisyys ovat todellisuutta.
    Saatavilla olevat tiedot voivat joskus olla sotkuisia ja ehkä vaikeita luottaa. Monien suurten tietojen muotojen laatua ja tarkkuutta on vaikea hallita, kuten Twitter-viestejä, joissa on hashtagit, lyhenteet, kirjoitusvirheet ja puhekieli. Määrä on usein syy tietojen laadun ja tarkkuuden puutteeseen.

    • Tietojen epävarmuuden takia joka kolmas yritysjohtaja ei luota tietoihin, joita he tekevät päätöksenteossa.
    • Tutkimuksessa todettiin, että 27% vastaajista oli epävarma siitä, kuinka suuri osa tiedoista oli virheellisiä.
    • Huono tiedonlaatu maksaa Yhdysvaltain taloudelle noin 3,1 biljoonaa dollaria vuodessa.
  5. ARVO

    Keskusteltuaan äänenvoimakkuudesta, nopeudesta, vaihtelevuudesta ja todenmukaisuudesta on toinen V, joka tulisi ottaa huomioon tarkasteltaessa suuria tietoja eli arvoa. On hienoa saada isotiedotmuttaellei voimme muuttaa sitä arvoksi, se on hyödytön. Muuttamalla sen arvoksi tarkoitan, lisääkö se dataa analysoivien organisaatioiden etuja? Onko organisaatio, joka työskentelee Big Datan parissa, saavuttaa korkean sijoitetun pääoman tuottoprosentin (Return On Investment)? Ellei se lisää heidän voittojaan tekemällä Big Dataa, se on hyödytöntä.

Käy läpi alla oleva Big Data -videomme saadaksesi lisätietoja Big Data:

Big Data -opastus aloittelijoille | Mikä on iso data | Edureka

Kuten Variety-ohjelmassa kerrotaan, on olemassa erityyppisiä tietoja, joita syntyy joka päivä. Joten ymmärretään nyt tietotyypit:

Suurten tietojen tyypit

Big Data voi olla kolmen tyyppistä:

  • Jäsennelty
  • Puolirakenteinen
  • Rakentamaton

  1. Jäsennelty

    Kiinteässä muodossa tallennettavia ja käsiteltäviä tietoja kutsutaan strukturoiduiksi tiedoiksi. Relaatiotietokantojen hallintajärjestelmään (RDBMS) tallennetut tiedot ovat yksi esimerkki 'jäsennellystä' datasta. Jäsenneltyjä tietoja on helppo käsitellä, koska niillä on kiinteä skeema. Strukturoitua kyselykieltä (SQL) käytetään usein tällaisten tietojen hallintaan.

  2. Puolirakenteinen

    Puolirakenteinen data on tietotyyppi, jolla ei ole muodollista tietomallin rakennetta, eli taulukon määritystä relaatiotietojärjestelmässä, mutta silti sillä on joitain organisatorisia ominaisuuksia, kuten tunnisteet ja muut merkinnät semanttisten elementtien erottamiseksi, mikä helpottaa analysoida. XML-tiedostot tai JSON-asiakirjat ovat esimerkkejä puolirakenteisista tiedoista.

  3. Rakentamaton

    Tiedot, joiden muoto on tuntematon ja joita ei voida tallentaa RDBMS-järjestelmään ja joita ei voida analysoida, ellei niitä muunneta strukturoiduksi muodoksi, kutsutaan rakenteettomiksi tiedoiksi. Tekstitiedostot ja multimediasisältö, kuten kuvat, äänet, videot, ovat esimerkkejä strukturoimattomasta tiedosta. Strukturoimaton data kasvaa nopeammin kuin muut, asiantuntijat sanovat, että 80 prosenttia organisaation tiedoista on rakenteetonta.

Tähän asti olen juuri käsitellyt Big Datan käyttöönottoa. Lisäksi tässä Big Data -oppaassa kerrotaan Big Datan esimerkeistä, sovelluksista ja haasteista.

Esimerkkejä suurista tiedoista

Päivittäin lataamme miljoonia tavuja tietoja. 90% maailman tiedoista on luotu kahden viime vuoden aikana.

  • Walmart käsittelee enemmän kuin 1 miljoona asiakastapahtumat joka tunti.
  • Facebook tallentaa, käyttää ja analysoi Yli 30 petatavua käyttäjän luomaa dataa.
  • Yli 230 miljoonaa twiittejä luodaan joka päivä.
  • Enemmän kuin 5 miljardia ihmiset soittavat, lähettävät tekstiviestejä, tweetoivat ja selaavat matkapuhelimia ympäri maailmaa.
  • YouTube-käyttäjät lataavat 48 tuntia uutta videota päivän joka minuutti.
  • Amazon käsittelee 15 miljoonaa asiakas suosittelee tuotteita napsauttamalla päivittäisiä käyttäjätietoja päivässä.
  • 294 miljardia sähköposteja lähetetään joka päivä. Services analysoi nämä tiedot roskapostin löytämiseksi.
  • Nykyaikaisilla autoilla on lähellä 100 anturia joka seuraa polttoainetasoa, rengaspaineita jne., jokainen ajoneuvo tuottaa paljon anturitietoja.

Big Data -sovellukset

Emme voi puhua tiedoista puhumatta ihmisistä, ihmisistä, jotka hyötyvät Big Data -sovelluksista. Lähes kaikki teollisuudenalat hyödyntävät nykyään Big Data -sovelluksia yhdellä tai toisella tavalla.

  • Älykkäämpi terveydenhuolto : Organisaatio voi hyödyntää potilastietojen petatavuja, saada hyödyllistä tietoa ja sitten rakentaa sovelluksia, jotka voivat ennustaa potilaan tilan heikkenemisen etukäteen.
  • Telecom : Telesektorit keräävät tietoa, analysoivat sitä ja tarjoavat ratkaisuja erilaisiin ongelmiin. Käyttämällä Big Data -sovelluksia teleyritykset ovat pystyneet vähentämään merkittävästi datapakettien häviötä, joka tapahtuu verkkojen ylikuormituksen yhteydessä, ja siten tarjoamaan saumattoman yhteyden asiakkailleen.
  • Jälleenmyynti : Vähittäiskaupalla on joitain tiukimpia marginaaleja, ja se on yksi suurten datan edunsaajista. Big datan käytön kauneus vähittäiskaupassa on ymmärtää kuluttajien käyttäytymistä. Amazonin suositusmoottori tarjoaa ehdotuksia, jotka perustuvat kuluttajan selaushistoriaan.
  • Liikennevalvonta : Liikenneruuhkat ovat suuri haaste monille kaupungeille maailmanlaajuisesti. Datan ja antureiden tehokas käyttö on avain liikenteen hallintaan paremmin kaupunkien tiheämmän asutuksen myötä.
  • Valmistus : Suurten tietojen analysointi valmistusteollisuudessa voi vähentää komponenttivikoja, parantaa tuotteiden laatua, lisätä tehokkuutta ja säästää aikaa ja rahaa.
  • Haun laatu : Aina keräämällä tietoja googlesta tuotamme samanaikaisesti tietoja sille. Google tallentaa nämä tiedot ja käyttää niitä hakujen laadun parantamiseen.

Joku on perustellusti sanonut: 'Kaikki puutarhassa ei ole Rosy!' . Tähän asti tässä Big Data -oppaassa olen juuri osoittanut sinulle Big Data -kuvan ruusukuvan. Mutta jos Big Datan hyödyntäminen oli niin helppoa, eikö luulisi, että kaikki organisaatiot investoivat siihen? Saanen kertoa sinulle etukäteen, näin ei ole. Big Data -palvelun parissa on useita haasteita.

Nyt kun olet perehtynyt Big Dataen ja sen eri ominaisuuksiin, tämän blogin seuraava osa Big Data Tutorial -ohjelmassa valaisee joitain Big Datan suurimmista haasteista.

Haasteet suurilla tiedoilla

Haluan kertoa sinulle muutamia haasteita, jotka tulevat Big Datan mukana:

  1. Tietojen laatu - Ongelma tässä on 4thV eli todellisuus. Tiedot ovat hyvin sotkuisia, epäjohdonmukaisia ​​ja puutteellisia. Likainen data maksaa yrityksille vuosittain 600 miljardia dollaria Yhdysvalloissa.
  1. Löytö - Big Datasta oivallusten löytäminen on kuin neulan löytäminen heinäsuovasta. Petabaittien datan analysointi erittäin tehokkaiden algoritmien avulla kuvioiden ja oivallusten löytämiseksi on erittäin vaikeaa.
  1. Varastointi - Mitä enemmän organisaatiolla on tietoa, sitä monimutkaisemmiksi sen hallinnan ongelmat voivat tulla. Tässä herää kysymys: 'Mihin sitä säilyttää?'. Tarvitsemme varastointijärjestelmän, joka voi helposti laajentaa tai pienentää kysyntää.
  1. Analytics - Suurten tietojen tapauksessa emme useinkaan ole tietoisia siitä, minkä tyyppisiä tietoja olemme tekemisissä, joten tietojen analysointi on vielä vaikeampaa.
  1. Turvallisuus - Koska tiedot ovat kooltaan valtavia, niiden suojaaminen on toinen haaste. Se sisältää käyttäjän todennuksen, pääsyn rajoittamisen käyttäjän perusteella, tietojen käyttöhistorioiden tallentamisen, tietojen salauksen asianmukaisen käytön jne.
  1. Kyvyn puute - Suurissa organisaatioissa on paljon Big Data -projekteja, mutta edistyksellinen kehittäjien, datatieteilijöiden ja analyytikkojen ryhmä, jolla on myös riittävä määrä verkkotunnusta, on edelleen haaste.

Hadoop pelastukseen

Meillä on pelastaja Big Data -haasteiden - sen Hadoop . Hadoop on avoimen lähdekoodin Java-pohjainen ohjelmointikehys, joka tukee erittäin suurten tietojoukkojen tallentamista ja käsittelyä hajautetussa laskentaympäristössä. Se on osa Apache-ohjelmistosäätiön tukemaa Apache-projektia.

oletusarvo char java

Hadoop hajautetulla prosessoinnillaan käsittelee suuria määriä strukturoitua ja strukturoimatonta dataa tehokkaammin kuin perinteinen yritystietovarasto. Hadoopin avulla voidaan suorittaa sovelluksia järjestelmissä, joissa on tuhansia hyödykelaitteistosolmuja, ja käsitellä tuhansia teratavuja dataa. Organisaatiot ottavat Hadoopin käyttöön, koska se on avoimen lähdekoodin ohjelmisto ja voi toimia hyödykelaitteistolla (henkilökohtaisella tietokoneellasi).Ensimmäiset kustannussäästöt ovat dramaattisia, koska hyödykelaitteistot ovat erittäin halpoja. Organisaatiotietojen kasvaessa sinun on lisättävä enemmän ja enemmän hyödykelaitteistoja lennossa niiden tallentamiseksi, joten Hadoop osoittautuu taloudelliseksi.Lisäksi Hadoopin takana on vankka Apache-yhteisö, joka edelleen edistää sen kehitystä.

Kuten aiemmin luvattiin, olen antanut tämän Big Data Tutorial -blogin kautta sinulle suurimman mahdollisen oivalluksen Big Datasta. Tämä on Big Data -opetusohjelman loppu. Seuraava askel eteenpäin on tuntea ja oppia Hadoop. Meillä on sarja Hadoop-opetusohjelmaa blogit, jotka antavat yksityiskohtaista tietoa täydellisestä Hadoop-ekosysteemistä.

Hyvää onnea Hadooping!

Nyt kun olet ymmärtänyt, mikä on Big Data, tutustu Edureka, luotettava verkko-oppimisyritys, jolla on yli 250 000 tyytyväisen oppijan verkosto, joka levisi ympäri maailmaa. Edureka Big Data Hadoop -sertifiointikoulutus auttaa oppijoita tulemaan HDFS-, Lanka-, MapReduce-, Pig-, Hive-, HBase-, Oozie-, Flume- ja Sqoop-asiantuntijoiksi käyttämällä reaaliaikaisia ​​käyttötapauksia vähittäiskaupan, sosiaalisen median, ilmailun, matkailun ja rahoituksen verkkotunnuksissa.

Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.

Aiheeseen liittyvät julkaisut: