Datatieteen merkitys Cassandran kanssa



Cassandra on avoimen lähdekoodin tietokanta, joka käsittelee suuria määriä dataa monilla palvelimilla, joten kasandratuntemuksella olevien tiedetieteilijöiden kysyntä on suuri.

'

Digitaalisen datan nopea laajentuminen tietokoneiden, mobiililaitteiden, videoiden, sosiaalisen median, digitaalisten antureiden jne. Kautta yhdistettynä merkittäviin läpimurtoihin edullisemmalla prosessointiteholla, avoimen lähdekoodin tietokantasovelluksissa ja laajemmalla kaistanleveydellä on herättänyt valtavaa kiinnostusta koko liike-elämässä. Big Data -tieteen kehittyvä ala ja analytiikka.





heittää kaksinkertaisen int-java

Isot tiedot suurina rakenteettomina volyymeinä ovat liian suuria hallittavaksi ja analysoitavaksi perinteisillä menetelmillä. Nykyisen datan pelkkä määrä ja nopeus tekee todellisen haasteen kaappaamisesta, suodattamisesta, tallentamisesta ja analysoinnista. Tämän ratkaisemiseksi kehitetään säännöllisesti uusia tuotteita, jotka edellyttävät uusia taitoja ja asiantuntemusta. Kasvava tarve on yksilöille, jotka voivat integroida uuden infrastruktuurin, alustat ja prosessit organisaatioon, sekä niille, jotka pystyvät rakentamaan uusia analyyseja ja algoritmeja, jotka kykenevät luomaan valtavan älykkään ja liiketoiminnallisesti arvokkaan älykkyyden. Lisätietoja on blogiviestissämme

Tietojenkäsittelyn merkitys eri toimialoilla:

Data Science & Analytics -sovelluksella on sovelluksia kaikilla toimialoilla:



  • verkkokauppa - personointi- ja suosittelumoottorit, jotka lisäävät myyntiä.
  • Mainonta - Kohdennettu, reaaliaikainen mainosten jakelu kuluttajille.
  • Media ja viihde - Räätälöity sisällönkehitys, joka maksimoi käyttäjien sitoutumisen.
  • Sosiaalinen media - Sivuston tarttuvuuden lisääntyminen, käyttäjien kasvu ja kyky seurata nopeasti hajoavia trendejä kuluttajien mieltymysten perusteella.
  • Rahoituspalvelut –Optimoidut lainanantokäytännöt, jotka minimoivat riskit ja petokset.
  • Lääke / bioinformatiikka - Parempi huumeiden löytäminen, uhkaavien sairauksien tehokkaampi hoito, geenitekniikan parannukset.
  • Terveydenhuolto - Lääketieteellisten potilaiden parempi pisteytys terveysriskien varalta sekä sairauksien ennakointi ja ennenaikainen ehkäisy.
  • Teho / energia - Älykäs älykkyys, käytön tehokkuus, energiansäästö ja seisokkien vähentäminen.
  • Tietoturva - Arvokkaiden yritystietojen ja omaisuuden varkauksien havaitseminen ja seuranta on parantunut huomattavasti.

Tietojenkäsittelyn ammattilaisten keskeiset taidot:

Datatieteen verkkotunnus vaatii ammattilaisia, jotka:

  • Ymmärtää datan analytiikkaa ja päätöksentekoa
  • Ovat perehtyneitä tietotekniikkaan
  • Onko vahva liiketoimintakokemus
  • Omistaa kyky kommunikoida tehokkaasti päättäjien kanssa

Lue lisää: Perustiedot vaaditaan datatieteilijäksi.

Datatieteen käytäntöön liittyvät yleiset tekniikat:

Datatieteeseen liittyvät tekniikat



  • Tietokannat

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Kieli (kielet

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Hive, Sika, Lucene, Mahout, Solr

  • Tilastot ja ennusteet

Angoss, MATLAB, R, SAS, SPSS

KAARI, GARCH, SVAR, VAR, VEC, GAUSS

  • Tietojen visualisointi

QlikView, Spotfire, Tableau, yWorks, R

  • BI ja raportointi

BusinessObjects, Cognos, MicroStrategy

Mikä on Cassandra?

  • Apache Cassandra on avoimen lähdekoodin hajautettu tietokannan hallintajärjestelmä, joka on suunniteltu käsittelemään suuria määriä dataa monissa hyödykepalvelimissa.
  • Cassandra tarjoaa korkean käytettävyyden ilman yksittäisiä vikoja.
  • Cassandra tarjoaa vankan tuen klustereille, jotka ulottuvat useisiin datakeskuksiin.

Lisätietoja on blogiviestissämme .

Kuinka datatiede käyttää Cassandraa?

Cassandra on & ujo & ujo hajautettu tietokanta matalan viiveen, korkean suorituskyvyn palveluille, jotka käsittelevät reaaliaikaisia ​​työmääriä, jotka koostuvat sadoista päivityksistä sekunnissa ja kymmenistä tuhansista lukemisista sekunnissa.

Cassandra Käyttötapa - PROS:

PROS on Big Data -ohjelmistoyritys, jonka ohjelmistoissa on määrättäviä analyyseja, jotka auttavat asiakkaitaan analysoimaan tietojaan ja saamaan oivalluksia ja ohjeita hinnoittelun, myynnin ja tulojen hallinnan optimoimiseksi.

Heillä on reaaliaikainen palvelu, joka laskee lentoyhtiöiden saatavuuden ottamalla dynaamisesti huomioon tulojen valvontatiedot ja varastotasot, jotka voivat muuttua useita satoja kertoja sekunnissa.

Tätä palvelua kysytään useita tuhansia kertoja sekunnissa, mikä tarkoittaa kymmeniä tuhansia tiedonhakuja. Heidän palvelunsa taustajärjestelmä on Cassandra.

Reaaliaikaisen ratkaisunsa puolesta PROS ymmärsi tarpeen:

  • Hajautettu välimuisti, joka on erittäin käytettävissä.
  • Helposti skaalautuva.
  • Master-vähemmän arkkitehtuurilla.
  • Lähes reaaliaikainen tietojen replikointi jopa datakeskusten välillä.
  • Se pystyy käsittelemään reaaliaikaisia ​​lukuja ja kirjoituksia.

PROS arvioi Cassandraa Oracle Berkeley DB: n, Oracle Coherence, Terracotta, Voldemort ja Redis vastaan. Apache Cassandra oli melko helposti listan kärjessä.

PROS ja Cassandra

  • PROS käyttää Cassandraa hajautettuna tietokantana matalan viiveen ja korkean suorituskyvyn palveluille, jotka käsittelevät reaaliaikaisia ​​työmääriä, jotka koostuvat sadoista päivityksistä sekunnissa ja kymmenistä tuhansista lukemisista sekunnissa.
  • Heillä on esimerkiksi reaaliaikainen palvelu, joka laskee lentoyhtiön saatavuuden dynaamisesti ottaen huomioon tulojen hallinnan tiedot ja varastotasot, jotka voivat muuttua useita satoja kertoja sekunnissa. Tätä palvelua kysytään useita tuhansia kertoja sekunnissa, mikä tarkoittaa kymmeniä tuhansia datahakuja. Heidän palvelunsa taustajärjestelmä on Cassandra. Jotkut heidän SaaS-tarjouksistaan ​​käyttävät Cassandraa backend-myymälänä reaaliaikaisen ja Hadoop-pohjaisen eräkuormituksen yhdistelmän käsittelemiseksi.
  • Hadoopista ja Cassandrasta puhuttaessa he ottavat tiedot pois Cassandrasta, laittavat sen Hadoopiin ja suorittavat siitä erä- ja analyysitietoja, ja sitten se palaa takaisin Cassandraan. Tämä saavutetaan Cassandran Hadoop-integraatiolla.
  • Hadoop-työt vetävät tietoja ulos Cassandrasta, käyttävät tehtäväkohtaisia ​​muunnoksia tai analyyseja ja työntävät tietoja takaisin Cassandraan. He eivät käytä Datastax (virallinen Cassandra Maintainer) Enterprise -versiota tähän integraatioon, vain avoimen lähdekoodin Hadoop-asennukseen Cassandran kanssa.

Tietomallinnus Cassandralla:

Kun halutaan korvata avaimen arvoinen varasto reaaliaikaisessa replikoinnissa ja tietojen jakelussa toimivammalla, Dynamon, CAP-lauseen ja mahdollisen johdonmukaisuusmallin tutkimus osoittaa, että Cassandra sopii tähän malliin hyvin. Kun tiedetään enemmän datamallinnusominaisuuksista, siirrymme vähitellen kohti hajoavaa dataa.

Jos joku tulee relaatiotietokannan taustasta, jolla on vahva ACID-semantiikka, täytyy ottaa aikaa ymmärtää mahdollinen johdonmukaisuusmalli.

ohjelma kääntää numero java

Ymmärrä Cassandran arkkitehtuuri hyvin ja mitä se tekee konepellin alla. Cassandra 2.0: n avulla saat kevyet tapahtumat ja laukaisut, mutta ne eivät ole samat kuin perinteiset tietokantatapahtumat, jotka saatat tuntea. Esimerkiksi ulkomaisia ​​avainrajoituksia ei ole käytettävissä - se on hoidettava oman sovelluksen avulla. Käyttötapausten ja tiedonsaantimallien ymmärtäminen selvästi ennen tietojen mallintamista Cassandralla ja kaikkien käytettävissä olevien asiakirjojen lukeminen on välttämätöntä.

Päätelmä:

Apache Cassandra kehittyy nopeasti, ja opimme ja ymmärrämme sen ominaisuuksia - etenkin tietomallinnuksen puolella. Mielestämme se on hajautettu NoSQL-tietokanta Big Data -palveluihimme ja -ratkaisuihimme.

Edureka tarjoaa kattavan niille, jotka haluavat tulla datatieteilijäksi. Kurssi kattaa useita Hadoop-, R- ja koneoppimistekniikoita, jotka kattavat koko Data Science -tutkimuksen. Edureka tarjoaa myös joka auttaa hallitsemaan NoSQL-tietokantoja. Tämä kurssi on suunniteltu tarjoamaan tietoja ja taitoja tulla menestyvä Cassandra-asiantuntija.