Data Science Tutorial - Opi datatiedettä Scratchista!



Tämä Data Science -opetusohjelma on ihanteellinen niille, jotka etsivät siirtymistä Data Science -alueelle. Se sisältää kaikki tietojenkäsittelyn olennaiset urapolut.

Haluatko aloittaa urasi datatieteilijänä, mutta et tiedä mistä aloittaa? Olet oikeassa paikassa! Hei kaverit, tervetuloa tähän mahtavaan Data Science Tutorial -blogiin, se antaa sinulle potkun alku tietojenkäsittelymaailmaan. Saadaksesi syvällistä tietoa tieteestä, voit ilmoittautua livenä kirjoittanut Edureka 24/7 tuella ja käyttöikällä. Katsotaanpa, mitä opimme tänään:

    1. Miksi datatiede?
    2. Mikä on datatiede?
    3. Kuka on datatieteilijä?
    4. Työn trendit
    5. Kuinka ratkaista datatieteen ongelma?
    6. Datatieteen komponentit
    7. Datatieteilijän työtehtävät





Miksi datatiede?

Sanotaan, että Data Scientist on '2000-luvun seksikkäin työ'. Miksi? Koska yritykset ovat viime vuosina tallentaneet tietojaan. Ja tämän tekevät jokainen yritys, se on yhtäkkiä johtanut tietojen räjähdykseen. Datasta on tullut yleisin asia tänään.

Mutta mitä aiot tehdä näillä tiedoilla? Ymmärretään tämä esimerkin avulla:



Oletetaan, että sinulla on yritys, joka valmistaa matkapuhelimia. Julkaisit ensimmäisen tuotteesi, ja siitä tuli massiivinen hitti. Jokaisella tekniikalla on elämä, eikö? Joten nyt on aika keksiä jotain uutta. Mutta et tiedä, mitä pitäisi innovoida, jotta voit vastata käyttäjien odotuksiin, jotka odottavat innolla seuraavaa julkaisua?

Joku yrityksessäsi keksii idean käyttää käyttäjien tuottamaa palautetta ja valita asioita, joiden uskomme käyttäjien odottavan seuraavassa julkaisussa.

Tulee datatieteessä, sovellat erilaisia ​​tiedonlouhintatekniikoita, kuten mielipiteiden analysointia jne., Ja saat halutut tulokset.



Sen lisäksi, että voit tehdä parempia päätöksiä, voit vähentää tuotantokustannuksia esittelemällä tehokkaita tapoja ja antaa asiakkaillesi mitä he todella haluavat!

Tämän ansiosta Data Science voi tuottaa lukemattomia etuja, ja siksi yrityksellesi on ehdottoman välttämätöntä, että sinulla on Data Science Team.Tämänkaltaiset vaatimukset johtivat ”datatieteeseen” tänään aiheena, ja siksi kirjoitamme tämän blogin sinulle Data Science Tutorial. :)

Data Science Tutorial: Mikä on Data Science?

Termi Data Science on ilmaantunut viime aikoina matemaattisten tilastojen ja data-analyysien kehittyessä. Matka on ollut hämmästyttävä, olemme saavuttaneet niin paljon tänään datatieteen alalla.

Seuraavien vuosien aikana voimme ennustaa tulevaisuuden kuten MIT: n tutkijat väittivät. He ovat jo saavuttaneet virstanpylvään tulevaisuuden ennustamisessa mahtavalla tutkimuksellaan. He voivat nyt ennustaa, mitä elokuvan seuraavassa kohtauksessa tapahtuu koneellaan! Miten? No, se voi olla hieman monimutkainen, jotta ymmärrät heti, mutta älä huoli tämän blogin loppuun mennessä, sinulla on myös vastaus siihen.

Palataksemme takaisin, puhuimme datatieteestä, joka tunnetaan myös nimellä datapohjainen tiede, joka käyttää tieteellisiä menetelmiä, prosesseja ja järjestelmiä saadakseen tietoa tai oivalluksia tiedoista eri muodoissa, ts. Joko jäsenneltyinä tai rakenteettomina.

Mitä nämä menetelmät ja prosessit ovat, me aiomme keskustella tässä Data Science -oppaassa tänään.

Kuka liikkuu eteenpäin, kuka tekee kaiken tämän aivomyrskyn tai kuka harjoittaa datatiedettä? A Data-tutkija .

Kuka on datatieteilijä?

Kuten kuvasta näet, datatieteilijä on kaikkien kauppojen päällikkö! Hänen pitäisi olla taitava matematiikassa, hänen tulisi toimia liiketoiminta-alueella ja hänellä tulisi olla myös hyvät tietojenkäsittelytaidot. Peloissaan? Älä ole. Vaikka sinun on oltava hyvä kaikilla näillä aloilla, mutta vaikka et ole, et ole yksin! Ei ole olemassa sellaista asiaa kuin 'täydellinen datatieteilijä'. Jos puhumme työstä yritysympäristössä, työ jaetaan tiimien kesken, jolloin jokaisella tiimillä on oma asiantuntemuksensa. Mutta asia on, sinun pitäisi olla taitava ainakin yhdessä näistä kentistä. Lisäksi, vaikka nämä taidot ovat sinulle uusia, chill! Se voi viedä aikaa, mutta näitä taitoja voidaan kehittää, ja uskokaa minua, että kannattaisit sijoittaa aikaa. Miksi? Katsotaanpa työn suuntauksia.

lukea ja kirjoittaa Excel-tiedostoa Java-tiedostona

Data Scientistin työn trendit

Kaavio kertoo kaiken, paitsi tietojenkäsittelytieteilijöille on tarjolla paljon työpaikkoja, mutta myös työpaikat ovat hyvin palkattuja! Ja ei, blogissamme ei käsitellä palkkoja, mene google!

No, tiedämme nyt, datatieteen oppimisella on todellakin järkeä, ei vain siksi, että se on erittäin hyödyllistä, mutta myös sinulla on siinä suuri ura lähitulevaisuudessa.

Aloitetaan matkamme datatieteen oppimisessa nyt ja aloitetaan

Kuinka ratkaista datatieteen ongelma?

Joten nyt, keskustellaan siitä, miten pitäisi lähestyä ongelmaa ja ratkaista se datatieteellä. Datatieteen ongelmat ratkaistaan ​​algoritmeilla. Mutta suurin asia arvioida on mikä algoritmi ja milloin sitä käytetään?

Periaatteessa on 5 erilaista ongelmaa, joita voit kohdata datatieteessä.

Käsittelemme näitä kysymyksiä ja niihin liittyviä algoritmeja yksi kerrallaan:

Onko tämä A vai B?

Tällä kysymyksellä tarkoitamme ongelmia, joihin on kategorinen vastaus, sillä ongelmiin, joilla on kiinteä ratkaisu, vastaus voi olla joko kyllä ​​tai ei, 1 tai 0, kiinnostunut, ehkä tai ei kiinnosta.

Esimerkiksi:

K. Mitä sinulla on, teetä tai kahvia?

Täällä ei voi sanoa, että haluaisit koksin! Koska kysymys tarjoaa vain teetä tai kahvia, ja siksi voit vastata vain yhteen näistä.

Kun meillä on vain kahden tyyppisiä vastauksia, ts. Kyllä tai ei, 1 tai 0, sitä kutsutaan 2-luokan luokitukseksi. Yli kahdella vaihtoehdolla sitä kutsutaan moniluokkaluokitukseksi.

Lopuksi, kun törmäät kysymyksiin, joihin vastaus on kategorinen, ratkaiset Data Science -tutkimuksessa nämä ongelmat luokitusalgoritmeilla.

Seuraava ongelma tässä Data Science Tutorialissa, johon saatat törmätä, ehkä jotain tällaista,

Onko tämä outoa?

Tällaiset kysymykset käsittelevät malleja ja ne voidaan ratkaista käyttämällä poikkeavuuksien tunnistusalgoritmeja.

Esimerkiksi:

Yritä liittää ongelma 'onko tämä outoa?' tähän kaavioon,

Mikä on outoa yllä olevassa kuviossa? Punainen kaveri, eikö olekin?

Aina kun kuviossa on katkos, algoritmi merkitsee kyseisen tapahtuman tarkistettavaksi. Luottokorttiyhtiöt ovat toteuttaneet tämän algoritmin tosielämän sovelluksen, jossa kaikki käyttäjän epätavalliset tapahtumat merkitään tarkistettaviksi. Siten toteutetaan turvallisuus ja vähennetään ihmisten ponnisteluja valvonnassa.

Katsotaanpa tämän Data Science Tutorialin seuraavaa ongelmaa, älä pelkää, käsittelee matematiikkaa!

Kuinka paljon tai kuinka monta?

Ne teistä, jotka eivät pidä matematiikasta, on helpottunut! Regressioalgoritmit ovat täällä!

Joten aina kun on ongelma, joka voi pyytää lukuja tai numeerisia arvoja, ratkaisemme sen regressioalgoritmeilla.

Esimerkiksi:

Mikä on huomisen lämpötila?

Koska odotamme numeerista arvoa vastauksessa tähän ongelmaan, ratkaistaan ​​se käyttämällä regressioalgoritmeja.

Keskustelemme seuraavasta algoritmista, siirtymällä eteenpäin tässä Data Science -oppaassa

Kuinka tämä on järjestetty?

Sano, että sinulla on joitain tietoja, nyt sinulla ei ole aavistustakaan, miten näistä tiedoista tulisi järkeä. Tästä syystä kysymys, miten tämä on järjestetty?

No, voit ratkaista sen klusterointialgoritmeilla. Kuinka he ratkaisevat nämä ongelmat? Katsotaan:

Klusterointialgoritmit ryhmittävät tiedot yleisten ominaisuuksien perusteella. Esimerkiksi yllä olevassa kaaviossa pisteet on järjestetty värien perusteella. Vastaavasti, olivatpa ne mitä tahansa tietoja, klusterointialgoritmit yrittävät ymmärtää niiden välisen yhteisen ja siten 'klusteroida' ne yhdessä.

Seuraava ja viimeinen ongelma tässä Data Science -oppaassa, jonka saatat kohdata, on

Mitä minun pitäisi tehdä seuraavaksi?

Aina kun kohtaat ongelman, jossa tietokoneesi on tehtävä päätös antamasi koulutuksen perusteella, siihen liittyy vahvistusalgoritmeja.

Esimerkiksi:

Lämpötilan säätöjärjestelmäsi, kun sen on päätettävä, pitäisikö sen laskea huoneen lämpötilaa vai nostaa sitä.

Kuinka nämä algoritmit toimivat?

Nämä algoritmit perustuvat ihmisen psykologiaan. Haluamme, että meitä arvostetaan oikein? Tietokoneet toteuttavat nämä algoritmit ja odottavat, että heitä arvostetaan koulutuksessa. Miten? Katsotaan.

Sen sijaan, että opettaisit tietokoneelle mitä tehdä, annat sen päättää mitä tehdä, ja annat sen jälkeen joko positiivisen tai negatiivisen palautteen. Sen sijaan, että määrität, mikä on oikein ja mikä väärin järjestelmässäsi, annat järjestelmän 'päättää' mitä tehdä ja lopulta antaa palautetta.

Se on kuin koirasi kouluttaminen. Et voi hallita sitä, mitä koirasi tekee, eikö? Mutta voit torjua häntä, kun hän tekee väärin. Samoin ehkä taputtamalla häntä selälle, kun hän tekee odotettua.

Sovelletaan tätä ymmärrystä yllä olevassa esimerkissä, kuvittele, että harjoittelet lämpötilan säätöjärjestelmää, joten aina kun ei. huoneessa olevien ihmisten määrä kasvaa, järjestelmän on toimittava. Joko alenna lämpötilaa tai nosta sitä. Koska järjestelmämme ei ymmärrä mitään, se tekee satunnaisen päätöksen, oletetaan, että se nostaa lämpötilaa. Siksi annat negatiivisen palautteen. Tämän avulla tietokone ymmärtää aina, kun ihmisten määrä kasvaa huoneessa, älä koskaan nosta lämpötilaa.

Vastaavasti muille toimille, anna palautetta.Jokaisen palautteen avulla järjestelmäsi oppii ja siten tarkenee seuraavassa päätöksessään, tämän tyyppistä oppimista kutsutaan vahvistusoppimiseksi.

Nyt algoritmeihin, jotka olemme oppineet yllä tässä Data Science Tutorial -oppaassa, sisältyy yleinen 'oppimiskäytäntö'. Teemme koneen oppimaan oikein?

Mikä on koneoppiminen?

Se on eräänlainen tekoäly, joka tekee tietokoneista kykenevät oppimaan yksin, ts. Ilman erillistä ohjelmointia. Koneoppimisen avulla koneet voivat päivittää oman koodinsa aina, kun he kohtaavat uuden tilanteen.

Tämän tietojenkäsittelyn päätteeksi tiedämme nyt, että tietojenkäsittelytietoa tukee koneoppiminen ja sen analyysin algoritmit. Kuinka teemme analyysin, missä teemme sen. Datatiede sisältää lisäksi joitain komponentteja, jotka auttavat meitä käsittelemään kaikkia näitä kysymyksiä.

Ennen sitä anna minun vastata, kuinka MIT voi ennustaa tulevaisuuden, koska luulen, että voisit pystyä kertomaan sen nyt. Joten MIT: n tutkijat kouluttivat malliaan elokuvilla ja tietokoneet oppivat, miten ihmiset reagoivat tai miten he toimivat ennen toiminnan tekemistä.

Esimerkiksi, kun olet kättelemässä jonkun kanssa, otat kätesi taskustasi tai ehkä nojautut henkilölle. Periaatteessa jokaiseen tekemäämme asiaan liittyy 'ennakkotoiminta'. Tietokone elokuvien avulla koulutettiin näihin ”esitoimintoihin”. Tarkkailemalla yhä useampia elokuvia heidän tietokoneensa pystyivät sitten ennustamaan hahmon seuraavan toiminnan.

Eikö se ole helppoa? Haluan heittää vielä yhden kysymyksen sinulle tässä Data Science -oppaassa! Mikä koneoppimisen algoritmi heidän on täytynyt toteuttaa tässä?

Datatieteen komponentit

1. Aineistot

Mitä aiot analysoida? Data, eikö? Tarvitset paljon analysoitavaa dataa, nämä tiedot syötetään algoritmeihisi tai analyyttisiin työkaluihisi. Saat nämä tiedot useista aiemmin tehdyistä tutkimuksista.

2. R Studio

R on avoimen lähdekoodin ohjelmointikieli ja ohjelmistoympäristö tilastolliseen laskentaan ja grafiikkaan, jota R-säätiö tukee. R-kieltä käytetään ID Studiossa nimeltä R Studio.

iteratiivinen fibonacci c ++

Miksi sitä käytetään?

  • Ohjelmointi ja tilastokieli
    • Sen lisäksi, että sitä käytetään tilastokielenä, sitä voidaan käyttää myös ohjelmointikielenä analyyttisiin tarkoituksiin.
  • Tietojen analysointi ja visualisointi
    • Sen lisäksi, että R on yksi hallitsevimmista analyysityökaluista, se on myös yksi suosituimmista työkaluista, joita käytetään tietojen visualisointiin.
  • Yksinkertainen ja helppo oppia
    • R on yksinkertainen ja helppo oppia, lukea ja kirjoittaa

  • Ilmainen ja avoin lähdekoodi
    • R on esimerkki FLOSS-ohjelmasta (ilmainen / ilmainen ja avoimen lähdekoodin ohjelmisto), mikä tarkoittaa, että voidaan vapaasti levittää ohjelmiston kopioita, lukea sen lähdekoodia, muokata sitä jne.

R Studio riitti analysointiin, kunnes tietojoukkomme muuttuivat valtaviksi, samalla myös rakentamattomiksi. Tämän tyyppisiä tietoja kutsuttiin Big Dataiksi.

3. Suuret tiedot

Suuret tiedot ovat termi kokoamiselle niin suuria ja monimutkaisia, että on vaikea käsitellä tietokannan hallintatyökaluilla tai perinteisillä tietojenkäsittelysovelluksilla.

Nyt näiden tietojen kesyttämiseksi meidän oli keksittävä työkalu, koska mikään perinteinen ohjelmisto ei pystynyt käsittelemään tällaista dataa, ja siksi keksimme Hadoopin.

4. Hadoop

Hadoop on kehys, joka auttaa meitä kaupassa ja prosessi suuria aineistoja rinnakkain ja jakelulla.

Keskitymme Hadoopin myymälään ja prosessointiin.

Kauppa

Hadoopin tallennusosaa hoitaa HDFS eli Hadoop Distributed File System. Se tarjoaa korkean käytettävyyden hajautetulla ekosysteemillä. Toimintatapa on näin, se jakaa saapuvat tiedot paloiksi ja jakaa ne klusterin eri solmuihin sallienen hajautetun tallennustilan.

Prosessi

MapReduce on Hadoop-prosessoinnin sydän. Algoritmit tekevät kaksi tärkeää tehtävää, kartoittavat ja pienentävät. Kartoittajat jakavat tehtävän pienempiin tehtäviin, jotka käsitellään samanaikaisesti. Kerran kaikki kartoittajat tekevät oman osuutensa työstä, ne yhdistävät tulokset ja sitten Reduce-prosessi vähentää nämä tulokset yksinkertaisempaan arvoon. Saat lisätietoja Hadoopista käymällä läpi .

Jos käytämme Hadoopia tallennustilana datatieteessä, on vaikeaa käsitellä syötettä R Studion kanssa, koska se ei kykene toimimaan hyvin hajautetussa ympäristössä, joten meillä on Spark R.

5. Kipinä R

Se on R-paketti, joka tarjoaa kevyen tavan käyttää Apache Sparkia R: n kanssa. Miksi käytät sitä perinteisiin R-sovelluksiin? Koska se tarjoaa hajautetun datakehyksen toteutuksen, joka tukee toimintaa, kuten valintaa, suodatusta, yhdistämistä jne., Mutta suurilla tietojoukoilla.

Hengitä nyt! Olemme tehneet tämän Data Science Tutorialin teknisen osan, katsotaanpa sitä nyt työsi näkökulmasta. Luulen, että olisit jo googlannut datatieteilijän palkat, mutta keskustellaan silti työtehtävistä, jotka ovat käytettävissäsi datatieteilijänä.

Datatieteilijän työtehtävät

Jotkut merkittävistä Data Scientist -tehtävistä ovat:

  • Data-tutkija
  • Datainsinööri
  • Data-arkkitehti
  • Tietojen ylläpitäjä
  • Data-analyytikko
  • Liiketoiminta-analyytikko
  • Data / Analytics Manager
  • Business Intelligence Manager

Tämän Data Science Tutorialin alla olevassa Payscale.com-kaaviossa näkyy Data Scientistin keskimääräinen palkka taitojen mukaan Yhdysvalloissa ja Intiassa.

Aika on kypsä datatieteen ja Big Data Analyticsin taitojen hyödyntämiseen, jotta voit hyödyntää tietojesi uramahdollisuuksia. Tämä vie meidät Data Science -opetusblogin loppuun. Toivon, että tämä blogi oli informatiivinen ja lisäarvoa sinulle. Nyt on aika siirtyä datatieteen maailmaan ja tulla menestyväksi datatieteilijäksi.

Edurekalla on erityisesti kuratoitu joka auttaa sinua hankkimaan asiantuntemusta koneoppimisalgoritmeista, kuten K-Means Clustering, Decision Trees, Random Forest, Naive Bayes. Opit myös tilastojen, aikasarjojen, tekstinlouhinnan ja syvällisen oppimisen käsitteet. Uudet erät tälle kurssille alkavat pian !!

Onko sinulla kysymys meille Data Science Tutorialissa? Mainitse se kommenttiosassa ja palaamme sinuun.