Tässä blogissa ymmärrät, mikä on K-klusteri ja miten se voidaan toteuttaa Yhdysvaltojen eri osavaltioissa kerättyihin rikollisiin tietoihin. Tiedot sisältävät rikoksia, kuten: pahoinpitely, murha ja raiskaus pidätyksissä 100 000 asukasta kohden kussakin USA: n 50 osavaltiossa vuonna 1973. Tietojen analysoinnin lisäksi opit myös:
- Optimaalisen klustereiden määrän löytäminen.
- Minimoi vääristymät
- Kyynärkäyrän luominen ja analysointi.
- K-tarkoittaa algoritmin mekanismin ymmärtäminen.
Aloitetaan analyysistä. Tiedot näyttävät:
Napsauta kuvaa ladataksesi tämän tietojoukon
Tarvitsetko tätä tietoaineistoa? Napsauta yllä olevaa kuvaa ladataksesi sen.
Valmistellaan ensin tiedot analyysia varten. Tätä varten meidän tulisi poistaa kaikki tiedoissa mahdollisesti olevat NA-arvot ja muuntaa tiedot matriisiksi.
> rikos0 rikollinen str (rikos) numero [1:50, 1: 4] 13,2 10 8,1 8,8 9 7,9 3,3 5,9 15,4 17,4 ... - attr (*, 'dimnames') = Luettelo 2 .. : 50] 'Alabama' 'Alaska' 'Arizona' 'Arkansas' '... .. $: chr [1: 4]' Murha 'Assault' 'UrbanPop' 'raiskaus' '
Otetaan klustereiden lukumäärä 5. Kmeans () -funktio ottaa syötetiedot ja klustereiden lukumäärän, joihin data on tarkoitus ryhmitellä. Syntaksi on: kmeans (data, k), jossa k on klusterikeskusten lukumäärä.
> cl luokka (cl) [1] 'kmeans'
Klusterin analysointi:
> str (cl) Luettelo 9 $ -ryhmästä: Nimetty int [1:50] 5 3 3 5 3 5 4 5 3 5 ... ..- attr (*, 'nimet') = chr [1:50] ' Alabama '' Alaska '' Arizona '' Arkansas '... $ keskukset: num [1: 5, 1: 4] 2,95 6,11 12,14 5,59 11,3 ... ..- attr (*,' dimnames ') = Luettelo 2 .. .. $: chr [1: 5] '1' '2' '3' '4' ... .. .. $: chr [1: 4] 'Murha' 'Hyökkäys' 'UrbanPop' 'raiskaus '$ totss: num 355808 $ withinss: num [1: 5] 4548 2286 16272 1480 3653 $ yhteensä. sisällä: num 28240 $ välillä: num 327568 $ koko: int [1: 5] 10 9 14 10 7 $ iter: int 3 $ ifault: int 0 - attr (*, 'luokka') = chr 'kmeans'
Funktio str () antaa kmeanien rakenteen, joka sisältää erilaisia parametreja, kuten withinss, betweenss jne., Analysoimalla, jonka avulla voit selvittää kmeanin suorituskyvyn.
Betweenss: Neliöiden summan eli intracluster-samankaltaisuuden välillä
withinss: Neliön summan sisällä eli Intercluster-samankaltaisuus
totwithinss: Kaikkien klustereiden kaikkien sidosten summa eli klusterin sisäinen samankaltaisuus
Hyvällä klusteroinnilla on pienempi withinss-arvo ja suurempi betweenss-arvo, joka riippuu alun perin valittujen k-ryhmien lukumäärästä. Katsotaanpa, kuinka voimme löytää k: n optimaalisen arvon.
K: n optimaalisen arvon löytäminen
Optimaalinen ”k” -arvo on arvo, joka antaa meille yhdistetyn joukon klustereita mahdollisimman pienellä vääristymällä. Suuremmat vääristymät, pahemmat ovat muodostuneet klusterit.
Vääristymä:
Vääristymä voidaan laskea jokaisen klusterin 'withinss' -arvona. Pienempi tietyn klusterin ”withinss” -arvon arvo, tiheämmin asuttu se on, mikä vääristää mahdollisimman vähän.
kmeans.wss.k<- function(crime, k){ km = kmeans(crime, k) return (km$tot.withinss) }
Tämä toiminto vie k: n tiedot ja arvon ja palauttaa sille km $ totwithinss. ’Km $ totwithinss’ on klusterin sisäinen neliöiden summa, joka sisältää kaikkien luotujen viiden klusterin sis.summa (withinss)
. Mitä korkeampi ”km $ totwithinss” -arvo, sitä suurempi on vääristymä.
Kun k = 5, withinss on 24417,02
> kmeans.wss.k (rikollisuus, 5) [1] 24417.02
Lisätään k: n arvoa 5: stä 10: een ja havaitaan ero.
> kmeans.wss.k (rikos, 10) [1] 11083.04
Voidaan nähdä, että kun K: n arvo kasvaa, vääristymä pienenee.
Voimme ottaa pois ”km $ totwithinss” -arvot ja piirtää ne kaavioon löytääksesi vääristymän ja k-arvon välisen suhteen. Seuraava toiminto tekee sen meille:
> kmeans.dis maxk = 10> dis = kmeans.dis (rikos, maxk)> juoni (1: maxk, dis, type = 'b', xlab = 'Klustereiden lukumäärä', + ylab = 'Vääristymä', + kol = 'sininen')
Ta Da !!! Siten meillä on kuuluisa kyynärkäyrä kanssamme.
Kyynärpääkäyrä:
Tämä on juoni k: n, klustereiden lukumäärän ja totwithinsien (tai vääristymien) välillä k: n jokaiselle arvolle. Näet, kun klustereita on vähemmän, vääristymät vähenevät asteittain, mutta kun k-arvoa kasvatetaan jatkuvasti, vääristymien arvojen pienentymisnopeus muuttuu vakiona.
kirjoittamalla tulkin java
Tämä k: n arvo, jonka yli vääristymisnopeus muuttuu vakiona, on optimaalinen arvo. Tässä k = 4.
Sovelletaan animaatiota ymmärtämään, kuinka R antoi meille klustereita.
> kirjasto (animaatio)> cl<- kmeans.ani(crime, 4)
Kmeans klusterointialgoritmi:
Ymmärretään algoritmi, jolla k-tarkoittaa klusterointia:
Vaihe 1. Jos k = 4, valitsemme 4 satunnaispistettä ja oletamme niiden olevan klusterikeskuksia luotaville klustereille.
Vaihe # 2. Otamme avaruudesta satunnaisen datapisteen ja selvitämme sen etäisyyden kaikista 4 klusterikeskuksesta. Jos datapiste on lähinnä vihreää klusterikeskusta, se on väriltään vihreä ja samalla tavalla kaikki pisteet luokitellaan neljän klusterin joukkoon.
Vaihe # 3. Lasketaan nyt kaikkien vihreiden pisteiden sentroidi ja määritetään piste kyseisen klusterin klusterikeskukseksi.
Vastaavasti laskemme kaikkien neljän värillisen (klusteroidun) pisteen keskiosat ja määritämme uudet keskiosat klusterikeskuksiksi.
Vaihe # 4. Vaiheet 2 ja 3 suoritetaan iteratiivisesti, paitsi jos klusterikeskukset yhtyvät yhteen kohtaan eivätkä enää liiku.
Siten pääsemme yhdentyneisiin klusterikeskuksiin.
Voidaan nähdä, että data on jaettu 4 klusteriin. Klusterikeskukset ovat:
> cl $ -keskukset Murder Assault UrbanPop Rape Texas 4.740741 104.8519 62.96296 16.10 Louisiana 10.907143 219.9286 71.71429 25.95 South Carolina 13.375000 284.5000 46.25000 25.05 New Mexico 11.040000 298.0000 77.60000 32.68
Cluster-4: ssä, jossa ”New Mexico” on klusterikeskuksena, on myös valtava rikollisuusaste ja väkirikkain väestö.
Cluster-3 ja Cluster-2 seuraavat.
Jokaiselle valtiolle on osoitettu klusteri sen mukaan, mistä voimme nyt ennustaa sen rikollisuuden sijoituksen. Tuotos näyttää:
miten kloonata objekti Java
Onko sinulla kysymys meille? Mainitse se kommenttiosassa ja palaamme sinuun.
Aiheeseen liittyvät julkaisut: