Klusterianalyysi - mikä se on, määritelmä ja käsite
Klusterianalyysi on joukko monimuuttujaisia tilastotekniikoita, joiden tarkoituksena on ryhmittää joukko tapauksia tai yksilöitä klustereiksi tai klustereiksi.
Klusterianalyysi on siis eräänlainen tilastollinen ryhmittely. Tavoitteena on tehdä jokaisen klusterin tiedoista mahdollisimman samanlaisia kuin mahdollista ja mahdollisimman erilaiset suhteessa muihin ryhmiin. Se voidaan tehdä myös muuttujilla.
Datan muunnos klusterianalyysissä
Yksi ongelmista, joita kohtaamme tietoja ryhmitellessä, on, että tiedot ovat joskus eri mittayksiköissä. Tästä syystä on suoritettava klusteria edeltävä analyysivaihe, joka mahdollistaa klusterin muodostamisen.
Yleisin menetelmä on standardointi. Tätä käytetään tietojen muuntamiseen siten, että niillä on samanlaiset mittayksiköt. Kaksi sääntöä on otettava huomioon, binaarimuuttujia ei ole standardoitu, ja jos ne ovat kategorisia, niistä tulee binaarisia (läsnäolo / poissaolo).
Menetelmät klusterianalyysissä
Klusterianalyysin suorittamiseksi on monia menetelmiä, mutta osoitteessa Economy-Wiki.com näemme meille tyypillisen yksinkertaisuuden periaatteen kaikkein tärkeimmän kaavamaisella tavalla.
Hierarkkiset menetelmät
Ensimmäinen luokittelu olisi hierarkkisia tai ei-hierarkkisia menetelmiä. Entinen ryhmä yksilöitä hierarkkisiin vaiheisiin (siten heidän nimensä). Tällä tavoin vain yksi esine vaihtaa ryhmää kerrallaan, loput jäävät samaan paikkaan.
Nämä puolestaan luokitellaan:
Agglomeratiiviset menetelmät
Se koostuu yksilöiden ryhmittelemisestä joka kertaan vähemmän klusteriin. Se alkaa tapausten lukumäärää vastaavasta ryhmästä ja vähenee.
Tunnetuimmat ovat:
- Lähin naapuri menetelmä: Tässä tapauksessa tietojen ryhmittelemiseen käytetään algoritmia. Etsitkö vähimmäisetäisyyttä lähimpien yksilöiden välillä. Se on erittäin herkkä tiedoille, jotka voivat aiheuttaa ns. "Melua". Kaukin naapurimenetelmä on samanlainen.
- Keskimääräinen menetelmä ryhmien välillä: Se laskee ryhmän yksilöiden ja erityisesti yhden heistä välisen etäisyyden keskiarvon. On erittäin hyödyllistä vähentää ns. "Melua".
- Wardin menetelmä: Se lisää lisäämällä kunkin yksilön ja hänen klusterin keskiarvojen välisten poikkeamien neliöt tietojen menetyksen välttämiseksi. Se on yksi tunnetuimmista, ja sillä on menetelmän edut, jotka perustuvat keskimääräiseen, mutta suurempaan syrjivyyteen.
Dissosiaatiomenetelmät
Tässä tapauksessa se, mitä teet, on jakaminen. Se alkaa yhdellä klusterilla, ja jakoa ehdotetaan useiden vaatimusten perusteella.
Yleisimmät ovat:
- Ryhmän keskiarvon, lähimmän naapurin ja kauimpana olevan naapurin menetelmä: Nämä kolme menetelmää ovat samanlaisia kuin edellinen tapaus, mutta käyttävät dissosiatiivista menetelmää. Eli tällä kertaa se, mitä teemme, on erillinen eikä ryhmittyminen.
- Centroid-menetelmä: Sitä käytetään laajalti laitoksen sijainnin optimointiin liittyvissä ongelmissa. Käytä tämän tyyppistä analyysiä löytääksesi sopivimmat.
Ei-hierarkkiset menetelmät
Tässä tapauksessa ne alkavat esiasetetulla ratkaisulla. Tämä on klusterianalyysin lähtökohta. Tällä tavalla ryhmät perustetaan etukäteen ja kukin tapaus sijoitetaan yhteen niistä riippuen sen ominaisuuksista. Voimme puolestaan jakaa ne muihin alaryhmiin.
- Uudelleenmääritysmenetelmät: Merkityksellisimmät ovat sentroidimenetelmät, kuten k-keskiarvot. Medioidien, kuten PAM. Tai dynaamisten pilvien.
- Suorat menetelmät: Tärkein on lohkoryhmä, jota käytetään laajasti tiedonlouhinnassa.
- Pelkistävät menetelmät: Nämä perustuvat tekijäanalyysiin.
- Tiheyden hakumenetelmät: Toisaalta olisi tyypillisiä lähestymistapoja, kuten modaalinen analyysi. Toisaalta meillä on todennäköisyyksiä, kuten Wolf.
Esimerkkejä klusterianalyysistä
Katsotaan lopuksi joitain esimerkkejä klusterianalyysisovelluksista.
- Kuvitellaan, että meillä on joukko maita, jotka haluamme ryhmitellä tiettyjen makrotaloudellisten muuttujien, kuten inflaation tai työttömyyden, perusteella. Voimme käyttää tämän tyyppistä analyysia homogeenisten ryhmien tekemiseen esimerkiksi enemmän tai vähemmän kehittyneisiin maihin.
- Toinen esimerkki voisi olla joukko kuluttajia, joilla on tiettyjä sociodemografisia piirteitä. Ajatuksena on luoda ryhmiä, joilla on samanlaisia yksilöitä ja jotka puolestaan ovat hyvin erilaisia toisistaan.
- Taloustieteen lisäksi klusterianalyysi on hyödyllinen muissa tieteissä. Esimerkiksi biologiassa lajien luokittelemiseksi tai geologiassa tehdä sama mineraalien kanssa.