Klusterianalyysi - mikä se on, määritelmä ja käsite

Klusterianalyysi on joukko monimuuttujaisia ​​tilastotekniikoita, joiden tarkoituksena on ryhmittää joukko tapauksia tai yksilöitä klustereiksi tai klustereiksi.

Klusterianalyysi on siis eräänlainen tilastollinen ryhmittely. Tavoitteena on tehdä jokaisen klusterin tiedoista mahdollisimman samanlaisia ​​kuin mahdollista ja mahdollisimman erilaiset suhteessa muihin ryhmiin. Se voidaan tehdä myös muuttujilla.

Datan muunnos klusterianalyysissä

Yksi ongelmista, joita kohtaamme tietoja ryhmitellessä, on, että tiedot ovat joskus eri mittayksiköissä. Tästä syystä on suoritettava klusteria edeltävä analyysivaihe, joka mahdollistaa klusterin muodostamisen.

Yleisin menetelmä on standardointi. Tätä käytetään tietojen muuntamiseen siten, että niillä on samanlaiset mittayksiköt. Kaksi sääntöä on otettava huomioon, binaarimuuttujia ei ole standardoitu, ja jos ne ovat kategorisia, niistä tulee binaarisia (läsnäolo / poissaolo).

Menetelmät klusterianalyysissä

Klusterianalyysin suorittamiseksi on monia menetelmiä, mutta osoitteessa Economy-Wiki.com näemme meille tyypillisen yksinkertaisuuden periaatteen kaikkein tärkeimmän kaavamaisella tavalla.

Hierarkkiset menetelmät

Ensimmäinen luokittelu olisi hierarkkisia tai ei-hierarkkisia menetelmiä. Entinen ryhmä yksilöitä hierarkkisiin vaiheisiin (siten heidän nimensä). Tällä tavoin vain yksi esine vaihtaa ryhmää kerrallaan, loput jäävät samaan paikkaan.

Nämä puolestaan ​​luokitellaan:

Agglomeratiiviset menetelmät

Se koostuu yksilöiden ryhmittelemisestä joka kertaan vähemmän klusteriin. Se alkaa tapausten lukumäärää vastaavasta ryhmästä ja vähenee.

Tunnetuimmat ovat:

  • Lähin naapuri menetelmä: Tässä tapauksessa tietojen ryhmittelemiseen käytetään algoritmia. Etsitkö vähimmäisetäisyyttä lähimpien yksilöiden välillä. Se on erittäin herkkä tiedoille, jotka voivat aiheuttaa ns. "Melua". Kaukin naapurimenetelmä on samanlainen.
  • Keskimääräinen menetelmä ryhmien välillä: Se laskee ryhmän yksilöiden ja erityisesti yhden heistä välisen etäisyyden keskiarvon. On erittäin hyödyllistä vähentää ns. "Melua".
  • Wardin menetelmä: Se lisää lisäämällä kunkin yksilön ja hänen klusterin keskiarvojen välisten poikkeamien neliöt tietojen menetyksen välttämiseksi. Se on yksi tunnetuimmista, ja sillä on menetelmän edut, jotka perustuvat keskimääräiseen, mutta suurempaan syrjivyyteen.

Dissosiaatiomenetelmät

Tässä tapauksessa se, mitä teet, on jakaminen. Se alkaa yhdellä klusterilla, ja jakoa ehdotetaan useiden vaatimusten perusteella.

Yleisimmät ovat:

  • Ryhmän keskiarvon, lähimmän naapurin ja kauimpana olevan naapurin menetelmä: Nämä kolme menetelmää ovat samanlaisia ​​kuin edellinen tapaus, mutta käyttävät dissosiatiivista menetelmää. Eli tällä kertaa se, mitä teemme, on erillinen eikä ryhmittyminen.
  • Centroid-menetelmä: Sitä käytetään laajalti laitoksen sijainnin optimointiin liittyvissä ongelmissa. Käytä tämän tyyppistä analyysiä löytääksesi sopivimmat.

Ei-hierarkkiset menetelmät

Tässä tapauksessa ne alkavat esiasetetulla ratkaisulla. Tämä on klusterianalyysin lähtökohta. Tällä tavalla ryhmät perustetaan etukäteen ja kukin tapaus sijoitetaan yhteen niistä riippuen sen ominaisuuksista. Voimme puolestaan ​​jakaa ne muihin alaryhmiin.

  • Uudelleenmääritysmenetelmät: Merkityksellisimmät ovat sentroidimenetelmät, kuten k-keskiarvot. Medioidien, kuten PAM. Tai dynaamisten pilvien.
  • Suorat menetelmät: Tärkein on lohkoryhmä, jota käytetään laajasti tiedonlouhinnassa.
  • Pelkistävät menetelmät: Nämä perustuvat tekijäanalyysiin.
  • Tiheyden hakumenetelmät: Toisaalta olisi tyypillisiä lähestymistapoja, kuten modaalinen analyysi. Toisaalta meillä on todennäköisyyksiä, kuten Wolf.

Esimerkkejä klusterianalyysistä

Katsotaan lopuksi joitain esimerkkejä klusterianalyysisovelluksista.

  • Kuvitellaan, että meillä on joukko maita, jotka haluamme ryhmitellä tiettyjen makrotaloudellisten muuttujien, kuten inflaation tai työttömyyden, perusteella. Voimme käyttää tämän tyyppistä analyysia homogeenisten ryhmien tekemiseen esimerkiksi enemmän tai vähemmän kehittyneisiin maihin.
  • Toinen esimerkki voisi olla joukko kuluttajia, joilla on tiettyjä sociodemografisia piirteitä. Ajatuksena on luoda ryhmiä, joilla on samanlaisia ​​yksilöitä ja jotka puolestaan ​​ovat hyvin erilaisia ​​toisistaan.
  • Taloustieteen lisäksi klusterianalyysi on hyödyllinen muissa tieteissä. Esimerkiksi biologiassa lajien luokittelemiseksi tai geologiassa tehdä sama mineraalien kanssa.

Suosittu Viestiä