Outlier - mikä se on, määritelmä ja käsite

Poikkeama on epänormaali ja äärimmäinen havainto tilastollisessa otoksessa tai datasarjassa, joka voi vaikuttaa sen parametrien arviointiin.

Yksinkertaisemmin sanoen, poikkeama olisi havainnointi näytteessä tai tietosarjassa, joka ei ole yhdenmukaista muun kanssa. Kuvittele esimerkiksi, että mittaamme oppilaiden pituutta luokassa.

Kuvitellaan esimerkki 10 opiskelijasta. Jokaisen korkeus on seuraava:

Näyte 1
OpiskelijaKorkeus metreinä
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Luokan keskimääräinen korkeus olisi 1,73. Jos otetaan huomioon enimmäiskorkeus (1,85) ja vähimmäiskorkeus (1,62) sekä niiden välinen etäisyys keskiarvoon, näemme, että se on vastaavasti 0,113 ja 0,117. Kuten näemme, keskiarvo on suunnilleen välin keskellä ja sitä voidaan pitää melko hyvänä estimaattina.

Poikkeava vaikutus

Mietitään nyt toista 10 opiskelijan otosta, joiden korkeus on seuraava:

Näyte 1
OpiskelijaKorkeus metreinä
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

Tällöin luokan keskimääräinen korkeus olisi 1,81. Jos tarkastelemme nyt enimmäiskorkeutta (2,20) ja vähimmäiskorkeutta (1,62) ja niiden välistä etäisyyttä keskiarvoon, näemme, että se on vastaavasti 0,39 ja 0,18. Tässä tapauksessa keskiarvo ei ole enää suunnilleen alueen keskellä.

Kahden äärimmäisen havainnon (2.18 ja 2.20) vaikutus on aiheuttanut aritmeettisen keskiarvon siirtymisen kohti jakauman maksimiarvoa.

Tässä esimerkissä näemme poikkeamien vaikutuksen ja miten ne voivat vääristää keskiarvon laskemista.

Kuinka tunnistaa poikkeavuudet?

Kuinka korjata poikkeamien vaikutus

Tällaisissa tilanteissa, joissa on epänormaalia arvoja, jotka poikkeavat olennaisesti muista, mediaani on parempi arvio tietää, missä vaiheessa suurempi määrä havaintoja keskittyy.

Molempien jakaumien tapauksessa ja koska meillä on parillinen määrä arvoja, emme voi ottaa tarkalleen arvoa, joka puolittaa jakauman, mediaanin laskemiseksi. Millä perusteella järjestyksessä arvot pienimmistä korkeimpiin, ottaisimme viidennen ja kuudennen havainnon (molemmat jättävät 4 havaintoa kummallekin puolelle) ja laskisimme mediaanin seuraavasti:

Näyte 1:

1,75+1,72/2 = 1,73

Näyte 2:

1,79+1,71/2 = 1,75

Kuten näemme, näytteessä numero 1, koska poikkeamia tai poikkeavia havaintoja ei ole, mediaani on 1,73 ja sama kuin keskiarvo. Päinvastoin, näytteen 2 keskiarvo on 1,75. Kuten voimme nähdä, tämä arvo on kauempana keskimääräisestä korkeudesta, joka oli 1,81, ja antaa meille korkeamman laatupistearvion, jotta voimme tietää, missä vaiheessa suurempi määrä havaintoja keskittyy.

Pistearvio