En outlier er en unormal og ekstrem observasjon i et statistisk utvalg eller en tidsserie med data som potensielt kan påvirke estimeringen av parametrene.
Med enklere ord vil en outlier være en observasjon i et utvalg eller en tidsserie med data som ikke er i samsvar med resten. Tenk deg for eksempel at vi måler høyden på elevene i en klasse.
La oss forestille oss et utvalg på 10 studenter. Høyden på hver er som følger:
Prøve 1 | |
Student | Høyde i meter |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Gjennomsnittlig høyde på klassen ville være 1,73. Hvis vi tar høyde for maksimumshøyde (1,85) og minimumshøyde (1,62) og avstanden mellom dem til gjennomsnittet, ser vi at den er henholdsvis 0.113 og 0.117. Som vi kan se, er gjennomsnittet omtrent midt i intervallet og kan betraktes som et ganske godt estimat.
Outlier-effekten
La oss nå tenke på et annet utvalg på 10 studenter, hvor deres høyder er følgende:
Prøve 1 | |
Student | Høyde i meter |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
I dette tilfellet vil den gjennomsnittlige høyden på klassen være 1,81. Hvis vi nå ser på maksimumshøyde (2,20) og minimumshøyde (1,62) og avstanden mellom dem til gjennomsnittet, ser vi at den er henholdsvis 0,39 og 0,18. I dette tilfellet er gjennomsnittet ikke lenger omtrent midt i området.
Effekten av de to mest ekstreme observasjonene (2.18 og 2.20) har ført til at det aritmetiske gjennomsnittet har skiftet mot maksimumsverdien av fordelingen.
Med dette eksemplet ser vi effekten avvikere har og hvordan de kan fordreie beregningen av et gjennomsnitt.
Hvordan oppdage avvikere?Hvordan korrigere effekten av avvikere
I situasjoner som dette der det er unormale verdier som er vesentlig forskjellige fra resten, er medianen et bedre estimat for å vite på hvilket tidspunkt et større antall observasjoner er konsentrert.
Når det gjelder begge fordelinger, og siden vi har et jevnt antall verdier, kan vi ikke ta nøyaktig verdien som halverer fordelingen for å beregne medianen. Når vi etter å ha bestilt verdiene fra laveste til høyeste, tar vi den femte og sjette observasjonen (begge legger igjen 4 observasjoner på hver side), og vi beregner medianen som følger:
Eksempel 1:
1,75+1,72/2 = 1,73
Eksempel 2:
1,79+1,71/2 = 1,75
Som vi kan se, i utvalg nummer 1, gitt at det ikke er noen outliers eller unormale observasjoner, er medianen 1,73 og sammenfaller med gjennomsnittet. Tvert imot, for prøve 2 er gjennomsnittet 1,75. Som vi kan se, er denne verdien lenger borte fra gjennomsnittshøyden, som var 1,81 og gir oss et høyere kvalitetspoengestimat for å vite omtrent på hvilket tidspunkt et større antall observasjoner er konsentrert.
Poengestimat