Oppdag avvikere ved hjelp av normalfordelingen

Innholdsfortegnelse:

Oppdag avvikere ved hjelp av normalfordelingen
Oppdag avvikere ved hjelp av normalfordelingen
Anonim

Å oppdage avvikere gjennom normalfordelingen er en prosess som innebærer å definere en standardavviksterskel og som det er ment å finne ekstreme verdier av et utvalg.

Med andre ord, å oppdage avvikere gjennom normalfordelingen er å finne ekstreme verdier for et datasett gjennom den standardiserte normalformelen.

  • Verdiene ekstremer er kalt avvikere på engelsk.
  • Verdiene innvendig er kalt innsidere på engelsk.

Visuelt oppdage avvik kan være et alternativ når du har veldig lite data. Når du arbeider med databaser, er det veldig upraktisk å måtte finne avvikere manuelt. For å løse dette problemet kan vi beregne hvilke verdier som anses ekstreme ved å sammenligne med en terskel for avvik.

For normalfordeling anses en verdi å være ekstrem når den er 3 standardavvik fra gjennomsnittet. Siden normalfordelingen har 2 haler, må vi ta i betraktning at den kan zoomes ut på både den negative og den positive siden.

Formel for å oppdage avvikere ved bruk av normalfordelingen

Et sett med observasjoner kan uttrykkes på forrige måte, hvor x er middelverdien som verdiene svinger over og sigma spredningen av svingningen av nevnte verdier. Med andre ord er sigma avstanden til observasjonene fra gjennomsnittsverdien.

Multiplikasjonsfaktoren avgjør om det er en outlier eller en insider. Hvis z tar verdiene 3 eller -3, vil observasjonen y i henhold til normalfordelingen være en outlier.

Å vite verdien av z vi bruker den forrige ligningen:

  • Hvis z> = 3 eller z = <-3, kan vi, i henhold til normalfordelingen, si det Y det er en ekstrem verdi eller outlier.
  • Hvis z <3 eller z <-3, så kan vi si det i henhold til normalfordelingen Y er en intern verdi eller innside.

Normal standard

Er ligningen ovenfor kjent?

Akkurat det er uttrykket for en observasjon som følger en normalfordeling når den er standardisert eller typifisert. Det kalles dette slik at når man deler på standard- eller standardavviket, blir forskjellen på teller uttrykt i form av avvik.

Av denne grunn kan vi knytte avviksverdier til z og dermed være i stand til å kjøpe den med terskelen på 3 avvik.

Eksempel

Finn ekstreme verdier for følgende observasjoner i henhold til normalfordelingen:

Vi representerer observasjonene på en graf:

Fra begynnelsen kan vi allerede se at verdien som er lengst fra resten, mest sannsynlig kan være en outlier.

Først beregner vi gjennomsnittet og standardavviket:

x = gjennomsnitt = 5,8

sigma = standardavvik = 10,51

Deretter erstatter vi verdiene i formelen og beregner verdien av z for hver observasjon:

Ovennevnte verdier er multiplikasjonsfaktorene for sigma, det vil si z. Alt som er større enn 3 eller mindre enn -3 vil være en ekstrem verdi.

Vi kan se at verdien av z som overstiger 3 standardavvik er den som tilsvarer observasjon 49.

Derfor vil datasettets ekstreme eller avvikende verdi være 49.