Kolmogorov-test - Smirnoff (K-S)

Innholdsfortegnelse:

Kolmogorov-test - Smirnoff (K-S)
Kolmogorov-test - Smirnoff (K-S)
Anonim

Kolmogorov-Smirnoff (K-S) testen er en ikke-parametrisk test som tar sikte på å bestemme om frekvensen til to forskjellige datasett følger den samme fordelingen rundt gjennomsnittet.

Kolmogorov-Smirnoff (K-S) testen er med andre ord en test som tilpasser seg formen på dataene og brukes til å sjekke om to forskjellige prøver følger den samme fordelingen.

Hvorfor er det en ikke-parametrisk test?

Det fine med den "ikke-parametriske" karakteristikken er at den passer til dataene og følgelig distribusjonene som kan følge frekvensen av dataene. I tillegg sparer denne funksjonen oss fra å måtte anta a priori hvilken fordeling følger prøven.

Viktigheten av K-S-testen

Hvor mange ganger har vi fått to prøver og beregnet Pearsons korrelasjonskoeffisient uten å tenke to ganger? Med andre ord, hvis vi vil se det lineære forholdet mellom to datasett, ville det være greit å beregne korrelasjonen, ikke sant?

Dette fradraget vil være sant hvis fordelingen av de to prøvene følger en normalfordeling. Korrelasjonskoeffisienten antar at fordelingen er normal, hvis vi hopper over denne antagelsen, er resultatet av korrelasjonskoeffisienten feil. For hypotesetestene og konfidensintervallene antar vi også at populasjonen fordeles gjennom en normalfordeling.

Som alle hypotesetester som involverer statistikk, er det viktig å ha et stort datamengde for å ha statistisk signifikante resultater. Vi kan feilaktig avvise en nullhypotese fordi prøven er liten. Videre er det også viktig at dette eksemplet har noen ekstreme tilfeller (avvikere, på engelsk) for å gi konsistens til testresultatet.

Test prosedyre

Fremgangsmåten for de neste trinnene.

Hypotese

Det første trinnet vil være å sjekke om begge prøvene har samme fordeling. For å gjøre dette utfører vi en hypotesetest forutsatt at begge prøvene har samme fordeling mot den alternative hypotesen om at de er forskjellige.

Statistisk

Vi jobber med de kumulative fordelingsfunksjonene til to prøver, F1(x) og F2(x):

Ikke få panikk! Vi analyserer formelen ovenfor rolig:

  • Den viktige delen av formelen er forskjellstegn (-). Vi ser etter vertikale forskjeller i distribusjonene. Så vi trekker begge kumulative fordelingsfunksjonene.
  • De operatør "maks". Vi er interessert i å finne den største eller maksimale forskjellen for å se hvor forskjellige de to distribusjonene kan være.
  • De absolutt verdi. Vi bruker den absolutte verdien slik at rekkefølgen til operatørene ikke endrer resultatet. Med andre ord spiller det ingen rolle hvilken F (x) som har negativt tegn:

Kritisk verdi

For store prøver er det en tilnærming til den kritiske verdien for KS som avhenger av signifikansnivået (%):

Hvor1 og n2 er prøvestørrelsen for F-prøven1(x) og F2(x) henholdsvis.

Noen beregnede kritiske verdier:

Avvisningsregel

App

Svært ofte ønsker vi å teste om to distribusjoner er tilstrekkelig forskjellige fra hverandre når vi vil bygge prediksjonsscenarier (vi jobber med to eksempler) eller når vi vil evaluere hvilken fordeling som passer best til dataene (vi jobber med bare ett utvalg).