Studentens t-fordeling eller t-fordeling er en teoretisk modell som brukes til å tilnærme første ordens øyeblikk av en normalfordelt populasjon når utvalgsstørrelsen er liten og standardavviket er ukjent.
Med andre ord er t-fordelingen en sannsynlighetsfordeling som estimerer verdien av gjennomsnittet av et lite utvalg hentet fra en populasjon som følger en normalfordeling og som vi ikke vet standardavviket for.
Anbefalte artikler: frihetsgrader, frihetsgrader (eksempel) og normalfordeling.
Studentens t-distribusjonsformel
Gitt en kontinuerlig tilfeldig variabel L, sier vi at frekvensen av dens observasjoner kan tilnærmes tilfredsstillende til en t-fordeling med g frihetsgrader slik at:
Representasjon av studentens fordeling
Tetthetsfunksjon av en t-fordeling med 3 frihetsgrader (df).
Som vi kan se, ser representasjonen av t-fordelingen mye ut som normalfordelingen bortsett fra at normalfordelingen har bredere haler og er mer støttet. Med andre ord, vi bør legge til flere frihetsgrader i t-fordelingen slik at fordelingen "vokser" og ser mer ut som normalfordelingen.
Spesialitet
Og … Hvorfor er t-distribusjonen så spesiell?
Vel, fordi i motsetning til normalfordelingen som avhenger av gjennomsnittet og variansen, avhenger t-fordelingen bare frihetsgraden, fra engelsk, grader av frihet (df). Med andre ord, ved å kontrollere gradene av frihet, styrer vi fordelingen.
Studentens søknad
Fordelingen t brukes når:
- Vi vil estimere gjennomsnittet av en normalfordelt populasjon fra et lite utvalg.
- Prøvestørrelsen er mindre enn 30 varer, det vil si n <30.
Fra 30 observasjoner ligner t-fordelingen nær normalfordelingen, så vi vil bruke normalfordelingen.
- Standardavviket til en populasjon er ikke kjent og må estimeres ut fra observasjonene av prøven.
Eksempel
Vi antar at vi har 28 observasjoner av en tilfeldig variabel G som følger en students t-fordeling med 27 frihetsgrader (df).
Matematisk,
Siden vi jobber med reelle data, vil det alltid være en tilnærmingsfeil mellom dataene og distribusjonen. Med andre ord, gjennomsnittet, medianen og modusen vil ikke alltid være null (0) eller nøyaktig den samme.
Vi representerer frekvensen av hver observasjon av variabel G ved hjelp av et histogram.
Kan den tilfeldige variabelen G tilnærme en t-fordeling?
Grunner til å vurdere at variabelen G følger en t-fordeling:
- Fordelingen er symmetrisk. Det vil si at det er like mange observasjoner både til høyre og til venstre for den sentrale verdien. Også at gjennomsnittet og medianen har en tendens til å være nær samme verdi. Gjennomsnittet er omtrent null, gjennomsnitt = 0,016.
- Observasjonene med mest frekvens eller sannsynlighet er rundt den sentrale verdien. Observasjoner med mindre frekvens eller sannsynlighet er langt fra den sentrale verdien.