Normalfordelingen er en teoretisk modell som er i stand til på tilfredsstillende måte å tilnærme verdien av en tilfeldig variabel til en ideell situasjon.
Med andre ord, normalfordelingen passer en tilfeldig variabel til en funksjon som avhenger av gjennomsnittet og standardavviket. Det vil si at funksjonen og den tilfeldige variabelen vil ha samme representasjon, men med små forskjeller.
En kontinuerlig tilfeldig variabel kan ta et hvilket som helst reelt tall. For eksempel er aksjeavkastning, testresultater, IQ og standardfeil kontinuerlige tilfeldige variabler.
En diskret tilfeldig variabel tar naturlige verdier. For eksempel antall studenter på et universitet.
Normalfordelingen er grunnlaget for andre distribusjoner som Studentens t-fordeling, chi-kvadratfordeling, Fishers F-distribusjon og andre distribusjoner.
Formel for normalfordeling
Gitt en tilfeldig variabel X, sier vi at frekvensen av observasjonene kan tilnærmes tilfredsstillende til en normalfordeling slik at:
Hvor parametrene for fordelingen er middelverdien eller den sentrale verdien og standardavviket:
Med andre ord sier vi at frekvensen til en tilfeldig variabel X kan representeres av en normalfordeling.
Representasjon
Sannsynlighetstetthetsfunksjon for en tilfeldig variabel som følger en normalfordeling.
Eiendommer
- Det er en symmetrisk fordeling. Verdien av gjennomsnittet, medianen og modusen faller sammen. Matematisk,
Gjennomsnitt = Median = Mode
- Unimodal distribusjon. Verdiene som er hyppigere eller som er mer sannsynlige å vises, er rundt gjennomsnittet. Med andre ord, når vi beveger oss bort fra gjennomsnittet, reduseres sannsynligheten for at verdiene vises og frekvensen deres.
Hva trenger vi for å representere en normalfordeling?
- En tilfeldig variabel.
- Beregn gjennomsnittet.
- Beregn standardavviket.
- Bestem funksjonen vi vil representere: sannsynlighetstetthetsfunksjon eller distribusjonsfunksjon.
Teoretisk eksempel
Vi antar at vi vil vite om resultatene av en test kan tilfredsstille en normalfordeling.
Vi vet at 476 studenter deltar i denne testen, og at resultatene kan variere fra 0 til 10. Vi beregner gjennomsnitt og standardavvik fra observasjonene (testresultater).
Så vi definerer den tilfeldige variabelen X som testresultatene som avhenger av hvert enkelt utfall. Matematisk,
Hver elevs poengsum blir registrert i en tabell. På denne måten vil vi få en global visjon om resultatene og deres frekvens.
Resultater | Frekvens |
0 | 20 |
1 | 31 |
2 | 44 |
3 | 56 |
4 | 64 |
5 | 66 |
6 | 62 |
7 | 51 |
8 | 39 |
9 | 26 |
10 | 16 |
TOTAL | 476 |
Når tabellen er laget, representerer vi resultatene av undersøkelsen og frekvensene. Hvis grafen ser ut som forrige bilde og oppfyller egenskapene, kan testresultatvariabelen tilnærmes tilfredsstillende til en normalfordeling på gjennomsnittlig 4,8 og standardavvik på 3,09.
Kan testresultatene tilnærme en normalfordeling?
Årsaker til å vurdere at testresultatvariabelen følger en normalfordeling:
- Symmetrisk fordeling. Det vil si at det er like mange observasjoner både til høyre og til venstre for den sentrale verdien. Også at gjennomsnitt, median og modus har samme verdi.
Gjennomsnitt = Median = Mode = 5
- Observasjonene med mest frekvens eller sannsynlighet er rundt den sentrale verdien. Observasjonene med mindre frekvens eller sannsynlighet er med andre ord langt fra den sentrale verdien.
Normalfordelingen beskriver den tilfeldige variabelen ved en tilnærming som gir standardfeil (stolpene over hver kolonne). Disse feilene er forskjellen mellom de faktiske observasjonene (resultatene) og tetthetsfunksjonen (normalfordeling).