Frihetsgraden er kombinasjonen av antall observasjoner i et datasett som varierer tilfeldig og uavhengig minus observasjonene som er betinget av disse vilkårlige verdiene.
Frihetsgraden er med andre ord antallet rent gratis observasjoner (som kan variere) når vi estimerer parametrene.
Vi skiller hovedsakelig mellom statistikk som bruker populasjon og prøveparametere for å kjenne deres frihetsgrader. Vi diskuterer forskjellene mellom gjennomsnittet og standardavviket når parametrene er populasjon eller utvalg:
Befolkning og utvalgsparametere
- Befolkningsparametere:
Siden vi ikke kjenner alle verdiene i befolkningen, vil frihetsgraden være alle elementene i befolkningen: N.
Begge statistikkene gjør at alle observasjonene i settet er tilfeldige, og derfor får vi forskjellige resultater hver gang vi estimerer statistikken. Deretter er observasjonene som har full rett til å variere alle observasjonene fra befolkningen. Med andre ord er frihetsgraden i dette tilfellet alle elementene i befolkningen: N. Derfor deler vi begge statistikkene med den totale størrelsen på befolkningen (N).
- Eksempelparametere (estimater):
I prøvene kjenner vi alle verdiene.
Vi skiller størrelsen på populasjonen (N) med størrelsen på utvalget (n).
Siden vi kjenner alle verdiene i prøvene, har vi ikke noe problem å beregne gjennomsnittet, siden det gjør at alle observasjoner i settet er tilfeldige.
Når det gjelder standardavviket, pålegger vi en frihetsgrad: alle elementene i prøven (n) og vi trekker fra oss 1 element.
Men … Hvorfor trekker vi bare 1 og ikke 5 eller 10 elementer fra prøven (n)?
Jo flere elementer vi trekker fra, betyr det at jo mer informasjon vi har om prøveparameteren, i dette tilfellet, standardavviket.
Jo mer informasjon vi har, desto mindre frihet (frihetsgrader) må prøveobservasjonene ta tilfeldige verdier. Jo flere elementer vi trekker fra prøven, jo mer begrensning vi pålegger og jo færre frihetsgrader vil prøveparameteren ha.
Eksempel
Vi antar at vi drar til Andorra for å se Ski World Cup-finaler fordi vi virkelig liker alpint. Vi tar med et kart som forteller oss hvor de forskjellige fagene ligger og navnet på noen av konkurrentene, men startnummeret til hver deltaker er ikke spesifisert. Hver gang de sier konkurrentens navn, skraper vi navnet deres. Siden listen over konkurrenter er begrenset, vil det komme et poeng at vi vil vite navnet på konkurrenten før de kunngjør den over høyttalerne.
Vi analyserer kronikken fra et matematisk synspunkt:
- Prøvestørrelse (n) fordi de bare forteller oss navnet på noen av deltakerne.
- Hver deltaker kan starte tilfeldig, rekkefølgen spiller ingen rolle og kan ikke konkurrere igjen (kombinasjoner uten repetisjoner).
- Den siste deltakeren vil være det kjente elementet (n-1). Da kan alle de andre deltakerne tilfeldig komme ut unntatt den siste, noe vi vet helt sikkert.
Les eksemplet på grader av frihet