Et konfidensintervall er en estimeringsteknikk som brukes i statistisk slutning som gjør det mulig å begrense et par eller flere verdipar, innenfor hvilket det ønskede punktestimatet vil bli funnet (med en viss sannsynlighet).
Et konfidensintervall vil tillate oss å beregne to verdier rundt et gjennomsnitt av en prøve (en øvre og en nedre). Disse verdiene vil begrense et område der populasjonsparameteren vil være lokalisert med en viss sannsynlighet.
Konfidensintervall = gjennomsnitt + - feilmargin
Å vite den sanne befolkningen, generelt, er noe veldig komplisert. Tenk på en befolkning på 4 millioner mennesker. Kunne vi vite det gjennomsnittlige forbruksutgif.webpten per husstand i denne befolkningen? I prinsippet ja. Vi må rett og slett kartlegge alle husholdninger og beregne gjennomsnittet. Imidlertid ville det være ekstremt arbeidskrevende å følge denne prosessen og gjøre studien ganske komplisert.
I situasjoner som dette er det mer mulig å velge et statistisk utvalg. For eksempel 500 personer. Og på nevnte prøve, beregne gjennomsnittet. Selv om vi fremdeles ikke vet den virkelige populasjonsverdien, kan vi anta at den vil være nær prøveverdien. For det betyr at vi legger til feilmarginen, og vi har en konfidensintervallverdi. På den annen side trekker vi feilmarginen fra gjennomsnittet, og vi vil ha en annen verdi. Mellom disse to verdiene vil befolkningens gjennomsnitt være.
Konklusjonen er at konfidensintervallet ikke tjener til å gi et poengestimat av populasjonsparameteren, hvis det skal hjelpe oss med å få en omtrentlig ide om hvilken som kan være den sanne. Det tillater oss å begrense mellom to verdier der befolkningens gjennomsnitt vil bli funnet.
variasjonskoeffisientKumulativ frekvensFaktorer som et konfidensintervall avhenger av
Beregningen av et konfidensintervall avhenger hovedsakelig av følgende faktorer:
- Valgt prøvestørrelse: Avhengig av datamengden som er brukt til å beregne prøveverdien, vil den være mer eller mindre nær den sanne populasjonsparameteren.
- Selvtillitsnivå: Det vil informere oss i hvor stor prosentandel av tilfellene vårt estimat er riktig. De vanlige nivåene er 95% og 99%.
- Feilmargin for vårt estimat: Dette kalles alfa og informerer oss om sannsynligheten for at populasjonsverdien er utenfor vårt område.
- Anslått i utvalget (gjennomsnitt, varians, forskjell på gjennomsnitt …): Pivotstatistikken for beregning av intervallet vil avhenge av dette.
Eksempel på konfidensintervall for gjennomsnittet, forutsatt normalitet og kjent standardavvik
Pivotstatistikken som ble brukt til beregningen, ville være følgende:
Det resulterende intervallet vil være følgende:
Vi ser hvordan vi i intervallet til venstre og høyre for ulikheten har henholdsvis nedre og øvre grense. Derfor forteller uttrykket oss at sannsynligheten for at populasjonens gjennomsnitt ligger mellom disse verdiene er 1-alfa (konfidensnivå).
La oss se bedre på ovenstående med en øvelse løst som et eksempel.
Du vil estimere gjennomsnittlig tid en løper tar for å fullføre et maratonløp. For dette har 10 maratonløp blitt tidsbestemt, og et gjennomsnitt på 4 timer med et standardavvik på 33 minutter (0,55 timer) er oppnådd. Du vil oppnå et 95% konfidensintervall.
For å oppnå intervallet må vi bare erstatte dataene i intervallformelen.
Konfidensintervallet ville være den delen av fordelingen som er skyggelagt i blått. De to verdiene avgrenset av dette vil være de som tilsvarer de to røde linjene. Den sentrale linjen som deler fordelingen i 2, ville være den sanne befolkningsverdien.
Det er viktig å merke seg at i dette tilfellet, gitt at tetthetsfunksjonen til fordelingen N (0,1) gir oss den kumulative sannsynligheten (fra venstre til den kritiske verdien), må vi finne verdien som gir oss 0,975 på venstre% (dette er 1,96).