Bestemmelseskoeffisient (R i kvadrat)

Bestemmelseskoeffisienten er andelen av den totale variansen til variabelen forklart av regresjonen. Bestemmelseskoeffisienten, også kalt R kvadrat, gjenspeiler en modells godhet til den variabelen den har til hensikt å forklare.

Det er viktig å vite at resultatet av bestemmelseskoeffisienten svinger mellom 0 og 1. Jo nærmere verdien er 1, desto større passer modellens variabel som vi prøver å forklare. Motsatt, jo nærmere null, jo mindre stram vil modellen være, og jo mindre pålitelig vil den være.

I det forrige uttrykket har vi en brøkdel. Så, la oss gå gjennom deler. Først skal vi analysere telleren, det vil si den øverste delen.

For de som ikke kjenner til variansuttrykk, anbefaler jeg at du leser artikkelen om det. For de som kjenner det, kan de innse at det er uttrykket for avviket, men med to grunnleggende forskjeller.

Den første forskjellen er at Y har en omkrets eller det lærere kaller didaktisk en "hatt". Det som hatten beskriver, er at Y er estimatet for en modell av hva ifølge de forklarende variablene er verdt Y, men det er ikke den virkelige verdien av Y, men et estimat av Y.

For det andre ville det være nødvendig å dele med T. Som i andre tilfeller er notert som N eller antall observasjoner. Men siden nevnerformelen også bærer den, fjerner vi nevnerne (nederst) fra begge formlene for å forenkle uttrykket. På denne måten er det lettere å jobbe med det.

Deretter skal vi utføre den samme analysen med nevnerdelen (nederste del).

I dette tilfellet er den eneste forskjellen fra den opprinnelige variansformelen fraværet av nevneren. Det vil si at vi ikke deler med T eller N. På denne måten, når de to delene av det generiske uttrykket for R-kvadratet eller bestemmelseskoeffisienten er blitt forklart, skal vi se et eksempel.

VariasjonskoeffisientLineær korrelasjonskoeffisientRegresjonsanalyse

Tolkning av bestemmelseskoeffisienten

Anta at vi ønsker å forklare antall mål Cristiano Ronaldo scorer basert på antall kamper han spiller. Vi antar at jo flere kamper spilt, jo flere mål scorer han. Dataene gjelder de siste 8 sesongene. Dermed, etter å ha hentet ut dataene, gir modellen følgende estimat:

Som vi kan se av grafen, er forholdet positivt. Jo flere kamper som spilles, jo flere mål scorer han i sesongen. Passformen, basert på R-kvadrat-beregningen, er 0,835. Dette betyr at det er en modell med estimater som passer den virkelige variabelen ganske bra. Selv om det teknisk sett ikke ville være riktig, kunne vi si noe sånt som at modellen forklarer 83,5% av den reelle variabelen.

Koeffisienten til bestemmelsesproblemet

Problemet med bestemmelseskoeffisienten, og grunnen til at den justerte bestemmelseskoeffisienten oppstår, er at den ikke straffer inkluderingen av ikke-signifikante forklaringsvariabler. Det vil si at hvis det legges til fem forklaringsvariabler i modellen som ikke har noe forhold til målene som Cristiano Ronaldo scorer i løpet av en sesong, vil R-kvadratet øke. Det er derfor mange økonometriske, statistikere og matematiske eksperter motsetter seg bruken av R i kvadrat som et representativt mål på godheten til den virkelige passformen.

Den justerte bestemmelseskoeffisienten

Den justerte bestemmelseskoeffisienten (justert R i kvadrat) er målet som definerer prosentandelen forklart av variansen til regresjonen i forhold til variansen til den forklarte variabelen. Det vil si det samme som R kvadrat, men med en forskjell: Den justerte bestemmelseskoeffisienten straffer inkluderingen av variabler.

Som vi har sagt tidligere, øker bestemmelseskoeffisienten til en modell selv om variablene vi inkluderer ikke er relevante. Siden dette er et problem, for å prøve å løse det, er den justerte R kvadrert slik:

I formelen er N utvalgsstørrelsen og k er antallet forklarende variabler. Ved matematisk deduksjon, jo høyere verdier av k, jo lenger vil den justerte R-kvadraten være fra den normale R-kvadraten. Omvendt, ved lavere verdier av k, desto nærmere vil den sentrale brøkdelen være 1, og derfor vil den justerte R kvadrat og den normale R kvadrat være mer like.

Når vi husker at k er antall forklarende variabler, trekker vi ut at dette ikke kan være null. Hvis det var null, ville det ikke være noen modell. I det minste må vi forklare en variabel med en annen variabel. Siden k må være minst 1, kan ikke den justerte R-kvadraten og den normale R-kvadraten ha samme verdi. Videre vil den justerte R-kvadraten alltid være mindre enn den normale R-kvadraten.

Populære Innlegg

Forskjell mellom monopol og oligopol

✅ Forskjell mellom monopol og oligopol | Hva det er, mening, konsept og definisjon. Forskjellen mellom monopol og oligopol er funnet i antall medlemmer som ...…