Den lineære sannsynlighetsmodellen er en binær valgmodell. I dette er den betingede forventningen til den avhengige variabelen en lineær funksjon, det vil si at forholdet mellom den avhengige variabelen og den eller de forklarende variablene er konstant.
For å se det på en annen måte er den lineære sannsynlighetsmodellen en modell der vi har en avhengig variabel og en uavhengig variabel (er) multiplisert med en permanent koeffisient (er).
Vi må påpeke at den lineære sannsynlighetsmodellen er en binær valgmodell, det vil si der den avhengige variabelen kan ta to verdier. Disse verdiene er henholdsvis 1 eller 0, for å indikere suksess eller fiasko.
Den lineære sannsynlighetsmodellen uttrykkes som følger:
E (Y | X = x) = Pr (Y = 1 | X = x) = p (x) = β0 + β1x
I den viste ligningen tolkes den betingede forventningen til Y gitt X som lik β0 + β1x.
I dette tilfellet tar vi den betingede forventningen, siden vi er interessert i å vite sannsynligheten for at et individ tar en beslutning gitt for eksempel deres egenskaper (eller en annen uavhengig variabel kan tas som referanse).
Ulemper med den lineære sannsynlighetsmodellen
Noen ulemper med den lineære sannsynlighetsmodellen er som følger:
- Den lineære sannsynlighetsmodellen kan vise heteroskedastisitet. Nemlig avviket til feilene er ikke det samme i alle observasjonene som er gjort. I så fall brukes standardfeil.
- Det kan ikke antas at feilene er normalt fordelt.
- Den avhengige variabelen kan ta bare to verdier.
- Det antas at de uavhengige og avhengige variablene har et lineært forhold, det vil si at endringshastigheten alltid er den samme. Imidlertid kan det være mer nøyaktig å bygge en modell der endringshastigheten øker når Y når en høyere verdi, og det motsatte skjer når Y synker.
Gitt disse ulempene, er det logit- og probit-modellene.
Eksempel på en lineær sannsynlighetsmodell
En lineær sannsynlighetsmodell kan konstrueres, for eksempel der den avhengige variabelen er om personen for øyeblikket har en formell jobb som de har hatt i et år eller lenger. De uavhengige variablene kan være nivået på studier eller utdanningsnivå, kjønn og alder.
I det viste eksemplet vil den avhengige variabelen være 1 eller 0, men den må tolkes kvalitativt, uavhengig av dens numeriske verdi. Dermed betyr 1 at personen har en formell jobb som har blitt opprettholdt i mer enn 1 år, og 0 vil være situasjonen der dette ikke skjer.