Spearmans rho er et ikke-parametrisk avhengighetsmål der gjennomsnittshierarkiet for observasjonene beregnes, forskjellene er kvadrert og innlemmet i formelen.
Med andre ord tildeler vi en rangering til observasjonene til hver variabel og studerer avhengighetsforholdet mellom to gitte variabler.
Klassifiserte korrelasjoner er et ikke-parametrisk alternativ som et mål på avhengighet mellom to variabler når vi ikke kan bruke Pearsons korrelasjonskoeffisient.
Vanligvis tildeles brevet giega rho til korrelasjonskoeffisienten.
Spearmans rho-estimat er gitt av:
Rho Spearman-prosedyre
0. Vi starter fra et utvalg av n observasjoner (AJeg, BJeg).
1. Klassifiser observasjonene til hver variabel, og juster dem for bånd.
- Vi bruker en excel-funksjon som klassifiserer observasjonene for oss og justerer dem automatisk hvis den finner bånd mellom elementene. Denne funksjonen kalles HERARCH.MEDIA (klassifisering AJeg; En klassifiseringn;rekkefølge).
- Den siste faktoren i funksjonen er valgfri og forteller oss i hvilken rekkefølge vi vil bestille observasjonene. Et nummer som ikke er null, sorterer observasjonene i stigende rekkefølge. For eksempel vil det tildele det minste elementet en rangering på 1. Hvis vi setter null i variabelen rekkefølge, vil tildele det største elementet en rangering på 1 (synkende rekkefølge).
Praktisk eksempel
- I vårt tilfelle tilordner vi ordrevariabelen et ikke-null nummer for å bestille observasjonene i stigende rekkefølge. Det vil si å tildele det minste elementet i variabelen en rangering på 1.
- Vi sjekker at summen av kolonnene til Klassifisering A Y Klassifisering B de er like hverandre og møtes:
I dette tilfellet er n = 10 fordi vi har totalt 10 elementer / observasjoner i hver variabel TIL Y B.
Den totale summen av klassifisering A er lik den totale summen av klassifisering Y, og de oppfyller også formelen ovenfor.
TIL | B | Klassifisering A | Klassifisering B | Kvadratiske forskjeller |
0 | 50 | 2,5 | 8,5 | 36 |
70 | -20 | 9 | 3 | 36 |
-20 | 30 | 1 | 6,5 | 30,25 |
40 | -90 | 6 | 1 | 25 |
30 | 0 | 5 | 4 | 1 |
50 | 30 | 7 | 6,5 | 0,25 |
20 | 20 | 4 | 5 | 1 |
0 | -40 | 2,5 | 2 | 0,25 |
80 | 70 | 10 | 10 | 0 |
60 | 50 | 8 | 8,5 | 0,25 |
Total | 55 | 55 | 130 |
2. Legg til forskjellene mellom rangeringen og kvadrat dem.
- Når vi har alle klassifiserte observasjoner med tanke på båndene mellom dem, beregner vi forskjellen i form:
dJeg = AJeg - BJeg
Vi definerer (dJeg) som forskjellen mellom klassifiseringen av AJeg og klassifiseringen av BJeg.
- Når forskjellen er oppnådd, kvadrerer vi den. Kvadratene av forskjellene brukes til å ha bare positive verdier.
Vi definerer dJeg2 som den kvadratiske forskjellen mellom klassifiseringen av AJeg og klassifiseringen av BJeg.
I kolonnen med kvadratiske forskjeller vil vi ha:
dJeg2 = (AJeg - BJeg)2
3. Beregn Spearmans rho:
- Vi beregner den totale summen av de kvadratiske forskjellene i skjemaet:
I vårt eksempel:
- Vi innlemmer resultatet i Spearmans rho-formel:
I vårt eksempel:
Sammenligning: Pearson vs Spearman
Hvis vi beregner Pearsons korrelasjonskoeffisient gitt tidligere observasjoner og sammenligner den med Spearmans korrelasjonskoeffisient, får vi:
- Pearson = 0.1109
- Spearman = 0.2121
Vi kan se at avhengigheten mellom variablene A og B forblir svak selv ved bruk av Spearman i stedet for Pearson.
Hvis avvikerne hadde stor innflytelse på resultatene, ville vi finne en stor forskjell mellom Pearson og Spearman, og derfor bør vi bruke Spearman som et mål på avhengighet.