Spearmanin korrelaatiokerroin on matematiikassa ja tilastotieteessä korrelaation mittari, joka on nimetty sen kehittäjän Charles Spearmanin mukaan. Se kirjoitetaan lyhyesti kreikkalaisella kirjaimella rho ( ρ {\displaystyle \rho } ) tai joskus muodossa r s {\displaystyle r_{s}}
. Se on lukuarvo, joka mittaa kahden muuttujan monotonisen yhteyden voimakkuutta käyttämällä arvojen järjestysnumeroita (rankeja). Spearmanin rho on epäparametrinen mittari — se ei edellytä, että muuttujat olisivat normaalijakautuneita, ja se on vähemmän herkkä poikkeaville arvoille kuin Pearsonin korrelaatiokerroin.
Perusidea ja käyttö
- Spearmanin rho mittaa, miten hyvin kahden muuttujan suhde voidaan kuvata monotonisella (aina nousevalla tai aina laskevalla) funktiolla.
- Arvot vaihtelevat välillä −1 ja +1: arvo +1 tarkoittaa täydellistä nousevaa monotonea yhteyttä, −1 täydellistä laskevaa ja 0 ei-monotonista yhteyttä.
- Sitä käytetään erityisesti, kun aineisto on järjestysasteikollista (esim. mielipidemittaukset), tai kun muuttujien välinen suhde ei ole lineaarinen tai data sisältää poikkeavia arvoja.
- Spearmanin rho voidaan laskea myös siten, että ensin muutetaan kummankin muuttujan arvot järjestysluvuiksi ja lasketaan niiden Pearsonin korrelaatio.
Kaava ja laskentatapa
Yleinen kaava r s:lle {\displaystyle r_{s}} on
ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
Tässä d on kunkin havaintoparin kahden muuttujan järjestyslukujen erotus (rank(X) − rank(Y)) ja n on havaintojen lukumäärä. Laskenta etenee tyypillisesti näin:
- Järjestä kummankin muuttujan arvot ja anna jokaista arvoa vastaava järjestysluku (1..n). Jos arvoilla on tasapisteitä, annetaan niille keskiarvorankit (katso kohta tasapisteet).
- Lasketaan kunkin havainnon järjestyslukujen erotus d ja sen neliö d².
- Summataan kaikki d² ja sijoitetaan summa kaavaan yllä.
Tasapisteet (ties)
Jos aineistossa on samanarvoisia mittauksia (tasapisteitä), niille annetaan sama rank-arvo, yleensä tasapisteiden rankkien keskiarvo. Tasapisteet vaikuttavat kaavan tarkkuuteen: jos tasapisteitä on runsaasti, tarkempi muotoilu tai korjaus on tarpeen (tai voidaan käyttää Pearsonin korrelaatiota rankatuista arvoista). Usein käytännön ohjelmistot laskevat Spearmanin rho:n suoraan huomioiden tasapisteet.
Esimerkki
Oletetaan, että sinulla on tietoja siitä, kuinka kalliita eri tietokoneet ovat, ja kuinka nopeita ne ovat. Näillä arvoilla voidaan testata, onko hinta ja nopeus yhteydessä toisiinsa.
- Hinnat (euroa): 1000, 1200, 900, 1500, 1100
- Nopeudet (GHz): 3.1, 3.6, 2.9, 4.0, 3.0
1) Rankataan kummatkin muuttujat pienimmästä suurimpaan (pienin = 1):
- Hintojen rankit: 1000→2, 1200→4, 900→1, 1500→5, 1100→3 → (2, 4, 1, 5, 3)
- Nopeuksien rankit: 3.1→3, 3.6→4, 2.9→1, 4.0→5, 3.0→2 → (3, 4, 1, 5, 2)
2) Lasketaan erotukset d = rank(hinta) − rank(nopeus) ja niiden neliöt:
- d: 2−3 = −1, 4−4 = 0, 1−1 = 0, 5−5 = 0, 3−2 = 1
- d²: 1, 0, 0, 0, 1 → ∑d² = 2
3) Sijoitetaan kaavaan (n = 5):
ρ = 1 − (6·2) / (5·(5² − 1)) = 1 − 12 / (5·24) = 1 − 12/120 = 1 − 0.1 = 0.9
Tuloksena on ρ = 0.9, mikä viittaa voimakkaaseen nousevaan monotoniseen yhteyteen hinnan ja nopeuden välillä tässä pienessä esimerkissä.
Tulkitseminen ja tilastollinen merkittävyys
- Arvojen suuruusluokkien tulkinta on suhteellinen: mitä lähempänä ±1, sitä vahvempi monotoninen suhde. Yksityiskohtaiset rajat (esim. >0.7 vahva) ovat konventionaalisia eivätkä absoluuttisia.
- Tilastollisen merkitsevyyden testaamiseen voidaan käyttää esim. tarkkaa permutaatiotestiä pienissä aineistoissa. Suuremmissa aineistoissa usein käytetään approksimaatiota: voidaan laskea t-arvo t = ρ·sqrt((n−2)/(1−ρ²)), joka noudattaa likimain t-jakaumaa vapausasteilla n−2.
- Spearmanin rho vastaa Pearsonin korrelaatiota, kun muuttujina käytetään niiden järjestyslukuja.
Huomioitavaa
- Spearmanin rho mittaa monotonisuutta, ei suoraan lineaarisuutta. Jos suhde on selvästi ei-monotoninen, rho voi olla lähellä nollaa, vaikka muuttujat olisivat vahvasti yhteydessä toisella tavalla.
- Laajoissa tasapisteissä tai pienissä otoskooissa merkitsevyystestit voivat vaatia erityistä varovaisuutta.
- Useimmissa tilasto-ohjelmistoissa Spearmanin rho lasketaan valmiiksi ja tasapisteet otetaan huomioon automaattisesti.