Spearmanin korrelaatiokerroin on matematiikassa ja tilastotieteessä korrelaation mittari, joka on nimetty sen kehittäjän Charles Spearmanin mukaan. Se kirjoitetaan lyhyesti kreikkalaisella kirjaimella rho ( ρ {\displaystyle \rho }{\displaystyle \rho } ) tai joskus muodossa r s {\displaystyle r_{s}} {\displaystyle r_{s}}. Se on lukuarvo, joka mittaa kahden muuttujan monotonisen yhteyden voimakkuutta käyttämällä arvojen järjestysnumeroita (rankeja). Spearmanin rho on epäparametrinen mittari — se ei edellytä, että muuttujat olisivat normaalijakautuneita, ja se on vähemmän herkkä poikkeaville arvoille kuin Pearsonin korrelaatiokerroin.

Perusidea ja käyttö

  • Spearmanin rho mittaa, miten hyvin kahden muuttujan suhde voidaan kuvata monotonisella (aina nousevalla tai aina laskevalla) funktiolla.
  • Arvot vaihtelevat välillä −1 ja +1: arvo +1 tarkoittaa täydellistä nousevaa monotonea yhteyttä, −1 täydellistä laskevaa ja 0 ei-monotonista yhteyttä.
  • Sitä käytetään erityisesti, kun aineisto on järjestysasteikollista (esim. mielipidemittaukset), tai kun muuttujien välinen suhde ei ole lineaarinen tai data sisältää poikkeavia arvoja.
  • Spearmanin rho voidaan laskea myös siten, että ensin muutetaan kummankin muuttujan arvot järjestysluvuiksi ja lasketaan niiden Pearsonin korrelaatio.

Kaava ja laskentatapa

Yleinen kaava r s:lle {\displaystyle r_{s}}{\displaystyle r_{s}} on

ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Tässä d on kunkin havaintoparin kahden muuttujan järjestyslukujen erotus (rank(X) − rank(Y)) ja n on havaintojen lukumäärä. Laskenta etenee tyypillisesti näin:

  1. Järjestä kummankin muuttujan arvot ja anna jokaista arvoa vastaava järjestysluku (1..n). Jos arvoilla on tasapisteitä, annetaan niille keskiarvorankit (katso kohta tasapisteet).
  2. Lasketaan kunkin havainnon järjestyslukujen erotus d ja sen neliö d².
  3. Summataan kaikki d² ja sijoitetaan summa kaavaan yllä.

Tasapisteet (ties)

Jos aineistossa on samanarvoisia mittauksia (tasapisteitä), niille annetaan sama rank-arvo, yleensä tasapisteiden rankkien keskiarvo. Tasapisteet vaikuttavat kaavan tarkkuuteen: jos tasapisteitä on runsaasti, tarkempi muotoilu tai korjaus on tarpeen (tai voidaan käyttää Pearsonin korrelaatiota rankatuista arvoista). Usein käytännön ohjelmistot laskevat Spearmanin rho:n suoraan huomioiden tasapisteet.

Esimerkki

Oletetaan, että sinulla on tietoja siitä, kuinka kalliita eri tietokoneet ovat, ja kuinka nopeita ne ovat. Näillä arvoilla voidaan testata, onko hinta ja nopeus yhteydessä toisiinsa.

  • Hinnat (euroa): 1000, 1200, 900, 1500, 1100
  • Nopeudet (GHz): 3.1, 3.6, 2.9, 4.0, 3.0

1) Rankataan kummatkin muuttujat pienimmästä suurimpaan (pienin = 1):

  • Hintojen rankit: 1000→2, 1200→4, 900→1, 1500→5, 1100→3 → (2, 4, 1, 5, 3)
  • Nopeuksien rankit: 3.1→3, 3.6→4, 2.9→1, 4.0→5, 3.0→2 → (3, 4, 1, 5, 2)

2) Lasketaan erotukset d = rank(hinta) − rank(nopeus) ja niiden neliöt:

  • d: 2−3 = −1, 4−4 = 0, 1−1 = 0, 5−5 = 0, 3−2 = 1
  • d²: 1, 0, 0, 0, 1 → ∑d² = 2

3) Sijoitetaan kaavaan (n = 5):

ρ = 1 − (6·2) / (5·(5² − 1)) = 1 − 12 / (5·24) = 1 − 12/120 = 1 − 0.1 = 0.9

Tuloksena on ρ = 0.9, mikä viittaa voimakkaaseen nousevaan monotoniseen yhteyteen hinnan ja nopeuden välillä tässä pienessä esimerkissä.

Tulkitseminen ja tilastollinen merkittävyys

  • Arvojen suuruusluokkien tulkinta on suhteellinen: mitä lähempänä ±1, sitä vahvempi monotoninen suhde. Yksityiskohtaiset rajat (esim. >0.7 vahva) ovat konventionaalisia eivätkä absoluuttisia.
  • Tilastollisen merkitsevyyden testaamiseen voidaan käyttää esim. tarkkaa permutaatiotestiä pienissä aineistoissa. Suuremmissa aineistoissa usein käytetään approksimaatiota: voidaan laskea t-arvo t = ρ·sqrt((n−2)/(1−ρ²)), joka noudattaa likimain t-jakaumaa vapausasteilla n−2.
  • Spearmanin rho vastaa Pearsonin korrelaatiota, kun muuttujina käytetään niiden järjestyslukuja.

Huomioitavaa

  • Spearmanin rho mittaa monotonisuutta, ei suoraan lineaarisuutta. Jos suhde on selvästi ei-monotoninen, rho voi olla lähellä nollaa, vaikka muuttujat olisivat vahvasti yhteydessä toisella tavalla.
  • Laajoissa tasapisteissä tai pienissä otoskooissa merkitsevyystestit voivat vaatia erityistä varovaisuutta.
  • Useimmissa tilasto-ohjelmistoissa Spearmanin rho lasketaan valmiiksi ja tasapisteet otetaan huomioon automaattisesti.