Spearmanin järjestyskorrelaatiokerroin (ρ) – määritelmä, kaava ja esimerkki
Spearmanin järjestyskorrelaatiokerroin (ρ): selkeä määritelmä, laskukaava ja käytännön esimerkki — opi mittaamaan järjestyskorrelaatiota helposti ja tarkasti.
Spearmanin korrelaatiokerroin on matematiikassa ja tilastotieteessä korrelaation mittari, joka on nimetty sen kehittäjän Charles Spearmanin mukaan. Se kirjoitetaan lyhyesti kreikkalaisella kirjaimella rho ( ρ {\displaystyle \rho } ) tai joskus muodossa r s {\displaystyle r_{s}}
. Se on lukuarvo, joka mittaa kahden muuttujan monotonisen yhteyden voimakkuutta käyttämällä arvojen järjestysnumeroita (rankeja). Spearmanin rho on epäparametrinen mittari — se ei edellytä, että muuttujat olisivat normaalijakautuneita, ja se on vähemmän herkkä poikkeaville arvoille kuin Pearsonin korrelaatiokerroin.
Perusidea ja käyttö
- Spearmanin rho mittaa, miten hyvin kahden muuttujan suhde voidaan kuvata monotonisella (aina nousevalla tai aina laskevalla) funktiolla.
- Arvot vaihtelevat välillä −1 ja +1: arvo +1 tarkoittaa täydellistä nousevaa monotonea yhteyttä, −1 täydellistä laskevaa ja 0 ei-monotonista yhteyttä.
- Sitä käytetään erityisesti, kun aineisto on järjestysasteikollista (esim. mielipidemittaukset), tai kun muuttujien välinen suhde ei ole lineaarinen tai data sisältää poikkeavia arvoja.
- Spearmanin rho voidaan laskea myös siten, että ensin muutetaan kummankin muuttujan arvot järjestysluvuiksi ja lasketaan niiden Pearsonin korrelaatio.
Kaava ja laskentatapa
Yleinen kaava r s:lle {\displaystyle r_{s}} on
ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
Tässä d on kunkin havaintoparin kahden muuttujan järjestyslukujen erotus (rank(X) − rank(Y)) ja n on havaintojen lukumäärä. Laskenta etenee tyypillisesti näin:
- Järjestä kummankin muuttujan arvot ja anna jokaista arvoa vastaava järjestysluku (1..n). Jos arvoilla on tasapisteitä, annetaan niille keskiarvorankit (katso kohta tasapisteet).
- Lasketaan kunkin havainnon järjestyslukujen erotus d ja sen neliö d².
- Summataan kaikki d² ja sijoitetaan summa kaavaan yllä.
Tasapisteet (ties)
Jos aineistossa on samanarvoisia mittauksia (tasapisteitä), niille annetaan sama rank-arvo, yleensä tasapisteiden rankkien keskiarvo. Tasapisteet vaikuttavat kaavan tarkkuuteen: jos tasapisteitä on runsaasti, tarkempi muotoilu tai korjaus on tarpeen (tai voidaan käyttää Pearsonin korrelaatiota rankatuista arvoista). Usein käytännön ohjelmistot laskevat Spearmanin rho:n suoraan huomioiden tasapisteet.
Esimerkki
Oletetaan, että sinulla on tietoja siitä, kuinka kalliita eri tietokoneet ovat, ja kuinka nopeita ne ovat. Näillä arvoilla voidaan testata, onko hinta ja nopeus yhteydessä toisiinsa.
- Hinnat (euroa): 1000, 1200, 900, 1500, 1100
- Nopeudet (GHz): 3.1, 3.6, 2.9, 4.0, 3.0
1) Rankataan kummatkin muuttujat pienimmästä suurimpaan (pienin = 1):
- Hintojen rankit: 1000→2, 1200→4, 900→1, 1500→5, 1100→3 → (2, 4, 1, 5, 3)
- Nopeuksien rankit: 3.1→3, 3.6→4, 2.9→1, 4.0→5, 3.0→2 → (3, 4, 1, 5, 2)
2) Lasketaan erotukset d = rank(hinta) − rank(nopeus) ja niiden neliöt:
- d: 2−3 = −1, 4−4 = 0, 1−1 = 0, 5−5 = 0, 3−2 = 1
- d²: 1, 0, 0, 0, 1 → ∑d² = 2
3) Sijoitetaan kaavaan (n = 5):
ρ = 1 − (6·2) / (5·(5² − 1)) = 1 − 12 / (5·24) = 1 − 12/120 = 1 − 0.1 = 0.9
Tuloksena on ρ = 0.9, mikä viittaa voimakkaaseen nousevaan monotoniseen yhteyteen hinnan ja nopeuden välillä tässä pienessä esimerkissä.
Tulkitseminen ja tilastollinen merkittävyys
- Arvojen suuruusluokkien tulkinta on suhteellinen: mitä lähempänä ±1, sitä vahvempi monotoninen suhde. Yksityiskohtaiset rajat (esim. >0.7 vahva) ovat konventionaalisia eivätkä absoluuttisia.
- Tilastollisen merkitsevyyden testaamiseen voidaan käyttää esim. tarkkaa permutaatiotestiä pienissä aineistoissa. Suuremmissa aineistoissa usein käytetään approksimaatiota: voidaan laskea t-arvo t = ρ·sqrt((n−2)/(1−ρ²)), joka noudattaa likimain t-jakaumaa vapausasteilla n−2.
- Spearmanin rho vastaa Pearsonin korrelaatiota, kun muuttujina käytetään niiden järjestyslukuja.
Huomioitavaa
- Spearmanin rho mittaa monotonisuutta, ei suoraan lineaarisuutta. Jos suhde on selvästi ei-monotoninen, rho voi olla lähellä nollaa, vaikka muuttujat olisivat vahvasti yhteydessä toisella tavalla.
- Laajoissa tasapisteissä tai pienissä otoskooissa merkitsevyystestit voivat vaatia erityistä varovaisuutta.
- Useimmissa tilasto-ohjelmistoissa Spearmanin rho lasketaan valmiiksi ja tasapisteet otetaan huomioon automaattisesti.
Työstää sitä
Vaihe yksi
Jotta voit laskea r s {\displaystyle r_{s}}, sinun on ensin asetettava kukin tieto paremmuusjärjestykseen. Käytämme esimerkkinä tietokoneiden ja niiden nopeuden esittelyä.
Halvimman hinnan omaava tietokone olisi siis sijalla 1. Sitä korkeampi olisi sijalla 2. Sitten se menee ylöspäin, kunnes kaikki ovat sijoittuneet paremmuusjärjestykseen. Tämä on tehtävä molemmille tietokokonaisuuksille.
| Hinta ($) | R a n k 1 {\displaystyle Rank_{1}} | Nopeus (GHz) | R a n k 2 {\displaystyle Rank_{2}} | |
| A | 200 | 1 | 1.80 | 2 |
| B | 275 | 2 | 1.60 | 1 |
| C | 300 | 3 | 2.20 | 4 |
| D | 350 | 4 | 2.10 | 3 |
| E | 600 | 5 | 4.00 | 5 |
Vaihe kaksi
Seuraavaksi meidän on löydettävä näiden kahden sijan välinen ero. Sitten kerrotaan erotus itsellään, mitä kutsutaan neliöimiseksi. Eroa kutsutaan nimellä d {\displaystyle d} , ja luku, jonka saat neliöimällä d {\displaystyle d}
, on nimeltään d 2 {\displaystyle d^{2}}.
.
| R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
| 1 | 2 | -1 | 1 |
| 2 | 1 | 1 | 1 |
| 3 | 4 | -1 | 1 |
| 4 | 3 | 1 | 1 |
| 5 | 5 | 0 | 0 |
Vaihe kolme
Laske, kuinka paljon tietoja meillä on. Tässä datassa on sijat 1-5, joten meillä on 5 dataa. Tätä lukua kutsutaan nimellä n {\displaystyle n} .
Vaihe neljä
Käytä lopuksi kaikkea tähän mennessä selvittämäämme tähän kaavaan: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
∑ d 2 {\displaystyle \sum d^{2}} tarkoittaa, että otamme kaikkien sarakkeessa d 2 {\displaystyle d^{2}} olleiden lukujen summan.
. Tämä johtuu siitä, että ∑ {\displaystyle \sum }
tarkoittaa summaa.
∑ d 2 {\displaystyle \sum d^{2}} on siis 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1+1}
, joka on 4. Kaavassa sanotaan, että kerro se kuudella, joka on 24.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} on 5 × ( 25 - 1 ) {\displaystyle 5\times (25-1)}
eli 120.
Joten saadaksemme selville r s {\displaystyle r_{s}} saadaan yksinkertaisesti 1 - 24 120 = 0.8 {\displaystyle 1-{\cfrac {24}{120}}=0.8}}
.
Tämän vuoksi Spearmanin korrelaatiokerroin on 0,8 tämän aineiston osalta.
Mitä numerot tarkoittavat
r s {\displaystyle r_{s}} antaa aina vastauksen väliltä -1 ja 1. Välillä olevat luvut ovat kuin asteikko, jossa -1 on erittäin vahva yhteys, 0 ei ole mitään yhteyttä ja 1 on myös erittäin vahva yhteys. Ero 1:n ja -1:n välillä on se, että 1 on positiivinen korrelaatio ja -1 on negatiivinen korrelaatio. Aineiston kuvaaja, jonka r s
-arvo on -1, näyttäisi esitetyn kuvaajan kaltaiselta, paitsi että viiva ja pisteet kulkisivat vasemmalta ylhäältä oikealle.
Esimerkiksi edellä tekemiemme tietojen osalta r s {\displaystyle r_{s}} oli 0,8. Tämä tarkoittaa siis sitä, että korrelaatio on positiivinen. Koska se on lähellä 1:tä, se tarkoittaa, että yhteys on vahva näiden kahden tietokokonaisuuden välillä. Voimme siis sanoa, että nämä kaksi tietoaineistoa ovat yhteydessä toisiinsa ja nousevat yhdessä. Jos se olisi -0,8, voisimme sanoa, että ne ovat yhteydessä toisiinsa, ja kun toinen nousee, toinen laskee.
Jos kaksi lukua on sama
Joskus tietoja järjestettäessä on kaksi tai useampia numeroita, jotka ovat samoja. Kun näin tapahtuu r s:ssä {\displaystyle r_{s}} otamme samanarvoisten sijoitusten keskiarvon tai keskiarvon. Näitä kutsutaan tasavertaisiksi sijoiksi. Tätä varten asetamme sidotut luvut paremmuusjärjestykseen ikään kuin ne eivät olisi sidottuja. Sitten laskemme yhteen kaikki sijat, jotka niillä olisi, ja jaamme sen sillä, kuinka monta niitä on. Sanotaan esimerkiksi, että järjestämme eri henkilöiden tulokset oikeinkirjoituskokeessa.
| Testitulos | Sijoitus | Sijoitus (sidottu) |
| 4 | 1 | 1 |
| 6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}} |
| 6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}} |
| 6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3}} |
| 8 | 5 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5}} |
| 8 | 6 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5}} |
Näitä numeroita käytetään täsmälleen samalla tavalla kuin tavallisia sijoituksia.
Aiheeseen liittyvät sivut
Kysymyksiä ja vastauksia
Kysymys: Mikä on Spearmanin järjestyskorrelaatiokerroin?
V: Spearmanin rank-korrelaatiokerroin on korrelaation mitta, joka osoittaa, kuinka läheisesti kaksi tietosarjaa on yhteydessä toisiinsa. Sitä voidaan käyttää vain sellaisten tietojen osalta, jotka voidaan asettaa järjestykseen, esimerkiksi suurimmasta pienimpään.
K: Kuka on luonut Spearmanin korrelaatiokertoimen?
V: Charles Spearman loi Spearmanin korrelaatiokertoimen.
K: Miten Spearmanin rank-korrelaatiokertoimen yleinen kaava kirjoitetaan?
V: Spearmanin korrelaatiokertoimen yleinen kaava on ρ = 1 - 6∑d2/n(n2-1).
K: Milloin Spearmanin rank-korrelaatiokerrointa pitäisi käyttää?
V: Spearmanin rank-korrelaatiokerrointa kannattaa käyttää silloin, kun halutaan nähdä, kuinka läheisesti kaksi tietoaineistoa ovat yhteydessä toisiinsa ja ovatko ne ylipäätään yhteydessä toisiinsa.
K: Minkä tyyppisten tietojen kanssa se toimii?
V: Se toimii minkä tahansa tyyppisten tietojen kanssa, jotka voidaan asettaa järjestykseen, esimerkiksi suurimmasta pienimpään.
K: Voitko antaa esimerkin, jossa voisit käyttää tätä toimenpidettä?
V: Esimerkki, jossa tätä toimenpidettä voisi käyttää, voisi olla, että jos sinulla on tietoja siitä, kuinka kalliita eri tietokoneet ovat, ja tietoja siitä, kuinka nopeita tietokoneet ovat, voisit nähdä, ovatko ne yhteydessä toisiinsa ja kuinka tiiviisti ne ovat yhteydessä toisiinsa r_s:n avulla.
Etsiä