Tilastotieteessä ja todennäköisyysteoriassa korrelaatiolla tarkoitetaan sitä, kuinka läheisesti kaksi tietoaineistoa liittyy toisiinsa.
Korrelaatio ei aina tarkoita, että yksi aiheuttaa toisen. On hyvin mahdollista, että asiaan liittyy jokin kolmas tekijä.
Korrelaatio on yleensä jompaankumpaan suuntaan. Nämä ovat positiivinen tai negatiivinen. Jos se on positiivinen, kaksi sarjaa nousee yhdessä. Jos se on negatiivinen, toinen nousee ja toinen laskee.
Korrelaation mittaamiseen käytetään paljon erilaisia mittareita eri tilanteissa. Esimerkiksi hajontakuvioon piirretään parhaan sopivuuden viiva osoittamaan korrelaation suunta.
Mitä korrelaatio kertoo ja miten sitä tulkitaan
Korrelaatiokerroin on luku, joka kuvaa muuttujien välistä yhteisvaihtelua ja sen suuntaa. Usein käytettyin mittari on Pearsonin korrelaatiokerroin r, jonka arvo vaihtelee välillä −1 ja +1:
- r = +1 tarkoittaa täydellistä positiivista lineaarista yhteyttä;
- r = −1 tarkoittaa täydellistä negatiivista lineaarista yhteyttä;
- r = 0 tarkoittaa, ettei havaita lineaarista yhteyttä (mutta ei välttämättä mitään yhteyttä).
Voidaan myös luokitella korrelaation voimakkuutta karkeasti (esim. Cohenin suositukset): noin 0,1 = pieni, 0,3 = kohtalainen, 0,5 = voimakas, mutta tulkinta riippuu tutkimusalueesta ja aineiston koosta.
Yleisimmät korrelaation tyypit ja mittarit
- Pearsonin r – mittaa lineaarista yhteyttä jatkuvien muuttujien välillä; matemaattisesti r = cov(X,Y)/(σX·σY). Soveltuu, kun muuttujat ovat likimain normaalijakautuneita ja suhde on lineaarinen.
- Spearmanin rho – järjestyskorrelaatio, joka mittaa monotonista yhteyttä rankatutun datan perusteella; robustimpi poikkeaville jakaumille ja epälineaarisille mutta monotonisille suhteille.
- Kendallin tau – toinen järjestyskorrelaation mittari, usein käytetty pienemmissä aineistoissa ja kun halutaan tarkka arvio järjestysriippuvuudesta.
- Point-biserial ja phi – korrelaatiotyyppejä, jotka soveltuvat erilaisten yhdistelmämuuttujien (esim. jatkuva vs. dikotomi) tapauksissa.
- Osittais- ja ehdolliset korrelaatiot – mittaavat kahden muuttujan välistä yhteyttä kontrolloiden kolmansien muuttujien vaikutusta.
Mittaamisen käytännön seikat
- Hajontakuvio (scatterplot) on aina hyvä ensimmäinen askel: se paljastaa lineaarisuuden, mahdolliset epäyhtenäisyydet (heteroscedasticity) ja poikkeavat havainnot.
- Oletukset Pearsonin korrelaatiolle: lineaarisuus, jatkuvat muuttujat, poikkeamien vähyys ja tarvittaessa normaalisuus tai suuret otoskoot testausta varten.
- Poikkeavat havainnot voivat voimakkaasti vääristää Pearsonin r-arvoa; harkitse robustimpia mittareita (Spearman) tai poikkeamien tarkastelua.
- Tilastollinen merkitsevyys: korrelaation testaaminen (esim. H0: r = 0) antaa p‑arvon, mutta p‑arvo riippuu vahvasti otoskoosta — pieni korrelaatio voi olla merkitsevä suuressa aineistossa.
- Selitysaste (R²) kertoo lineaarisessa mallissa, kuinka suuren osan yhden muuttujan varianssista selittää toinen muuttuja (r² = selitysaste).
Rajoitukset ja varoitukset
- Ei-kausaliteettia: korrelaatio ei todista syy‑seuraussuhdetta. Kolmas muuttuja voi selittää yhteyden (confounding), tai kyseessä voi olla sattuma.
- Simpsonin paradoksi: aggregoidut korrelaatiot voivat olla eri suuntaisia kuin ryhmäkohtaiset korrelaatiot; ryhmäjako voi muuttaa tulkintaa.
- Monimuuttujaiset yhteydet: kahden muuttujan korrelaatio ei kerro, miten ne toimivat laajemmassa muuttujajoukossa; monimuuttujamenetelmät voivat olla tarpeen.
Esimerkkejä käytännöstä
- Positiivinen korrelaatio: pituus ja paino yleensä nousevat yhdessä (korkeampi pituus → suurempi paino keskimäärin).
- Negatiivinen korrelaatio: hinnan nousu usein johtaa kysynnän laskuun (perus kysyntälaki).
- Ei kausaatiota: jäätelön myynti ja uimakuolemien määrä voivat korreloida positiivisesti, koska molemmat liittyvät lämpimään säähän — lämpötila on kolmas muuttuja.
Käytännön vinkkejä tutkijalle
- Piirrä aina hajontakuvio ennen korrelaatiolukujen laskemista.
- Valitse mittari aineiston tyypin ja jakautumisen mukaan (Pearson lineaariselle ja normaalille datalle, Spearman järjestys- tai epälineaariselle datalle).
- Raportoi sekä korrelaatiokerroin että otoskoko ja p‑arvo sekä luottamusvälit, jotta tulkinta on läpinäkyvä.
- Harkitse osittaista korrelaatiota tai regressiomalleja, jos haluat kontrolloida muita muuttujia.
Yhteenvetona: korrelaatio on hyödyllinen työkalu yhteyksien löytämiseen ja kuvaamiseen, mutta sen tulkinnassa on oltava varovainen erityisesti kausaalisuuden ja poikkeamien suhteen. Hyvä käytäntö yhdistää visualisoinnit, oikean mittarin valinnan ja kriittisen arvioinnin.
