Korrelaatio: merkitys, tyypit ja mittaaminen tilastotieteessä

Käytännön opas korrelaatioon: merkitys, korrelaatiotyypit ja mittaustavat tilastotieteessä — opi tulkitsemaan yhteyksiä ja välttämään virhepäätelmiä.

Tekijä: Leandro Alegsa

Tilastotieteessä ja todennäköisyysteoriassa korrelaatiolla tarkoitetaan sitä, kuinka läheisesti kaksi tietoaineistoa liittyy toisiinsa.

Korrelaatio ei aina tarkoita, että yksi aiheuttaa toisen. On hyvin mahdollista, että asiaan liittyy jokin kolmas tekijä.

Korrelaatio on yleensä jompaankumpaan suuntaan. Nämä ovat positiivinen tai negatiivinen. Jos se on positiivinen, kaksi sarjaa nousee yhdessä. Jos se on negatiivinen, toinen nousee ja toinen laskee.

Korrelaation mittaamiseen käytetään paljon erilaisia mittareita eri tilanteissa. Esimerkiksi hajontakuvioon piirretään parhaan sopivuuden viiva osoittamaan korrelaation suunta.

Mitä korrelaatio kertoo ja miten sitä tulkitaan

Korrelaatiokerroin on luku, joka kuvaa muuttujien välistä yhteisvaihtelua ja sen suuntaa. Usein käytettyin mittari on Pearsonin korrelaatiokerroin r, jonka arvo vaihtelee välillä −1 ja +1:

  • r = +1 tarkoittaa täydellistä positiivista lineaarista yhteyttä;
  • r = −1 tarkoittaa täydellistä negatiivista lineaarista yhteyttä;
  • r = 0 tarkoittaa, ettei havaita lineaarista yhteyttä (mutta ei välttämättä mitään yhteyttä).

Voidaan myös luokitella korrelaation voimakkuutta karkeasti (esim. Cohenin suositukset): noin 0,1 = pieni, 0,3 = kohtalainen, 0,5 = voimakas, mutta tulkinta riippuu tutkimusalueesta ja aineiston koosta.

Yleisimmät korrelaation tyypit ja mittarit

  • Pearsonin r – mittaa lineaarista yhteyttä jatkuvien muuttujien välillä; matemaattisesti r = cov(X,Y)/(σX·σY). Soveltuu, kun muuttujat ovat likimain normaalijakautuneita ja suhde on lineaarinen.
  • Spearmanin rho – järjestyskorrelaatio, joka mittaa monotonista yhteyttä rankatutun datan perusteella; robustimpi poikkeaville jakaumille ja epälineaarisille mutta monotonisille suhteille.
  • Kendallin tau – toinen järjestyskorrelaation mittari, usein käytetty pienemmissä aineistoissa ja kun halutaan tarkka arvio järjestysriippuvuudesta.
  • Point-biserial ja phi – korrelaatiotyyppejä, jotka soveltuvat erilaisten yhdistelmämuuttujien (esim. jatkuva vs. dikotomi) tapauksissa.
  • Osittais- ja ehdolliset korrelaatiot – mittaavat kahden muuttujan välistä yhteyttä kontrolloiden kolmansien muuttujien vaikutusta.

Mittaamisen käytännön seikat

  • Hajontakuvio (scatterplot) on aina hyvä ensimmäinen askel: se paljastaa lineaarisuuden, mahdolliset epäyhtenäisyydet (heteroscedasticity) ja poikkeavat havainnot.
  • Oletukset Pearsonin korrelaatiolle: lineaarisuus, jatkuvat muuttujat, poikkeamien vähyys ja tarvittaessa normaalisuus tai suuret otoskoot testausta varten.
  • Poikkeavat havainnot voivat voimakkaasti vääristää Pearsonin r-arvoa; harkitse robustimpia mittareita (Spearman) tai poikkeamien tarkastelua.
  • Tilastollinen merkitsevyys: korrelaation testaaminen (esim. H0: r = 0) antaa p‑arvon, mutta p‑arvo riippuu vahvasti otoskoosta — pieni korrelaatio voi olla merkitsevä suuressa aineistossa.
  • Selitysaste (R²) kertoo lineaarisessa mallissa, kuinka suuren osan yhden muuttujan varianssista selittää toinen muuttuja (r² = selitysaste).

Rajoitukset ja varoitukset

  • Ei-kausaliteettia: korrelaatio ei todista syy‑seuraussuhdetta. Kolmas muuttuja voi selittää yhteyden (confounding), tai kyseessä voi olla sattuma.
  • Simpsonin paradoksi: aggregoidut korrelaatiot voivat olla eri suuntaisia kuin ryhmäkohtaiset korrelaatiot; ryhmäjako voi muuttaa tulkintaa.
  • Monimuuttujaiset yhteydet: kahden muuttujan korrelaatio ei kerro, miten ne toimivat laajemmassa muuttujajoukossa; monimuuttujamenetelmät voivat olla tarpeen.

Esimerkkejä käytännöstä

  • Positiivinen korrelaatio: pituus ja paino yleensä nousevat yhdessä (korkeampi pituus → suurempi paino keskimäärin).
  • Negatiivinen korrelaatio: hinnan nousu usein johtaa kysynnän laskuun (perus kysyntälaki).
  • Ei kausaatiota: jäätelön myynti ja uimakuolemien määrä voivat korreloida positiivisesti, koska molemmat liittyvät lämpimään säähän — lämpötila on kolmas muuttuja.

Käytännön vinkkejä tutkijalle

  • Piirrä aina hajontakuvio ennen korrelaatiolukujen laskemista.
  • Valitse mittari aineiston tyypin ja jakautumisen mukaan (Pearson lineaariselle ja normaalille datalle, Spearman järjestys- tai epälineaariselle datalle).
  • Raportoi sekä korrelaatiokerroin että otoskoko ja p‑arvo sekä luottamusvälit, jotta tulkinta on läpinäkyvä.
  • Harkitse osittaista korrelaatiota tai regressiomalleja, jos haluat kontrolloida muita muuttujia.

Yhteenvetona: korrelaatio on hyödyllinen työkalu yhteyksien löytämiseen ja kuvaamiseen, mutta sen tulkinnassa on oltava varovainen erityisesti kausaalisuuden ja poikkeamien suhteen. Hyvä käytäntö yhdistää visualisoinnit, oikean mittarin valinnan ja kriittisen arvioinnin.

Tämä hajontakuvaaja korreloi positiivisesti. Sen huomaa siitä, että suuntaus on ylöspäin ja oikealle. Punainen viiva on parhaan sovituksen viiva.Zoom
Tämä hajontakuvaaja korreloi positiivisesti. Sen huomaa siitä, että suuntaus on ylöspäin ja oikealle. Punainen viiva on parhaan sovituksen viiva.

Korrelaation selittäminen

Vahva ja heikko ovat sanoja, joita käytetään kuvaamaan korrelaatiota. Jos korrelaatio on vahva, pisteet ovat kaikki lähellä toisiaan. Jos korrelaatio on heikko, pisteet ovat kaikki hajallaan toisistaan. On olemassa keinoja, joilla numerot saadaan näyttämään, kuinka vahva korrelaatio on. Näitä mittauksia kutsutaan korrelaatiokertoimiksi. Tunnetuin on Pearsonin tuotosmomenttikorrelaatiokerroin. Kun syötät tiedot kaavaan, se antaa sinulle luvun. Jos luku on 1 tai -1, korrelaatio on vahva. Jos vastaus on 0, korrelaatiota ei ole. Toinen korrelaatiokerroin on Spearmanin rank-korrelaatiokerroin.

Korrelaatio vs. syy-yhteys

Korrelaatio ei aina tarkoita, että yksi asia aiheuttaa toisen asian (kausaalisuus), koska jokin muu asia on voinut aiheuttaa molemmat. Esimerkiksi kuumina päivinä ihmiset ostavat jäätelöä, ja ihmiset menevät myös rannalle, jossa jotkut joutuvat haiden syömiksi. Jäätelön myynnin ja haihyökkäysten välillä on korrelaatio (molemmat nousevat lämpötilan noustessa tässä tapauksessa). Mutta se, että jäätelön myynti nousee, ei tarkoita, että jäätelön myynti aiheuttaa (kausaalisesti) enemmän haihyökkäyksiä tai päinvastoin.

Koska korrelaatio ei tarkoita syy-yhteyttä, tutkijat, taloustieteilijät jne. testaavat teoriansa luomalla eristettyjä ympäristöjä, joissa vain yhtä tekijää muutetaan (jos se on mahdollista). Poliitikot, myyntimiehet, uutistoimittajat ja muut tahot antavat kuitenkin usein ymmärtää, että tietty korrelaatio merkitsee syy-yhteyttä. Tämä voi johtua tietämättömyydestä tai halusta vakuuttaa. Niinpä uutinen voi herättää huomiota sanomalla, että tiettyä tuotetta useammin käyttävillä ihmisillä on jokin tietty terveysongelma, mikä viittaa kausaaliseen yhteyteen, joka voi todellisuudessa johtua jostain muusta.

Aiheeseen liittyvät sivut

  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Sovellettu moninkertainen regressio/korrelaatioanalyysi käyttäytymistieteissä. (3. painos) Hillsdale, NJ: Lawrence Erlbaum Associates.

Kysymyksiä ja vastauksia

K: Mitä on korrelaatio?


V: Korrelaatio on tapa osoittaa, kuinka läheisesti kaksi tietoaineistoa liittyvät toisiinsa.

K: Tarkoittaako korrelaatio sitä, että yksi datajoukko aiheuttaa toisen?


V: Ei, korrelaatio ei aina tarkoita, että yksi datajoukko aiheuttaa toisen. Itse asiassa asiaan liittyy usein kolmas tekijä.

K: Mitkä ovat korrelaation kaksi suuntaa?


V: Korrelaation kaksi suuntaa ovat positiivinen ja negatiivinen.

K: Mitä positiivinen korrelaatio tarkoittaa?


A: Positiivinen korrelaatio tarkoittaa, että kaksi tietoaineistoa nousee yhdessä.

K: Mitä tarkoittaa negatiivinen korrelaatio?


V: Negatiivinen korrelaatio tarkoittaa, että toinen tietosarja nousee ja toinen laskee.

K: Onko korrelaatiolle olemassa erilaisia mittaustapoja?


V: Kyllä, eri tilanteissa käytetään paljon erilaisia korrelaatiomittauksia.

K: Miten korrelaation suunta usein osoitetaan hajontakuvassa?


V: Ihmiset piirtävät usein parhaan sovituksen viivan näyttääkseen korrelaation suunnan hajontakuvaajassa.


Etsiä
AlegsaOnline.com - 2020 / 2025 - License CC3