Simpsonin paradoksi (Yule–Simpson) — tilastollinen paradoksi ja selitys

Simpsonin paradoksi (Yule–Simpson): selkeä selitys, havainnollistavat esimerkit ja käytännön vaikutukset tilastotulkintaan lääke- ja yhteiskuntatieteissä.

Tekijä: Leandro Alegsa

29-01-2026 21:50

Simpsonin paradoksi on tilastollinen paradoksi. Se on nimetty brittiläisen tilastotieteilijän Edward H. Simpsonin mukaan, joka kuvasi sen ensimmäisen kerran vuonna 1951. Tilastotieteilijä Karl Pearson kuvasi hyvin samanlaisen ilmiön vuonna 1899.- Udny Yulen kuvaus on vuodelta 1903. Joskus sitä kutsutaan Yule-Simpson-ilmiöksi. Kun tarkastellaan ryhmien tilastollisia pistemääriä, nämä pisteet voivat muuttua riippuen siitä, tarkastellaanko ryhmiä yksitellen vai yhdistetäänkö ne suuremmaksi ryhmäksi. Tämä tapaus esiintyy usein yhteiskuntatieteissä ja lääketieteellisissä tilastoissa. Se voi hämmentää ihmisiä, jos frekvenssitietoja käytetään selittämään syy-yhteyttä. Muita nimiä paradoksille ovat muun muassa käänteisparadoksi ja yhdistämisparadoksi.

Mitä paradoksi tarkoittaa käytännössä?

Simpsonin paradoksissa saman suuntainen yhteys kahden muuttujan välillä ryhmätasolla voi kääntyä päinvastaiseksi, kun ryhmät yhdistetään. Toisin sanoen siten voi käydä, että jokaisessa alakategoriassa A näyttää paremmalta kuin B, mutta koko aineistossa B näyttää paremmalta kuin A. Tämä on seurausta siitä, että eri alakategoriat (esimerkiksi ikäryhmät, osastot tai sairauden vakavuudet) ovat erikokoisia ja esiintyvät eri tavoin vertailtavien ryhmien välillä.

Miten paradoksi syntyy? (lyhyt selitys)

Taustalla on yleensä piilevä muuttuja (konfounderi), joka liittyy sekä selittävään muuttujaan että selitettävään muuttujaan.
Kun data aggregoidaan, eri alakategorioiden eri kokoiset otokset toimivat painoina. Jos painot eroavat ryhmien välillä, painotettu keskiarvo voi kääntyä toiseen suuntaan verrattuna yksittäisiin alakategorioihin.
Simpsonin paradoksi ei ole tilasto- tai laskuvirhe sinänsä, vaan osoitus siitä, että pelkkä yhdistetty deskriptiivinen analyysi voi johtaa harhaan, jos konfounderia ei tunnisteta.

Esimerkkejä

Yleisimmät esimerkit löytyvät:

Yliopiston hakemusten hyväksymisprosesseista (esim. UC Berkeley–tapauksen tulkinta), jossa eri tiedekunnat voivat käyttäytyä eri tavoin ja hakijajakauma sukupuolen mukaan vaikuttaa kokonaistulokseen.
Lääketieteellisistä hoitokokeista, joissa hoidon teho näyttää paremmalta kumpikin ryhmä erikseen, mutta huonommalta, kun potilaat yhdistetään — usein siksi, että vakavampaa tautimuotoa saattaa olla enemmän toisella hoitoryhmällä.

Matemaattinen hahmotelma

Lyhyesti: oletetaan kaksi ryhmää (esim. potilasryhmät) ja kaksi hoitoa A ja B. Jos kummassakin ryhmässä hoidolla A on suurempi onnistumisprosentti kuin hoidolla B, voi kuitenkin yhteispotilaiden osalta B:n kokonaisonnistumisprosentti olla suurempi. Tämä johtuu siitä, että eri ryhmien kokoa käytetään painoina yhteislaskennassa ja painot voivat kääntää vertailun suunnan.

Miten paradoksia voi välttää tai ymmärtää paremmin?

Tarkastele alaryhmiä: Laske prosentit ja suhteet myös alakategorioissa (stratifioi data) ennen lopulliseen päätelmään päätymistä.
Säädä konfounderit: Käytä monimuuttuja-analyysiä (esim. logistista regressiota), standardisointia tai propensity score -menetelmiä, jos haluat arvioida yhteyttä kontrolloiden samanaikaisesti useita muuttujia.
Ajattelun kannalta: mieti, mikä on tutkimuskysymys—kysytkö marginaalivaikutusta koko populaatiossa vai ehdollista vaikutusta tietyn alaryhmän puitteissa? Molemmat voivat olla oikeita mutta eri tarkoituksiin.
Kausallinen lähestymistapa: käytä kausaalimallinnusta (esim. DAG‑kuvat) tunnistamaan, mitkä muuttujat ovat konfoundereita, ja mitä pitäisi kontrolloida, jotta saadaan oikea kausaalinen tulkinta.
Sattumanvaraisuus ja satunnaistaminen: satunnaistetut kokeet vähentävät konfoundausta ja ovat usein luotettavampia kausaalisten johtopäätösten tekemiseksi kuin puhtaasti havainnolliset tiedot.

Kun aggregointi on sopivaa — ja kun ei

Aggregointi on sopivaa, kun alakategoriat eivät eroa merkittävästi tai kun tarkoitus on saada yleiskuva populaation marginaalitasosta. Aggregointi voi kuitenkin johtaa harhaan, jos samanaikaisesti esiintyy muuttujia, jotka vaikuttavat sekä ryhmään kuulumiseen että tulokseen. Ennen aggregointia on hyvä tarkistaa, onko ilmiössä interaktiota tai merkittäviä eroja alaryhmien välillä.

Käytännön tarkistuslista tutkijalle

Tarkista löydös sekä yhdistetyssä aineistossa että alaryhmissä.
Aseta selkeä tutkimuskysymys: haluatko kuvailla vai selittää (kausaalisesti)?
Säilytä ja raportoi sekä ehdolliset että marginaaliset tulokset, jos molemmat ovat relevantteja.
Käytä visualisointeja (esim. ryhmäkohtaiset pylväsdiagrammit tai pistekaaviot) paljastaaksesi mahdollisen kääntymisen.
Selvitä ja raportoi mahdolliset konfounderit ja tehdyt säädöt analyysissä.

Yhteenveto

Simpsonin paradoksi muistuttaa siitä, että tilastolliset yhteydet on tulkittava huolellisesti kontekstissa. Pelkkä yhdistetty prosen- tai keskiarvovertailu voi johtaa väärään kuvaan, jos tamme piileviä eroavaisuuksia alakategorioissa tai konfoundereita ei oteta huomioon. Paradoksi ei ole matemaattinen virhe vaan varoitus: selvitä, mitä kysyt ja miksi — ja käytä tarkoituksenmukaisia menetelmiä ennen kausaalisten johtopäätösten tekoa.

Esimerkki: Munuaiskivien hoito

Tämä on tosielämän esimerkki lääketieteellisestä tutkimuksesta, jossa verrattiin kahden munuaiskivien hoidon onnistumisprosenttia.

Taulukossa esitetään onnistumisprosentit ja hoitojen määrät sekä pieniä että suuria munuaiskiviä koskevissa hoidoissa, joissa hoito A sisältää kaikki avoimet toimenpiteet ja hoito B on perkutaaninen nefrolitotomia:

	Hoito A		Hoito B
	menestys	epäonnistuminen	menestys	epäonnistuminen
Pienet kivet	Ryhmä 1		Ryhmä 2
potilaiden määrä	81	6	234	36
	93%	7%	87%	13%
Suuret kivet	Ryhmä 3		Ryhmä 4
potilaiden määrä	192	71	55	25
	73%	27%	69%	31%
Molemmat	Ryhmä 1+3		Ryhmä 2+4
potilaiden määrä	273	77	289	61
	78%	22%	83%	17%

Paradoksaalinen johtopäätös on, että hoito A on tehokkaampi, kun sitä käytetään pieniin kiviin ja myös kun sitä käytetään suuriin kiviin, mutta hoito B on tehokkaampi, kun molemmat kivikoot käsitellään samanaikaisesti. Tässä esimerkissä ei tiedetty, että munuaiskiven koko vaikuttaa tulokseen. Tätä kutsutaan tilastotieteessä piilomuuttujaksi (tai piileväksi muuttujaksi).

Se, mitä hoitoa pidetään parempana, määräytyy kahden suhdeluvun (onnistumiset/kokonaismäärät) välisen epätasa-arvon perusteella. Simpsonin paradoksin synnyttävä suhteiden välisen epätasapainon kääntyminen päinvastaiseksi johtuu siitä, että kaksi vaikutusta esiintyy yhdessä:

Niiden ryhmien koot, jotka yhdistetään, kun lurking-muuttujaa ei oteta huomioon, ovat hyvin erilaisia. Lääkäreillä on taipumus antaa vakaville tapauksille (suuret kivet) parempaa hoitoa (A) ja lievemmille tapauksille (pienet kivet) huonompaa hoitoa (B). Tämän vuoksi kokonaislukuja hallitsevat ryhmät kolme ja kaksi eivätkä kaksi paljon pienempää ryhmää yksi ja neljä.
Piilevällä muuttujalla on suuri vaikutus suhdelukuihin, eli onnistumisprosenttiin vaikuttaa voimakkaammin tapauksen vakavuus kuin hoidon valinta. Näin ollen hoitoa A käyttävien potilaiden ryhmä, joilla on suuret kivet (ryhmä kolme), menestyy huonommin kuin ryhmä, jolla on pienet kivet, vaikka jälkimmäiset käyttivät huonompaa hoitoa B (ryhmä kaksi).

Etsiä