Luottamusväli: määritelmä, laskenta ja tulkinta (95 %)

95% luottamusväli — selkeä opas: määritelmä, laskenta, tulkinta ja esimerkit. Opit luottamustason, luottamusrajat ja oletukset nopeasti.

Tekijä: Leandro Alegsa

28-08-2025 21:10

Tilastotieteessä luottamusväli on tietyn parametrin estimoinnin erityinen muoto. Tässä menetelmässä parametrin yksittäisen arvon sijasta annetaan koko hyväksyttävien arvojen väli sekä todennäköisyys sille, että parametrin todellinen (tuntematon) arvo on tällä välillä. Luottamusväli perustuu otoksesta tehtyihin havaintoihin, joten se vaihtelee otoskohtaisesti. Todennäköisyyttä sille, että parametri on väliin mahtuu, kutsutaan luottamustasoksi. Hyvin usein tämä ilmoitetaan prosentteina. Luottamusväli ilmoitetaan aina yhdessä luottamustason kanssa. Saatetaan puhua "95 prosentin luottamusvälistä". Luottamusvälin loppupisteitä kutsutaan luottamusrajoiksi. Mitä korkeampi luottamustaso on, sitä laajempi luottamusväli on tietyssä tilanteessa käytettävän arviointimenettelyn osalta.

Luottamusvälin laskeminen edellyttää yleensä oletuksia estimointiprosessin luonteesta - se on ensisijaisesti parametrinen menetelmä. Yksi yleinen oletus on, että perusjoukon, josta otos on peräisin, jakauma on normaali. Sellaisenaan luottamusvälit, joita käsitellään jäljempänä, eivät ole robustia tilastoa, vaikka muutoksia voidaankin tehdä robustisuuden lisäämiseksi.

Miten 95 % luottamusväli tulkitaan

Usein käytetty 95 % luottamusväli tarkoittaa todennäköisyyttä toistettavassa prosessissa: jos samasta perusjoukosta otettaisiin hyvin monta otosta ja jokaisesta laskettaisiin 95 % luottamusväli samalla menetelmällä, niin noin 95 % näistä väleistä sisältäisi parametrin todellisen arvon. Tämä on frekventistinen tulkinta. On tärkeää huomata, että yksittäisestä lasketusta välistä ei voida sanoa "parametrin todennäköisyys on 95 % olla tässä välin sisällä" ilman bayesilaista arviointia — oikea muotoilu on, että menetelmän kattavuus on 95 %.

Yleiset kaavat (keskihajonta tunnettu / tuntematon)

Keskiarvon luottamusväli, kun perusjoukon keskihajonta σ tunnetaan:
CI = x̄ ± z_{α/2} * (σ / √n). Esimerkiksi 95 %:n tapauksessa z_{0.025} ≈ 1.96.
Keskiarvon luottamusväli, kun keskihajonta σ tuntematon (pieni otos):
CI = x̄ ± t_{n-1,α/2} * (s / √n), missä s on otoskeskihajonta ja t_{n-1,α/2} on t-jakauman käänteisarvo vapausasteilla n−1.
Osuus (proportion) luottamusväli (sääntömääräinen suurilla näytteillä):
CI = p̂ ± z_{α/2} * √(p̂(1−p̂)/n). Huomaa, että pienillä n tai p̂ lähellä 0 tai 1 kannattaa käyttää tarkempia menetelmiä (esim. Clopper–Pearson, Wilson).

Marginaali-virhe ja näytteen suuruus

Marginaali‑virhe (margin of error, MOE) on luottamusvälin puolikas leveys: MOE = z_{α/2} * SE, missä SE on estimaatin otoskeskivirhe. Marginaali-virheen avulla voidaan arvioida, kuinka tarkka estimaatti on. Haluuttu tarkkuus E ja tunnettu σ antavat tarvittavan otoskoon kaavalla n = (z_{α/2} * σ / E)^2. Osuuden tapauksessa konservatiivinen arvio on n = (z_{α/2} / E)^2 * 0.25 (koska p(1−p) maksimoituu p=0.5).

Oletukset ja rajoitukset

Oletus satunnaisotannasta ja riippumattomuudesta: havaintojen pitää olla riippumattomia ja otos edustava perusjoukosta.
Normaalijakauma-olettamus keskiarvoa arvioitaessa: pienissä otoskokoissa normaalijakauma oletus on tärkeä; suurissa otoksissa keskinen rajalauseke (CLT) tekee jakauman approksimaatiosta luotettavamman.
Parametrinen lähestymistapa: perusmallit eivät aina ole robustit poikkeamille oletuksista — poikkeavat havainnot ja epänormaali jakauma voivat vääristää välejä.
Pienissä näytteissä kannattaa käyttää t-jakaumaa (keskiarvo) tai tarkempia binomitulkintoja (osuus) tai vaihtoehtoisesti nonparametrisia menetelmiä (bootstrap).

Vaihtoehdot ja robustit menetelmät

Bootstrap‑menetelmät: Otetaan suuri määrä uudelleenotoksia (resampling) alkuperäisestä datasta ja muodostetaan empirinen jakauma estimaattien perusteella. Tämän avulla voidaan saada luottamusvälejä ilman tiukkoja jakauma‑oletuksia (esim. prosenttipisteistä tai BCa‑korjatut välit).
Wilsonin ja Clopper–Pearsonin välit osuuksille: Näitä suositellaan erityisesti pienille otoksille tai kun p̂ lähellä 0 tai 1.
Transformaatiot: Joissain tapauksissa log‑transformaatio tai muu muunnos voi parantaa välin ominaisuuksia (esim. geometrinen keskiarvo).

Usein tehdyt tulkintavirheet

Virhe: "Tässä yksittäisessä välikössä on 95 % todennäköisyys, että parametri on välin sisällä." Oikein: 95 % viittaa menetelmän pitkän aikavälin kattavuuteen.
Luottamusvälin tulkitseminen syy‑seuraussuhteena on virheellinen — luottamusväli kertoo estimaatin tarkkuudesta, ei kausaatiosta.
Luottamusvälin vertaaminen p‑arvoihin: ne kertovat eri asioita; p‑arvo liittyy hypoteesin testaamiseen, luottamusväli kuvaa estimaatin epävarmuutta.

Esimerkit

Esimerkki 1 — Keskiarvo, σ tuntematon:
Oletetaan otoskeskihajonta s = 15, otoskoko n = 25 ja otoskeskiarvo x̄ = 100. 95 % luottamusväli on
CI = 100 ± t_{24,0.025} * (15 / √25). t_{24,0.025} ≈ 2.064 ⇒ MOE ≈ 2.064 * 3 = 6.192. Luottamusväli ≈ (93.81, 106.19).

Esimerkki 2 — Osuus:
Oletetaan p̂ = 0.6 ja n = 200. SE = √(0.6·0.4/200) ≈ 0.03464. 95 % CI: 0.6 ± 1.96·0.03464 ⇒ MOE ≈ 0.0679 ⇒ CI ≈ (0.532, 0.668).

Lisätietoja ja käytännön vinkkejä

Valitse oikea kaava tilanteen mukaan: käytä t‑jakaumaa, kun varianssi tuntematon ja otoskoko pieni; käytä z‑approksimaatiota suurilla näytteillä.
Pienissä aineistoissa harkitse bootstrapia tai tarkkoja binomimenetelmiä.
Raportoi aina luottamustaso (esim. 95 %) sekä käytetty menetelmä ja oletukset (tunnettu/ tuntematon σ, t/z‑kriteerit, bootstrap jne.).
Jos luottamusväli on hyvin huomattavasti ylä- tai alarajassa perusjoukon fysiologisten tai teoreettisten rajoitteiden vuoksi, harkitse rajattuja malleja tai sopivaa muunnosta.

Yhteenvetona: luottamusväli on selkeä ja käytännöllinen tapa kuvata estimaatin epävarmuutta. Oikean tulkinnan ja menetelmän valinta edellyttää huomiota oletuksiin, otoskokoon ja estimoinnin luonteeseen; tarvittaessa kannattaa käyttää robustimpia tai ei-parametrisia vaihtoehtoja.

Termin "luottamus" merkitys

Termillä luottamus on samanlainen merkitys tilastotieteessä kuin yleiskielessä. Yleisessä kielenkäytössä väite, jonka mukaan johonkin asiaan on 95 prosentin luottamus, katsotaan tavallisesti merkitsevän käytännössä varmuutta. Tilastotieteessä 95 prosentin luottamusta koskeva väite tarkoittaa yksinkertaisesti sitä, että tutkija on nähnyt suuren joukon mahdollisista väleistä yhden, josta yhdeksäntoista väliä kahdestakymmenestä sisältää parametrin todellisen arvon.

Käytännön esimerkki

A factory assembly line fills margarine cups to a desired 250g +/- 5g

Kone täyttää kupit margariinilla. Esimerkissä kone on säädetty siten, että kuppien sisältö on 250 g margariinia. Koska kone ei voi täyttää jokaista kuppia täsmälleen 250 g:lla, yksittäisiin kuppeihin lisättyjen margariinimassojen määrä vaihtelee jonkin verran, ja sitä pidetään satunnaismuuttujana X. Vaihtelun oletetaan jakautuvan normaalisti halutun 250 g:n keskiarvon ympärille, ja sen keskihajonta on 2,5 g. Tämän muuttujan oletetaan olevan normaalisti jakautunut. Sen määrittämiseksi, onko kone kalibroitu asianmukaisesti, valitaan satunnaisesti n = 25 kuppia margariinia ja punnitaan kupit. Margariinin painot ovat X1, ..., X25, satunnaisotos X:stä.

Jotta saisimme käsityksen odotusarvosta μ, riittää, että annamme arvion. Sopiva estimaattori on otoskeskiarvo:

μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. } ${\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.$

Näytteessä on todelliset painot x1, ...,x25, joiden keskiarvo on:

x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 grammaa . {\displaystyle {\bar {x}}={\frac {1}{25}}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grammaa}}. } ${\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}.$

Jos otamme toisen 25 kupin otoksen, voimme helposti odottaa löytävämme arvoja 250,4 tai 251,1 grammaa. Otoksen keskiarvo 280 grammaa olisi kuitenkin erittäin harvinainen, jos kuppien keskimääräinen sisältö on todella lähellä 250 grammaa. Otoksen keskiarvon 250,2 havaitun arvon ympärillä on kokonainen vaihteluväli, jonka sisällä havaittuja tietoja ei pidettäisi erityisen epätavallisina, jos koko populaation keskiarvo todella on tällä alueella. Tällaista väliä kutsutaan parametrin μ luottamusväliksi. Miten tällainen väli lasketaan? Intervallin päätepisteet on laskettava otoksesta, joten ne ovat tilastoja, otoksen X1, ..., X25 funktioita ja siten itse satunnaismuuttujia.

Tapauksessamme voimme määrittää päätepisteet tarkastelemalla, että normaalisti jakautuneen otoksen otoskeskiarvo X on myös normaalisti jakautunut, ja sillä on sama odotusarvo μ, mutta keskivirhe σ/√n = 0,5 (grams). Vakioimalla saamme satunnaismuuttujan

Z = X ¯ - μ σ / n = X ¯ - μ 0.5 {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}} $Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}$

joka riippuu estimoitavasta parametrista μ, mutta jonka normaalijakauma on riippumaton parametrista μ. Näin ollen on mahdollista löytää luvut -z ja z, jotka ovat riippumattomia μ:stä ja joiden välillä Z sijaitsee todennäköisyydellä 1 - α, joka on mittari sille, kuinka varmoja haluamme olla. Otetaan 1 - α = 0,95. Näin ollen meillä on:

P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95.\,} $P(-z\leq Z\leq z)=1-\alpha =0.95.\,$

Luku z seuraa kumulatiivisesta jakaumafunktiosta:

Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}} ${\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}$

ja saamme:

0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X ¯ - μ σ / n ≤ 1,96 ) = P ( X ¯ - 1,96 σ n ≤ μ ≤ X ¯ + 1.96 σ n ) = P ( X ¯ - 1,96 × 0,5 ≤ μ ≤ X ¯ + 1,96 × 0,5 ) = P ( X ¯ - 0,98 ≤ μ ≤ X ¯ + 0,98 ) . {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}} ${\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}$

Tämä voidaan tulkita seuraavasti: Todennäköisyydellä 0,95 löydämme luottamusvälin, jossa kohtaamme parametrin μ stokastisten päätepisteiden välissä.

X ¯ - 0 . 98 {\displaystyle {\bar {X}}-0{.}98\,} ${\bar {X}}-0{.}98\,$

X ¯ + 0.98. {\displaystyle {\bar {X}}+0.98.\,} ${\bar {X}}+0.98.\,$

Tämä ei tarkoita sitä, että parametri μ täyttyy 0,95 todennäköisyydellä lasketun aikavälin sisällä. Aina kun mittaukset toistetaan, otoksen keskiarvolle X saadaan uusi arvo. Tapauksista 95 prosentissa μ on tästä keskiarvosta laskettujen loppupisteiden välissä, mutta 5 prosentissa tapauksista se ei ole. Varsinainen luottamusväli lasketaan syöttämällä mitatut painot kaavaan. Meidän 0,95 luottamusvälimme on:

( x ¯ - 0,98 ; x ¯ + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,} $({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,$

Koska μ:n haluttu arvo 250 on saadun luottamusvälin sisällä, ei ole syytä uskoa, että kone on kalibroitu väärin.

Lasketulla aikavälillä on kiinteät päätepisteet, joiden välissä voi olla μ (tai ei). Näin ollen tämän tapahtuman todennäköisyys on joko 0 tai 1. Emme voi sanoa: "todennäköisyydellä (1 - α) parametri μ on luottamusvälissä"." Tiedämme vain, että toistamalla 100(1 - α) % tapauksista μ on laskennallisella väylällä. 100α %:ssa tapauksista se ei kuitenkaan ole. Ja valitettavasti emme tiedä, missä tapauksista näin tapahtuu. Siksi sanomme: "luottamustasolla 100(1 - α) % μ on luottamusvälillä. "

Oikeanpuoleisessa kuvassa on esitetty 50 luottamusvälin realisointia tietylle populaation keskiarvolle μ. Jos valitsemme satunnaisesti yhden realisoinnin, todennäköisyys on 95 %, että valitsemme parametrin sisältävän luottamusvälin; voimme kuitenkin olla epäonnisia ja valita väärän. Emme koskaan saa tietää; olemme jumissa intervallimme kanssa.

Pystysuorat viivasegmentit edustavat 50 realisointia μ:n luottamusvälistä.

Kysymyksiä ja vastauksia

K: Mikä on luottamusväli tilastoissa?

A: Luottamusväli on erityinen väli, jota käytetään parametrin, kuten populaation keskiarvon, estimoinnissa ja joka antaa parametrille hyväksyttävien arvojen vaihteluvälin yksittäisen arvon sijasta.

K: Miksi luottamusväliä käytetään yksittäisen arvon sijasta?

V: Luottamusväliä käytetään yksittäisen arvon sijasta, jotta voidaan ottaa huomioon otokseen perustuvan parametrin estimoinnin epävarmuus ja antaa todennäköisyys sille, että parametrin todellinen arvo on välin sisällä.

K: Mikä on luottamusväli?

V: Luottamustaso on todennäköisyys sille, että estimoitava parametri on luottamusvälin sisällä, ja se ilmoitetaan usein prosentteina (esim. 95 prosentin luottamusväli).

K: Mitä ovat luottamusrajat?

V: Luottamuksen raja-arvot ovat luottamusvälin loppupisteitä, jotka määrittelevät estimoitavan parametrin hyväksyttävien arvojen vaihteluvälin.

K: Miten luottamustaso vaikuttaa luottamusväliin?

V: Mitä korkeampi luottamustaso tietyssä estimointimenettelyssä on, sitä laajempi luottamusväli on.

K: Mitä oletuksia luottamusvälin laskeminen edellyttää?

V: Luottamusvälin laskeminen edellyttää yleensä oletuksia estimointiprosessin luonteesta, kuten oletusta, että perusjoukon, josta otos on peräisin, jakauma on normaali.

K: Ovatko luottamusvälit robustia tilastoa?

V: Luottamusvälit, kuten jäljempänä käsitellään, eivät ole robustisia tilastoja, vaikka niiden robustisuuden lisäämiseksi voidaankin tehdä mukautuksia.

Etsiä