Keskivirhe
Keskivirhe on tilaston otantajakauman keskihajonta. Termiä voidaan käyttää myös estimaatista (hyvä arvaus), joka saadaan koko joukosta otetusta otoksesta.
Ryhmän jonkin osan (jota kutsutaan otokseksi) keskiarvo on tavanomainen tapa arvioida koko ryhmän keskiarvo. Koko ryhmän mittaaminen on usein liian vaikeaa tai maksaa liikaa rahaa. Jos kuitenkin mitataan toinen otos, sen keskiarvo on hieman erilainen kuin ensimmäisen otoksen. Keskiarvon keskivirhe on tapa tietää, kuinka lähellä otoksen keskiarvo on koko ryhmän keskiarvoa. Se on tapa tietää, kuinka varma voit olla otoksen keskiarvosta.
Todellisissa mittauksissa koko ryhmän keskiarvon keskihajonnan todellista arvoa ei yleensä tiedetä. Niinpä termiä keskivirhe käytetään usein tarkoittamaan koko ryhmän todellista arviota. Mitä enemmän mittauksia otoksessa on, sitä lähempänä koko ryhmän todellista lukua arvaus on.
Jos näytteestä poimitaan arvo, jonka virhe on harhattomasti normaalijakautunut, yllä oleva kuva kuvaa niiden näytteiden osuutta, jotka ovat 0, 1, 2 ja 3 keskihajontaa todellisen arvon ylä- ja alapuolella.
Miten löytää keskivirhe keskiarvo
Yksi tapa löytää keskiarvon keskivirhe on ottaa paljon näytteitä. Ensin etsitään kunkin otoksen keskiarvo. Sitten löydetään näiden otosten keskiarvojen keskiarvo ja keskihajonta. Kaikkien otoskeskiarvojen keskihajonta on keskiarvon keskivirhe. Tämä voi olla paljon työtä. Joskus on liian vaikeaa tai maksaa liikaa rahaa ottaa paljon näytteitä.
Toinen tapa löytää keskiarvon keskivirhe on käyttää yhtälöä, joka tarvitsee vain yhden otoksen. Keskiarvon keskivirhe arvioidaan yleensä koko ryhmän otoksen keskihajonta (otoksen keskihajonta) jaettuna otoskoon neliöjuurella.
S E x ¯ = s n {\displaystyle SE_{\bar {x}}\ ={\frac {s}{\sqrt {n}}}}
jossa
s on otoksen keskihajonta (eli otokseen perustuva estimaatti perusjoukon keskihajonnasta), ja
n on otoksen mittausten lukumäärä.
Kuinka suuri otoksen on oltava, jotta keskiarvon keskivirheen estimaatti on lähellä koko ryhmän keskiarvon todellista keskivirhettä? Otoksessa pitäisi olla vähintään kuusi mittausta. Tällöin otoksen keskiarvon keskivirhe on 5 %:n sisällä keskiarvon keskivirheestä, jos koko ryhmä olisi mitattu.
Korjauksia joihinkin tapauksiin
On olemassa toinen yhtälö, jota käytetään, jos mittausten määrä on vähintään 5 % koko ryhmästä:
On olemassa erityisiä yhtälöitä, joita käytetään, jos näytteessä on vähemmän kuin 20 mittausta.
Joskus näyte tulee yhdestä paikasta, vaikka koko ryhmä voi olla hajallaan. Joskus näyte saatetaan myös ottaa lyhyessä ajassa, vaikka koko ryhmä kattaa pidemmän ajan. Tällöin otoksen luvut eivät ole riippumattomia. Tällöin käytetään erityisiä yhtälöitä, joilla tätä yritetään korjata.
Hyödyllisyys
Käytännön tulos: Keskimääräisestä arvosta voi tulla varmempi, jos otoksessa on useampia mittauksia. Tällöin keskiarvon keskivirhe on pienempi, koska keskihajonta jaetaan suuremmalla luvulla. Jotta keskiarvon epävarmuus (keskiarvon keskivirhe) olisi puolet pienempi, otoskoon (n) on kuitenkin oltava nelinkertainen. Tämä johtuu siitä, että keskihajonta jaetaan otoskoon neliöjuurella. Jotta epävarmuus olisi kymmenesosa yhtä suuri, otoskoon (n) on oltava sata kertaa suurempi!
Keskivirheet on helppo laskea, ja niitä käytetään paljon, koska:
- Jos useiden yksittäisten suureiden keskivirhe tunnetaan, voidaan monissa tapauksissa helposti laskea suureiden jonkin funktion keskivirhe;
- Jos arvon todennäköisyysjakauma tunnetaan, sen avulla voidaan laskea hyvä approksimaatio tarkalle luottamusvälille; ja
- Jos todennäköisyysjakaumaa ei tunneta, luottamusvälin arvioimiseksi voidaan käyttää muita yhtälöitä.
- Kun otoskoko kasvaa hyvin suureksi, keskeinen raja-arvoteorema osoittaa, että otoksen luvut muistuttavat hyvin paljon koko ryhmän lukuja (niillä on normaalijakauma).
Suhteellinen keskivirhe
Suhteellinen keskivirhe (RSE) on keskivirhe jaettuna keskiarvolla. Tämä luku on pienempi kuin yksi. Kun se kerrotaan 100 %:lla, saadaan se prosentteina keskiarvosta. Tämä auttaa osoittamaan, onko epävarmuus merkittävä vai ei. Tarkastellaan esimerkiksi kahta kotitalouksien tuloja koskevaa tutkimusta, joiden molempien tuloksena otoksen keskiarvo on 50 000 dollaria. Jos toisen tutkimuksen keskivirhe on 10 000 dollaria ja toisen 5 000 dollaria, suhteelliset keskivirheet ovat 20 prosenttia ja 10 prosenttia. Tutkimus, jonka suhteellinen keskivirhe on pienempi, on parempi, koska siinä on tarkempi mittaus (epävarmuus on pienempi).
Itse asiassa ihmiset, joiden on tiedettävä keskiarvot, päättävät usein, kuinka pieni epävarmuuden pitäisi olla, ennen kuin he päättävät käyttää tietoa. Esimerkiksi Yhdysvaltain kansallinen terveystilastokeskus National Center for Health Statistics ei ilmoita keskiarvoa, jos suhteellinen keskivirhe on yli 30 prosenttia. NCHS vaatii myös vähintään 30 havaintoa, jotta estimaatti voidaan raportoida. []
Esimerkki
Esimerkiksi Meksikonlahdella on paljon punasimppuja. Jotta voitaisiin selvittää, kuinka paljon 42 cm pitkä punasimppu keskimäärin painaa, ei ole mahdollista mitata kaikkia 42 cm pitkiä punasimppuja. Sen sijaan on mahdollista mitata joitakin niistä. Niitä kaloja, jotka todella mitataan, kutsutaan näytteeksi. Taulukossa esitetään kahden punasimppunäytteen painot, jotka kaikki ovat 42 cm pitkiä. Ensimmäisen näytteen keskipaino on 0,741 kg. Toisen näytteen keskipaino (keskiarvo) on 0,735 kg, mikä poikkeaa hieman ensimmäisestä näytteestä. Kukin näistä keskiarvoista poikkeaa hieman keskiarvosta, joka saataisiin mittaamalla jokainen 42 cm pitkä punasimppu (mikä ei kuitenkaan ole mahdollista).
Keskiarvon epävarmuuden avulla voidaan tietää, kuinka lähellä näytteiden keskiarvo on sitä keskiarvoa, joka saataisiin mittaamalla koko ryhmä. Keskiarvon epävarmuus arvioidaan näytteen keskihajonnalla jaettuna näytteiden lukumäärän neliöjuurella miinus yksi. Taulukosta käy ilmi, että kahden näytteen keskiarvojen epävarmuudet ovat hyvin lähellä toisiaan. Myös suhteellinen epävarmuus on keskiarvon epävarmuus jaettuna keskiarvolla kertaa 100 %. Tässä esimerkissä suhteellinen epävarmuus on 2,38 % ja 2,50 % kahdelle näytteelle.
Kun tiedetään keskiarvon epävarmuus, voidaan tietää, kuinka lähellä otoksen keskiarvo on sitä keskiarvoa, joka saataisiin mittaamalla koko ryhmä. Koko ryhmän keskiarvo on välillä a) otoksen keskiarvo lisättynä keskiarvon epävarmuudella ja b) otoksen keskiarvo vähennettynä keskiarvon epävarmuudella. Tässä esimerkissä kaikkien Meksikonlahden 42 cm:n pituisten punasimppujen keskipainon odotetaan olevan 0,723-0,759 kg ensimmäisen näytteen perusteella ja 0,717-0,753 kg toisen näytteen perusteella.
Esimerkki esimerkissä käytetystä punakalasta (tunnetaan myös nimellä red drum, Sciaenops ocellatus).
Kysymyksiä ja vastauksia
K: Mikä on keskivirhe?
V: Keskivirhe on tilastollisen suureen otantajakauman keskihajonta.
K: Voidaanko termiä keskivirhe käyttää keskihajonnan estimaatista?
V: Kyllä, termiä keskivirhe voidaan käyttää koko joukosta otetusta otoksesta otetun keskihajonnan estimaatista (hyvä arvaus).
K: Miten koko ryhmän keskiarvo estimoidaan?
V: Ryhmän jonkin osan (jota kutsutaan otokseksi) keskiarvo on tavanomainen tapa arvioida koko ryhmän keskiarvo.
K: Miksi koko ryhmän mittaaminen on vaikeaa?
V: Koko ryhmän mittaaminen on usein liian vaikeaa tai liian kallista.
K: Mikä on keskiarvon keskivirhe ja mitä se määrittää?
V: Keskiarvon keskivirhe on tapa tietää, kuinka lähellä otoksen keskiarvo on koko ryhmän keskiarvoa. Se on tapa tietää, kuinka varma voidaan olla otoksen keskiarvosta.
K: Onko keskiarvon keskihajonnan todellinen arvo yleensä tiedossa todellisissa mittauksissa?
V: Ei, koko ryhmän keskiarvon keskihajonnan todellista arvoa ei yleensä tunneta todellisissa mittauksissa.
K: Miten otoksen mittausten lukumäärä vaikuttaa estimaatin tarkkuuteen?
V: Mitä enemmän mittauksia otoksessa on, sitä lähempänä koko ryhmän todellista arvoa on arvio.