Studentin t-jakauma: määritelmä, ominaisuudet ja käyttö tilastotieteessä
Studentin t‑jakauma: selkeä määritelmä, tärkeimmät ominaisuudet ja käytännön sovellukset tilastotieteessä — t‑testit, luottamusvälit ja regressio.
Studentin t-jakauma on todennäköisyysjakauma, jonka William Sealy Gosset kehitti vuonna 1908. Student oli salanimi, jota hän käytti julkaistessaan jakaumaa kuvaavan artikkelin. Jakauma kuvaa erityisesti tilannetta, jossa havaintoja on vähän ja populaation keskihajontaa ei tunneta.
Määritelmä ja tiheysfunktio
Studentin t-jakauma parametrina on vakiintunut v, joka tunnetaan vapausasteina (degrees of freedom). Tiheysfunktio (PDF) vapausasteille v on
f_v(t) = (Γ((v+1)/2) / (sqrt(vπ) Γ(v/2))) * (1 + t^2/v)^(-(v+1)/2),
missä Γ on Gamma-funktio. Jakautuma on jatkuva ja symmetrinen nollan suhteen; kertymäfunktio (CDF) ei yleensä ole suljetussa muodossa mutta sen arvoja ja käänteisfunktiota voidaan laskea numeerisesti useilla ohjelmistoilla.
Keskeiset ominaisuudet
- Symmetrisyys: jakautuma on symmetrinen nollan ympäri, joten mediaani ja (jos määritelty) odotusarvo ovat nolla.
- Vapausasteen merkitys: t-jakauma riippuu vapausasteesta v; mitä suurempi v, sitä lähempänä jakauma on normaalijakaumaa. Tarkemmin: kun v → ∞, t-jakauma lähestyy standardinormaalia.
- Raskaat hännät: t-jakaumalla on normaalia raskaammat hännät — suuruusluokaltaan ne pienentävät p-arvoja pieniä havaintoja kohden vähemmän kuin normaali oletus, mikä tekee jakaumasta varovaisemman pienillä otoskoilla.
- Odotusarvo ja varianssi: odotusarvo on 0, kun v > 1. Varianssi on v/(v-2) (eli määritelty vasta kun v > 2); jos v ≤ 2, varianssi on ääretön tai määrittelemätön.
- Skewness ja kurtosis: vinous on 0 (kun se on määritelty) ja yliperäisyys (excess kurtosis) on 6/(v-4) (määritelty kun v > 4).
- Polynomiset hännät: satunnaismuuttujan T hännät laskevat suunnilleen |t|^{-(v+1)} — hitaammin kuin normaalin eksponentiaalinen lasku.
Johdannainen määritelmä satunnaismuuttujien kautta
Jos Z ~ N(0,1) ja V ~ χ^2_v (chiin neliö jakauma v vapausasteella) ovat riippumattomia, niin muuttuja
T = Z / sqrt(V / v)
noudattaa Studentin t-jakaumaa v vapausasteella. Tämä suhde selittää jakautuman yhteyden normaalijakaumaan ja varianssin estimaatin epävarmuuteen.
Laskentakaavat ja t-tilasto
Yksi tavallisimmista t-jakauman sovelluksista syntyy, kun arvioidaan otoksen ja populaation eroa. Yhden otoksen t-tilasto on
t = (x̄ − μ) / (s / √n),
missä x̄ on otoskeskiarvon, μ testattava populaation keskiarvo, s otoksen keskihajonta ja n otoskoko. Tällöin tilasto noudattaa t-jakaumaa v = n − 1 vapausasteella, kun havaintojen perusjakauma on normaali ja varianssia ei tunneta.
Käyttötilanteet tilastotieteessä
- Hypoteesitestit: Studentin t-testissä käytetään t-jakaumaa arvioimaan erotuksen merkitsevyyttä, esimerkiksi yhden otoksen testissä, riippumattomien otosten testissä ja parittaisissa testeissä. Tällöin t-testit mittaavat tilastollista merkitsevyyttä ottaen huomioon otoksen koon ja varianssiesimerkin epävarmuuden.
- Luottamusvälit: Luottamusvälien muodostamisessa populaation keskiarvolle käytetään t-kertoimia, kun populaation hajontaa ei tunneta ja otoskoko on rajallinen.
- Regressioanalyysi: lineaarisessa regressioanalyysissä parametriestimaattien testauksessa käytetään usein t-jakaumaa (kun virheet ovat normaalisti jakautuneita ja varianssi estimaatin jakautumisen laskennassa korvataan otosvarianssilla).
- Bayesilainen analyysi: t-jakauma esiintyy myös joissain Bayesin malleissa erityisesti, kun virhetermiä mallinnetaan normaalia raskaammilla häntävaihtoehdoilla tai kun käytetään t-jakauman kaltaisia priorijakaumia.
Kun kannattaa käyttää t-jakaumaa
Yleissääntönä t-jakaumaa käytetään, kun otoskoko on pieni tai kohtalainen ja populaation keskihajontaa ei tunneta. Kun otoskoko kasvaa suureksi (esim. yli 30–50), normaaliapproksimaatio usein toimii hyvin ja t- ja normaalijakaumat poikkeavat vain vähän.
Laskennallinen huomio
Nykyiset tilasto-ohjelmistot (R, Pythonin scipy/stats, SPSS, Stata jne.) tarjoavat funktiot t-jakauman tiheydelle, kertymälle, käänteiselle kertymälle ja p-arvojen laskemiselle. Kun teet hypoteesitestejä tai luottamusvälejä, varmista, että käytät oikeaa vapausasteen arvoa (esim. n−1 yhden otoksen testissä) ja tiedostat jakautuman raskaat hännät erityisesti hyvin pienissä otoksissa.
Yhteenvetona: Studentin t-jakauma on keskeinen työkalu pienien otosten inferenssissä, koska se ottaa huomioon varianssin estimaatin epävarmuuden ja antaa realistisemmat testitulokset ja luottamusvälit kuin suora normaaliolettamus silloin kun varianssia ei tiedetä.
Historia
Gosset työskenteli panimossa ja oli kiinnostunut pienten näytteiden ongelmista, esimerkiksi ohran kemiallisista ominaisuuksista. Hänen analysoimissaan ongelmissa näytekoko saattoi olla vain kolme näytettä. Pienen otoskoon vuoksi keskihajonnan arviointi ei ole mahdollista. Lisäksi monissa Gossetin kohtaamissa tapauksissa näytteiden todennäköisyysjakaumaa ei tunnettu.
Yksi versio salanimen alkuperästä on se, että Gossetin työnantaja halusi, että työntekijät käyttävät tieteellisten julkaisujen julkaisemisessa kirjailijanimiä (oikean nimensä sijasta), joten hän käytti nimeä "Student" salatakseen henkilöllisyytensä. Toinen versio on, että panimo ei halunnut kilpailijoidensa tietävän, että he käyttivät t-testiä raaka-aineen laadun testaamiseen.
Ominaisuudet
Jos otamme n havainnon otoksen normaalijakaumasta, t-jakauma, jossa on ν = n-1 vapausastetta, voidaan määritellä otoskeskiarvon sijainnin jakaumaksi suhteessa todelliseen keskiarvoon
jaettuna otoksen keskihajonnalla
normalisointitermillä
(eli
)). Tällä tavoin t-jakaumaa voidaan käyttää arvioimaan, kuinka todennäköisesti todellinen keskiarvo sijaitsee jollakin tietyllä alueella.
T-jakauma on symmetrinen ja kellonmuotoinen, kuten normaalijakauma, mutta sillä on raskaampi häntä, mikä tarkoittaa, että se tuottaa herkemmin arvoja, jotka ovat kaukana keskiarvosta. Tämän vuoksi se on hyödyllinen, kun halutaan ymmärtää tietynlaisten satunnaismäärien suhteiden tilastollista käyttäytymistä, joissa nimittäjässä esiintyvä vaihtelu vahvistuu ja voi tuottaa poikkeavia arvoja, kun suhteen nimittäjä laskee lähelle nollaa. Studentin t-jakauma on yleistetyn hyperbolisen jakauman erikoistapaus.
Aiheeseen liittyvät sivut
- F-jakauma
Kysymyksiä ja vastauksia
K: Mikä on Studentin t-jakauma?
A: Studentin t-jakauma on todennäköisyysjakauma, jonka William Sealy Gosset kehitti vuonna 1908. Se kuvaa koko populaatiosta otettuja otoksia, ja mitä suurempi otoskoko on, sitä enemmän se muistuttaa normaalijakaumaa.
K: Kuka kehitti Studentin t-jakauman?
V: William Sealy Gosset kehitti Studentin t-jakauman vuonna 1908. Hän käytti salanimeä "Student", kun hän julkaisi sitä kuvaavan artikkelin.
Kysymys: Mihin Studentin t-jakaumaa voidaan käyttää?
V: Studentin t-jakaumalla on merkitystä monissa laajalti käytetyissä tilastollisissa analyyseissä, kuten Studentin t-testissä kahden otoskeskiarvon välisten erojen tilastollisen merkitsevyyden arvioimiseksi, luottamusvälien muodostamiseksi kahden populaatiokeskiarvon välisille eroille ja lineaarisessa regressioanalyysissä. Se esiintyy myös normaaliperheen tietojen Bayesin analyysissä.
Kysymys: Miten otoskoko vaikuttaa t-jakauman muotoon?
V: Mitä suurempi otoskoko on, sitä enemmän se muistuttaa normaalijakaumaa. Kullekin eri otoskoolle on olemassa sitä kuvaava yksilöllinen t-jakauma.
K: Onko opiskelijan T-jakauman ja normaalijakauman välillä mitään yhteyttä?
V: Kyllä - kun normaalijakaumat kuvaavat kokonaisia populaatioita, opiskelijan T-jakaumat kuvaavat kyseisistä populaatioista poimittuja otoksia; näin ollen niillä on yhtäläisyyksiä, mutta ne eroavat toisistaan niiden koosta riippuen. Kuten edellä mainittiin, suuremmilla otoksilla on taipumus näyttää enemmän normaalijakaumilta kuin pienemmillä.
Kysymys: Onko tälle jakaumatyypille olemassa jokin muu nimi?
V: Ei - tämä jakaumatyyppi tunnetaan nimellä "Studentin T-jakauma", joka on saanut nimensä sen kehittäjän William Sealy Gossetin mukaan, joka käytti salanimeä "Student" julkaistessaan sitä koskevan artikkelinsa.
Etsiä