Normaalijakauma (Gaussin jakauma) määritelmä, parametrit ja esimerkit
Normaalijakauma on todennäköisyysjakauma, jota kutsutaan myös Gaussin jakaumaksi, koska sen muodon analysoi ja popularisoi Carl Friedrich Gauss. Normaalijakauma on jatkuva todennäköisyysjakauma, ja se on erittäin tärkeä monilla tieteenaloilla, kuten tilastotieteessä, fysiikassa, psykologiassa ja taloustieteissä. Normaalijakaumat muodostavat jakaumien perheen, jolla on sama yleinen kellonmuotoinen muoto; yksittäiset jakaumat eroavat toisistaan sijainti- ja asteikkoparametriensa suhteen. Jakauman keskiarvo ("sijainti") määrittää käyrän keskikohdan ja keskihajonta ("asteikko") määrittää käyrän leveyden ja levällisyyden.
Tiheysfunktio (todennäköisyystiheys) normaalijakaumassa, parametrien keskiarvo μ ja keskihajonta σ (> 0) ollessa, on
f(x) = 1 / (σ √(2π)) · exp(−(x − μ)² / (2 σ²)), x ∈ (−∞, ∞).
Merkintä: varianssi on σ² ja jakaumaa merkitään usein N(μ, σ²). Tiheysfunktio on symmetrinen keskiarvon μ suhteen ja käyrä on yksihuippuinen (unimodaalinen).
Standardoitu normaalijakauma (Z-jakauma)
Normaalijakauma (tunnetaan myös nimellä Z-jakauma) on normaalijakauma, jonka keskiarvo on nolla ja varianssi yksi. Standardoidun normaalijakauman merkitään usein Z ~ N(0,1). Jos X ~ N(μ, σ²), niin muuttuja
Z = (X − μ) / σ
on N(0,1). Tämän avulla todennäköisyyksiä lasketaan standardinormaalijakauman kertymäfunktion Φ avulla: P(a < X < b) = Φ((b − μ)/σ) − Φ((a − μ)/σ). Standardinormaalin kertymäfunktiolle Φ käytetään taulukoita tai laskentaohjelmia.
Tärkeät ominaisuudet
- Symmetria: Jakauma on symmetrinen keskiarvon μ ympäri; keskiarvo = mediaani = moodi.
- Unimodaalisuus: Yksi huippu keskellä.
- Pitkät, mutta nopeasti vaimenevat hännät: Tiheys lähestyy nollaa, mutta ei koskaan ole täsmälleen nolla.
- Lineaarinen transformaatio: Jos X ~ N(μ, σ²), niin aX + b ~ N(aμ + b, a²σ²) kaikilla reaalisilla a, b.
- Summien normaalius: Riippumattomien normaalisti jakautuneiden muuttujien summat ovat normaaleja.
- Momentit: Keskihajonta on σ, varianssi σ²; kaikki korkeamman asteen momentit ovat määräytyviä normaalijakauman avulla.
Keskeinen raja-arvolause ja sovellukset
Monet luonnolliset ja inhimilliset ilmiöt noudattavat likimain normaalijakaumaa. Tämä selittyy keskeisellä raja-arvoteoreemalla, jonka mukaan kun satunnaisvaihtelujen lukumäärä kasvaa ja kun kokonaisvaikutus on monien riippumattomien pienten satunnaisten vaikutusten summa, summan jakauma lähestyy normaalijakaumaa. Tämän takia normaalijakauma kuvaa hyvin esim. mittausvirheitä ja biologisia ominaisuuksia.
Empiirinen sääntö (68–95–99,7)
- Noin 68 % havainnoista on välillä μ ± 1σ.
- Noin 95 % havainnoista on välillä μ ± 2σ.
- Noin 99,7 % havainnoista on välillä μ ± 3σ.
Kuinka lasketaan todennäköisyyksiä
Todennäköisyysvälit lasketaan kertymäfunktion Φ avulla. Esimerkiksi
P(a ≤ X ≤ b) = Φ((b − μ)/σ) − Φ((a − μ)/σ)).
Useimmat käytännön laskelmat tehdään taulukoilla, laskimella tai ohjelmistoilla (esim. R, Python). Standardointi Z=(X−μ)/σ on keskeinen laskutapa.
Esimerkkejä
- Korkeus: Aikuisten miesten pituudet voivat olla likimain normaalijakautuneita, esim. μ = 175 cm ja σ = 7 cm. Tällöin todennäköisyys, että mies on 168–182 cm, on likimain 68 %.
- Testitulokset: Monet pistemäärät standardoiduissa testeissä (esim. IQ) mallinnetaan normaalijakaumalla.
- Mittaustarkkuus: Instrumenttien mittausvirheet ovat usein normaalijakautuneita.
Esimerkkilaskelma
Olkoon X ~ N(170, 10²). Mikä on todennäköisyys, että X on välillä 160 ja 180?
Standardoidaan: Z1 = (160 − 170) / 10 = −1, Z2 = (180 − 170) / 10 = 1. Siten P(160 ≤ X ≤ 180) = Φ(1) − Φ(−1) ≈ 0.8413 − 0.1587 = 0.6826 (noin 68 %).
Parametrien estimaatio ja testit
Normaalijakauman parametrien estimaatio perustuu usein otoskeskiarvoon ja otosvarianssiin. Unbiased-estimaattorit:
- Otoskeskiarvo: x̄ = (1/n) Σ xi antaa estimaatin μ:lle.
- Otosvarianssi: s² = (1/(n−1)) Σ (xi − x̄)² on epäviivästyttävä estimaatti σ²:lle.
Normaalisuuden tarkistamiseen käytetään graafeja (Q–Q -plotit) ja tilastollisia testejä (esim. Shapiro–Wilk, Kolmogorov–Smirnov).Jos data ei ole normaalinen, voidaan harkita muunnoksia tai epäparametrisia menetelmiä.
Rajoitukset ja huomioitavaa
- Kaikki ilmiöt eivät ole normaalijakautuneita; esimerkiksi voimakkaasti vino tai raskashäntäinen aineisto ei sovi hyvin normaalimalliin.
- Pienissä otoksissa normaalisuuden olettaminen voi johtaa virheisiin; tällöin tulee käyttää sopivia testejä tai robustimpia menetelmiä.
Laajennuksia
Normaalijakauman monimuotoisuuksia ovat mm. monimuuttujainen normaali, jossa muuttujat muodostavat vektorijakauman, ja erilaiset rajoitetut tai painotetut variantit. Lisäksi normaalijakauma liittyy moniin muihin jakaumiin: esim. summien ja lineaaristen yhdistelmien kautta saadaan uusia normaaleja jakaumia.
Yhteenveto: Normaalijakauma on keskeinen, symmetrinen, kellomuotoinen jatkuva jakauma, joka kuvaa monia luonnollisia ilmiöitä ja jonka käsittely perustuu parametrien μ ja σ² tuntemiseen tai estimointiin. Standardointi Z = (X − μ)/σ tekee todennäköisyyslaskennasta käytännöllistä käyttämällä N(0,1)-jakaumaa.
Kysymyksiä ja vastauksia
K: Mikä on normaalijakauma?
V: Normaalijakauma on todennäköisyysjakauma, joka on erittäin tärkeä monilla tieteenaloilla.
K: Kuka löysi normaalijakauman?
A: Normaalijakauman löysi ensimmäisenä Carl Friedrich Gauss.
K: Mitä sijainti- ja asteikkoparametrit edustavat normaalijakaumissa?
V: Jakauman keskiarvo ("keskiarvo") määrittää sen sijainnin, ja keskihajonta ("vaihtelu") määrittää normaalijakauman asteikon.
K: Miten normaalijakaumien sijainti- ja asteikkoparametrit esitetään?
V: Normaalijakaumien keskiarvo ja keskihajonta esitetään symboleilla μ ja σ.
K: Mikä on vakionormaalijakauma?
V: Standardinormaalijakauma (tunnetaan myös nimellä Z-jakauma) on normaalijakauma, jonka keskiarvo on nolla ja keskihajonta yksi.
K: Miksi standardinormaalijakaumaa kutsutaan usein kellokäyräksi?
V: Standardinormaalijakaumaa kutsutaan usein kellokäyräksi, koska sen todennäköisyystiheyden kuvaaja näyttää kellolta.
K: Miksi monet arvot noudattavat normaalijakaumaa?
V: Monet arvot noudattavat normaalijakaumaa, koska keskusrajateorema sanoo, että jos tapahtuma on identtisten mutta satunnaisten tapahtumien summa, se on normaalijakautunut.