Suurten lukujen laki (LLN) on tilastotieteen lause. Tarkastellaan jotakin prosessia, jossa esiintyy satunnaisia tuloksia, esimerkiksi samaa satunnaismuuttujaa havaitaan toistuvasti. Tällöin havaittujen arvojen näytteiden keskiarvo käyttäytyy ennustettavasti: pitkällä aikavälillä havaittujen arvojen keskiarvo tulee yhä lähemmäksi satunnaismuuttujan odotusarvoa. Tämä on LLN:n perusajatus.
Muodollisemmin voidaan sanoa, että jos X1, X2, ... ovat riippumattomia ja identtisesti jakautuneita (i.i.d.) satunnaismuuttujia, joilla on loppuhyväksytty odotusarvo μ = E[X1], niin otoskeskiarvo
X̄n = (X1 + X2 + ... + Xn) / n
konvergoituu arvoon μ, kun havaintojen lukumäärä n → ∞. On kaksi yleisesti käytettyä muotoa:
- Heikko suurten lukujen laki (convergence in probability): X̄n → μ todennäköisyydessä.
- Vahva suurten lukujen laki (almost sure convergence): X̄n → μ melkein varmasti (eli poikkeuksellinen tapahtumasarja on todennäköisyydeltään nolla).
Millä ehdoilla laki pätee?
Perusehto on, että jokaisella havaittavalla muuttujalla on lopullinen odotusarvo (E[X] on äärellinen). Useimmin oletetaan myös riippumattomuus ja identtinen jakauma, mutta on olemassa versioita, jotka sallivat heikompia riippuvuuksia tai hieman vaihtelevia jakaumia. Jos odotusarvoa ei ole (esim. Cauchyn jakauma), LLN ei päde samalla tavalla.
Miksi keskiarvo vakiintuu?
Keskiarvo vakiintuu, koska satunnaisten poikkeamien positiiviset ja negatiiviset vaikutukset kumoavat toisiaan suurilla otoskooilla. Samalla yksittäisten havaintojen vaikutus koko keskiarvoon pienenee — yhden uuden havainnon osuus on 1/n, joten kun n kasvaa, yksittäinen sattuma muuttaa keskiarvoa yhä vähemmän. Käytännössä hajonta näytteiden keskiarvon ympärillä pienenee suhteessa n:n neliöjuureen: tyypillinen ero X̄n ja μ:n välillä on suurusluokkaa σ/√n, missä σ on yksittäisten havaintojen keskihajonta.
Noppaesimerkki
Kun noppaa heitetään, numerot 1, 2, 3, 4, 5 ja 6 ovat mahdollisia tuloksia ja oletetaan, että ne ovat yhtä todennäköisiä. Tulosten populaatiokeskiarvo (tai "odotusarvo") on:
(1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5.
Jos lasketaan nopan tuloksen varianssi, saadaan Var(X) = 35/12 ≈ 2.9167, joten yksittäisen heiton keskihajonta on σ ≈ 1.7078. Näin otoskeskiarvon tyypillinen poikkeama odotusarvosta on noin 1.7078 / √n. Esimerkiksi, jos halutaan että keskiarvo on tyypillisesti korkeintaan 0.1 yksikköä etäällä 3.5:stä, tarvittava otoskoko on suunnilleen n ≈ (1.7078/0.1)^2 ≈ 292. Tämä selittää ilmiön, jonka näkee usein simulaatioissa: alussa keskiarvo hyppii paljon, mutta kun heittojen lukumäärä kasvaa sataan, tuhanteen tai enemmän, keskiarvo vakiintuu yhä lähemmäksi arvoa 3.5.
LLN kertoo siis miksi toistuvissa kokeissa keskiarvo on luotettava estimaatti odotusarvolle, kun otoskoko on riittävän suuri. Tätä täydentää keskeinen raja-arvolause (CLT), joka kuvaa, miten X̄n jakautuu suurilla n:llä (lähestyy normaalijakaumaa, jonka hajonta on σ/√n), ja tarjoaa siten myös tavan arvioida todennäköisyyksiä ja luottamusvälejä.
