Tilastolliset virheet ja residuaalit: määritelmä, erot ja esimerkit

Selkeä opas tilastollisista virheistä ja residuaaleista: määritelmät, erot ja konkreettiset esimerkit otos- ja populaatiokeskiarvoilla — ymmärrä mittausvirheiden merkitys.

Tekijä: Leandro Alegsa

Tilastovirheitä ja residuaaleja esiintyy, koska mittaaminen ei ole koskaan tarkkaa.

Tarkkaa mittausta ei ole mahdollista tehdä, mutta on mahdollista sanoa, kuinka tarkka mittaus on. Samaa asiaa voidaan mitata yhä uudelleen ja uudelleen ja kerätä kaikki tiedot yhteen. Näin voimme tehdä tilastoja tiedoista. Virheillä ja jäännöksillä tarkoitetaan havaitun tai mitatun arvon ja todellisen arvon, joka on tuntematon, välistä eroa.

Jos satunnaismuuttujia on vain yksi, tilastovirheiden ja residuaalien välinen ero on perusjoukon keskiarvon ja (havaitun) otoksen keskiarvon välinen ero. Tällöin residuaali on todennäköisyysjakauman ja sen välillä, mitä todennäköisyysjakauma sanoo, ja sen välillä, mitä todellisuudessa mitattiin.

Oletetaan, että tehdään koe, jossa mitataan tietyllä alueella asuvien 21-vuotiaiden miesten pituutta. Jakauman keskiarvo on 1,75 m. Jos yksi satunnaisesti valittu mies on 1,80 m pitkä, "(tilastollinen) virhe" on 0,05 m (5 cm); jos hän on 1,70 m pitkä, virhe on -5 cm.

Residuaali (tai sovitusvirhe) on toisaalta havaittavissa oleva arvio havaitsemattomasta tilastollisesta virheestä. Yksinkertaisimmassa tapauksessa on kyse satunnaisotoksesta, jossa on n miestä, joiden pituudet mitataan. Otoskeskiarvoa käytetään populaation keskiarvon estimaattina. Tällöin meillä on:

  • Jokaisen otokseen kuuluvan miehen pituuden ja havaitsemattoman populaation keskiarvon välinen ero on tilastollinen virhe, ja
  • Jokaisen otokseen kuuluvan miehen pituuden ja havaittavan otoskeskiarvon välinen ero on residuaali.

Satunnaisotoksen jäännösten summan on oltava nolla. Jäännökset eivät siis ole riippumattomia. Satunnaisotoksen tilastollisten virheiden summan ei tarvitse olla nolla; tilastolliset virheet ovat riippumattomia satunnaismuuttujia, jos yksilöt valitaan perusjoukosta riippumattomasti.

Yhteenvetona:

Peruserot selkeästi

  • Tilastollinen virhe (true error): ero yksittäisen havaitun arvon y_i ja muuttujan todellisen populaatiokeskiarvon μ välillä. Kirjoitetaan y_i - μ. Tämä ero on teoreettinen: μ on yleensä tuntematon.
  • Residuaali (residual): ero havaintoyksikön y_i ja otoskeskiarvon ȳ (tai mallista ennustetun arvon) välillä. Kirjoitetaan e_i = y_i - ȳ tai regresiossa r_i = y_i - x_i'β̂. Residuaali on havaittavissa oleva arvio tuntemattomasta tilastollisesta virheestä.

Matemaattisia ominaisuuksia (yksinkertainen otoskeskiarvo)

Jos y_i (i = 1,...,n) ovat itsenäisiä ja identtisesti jakautuneita muuttujia odotusarvolla μ ja varianssilla σ^2, niin

  • Tilastollinen virhe: u_i = y_i - μ. E(u_i) = 0 ja Var(u_i) = σ^2. Nämä u_i ovat riippumattomia (riippuen otantatavasta).
  • Residuaali: e_i = y_i - ȳ. Residuaalit riippuvat otoskeskiarvosta, ja niiden summan täytyy olla nolla: Σ_i e_i = 0.
  • Residuaalien varianssi ja kovarianssi: Var(e_i) = σ^2 (1 - 1/n) ja Cov(e_i, e_j) = -σ^2 / n (i ≠ j). Tästä seuraa, että residuaalit eivät ole toisistaan riippumattomia.

Regressiomalli: virhe ja residuaali

Usein kiinnostuksen kohteena on lineaarinen regressiomalli:

y = Xβ + u,

missä u on todellinen virhetermi (tuntematon), ja β̂ on regressiokerrointen estimaatti (esim. pienimmän neliösumman menetelmässä, OLS). Residuaali on r = y - Xβ̂, ja se on havaittavissa oleva likimääräinen arvo u:sta.

Tuttuja ominaisuuksia OLS-residuaaleille (kun malli sisältää vakiotermin):

  • Σ_i r_i = 0 (residuaalien summa nolla).
  • Residuualit ovat ortogonaalisia regressoreille: X'r = 0, eli Σ_i r_i x_{ij} = 0 jokaiselle selittäjälle j.
  • Residuualien kovarianssimatriisi on σ^2 (I - H), missä H = X (X'X)^{-1} X' on niin sanottu leverage-matriisi (hat-matriisi). Diagonaali h_ii kuvaa havaintoyksikön vaikutusta (leverage); suuri h_ii tarkoittaa suurta vaikutusta.

Standardointi, studentisoidut residuaalit ja diagnostiset tunnusluvut

Residuualit kannattaa usein standardoida, jotta voidaan tunnistaa poikkeavia havaintoja ja arvioida sovituksen laatua:

  • Standardoitu residuaali: r_i / (s √(1 - h_ii)), missä s on estimaatti σ̂, ja h_ii on leverage.
  • Studentisoitu residuaali ottaa huomioon, että varianssi on arvioitu ilman havaintoa i: Studentized residual ≈ r_i / (σ̂_{(i)} √(1 - h_ii)).
  • Cookin etäisyys (Cook's distance) mittaa yksittäisen havainnon vaikutusta koko estimaattiin; suurten arvojen tutkiminen voi paljastaa vaikutusvaltaisia havaintoja.

Mittausten epätarkkuus ja mittausvirhe

On tärkeää erottaa kaksi käsitettä, jotka usein sekoitetaan:

  • Mittaustarkkuuden rajoitukset (measurement error): lukema voi olla virheellinen teknisen mittauksen takia (esim. vaakalukema, mittarin resoluutio). Tämä voi aiheuttaa sekä satunnaista että systemaattista virhettä.
  • Statistinen varianssi ja otantavirhe: variaatio yksilöiden ominaisuuksissa sekä ero populaatio- ja otoskeskien välillä. Tämä liittyy luonnolliseen vaihteluun ja otantaan.

Jos selittäjissä on mittausvirhettä (errors-in-variables), estimaatit voivat olla vinoutuneita (esim. vaimentuminen/beating-towards-zero), mikä on eri ongelma kuin residuaalien analysointi laadun tarkastelussa.

Esimerkkilaskelma (pituudet)

Otetaan pieni numeerinen esimerkki: havainnot 1.82, 1.70 ja 1.74 m (n = 3). Otoskeskiarvo ȳ = (1.82 + 1.70 + 1.74)/3 = 1.7533... m.

  • Tilastolliset virheet suhteessa populaation μ = 1.75 m: u = (0.07, -0.05, -0.01) m (olettaen että μ tunnettaisiin).
  • Residuaalit suhteessa otoskeskiarvoon: e = (1.82 - 1.7533..., 1.70 - 1.7533..., 1.74 - 1.7533...) ≈ (0.0667, -0.0533, -0.0133) m.
  • Residuaalien summa ≈ 0.0667 - 0.0533 - 0.0133 ≈ 0 (pyöristysten takia hyvin lähellä nollaa).

Käytännön ohjeet ja tulkinta

  • Residuualit kertovat, miten hyvin malli tai otos kuvaa yksittäisiä havaintoja. Suuret residuaalit voivat viitata mallin puutteisiin, poikkeaviin havaintoihin tai heteroskedastisuuteen.
  • Älä unohda, että residuaalit eivät ole itsenäisiä: niiden keskinäiset suhteet johtuvat estimaatin laskemisesta (esim. otoskeskiarvo tai β̂).
  • Diagnostiikka: piirrä residuaalit vs ennustetut arvot, residuaalit vs selittäjät, tee normaalisuus- ja heteroskedastisuustestit. Keskity myös leverage-havaintoihin ja vaikutusarvoihin.
  • Kun halutaan tehdä johtopäätöksiä populaatiosta, huomioi että residuaalit antavat vain arvion todellisista virheistä; varianssi- ja kovarianssiestimaatit korjaavat tätä arviointia (esim. jakauman assymptotiikka, vapausasteet).

Yhteenvetona

  • Tilastollinen virhe = havainto − todellinen populaatioarvo (teoreettinen ja yleensä tuntematon).
  • Residuaali = havainto − otoskeskiarvo tai ennustettu arvo (havaittavissa oleva arvio tilastollisesta virheestä).
  • Residuaalit summautuvat nollaan (jos malli sisältää vakiotermin) ja eivät ole riippumattomia, kun taas tilastolliset virheet ovat usein mallinnettu itsenäisiksi nollan odotusarvolla.
  • Regressiossa residuaalit ovat ortogonaalisia selittäjille ja niiden varianssi riippuu leverage-arvoista; niitä käytetään mallin diagnostiikassa, mutta niiden tulkintaan liittyy rajoituksia.

Jos haluat, voin lisätä lyhyen laskuesimerkin regressiosta (matemaalisin vaiheittain) tai näyttää, miten residuaalit lasketaan ja standardoidaan ohjelmistossa (esim. R:ssä tai Pythonissa).

Aiheeseen liittyvät sivut

Kysymyksiä ja vastauksia

Kysymys: Mitä tarkoitetaan tilastollisilla virheillä ja residuaaleilla?


V: Tilastovirheillä ja residuaaleilla tarkoitetaan havaitun tai mitatun arvon ja tuntemattoman todellisen arvon välistä eroa.

K: Miten mittauksen tarkkuutta voidaan mitata?


V: Samaa asiaa voidaan mitata uudelleen ja uudelleen ja kerätä kaikki tiedot yhteen. Näin voidaan tehdä tilastoja tiedoista, jotta voidaan määrittää, kuinka tarkka mittaus on.

K: Mikä on esimerkki tilastollisesta virheestä?


V: Esimerkki tilastollisesta virheestä olisi, jos tehtäisiin koe, jossa mitattaisiin tietyn alueen 21-vuotiaiden miesten pituutta, jonka odotettu keskiarvo olisi 1,75 metriä, mutta yksi satunnaisesti valittu mies olisi 1,80 metriä pitkä; tällöin "(tilastollinen) virhe" olisi 0,05 metriä (5 cm).

Kysymys: Mikä on esimerkki jäännöksestä?


V: Esimerkki residuaalista olisi, että jos olisi tehty koe, jossa mitattiin tietyn alueen 21-vuotiaiden miesten pituutta, jonka odotettu keskiarvo oli 1,75m, mutta yksi satunnaisesti valittu mies oli 1,70m pitkä; silloin residuaali (tai sovitusvirhe) olisi -0,05m (-5cm).

Kysymys: Ovatko residuaalit riippumattomia muuttujia?


V: Ei, satunnaisotoksen jäännösten summan on oltava nolla, joten ne eivät ole riippumattomia muuttujia.

K: Ovatko tilastolliset virheet riippumattomia muuttujia?


V: Kyllä, Satunnaisotoksen tilastollisten virheiden summan ei tarvitse olla nolla, joten ne ovat riippumattomia satunnaismuuttujia, jos yksilöt valitaan perusjoukosta riippumattomasti.

K: Onko mahdollista tehdä tarkkoja mittauksia?


V: Ei, ei ole mahdollista tehdä tarkkoja mittauksia, koska mittaus ei ole koskaan tarkka.


Etsiä
AlegsaOnline.com - 2020 / 2025 - License CC3