Pienimmät neliöt – määritelmä, historia ja sovellukset matematiikassa

Pienimmät neliöt: selkeä määritelmä, historian avainhetket (Gauss, Legendre) ja käytännön sovellukset tilastoissa, datamallinnuksessa ja insinööritieteissä.

Pienimmät neliöt on matematiikassa käytetty menetelmä, jolla muodostetaan funktio useista havaituista arvoista. Perusajatuksena on rakentaa funktio siten, että havaitun arvon ja sen datapisteen välisen erotuksen summa minimoidaan. Koska erotus voi olla kumpaankin suuntaan, erotuksen arvo neliöityy kunkin arvon osalta. Menetelmä antaa erityisen luonnollisen ratkaisun tilanteisiin, joissa mittausvirheet tai satunnaisvaihtelu oletetaan keskimäärin nollaksi ja virheiden varianssi halutaan minimoida keskitetysti.

Määritelmä ja periaate

Pienimpien neliöiden menetelmä pyrkii löytämään parametrivektorin β, joka minimoi neliöllisen virhesumman

S(β) = Σ_i (y_i − f(x_i; β))^2,

missä (x_i, y_i) ovat havaintopisteitä ja f(x; β) on malli, esimerkiksi lineaarimalli f(x; β) = β_0 + β_1 x. Neliöinti tekee virheistä aina ei-negatiivisia ja korostaa suuria poikkeamia, minkä vuoksi menetelmä on herkkä niin kutsutuille poikkeaville arvoille (outliers).

Matemaattinen muotoilu (lineaarinen tapaus)

Lineaarisessa regressiossa malli esitetään matriisimuodossa y = Xβ + ε, jossa y on havaintoja sisältävä vektori, X on suunnittelu- eli regressiomatriisi, β on tuntematon parametri ja ε on virhetermi. Pienimmät neliöt -estimaatti saadaan minimoimalla ||y − Xβ||^2, ja suljetun muodon ratkaisu on

β̂ = (Xᵀ X)⁻¹ Xᵀ y,

olettaen että Xᵀ X on kääntyvä. Numeraalisesti vakaammat ja suositellut laskutavat ovat QR-hajotelma tai singular value decomposition (SVD), jotka välttävät suoria matriisin käänteisoperaatioita ja parantavat tarkkuutta varsinkin korreloituneissa tai lähes singularisissa tilanteissa.

Painotetut pienimmät neliöt ja epälineaarinen sovitus

Jos eri havaintojen varianssit eroavat toisistaan, käytetään usein painotettuja pienimpiä neliöitä, joissa kukin termi kerrotaan painolla w_i ja minimoidaan Σ_i w_i (y_i − f(x_i; β))^2. Epälineaarisissa malleissa (esim. eksponentti-, logaritmi- tai fysikaaliset mallit) minimointi tapahtuu iteratiivisesti käyttäen esimerkiksi Gauss–Newton- tai Levenberg–Marquardt-menetelmiä.

Oletukset ja tulkinta

Virhetermi ε oletetaan usein keskiarvoltaan nollaksi (E[ε]=0) ja homogeeniseksi (saman varianssin omaavaksi) sekä riippumattomiksi havainnoista.
Pienimmät neliöt antavat pistetestimatriisin pienimmän varianssin lineaaristen, epävinoutuneiden estimaattorien joukossa silloin, kun virheet ovat normaalijakautuneita (Gauss–Markovin lause ja Gaussin vähimmän neliön estimoinnin optimaalisuus normaalijakaumassa).
Herkkä poikkeaville arvoille: suuria virheitä rangaistaan neliöllä voimakkaasti, joten poikkeavat havainnot voivat vääristää estimaatteja.

Ratkaisutavat ja numeerinen toteutus

Tavallisia toteutustapoja ovat

Analyyttinen ratkaisu normaaliequaatioista β̂ = (Xᵀ X)⁻¹ Xᵀ y (nopea, mutta voi olla numeerisesti epävakaa).
QR-hajotelma: stabiili ja suositeltava laskennallinen tapa, erityisesti kun X:n sarakkeet ovat lähellä lineaarisesti riippuvaisia.
SVD (singular value decomposition): tarjoaa parhaan numeerisen vakauden ja mahdollistaa myös pseudoinverssin käytön, kun Xᵀ X ei ole kääntyvä.

Sovellukset

Pienimmät neliöt ovat keskeinen työkalu monilla aloilla:

Tilastollinen regressio ja ennustemallinnus
Signaalinkäsittely ja estimaattorit
Fysiikan ja tekniikan mittaussovellukset, joissa halutaan sovittaa teoreettinen malli mittaustuloksiin
Geodeettiset laskelmat ja täsmäytykset (esim. paikannus- ja kartoitusongelmat)
Koneoppiminen: lineaarinen regressio toimintaesimerkkinä ja osa monimutkaisempia menetelmiä (esim. ridge, lasso)

Historia

Carl Friedrich Gauss sanoi kehittäneensä menetelmän vuonna 1795. Hän käytti sitä kadonneen asteroidin 1 Ceresin löytämiseen ja julkaisi sen vuonna 1807. Hän käytti Pierre-Simon Laplacen ideoita. Adrien-Marie Legendre kehitti saman menetelmän itsenäisesti vuonna 1805.

Lisäksi historialliseen kehitykseen liittyy pitkä ketju havaintojen käsittelystä ja numeerisista menetelmistä 1800- ja 1900-luvuilla. Gaussin ja Legenden alkuperäisten ajatusten jälkeen menetelmää on laajennettu painotettuihin ja epälineaarisiin muotoihin, ja nykyaikaiset laskentamenetelmät ovat tehneet siitä käytännöllisen suurille aineistoille.

Rajoitukset ja vaihtoehdot

Pienimmät neliöt eivät aina ole paras valinta: jos datassa on paljon poikkeavia arvoja tai virhejakauma on hyvin ei-normaali (esim. pitkä häntä), vaihtoehdot kuten pienimmät absoluttiset virheet (L1), robustit estimaattorit tai mallin regularisointi (ridge, lasso) voivat tuottaa parempia, stabiilimpia tuloksia. Lisäksi kompleksisissa riippuvuuksissa kannattaa harkita ei-lineaarisia malleja tai ei-parametrisia menetelmiä.

Yhteenveto

Pienimmät neliöt on monipuolinen, teoreettisesti perusteltu ja laajasti käytetty menetelmä datan sovittamiseen sekä parametrien estimaatioon. Sen ymmärtäminen, oikea käyttäminen ja tietoinen sovitusongelman valinta (esim. painotettu, robusti tai regularisoitu lähestymistapa) ovat avainasemassa luotettavien tulosten saavuttamiseksi.