Histogrammi – tilastotieteen jakaumakuva: määritelmä ja esimerkit
Histogrammi selitetty selkeästi: määritelmä, etymologia ja käytännön esimerkit tilastojen jakaumien visualisointiin. Opas aloittelijoille ja sovellusesimerkit.
Histogrammi on tilastotieteen käsite. Se on graafinen esitys, joka kertoo kyseessä olevien näytteiden jakaumasta. Ne ovat yleensä kuva, joka on tehty taulukosta, jossa on useita luokkia. Taulukko kertoo, kuinka monta näytettä kussakin luokassa on.
Sana histogrammi tulee kreikan kielen sanoista histos ja gramma. Histos tarkoittaa verkkoa tai mastoa. Gramma tarkoittaa piirtämistä, kirjaamista tai kirjoittamista. Histogrammi jostakin on siis etymologisesti ottaen piirros tämän jonkin verkosta.
Miten histogrammi rakennetaan
Histogrammin luomiseksi tarvitaan numeerinen aineisto (esim. mitatut arvot). Perusvaiheet ovat:
- Jaa havaintojen arvoalue sopiviin luokkiin (bin) eli luokkaväleihin.
- Laske, kuinka monta havaintoa kukin luokka sisältää (frekvenssi).
- Piirrä pystysuorat palkit, joiden leveys vastaa luokkaväliä ja korkeus frekvenssiä (tai tiheyttä).
Luokkien lukumäärään ja leveyteen vaikuttaa se, miten yksityiskohtaisen kuvan jakaumasta haluat. Yleisiä sääntöjä luokkien määrälle ovat esimerkiksi Sturgesin sääntö tai nyrkkisääntönä usein käytetty korkeus ≈ sqrt(n), missä n on havaintojen lukumäärä.
Tärkeitä käsitteitä
- Frekvenssi: havaintojen lukumäärä luokassa.
- Relatiivinen frekvenssi: frekvenssi jaettuna havaintojen kokonaismäärällä (prosentteina tai osuuksina).
- Tiheys: käytetään, jos luokkien leveydet poikkeavat toisistaan; palkin korkeus asetetaan frekvenssin ja luokkaleveyden suhteena, jolloin palkkien pinta-alat ovat vertailukelpoisia.
- Luokkavälien rajat: yleensä rajat määritellään siten, että luokat ovat joko vasemmalta inklusiivisia (sisältävät alarajan) tai oikealta inklusiivisia; käytä selkeää sääntöä ja ilmoita se tarvittaessa.
Tulkinta ja muoto
Histogrammista voi nähdä nopeasti jakauman muodon ja keskeiset piirteet:
- Symmetria ja vinous: Symmetrinen jakauma, oikealle vinoutunut (positiivinen skew) tai vasemmalle vinoutunut (negatiivinen skew).
- Modaalisuus: onko jakauma yhdenhuippuinen (unimodaalinen), kaksihuippuinen (bimodaalinen) vai monihuippuinen; useampi huippu voi viitata eri ryhmiin aineistossa.
- Hajonta ja ääripäät: laajat vai kapeat palkit kertovat hajonnasta; yksittäiset hyvin kaukana olevat havainnot voivat olla poikkeamia (outliers).
Esimerkki
Otetaan yksinkertainen esimerkki pituusmittauksista (cm): 160, 162, 165, 168, 170, 172, 175, 178, 180, 183. Valitaan luokat 160–169, 170–179 ja 180–189. Näiden frekvenssit ovat:
- 160–169: 4 havaintoa
- 170–179: 4 havaintoa
- 180–189: 2 havaintoa
Histogrammissa piirretään kolme vierekkäistä palkkia, joiden leveydet vastaavat luokkia ja korkeudet vastaavat frekvenssejä. Tästä nähdään, että aineisto on kohtuullisen keskittynyt luokkiin 160–179 cm, ja 180–189 cm on vain muutama havainto.
Erot pylväsdiagrammiin
Vaikka histogrammi näyttää pylväsdiagrammilta, niiden käyttötarkoitus poikkeaa:
- Histogrammi kuvaa jatkuvan numeerisen muuttujan jakaumaa; palkit ovat vierekkäin ja koskettavat toisiaan.
- Pylväsdiagrammi esittää kategorista muuttujaa (esim. eri luokat tai ryhmät); palkit ovat erillisiä.
Käytännön vinkkejä ja sudenkuopat
- Älä valitse liikaa tai liian vähän luokkia — molemmat voivat johtaa harhaan: liian vähän peittää yksityiskohdat, liian paljon näyttää kohinaa.
- Merkitse akselit selkeästi (luokkavälit ja frekvenssit tai suhteelliset frekvenssit) ja lisää tarvittaessa yksikkömerkintä.
- Jos luokkaleveydet vaihtelevat, käytä tiheysasteikkoa (palkin pinta-ala vastaa osuuden suuruutta).
- Ole varovainen akselin leikkauksissa tai manipuloiduissa mittakaavoissa, jotka voivat muuttaa tulkintaa.
Ohjelmistot ja jatkokehitys
Histogrammeja voi piirtää useilla työkaluilla: Excelissä, R:ssä (funktio hist()), Pythonissa (matplotlib.hist(), seaborn.histplot()) ja monissa muissa ohjelmissa. Histogrammin vaihtoehtona ja pehmeämpänä approksimaationa jakaumalle käytetään usein kernel density estimate-menetelmää (ydintiheysestimaatti), joka tuottaa jatkuvan käyrän jakautumasta.
Histogrammi on siis yksinkertainen mutta tehokas tapa havainnollistaa numeerisen aineiston jakaumaa ja sen piirteitä, kun luokkien valinta ja akselimerkinnät tehdään huolellisesti.

Esimerkki 100 normaalisti jakautuneen satunnaisarvon histogrammista
Samankaltaisia ideoita
Histogrammi on yksi laadunvalvonnan seitsemästä perustyökalusta, joihin kuuluvat myös Pareto-kaavio, tarkistuslista, valvontakaavio, syy-seuraus-kaavio, vuokaavio ja hajontakaavio.
Histogrammin yleistäminen on kernel-tasoitustekniikka. Näin saadaan tasainen todennäköisyystiheysfunktio annetuista tiedoista.
Kysymyksiä ja vastauksia
K: Mikä on histogrammi?
A: Histogrammi on graafinen esitys, joka kertoo kyseessä olevien näytteiden jakaumasta.
K: Mikä on histogrammin tarkoitus?
V: Histogrammin tarkoituksena on näyttää kyseessä olevien näytteiden jakauma.
K: Mitä sana histogrammi tarkoittaa?
V: Sana histogrammi tulee kreikan kielen sanoista histos ja gramma. Histos tarkoittaa verkkoa tai mastoa. Gramma tarkoittaa piirtämistä, kirjaamista tai kirjoittamista.
K: Mitä termi "histos" tarkoittaa kreikaksi?
V: Termi "histos" tarkoittaa kreikaksi verkkoa tai mastoa.
K: Mitä termi "gramma" tarkoittaa kreikaksi?
V: Termi "gramma" tarkoittaa kreikaksi piirtämistä, kirjaamista tai kirjoittamista.
K: Mikä on histogrammin yleinen piirre?
A: Histogrammin yhteinen piirre on taulukosta tehty kuva, jossa on monia luokkia.
K: Mitä tietoja histogrammitaulukko antaa?
A: Histogrammitaulukko antaa tietoa siitä, kuinka monta näytettä kussakin luokassa on.
Etsiä