Histogrammi on tilastotieteen käsite. Se on graafinen esitys, joka kertoo kyseessä olevien näytteiden jakaumasta. Ne ovat yleensä kuva, joka on tehty taulukosta, jossa on useita luokkia. Taulukko kertoo, kuinka monta näytettä kussakin luokassa on.

Sana histogrammi tulee kreikan kielen sanoista histos ja gramma. Histos tarkoittaa verkkoa tai mastoa. Gramma tarkoittaa piirtämistä, kirjaamista tai kirjoittamista. Histogrammi jostakin on siis etymologisesti ottaen piirros tämän jonkin verkosta.

Miten histogrammi rakennetaan

Histogrammin luomiseksi tarvitaan numeerinen aineisto (esim. mitatut arvot). Perusvaiheet ovat:

  • Jaa havaintojen arvoalue sopiviin luokkiin (bin) eli luokkaväleihin.
  • Laske, kuinka monta havaintoa kukin luokka sisältää (frekvenssi).
  • Piirrä pystysuorat palkit, joiden leveys vastaa luokkaväliä ja korkeus frekvenssiä (tai tiheyttä).

Luokkien lukumäärään ja leveyteen vaikuttaa se, miten yksityiskohtaisen kuvan jakaumasta haluat. Yleisiä sääntöjä luokkien määrälle ovat esimerkiksi Sturgesin sääntö tai nyrkkisääntönä usein käytetty korkeus ≈ sqrt(n), missä n on havaintojen lukumäärä.

Tärkeitä käsitteitä

  • Frekvenssi: havaintojen lukumäärä luokassa.
  • Relatiivinen frekvenssi: frekvenssi jaettuna havaintojen kokonaismäärällä (prosentteina tai osuuksina).
  • Tiheys: käytetään, jos luokkien leveydet poikkeavat toisistaan; palkin korkeus asetetaan frekvenssin ja luokkaleveyden suhteena, jolloin palkkien pinta-alat ovat vertailukelpoisia.
  • Luokkavälien rajat: yleensä rajat määritellään siten, että luokat ovat joko vasemmalta inklusiivisia (sisältävät alarajan) tai oikealta inklusiivisia; käytä selkeää sääntöä ja ilmoita se tarvittaessa.

Tulkinta ja muoto

Histogrammista voi nähdä nopeasti jakauman muodon ja keskeiset piirteet:

  • Symmetria ja vinous: Symmetrinen jakauma, oikealle vinoutunut (positiivinen skew) tai vasemmalle vinoutunut (negatiivinen skew).
  • Modaalisuus: onko jakauma yhdenhuippuinen (unimodaalinen), kaksihuippuinen (bimodaalinen) vai monihuippuinen; useampi huippu voi viitata eri ryhmiin aineistossa.
  • Hajonta ja ääripäät: laajat vai kapeat palkit kertovat hajonnasta; yksittäiset hyvin kaukana olevat havainnot voivat olla poikkeamia (outliers).

Esimerkki

Otetaan yksinkertainen esimerkki pituusmittauksista (cm): 160, 162, 165, 168, 170, 172, 175, 178, 180, 183. Valitaan luokat 160–169, 170–179 ja 180–189. Näiden frekvenssit ovat:

  • 160–169: 4 havaintoa
  • 170–179: 4 havaintoa
  • 180–189: 2 havaintoa

Histogrammissa piirretään kolme vierekkäistä palkkia, joiden leveydet vastaavat luokkia ja korkeudet vastaavat frekvenssejä. Tästä nähdään, että aineisto on kohtuullisen keskittynyt luokkiin 160–179 cm, ja 180–189 cm on vain muutama havainto.

Erot pylväsdiagrammiin

Vaikka histogrammi näyttää pylväsdiagrammilta, niiden käyttötarkoitus poikkeaa:

  • Histogrammi kuvaa jatkuvan numeerisen muuttujan jakaumaa; palkit ovat vierekkäin ja koskettavat toisiaan.
  • Pylväsdiagrammi esittää kategorista muuttujaa (esim. eri luokat tai ryhmät); palkit ovat erillisiä.

Käytännön vinkkejä ja sudenkuopat

  • Älä valitse liikaa tai liian vähän luokkia — molemmat voivat johtaa harhaan: liian vähän peittää yksityiskohdat, liian paljon näyttää kohinaa.
  • Merkitse akselit selkeästi (luokkavälit ja frekvenssit tai suhteelliset frekvenssit) ja lisää tarvittaessa yksikkömerkintä.
  • Jos luokkaleveydet vaihtelevat, käytä tiheysasteikkoa (palkin pinta-ala vastaa osuuden suuruutta).
  • Ole varovainen akselin leikkauksissa tai manipuloiduissa mittakaavoissa, jotka voivat muuttaa tulkintaa.

Ohjelmistot ja jatkokehitys

Histogrammeja voi piirtää useilla työkaluilla: Excelissä, R:ssä (funktio hist()), Pythonissa (matplotlib.hist(), seaborn.histplot()) ja monissa muissa ohjelmissa. Histogrammin vaihtoehtona ja pehmeämpänä approksimaationa jakaumalle käytetään usein kernel density estimate-menetelmää (ydintiheysestimaatti), joka tuottaa jatkuvan käyrän jakautumasta.

Histogrammi on siis yksinkertainen mutta tehokas tapa havainnollistaa numeerisen aineiston jakaumaa ja sen piirteitä, kun luokkien valinta ja akselimerkinnät tehdään huolellisesti.