Keskinäinen informaatio mittaa, kuinka paljon enemmän tiedetään yhdestä satunnaisarvosta, kun sille annetaan toinen arvo. Esimerkiksi tietämällä satunnaisen vuodenpäivän lämpötilan ei voi paljastaa, mikä kuukausi on kyseessä, mutta se antaa jonkinlaisen vihjeen. Samoin tieto siitä, mikä kuukausi on, ei paljasta tarkkaa lämpötilaa, mutta tekee tietyt lämpötilat todennäköisemmiksi tai epätodennäköisemmiksi. Nämä vihjeet tai todennäköisyyden muutokset selitetään ja mitataan keskinäisellä informaatiolla.

 

Määritelmä

Diskreettien satunnaismuuttujien X ja Y keskinäinen informaatio I(X;Y) voidaan kirjoittaa usealla yhtäpitävällä tavalla:

  • I(X;Y) = H(X) − H(X|Y)
  • I(X;Y) = H(Y) − H(Y|X)
  • I(X;Y) = H(X) + H(Y) − H(X,Y)
  • tai integraalimuodossa jatkuville muuttujille: I(X;Y) = ∫∫ p(x,y) log (p(x,y) / (p(x)p(y))) dx dy.

Tässä H merkitsee Shannonin entropiaa (diskreetillä muuttujalla) ja H(·|·) ehdollista entropiaa. Logaritmin kanta määrää yksikön: log2 → bittejä, ln → nats.

Keskeiset ominaisuudet

  • Symmetria: I(X;Y) = I(Y;X).
  • Ei-negatiivisuus: I(X;Y) ≥ 0, ja I(X;Y) = 0 täsmälleen silloin kun X ja Y ovat tilastollisesti riippumattomia.
  • Yläraja: I(X;Y) ≤ min(H(X), H(Y)).
  • Ketjusääntö: I(X; Y, Z) = I(X; Z) + I(X; Y | Z), missä I(X;Y|Z) on ehdollinen keskinäinen informaatio.
  • Data processing -epätasa-arvo: jos X → Y → Z on Markovin ketju, niin I(X;Z) ≤ I(X;Y) (informaation säilymättömyys prosessoinnissa).

Tulkinta ja esimerkit

Keskinäinen informaatio kertoo, kuinka monta bittiä keskimäärin yksi muuttuja paljastaa toisesta. Se ei pelkästään mittaa lineaarista yhteyttä (kuten korrelaatio), vaan kaikenlaista tilastollista riippuvuutta.

Yksinkertainen diskreetti esimerkki: jos X on tasajakoinen bitti (0/1) ja Y = X XOR N, missä N on virhebitti Bernoulli(p) riippumaton X:stä, niin tätä kutsutaan binääriseksi symmetriseksi kanavaksi. Jos X on tasajakoinen, niin I(X;Y) = 1 − H_b(p), missä H_b on binäärinentropia.

Jatkuva esimerkki (gaussinen): kahdella nollakeskiarvoisella, yksikkövarianssilla ja korrelaatiolla ρ varustetulla yhteisgaussisella muuttujaparilla X ja Y pätee

I(X;Y) = −(1/2) log(1 − ρ²) (logaritmi kantaan riippuen bittien tai natien yksiköstä).

Käytännön esimerkki kuukausi–lämpötila: kuukausi (diskreetti muuttuja) pienentää lämpötilan epävarmuutta: H(temperature) − H(temperature | month) = I(month; temperature). Suuri I kertoo, että kuukausi antaa paljon tietoa lämpötilasta (esim. paikassa, jossa vuodenajat erottuvat voimakkaasti).

Arviointi käytännössä

  • Plug-in / histogrammi: diskreetillä datalla tai diskretoinnin kautta laskettu frekvensseihin perustuva estimaatti.
  • KNN-pohjaiset menetelmät: Kraskovin tyyppiset estimaattorit jatkuville muuttujille toimivat usein hyvin pienillä datamäärillä.
  • Kerneti- ja tiheysestimaatit: pariksi arvioitua tiheyttä käytetään integraalin numeeriseen arviointiin.
  • Huomio: jatkuvien muuttujien mutual informationin estimointi vaatii huolellista valintaa (diskretointi, smoothing), koska yksinkertaiset estimaatit voivat olla vinoutuneita tai datarajoitteiset.

Sovellukset

  • Kommunikaatioteoria: kanavan kapasiteetti on maksimoitu keskinäisen informaation yli syötemäärityksillä.
  • Ominaisuuksien valinta koneoppimisessa: käytetään muuttujien relevanttisuuden mittaamiseen suhteessa luokkaan.
  • Neurotiede: hermosignaalien ja ärsykkeiden riippuvuuden mittaaminen.
  • Riippuvuuksien etsiminen ja klusterointi: riippumattomien komponenttien erottelu (ICA) ja tietoon perustuva klusterointi.

Laajennuksia

  • Ehdollinen keskinäinen informaatio: I(X;Y|Z) mittaa X:n ja Y:n välistä informaatiota kun Z tunnetaan.
  • Normalisoidut mittarit: joskus käytetään I(X;Y)/H(X,Y) tai muita normalisointeja, jotta eri muuttujapareja voi verrata skaalariherkkyydestä riippumatta.

Keskinäinen informaatio on voimakas ja yleiskäyttöinen käsite riippuvuuden kvantifiointiin. Sen tulkinta on intuitiivinen (kuinka paljon toisen tiedon etu pienentää epävarmuutta toisesta), mutta laskennallinen arviointi ja tulkinta vaativat usein huolellisuutta käytännön datassa.