Keskinäinen informaatio — määritelmä ja esimerkit

Keskinäinen informaatio: selkeä määritelmä ja havainnolliset esimerkit siitä, miten yhden muuttujan tieto vähentää toisen epävarmuutta.

Tekijä: Leandro Alegsa

Keskinäinen informaatio mittaa, kuinka paljon enemmän tiedetään yhdestä satunnaisarvosta, kun sille annetaan toinen arvo. Esimerkiksi tietämällä satunnaisen vuodenpäivän lämpötilan ei voi paljastaa, mikä kuukausi on kyseessä, mutta se antaa jonkinlaisen vihjeen. Samoin tieto siitä, mikä kuukausi on, ei paljasta tarkkaa lämpötilaa, mutta tekee tietyt lämpötilat todennäköisemmiksi tai epätodennäköisemmiksi. Nämä vihjeet tai todennäköisyyden muutokset selitetään ja mitataan keskinäisellä informaatiolla.

 

Määritelmä

Diskreettien satunnaismuuttujien X ja Y keskinäinen informaatio I(X;Y) voidaan kirjoittaa usealla yhtäpitävällä tavalla:

  • I(X;Y) = H(X) − H(X|Y)
  • I(X;Y) = H(Y) − H(Y|X)
  • I(X;Y) = H(X) + H(Y) − H(X,Y)
  • tai integraalimuodossa jatkuville muuttujille: I(X;Y) = ∫∫ p(x,y) log (p(x,y) / (p(x)p(y))) dx dy.

Tässä H merkitsee Shannonin entropiaa (diskreetillä muuttujalla) ja H(·|·) ehdollista entropiaa. Logaritmin kanta määrää yksikön: log2 → bittejä, ln → nats.

Keskeiset ominaisuudet

  • Symmetria: I(X;Y) = I(Y;X).
  • Ei-negatiivisuus: I(X;Y) ≥ 0, ja I(X;Y) = 0 täsmälleen silloin kun X ja Y ovat tilastollisesti riippumattomia.
  • Yläraja: I(X;Y) ≤ min(H(X), H(Y)).
  • Ketjusääntö: I(X; Y, Z) = I(X; Z) + I(X; Y | Z), missä I(X;Y|Z) on ehdollinen keskinäinen informaatio.
  • Data processing -epätasa-arvo: jos X → Y → Z on Markovin ketju, niin I(X;Z) ≤ I(X;Y) (informaation säilymättömyys prosessoinnissa).

Tulkinta ja esimerkit

Keskinäinen informaatio kertoo, kuinka monta bittiä keskimäärin yksi muuttuja paljastaa toisesta. Se ei pelkästään mittaa lineaarista yhteyttä (kuten korrelaatio), vaan kaikenlaista tilastollista riippuvuutta.

Yksinkertainen diskreetti esimerkki: jos X on tasajakoinen bitti (0/1) ja Y = X XOR N, missä N on virhebitti Bernoulli(p) riippumaton X:stä, niin tätä kutsutaan binääriseksi symmetriseksi kanavaksi. Jos X on tasajakoinen, niin I(X;Y) = 1 − H_b(p), missä H_b on binäärinentropia.

Jatkuva esimerkki (gaussinen): kahdella nollakeskiarvoisella, yksikkövarianssilla ja korrelaatiolla ρ varustetulla yhteisgaussisella muuttujaparilla X ja Y pätee

I(X;Y) = −(1/2) log(1 − ρ²) (logaritmi kantaan riippuen bittien tai natien yksiköstä).

Käytännön esimerkki kuukausi–lämpötila: kuukausi (diskreetti muuttuja) pienentää lämpötilan epävarmuutta: H(temperature) − H(temperature | month) = I(month; temperature). Suuri I kertoo, että kuukausi antaa paljon tietoa lämpötilasta (esim. paikassa, jossa vuodenajat erottuvat voimakkaasti).

Arviointi käytännössä

  • Plug-in / histogrammi: diskreetillä datalla tai diskretoinnin kautta laskettu frekvensseihin perustuva estimaatti.
  • KNN-pohjaiset menetelmät: Kraskovin tyyppiset estimaattorit jatkuville muuttujille toimivat usein hyvin pienillä datamäärillä.
  • Kerneti- ja tiheysestimaatit: pariksi arvioitua tiheyttä käytetään integraalin numeeriseen arviointiin.
  • Huomio: jatkuvien muuttujien mutual informationin estimointi vaatii huolellista valintaa (diskretointi, smoothing), koska yksinkertaiset estimaatit voivat olla vinoutuneita tai datarajoitteiset.

Sovellukset

  • Kommunikaatioteoria: kanavan kapasiteetti on maksimoitu keskinäisen informaation yli syötemäärityksillä.
  • Ominaisuuksien valinta koneoppimisessa: käytetään muuttujien relevanttisuuden mittaamiseen suhteessa luokkaan.
  • Neurotiede: hermosignaalien ja ärsykkeiden riippuvuuden mittaaminen.
  • Riippuvuuksien etsiminen ja klusterointi: riippumattomien komponenttien erottelu (ICA) ja tietoon perustuva klusterointi.

Laajennuksia

  • Ehdollinen keskinäinen informaatio: I(X;Y|Z) mittaa X:n ja Y:n välistä informaatiota kun Z tunnetaan.
  • Normalisoidut mittarit: joskus käytetään I(X;Y)/H(X,Y) tai muita normalisointeja, jotta eri muuttujapareja voi verrata skaalariherkkyydestä riippumatta.

Keskinäinen informaatio on voimakas ja yleiskäyttöinen käsite riippuvuuden kvantifiointiin. Sen tulkinta on intuitiivinen (kuinka paljon toisen tiedon etu pienentää epävarmuutta toisesta), mutta laskennallinen arviointi ja tulkinta vaativat usein huolellisuutta käytännön datassa.

Keskinäisen informaation laskeminen

Tarvittavat tiedot

Keskinäisen informaation laskemiseksi tarvitaan kaikkien mahdollisten tapahtumien todennäköisyys (mahdollisuus) ja todennäköisyys, että ne tapahtuvat samanaikaisesti. Esimerkiksi kuukauden ja lämpötilan keskinäisen informaation mittaamiseksi meidän on tiedettävä, kuinka monena päivänä vuodessa on 10 astetta, kuinka monena päivänä vuodessa on maaliskuu ja kuinka monena päivänä maaliskuussa on 10 astetta.

Kaava

Kaava edellyttää useiden termien tai lukujen yhteenlaskemista tai laskemista. Jokaisella mahdollisella lopputuloksella on oma terminsä. Edellä esitetystä kuukauden ja lämpötilan välisen keskinäisen informaation laskennasta käytämme seuraavia muuttujia:

  • p(x,y) = todennäköisyys sille, että kuukaudessa y on x astetta celsiusta.
  • t(x) = todennäköisyys sille, että lämpötila on x astetta Celsiusta (minä tahansa päivänä vuodesta).
  • m(y) = todennäköisyys, että kyseessä on kuukausi y.

Tämä tarkoittaa, että m(3) on yhtä suuri kuin todennäköisyys sille, että satunnaisesti valittu päivä on maaliskuussa. Tämä on 31/365 eli noin 0,085, koska vuoden 365 päivästä 31 on maaliskuussa.

Yksi termi olisi seuraava:

p ( x , y ) log ( p ( x , y ) t ( x ) m ( y ) ) ) {\displaystyle p(x,y)\log {\left({\frac {p(x,y)}{t(x)m(y)}}\right)}\,\! } {\displaystyle p(x,y)\log {\left({\frac {p(x,y)}{t(x)m(y)}}\right)}\,\!}

Tässä kaavassa "log" tarkoittaa logaritmia.

Kun kaikki mahdolliset termit lasketaan yhteen, saadaan keskinäisen informaation arvo.

 

Keskinäisen informaation ymmärtäminen

Mahdolliset arvot

Mitä suurempi keskinäinen informaatio on, sitä enemmän saat tietää yhdestä satunnaisarvosta (esim. kuukausi), kun kerrot toisesta arvosta (esim. lämpötila).

  • Jos keskinäinen informaatio on nolla, et voi määrittää mitään yhdestä arvosta, kun annat toisen arvon.
    • Esimerkiksi se, että tiedät, saitko viimeksi kolikonheitossa kruunaa vai klaavaa, ei kerro mitään siitä, mitä tapahtuu seuraavalla kerralla.
  • Jos keskinäinen informaatio on pientä, keskinäistä informaatiota ei välttämättä ole lainkaan. Joskus satunnaistapahtumilla näyttää olevan kuvio lyhyellä aikavälillä, mutta kaiken kaikkiaan keskinäistä informaatiota ei ole.
  • Jos keskinäinen informaatio on suuri, kahden tarkasteltavan asian välillä on todennäköisesti jokin yhteys.
    • Koska lämpötila ja kuukausi ovat yhteydessä toisiinsa, niiden keskinäinen informaatio olisi paljon suurempi kuin nolla.
    • Ei ole helppoa tietää, onko keskinäinen informaatio merkittävää tai suurta.
  • Jos keskinäinen informaatio on yksi, yhden arvon tunteminen kertoo täsmälleen toisen arvon.
    • Jos esimerkiksi luokassa valitaan satunnainen pulpetti, opettaja voi tietää tarkalleen, mikä oppilas istuu siinä. Kun tiedetään, mikä pulpetti on valittu, tiedetään tarkalleen, mikä oppilas on liitetty siihen.

Tärkeitä tietoja

Keskinäinen informaatio ei muutu sen mukaan, kumpi kahdesta satunnaisarvosta paljastuu. Tämä tarkoittaa, että tiedämme yhtä paljon lämpötilasta, kun meille kerrotaan kuukausi, kuin tiedämme kuukaudesta, kun meille kerrotaan lämpötila.

Keskinäistä tietoa on vaikea verrata. Jos laskemme keskinäisen informaation säälle ja toisen arvon korttipelille, näitä kahta arvoa ei voi helposti verrata toisiinsa.

 

Aiheeseen liittyvät sivut

  • Tietoteoria
 


Etsiä
AlegsaOnline.com - 2020 / 2025 - License CC3