Satunnainen metsä
Satunnaismetsä on tilastollinen algoritmi, jota käytetään tietojen pisteiden ryhmittelyyn toiminnallisiin ryhmiin. Kun datajoukko on suuri ja/tai muuttujia on paljon, datan klusterointi on vaikeaa, koska kaikkia muuttujia ei voida ottaa huomioon, joten algoritmi voi myös antaa tietyn todennäköisyyden sille, että jokin datapiste kuuluu tiettyyn ryhmään.
Algoritmin vaiheet
Näin klusterointi tapahtuu.
- Koko aineistosta otetaan osajoukko (harjoitusjoukko).
- Algoritmi ryhmittelee tiedot ryhmiin ja alaryhmiin. Jos piirtäisit viivoja alaryhmän datapisteiden välille ja viivoja, jotka yhdistävät alaryhmät ryhmään jne., rakenne muistuttaisi hieman puuta. Tätä kutsutaan päätöspuuksi.
- Ohjelma valitsee klusterin/puun/dendrogrammin jokaisessa jaossa tai solmussa muuttujat satunnaisesti sen arvioimiseksi, onko datapisteillä läheinen suhde vai ei.
- Ohjelma tekee useita puita eli metsän. Jokainen puu on erilainen, koska jokaisessa puun osassa muuttujat valitaan satunnaisesti.
- Sen jälkeen lopun tietokokonaisuuden (ei harjoitusjoukon) avulla ennustetaan, mikä metsän puu tekee parhaan luokituksen datapisteistä (tietokokonaisuudessa oikea luokitus on tiedossa).
- Algoritmin tuloksena näytetään puu, jolla on suurin ennustuskyky.
Algoritmin käyttäminen
Satunnaismetsäalgoritmissa kasvatettavien puiden lukumäärä (ntree) ja kussakin jaossa käytettävien muuttujien lukumäärä (mtry) voidaan valita käsin; esimerkkiasetukset ovat 500 puuta ja 71 muuttujaa.