Vahvistusoppiminen

Vahvistusoppimisen taustalla oleva biologia löytyy osoitteesta Operantti ehdollistuminen ja palkitseminen.

Vahvistusoppiminen (Reinforcement Learning, RL) on ohjelmiston agentin opettamista käyttäytymään ympäristössä kertomalla sille, miten hyvin se toimii. Se on behavioristisen psykologian innoittama koneoppimisen osa-alue.

Vahvistettu oppiminen eroaa valvotusta oppimisesta, koska oikeita syötteitä ja tuotoksia ei koskaan näytetä. Lisäksi vahvistusoppiminen oppii yleensä sitä mukaa kuin se tapahtuu (verkko-oppiminen), toisin kuin valvottu oppiminen. Tämä tarkoittaa, että agentin on valittava, kokeileeko se vai pitäytyykö se siinä, mitä se parhaiten tietää.

Johdanto

Vahvistusoppimisjärjestelmä koostuu toimintaperiaatteesta ( π {\displaystyle \pi }{\displaystyle \pi } ), palkitsemisfunktiosta ( R {\displaystyle R}{\displaystyle R} ), arvofunktiosta ( v {\displaystyle v}{\displaystyle v} ) ja valinnaisesta ympäristömallista.

Politiikassa kerrotaan asiamiehelle, miten toimia tietyssä tilanteessa. Se voi olla yksinkertainen sääntötaulukko tai monimutkainen oikean toiminnan etsiminen. Toimintaperiaatteet voivat olla jopa stokastisia, mikä tarkoittaa, että sääntöjen sijasta toimintaperiaatteissa annetaan kullekin toiminnalle todennäköisyys. Politiikka itsessään voi saada agentin tekemään asioita, mutta se ei voi oppia itsestään.

Palkitsemisfunktio määrittelee agentin tavoitteen. Se ottaa vastaan tilan (tai tilan ja siinä suoritetun toiminnan) ja antaa takaisin palkkioksi kutsutun luvun, joka kertoo agentille, kuinka hyvä on olla kyseisessä tilassa. Agentin tehtävänä on saada mahdollisimman suuri palkkio pitkällä aikavälillä. Jos toiminta tuottaa alhaisen palkkion, agentti todennäköisesti tekee tulevaisuudessa paremman toiminnan. Biologia käyttää palkkiosignaaleja, kuten mielihyvää tai kipua, varmistaakseen, että eliöt pysyvät hengissä lisääntyäkseen. Palkintosignaalit voivat olla myös stokastisia, kuten kasinon peliautomaatti, joka joskus maksaa ja joskus ei.

Arvofunktio kertoo agentille, kuinka paljon se saa palkkiota, kun se noudattaa politiikkaa π {\displaystyle \pi }{\displaystyle \pi } alkaen tilasta s {\displaystyle s}{\displaystyle s} . Se kuvaa sitä, kuinka toivottavaa on olla tietyssä tilassa. Koska arvofunktiota ei anneta agentille suoraan, sen on keksittävä hyvä arvaus tai arvio tähän mennessä saamansa palkkion perusteella. Arvofunktion estimointi on useimpien vahvistusoppimisalgoritmien tärkein osa.

Malli on agentin mentaalinen kopio ympäristöstä. Sitä käytetään tulevien toimien suunnitteluun.

Kun tämä on tiedossa, voimme puhua vahvistusoppimisjakson pääsilmukasta. Agentti on vuorovaikutuksessa ympäristön kanssa erillisissä aika-askeleissa. Ajattele sitä kuin kellon "tik-tak". Diskreetissä ajassa asioita tapahtuu vain "tikkien" ja "tikkien" aikana, ei niiden välissä. Jokaisena ajankohtana t = 0 , 1 , 2 , 3 , ... . {\displaystyle t=0,1,2,3,.... } {\displaystyle t=0,1,2,3,...}agentti tarkkailee ympäristön tilaa S t {\displaystyle S_{t}}{\displaystyle S_{t}} ja valitsee toiminnan A t {\displaystyle A_{t}}{\displaystyle A_{t}} politiikan π {\displaystyle \pi } perusteella. {\displaystyle \pi }. Seuraavalla aika-askeleella agentti saa palkkio-signaalin R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} ja uuden havainnon S t + 1 {\displaystyle S_{t+1}} {\displaystyle S_{t+1}}. Arvofunktio v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} päivitetään palkkion avulla. Tätä jatketaan, kunnes saavutetaan lopputila S T {\displaystyle S_{T}} . {\displaystyle S_{T}}

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3