Professional Documents
Culture Documents
GT 2017XOsz6EaMegerositesesTanulas
GT 2017XOsz6EaMegerositesesTanulas
Pataki Béla
… információ-
begyűjtés
információ eszközei
a környezetről szenzorok
fizikai hatás a
környezetre … hatáskifejtés
eszközei
beavatkozók ...
Megerősítéses tanulás
A feladat:
(ritka) jutalmakból megtanulni egy sikeres ágens-függvényt
(optimális eljárásmód: melyik állapot, melyik cselekvés hasznos).
Ágens:
passzív tanuló: figyeli a világ alakulását és tanul, előre rögzített
eljárásmód, nem mérlegel, előre kódoltan cselekszik
aktív tanuló: a megtanult információ birtokában az eljárásmódot
is alakítja, optimálisan cselekednie is kell (felfedező …)
Két lehetőség:
U (s) E R(s ) | , s s
t
t
t 0
Előnyök/hátrányok:
Hóbortos: képes jó hasznosság-becsléseket megtanulni az összes
állapotra. Sohasem sikerül fejlődnie az optimális hozam elérésében.
Mohó: gyakran talál egy viszonylag jó utat. Utána ragaszkodik hozzá, és
általában nem tanulja meg a többi állapot hasznosságát, a legjobb utat.
Mohó: gyakran talál egy viszonylag jó utat. Utána ragaszkodik hozzá, és
soha nem tanulja meg a többi állapot hasznosságát, a legjobb utat.
Kísérletek száma
A mohó és hóbortos eljárásmód tipikus eredményei
Az ágens
• előnybe kell részesítse azokat a cselekvéseket, amelyeket még nem
nagyon gyakran próbált,
• a már elég sokszor kipróbált és kis hasznosságúnak tapasztalt
cselekvéseket pedig kerülje el, ha lehet.
1. Felfedezési stratégia - felfedezési függvény
R ha n < N e
f (u, n)
u különben
U ( s) R( s) max f ( s ' T ( s, a, s ') U ( s '), N (a, s))
a
U (s) R(s) max f (s 'T (s, a, s ') U (s '), N (a, s))
a
R ha n < Ne
f (u, n)
u különben
2. Felfedezési stratégia - ε-mohóság (N cselekvési lehetősége van)
• 1-ε valószínűséggel mohó, tehát a legjobbnak gondolt cselekvést
választja ilyen valószínűséggel
• az ágens ε valószínűséggel véletlen cselekvést választ egyenletes
eloszlással, tehát ekkor 1/(N-1) valószínűséggel a nem a legjobbnak
gondoltak közül
U(3)=2 exp(U(1)/T)+exp(U(2)/T)+exp(U(3)/T)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 10 20 30 40 50 60 70 80 90 100
e hasznosság ( a , s )/T
P ( a, s )
a ' e hasznosság ( a ', s )/T
A cselekvésérték függvény tanulása
A cselekvés-érték függvény egy adott állapotban választott adott
cselekvéshez egy várható hasznosságot rendel: Q-érték
U (s) max Q(a, s)
a
A Q-értékek fontossága:
a feltétel-cselekvés szabályokhoz hasonlóan lehetővé teszik a döntést
modell használata nélkül, közvetlenül a jutalom visszacsatolásával
tanulhatók.
Mint a hasznosság-értékeknél, itt is felírhatunk egy kényszer egyenletet,
amely egyensúlyi állapotban, amikor a Q-értékek korrektek, fenn
kell álljon:
Q ( a, s ) R ( s ) s 'T (s, a, s ') max
a'
Q(a ', s ')
A cselekvés-érték függvény tanulása
Ezt az egyenletet közvetlenül felhasználhatjuk egy olyan iterációs
folyamat módosítási egyenleteként, amely egy adott modell esetén a
pontos Q-értékek számítását végzi. De ez nem lenne modell-mentes.
0 0 u j ( s) Uˆ ( s)
1 u ( s ) Uˆ ( s ) x
1 j
2 u ( s) Uˆ ( s) y
2 j
Gyakorlófeladat - Aktív Q-tanulás, IK módszer
a1=FEL a2=LE a3=JOBBRA
0,8 0,8 0,8 +1 0,6 0,35 0,2 +1 0,83 0,88 0,95 +1
0,7 xxx 0,65 -1 0,3 xxx 0,10 -1 0,71 xxx -0,8 -1
0,68 0,6 0,5 -0,89 0,4 0,3 0,0 0,0 0,2 0,1 0,1 -0,2
a4=BALRA
0,5 0,6 0,7 +1
0,5 xxx 0,4 -1
0,47 0,42 0,32 0,3
Feladat:
1. Az (1,1) – bal alsó sarok – állapotból indulunk, a jelenlegi (a fenti
táblázatokban megadott) Qˆ (a, s) becsléseink alapján melyik
cselekvést milyen valószínűséggel választjuk, ha
• mohó eljárással „biztosítjuk a felfedezést”
• hóbortos eljárással biztosítjuk a felfedezést
• -mohó eljárással biztosítjuk a felfedezést és =0,1,
• Boltzmann lehűtéssel biztosítjuk a felfedezést, és a jelenlegi iterációnál
T=20? Adja meg a valószínűségeket T=1 és T=0,01 esetre is!
2. Tegyük fel, hogy a választott cselekvés a JOBBRA lett, és ennek
hatására az (1,2)-re léptünk. Hogyan alakul az IK-tanulás alapján a