GT 2017XOsz6EaMegerositesesTanulas

Gépi tanulás
(Szekvenciális döntési probléma)

Megerősítéses tanulás
Pataki Béla
BME I.E. 414, 463-26-79

pataki@mit.bme.hu,
http://www.mit.bme.hu/general/staff/pataki
Az egész világot nem tudjuk modellezni, gyakran (szinte mindig)
alkalmazott trükk – bontsuk két részre!
(dekomponáljuk – nem vagyunk a végsőkig holisztikusak)
Ami kívül: az a környezet Ami belül: az a rendszer
… információ-
begyűjtés
információ eszközei
a környezetről szenzorok
fizikai hatás a
környezetre … hatáskifejtés
eszközei
beavatkozók ...
Induktív tanulás: minden mintához megvan a jó válasz, egy

„tanító”mindig megmondja, hogy jót vagy rosszat válaszoltunk,
rendszerint azt is, hogy mennyire jó vagy rossz a válasz.
Megerősítéses tanulás: nincs tanító, csak időnként kapunk visszajelzést,

hogy az eddigi lépéssorozat pillanatnyi eredménye jó vagy rossz-e.
Pl. sakkjáték: tanító nélkül is van visszacsatolás a játék végén:

nyert vagy vesztett = +/- jutalom, azaz pozitív vagy negatív
megerősítés. (Pozitív: összességében jó, amit csináltunk, negatív:
összességében rossz.)
Megerősítés: milyen gyakran? milyen erős? milyen értékű?
A feladat:
(ritka) jutalmakból megtanulni egy sikeres ágens-függvényt
(optimális eljárásmód: melyik állapot, melyik cselekvés hasznos).
Nehéz probléma: az információhiány miatt az ágens sohasem tudja,

hogy mik a jó lépések, sőt azt sem, hogy melyik jutalom/büntetés
melyik cselekvés(ek)ből származik.
Ágens tudása:
Induláskor: vagy ismeri már a környezetet és a cselekvéseinek hatását,
vagy pedig még ezt is meg kell tanulnia.
Megerősítés: lehet csak a végállapotban, de lehet menet közben

bármelyik állapotban is.
Ágens:
passzív tanuló: figyeli a világ alakulását és tanul, előre rögzített
eljárásmód, nem mérlegel, előre kódoltan cselekszik
aktív tanuló: a megtanult információ birtokában az eljárásmódot
is alakítja, optimálisan cselekednie is kell (felfedező …)
Ágens kialakítása: megerősítés → hasznosság leképezés

Bellman egyenlet: U (s)  R(s)    max s ' T ( s, a, s ') U ( s ')
a
 - leszámítolási tényező
Optimális eljárásmód
Két lehetőség:
U(s) hasznosságfüggvény tanulása minden egyes állapot hasznosságát

meg akarjuk határozni, ennek alapján a cselekvések eldöntése úgy, hogy
az elérhető hasznosság várható értéke maximális legyen
(környezet/ágens modellje szükséges, környezet: T(s,a,s’))
Q(a, s) cselekvésérték függvény (állapot-cselekvés párok) tanulása,

valamilyen várható hasznot tulajdonítva egy adott helyzetben egy adott
cselekvésnek (környezet/ágens modell nem szükséges) – Q tanulás
(model-free)
Fontos egyszerűsítés: a sorozat hasznossága = a sorozat
állapotaihoz rendelt hasznosságok összege. (a hasznosság additív)
Az állapot hátralevő-jutalma (reward-to-go) az adott lépéssorozatban:
azon jutalmak összege, amelyet akkor kapunk, ha az adott állapotból
valamelyik végállapotig eljutunk.
Egy állapot várható hasznossága = a hátralevő-jutalom várható
értéke

U (s)  E   R(s ) | , s  s
t
t
t 0
(közönségesen: várható érték=az

előfordulási gyakorisággal
súlyozott átlag)

U ( s)  R( s)   s 'T (s, s ') U 
( s ')
Passzív megerősítéses tanulás
Markov döntési folyamat (MDF), szekvenciális döntés
U  ( s )  R( s )   s 'T (s,  (s), s ') U  (s ')
Passzív tanulás esetén az ágens π(s) stratégiája rögzített, az s
állapotban mindig az a = π(s) cselekvést hajtja végre.
A cél egyszerűen a stratégia jóságának – tehát az Uπ (s)
hasznosságfüggvénynek – a megtanulása.
Fontos különbség a Markov döntési folyamathoz, szekvenciális
döntéshez képest, hogy a passzív ágens nem ismeri az
állapotátmenet-modellt (transition model), a T(s, a, s')-t, amely annak
a valószínűséget adja meg, hogy az a cselekvés hatására az s állapotból
az s' állapotba jutunk, továbbá nem ismeri a jutalomfüggvényt
(reward function), R(s)-et, amely minden állapothoz megadja
az ott elnyerhető jutalmat.
Egyszerűbb jelölés az állapotátmenetre:
T ( sk ,  ( sk ), sm ) helyett Tkm  P( sk  sm a   ( sk ))
Passzív tanulás - Közvetlen hasznosságbecslés
Az állapotok hasznosságát a definíció alapján tanuljuk.
Definíció: a hasznosság a hátralevő jutalom várhatóértéke
(praktikusan átlaga)
Sok kísérletet végzünk, és feljegyezzük, hogy amikor az s állapotban
voltunk, akkor mennyi volt a végállapotig gyűjtött jutalom, amit az út
során gyűjtöttünk.
Ezen jutalmak átlaga – ha nagyon sok kísérletet végzünk – az U(s)-hez
konvergál.
Viszont nem használja ki a Bellman egyenletben megragadott
összefüggést az állapotok közt, ezért lassan konvergál, nehezen tanul.

U ( s)  R( s)   s 'T (s,  (s), s ') U (s ') 

 R( s)    s 'T ( s, s ') U  ( s ')

Passzív tanulás - Adaptív Dinamikus Programozás
Az állapotátmeneti valószínűségek T(sk,sm)= Tkm a megfigyelt
gyakoriságokkal becsülhetők.
Amint az ágens megfigyelte az összes állapothoz tartozó jutalom értéket,
és elég tapasztalatot gyűjtött az állapotátmenetek gyakoriságáról,
a hasznosság-értékek a következő lineáris egyenletrendszer
megoldásával kaphatók meg:
U  ( s)  R( s)   s 'T (s, s ') U  (s ')

megtanult megfigyelt
U  R   TU U  (I   T)1 R ….és ha nem megy?

A fontosak nem a konkrét értékek, hanem a jelleg!
(logaritmikus skála!)
Passzív tanulás - Időbeli különbség (IK) tanulás (TD –
Temporal Difference)
Ha csak az aktuális jutalmat néznénk: U (s)  U (s)   ( R (s)  U (s))
Ha a teljes megfigyelt hátralévő jutalomösszeget használjuk – ki kell
várni az epizód végét.
Alapötlet: a hátralevő összjutalom helyett használjuk fel a megfigyelt
állapotátmeneteknél a hasznosság aktuálisan becsült értékét!
A jutalom becslése: Uˆ ( s)  R( s)   U ( s ')
Az előző becsléstől való
 ( s )  Uˆ ( s)  U ( s)  R( s)   U ( s ')  U ( s)
eltérés:
Frissítés: U ( s )  U ( s )    ( s ) 
U ( s)   ( R( s)   U ( s ')  U ( s ))
 - bátorsági faktor, tanulási tényező
γ - leszámítolási tényező (ld. MDF)
Az egymást követő állapotok hasznosság-
különbsége időbeli különbség (IK) .
Az összes időbeli különbség eljárásmód alapötlete
1. Korrekt hasznosság-értékek esetén lokálisan fennálló feltételek
rendszere: 
U ( s)  R( s)   s ' T (s, s ') U

( s ')
Ha egy adott ss’ átmenetet tapasztalunk a jelenlegi sorozatban,
akkor úgy vesszük, mintha T(s,s’)=1 lenne, tehát
fenn kéne álljon. U  ( s )  R( s )   U  ( s ')
2. Ebből a módosító egyenlet, amely a becsléseinket ezen
„egyensúlyi" egyenlet irányába módosítja:
U (s)  U (s)   ( R(s)   U (s ')  U (s))
3. Az ADP módszer felhasználta a modell teljes ismeretét.
Az IK a szomszédos (egy lépésben elérhető) állapotok közt
fennálló kapcsolatokra vonatkozó információt használja, de csak
azt, amely az aktuális tanulási sorozatból származik.
Az IK változatlanul működik előzetesen ismeretlen környezet
esetén is. (Nem használtuk ki a T(s,s’) ismeretét!)
Egy egyszerű demóprobléma
• végállapotok: (4,2) és (4,3)
• =0
• minden állapotban, amelyik nem végállapot R(s)= - 0,04
(pl. így lehet modellezni a lépésköltséget)
0,8 valószínűséggel a szándékolt irányba lép, 0,2 valószínűséggel a
választott irányhoz képest oldalra. (Falba ütközve nem mozog.)
Optimális * stratégia (eljárásmód) Az ezzel kapható hasznosságok

ADP
U(1,1) rms hibája 20,
egyenként 100 futásból álló
kísérletre átlagolva
U(1,1)=0,705
U(3,2)=0,66
Egyetlen 100-as sorozat, a 78-diknál jut először a -1-be

IK
U(1,1) rms hibája 20,
egyenként 100 futásból álló
kísérletre átlagolva
Ismeretlen környezetben végzett
aktív megerősítéses tanulás
Most nem kötött a stratégia, az ágens dönti el, hogy az s állapotban
melyik cselekvést válassza. A stratégiát is tanulja az ágens, nem csak a
hasznosságokat.
U  ( s ) ( s)  R( s)    max  s ' T ( s, a, s ') U ( s ') 
a
=R( s)    max  s ' T ( s,  ( s), s ') U ( s ')

a
Döntés:
• melyik cselekvést válassza?
• a cselekvésnek mik a kimeneteleik?
• hogyan hatnak az elért jutalomra?
A környezeti modell: a többi állapotba való átmenet valószínűsége egy

adott cselekvés esetén.
Aktív megerősítéses tanulás
A feladat kettős: az állapottér felderítése és a jutalmak begyűjtése

- a két cél gyakran ellentmondó cselekvést igényel
Nehéz probléma, a fő kérdés:

Helyes-e azt a cselekvést választani, amelynek a jelenlegi
hasznosságbecslés alapján legnagyobb a közvetlen várható hozama?
(Mohóság)
Ez figyelmen kívül hagyja a cselekvésnek a tanulásra

gyakorolt hatását!
Az állapottér felderítése
A döntésnek kétféle hatása van:

1. Jutalma(ka)t eredményez a jelenlegi szekvenciában.
2. Ismeretekre tesz szert a környezetről, befolyásolja az észleléseket, és
ezáltal az ágens tanulási képességét – így jobb jutalmakat
eredményezhet a jövőbeni szekvenciákban.
Kompromisszum a jelenlegi jutalom, amit a pillanatnyi hasznosság-

becslés tükröz, és a hosszú távú előnyök közt.
Az állapottér felderítése
Két szélsőséges megközelítés a cselekvés kiválasztásában:
• „Hóbortos, Felfedező”: véletlen módon cselekszik, annak

reményében, hogy végül is felfedezi az egész környezetet
• „Mohó”: a jelenlegi becslésre alapozva maximalizálja a hasznot.
Előnyök/hátrányok:
Hóbortos: képes jó hasznosság-becsléseket megtanulni az összes
állapotra. Sohasem sikerül fejlődnie az optimális hozam elérésében.
Mohó: gyakran talál egy viszonylag jó utat. Utána ragaszkodik hozzá, és
általában nem tanulja meg a többi állapot hasznosságát, a legjobb utat.
Mohó: gyakran talál egy viszonylag jó utat. Utána ragaszkodik hozzá, és
soha nem tanulja meg a többi állapot hasznosságát, a legjobb utat.
A mohó ágens által talált stratégia

A mohó ágens által talált optimális út
A valódi optimális út
Mohó: gyakran talál egy viszonylag jó utat.
Utána ragaszkodik hozzá, és
soha nem tanulja meg a többi állapot
hasznosságát, a legjobb utat.
Optimális stratégia
A mohó ágens által talált stratégia
A mohó ágens által talált optimális út
A valódi optimális út
Hóbortos: eljárási (stratégia) veszteség az optimálishoz képest
Mohó: az állapothasznosságok átlagos rms hibája

Mohó: eljárási (stratégia) veszteség az optimálishoz képest
Hóbortos: az állapothasznosságok átlagos rms hibája
Kísérletek száma
A mohó és hóbortos eljárásmód tipikus eredményei
folytonos vonal: az állapothasznosságok (a környezet)

megismerésének hibája
szaggatott vonal: mennyivel kevesebb jutalmat gyűjt átlagosan,
mint egy optimális stratégiát használó ágens
Felfedezési stratégia
Az ágens addig legyen hóbortos, amíg kevés fogalma van a
környezetről, és legyen mohó, amikor a valósághoz közeli modellel
rendelkezik.
Létezik-e optimális felfedezési stratégia?
Az ágens
• előnybe kell részesítse azokat a cselekvéseket, amelyeket még nem
nagyon gyakran próbált,
• a már elég sokszor kipróbált és kis hasznosságúnak tapasztalt
cselekvéseket pedig kerülje el, ha lehet.
1. Felfedezési stratégia - felfedezési függvény
 R  ha n < N e
f (u, n)  
 u különben
U  ( s)  R( s)   max f (  s ' T ( s, a, s ') U  ( s '), N (a, s))
a
U+(i): az i állapothoz rendelt hasznosság optimista becslése

N(a,i): az i állapotban hányszor próbálkoztunk az a cselekvéssel
R+ a tetszőleges állapotban elérhető legnagyobb jutalom optimista

becslése
Az a cselekvés, amely felderítetlen területek felé vezet, nagyobb
súlyt kap.
mohóság ↔ kíváncsiság
f (u,n) : u-ban monoton növekvő (mohóság),
n-ben monoton csökkenő (a próbálkozások számával csökkenő
kíváncsiság)
Ismételjük meg a régi fóliát
Egy egyszerű demóprobléma:
• végállapotok: (4,2) és (4,3)
• =0
• minden állapotban, amelyik nem végállapot R(s)= - 0,04
(pl. így lehet modellezni a lépésköltséget)
0,8 valószínűséggel a szándékolt irányba lép, 0,2 valószínűséggel a
választott irányhoz képest oldalra. (Falba ütközve nem mozog.)
Optimális * stratégia (eljárásmód) Az ezzel kapható hasznosságok

Felfedezési függvény: R+=2, Ne=5
U  (s)  R(s)   max f (s 'T (s, a, s ') U  (s '), N (a, s))
a
Valós hasznosságok, opt. stratégia
 R  ha n < Ne
f (u, n)  
 u különben
2. Felfedezési stratégia - ε-mohóság (N cselekvési lehetősége van)
• 1-ε valószínűséggel mohó, tehát a legjobbnak gondolt cselekvést
választja ilyen valószínűséggel
• az ágens ε valószínűséggel véletlen cselekvést választ egyenletes
eloszlással, tehát ekkor 1/(N-1) valószínűséggel a nem a legjobbnak
gondoltak közül
3. Felfedezési stratégia - Boltzmann-felfedezési modell

egy a cselekvés megválasztásának valószínűsége egy s állapotban:
ehasznosság ( a , s )/T Az összes, s-ben lehetséges N db

P ( a, s ) 
 a ' ehasznosság ( a ', s )/T a cselekvésre összegezve
a T „hőmérséklet” a két véglet között szabályoz.

Ha T → ∞ , akkor a választás tisztán (egyenletesen) véletlen,
ha T → 0 , akkor a választás mohó.
1
0.9 T: 20-tól csökken -0,2 lépésekben 0,2-ig (T/20-at ábrázoltuk)

U(1)=5
0.8
U(2)=1 exp(U(k)/T)
U(3)=2 exp(U(1)/T)+exp(U(2)/T)+exp(U(3)/T)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 10 20 30 40 50 60 70 80 90 100
Boltzmann felfedezési modell, 3 lehetséges cselekvés, 3 követő

állapotba visz. A követő állapotok hasznosságából becsülhető értékük
U(a1,1)=5, U(a2,2)=1, U(a3,3)=2
e hasznosság ( a , s )/T
P ( a, s ) 
 a ' e hasznosság ( a ', s )/T
A cselekvésérték függvény tanulása
A cselekvés-érték függvény egy adott állapotban választott adott
cselekvéshez egy várható hasznosságot rendel: Q-érték
U (s)  max Q(a, s)
a
A Q-értékek fontossága:
a feltétel-cselekvés szabályokhoz hasonlóan lehetővé teszik a döntést
modell használata nélkül, közvetlenül a jutalom visszacsatolásával
tanulhatók.
Mint a hasznosság-értékeknél, itt is felírhatunk egy kényszer egyenletet,
amely egyensúlyi állapotban, amikor a Q-értékek korrektek, fenn
kell álljon:
Q ( a, s )  R ( s )   s 'T (s, a, s ')  max
a'
Q(a ', s ')
A cselekvés-érték függvény tanulása
Ezt az egyenletet közvetlenül felhasználhatjuk egy olyan iterációs
folyamat módosítási egyenleteként, amely egy adott modell esetén a
pontos Q-értékek számítását végzi. De ez nem lenne modell-mentes.
Az időbeli különbség viszont nem igényli a modell ismeretét. Az IK

módszer Q-tanulásának módosítási egyenlete:
Q(a, s )  Q(a, s )    R( s )   max Q(a ', s ')  Q(a, s) 

 a' 
SARSA Q-tanulás (State-Action-Reward-State-Action)
Q(a, s)  Q(a, s)   [ R(s)   Q(a ', s ')  Q(a, s)]
(a' megválasztása pl. Boltzmann felfedezési modellből)

A megerősítéses tanulás általánosító képessége
Eddig: ágens által tanult hasznosság: táblázatos (mátrix) formában
reprezentált = explicit reprezentáció
Kis állapotterek: elfogadható, de a konvergencia idő és (ADP esetén) az
iterációnkénti idő gyorsan nő a tér méretével.
Gondosan vezérelt közelítő ADP: 10.000 állapot, vagy ennél is több.
De a való világhoz közelebb álló környezetek szóba se jöhetnek.
(Sakk – állapottere 1050-10120 nagyságrendű. Az összes állapotot
látni kell, hogy megtanuljunk játszani?!)
Egyetlen lehetőség: a függvény implicit reprezentációja:
Pl. egy játékban a táblaállás tulajdonságainak valamilyen halmaza f1,…fn.
Az állás becsült hasznosság-függvénye:
Uˆ ( s )  1 f1 ( s )   2 f 2 ( s )  ...  n f n ( s)
C. Shannon, Programming a Computer for Playing Chess, Philosophical Magazine,
7th series, 41, no. 314 (March 1950): 256-75
A.L. Samuel, Some Studies in Machine Learning Using the Game of Checkers.
B.II-Recent Progress, IBM. J. 3, 211-229 (1959), kb. 20 tulajdonság
Deep Blue (Feng-Hsiung Hsu) kb. 8000 tulajdonság, spec. sakk-csip
A hasznosság-függvény n értékkel jellemezhető, pl. 10120 érték helyett.
Egy átlagos sakk kiértékelő függvény kb. 10-20 súllyal épül fel,
tehát hatalmas tömörítést értünk el.
Az implicit reprezentáció által elért tömörítés teszi lehetővé,

hogy a tanuló ágens általánosítani tudjon a már látott állapotokról
az eddigiekben nem látottakra.
Az implicit reprezentáció legfontosabb aspektusa nem az, hogy kevesebb

helyet foglal, hanem az, hogy lehetővé teszi a bemeneti állapotok
induktív általánosítását. Az olyan módszerekről, amelyek ilyen
reprezentációt tanulnak, azt mondjuk, hogy bemeneti általánosítást
végeznek.
4 x 3 világ
Hasznosság implicit reprezentációja
Uˆ ( x, y) 0  1 x  2 y
Hibafüggvény: a jósolt és a kísérleti ténylegesen tapasztalt
hasznosságok különbségének négyzete
1 ˆ
 
2
E j ( s )  U ( s )  u j ( s )
2 E j ( s) ˆ (s)

Frissítés i  i  
i
 
 i   u j ( s)  Uˆ ( s)
U 
i

0   0   u j ( s)  Uˆ ( s) 
1      u ( s )  Uˆ ( s )  x
1 j 
2      u ( s)  Uˆ ( s)  y
2 j 
Gyakorlófeladat - Aktív Q-tanulás, IK módszer
a1=FEL a2=LE a3=JOBBRA
0,8 0,8 0,8 +1 0,6 0,35 0,2 +1 0,83 0,88 0,95 +1
0,7 xxx 0,65 -1 0,3 xxx 0,10 -1 0,71 xxx -0,8 -1
0,68 0,6 0,5 -0,89 0,4 0,3 0,0 0,0 0,2 0,1 0,1 -0,2
a4=BALRA
0,5 0,6 0,7 +1
0,5 xxx 0,4 -1
0,47 0,42 0,32 0,3
Feladat:
1. Az (1,1) – bal alsó sarok – állapotból indulunk, a jelenlegi (a fenti
táblázatokban megadott) Qˆ (a, s) becsléseink alapján melyik
cselekvést milyen valószínűséggel választjuk, ha
• mohó eljárással „biztosítjuk a felfedezést”
• hóbortos eljárással biztosítjuk a felfedezést
• -mohó eljárással biztosítjuk a felfedezést és =0,1,
• Boltzmann lehűtéssel biztosítjuk a felfedezést, és a jelenlegi iterációnál
T=20? Adja meg a valószínűségeket T=1 és T=0,01 esetre is!
2. Tegyük fel, hogy a választott cselekvés a JOBBRA lett, és ennek
hatására az (1,2)-re léptünk. Hogyan alakul az IK-tanulás alapján a
Qˆ ( FEL,(1,1)), Qˆ ( JOBBRA,(1,1)), Qˆ ( LE,(1,1)), Qˆ ( BALRA,(1,1))

becslésünk, ha a bátorsági (vagy tanulási) faktor) 0,1; a leszámítolási
tényező 0,5?

GT 2017XOsz6EaMegerositesesTanulas

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

GT 2017XOsz6EaMegerositesesTanulas

Uploaded by

Copyright:

Available Formats

Gépi tanulás

(Szekvenciális döntési probléma)

BME I.E. 414, 463-26-79

Induktív tanulás: minden mintához megvan a jó válasz, egy

Megerősítéses tanulás: nincs tanító, csak időnként kapunk visszajelzést,

Pl. sakkjáték: tanító nélkül is van visszacsatolás a játék végén:

Megerősítés: milyen gyakran? milyen erős? milyen értékű?

Nehéz probléma: az információhiány miatt az ágens sohasem tudja,

Megerősítés: lehet csak a végállapotban, de lehet menet közben

Ágens kialakítása: megerősítés → hasznosság leképezés

U(s) hasznosságfüggvény tanulása minden egyes állapot hasznosságát

Q(a, s) cselekvésérték függvény (állapot-cselekvés párok) tanulása,

(közönségesen: várható érték=az

 R( s)    s 'T ( s, s ') U  ( s ')

U  ( s)  R( s)   s 'T (s, s ') U  (s ')

U  R   TU U  (I   T)1 R ….és ha nem megy?

Optimális * stratégia (eljárásmód) Az ezzel kapható hasznosságok

Egyetlen 100-as sorozat, a 78-diknál jut először a -1-be

=R( s)    max  s ' T ( s,  ( s), s ') U ( s ')

A környezeti modell: a többi állapotba való átmenet valószínűsége egy

A feladat kettős: az állapottér felderítése és a jutalmak begyűjtése

Nehéz probléma, a fő kérdés:

Ez figyelmen kívül hagyja a cselekvésnek a tanulásra

A döntésnek kétféle hatása van:

Kompromisszum a jelenlegi jutalom, amit a pillanatnyi hasznosság-

Két szélsőséges megközelítés a cselekvés kiválasztásában:

• „Hóbortos, Felfedező”: véletlen módon cselekszik, annak

• „Mohó”: a jelenlegi becslésre alapozva maximalizálja a hasznot.

A mohó ágens által talált stratégia

Mohó: az állapothasznosságok átlagos rms hibája

Hóbortos: az állapothasznosságok átlagos rms hibája

folytonos vonal: az állapothasznosságok (a környezet)

Létezik-e optimális felfedezési stratégia?

U+(i): az i állapothoz rendelt hasznosság optimista becslése

R+ a tetszőleges állapotban elérhető legnagyobb jutalom optimista

Optimális * stratégia (eljárásmód) Az ezzel kapható hasznosságok

Valós hasznosságok, opt. stratégia

3. Felfedezési stratégia - Boltzmann-felfedezési modell

ehasznosság ( a , s )/T Az összes, s-ben lehetséges N db

a T „hőmérséklet” a két véglet között szabályoz.

0.9 T: 20-tól csökken -0,2 lépésekben 0,2-ig (T/20-at ábrázoltuk)

Boltzmann felfedezési modell, 3 lehetséges cselekvés, 3 követő

Az időbeli különbség viszont nem igényli a modell ismeretét. Az IK

Q(a, s )  Q(a, s )    R( s )   max Q(a ', s ')  Q(a, s) 

Q(a, s)  Q(a, s)   [ R(s)   Q(a ', s ')  Q(a, s)]

(a' megválasztása pl. Boltzmann felfedezési modellből)

Az implicit reprezentáció által elért tömörítés teszi lehetővé,

Az implicit reprezentáció legfontosabb aspektusa nem az, hogy kevesebb

Qˆ ( FEL,(1,1)), Qˆ ( JOBBRA,(1,1)), Qˆ ( LE,(1,1)), Qˆ ( BALRA,(1,1))

You might also like