Professional Documents
Culture Documents
Reinforment Learning
Reinforment Learning
3 Q-learning
5 Ứng dụng
Thử và sai!!!
Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 4 / 14
Temporal Difference
Learning
Tuy nhiên phương pháp này không cho phép học chiến lược di
chuyển
Tuy nhiên phương pháp này không cho phép học chiến lược di
chuyển
Tuy nhiên phương pháp này không cho phép học chiến lược di
chuyển
Q-learning
0
X
Q(s, a) = T (s, a, s0 )[R(s, a, s0 ) + γV (s0 )]
s
0
X
Q(s, a) = T (s, a, s0 )[R(s, a, s0 ) + γV (s0 )]
s
0
Q(s, a) = (1 − α)Q(s, a) + α r + γ max
0
Q(s, a )
a
Gọi giá trị trạng thái là u số lần thăm trạng thái là n sử dụng hàm
k
đánh giá f (u, n) = u +
n
0 0
Q(s, a) = (1 − α)Q(s, a) + α r + γ max 0
f Q(s, a ), N (s, a )
a