Welcome to Scribd!

Skip carousel

Reinforment Learning

Uploaded by

Cường Nguyễn Chí

0% found this document useful (0 votes)

6 views19 pages

Original Title

Reinforment_Learning

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Reinforment Learning

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

6 views19 pages

Reinforment Learning

Uploaded by

Cường Nguyễn Chí

Reinforment Learning

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 19

Search inside document

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Cơ sở trí tuệ nhân tạo

Học tăng cường

Nguyễn Ngọc Đức

2024
Nội dung

1 Học tăng cường

2 Temporal Difference Learning

3 Q-learning

4 Khám phá và khai thác

5 Ứng dụng

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 1 / 14

Học tăng cường

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 2 / 14

Học tăng cường I

Một quy trình Markov với

1 Hàm chuyển dịch T (s, a, s0 ) bất định
2 Hàm điểm thưởng R(s, a, s0 ) bất định

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 3 / 14

Học tăng cường II

Không biết trước successor của một trạng thái

Không biết trước đánh giá của trạng thái

Thử và sai!!!
Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 4 / 14
Temporal Difference
Learning

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 5 / 14

Temporal Difference Learning

Ý tưởng chính: dựa trên kinh nghiệm!

Cập nhật V (s) với mỗi hành động thực hiện
Học hàm V (s) theo thời gian:
Lấy mẫu kết quả (bằng cách thực hiện hành động)
Tính kỳ vọng

sample = R(s, π(s), s0 ) + γV π (s0 )

V π (s) ← (1 − α)V π (s) + α(sample)

V π (s) ← V π (s) + α(sample − V π (s))

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 6 / 14

Ví dụ

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 7 / 14

Q-learning

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 8 / 14

Q-learning

TD learning là một phương pháp đánh giá chiến lược di chuyển

Tuy nhiên phương pháp này không cho phép học chiến lược di
chuyển

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 9 / 14

Q-learning

TD learning là một phương pháp đánh giá chiến lược di chuyển

Tuy nhiên phương pháp này không cho phép học chiến lược di
chuyển

Học chiến lược di chuyển

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 9 / 14

Q-learning

TD learning là một phương pháp đánh giá chiến lược di chuyển

Tuy nhiên phương pháp này không cho phép học chiến lược di
chuyển

Học chiến lược di chuyển

Q-learning

π(s) = arg max Q(s, a)

0
X
Q(s, a) = T (s, a, s0 )[R(s, a, s0 ) + γV (s0 )]
s

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 9 / 14

Q-learning

0
X
Q(s, a) = T (s, a, s0 )[R(s, a, s0 ) + γV (s0 )]
s

Chúng ta có thực sự tính được giá trị Q hay không?

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 10 / 14

Q-learning

0
X
Q(s, a) = T (s, a, s0 )[R(s, a, s0 ) + γV (s0 )]
s

Lấy mẫu và tính kỳ vọng tương tự như TD learning:

0
Q(s, a) = (1 − α)Q(s, a) + α r + γ max
0
Q(s, a )
a

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 10 / 14

Khám phá và khai thác

Một trạng thái có thể có nhiều giá trị đánh giá?

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 11 / 14

Khám phá và khai thác

Một trạng thái có thể có nhiều giá trị đánh giá?

Cần khám phá các trạng thái mới

Gọi giá trị trạng thái là u số lần thăm trạng thái là n sử dụng hàm
k
đánh giá f (u, n) = u +
n

0 0

Q(s, a) = (1 − α)Q(s, a) + α r + γ max 0
f Q(s, a ), N (s, a )
a

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 11 / 14

Active Reinforcement Learning

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 12 / 14

Ứng dụng

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 13 / 14

Tài liệu tham khảo

[1] Bùi Tiến Lên, Bộ môn Khoa học máy tính

Bài giảng môn Cơ sở trí tuệ nhân tạo
[2] Michael Negnevitsky
Artificial Intelligence: A Guide to Intelligent Systems (3rd Edition)

Nguyễn Ngọc Đức Cơ sở trí tuệ nhân tạo 2024 14 / 14

Bài Tập-Đề Cương Kgmt&Kgtp
Document10 pages
Bài Tập-Đề Cương Kgmt&Kgtp
29.Bùi Nguyễn Thủy Tiên
No ratings yet
Tap San STAR 09 Publish
Document96 pages
Tap San STAR 09 Publish
35- 7A14-Đặng Yến Vy
No ratings yet
Toan-Roi-Rac Nguyen-Van-hieu c1 TRR 17 NLCB - (Cuuduongthancong - Com)
Document42 pages
Toan-Roi-Rac Nguyen-Van-hieu c1 TRR 17 NLCB - (Cuuduongthancong - Com)
vuuongqwer
No ratings yet
Thesis Slide Da Rut Gon
Document49 pages
Thesis Slide Da Rut Gon
AZON BON
No ratings yet
Nguyễn Thị Cẩm Vân: Phương Trình Vi Phân Thường
Document54 pages
Nguyễn Thị Cẩm Vân: Phương Trình Vi Phân Thường
TÂN NGÔ HOÀNG
No ratings yet
Toán 2E1 Mã môn học: C01144: Dương Thanh Phong (TDTU)
Document137 pages
Toán 2E1 Mã môn học: C01144: Dương Thanh Phong (TDTU)
Võ Nhựt Trường
No ratings yet
BAOCAOBTLVATLI1
Document19 pages
BAOCAOBTLVATLI1
32.Lê Quang Tùng
No ratings yet
Báo cáo project1 Trần Ngọc Minh 20215617
Document6 pages
Báo cáo project1 Trần Ngọc Minh 20215617
Tran Thai Linh QP0425
No ratings yet
Báo Cáo BTL DSTT Nhóm 5
Document16 pages
Báo Cáo BTL DSTT Nhóm 5
Ân Khoa Nguyễn
No ratings yet
0406 - Bài Tập - Tìm Đạo Hàm Cấp Cao (Lời Giải + Đáp Án)
Document9 pages
0406 - Bài Tập - Tìm Đạo Hàm Cấp Cao (Lời Giải + Đáp Án)
ssnguyenthang8989
No ratings yet
Tap San STAR 02 2019
Document72 pages
Tap San STAR 02 2019
lesonha737
No ratings yet
Toan-Roi-Rac Nguyen-Van-hieu c9 TRR 17 DD - (Cuuduongthancong - Com)
Document53 pages
Toan-Roi-Rac Nguyen-Van-hieu c9 TRR 17 DD - (Cuuduongthancong - Com)
Bảo Trâm
No ratings yet
DAP AN DE Chinh Thuc 2014
Document2 pages
DAP AN DE Chinh Thuc 2014
namnsfhl30649
No ratings yet
Tap San STAR 03 2019
Document80 pages
Tap San STAR 03 2019
lesonha737
No ratings yet
Bai - 4 P2 2010
Document27 pages
Bai - 4 P2 2010
caotu90
No ratings yet
0406 - Bài Tập - Tìm Đạo Hàm Cấp Cao (Lời Giải + Đáp Án)
Document6 pages
0406 - Bài Tập - Tìm Đạo Hàm Cấp Cao (Lời Giải + Đáp Án)
Lê Thu Trà
No ratings yet
De Thi Thu Vao Lop 10 Mon Toan Nam 2023-2024-Trang-4
Document2 pages
De Thi Thu Vao Lop 10 Mon Toan Nam 2023-2024-Trang-4
kurumitltg
No ratings yet
Differential Equation 2
Document26 pages
Differential Equation 2
Phan Tuấn Kiệt
No ratings yet
CTRR Report
Document101 pages
CTRR Report
Heinsberg Nguyen
No ratings yet
Graph 8 Thuật Toán Tìm Đường Đi Ngắn Nhất - no
Document9 pages
Graph 8 Thuật Toán Tìm Đường Đi Ngắn Nhất - no
tiến Huỳnh dương
No ratings yet
Tap San STAR 05-2019
Document72 pages
Tap San STAR 05-2019
Tri Nguyen
No ratings yet
Chuong 5 - Thoa Man Rang Buoc PDF
Document43 pages
Chuong 5 - Thoa Man Rang Buoc PDF
vantrungnguyen101
No ratings yet
Bài tập logic
Document9 pages
Bài tập logic
Huỳnh Như
No ratings yet
BTLGT1 L24 Nhom6
Document24 pages
BTLGT1 L24 Nhom6
huy.phamtran1902
No ratings yet
Đề tự luyện - Attempt review
Document23 pages
Đề tự luyện - Attempt review
TÚ BÙI MINH
No ratings yet
Đề và đáp án đề 2, 3,4
Document9 pages
Đề và đáp án đề 2, 3,4
Đình Linh Official
No ratings yet
Bài Kiểm Tra Số 2 Xem Lại Lần Làm Thử BK LMS
Document7 pages
Bài Kiểm Tra Số 2 Xem Lại Lần Làm Thử BK LMS
vuongquocviet21
No ratings yet
DapAnOOP HK2 NH2018-2019
Document8 pages
DapAnOOP HK2 NH2018-2019
Phước Trần Hoàng
No ratings yet
1. Các quy tắc tính đạo hàm
Document9 pages
1. Các quy tắc tính đạo hàm
trhuy2o8
No ratings yet
Road To High School Syllabus
Document3 pages
Road To High School Syllabus
Quang Chính Phạm
No ratings yet
File Báo Cáo
Document9 pages
File Báo Cáo
hoangduynguyen01022001
No ratings yet
Vocab Database
Document40 pages
Vocab Database
Thảo Nguyễn
No ratings yet
(Doc24.Vn) Giao An Giai Tich 11 Bai Quy Tac Tinh Dao Ham
Document8 pages
(Doc24.Vn) Giao An Giai Tich 11 Bai Quy Tac Tinh Dao Ham
Quân Phạm Hồng
No ratings yet
Bài tập trắc nghiệm 10 - Xem lại lần làm thử 2 - BK LMS
Document15 pages
Bài tập trắc nghiệm 10 - Xem lại lần làm thử 2 - BK LMS
phamngochuy01258
No ratings yet
AI Tri Tu Nhan To Thut Toan A Ni Dun
Document2 pages
AI Tri Tu Nhan To Thut Toan A Ni Dun
Hùng Tiến Lê
No ratings yet
BTL ĐSTT
Document17 pages
BTL ĐSTT
nam.nguyenphuong2703
No ratings yet
Mẫu báo cáo BTL Matlab môn Vật lý 1 Autosaved
Document13 pages
Mẫu báo cáo BTL Matlab môn Vật lý 1 Autosaved
Thanh Nhã Lê
No ratings yet
Toan 9 Ki 2 5512
Document317 pages
Toan 9 Ki 2 5512
Bình Nguyễn Ngọc
No ratings yet
Tom Tat Cong Thuc 12. 2122
Document57 pages
Tom Tat Cong Thuc 12. 2122
Nguyen Nhat
No ratings yet
W2 Analysis
Document22 pages
W2 Analysis
Phạm Tùng Thủy
No ratings yet
DT-Toán Cho K Sư - Ngày 14-6-2023
Document2 pages
DT-Toán Cho K Sư - Ngày 14-6-2023
Thanh Nguyenchi
No ratings yet
Lecture 05 - Divide and Conquer - Part 2
Document35 pages
Lecture 05 - Divide and Conquer - Part 2
Chỉnh Nguyễn Thế
No ratings yet
L4-Hoi Quy Va Hoi Quy Tuyen Tinh
Document15 pages
L4-Hoi Quy Va Hoi Quy Tuyen Tinh
hdo19106
No ratings yet
Tim Kim Da Tren Tha Man Rang Buc
Document22 pages
Tim Kim Da Tren Tha Man Rang Buc
pt.phuckhai2004
No ratings yet
Chuong 8
Document49 pages
Chuong 8
Đăng Toàn Hà
No ratings yet
Chuyen de Toan 12 On Thi THPTQG Lu Si Phap Tap 1 Giai Tich
Document153 pages
Chuyen de Toan 12 On Thi THPTQG Lu Si Phap Tap 1 Giai Tich
Thương Nguyễn
No ratings yet
Kiểm tra 5 - Attempt review
Document8 pages
Kiểm tra 5 - Attempt review
Sơn Đặng
No ratings yet
Quiz Lớp thầy Cường
Document6 pages
Quiz Lớp thầy Cường
Khoa Nguyễn
No ratings yet
Ung Dung MT Casio fx570 Plush
Document36 pages
Ung Dung MT Casio fx570 Plush
bảo nguyên hutech
No ratings yet
Tổng Hợp (31 Đề Tham Khảo Ts10 - 2024-2025- Sgd) - Gv
Document262 pages
Tổng Hợp (31 Đề Tham Khảo Ts10 - 2024-2025- Sgd) - Gv
dinhcongle700
No ratings yet
Bài kiểm tra số 4 - Attempt review
Document7 pages
Bài kiểm tra số 4 - Attempt review
songjihyo0608
No ratings yet
BTL DSTT
Document15 pages
BTL DSTT
Tuấn Trần văn
No ratings yet
Đề Số 13 Vẽ Quỹ Đạo Chuyển Động Ném Xiên Trong Trọng Trường Bỏ Qua Lực Cản Và Xác Định Bán Kính Quỹ Đạo Tại Vị Trí Chạm
Document6 pages
Đề Số 13 Vẽ Quỹ Đạo Chuyển Động Ném Xiên Trong Trọng Trường Bỏ Qua Lực Cản Và Xác Định Bán Kính Quỹ Đạo Tại Vị Trí Chạm
vu.lamtruong1600
No ratings yet
(CTRR) Đáp án đề 01
Document6 pages
(CTRR) Đáp án đề 01
nguyen quan
No ratings yet
E A D 1 1 Thu T Toan Euclid
Document32 pages
E A D 1 1 Thu T Toan Euclid
Hung Le
No ratings yet
XS C4 KDGTTK 2
Document17 pages
XS C4 KDGTTK 2
Nguyễn Hoàng
No ratings yet
L42 - Nhóm 5
Document14 pages
L42 - Nhóm 5
nduc0163401003
No ratings yet
Ham So Hoc Lythuyet
Document18 pages
Ham So Hoc Lythuyet
hmt
No ratings yet
Đề, đáp án
Document5 pages
Đề, đáp án
Rommel Nguyen
No ratings yet
Adversarial Search
Document30 pages
Adversarial Search
Cường Nguyễn Chí
No ratings yet
Informed Search
Document39 pages
Informed Search
Cường Nguyễn Chí
No ratings yet
Hướng Dẫn Viết Báo Cáo Tham Quan
Document3 pages
Hướng Dẫn Viết Báo Cáo Tham Quan
Cường Nguyễn Chí
No ratings yet
Đề thi CK CSDL 3
Document2 pages
Đề thi CK CSDL 3
Cường Nguyễn Chí
No ratings yet
Đề thi CK CSDL 2
Document2 pages
Đề thi CK CSDL 2
Cường Nguyễn Chí
No ratings yet