You are on page 1of 3

Các phương pháp học tăng cường trong lập kế hoạch và điều khiển

1. Giới thiệu
Trong khi việc tiếp cận theo hướng pháp tối ưu hóa vẫn chiếm phần lớn trong việc
giải quyết vấn đề lập kế hoạch và điều khiển, thì phương pháp học dữ liệu đang
ngày càng trở nên phổ biến nhờ sự phát triển của trí tuệ nhân tạo (AI).
Trên thực tế, các phương pháp tối ưu hóa này có hiệu quả khá tốt. Tuy nhiên, với
sự thành công hiện tại của các phương pháp lập kế hoạch và điều khiển dựa trên
tối ưu hóa, chúng ta cần chú ý đến các giải pháp dựa trên việc học dữ liệu. Đặc
biệt là tập trung vào các phương pháp lập kế hoạch và điều khiển dựa trên học
tăng cường, với ba lý do. Thứ nhất, chúng tôi tin rằng lái xe tự động vẫn còn ở giai
đoạn sớm và các kịch bản ứng dụng hiện tại không phải là thử thách như khi lái xe
trong một môi trường đô thị không bị hạn chế thực sự. Lý do thứ hai chống lại
phương pháp tối ưu hóa thuần túy là dữ liệu lái xe trước giờ chưa được tận dụng
triệt để. Ngoài hai lý do này, lý do cuối cùng nhưng lại quan trọng nhất là như một
người học lái xe, trong hầu hết các trường hợp họ sẽ học từ một giáo viên hoặc
huấn luyện viên thay vì tự lái rồi dần rút ra kinh nghiệm. Đây là lý luận quan trọng
nhất cho việc áp dụng các phương pháp lập kế hoạch và điều khiển dựa trên học
tăng cường: quá trình học tăng cường được thực hiện qua tương tác lặp đi lặp lại
với môi trường thông qua các hành động, rất giống với cách mà con người học lái
xe từ nhận xét và chỉ của giáo viên.

2. Học tăng cường


Đặc điểm chính của học tăng cường là quá trình học tập tương tác với môi trường
và làm cho học tăng cường trở thành một quá trình khép kín như hình:
Ở đây chủ thể (Agent) sẽ nhận trạng thái từ môi trường (Enviroment) rồi thực
hiện hành động và nhận phần thưởng từ hành động đó. Cách mà môi trường tạo
ra phần thưởng được gọi là hàm phần thưởng. Hàm phần thưởng xác định phần
thưởng tức thời, ánh xạ trạng thái (hoặc cặp trạng thái-hành động) của môi
trường thành một số vô hướng chỉ ra sự mong muốn nội tại ngay lập tức của một
chuyển tiếp như vậy.
Mục tiêu của chủ thể là học cách thực hiện các hành động sao cho tổng phần
thưởng tích lũy trong quá trình được tối đa hóa, khác với hàm phần thưởng -biểu
thị sự mong muốn của trạng thái chuyển tiếp bằng cách thực hiện một hành
động- tổng phần thưởng tích lũy được gọi là lợi tức.
Các thuật toán học tăng cường:
- Q-learning hay Deep Q-learning (DQN) là một thuật toán học tăng cường
không mô hình để học giá trị của một hành động trong một trạng thái cụ
thể. Nó không yêu cầu mô hình của môi trường (do đó là “không mô hình”),
và nó có thể xử lý các vấn đề với các chuyển tiếp và phần thưởng ngẫu
nhiên mà không cần thích nghi.
- Bước đột phá đáng kể trong các thuật toán học tăng cường là thuật toán
Asynchronous Advantage Actor-Critic (A3C) được giới thiệu bởi DeepMind
của Google. Nó đã được chứng minh là nhanh hơn, đơn giản hơn và mạnh
mẽ hơn so với các thuật toán Deep-Q-Learning truyền thống trên các nhiệm
vụ học tăng cường tiêu chuẩn. Một trong những khác biệt đáng kể nhất
giữa A3C và DQN là có nhiều hơn một chủ thể học trong A3C so với chỉ một
trong DQN.

3. Các phương pháp học tăng cường trong lập kế hoạch và điều khiển ở xe
tự lái
Học tăng cường đã được áp dụng cho các cấp độ khác nhau của lập kế hoạch và
điều khiển lái xe tự động, bao gồm nhưng không giới hạn ở các cấp độ: quyết định
hành vi, lập kế hoạch chuyển động và điều khiển phản hồi. Các đầu vào là dữ liệu
cảm biến thô như điểm ảnh và các đầu ra là tín hiệu điều khiển trực tiếp như lái
xe, ga và phanh. Những phương pháp như vậy được gọi là các giải pháp end-to-
end.
3.1. Học tăng cường cho việc quyết định hành vi
Mục tiêu chính của việc áp dụng học tăng cường trong quyết định hành vi là giải
quyết các tình huống giao thông đa dạng nơi chỉ đơn giản là tuân theo luật giao
thông không hề hữu ích. Để giải quyết các trường hợp phức tạp trong quyết định
hành vi, kinh nghiệm lái xe của con người có thể phục vụ như các ví dụ tuyệt vời
trong việc giảng dạy một hệ thống dựa trên học tăng cường để đưa ra các quyết
định giống con người hơn. Điều này có thể là một bổ sung rất tốt cho một phương
pháp quyết định hành vi dựa trên quy tắc vẫn là phương pháp công nghiệp chủ
đạo.
3.2. Học tăng cường cho việc lập kế hoạch và điều khiển
Điều thách thức chính trong lập kế hoạch và điều khiển dựa trên học tăng cường
là cách thiết kế không gian trạng thái. Để tính toán các hành động lập kế hoạch
chuyển động hoặc điều khiển phản hồi, cần bao gồm thông tin về xe tự động và
môi trường xung quanh. Nếu chúng ta không lấy dữ liệu cảm biến thô làm đầu
vào, không gian trạng thái sẽ phải tích hợp thông tin có cấu trúc về xe tự động chủ
và môi trường của nó một cách nào đó. Do đó, không gian trạng thái phải là một
không gian liên tục đa chiều lớn. Để giải quyết thách thức của không gian trạng
thái liên tục, kỹ thuật Cell-mapping có thể được kết hợp với học tăng cường để
giải quyết vấn đề điều khiển.

4. Kết luận
Mặc dù các phương pháp học tăng cường hiện đại nhất để lập kế hoạch và điều
khiển vẫn có những hạn chế của chúng, chúng ta biết rằng chúng sẽ trở nên rất
quan trọng trong tương lai và không nên bị bỏ qua. Nói cách khác, học tăng cường
đã được sử dụng rộng rãi trong việc giải quyết các vấn đề xảy ra dưới dạng vòng
lặp hoặc theo các mốc thời gian với thông tin hướng dẫn từng mốc. Do đó, nó đã
được thử nghiệm như một phương pháp để giải quyết các vấn đề lập kế hoạch và
điều khiển lái xe tự động ở các cấp độ khác nhau. Có thể kết luận rằng lập kế
hoạch và điều khiển dựa trên học tăng cường sẽ dần trở thành một giải pháp khả
thi cho các vấn đề lập kế hoạch và điều khiển lái xe tự động hoặc ít nhất là trở
thành một bổ sung cần thiết cho các phương pháp tối ưu hóa hiện tại.

You might also like