Professional Documents
Culture Documents
Kết luận
GIỚI THIỆU TỔNG QUAN
VỀ CỜ VÂY
Bàn cờ
Gồm các đường thẳng dọc cắt các
đường thẳng ngang tạo thành những ô
vuông và giao điểm đều đặn. Trên thế
giới ngày nay, phổ biến nhất là các bàn
cờ: 9x9 / 13x13 và 19x19 (đơn vị tính là
số ô vuông).
Khi cả 2 người chơi đều từ bỏ lượt của mình thì ván cờ sẽ kết thúc.
Lúc này thắng thua sẽ được định đoạt bằng cách đếm Đất của mỗi
người. Người chơi nào giành được nhiều Đất hơn sẽ giành chiến
thắng
GIỚI THIỆU TỔNG QUAN
VỀ ALPHAGO ZERO
AlphaGo là phần mềm chơi cờ vây, dưới dạng AI, do công
ty DeepMind của Google phát triển vào năm 2017. Ông
chủ của công ty là thần đồng cờ vua Al Demis Hassabis.
Dựa trên thuật toán phân tích các phương án xác suất và kết hợp với
các bộ quy tắc và nhờ được thiết kế mô phỏng hoạt động não người,
phần mềm này có thể phân tích bài học từ những sai lầm để đưa ra
phương án tốt hơn cho mỗi lần chơi sau.
Qua đó, AlphaGo liên tục cập nhật dữ liệu các trận đấu cờ vây trên
khắp thế giới. Và hơn hết là học cách để đánh thắng chính nó, là"phân
thân" tư duy độc lập và liên tục tỉ thí, học hỏi.
STEP 1
AlphaGo Zero Tất cả code được thử và viết trên Ubuntu 18.04 sử
dụng Python 2.7
STEP 2 STEP 3
AlphaGo Zero đã tự dạy chính mình cách chơi AlphaGo đã sử dụng 4 Deep Convolutional
cờ vây bằng cách chơi với chính mình – trong Neural Network (Mạng nơ-ron tích chập sâu), 3
khi các phiên bản trước đó học hỏi bằng cách Policy Network (Mạng chính sách) và 1 Value
nghiên cứu những dữ liệu thu thập được từ Network (Mạng giá trị).
những người chơi là con người.
STEP 4 STEP 6
Supervised Learning Policy Network (Mạng chính Rollout policy (chính sách triển khai) có
sách học có giám sát): là mạng chính sách được học thời gian suy luận của mạng chính sách triển
các nước đi của các kì thủ, hay còn gọi là Imitation khai rất ngắn, điều này rất hữu ích cho việc
Learning (học bắt chước mô phỏng trên cây tìm kiếm Monte Carlo.
STEP 5 STEP 7
Reinforcement Learning Policy Network Sau đó, bộ dữ liệu self-play (tự chơi)
(mạng chính sách học tăng cường): được đào tạo Mạng giá trị để dự đoán người
học tăng cường dựa trên cơ chế self-play thắng cuộc tại trạng thái hiện tại của trò
(tự chơi). từ một vài lần lặp trước đó chơi.
Điều gì khiến 1 MẠNG HỌC
đến như vậy ? nhánh trả về value (phần trăm thắng) và policy
(nước đi tiếp theo).
Action probabilities
Phân bố xác suất các hành
động kế tiếp.
The winner
+1 nếu lượt này thắng, -1 nếu
lượt này thua. Giá trị này chỉ
xuất hiện khi game kết thúc.
Thuật toán thực hiện train lại 2. RETRAIN
mạng neuron và tối ưu trọng NETWORK
số mạng
AGZ sử
dụng mạng
học sâu để
lọc ra một
vài nước đi
tốt nhất để • Selection (lựa chọn) Từ node gốc, chọn đường đi tiềm năng nhất
mở rộng • Expansion (Đánh giá) Tạo một node lá từ nốt hiện tại
• Simulation: Mở rộng đến khi game kết thúc
• Backup (cập nhập) : Lưu lại đường đi này và update statistics của các cạnh
trên path đã chọn theo hướng từ dưới lên trên (từ node lá đến node gốc).
MCTS trong AGZ
Với MCTS
trong AGZ,
mỗi cạnh là
một action
và có 4
statistics: • N: Số lần action được chọn tại state .
• W: Tổng value của state tiếp theo. Khi đến node lá MCTS query mạng neuron để lấy
value của state đó; quá trình backup, giá trị này cộng dồn (từ dưới lên trên) vào W của các
node trên đường đi.
• Q: value trung bình của state. Đơn giản là lấy W/N.
• P: Prior probabilities lựa chọn action a tại state s. Giá trị này lấy từ nhánh policy của
mạng học sâu.
Cơ Chế Hoạt Động
Với mỗi bước đi, ta lặp 3 bước trên 1600 lần để xây
dựng cây trước khi chọn ra nước đi kế tiếp
Cơ Chế Hoạt Động
Cuối cùng, sau khi chọn xong nước kế
tiếp:
• Nước được chọn trở thành node gốc.
• Giữ lại tất cả lá gắn với node gốc
này.
• Loại bỏ tất cả phần khác.
• Lặp lại từ đầu cho đến khi ván đấu
kết thúc.
Deep Neural
Network
Từng hạ gục Lee Se-dol, kiện tướng 18 lần vô địch thế giới
Có thể sử dụng nó để tìm kiếm dữ liệu trong các lĩnh vực khác
như: công thức các loại thuốc, hóa học lượng tử, vật lý hạt và
thiết kế vật liệu.
Sự tương đồng AlphaZero sẽ chơi những nước cờ nằm trong dự
giữa AlphaZero kiến
và con người Đồng thời cân nhắc xem liệu đối phương sẽ phản
ứng với nước đi của mình như thế nào
Khi ván đấu khép lại, AGZ sẽ đánh giá xem mình
đã đánh giá sai ở đâu, giá trị của các vị trí trong
tương lai và cập nhật kiến thức của bản thân cho
phù hợp
AlphaGo Zero đang suy nghĩ theo cách của
con người, nhưng nhanh hơn rất nhiều.
do không bị giới hạn bởi sự hiểu biết thông thường về trò chơi, nó cũng phát triển trực
giác và chiến lược của riêng mình, bổ sung thêm một loạt các ý tưởng mới lạ và thú vị
Và vì là sản phẩm của trí tuệ nhân tạo nên AlphGo Zero không bị tri phối bởi
cảm xúc hay tác động tâm lý từ môi trường bên ngoài.
Kết Luận
AlphaGo là một cột mốc quan trọng trong nghiên cứu
trí tuệ nhân tạo.[67] Cờ vây trước đây đã được coi là
một vấn đề khó khăn trong học máy, được dự kiến sẽ
vượt ra khỏi tầm với của công nghệ trong thời đại
này
Rồi tới lúc nào đó, công nghệ này để tạo ra một
CẢM ƠN THẦY
VÀ CÁC BẠN ĐÃ
LẮNG NGHE VÀ
THEO DÕI