You are on page 1of 38

TRÍ TUỆ NHÂN TẠO (ARTIFICIAL INTELLIGENCE)

Siêu AI cờ vây AlphaGo


Zero Nhóm 4
Hà Văn Lương
Hồ Thị Tú Quyên
Võ Xuân Trường
Nguyễn Hoàng Phúc
Huỳnh Thị Kim Diệu
Nội Dung Giới thiệu tổng quan về Cờ Vây

Giới thiệu tổng quan AlphaGo Zero

Quá trình huấn luyện AGZ

Sự ưu việt của AGZ

Kết luận
GIỚI THIỆU TỔNG QUAN
VỀ CỜ VÂY
Bàn cờ
Gồm các đường thẳng dọc cắt các
đường thẳng ngang tạo thành những ô
vuông và giao điểm đều đặn. Trên thế
giới ngày nay, phổ biến nhất là các bàn
cờ: 9x9 / 13x13 và 19x19 (đơn vị tính là
số ô vuông).

Quân cờ gồm 2 loại là Đen và Trắng. Mỗi bàn cờ sẽ có tổng cộng khoảng 400


quân (chia đều cho trắng và đen), vừa đủ để đặt vào tất cả các điểm giao nhau
trên mọi loại bàn cờ.
Cách chơi Cờ Vây
STEP 1

Quân Đen được phép đi trước.


STEP 3

Mỗi khi đến lượt , người chơi có thể bỏ


STEP 2
lượt không đi, khi cả 2 người chơi cùng
bỏ lượt thì ván cờ sẽ kết thúc và thắng
Đặt quân cờ vào bất kỳ giao điểm nào
thua sẽ được định đoạt bằng cách đếm
mà bạn muốn. Tuy nhiên, tuyệt đối
số quân cờ đã được đặt trên bàn cờ,
Không được đặt vào giữa hay trên cạnh
người chơi nào có số quân cờ được đặt
của ô vuông và chỉ được đặt quân trong
nhiều hơn là giành chiến thắng
phạm vi của bàn cờ 
Luật ăn quân
Khi một quân cờ được đặt
xuống tại vị trí bất kỳ trên bàn
cờ thì tất cả các giao điểm
nằm sát theo chiều ngang và
dọc của quân cờ đó (không
tính giao điểm nằm chéo) là
khí của nó

Bạn có thể đặt nhiều quân cờ


sát vào nhau để mở rộng Khí
Luật ăn quân
Cứ mỗi một quân cờ của địch
đặt vào ô khí của quân cờ của
mình thì quân cờ của mình sẽ
mất ô khí đó. 

Bất kỳ quân cờ nào không còn ô


khí sẽ lập tức bị loại khỏi ván
đấu. 

Như trong hình, nếu quân trắng


đặt vào những vị trí x trên bản đồ
thì sẽ ăn được những quân đen
đã được đánh dấu.
Luật ăn quân

Nếu bạn có thể bao vậy toàn bộ đám


quân địch chỉ có một mắt như hình
bên dưới thì có thể ăn tất cả bọn
chúng
Luật ăn quân

2 người chơi sẽ bắt đầu mở rộng hay


chiếm thêm đất cho mình vì lúc này
đã có phòng tuyến vững chắc phía
sau.

Khi cả 2 người chơi đều từ bỏ lượt của mình thì ván cờ sẽ kết thúc.
Lúc này thắng thua sẽ được định đoạt bằng cách đếm Đất của mỗi
người. Người chơi nào giành được nhiều Đất hơn sẽ giành chiến
thắng
GIỚI THIỆU TỔNG QUAN
VỀ ALPHAGO ZERO
AlphaGo là phần mềm chơi cờ vây, dưới dạng AI, do công
ty DeepMind của Google phát triển vào năm 2017. Ông
chủ của công ty là thần đồng cờ vua Al Demis Hassabis.

Dựa trên thuật toán phân tích các phương án xác suất và kết hợp với
các bộ quy tắc và nhờ được thiết kế mô phỏng hoạt động não người,
phần mềm này có thể phân tích bài học từ những sai lầm để đưa ra
phương án tốt hơn cho mỗi lần chơi sau.

Qua đó, AlphaGo liên tục cập nhật dữ liệu các trận đấu cờ vây trên
khắp thế giới. Và hơn hết là học cách để đánh thắng chính nó, là"phân
thân" tư duy độc lập và liên tục tỉ thí, học hỏi.
STEP 1

AlphaGo Zero Tất cả code được thử và viết trên Ubuntu 18.04 sử
dụng Python 2.7

STEP 2 STEP 3

AlphaGo Zero đã tự dạy chính mình cách chơi AlphaGo đã sử dụng 4 Deep Convolutional
cờ vây bằng cách chơi với chính mình – trong Neural Network (Mạng nơ-ron tích chập sâu), 3
khi các phiên bản trước đó học hỏi bằng cách Policy Network (Mạng chính sách) và 1 Value
nghiên cứu những dữ liệu thu thập được từ Network (Mạng giá trị).
những người chơi là con người.
STEP 4 STEP 6

Supervised Learning Policy Network (Mạng chính Rollout policy (chính sách triển khai) có
sách học có giám sát): là mạng chính sách được học thời gian suy luận của mạng chính sách triển
các nước đi của các kì thủ, hay còn gọi là Imitation khai rất ngắn, điều này rất hữu ích cho việc
Learning (học bắt chước mô phỏng trên cây tìm kiếm Monte Carlo.

STEP 5 STEP 7

Reinforcement Learning Policy Network Sau đó, bộ dữ liệu self-play (tự chơi)
(mạng chính sách học tăng cường): được đào tạo Mạng giá trị để dự đoán người
học tăng cường dựa trên cơ chế self-play thắng cuộc tại trạng thái hiện tại của trò
(tự chơi). từ một vài lần lặp trước đó chơi.
Điều gì khiến 1 MẠNG HỌC

AGZ mạnh mẽ SÂU:


Nhận input là state hiện tại, đầu ra tách thành 2

đến như vậy ? nhánh trả về value (phần trăm thắng) và policy
(nước đi tiếp theo).

2 Monte Carlo Tree 3 SELF-PLAY:


Search (MTCS)
AGZ chơi với chính nó
Thuật toán tìm kiếm các bước di
qua một số ván cờ và cập
chuyển tiềm năng nhất và loại bỏ
nhật phiên bản có tỉ lệ
phần lớn các nước đi kém
thắng cao hơn.
Quá trình huấn luyện
AGZ gồm 3 bước thực
hiện song song:
1. SELF
PLAY
BƯỚC NÀY AGZ TỰ CHƠI VỚI CHÍNH NÓ 2. RETRAIN
ĐỂ THU THẬP DỮ LIỆU TRẬN ĐẤU
NETWORK
THUẬT TOÁN CHƠI TỔNG CỘNG 25000
GAMES VỚI CHÍNH NÓ 3. EVALUATE
NETWORK
1. SELF
Mỗi nước đi, các giá trị PLAY
sau được lưu lại
Game state
Các trạng thái

Action probabilities
Phân bố xác suất các hành
động kế tiếp.

The winner
+1 nếu lượt này thắng, -1 nếu
lượt này thua. Giá trị này chỉ
xuất hiện khi game kết thúc.
Thuật toán thực hiện train lại 2. RETRAIN
mạng neuron và tối ưu trọng NETWORK
số mạng

Sample mini-batch 2048 nước đi


lấy game state làm input cho
mạng

cross-entropy giữa phân


bố xác suất do mạng dự
đoán

• Evaluate mạng sau mỗi


1000 vòng lặp
Thực hiện đánh giá mô hình 3. EVALUATE
học sâu mới train NETWORK

Hai mạng sẽ được "đấu" với nhau


400 games, cả 2 đều sử dụng MCTS
để chọn nước đi. Mô hình mới train
phải thắng ít nhất 55% số ván đấu
để trở thành "người chiến thắng",
khi đó trọng số của mạng được cập
nhật
• Thuật toán MCTS

AGZ sử
dụng mạng
học sâu để
lọc ra một
vài nước đi
tốt nhất để • Selection (lựa chọn) Từ node gốc, chọn đường đi tiềm năng nhất
mở rộng • Expansion (Đánh giá) Tạo một node lá từ nốt hiện tại
• Simulation: Mở rộng đến khi game kết thúc
• Backup (cập nhập) : Lưu lại đường đi này và update statistics của các cạnh
trên path đã chọn theo hướng từ dưới lên trên (từ node lá đến node gốc).
MCTS trong AGZ

Với MCTS
trong AGZ,
mỗi cạnh là
một action
và có 4
statistics: • N: Số lần action được chọn tại state .
• W: Tổng value của state tiếp theo. Khi đến node lá MCTS query mạng neuron để lấy
value của state đó; quá trình backup, giá trị này cộng dồn (từ dưới lên trên) vào W của các
node trên đường đi.
• Q: value trung bình của state. Đơn giản là lấy W/N.
• P: Prior probabilities lựa chọn action a tại state s. Giá trị này lấy từ nhánh policy của
mạng học sâu.
Cơ Chế Hoạt Động

Bắt đầu với node gốc đại diện cho state


hiện tại, MCTS chọn action có

Q là value trung bình của state tiếp


theo
U là một hàm của P và N
U tăng khi action đó chưa được chọn
nhiều
N là số lần chọn action a từ state
Cơ Chế Hoạt Động

Tiếp tục mở rộng đến khi gặp node


Game state của node này được đưa


vào mạng neuron để predict ra hai giá
trị p (phân bố xác suất các nước đi kế
tiếp
Cơ Chế Hoạt Động

backup các cạnh trước đó cho đến


tận node gốc. Duyệt từ node lá

• Tăng N (số lần đi qua) lên 1


• Cộng W với v lấy từ mạng
neuron
• Tính Q=W/NQ=W/N
Cơ Chế Hoạt Động
N action có giá trị lớn nhất

τ là thông số nhiệt độ kiểm soát mức độ


exploration, được khởi tạo bằng 1.0 ở
đầu game và giá trị giảm dần sau một số
lần di chuyển nhất định

Với mỗi bước đi, ta lặp 3 bước trên 1600 lần để xây
dựng cây trước khi chọn ra nước đi kế tiếp
Cơ Chế Hoạt Động
Cuối cùng, sau khi chọn xong nước kế
tiếp:
• Nước được chọn trở thành node gốc.
• Giữ lại tất cả lá gắn với node gốc
này.
• Loại bỏ tất cả phần khác.
• Lặp lại từ đầu cho đến khi ván đấu
kết thúc.
Deep Neural
Network

ĐỂ MCTS HOẠT ĐỘNG HIỆU QUẢ, CẦN


CÓ SỰ HỖ TRỢ RẤT LỚN TỪ MẠNG HỌC
SÂU ĐỂ LÀM GIẢM KHÔNG GIAN TÌM
KIẾM
Game state

BÀN CỜ CÓ KÍCH THƯỚC 19X19

1 NẾU CÓ QUÂN ĐEN VÀ 0


NGƯỢC LẠI

TẤT CẢ BẰNG 1 NẾU LƯỢT ĐEN,


BẰNG 0 NẾU LƯỢT CỦA TRẮNG.
KẾT QUẢ LÀ TA CÓ GAME STATE
KÍCH THƯỚC 19X19X17
CÁCH
ALPHAGO
ZERO CHỌN
NƯỚC ĐI
TIẾP THEO
Và đó là tất cả những thuật toán bên
trong siêu AI AlphaGo Zero, thuật toán
này rất thú vị và đặc biệt
AlphaGo là chương trình máy tính đầu
tiên đánh bại một kỳ thủ cờ vây chuyên
nghiệp của con người, là người đầu tiên
đánh bại một nhà vô địch cờ vây thế
giới, và được cho là kỳ thủ cờ vây mạnh
nhất trong lịch sử.
ALPHAGO ZERO - THÀNH TỰU AI

Từng hạ gục Lee Se-dol, kiện tướng 18 lần vô địch thế giới

Sau 40 ngày, Zero đã có tỷ lệ chiến thắng lên đến 90% so với


phiên bản cao cấp nhất trước đây

Có thể sử dụng nó để tìm kiếm dữ liệu trong các lĩnh vực khác
như: công thức các loại thuốc, hóa học lượng tử, vật lý hạt và
thiết kế vật liệu.
Sự tương đồng AlphaZero sẽ chơi những nước cờ nằm trong dự
giữa AlphaZero kiến

và con người Đồng thời cân nhắc xem liệu đối phương sẽ phản
ứng với nước đi của mình như thế nào

Khi gặp một thế cờ lạ, AlphaZero sẽ đánh giá mức


độ thuận lợi của các nước đi khả thi và xếp hạng
điểm số chuỗi nước đi dẫn tới thế cờ hiện tại

Khi ván đấu khép lại, AGZ sẽ đánh giá xem mình
đã đánh giá sai ở đâu, giá trị của các vị trí trong
tương lai và cập nhật kiến thức của bản thân cho
phù hợp
AlphaGo Zero đang suy nghĩ theo cách của
con người, nhưng nhanh hơn rất nhiều.

Nhờ sự phát triển trong sự sáng tạo của con


người, trí tuệ nhân tạo đã xây dựng dựa trên
việc mô phỏng hoạt động não người, có thể
tư duy chuyên sâu dễ dàng vượt qua con
người trong bất kỳ phép thử logic thuần túy
nào và sở hữu khả năng tự học hỏi chuyên
sâu
AlphaZero đã độc lập khám phá và chơi các mô-típ thông dụng. Tuy nhiên, do tự học và

do không bị giới hạn bởi sự hiểu biết thông thường về trò chơi, nó cũng phát triển trực

giác và chiến lược của riêng mình, bổ sung thêm một loạt các ý tưởng mới lạ và thú vị

Và vì là sản phẩm của trí tuệ nhân tạo nên AlphGo Zero không bị tri phối bởi

cảm xúc hay tác động tâm lý từ môi trường bên ngoài.
Kết Luận
AlphaGo là một cột mốc quan trọng trong nghiên cứu
trí tuệ nhân tạo.[67] Cờ vây trước đây đã được coi là
một vấn đề khó khăn trong học máy, được dự kiến ​sẽ
vượt ra khỏi tầm với của công nghệ trong thời đại
này

Đó là bằng chứng cho thấy cộng đồng khoa học


đang đạt những bước tiến hướng tới trí tuệ nhân
tạo tổng quát hoàn chỉnh và tạo ra được các
siêu ứng dụng lợi ích cho con người
Từ những ưu việt trên mà có thể khẳng định dù AlphaGo Zero là bước tiến mới
cho trí tuệ nhân tạo. Tuy nhiện nó chỉ có thể xử lý những vấn đề được mô phỏng
hoàn hảo trên máy tính, không có mục tiêu chung nào. Chỉ có khả năng thực
hiện nhiệm vụ nhất định. Vì vậy các nhiệm vụ khác, ví dụ như lái xe, sẽ trở nên
bất khả thi.
Từ những kết quả mà AI đã tạo ra AlphaGo Zero

AI cũng có thể tạo nên ứng dụng như một “chuyên

viên” hỗ trợ thực tế ảo. Bạn hẳn cũng đã từng nghe

danh Siri của Apple, Alexa của Amazon, Cortana

của Microsoft hay Google Assistant của Google. Đó

đều là các phần mềm hỗ trợ thực tế ảo nối tiếng.

Rồi tới lúc nào đó, công nghệ này để tạo ra một

người “bạn ảo” thực sự cho bạn, chứ không chỉ là

một “trợ lý” đơn thuần nữa.


T R Í T U Ệ N H Â N TẠO (ARTI FIC IAL I NTE LLI GE NC E )

KẾT THÚC BÀI THUYẾT TRÌNH

CẢM ƠN THẦY
VÀ CÁC BẠN ĐÃ
LẮNG NGHE VÀ
THEO DÕI

You might also like