Viet

Machine Translated by Google
Giải thích trạng thái phản thực cho việc củng cố

Đại lý học tập thông qua học sâu sáng tạo
Matthew L. Olsona, , Roli Khannaa , Lawrence Neala ,Phụ Tân Liêu, Weng-Keen Wonga
aOregon State University, OR, Hoa Kỳ
trừu tượng
Những lời giải thích phản thực tế, giải quyết vấn đề “tại sao không?” kịch bản, có thể cung cấp trong
những lời giải thích dễ hiểu cho hành vi của tác nhân AI [Miller, 2019]. Trong công việc này, chúng tôi tập trung
về việc tạo ra các giải thích phản thực tế cho các tác nhân học tăng cường sâu (RL)
hoạt động trong môi trường đầu vào trực quan như Atari. Chúng tôi giới thiệu trạng thái phản thực tế
giải thích, một cách tiếp cận dựa trên ví dụ mới để giải thích phản thực tế dựa trên
học sâu tổng hợp. Cụ thể, một trạng thái phản thực tế minh họa những gì tối thiểu
arXiv:2101.12446v1
[cs.AI]
2021
Th01
29
cần thay đổi hình ảnh trò chơi Atari để tác nhân chọn một hành động khác.
Chúng tôi cũng đánh giá hiệu quả của các trạng thái phản thực đối với những người tham gia là con người.
không phải là chuyên gia học máy. Nghiên cứu người dùng đầu tiên của chúng tôi điều tra xem con người có thể phân biệt
nếu các giải thích trạng thái phản thực được tạo ra bởi trò chơi thực tế hoặc được tạo ra bởi một
phương pháp học sâu tổng quát. Nghiên cứu người dùng thứ hai của chúng tôi điều tra nếu phản thực
giải thích trạng thái có thể giúp những người tham gia không phải là chuyên gia xác định một tác nhân thiếu sót; chúng tôi so sánh
chống lại cách tiếp cận cơ bản dựa trên giải thích hàng xóm gần nhất sử dụng hình ảnh
từ trò chơi thực tế. Kết quả của chúng tôi chỉ ra rằng những giải thích trạng thái phản thực có
đủ độ trung thực với hình ảnh trò chơi thực tế để cho phép những người không phải là chuyên gia chơi hiệu quả hơn
xác định một tác nhân RL thiếu sót so với đường cơ sở hàng xóm gần nhất và không có
giải thích cả.
Từ khóa: Học sâu, Học tăng cường, AI có thể giải thích, AI có thể diễn giải
Tác giả tương ứng tại: 1148 Kelley Engineering Center, Corvallis, OR 97331-5501, USA. Điện thoại: +1
541 737 3617.
Địa chỉ email: olsomatt@eecs.oregonstate.edu (Matthew L. Olson)
Bản in trước được gửi đến Tạp chí Trí tuệ nhân tạo ngày 1 tháng 2 năm 2021
Hình 1: Một ví dụ phản chứng trong trò chơi Space Invaders thể hiện khả năng của một đặc vụ
hành động thay đổi bằng cách loại bỏ kẻ thù. Trái: Trạng thái trò chơi trong đó một tác nhân thực hiện hành động
"di chuyển sang trái và bắn". Đúng: Trạng thái phản thực mà tác nhân sẽ thực hiện hành động
"đi sang phải".
1. Giới thiệu
Bất chấp những tiến bộ ấn tượng của các tác nhân học tăng cường sâu (RL),
quá trình ra quyết định của họ là thách thức đối với con người để hiểu. hạn chế này
là mối quan tâm nghiêm trọng đối với các cài đặt trong đó độ tin cậy và độ tin cậy là rất quan trọng và việc triển khai
Tác nhân RL trong các cài đặt này yêu cầu đảm bảo rằng họ đang đưa ra quyết định cho
lý do đúng đắn. Để giải quyết vấn đề này, các nhà nghiên cứu đang phát triển các kỹ thuật để cung cấp
câu trả lời dễ hiểu của con người cho các câu hỏi giải thích về việc ra quyết định của tác nhân.
Các câu hỏi giải thích có thể được phân thành ba loại [Miller, 2019, Pearl and
Mackenzie, 2018]: “Cái gì?” (Lập luận liên tưởng), “Làm thế nào?” (Lý do can thiệp
ing) và “Tại sao?” (Lý luận phản chứng). Trong ba loại, "Tại sao?" câu hỏi
là thách thức nhất vì nó đòi hỏi lập luận phản thực tế [Lewis, 1973, Wachter
et al., 2017], bao gồm suy luận về các kết quả thay thế chưa xảy ra;
ngược lại, lập luận phản thực đòi hỏi cả lập luận kết hợp và lập luận can thiệp
[Miller, 2019]. Trong công trình của mình, chúng tôi trình bày một phương pháp giải thích phản chứng để giải quyết
tại sao?" câu hỏi trong phân loại của Miller. Cụ thể hơn, chúng tôi trả lời câu hỏi "Tại sao
không?" câu hỏi bằng cách sử dụng một mô hình thế hệ sâu có thể thay đổi trực quan hiện tại
trạng thái để tạo ra các kết quả thay thế.
2
Nền tảng của tác nhân RL là khung toán học của Quy trình Quyết định Markov
(MDP) [Puterman, 1994], mô hình hóa một tác nhân đưa ra một chuỗi các quyết định khi nó
tương tác với một môi trường ngẫu nhiên. Trong ký hiệu để làm theo trong phần này và trong
phần còn lại của bản thảo, vectơ, ma trận và tập hợp được in đậm trong khi vô hướng là
không. Chính thức, MDP là một bộ ( , MỘT, , , ), trong đó là tập hợp các trạng thái, A là tập hợp
của các hành động, ( , , ) là một hàm chuyển đổi nắm bắt xác suất di chuyển từ
trạng thái đến khi hành động được thực hiện ở trạng thái , ( , ) là hàm phần thưởng trả về
phần thưởng cho việc ở trạng thái và thực hiện hành động và được gọi là hệ số chiết khấu
(trong đó 0 ≤ ≤ 1) đánh giá tầm quan trọng của phần thưởng trong tương lai.
Sử dụng khung MDP, chúng tôi giới thiệu khái niệm về trạng thái phản thực như là một
giải thích phản thực1 . Chính xác hơn, đối với một tác nhân ở trạng thái thực hiện hành động
theo chính sách đã học của nó, một trạng thái phản thực tế là một trạng thái bao gồm một
thay đổi tối thiểu sao cho chính sách của đại lý chọn hành động thay vì . Vì
ví dụ, một trạng thái phản thực tế có thể được nhìn thấy trong Hình 1 cho trò chơi điện tử Space Invaders
[Brockman và cộng sự, 2016]. Trong trò chơi này, một đặc vụ trao đổi hỏa lực với kẻ thù đang đến gần
trong khi ẩn nấp bên dưới ba rào cản.
Cách tiếp cận của chúng tôi dành cho các tác nhân RL sâu hoạt động trong môi trường đầu vào trực quan
những thứ như Atari. Vai trò chính của deep learning trong những môi trường này là học
một đại diện chiều thấp hơn của trạng thái nắm bắt các khía cạnh nổi bật cần thiết
để học một chính sách thành công. Cách tiếp cận của chúng tôi điều tra xem những thay đổi đối với trạng thái gây ra như thế nào
tác nhân chọn một hành động khác. Như vậy, chúng tôi không tập trung giải thích dài dòng
hiệu quả ra quyết định tuần tự của việc tuân theo một chính sách đã học, mặc dù đây là một
hướng quan tâm cho công việc trong tương lai.
Mục tiêu cuối cùng của chúng tôi là một công cụ để thử nghiệm chấp nhận cho người dùng cuối của tác nhân RL sâu. Chúng tôi
hình dung các trạng thái phản thực đang được sử dụng trong môi trường diễn lại trong đó con người
người dùng quan sát tác nhân khi nó thực thi chính sách đã học. Tại các khung hình chính trong quá trình phát lại,
người dùng có thể yêu cầu tác nhân tạo các trạng thái phản thực giúp người dùng xác định
nếu tác nhân đã nắm bắt được các khía cạnh liên quan của đầu vào trực quan để ra quyết định.
Cách tiếp cận của chúng tôi dựa trên một kiến trúc thế hệ sâu mới lạ để tạo ra phản thực
1Phiên bản đầu tiên của tác phẩm này xuất hiện trong Olson et al. [2019].
3
Những trạng thái. Công việc trước đây về phản thực tế trong môi trường đầu vào trực quan đã dựa vào khác
các kỹ thuật như hoán đổi một phần với hình ảnh phân tâm [Goyal et al., 2019] hoặc khu vực
điền vào [Chang et al., 2019] để tạo ra những lời giải thích phản thực tế. Ngược lại, của chúng tôi
cách tiếp cận linh hoạt hơn ở chỗ nó có thể tạo ra toàn bộ hình ảnh trạng thái phản thực trên
nhu cầu bằng cách di chuyển qua không gian tiềm ẩn của mạng sâu.
Chúng tôi điều tra các câu hỏi nghiên cứu sau đây trong công việc này:
1. RQ1: Các mô hình thế hệ sâu có thể tạo ra các trạng thái phản thực có độ chính xác cao không
xuất hiện như thể chúng được tạo bởi trò chơi Atari?
2. RQ2: Các trạng thái phản thực có thể giúp ích cho người dùng không phải là chuyên gia về ma
chine learning, hiểu đủ về quyết định của một đại lý để xác định một
đại lý thiếu sót?
3. RQ3: Các trạng thái phản thực có hiệu quả hơn để giúp người dùng hiểu
quá trình ra quyết định của một đại lý hơn là một kỹ thuật cơ sở hàng xóm gần nhất?
Do đó, đóng góp của chúng tôi là gấp đôi. Đầu tiên, chúng tôi giới thiệu một thế hệ sâu mới
cách tiếp cận để tạo ra các trạng thái phản thực để cung cấp thông tin chi tiết về quyết định của tác nhân RL
làm. Thứ hai, chúng tôi trình bày kết quả nghiên cứu người dùng điều tra những nghiên cứu này
câu hỏi. Kết quả của chúng tôi chỉ ra rằng những giải thích về trạng thái phản thực thực sự hữu ích.
Trong các nghiên cứu của chúng tôi, chúng có đủ độ trung thực để hỗ trợ những người không phải là chuyên gia xác định RL thiếu sót
đại lý.
2. Công việc liên quan
2.1. Trí tuệ nhân tạo có thể giải thích
Tài liệu về AI có thể giải thích được rất nhiều và chúng tôi chỉ tóm tắt ngắn gọn nhất
công việc liên quan trực tiếp. Phần lớn công việc trước đây về giải thích học máy đã tập trung vào
về việc giải thích các tính năng hoặc vùng của đầu vào trực quan là quan trọng đối với dự đoán
/ hoạt động. Một nhóm lớn các cách tiếp cận thuộc loại này thuộc các kỹ thuật bản đồ nổi bật,
sử dụng các thuộc tính của gradient để ước tính ảnh hưởng của pixel trên đầu ra (ví dụ:
[Simonyan và cộng sự, 2013, Springenberg và cộng sự, 2014, Zeiler và Fergus, 2014, Selvaraju
và cộng sự, 2017, Fong và Vedaldi, 2017, Shrikumar và cộng sự, 2017, Dabkowski và Gal, 2017,
4
Sundararajan và cộng sự, 2017, Zhang và cộng sự, 2018, Greydanus và cộng sự, 2018, Qi và cộng sự, 2019]).
Tuy nhiên, công việc gần đây đã phát hiện ra một số kỹ thuật bản đồ nổi bật có vấn đề. Vì
ví dụ, Adebayo et al. [2018] nhận thấy rằng một số kỹ thuật bản đồ độ mặn vẫn được tạo ra
kết quả giống nhau ngay cả khi các tham số mô hình hoặc nhãn dữ liệu được chọn ngẫu nhiên. TRONG
Ngoài ra, Atrey et al. [2020] đã sử dụng lý luận phản thực tế để đánh giá liệu bản đồ độ mặn
là những lời giải thích thực sự về hành vi của một đặc vụ RL. Phát hiện của họ chỉ ra một tiêu cực
kết quả - cụ thể là bản đồ độ mặn có thể dẫn đến suy luận không chính xác
bởi con người và không nên được sử dụng như một lời giải thích về hành vi của một đại lý. Khác
các kỹ thuật giải thích bao gồm trích xuất một mô hình dễ hiểu đơn giản hơn từ một
mô hình phức tạp [Craven và Shavlik, 1995], sử dụng các mô hình có thể giải thích cục bộ (ví dụ:
[Marco Tulio Ribeiro và Guestrin, 2018, Ribeiro và cộng sự, 2016]), tạo các ô từ
Các mô hình phụ gia tổng quát với các thuật ngữ tương tác theo cặp [Caruana et al., 2015]
và sử dụng các hàm ảnh hưởng để xác định trường hợp dữ liệu đào tạo nào ảnh hưởng nhiều nhất đến
dự đoán [Koh và Liang, 2017].
Tuy nhiên, các phương pháp này không xác định cụ thể các thay đổi trong dữ liệu hiện tại
trường hợp sẽ dẫn đến một kết quả (hoặc phân loại) khác. Những thay đổi này
là một phần quan trọng của lý luận phản thực tế cần thiết để trả lời câu hỏi "Tại sao?" hoặc tại sao
Không?" câu hỏi. Một trong những phương pháp đầu tiên để làm như vậy là giải thích tương phản
Phương pháp (CEM) [Dhurandhar và cộng sự, 2018], xác định các tính năng quan trọng hoặc khác biệt
các vấn đề có thể khiến một thể hiện dữ liệu được phân loại thành một lớp khác. Chúng tôi tìm thấy
siêu tham số khiến CEM khó điều chỉnh để tạo phản thực có độ chính xác cao
cho dữ liệu nhiều chiều như hình ảnh Atari. Như chúng tôi sẽ trình bày trong Phần 5.2.1, CEM
sản xuất phản thực cho các trò chơi Atari chứa đầy đồ tạo tác "tuyết". CEM
cũng đã được mở rộng để giải thích sự khác biệt giữa các chính sách trong học tăng cường
[van der Waa và cộng sự, 2018]. Cách tiếp cận này tập trung vào sự khác biệt giữa các quỹ đạo
trong các môi trường hơn là trên các yếu tố trực quan của một trạng thái, đó là trọng tâm của
công việc của chúng ta.
Hai cách tiếp cận khác gần đây tập trung vào việc tạo ra các phản thực cho hình ảnh.
Chang et al. [2019] đã giới thiệu thuật toán FIDO tạo ra phản thực
cho hình ảnh bằng cách xác định vùng nào, khi được điền vào với các giá trị được tạo bởi một
mô hình chung, hầu hết sẽ thay đổi lớp dự đoán của hình ảnh. trọng tâm của
5
thuật toán FIDO đang tạo ra các bản đồ nổi bật và họ đã sử dụng các bản đồ thế hệ hiện có
các mô hình cho việc lấp đầy. Ngược lại, chúng tôi phát triển một mô hình thế hệ mới để sản xuất
giải thích trạng thái phản chứng; mục tiêu của phương pháp của chúng tôi là tạo ra một phiên bản thực tế
của toàn bộ trạng thái phản thực (ví dụ: toàn bộ hình ảnh khung trò chơi Atari) ngoài ra
để tạo ra các điểm nổi bật khác biệt tương tự như bản đồ độ mặn. Hơn nữa,
Chang et al. [2019] đã không đánh giá những lời giải thích phản thực tế của họ đối với người dùng
trong khi kết quả nghiên cứu người dùng của chúng tôi là một trong những đóng góp quan trọng của chúng tôi.
Goyal et al. [2019] đã tạo ra các giải thích trực quan phản thực tế cho hình ảnh bằng cách
tìm số lượng hoán đổi vùng tối thiểu giữa hình ảnh gốc với lớp
và một hình ảnh phân tâm với lớp sao cho lớp sẽ thay đổi thành . Cái này
phương pháp bị vấn đề mà giải thích phản thực tế của họ có thể tạo ra
hình ảnh với các vùng hoán đổi trông kỳ lạ, ví dụ: do đặt sai vị trí giữa
hai hình ảnh. Nghiên cứu người dùng của họ cũng tập trung vào dạy máy, điều này khác
từ trọng tâm của chúng tôi là đánh giá các tác nhân để thử nghiệm chấp nhận.
2.2. Học tăng cường có thể giải thích
Công việc giải thích RL trước đây đã tập trung vào việc giải thích các khía cạnh khác nhau của
công thức RL. Kỹ thuật giải thích chính sách bao gồm giải thích chính sách từ
Quy trình quyết định Markov với các mẫu dựa trên logic [Khan và cộng sự, 2009], nêu rõ ab
các chuỗi được tạo thông qua nhúng t-SNE [Mnih và cộng sự, 2015, Zahavy và cộng sự, 2016],
vị từ con người có thể hiểu được [Hayes và Shah, 2017], cấp cao, miền cụ thể
ngôn ngữ lập trình [Verma et al., 2018] và các máy trạng thái hữu hạn cho các chính sách RNN
[Koul và cộng sự, 2019]. Juozapa viêm et al. [2019] giải thích các quyết định do đại lý RL đưa ra bằng cách
phân tách các chức năng phần thưởng thành các thành phần đơn giản hơn nhưng có ý nghĩa về mặt ngữ nghĩa.
Cuối cùng, Mott et al. [2019] đã sử dụng một cơ chế chú ý để xác định các phần có liên quan của
môi trường trò chơi để ra quyết định.
Một loại kỹ thuật khác để giải thích RL đã sử dụng phương pháp dạy máy để trợ giúp
người dùng cuối hiểu mục tiêu của đại lý. Hoàng và cộng sự. [2019] đã dạy người dùng cuối về một
chức năng phần thưởng của đại lý sử dụng các quỹ đạo ví dụ được chọn bởi suy luận gần đúng
thuật toán RL nghịch đảo. Lage et al. [2019] được điều tra bằng cả RL nghịch đảo và
học bắt chước để tạo ra các bản tóm tắt về chính sách của một đại lý; công việc của họ đã làm nổi bật
6
cần các kỹ thuật tóm tắt được cá nhân hóa khi người dùng cuối thay đổi theo sở thích của họ
của kỹ thuật này so với kỹ thuật kia.
Các phương pháp khác xem xét tóm tắt hành vi của tác nhân bằng cách trình bày khóa mo
các quỹ đạo được thực hiện bởi một tác nhân được đào tạo [Amir và Amir, 2018, Huang và cộng sự,
2018, Sequeira và Gervasio, 2020]. Những khoảnh khắc quan trọng này nhằm chứng minh
khả năng của một đại lý, điều này có thể cải thiện lòng tin của người dùng cuối. Những khoảnh khắc quan trọng có thể là
được chọn theo mức độ quan trọng [Amir và Amir, 2018], tức là sự khác biệt lớn nhất về giá trị q đối với
một trạng thái nhất định [Torrey và Taylor, 2013] hoặc theo các trạng thái tới hạn trong đó giá trị q của một
hành động rõ ràng vượt trội so với những hành động khác [Huang và cộng sự, 2018]. Sequeira và Gervasio [2020]
khám phá sự thú vị dựa trên bốn chiều của tần suất, sự không chắc chắn, trước
tính chính tả và tính mâu thuẫn. Đối với một bản tóm tắt, thay vì trình bày một khoảnh khắc duy nhất,
họ đã trình bày một chuỗi các trạng thái thay đổi theo một chiều cụ thể.
Tất cả các phương pháp này đều khác nhau về cơ bản, nhưng bổ sung cho bộ đếm của chúng tôi
cách tiếp cận thực tế của việc tạo ra các giải thích. Cụ thể hơn, công việc của chúng tôi có thể được sử dụng như
một kỹ thuật giải thích để chứng minh trình độ của một tác nhân sau khi tương tác chính
thời điểm đã được chọn, chẳng hạn như bằng một trong những cách tiếp cận đã nói ở trên.
2.3. Học sâu sáng tạo
Vì các phản thực tế của chúng tôi được tạo ra bởi một mô hình tổng quát sâu sắc, chúng tôi thảo luận ngắn gọn
công việc liên quan về học sâu tổng quát. Các phương pháp học sâu sáng tạo mô hình hóa
quá trình tạo dữ liệu, do đó cho phép các trường hợp dữ liệu chưa từng thấy
sản xuất. Các phương pháp tạo bao gồm các bộ mã hóa tự động [Ballard, 1987], mã hóa một
đầu vào vector đặc trưng vào một đại diện tiềm ẩn chiều thấp hơn, và sau đó giải mã đó
đại diện tiềm ẩn trở lại không gian đầu vào ban đầu. Sau khi bộ mã hóa tự động được đào tạo,
một phương pháp phổ biến để tạo ra các thể hiện mới là di chuyển trong không gian tiềm ẩn và
sau đó giải mã biểu diễn không gian tiềm ẩn kết quả. Tuy nhiên, những sửa đổi này trong
không gian tiềm ẩn thường dẫn đến kết quả đầu ra không thực tế [Bengio et al., 2013] do "lỗ hổng"
trong không gian tiềm ẩn đã học. Vấn đề này có thể được giải quyết bằng cách kết hợp thêm một
thuật ngữ hàm mất mát làm cho biểu diễn tiềm ẩn khớp với phân phối được xác định trước
[Kingma và Welling, 2013, Makhzani và cộng sự, 2015, Tolstikhin và cộng sự, 2018].
Một loại mô hình sâu tổng quát khác là các mạng đối nghịch, có
7
đã thu hút được sự chú ý ngày càng tăng do các ứng dụng mới của chúng trong việc mô hình hóa độ phân giải cao
dữ liệu, đặc biệt là tạo ra những khuôn mặt không tồn tại [Goodfellow và cộng sự, 2014]. đối thủ
mạng đã được sử dụng để loại bỏ thông tin dự đoán của nhãn lớp từ một tiềm ẩn
không gian. Ví dụ: Fader Networks [Lample et al., 2017] đã mã hóa hình ảnh một bông hoa
thành một đại diện tiềm ẩn chiều thấp hơn mà vẫn giữ nguyên hình dạng và nền của nó, nhưng
không chứa thông tin liên quan đến màu của nó (trong đó màu là nhãn lớp). Các
nhãn lớp sau đó có thể được kết hợp với biểu diễn tiềm ẩn để tái cấu trúc hoàn toàn
hình ảnh dữ liệu gốc, nhưng điều quan trọng là nhãn lớp không cần phải là bản gốc
một. Phương pháp này có thể tạo lại nhiều phiên bản khác nhau của cùng một đầu vào được giữ lại
một số thuộc tính, nhưng các đặc điểm liên quan đến nhãn đã thay đổi. Như vậy, trong này
ví dụ, chúng ta có thể sử dụng Fader Networks để tạo một hình ảnh bông hoa với một hình dạng cụ thể và
nền, nhưng có màu khác với nhãn ban đầu.
3. Phương pháp luận: Mô hình học sâu sáng tạo cho các trạng thái phản thực
3.1. trạng thái phản thực tế
Mục tiêu của công việc này là làm sáng tỏ việc ra quyết định của một
tác nhân RL sâu sắc thông qua các giải thích phản chứng. Chúng tôi đặc biệt quan tâm đến
đạt được một số hiểu biết sâu sắc về khía cạnh nào của trạng thái đầu vào trực quan cho biết lựa chọn
hoạt động . Đưa ra một trạng thái truy vấn , chúng tôi tạo ra một trạng thái phản thực mà tối thiểu
khác trong một số ý nghĩa từ ,nhưng dẫn đến tác nhân thực hiện hành động hơn là
hoạt động . Chúng tôi gọi là hành động phản thực tế.
Hình 2: Các thành phần của một tác nhân được đào tạo trước.
số 8
Cách tiếp cận của chúng tôi yêu cầu một tác nhân RL chuyên sâu đã được đào tạo do một bên bên ngoài cung cấp cho chúng tôi.
Bây giờ chúng ta mô tả tác nhân này, được minh họa trong Hình 2. Tác nhân này có một chính sách đã học
được đại diện bởi một mạng lưới thần kinh sâu. Chúng tôi chia mạng chính sách này thành hai phân vùng
quan tâm (Hình 2). Phân vùng đầu tiên của các lớp mạng, mà chúng tôi biểu thị là ,
lấy một trạng thái và ánh xạ nó thành một biểu diễn tiềm ẩn = ( ). Vectơ tương ứng
đến biểu diễn tiềm ẩn của lớp được kết nối đầy đủ thứ hai đến lớp cuối cùng trong mạng.
Phân vùng thứ hai của các lớp mạng, mà chúng tôi biểu thị là , lấy và chuyển đổi nó
thành một phân phối hành động ( ) tức là một vectơ xác suất cho mỗi hành động. Tiêu biểu,
bao gồm một lớp tuyến tính được kết nối đầy đủ theo sau là một softmax. Chúng tôi sử dụng ( , ) ĐẾN
đề cập đến xác suất của hành động trong phân phối hành động ( ). Chúng tôi nhấn mạnh
sự khác biệt trong cài đặt Atari của chúng tôi giữa một trạng thái , đó là một hình ảnh trò chơi Atari thô
(còn được gọi là khung trò chơi) và trạng thái tiềm ẩn thu được từ giây đến
lớp được kết nối đầy đủ cuối cùng của mạng chính sách. Lớp tiềm ẩn này, mà chúng tôi gọi là
quan trọng trong chẩn đoán của chúng tôi vì nó được tác nhân sử dụng để thông báo lựa chọn hành động của nó.
Mô hình thế hệ của chúng tôi được đào tạo bằng cách sử dụng tập dữ liệu đào tạo X = {( 1, 1), . . . , ( , )}
của các cặp trạng thái-hành động, trong đó các vectơ hành động là các phân phối hành động thu được
từ tác nhân được đào tạo khi nó thực thi chính sách đã học. Tóm lại, tác nhân2 có thể là
được xem như ánh xạ ( ( )).
Cách tiếp cận của chúng tôi đối với các giải thích phản thực tế là tạo ra các trạng thái phản thực tế bằng cách sử dụng
một mô hình tổng quát sâu, đã được chứng minh là tạo ra những hình ảnh chân thực [Radford
và cộng sự, 2015]. Chiến lược của chúng tôi là mã hóa trạng thái truy vấn thành một biểu diễn tiềm ẩn.
Sau đó, từ biểu diễn tiềm ẩn này, chúng ta di chuyển trong không gian tiềm ẩn theo một hướng
làm tăng xác suất thực hiện hành động phản thực tế . Tuy nhiên, như
đã được lưu ý trước đó bởi công việc trước đó, không gian tiềm ẩn của bộ mã hóa tự động tiêu chuẩn được lấp đầy bằng
“lỗ hổng” và trạng thái phản thực được tạo ra từ những lỗ hổng này sẽ trông không thực tế
[Bengio và cộng sự, 2013]. Để tạo ra một không gian tiềm ẩn dễ tạo hơn
kết quả đầu ra đại diện, chúng tôi tạo ra một kiến trúc mới liên quan đến một ô tô đối nghịch
bộ mã hóa [Makhzani et al., 2015] và bộ mã hóa tự động Wasserstein [Tolstikhin et al.,
2Tác nhân có thể có các thành phần khác như mạng chức năng giá trị. Công việc hiện tại của chúng tôi chỉ sử dụng
mạng chính sách, nhưng chúng tôi muốn áp dụng những ý tưởng tương tự cho mạng chức năng giá trị.
9
Hình 3: Tổng quan về kiến trúc của chúng tôi, bao gồm bộ mã hóa , máy phát điện ,
người phân biệt đối xử và tác nhân được đào tạo trước (màu xám).
2018]. Các phương pháp khác để điều hướng không gian tiềm ẩn là có thể, chẳng hạn như
phương pháp được trình bày bởi Jahanian et al. [2020] và Besserve et al. [2020], nhưng những
phương pháp tiếp cận không chỉ định bộ mã hóa, được yêu cầu trong khuôn khổ của chúng tôi để mã hóa
trạng thái truy vấn thành một đại diện tiềm ẩn.
3.2. Kiến trúc mạng sâu
Hình 3 mô tả kiến trúc mà chúng tôi sử dụng trong quá trình đào tạo. Tác nhân RL được tô bóng
màu xám để chỉ ra rằng nó đã được đào tạo. Đầu tiên, chúng tôi mô tả Bộ mã hóa ( ),
Người phân biệt đối xử ( ) và Trình tạo ( ), hoạt động cùng nhau để tạo ra phản thực
hình ảnh trạng thái khác nhau tùy thuộc vào phân phối hành động đầu vào. Thứ hai, chúng tôi mô tả
bộ mã hóa tự động Wasserstein ( , ), tạo ra một không gian tiềm ẩn mới dựa trên
không gian tiềm ẩn của tác nhân; không gian tiềm ẩn mới này cho phép nhiễu loạn trong không gian này
để tạo ra các trạng thái phản thực có ý nghĩa. Mỗi thành phần này đóng góp một
thuật ngữ tổn thất đối với chức năng tổn thất tổng thể được sử dụng để huấn luyện mạng.
3.2.1. Bộ mã hóa, bộ phân biệt và bộ tạo
Mất bộ mã hóa tự động. Bộ mã hóa và bộ tạo hoạt động như một cặp bộ mã hóa-giải mã.
là một mạng thần kinh tích chập sâu ánh xạ trạng thái đầu vào sang chiều thấp hơn
đại diện tiềm ẩn ( ). Chúng tôi lưu ý rằng Bộ mã hóa khác với bộ mã hóa
được sử dụng bởi mạng chính sách của tác nhân và do đó có một không gian tiềm ẩn khác. là một sâu
mạng lưới thần kinh thế hệ tích chập tạo ra một hình ảnh Atari với khả năng tiềm ẩn của nó
10
đại diện ( ) và một vectơ chính sách ( ) (trong đó = ( )). mã hóa tự động
Hàm mất mát của E và G là hàm lỗi bình phương trung bình (MSE):
1
= (1)
|| ( ( ), ( ( ))) ||2 2
|X|
( , ) X
Để tạo ra các trạng thái phản thực tế, chúng tôi muốn tạo một hình ảnh mới bằng cách thay đổi
phân phối hành động ( ( )) để phản ánh hành động phản thực mong muốn . Tuy nhiên, trong
thí nghiệm của chúng tôi, chúng tôi nhận thấy rằng chỉ có hàm mất mát tự nó sẽ gây ra
bỏ qua ( ( )) và chỉ sử dụng ( ); hành vi này xảy ra do hàm mất mát
khuyến khích xây dựng lại có thể đạt được chỉ với mã hóa ( ) và
không có ( ( )). Để tạo điều kiện cho Trình tạo dựa trên phân phối hành động,
chúng tôi thêm một thuật ngữ thua lỗ đối thủ bằng cách sử dụng một bộ phân biệt đối xử
.
Mất phân biệt đối xử. Để đảm bảo rằng ( ) không bị bỏ qua, chúng tôi yêu cầu bộ mã hóa tạo
một biểu diễn bất biến hành động ( ). Bằng bất biến hành động, chúng tôi muốn nói rằng biểu
diễn ( ) không còn nắm bắt được các khía cạnh của trạng thái cho biết lựa chọn của , cùng
hoạt động. Bằng cách đó, thêm ( ) làm đầu vào cho với ( ), sẽ cung cấp
thông tin cần thiết sẽ cho phép tạo lại các hiệu ứng của . Để tạo ra
một đại diện bất biến hành động, chúng tôi thực hiện đào tạo đối thủ trên không gian tiềm ẩn,
tương tự như cách tiếp cận của Lample et al. [2017].
Do đó, chúng tôi thêm một bộ phân biệt đối xử được đào tạo để dự đoán phân phối hành động đầy đủ
( ) được cho ( ). Biểu diễn tiềm ẩn bất biến hành động được học theo cách sao cho
không thể dự đoán đúng ( ) từ đại lý của chúng tôi. Như trong Mạng đối thủ sáng tạo
(GANs) [Goodfellow et al., 2014], cài đặt này tương ứng với trò chơi hai người chơi trong đó
nhằm mục đích tối đa hóa khả năng xác định phân phối hành động và nhằm mục đích
ngăn cản trở thành một người phân biệt đối xử tốt. Bộ phân biệt xấp xỉ
( ) với trạng thái được mã hóa ( ) và được huấn luyện với mất MSE như hình bên dưới:
1
= (2)
|| ( ( )) ( ( ))||2 2
|X|
( , ) X
Thất bại đối thủ. Mục tiêu của bộ mã hóa bây giờ là tìm hiểu một biểu diễn tiềm ẩn
tối ưu hóa hai mục tiêu. Mục tiêu đầu tiên khiến máy phát tái tạo lại
11
trạng thái đã cho ( ) và ( ( )), nhưng mục tiêu thứ hai gây ra sự phân biệt đối xử
không thể dự đoán ( ( )) đã cho ( ). Để thực hiện hành vi này trong , chúng tôi muốn
để tối đa hóa entropy ( ( ( ))), trong đó ( ) = ( ). Do đó, các
tổn thất đối thủ có thể được viết là:
=
– ( ( ( ))) (3)
|X|
( , ) X
Siêu tham số > 0 đánh giá tầm quan trọng của tổn thất đối thủ này trong
hàm tổn thất tổng thể. Lớn hơn khuếch đại tầm quan trọng của entropy cao ( ), mà
lần lượt làm giảm lượng thông tin liên quan đến hành động trong ( ) và nếu được đẩy đến
cực đoan, dẫn đến trình tạo tạo ra các khung trò chơi không thực tế. Mặt khác
tay, các giá trị nhỏ của Lower phụ thuộc vào đầu vào ( ), dẫn đến những thay đổi nhỏ
đến trạng thái trò chơi khi ( ) được sửa đổi. Để phân tích tác động của sự khác nhau, nhìn thấy
Phụ lục A.
3.2.2. Bộ mã hóa tự động Wasserstein
Các trạng thái phản thực đòi hỏi một khái niệm về sự gần gũi giữa trạng thái truy vấn
và trạng thái phản thực . Khái niệm về sự gần gũi này có thể được đo bằng các thuật ngữ
khoảng cách trong không gian tiềm ẩn của tác nhân. Chúng tôi muốn tạo ra một trạng thái phản thực trong
không gian tiềm ẩn vì nó ảnh hưởng trực tiếp đến phân phối hành động . Chúng tôi thực hiện
giảm độ dốc trong không gian tính năng này đối với hành động mục tiêu của chúng tôi để tạo ra một
mới có khả năng xảy ra hành động phản thực tế tăng lên . Tuy nhiên, như
đã đề cập trước đó, di chuyển trong biểu diễn tiềm ẩn của bộ mã hóa tự động tiêu chuẩn
có thể dẫn đến những phản chứng không thực tế [Bengio và cộng sự, 2013]. Để tránh vấn đề này,
chúng tôi đại diện lại đến một đa tạp chiều thấp hơn đó là nhỏ gọn hơn và
cư xử tốt hơn để tạo ra phản thực đại diện.
Chúng tôi sử dụng bộ mã hóa tự động Wasserstein (WAE) để tìm hiểu chức năng ánh xạ từ
không gian tiềm ẩn ban đầu của tác nhân thành một đa tạp hoạt động tốt [Tolstikhin và cộng sự, 2018]. Qua
sử dụng khái niệm vận chuyển tối ưu, WAE đã chỉ ra rằng họ có thể học không chỉ
nhúng chiều thấp, nhưng cũng là một trong đó các điểm dữ liệu giữ lại khái niệm về
sự gần gũi trong không gian tính năng ban đầu của chúng, nơi các điểm dữ liệu có khả năng ở gần nhau.
12
Hình 4: Bộ mã hóa tự động Wasserstein (được hiển thị dưới dạng cặp Và ) xấp xỉ
phân phối các trạng thái đại lý nội bộ .
Bản chất duy trì sự gần gũi của WAE đóng một vai trò quan trọng khi tạo
một vectơ phân phối hành động ( ). Trong bối cảnh phản thực của chúng tôi, chúng tôi muốn điều tra
tác dụng của việc thực hiện hành động . Tuy nhiên, chúng ta không thể đơn giản chuyển đổi thành một hành động
vectơ phân phối và gán xác suất 1 cho thành phần tương ứng trong
vector vì cách tiếp cận này có thể dẫn đến hình ảnh không có tính đại diện và độ trung thực thấp. Thay vì,
chúng tôi theo một gradient trong không gian, tạo ra các vectơ phân phối hành động
đại diện hơn cho những sản phẩm do tác nhân RL sản xuất. Quá trình này, đến lượt nó,
cho phép Trình tạo tạo ra hình ảnh chân thực hơn.
Chúng tôi đào tạo một WAE, với bộ mã hóa và bộ giải mã , trên các trường hợp dữ liệu được đại diện
trong không gian tiềm ẩn của tác nhân (xem Hình 4). Chúng tôi sử dụng tổn thất MSE được điều chỉnh theo Tối đa
Chênh lệch trung bình (MMD):
1
= ( ( ( ))) ( ) + ( , ) (4)
2 2
| |
Ở đâu
( , ( ) (5)
) = ( , ·) ( ) ( , ·)
h
Ở đây H là một không gian Hilbert hạt nhân sao chép, và trong nghiên cứu của chúng tôi, một đa nghịch đảo
nhân bậc hai được sử dụng [Tolstikhin và cộng sự, 2018].
13
3.2.3. Đào tạo
Chúng tôi để một đặc vụ được đào tạo trước chơi trò chơi với sự khám phá - tham lam và huấn luyện với
tập dữ liệu kết quả X = {( 1, 1), . . . , ( , )). Chúng tôi đào tạo với chức năng mất tổng thể
bằng = + + + . Chức năng mất mát được giảm thiểu ở mỗi trò chơi
bước thời gian với việc giảm độ dốc ngẫu nhiên bằng trình tối ưu hóa ADAM [Kingma và Ba,
2014].
3.2.4. Mất chức năng Clipping
Các mô hình phát sinh đã được chứng minh là gặp khó khăn lớn trong việc giữ lại các
đối tượng [Alvernaz và Togelius, 2017]. Chúng tôi theo dõi [Kaiser et al., 2020] bằng cách sử dụng lỗ
clipping, được định nghĩa là max( , ) cho một hằng số . Clip này chỉ
được áp dụng cho bộ mã hóa tự động của chúng tôi và điều quan trọng là có nhiều độ dốc nhỏ cho mỗi
dự đoán pixel nền lớn hơn chi phí dự đoán sai kích thước nhỏ khó mã hóa
các đối tượng. Trong cài đặt của chúng tôi, chúng tôi thấy rằng việc cắt giảm tổn thất này đảm bảo duy trì
nhưng các đối tượng chính trong quá trình tự động mã hóa và tạo các đối tượng này khi tạo
trạng thái phản thực tế, chẳng hạn như những viên đạn trong trò chơi Atari Space Invaders.
3.3. Tạo phản thực tế
Mục tiêu của chúng tôi là tạo ra những hình ảnh phản thực gần giống với trạng thái thực của
môi trường trò chơi, nhưng dẫn đến tác nhân thực hiện hành động thay vì hành động . theo thứ tự
để xác định các yếu tố cần thiết của trạng thái cần thay đổi, chúng tôi yêu cầu
rằng trạng thái phản thực được tạo được thay đổi tối thiểu so với truy vấn ban đầu
tình trạng
. Tương tự với Neal et al. [2018], chúng tôi xây dựng quy trình này dưới dạng tối ưu hóa:
giảm thiểu || ( 2 ( )) ||
2
chịu arg cực ( ( ), ) =

đại A
ở đâu là trạng thái truy vấn đã cho, A là tập hợp các hành động và là một điểm tiềm ẩn
đại diện cho một trạng thái bên trong có thể có của tác tử. Tối ưu hóa này có thể được thư giãn như
14
sau:
= arg min || ( ( ))||2 + log (1 2 ( ( ), )) (6)
Ở đâu ( , ) là xác suất của tác nhân thực hiện một hành động rời rạc trên
biểu diễn trạng thái phản thực. Bằng cách giảm thiểu thuật ngữ thứ hai, chúng tôi nhằm mục đích
tăng xác suất thực hiện hành động và giảm xác suất thực hiện tất cả các hành động khác
hành động.
Để tạo trạng thái phản thực, chúng tôi chọn một trạng thái từ tập huấn luyện, sau đó mã hóa
trạng thái đến điểm tiềm ẩn Wasserstein = ( ( )). Sau đó chúng tôi giảm thiểu phương trình
6 thông qua giảm độ dốc đối với để tìm , sau đó giải mã điểm tiềm ẩn
để tạo một ( ) mới được chuyển đến trình tạo, cùng với ( ) để tạo
trạng thái phản thực tế .
3.4. Thiết lập thử nghiệm
Tác nhân được đào tạo trước là một mạng chuyển tiếp nguồn cấp tích chập sâu được đào tạo với
Lợi thế không đồng bộ Diễn viên-Nhà phê bình (A3C) [Mnih et al., 2015] để tối đa hóa điểm số trong
một trò chơi Atari. Các trò chơi được chơi với số lần bỏ qua khung hình cố định là 8 (7 đối với Space Invaders).
Mạng lấy bộ 4 khung hình đơn sắc ghép nối làm đầu vào và là
được đào tạo để tối đa hóa điểm trò chơi bằng thuật toán A3C. Chúng tôi phân hủy tác nhân
thành hai chức năng: ( ) lấy 4 khung hình video được nối đầu vào và tạo ra
một vectơ 256 chiều , và ( ) đưa ra phân phối giữa các hành động. Các
các khung được lấy mẫu xuống và cắt thành 80x80, với các giá trị chuẩn hóa [0,1]. Cái này
đầu vào được xử lý bởi 4 lớp tích chập (mỗi lớp có 32 bộ lọc, kích thước hạt nhân là 3,
các bước tiến là 2 và phần đệm là 1), tiếp theo là lớp được kết nối đầy đủ, có kích thước 256 và một
kích thước lớp được kết nối đầy đủ cuối cùng |A| + 1, trong đó |A| là kích thước không gian hành động. chúng tôi áp dụng một
kích hoạt softmax thành |A| đầu tiên tế bào thần kinh để có được ( ) = và sử dụng tế bào thần kinh cuối cùng để
dự đoán giá trị, ( ).
Thuật toán A3C RL được huấn luyện với tốc độ học = 10 4 , giảm giá
hệ số = 0,99 và tổn thất được tính toán đối với chính sách sử dụng Lợi thế tổng quát
Ước lượng với = 1,0. Chúng tôi thấy rằng sự hội tụ khó khăn hơn với một lượng lớn như vậy
bỏ qua khung hình, do đó, mỗi chính sách được đào tạo không đồng bộ cho tổng số 50 triệu khung hình.
15
Trong quá trình đào tạo, chúng tôi không thu nhỏ hoặc thang độ xám của trạng thái trò chơi. chúng tôi vượt qua trong
bước thời gian trò chơi hiện tại dưới dạng 3 kênh, hình ảnh RGB. Để tạo tập dữ liệu X, chúng tôi đặt
giá trị thăm dò thành 0,2 và yêu cầu tác nhân chơi trong 25 triệu bước môi trường.
3.4.1. Chi tiết mạng
Bộ mã hóa bao gồm 6 lớp chập theo sau là 2 lớp được kết nối đầy đủ
các lớp có kích hoạt LeakyReLU và chuẩn hóa hàng loạt. Đầu ra ( ) là một
véc tơ 16 chiều. Đối với hầu hết các đại lý của chúng tôi, chúng tôi nhận thấy giá trị = 50 thực thi một
sự đánh đổi tốt giữa tái thiết nhà nước và sự phụ thuộc vào ( ). Đầu ra của
mạng được gọi trong văn bản là ( ).
Trình tạo bao gồm một lớp được kết nối đầy đủ theo sau là 6 lớp được chuyển đổi
các lớp tích chập, tất cả đều có kích hoạt LeakyReLU và chuẩn hóa hàng loạt. Các
trạng thái được mã hóa ( ) và phân phối hành động ( ) được đưa đến lớp đầu tiên của trình
tạo. Ngoài ra, theo khuyến nghị của Lample et al. [2017], ( )
được thêm vào như một kênh đầu vào bổ sung cho mỗi lớp tiếp theo, điều này đảm bảo
học cách phụ thuộc vào các giá trị của ( ) để tạo ảnh khi ( ) được sửa đổi trong quá trình
thế hệ phản thực.
Bộ phân biệt bao gồm hai lớp được kết nối đầy đủ, theo sau là một softmax
chức năng và đưa ra phân phối giữa các hành động có cùng chiều như
( ).
Bộ mã hóa Wasserstein bao gồm 3 lớp được kết nối đầy đủ ánh xạ tới một
véc tơ 128 chiều , bình thường hóa sao cho 2 = 1. Mỗi lớp đều giống nhau
chiều là 256, ngoại trừ đầu ra của lớp thứ 3 là 128. Ngoài ra,
hai lớp đầu tiên được theo sau bởi chuẩn hóa hàng loạt và ReLU bị rò rỉ với rò rỉ
của 0,2. Bộ giải mã Wasserstein tương ứng đối xứng với , với lô
chuẩn hóa và ReLU bị rò rỉ sau hai lớp đầu tiên và ánh xạ trở lại .
3.4.2. Chi Tiết Đào Tạo
Bộ mã hóa, trình tạo và bộ phân biệt đều được đào tạo thông qua độ dốc ngẫu nhiên
4
giảm dần bằng trình tối ưu hóa Adam, với tham số = 1 , 1 = 0, 2 = 0,9. Này
các mạng thường được đào tạo cho 25 triệu trạng thái trò chơi để đạt được độ trung thực cao
16
tái tạo, nhưng chúng tôi nhận thấy thậm chí một phần mười trạng thái trò chơi là đủ để sản xuất
trạng thái phản thực có ý nghĩa. Chúng tôi đặt hằng số cắt tổn thất tối đa = 0,0001,
có nghĩa là nếu pixel được tạo lại (0-255) nằm trong 2 giá trị, độ dốc của nó sẽ bị bỏ qua.
Khi đào tạo tác nhân, chúng tôi sử dụng bước thời gian hiện tại và 3 bước thời gian trước đó
nối để đại diện cho trạng thái. Đối với mô hình thế hệ của chúng tôi, chúng tôi chỉ sử dụng hiện tại
tình trạng.
Bộ mã hóa tự động Wasserstein đã được đào tạo với các trình tối ưu hóa Adam có cùng tốc độ học
= 10 4 và với các tham số mặc định. Đào tạo đã được thực hiện cho
15 triệu khung hình, dựa vào đó chúng tôi nhận thấy việc chọn các hành động từ ( ( ( ( ))))
liên tục đạt được số điểm trò chơi trung bình giống như tác nhân ban đầu.
Tất cả các mô hình đều được xây dựng và đào tạo bằng PyTorch [Paszke và cộng sự, 2019]. Vì
thêm thông tin về kiến trúc và các thông số đào tạo của chúng tôi, mã của chúng tôi có thể
truy cập tại: https://github.com/mattolson93/counterfactual-state-explanations/
3.4.3. Tạo điểm nổi bật trạng thái phản thực tế
Trạng thái phản thực tế thường chứa đựng những thay đổi nhỏ khó nhận thấy nếu không
kiểm tra cẩn thận, vì vậy chúng tôi bắt chước quy trình tạo bản đồ độ mặn trong Greydanus et al.
[2018] để làm nổi bật sự khác biệt giữa trạng thái ban đầu và trạng thái phản thực. Chúng tôi
lấy sự khác biệt tuyệt đối giữa trạng thái ban đầu và trạng thái phản thực để
tạo mặt nạ phản thực =|| ||1. Để rõ ràng hơn về những thay đổi, chúng tôi
áp dụng hiệu ứng làm mờ Gaussian trên mặt nạ. Cuối cùng, chúng tôi đặt mặt nạ mờ thành một màu duy nhất
kênh và kết hợp mặt nạ màu này với trạng thái ban đầu để có được những điểm nổi bật. TRONG
thử nghiệm của chúng tôi, các điểm nổi bật có màu khác nhau cho các trò chơi khác nhau (ví dụ: màu xanh lam cho
Space Invaders và màu đỏ cho Qbert) vì chúng tôi muốn các màu tương phản hoàn toàn với
bảng màu của trò chơi.
4. Phương pháp luận: Nghiên cứu người dùng
Nhìn chung, đánh giá các giải thích là một vấn đề đầy thách thức và phản thực tế.
giải thích là đặc biệt khó khăn. Một lời giải thích phản thực tốt giúp con người
hiểu tại sao một tác nhân thực hiện một hành động cụ thể. Tiêu chí dựa trên con người này
không thể nắm bắt được bằng các chỉ số định lượng. Ví dụ, sử dụng xác suất
17
( , ) như một thước đo định lượng cho trạng thái phản thực tế là sai lệch bởi vì
xác suất này có thể cao đối với một số hình ảnh Atari mà con người có thể ngay lập tức nhận được
ognize không phải do chính trò chơi tạo ra và cũng cao đối với các ví dụ đối nghịch với
những thay đổi không thể nhận thấy đối với trạng thái ban đầu .
Vì việc đánh giá các thông tin phản thực cần có sự kiểm tra của con người nên chúng tôi đã thiết kế hai người dùng
học. Trong nghiên cứu người dùng đầu tiên, chúng tôi đã đánh giá mức độ trung thực của các trạng thái phản thực của chúng tôi đối với
trò chơi. Theo độ trung thực, chúng tôi đề cập đến việc hình ảnh phản thực dường như được tạo ra tốt như thế nào
bởi chính trò chơi chứ không phải bởi một mô hình deep learning tổng quát. trong lần thứ hai
nghiên cứu người dùng, chúng tôi đã điều tra xem trạng thái phản thực của chúng tôi có thể giúp con người hiểu
đủ khả năng ra quyết định của một đại lý để họ có thể thực hiện một nhiệm vụ xuôi dòng là
xác định một tác nhân RL thiếu sót.
4.1. Nghiên cứu dành cho người dùng 1: Tính trung thực của các trạng thái phản thực (RQ1)
Để đánh giá độ trung thực của các trạng thái phản thực của chúng tôi, chúng tôi cần tạo
phương pháp cơ sở để so sánh. Đầu tiên, chúng tôi đã thử nghiệm sử dụng tiêu cực thích hợp
từ Phương pháp giải thích tương phản (CEM) [Dhurandhar et al., 2018] như
phản thực tế. Những tiêu cực thích hợp này làm nổi bật các tính năng vắng mặt sẽ gây ra
tác nhân để chọn một hành động thay thế. Chúng tôi đã tạo ra những âm bản thích hợp từ Atari
các trạng thái có pixel dưới dạng các tính năng và diễn giải chúng dưới dạng các trạng thái phản thực tế. chúng tôi mỗi
đã hình thành một tìm kiếm mở rộng trên các siêu tham số để tạo ra các trạng thái có độ chính xác cao, nhưng
nhận thấy CEM rất khó điều chỉnh do tính chất nhiều chiều của hình ảnh Atari.
Các trạng thái phản thực được tạo giống hệt với trạng thái truy vấn ban đầu hoặc
chúng có các đồ tạo tác “tuyết” rõ ràng như trong Hình 5, khiến chúng có chất lượng quá thấp
để làm cơ sở hợp lý cho nghiên cứu người dùng của chúng tôi.
Sau đó, chúng tôi đã tạo ra một phương pháp cơ sở bao gồm các hình ảnh phản thực từ một
phiên bản cắt bỏ của mô hình thế hệ của chúng tôi. Trong phiên bản cắt bỏ của mạng,
bộ mã hóa, bộ phân biệt và bộ mã hóa tự động Wasserstein đã bị xóa và trình tạo
đã được đào tạo với mất MSE để tái tạo được đưa ra làm đầu vào. hình ảnh phản thực
được tạo bằng cách thực hiện giảm độ dốc đối với để tối đa hóa ( , )
cho một hành động phản thực tế . Chúng tôi thấy rằng các trạng thái phản thực tế được tạo ra theo cách này
không phải lúc nào cũng xây dựng một trạng thái trò chơi hoàn toàn thuyết phục như trong Hình 6, nhưng
18
Hình 5: Các trạng thái phản thực được tạo ra bằng Phương pháp giải thích tương phản với ba
sự lựa chọn của các tham số trên các trạng thái khác nhau. Hình ảnh có màu đen trắng vì bản gốc
Mã nguồn CEM hoạt động dựa trên đầu vào trực tiếp tới tác nhân– là những hình ảnh màu xám, được thu nhỏ lại.
Hình 6: Ba ví dụ về các trạng thái phản thực tế được tạo ra bằng mô hình cắt bỏ.
có đủ chất lượng để sử dụng làm cơ sở trong nghiên cứu người dùng của chúng tôi. Phụ lục B chi tiết
các thí nghiệm cắt bỏ khác, cho thấy những tác động tiêu cực của việc loại bỏ bất kỳ
thành phần từ kiến trúc của chúng tôi.
Cuối cùng, chúng tôi cũng bao gồm các hình ảnh từ chính trò chơi. Tóm lại, những hình ảnh trong
nghiên cứu người dùng đầu tiên của chúng tôi được tạo bởi ba nguồn khác nhau: 10 từ trò chơi thực tế,
10 từ phương pháp giải thích trạng thái phản thực của chúng tôi và 10 từ mạng bị loại bỏ của chúng tôi.
Những hình ảnh này được sắp xếp ngẫu nhiên cho mỗi người dùng.
Chúng tôi đã đánh giá các giải thích trạng thái phản thực của mình thông qua nghiên cứu người dùng trong phòng thí nghiệm của chúng tôi
với 30 người tham gia (20 nam, 10 nữ) không phải là chuyên gia về học máy;
những người tham gia bao gồm sinh viên đại học và các thành viên của cộng đồng địa phương. xấp xỉ
gần như một nửa là sinh viên đại học và những người khác đến từ cộng đồng. 80% là
trong độ tuổi từ 18-30, 10% từ 30-50 và 10% còn lại từ
19
50-60. Chúng tôi chọn tập trung nghiên cứu vào Space Invaders vì nó dễ
tìm hiểu cho một người tham gia không quen thuộc với trò chơi điện tử. Để người tham gia làm quen với
Space Invaders, chúng tôi bắt đầu nghiên cứu bằng cách cho những người tham gia chơi trò chơi này trong 5 phút.
Sau đó, những người tham gia đánh giá độ trung thực của 30 hình ảnh trò chơi được sắp xếp ngẫu nhiên trên Likert
thang điểm từ 1 đến 6: (1) Giả hoàn toàn, (2) Hầu hết các bộ phận là giả, (3) Giả hơn một nửa,
(4) Hơn một nửa là thực, (5) Hầu hết là thực và (6) Hoàn toàn là thực.
4.2. Nghiên cứu người dùng 2: Sử dụng thông tin phản thực để phát hiện tác nhân có sai sót (RQs 2 và 3)
Nghiên cứu người dùng thứ hai của chúng tôi nhằm đánh giá hiệu quả của bộ đếm của chúng tôi
giải thích trạng thái thực tế. Trọng tâm của chúng tôi là cài đặt thế giới thực trong đó người dùng, người
không phải là một chuyên gia máy học, cần thiết để đánh giá một tác nhân RL sắp
triển khai. Chúng tôi đã thiết kế một nhiệm vụ khách quan dựa trên sự hiểu biết của người dùng về
quá trình ra quyết định của tác nhân từ những lời giải thích phản thực tế. Nhiệm vụ
yêu cầu những người tham gia xác định tác nhân nào trong số hai tác nhân RL bị lỗi dựa trên số lượng
giải thích thực tế được cung cấp. Như trong nghiên cứu người dùng đầu tiên, chúng tôi đã chọn Space Invaders
vì nó học nhanh và chiến lược tối ưu không rõ ràng ngay lập tức. Từ
chúng tôi đã tuyển dụng những người không phải là chuyên gia về AI hoặc học máy, từ đó chúng tôi gọi là RL
tác nhân như một tác nhân AI trong nghiên cứu người dùng của chúng tôi để đơn giản hóa.
Hiệu quả của lời giải thích phản thực được đo bằng (2x2)x2 hỗn hợp
thiết kế các đối tượng giai thừa vì chúng ta có cả so sánh bên trong các đối tượng và giữa
so sánh đối tượng Việc so sánh bên trong chủ thể liên quan đến hai độc lập
các biến của loại tác nhân RL (thiếu sót so với bình thường) và sự hiện diện của lời giải thích (với
và không có lời giải thích). Vì vậy, tất cả những người tham gia đã được hiển thị các hành vi của
thiếu sót và các tác nhân bình thường cả khi có và không có lời giải thích phản thực tế. Các
so sánh giữa các chủ thể liên quan đến việc so sánh các phương pháp giải thích phản thực tế;
một nhóm người tham gia được xem một phương pháp giải thích phản thực cơ bản
dựa trên những người hàng xóm gần nhất và nhóm khác đã được hiển thị trạng thái phản thực của chúng tôi
phương pháp thuyết minh.
20
4.2.1. Thiết kế thử nghiệm
Những người tham gia được giao nhiệm vụ xác định tác nhân nào trong hai tác nhân
đã bị thiếu sót. Chúng tôi đã thiết kế hai đặc vụ của mình sao cho điểm trung bình của họ trong trò chơi là
gần như bằng nhau và điểm số không thể được sử dụng để xác định tác nhân nào có sai sót.
Ngoài ra, con người không thể xác định tác nhân thiếu sót bằng cách chỉ xem các tác nhân
chơi game. Do đó, những lời giải thích phản thực tế là nguồn chính của
cái nhìn sâu sắc về việc ra quyết định của đại lý cho những người tham gia.
Một cách tiếp cận khác để đánh giá hiệu quả của giải thích phản thực
các nhiệm vụ là yêu cầu những người tham gia dự đoán hành động của một tác nhân trong một trạng thái mới. Trong khi hành động
dự đoán có thể khả thi trong một số môi trường (ví dụ: Madumal et al. [2020]), nó có thể
cũng là thử thách trong các môi trường khác như trò chơi Atari và chiến lược thời gian thực
Trò chơi. Anderson và cộng sự. [2020] cho thấy rằng sử dụng lời giải thích để dự đoán các hành động trong tương lai
khó, đôi khi còn tệ hơn cả đoán ngẫu nhiên, bởi vì các tác nhân AI có thể
thành công trong những trò chơi này theo những cách không trực quan đối với con người.
Tác nhân "bình thường" của chúng tôi là tác nhân được mô tả trong phần 3.4. Đối với các đại lý thiếu sót, chúng tôi
đã cố gắng thiết kế các đặc vụ không hoàn hảo không thấy được các phần khác nhau của trò chơi, nhưng nhiều
những khả năng này rất dễ phát hiện bởi con người. Kết quả chặn một nửa màn hình
trong đại lý chỉ chơi ở một nửa có thể nhìn thấy. Loại bỏ các rào cản không có tác dụng vì
đặc vụ cuối cùng đã biết được vị trí của họ trong quá trình đào tạo. Loại bỏ những viên đạn gây ra
một sự thay đổi hành vi đáng chú ý khi tác nhân ẩn dưới các rào cản đối với phần lớn
trò chơi. Cuối cùng, chúng tôi không thể đào tạo một đại lý hoạt động tốt bằng cách loại bỏ
kẻ thù từ các quan sát.
Cuối cùng, chúng tôi đã giải quyết được một đặc vụ Space Invaders thiếu sót bằng cách che giấu khu vực của
màn hình chứa con tàu màu xanh lá cây, khiến đặc vụ không biết về con tàu của chính mình
chức vụ. Lỗ hổng này rất tinh vi và khó phát hiện nếu không có sự trợ giúp của phương pháp phản chứng.
lời giải thích.
Đặc vụ thiếu sót này khó đào tạo hơn một đặc vụ bình thường chơi Space Invaders
và do đó cần 160 triệu bước trò chơi để đạt được hiệu suất đủ tốt. TRONG
Ngoài ra, đối với tác nhân thiếu sót của chúng tôi, chúng tôi đặt siêu tham số tổn thất đối nghịch = 100 thành
làm cho các trạng thái phản thực tế được tạo ra có những thay đổi rõ ràng về mặt thị giác so với trạng thái ban đầu
21
trạng thái truy vấn.
4.2.2. Điều kiện
Nghiên cứu này liên quan đến hai điều kiện tương ứng với các giải thích phản chứng khác nhau.
phương pháp dân tộc. Điều kiện đầu tiên sử dụng một đường cơ sở đơn giản dựa trên một giá trị gần nhất đơn giản
cách tiếp cận hàng xóm. Điều kiện thứ hai liên quan đến việc giải thích trạng thái phản thực của chúng ta
tions.
Giải thích phản chứng hàng xóm gần nhất (NNCE). Đối với cách tiếp cận này, các
nhân viên đã chơi trò chơi trong = 25 triệu bước thời gian với -tham lam khám phá để
tạo bộ dữ liệu theo dõi trò chơi D, mà chúng tôi đã sử dụng để lựa chọn hàng xóm gần nhất. Vì
mỗi bước chúng tôi lưu trữ trong D, trạng thái , biểu diễn = ( ) và hành động )). Để tạo ra một
lấy , dẫn đến tập dữ liệu D = {( 1, 1, 1), . . . , ( , ,
phản thực tế từ tập dữ liệu này, tác nhân đã chơi một trò chơi mới và trên truy vấn mong muốn
trạng thái chúng tôi tìm thấy điểm tiềm ẩn gần nhất D đến điểm hiện tại = ( ) trong đó
đại lý đã thực hiện hành động mong muốn của ; chúng tôi đã sử dụng 2 khoảng cách để xác định mức độ gần. Sau đó chúng tôi
hiển thị trạng thái liên quan từ bộ ba ( , , ) là phản thực gần nhất
trạng thái nơi đại lý thực hiện một hành động khác . Lưu ý rằng những hình ảnh từ gần nhất
cách tiếp cận hàng xóm luôn trung thành với trò chơi vì chúng là khung trò chơi thực tế
từ trò chơi Atari. Tuy nhiên, ngay cả với bộ dữ liệu theo dõi trò chơi rất lớn có kích thước 25
triệu, cách tiếp cận hàng xóm gần nhất không phải lúc nào cũng lấy được trạng thái trò chơi
"đóng" trạng thái truy vấn. Ngược lại, những giải thích về trạng thái phản thực tế của chúng tôi luôn luôn
gần với trạng thái truy vấn theo thiết kế, nhưng chúng có thể không phải lúc nào cũng hoàn toàn trung thực với
trò chơi.
Chọn trạng thái truy vấn phản thực tế và hành động phản thực tế. cụ thể
hình ảnh, đóng vai trò là trạng thái truy vấn để trình bày cho người tham gia về trạng thái phản thực của chúng tôi
giải thích, đã được lựa chọn một cách khách quan bằng cách sử dụng heuristic dựa trên entropy của
vectơ chính sách ( ( )) của nhà nước; điểm số entropy này đã được sử dụng trong quá khứ cho
lựa chọn các khung chính để thiết lập niềm tin [Huang và cộng sự, 2018]. Đối với sự đa dạng, nếu một
hình ảnh tại thời điểm đã được chọn, chúng tôi không cho phép hình ảnh được chọn cho đến sau thời gian
+10. Hạn chế này đặc biệt quan trọng đối với sự đa dạng trong các trạng thái phản thực
22
được chọn cho tác nhân thiếu sót vì nó có entropy rất thấp trong vectơ chính sách của nó từ tác nhân ban đầu
trạng thái, nhưng entropy cao hơn sau đó. Vì Space Invaders là một trò chơi tương đối đơn giản trong
mà người ngoài hành tinh di chuyển nhanh hơn khi thời gian trôi qua, chúng tôi chỉ xem xét sự đa dạng về mặt
về sự tiến triển của thời gian trong một vòng và chúng tôi đã chọn các trạng thái truy vấn tại các điểm khác nhau
đúng giờ. Tất cả các trạng thái truy vấn được sử dụng trong nghiên cứu có thể được xem trong các hình C.22 - C.25 của Phụ lục.
Do đó, chúng tôi nhấn mạnh thực tế rằng các trạng thái phản thực tế và các hành động tương ứng mà chúng tôi
trình bày cho những người tham gia không được chọn thủ công; thay vào đó, họ đã được lựa chọn một cách khách quan
bởi heuristic của chúng tôi.
Đối với các giải thích trạng thái phản thực của chúng tôi, khi một trạng thái truy vấn được chọn, chúng tôi đã chọn
hành động phản thực tế là hành động liên quan đến sự thay đổi 2 lớn nhất giữa
trạng thái tiềm ẩn Wasserstein ban đầu và trạng thái tiềm ẩn Wasserstein phản thực tế
(bỏ qua hành động không hoạt động).
Đối với NNCE trong nghiên cứu người dùng của chúng tôi, chúng tôi sử dụng cùng phương pháp phỏng đoán lựa chọn trạng thái dựa trên entropy
để xác định trạng thái truy vấn nào sẽ hiển thị cho người tham gia, do đó đảm bảo truy vấn đó
trạng thái giống hệt nhau giữa hai điều kiện. Điều gì khác nhau giữa hai điều kiện
là quá trình giải thích, trong đó lựa chọn hành động phản thực tế và kết quả
trạng thái phản thực tế . Phương pháp chúng tôi đã sử dụng để chọn hành động phản thực
cho NNCE khác với heuristic được sử dụng bởi các giải thích trạng thái phản thực tế của chúng tôi. ĐẾN
chọn hành động phản thực tế trong NNCE, chúng tôi tìm thấy hàng xóm gần nhất gần nhất trong tiềm ẩn
không gian (thông qua 2 khoảng cách) nơi tác nhân thực hiện một hành động khác .
Các kinh nghiệm lựa chọn hành động hơi khác nhau giữa hai điều kiện trong
để tối đa hóa chất lượng của các trạng thái phản thực đã chọn bằng các phương pháp khác nhau.
Hai phương pháp khác nhau ở chỗ hình ảnh phản thực cách truy vấn bao xa.
trạng thái do các không gian tiềm ẩn khác nhau được sử dụng bởi hai phương pháp và cũng do
mức độ chi tiết của chuyển động của chúng trong không gian tiềm ẩn tương ứng của chúng. phản thực tế của chúng tôi
giải thích trạng thái hoạt động trong một không gian tiềm ẩn Wasserstein. Do thực tế là họ
được tạo bởi một quy trình tổng quát và không được truy xuất từ tập dữ liệu, sử dụng phương thức gần nhất
Điểm Wasserstein với một hành động khác thường gây ra rất ít thay đổi hoặc không thay đổi tại
tất cả. Ngược lại, phương pháp NNCE hoạt động trong không gian tiềm ẩn của tác nhân được đào tạo trước,
không có không gian tiềm ẩn Wasserstein. Các NNCE đã sử dụng hình ảnh có sẵn
từ tập dữ liệu D, thường ở xa trạng thái truy vấn (trực quan) hơn
23
hầu hết các trạng thái phản thực được tạo ra bởi phương pháp của chúng tôi. Nếu chúng ta chọn phản thực tế
hành động liên quan đến 2 thay đổi lớn nhất trong không gian tiềm ẩn, NNCE sẽ tạo ra
hình ảnh thường khác biệt đáng kể so với trạng thái truy vấn, điều này có khả năng
đã tạo ra kết quả tồi tệ hơn trong nghiên cứu người dùng của chúng tôi. Thay vào đó, để đưa ra điều kiện NNCE
những hình ảnh phản thực tốt nhất có thể (dựa trên kiểm tra trực quan), cuối cùng chúng tôi
đã chọn hành động phản thực làm hành động (khác với hành động ban đầu)
được liên kết với hàng xóm gần nhất với khoảng cách 2 gần nhất trong không gian tiềm ẩn.
4.2.3. Người tham gia và thủ tục
Chúng tôi đã tuyển dụng 60 người tham gia tại Đại học bang Oregon, với 30 người tham gia mỗi
tình trạng. Đối tượng mục tiêu cho nghiên cứu người dùng của chúng tôi là những người không phải là chuyên gia về
học máy. Khoảng một nửa là sinh viên đại học và những người khác đến từ
cộng đồng. Tất cả những người tham gia đều ở độ tuổi từ 18-40, 40% trong số họ là
nữ và 60% là nam giới. Nghiên cứu này bao gồm 6 phần:
1. Lối chơi
2. Phân tích tác nhân (đánh giá trước)
3. Hướng dẫn
4. Đánh giá (nhiệm vụ chính)
5. Phân tích tác nhân (hậu đánh giá)
6. Hồi tưởng
1. Lối chơi. Người hướng dẫn bắt đầu nghiên cứu với phần hướng dẫn về luật chơi
và mô tả nhiệm vụ sẽ được thực hiện, sau đó những người tham gia được phép sử dụng
hệ thống. Để có thể hiểu trò chơi tốt hơn, tất cả những người tham gia lần đầu tiên chơi
trò chơi điện tử Atari 2600 Space Invaders trong 5 phút.
2. Phân tích tác nhân (đánh giá trước). Sau khi có đủ kinh nghiệm thực hành với
trò chơi, mỗi người tham gia đã xem một video về tác nhân bình thường và một video về tác nhân bị lỗi
đặc vụ chơi một tập hoàn chỉnh của trò chơi từ đầu đến cuối. danh tính của
mỗi đại lý đã được ẩn từ những người tham gia. Các video được chọn sao cho
đặc vụ đã tiêu diệt tất cả kẻ thù trước khi chúng chạm đáy trong khi tránh tất cả các kẻ thù đang đến
24
Hình 7: Công cụ giải thích được sử dụng để hiển thị các trạng thái phản thực tế cho những người tham gia nghiên cứu của chúng tôi
nghiên cứu người dùng.
viên đạn. Chúng tôi đã chọn ngẫu nhiên thứ tự trình bày của tác nhân bình thường và tác nhân sai sót.
Để cụ thể, chúng tôi đã mô tả tác nhân không hoàn hảo cho những người tham gia như một tác nhân có
trục trặc trong các cảm biến của nó. Sau khi xem các video, chúng tôi đã hỏi những người tham gia, “Cái nào
trong số hai AI mà bạn tin là có trục trặc?", với lựa chọn của họ là "AI một",
"AI hai", hay "KHÔNG NÓI ĐƯỢC". Sau đó chúng tôi hỏi những người tham gia liệu họ có thể xác định
phần nào của trò chơi bị AI mù quáng: người ngoài hành tinh màu vàng, viên đạn trắng,
con tàu màu xanh lá cây, hoặc các rào cản màu cam. Sau khi trả lời cả hai câu hỏi, người tham gia
được đặt trên màn hình chờ để đảm bảo phần tiếp theo diễn ra đồng thời cho
mọi người. Tại thời điểm này, những người tham gia không thể thay đổi câu trả lời của họ cho câu hỏi trước đó.
câu hỏi và không thể xem video trong phần còn lại của nghiên cứu.
Các câu trả lời từ phần này hình thành kho dữ liệu mô tả của người tham gia
phân tích các tác nhân AI trước khi họ xem phần giải thích.
25
3. Hướng dẫn. Sau đó, người hướng dẫn đã hướng dẫn chi tiết để mô tả bộ đếm
công cụ hiển thị giải thích thực tế, đặc biệt vì phản thực tế là một chủ đề bí truyền
cho hầu hết những người không phải là chuyên gia. Công cụ hiển thị bao gồm một bộ gồm 3 hình ảnh: bản gốc
trạng thái nơi một đại lý đã thực hiện hành động ưa thích của mình , trạng thái đã thay đổi nơi đại lý
đã hành động , và hình ảnh nổi bật. Trạng thái ban đầu là một giao diện người dùng tương tác
phần tử, trong đó nếu được nhấp vào, nó sẽ thay đổi thành GIF hiển thị tuần tự
ba bước trò chơi hiện tại và trước đó để cung cấp ngữ cảnh cho trạng thái truy vấn. chúng tôi bỏ qua
thuật ngữ "phản thực tế" vì chúng tôi thấy từ vựng bổ sung gây nhầm lẫn trong
Nghiên cứu sơ bộ.
Cách tiếp cận của chúng tôi trong việc trình bày hình ảnh gốc, điểm nổi bật và phản thực
bên cạnh nhau gắn liền với mối quan hệ nhân quả của lý luận bắt cóc và
suy luận [Miller, 2019], trong đó các điểm nổi bật phục vụ mục đích “sửa nhãn cầu”
của những người tham gia và các phản ứng thực tế đưa ra lý do cho các hành động của AI. Các
kịch bản chính xác cho phần hướng dẫn được cung cấp trong phần phụ lục Phụ lục C.1.
4. Đánh giá (nhiệm vụ chính). Sau phần hướng dẫn, những người tham gia đã đánh giá 20 màn hình
cảnh quay của trò chơi trong công cụ hiển thị: 10 trạng thái cho mỗi tác nhân được chọn thông qua heuristic
miêu tả trên. Tất cả 10 trạng thái đã được chọn từ tập trò chơi duy nhất được hiển thị trong
các video từ trước đó. Có thể xem ví dụ về màn hình trong công cụ giải thích trong
hình 7.
Đối với mỗi ảnh chụp màn hình, chúng tôi hỏi người tham gia hai câu hỏi. Câu hỏi đầu tiên
là "Bạn nghĩ AI này chú ý đến đối tượng nào?" với 4 hộp kiểm để
có khả năng được chọn (người ngoài hành tinh, đạn, tàu, rào cản) và câu hỏi thứ hai là
"Bạn đã sử dụng lời giải thích nào để đưa ra quyết định của mình?" với 6 lựa chọn (Chỉ
Điểm nổi bật, Hầu hết là điểm nổi bật, Điểm nổi bật và Trạng thái được thay đổi ngang nhau, Hầu hết được thay đổi
Trạng thái, Chỉ trạng thái được thay đổi hoặc Không). Chúng tôi trình bày 20 lời giải thích (của bình thường
và các tác nhân thiếu sót) theo thứ tự ngẫu nhiên để tránh làm sai lệch những người tham gia.
Các câu trả lời từ phần này hình thành kho dữ liệu mô tả của người tham gia
phân tích của các tác nhân AI sau khi họ xem phần giải thích.
5. Phân tích tác nhân (đánh giá sau). Sau khi những người tham gia hoàn thành việc đánh giá 20
giải thích, chúng tôi đã tóm tắt kết quả trả lời của chính họ cho câu hỏi "Cái gì
26
Hình 8: Một ví dụ về màn hình kết quả mà người dùng sẽ thấy sau khi hoàn thành đánh giá cho
trạng thái phản thực.
bạn nghĩ AI này chú ý đến những đối tượng nào?" trong bảng và biểu đồ, phân tách
hai tác nhân khác nhau và kiểm đếm số lần người tham gia chọn từng tác nhân
sự vật. Sau đó, chúng tôi hỏi lại những câu hỏi tương tự từ phần nghiên cứu thứ hai: AI là gì?
trục trặc và nó trục trặc theo cách nào. Ví dụ về kết quả cuối cùng
màn hình có thể được nhìn thấy trong Hình 8, trong đó từng thành phần dọc của giao diện người dùng bị ẩn cho đến khi
người dùng nhấp vào nút “tiếp tục” để hướng dẫn người tham gia thông qua dữ liệu tóm tắt
Một bước tại một thời điểm. Chúng tôi nhận thấy rằng chỉ hiển thị kết quả đã kiểm tra trước khi yêu cầu lại
các câu hỏi là cách tốt nhất để khiến người tham gia tập trung vào các giải thích. TRONG
thí nghiệm sơ bộ của chúng tôi dẫn đến thiết kế của nghiên cứu cuối cùng, chúng tôi nhận thấy rằng
những người tham gia bị choáng ngợp với dữ liệu nếu họ có thể quay lại xem
các ví dụ riêng lẻ hoặc xem lại video của các đặc vụ đang chơi trò chơi.
27
6. Suy tư. Chúng tôi kết thúc nghiên cứu bằng cách yêu cầu những người tham gia thực hiện một bài viết ngắn
phản ánh sau khi họ gửi câu trả lời của họ để đánh giá sự hiểu biết của họ về lời giải thích
quốc gia, và để khơi gợi ý kiến của họ về lời giải thích. Các câu hỏi bao gồm, “Cái nào
các phần của công cụ giải thích ảnh hưởng đến quyết định của bạn trong việc xác định sự cố
có AI không?” để hiểu những gì người tham gia thấy hữu ích trong phần giải thích và những gì
đã góp phần truy tìm thành công tác nhân mất tích. Chúng tôi cũng hỏi những người tham gia
để mô tả các thành phần của lời giải thích, “Nói cách riêng của bạn, bạn có thể nói ngắn gọn
rõ hình ảnh 3 từ công cụ giải thích là gì (các hình ảnh có tiêu đề: "AI Response
Trạng thái đã thay đổi")?” để đánh giá xem những người tham gia thậm chí có hiểu khái niệm về phản tác dụng hay không
tương đối tốt, và họ đã hoàn thành nhiệm vụ chính như thế nào nếu không. ruột thừa
D mô tả phân tích nội dung áp dụng cho hai câu hỏi này.
5. Kết quả
5.1. Ví dụ về trạng thái phản thực
Bây giờ chúng tôi đưa ra các ví dụ về các trạng thái phản thực tế cho các đại lý được đào tạo trước trong các trường hợp khác nhau.
trò chơi Atari; những ví dụ này bao gồm cả phản thực chất lượng cao và thấp. TRONG
Hình 9 đến 12, chúng tôi hiển thị các bộ ảnh trong đó ảnh bên trái là truy vấn ban đầu
trạng thái nơi đại lý sẽ thực hiện hành động theo chính sách của mình, hình bên phải là
trạng thái phản thực tế nơi tác nhân sẽ thực hiện hành động đã chọn , và trung tâm
hình ảnh là sự khác biệt nổi bật giữa hai.
5.1.1. Q bert
Trong trò chơi này, đặc vụ điều khiển nhân vật màu cam Q*bert, người bắt đầu mỗi trò chơi
với 3 mạng sống trên đỉnh kim tự tháp và có 5 hành động để nhảy theo đường chéo từ khối lập phương
thành khối lập phương (hoặc đứng yên). Hạ cánh trên một khối lập phương khiến nó thay đổi màu sắc và thay đổi mọi
khối lập phương thành màu mục tiêu cho phép tác nhân chuyển sang giai đoạn tiếp theo. Đại lý phải
tránh kẻ thù màu tím hoặc mất mạng khi tiếp xúc. Kẻ thù màu xanh lá cây hoàn nguyên màu khối
thay đổi có thể được dừng lại thông qua liên hệ.
Ở hàng trên cùng của Hình 9, phản chứng chỉ ra rằng nếu hình vuông phía trên bên phải là
màu vàng (đã được truy cập), Qbert sẽ di chuyển lên trên bên trái. Ở hàng dưới cùng của Hình 9, nếu
28
= MoveUpRight, = MoveUpLeft
= MoveUpRight, = MoveDownLeft
Hình 9: Mỗi hàng hiển thị một ví dụ về cách giải thích trạng thái phản thực tế cho Q bert: Truy vấn
trạng thái có hành động (trái), trạng thái phản thực có hành động (phải) và điểm nổi bật màu đỏ (giữa).
Qbert đã ở trên cấu trúc cao hơn, đặc vụ sẽ nhảy xuống và rời đi; trong này
ví dụ, hình ảnh Qbert không hoàn toàn thực tế nhưng đủ để mang lại cảm giác về
quyết định của đại lý.
5.1.2. yêu cầu đi biển
Trong trò chơi này, một đặc vụ phải bắn ngư lôi vào kẻ thù đang lao tới trong khi giải cứu
thợ lặn thân thiện. Trong Hình 10 (hàng trên cùng), một kẻ thù mới phải xuất hiện ở bên trái theo thứ tự
để đặc vụ thực hiện hành động quay tàu ngầm trong khi khai hỏa. Như vậy, các
đặc vụ có hiểu biết về sự xuất hiện của kẻ thù và hướng tàu ngầm. giữa
hàng của Hình 10 cho thấy một kịch bản (được xem tốt nhất trên máy tính) trong đó tác nhân sẽ
di chuyển lên và sang trái nhưng không bắn vì tác nhân sẽ không hoàn toàn thẳng hàng với
cá địch bên trái đánh nó; Ngoài ra, tàu ngầm đã bắn ngư lôi vào
dự đoán cá địch xuất hiện ở phía dưới bên phải và chỉ có thể có một con
ngư lôi trên màn hình tại một thời điểm. Lưu ý rằng ngư lôi thực sự được đánh dấu bằng màu đỏ nhưng
do kích thước của hình ảnh trong Hình 10, những điểm nổi bật này là không thể nhận thấy.
29
= MoveUpRightAndShoot, = MoveUpLeftAndShoot
= MoveUpLeftAndShoot, = MoveUpLeft
= MoveLeftAndShoot, = MoveDown
Hình 10: Mỗi hàng hiển thị một ví dụ giải thích trạng thái phản thực cho Seaquest: Truy vấn
trạng thái có hành động (trái), trạng thái phản thực có hành động (phải) và điểm nổi bật (giữa).
Hình 10 (hàng dưới cùng) cho thấy một phản thực không thực tế, trong đó mặc dù không bao giờ
nhìn thấy hai tàu ngầm trong dữ liệu huấn luyện, dự đoán tốt nhất về Máy phát điện (đã cho
các đầu vào phản thực tế), là đặt một tàu ngầm ở cả hai địa điểm.
5.1.3. nhà leo núi điên
Trong trò chơi này, một đặc vụ phải trèo lên một tòa nhà trong khi tránh các chướng ngại vật khác nhau.
Hình 11 (hàng trên cùng) thể hiện trạng thái ban đầu trong đó tác nhân có thể
di chuyển theo chiều ngang, trong khi trạng thái phản tác dụng cho thấy người leo núi ở trạng thái sẵn sàng
để di chuyển theo chiều dọc như được chỉ ra bởi vị trí của chân của nó. Hình 11 (hàng dưới)
cho thấy tác nhân sẽ leo lên như thế nào khi kẻ thù không còn ở trên nó nữa. Cho cả hai
ví dụ, bởi vì người leo núi ở một vị trí thẳng đứng cố định với toàn bộ tòa tháp
30
= MoveRight, = MoveBodyUp
= MoveLeft, = MoveArmsUp
Hình 11: Mỗi hàng hiển thị một ví dụ giải thích trạng thái phản thực cho Crazy Climber: Truy vấn
trạng thái có hành động (trái), trạng thái phản thực có hành động (phải) và điểm nổi bật (giữa).
chính nó di chuyển xuống, những điểm nổi bật rất khó giải thích. Những ví dụ này cho thấy
tầm quan trọng của việc sử dụng cả những điểm nổi bật và trạng thái phản thực như trong một số trường hợp,
các trạng thái phản thực dễ hiểu hơn nhiều so với các điểm nổi bật.
5.1.4. Kẻ xâm lược không gian
Trong trò chơi này, một đặc vụ trao đổi hỏa lực với kẻ thù đang đến gần trong khi ẩn nấp
bên dưới ba rào cản. Hình 12 mô tả ví dụ, cũng được sử dụng trong
nghiên cứu người dùng. Ví dụ này tiết lộ rằng đại lý đã học cách ưu tiên các địa điểm cụ thể
để sắp xếp các phát bắn một cách an toàn, chọn kẻ thù để bắn một cách có chọn lọc.
Chúng tôi cũng bao gồm một ví dụ về cách giải thích tình trạng phản thực tế với sai sót.
đại lý trong nghiên cứu người dùng thứ hai của chúng tôi. Hình 13 cho thấy rằng trong phản chứng được tạo ra
giải thích của nhà nước, tác nhân thiếu sót không di chuyển con tàu vì nó mù quáng với chính con tàu của mình
vị trí; trên thực tế, tác nhân thiếu sót không bao giờ di chuyển con tàu trong tất cả trạng thái phản thực tế của chúng ta
lời giải thích.
31
Hình 12: Một ví dụ về giải thích trạng thái phản thực cho Space Invaders với trạng thái "bình thường"
đại lý. Ở đây, hành động = MoveRightAndShoot (trái), trạng thái phản thực khi hành động =
MoveRight (phải) và điểm khác biệt được đánh dấu (ở giữa).
Hình 13: Một ví dụ về cách giải thích trạng thái phản thực tế cho Space Invaders có sai sót
đại lý từ nghiên cứu người dùng thứ hai của chúng tôi. Ở đây, hành động = MoveLeftAndShoot (trái), phản thực tế
trạng thái nơi hành động = MoveRight (phải) và sự khác biệt được đánh dấu (giữa).
5.2. Kết quả nghiên cứu người dùng
5.2.1. RQ 1: Tính trung thực của phản chứng
Về độ trung thực, xếp hạng trung bình trên thang đo Likert 6 điểm được thể hiện
trong Bảng 1. Sự khác biệt giữa xếp hạng độ trung thực cho các trạng thái phản thực
và trạng thái thực không có ý nghĩa thống kê ( = 0,05, p-value=0,458, một phía
kiểm tra cấp bậc có chữ ký Wilcoxon). Những kết quả này cho thấy rằng các trạng thái phản thực tế của chúng tôi là trên
trung bình gần như trung thành với trạng thái trò chơi nhưng chúng không hoàn hảo. bên trong
phần tiếp theo, chúng tôi sẽ chỉ ra rằng bất chấp những điểm không hoàn hảo này, các phản chứng thực
vẫn hữu ích cho người tham gia.
32
Trò chơi thực tế Trạng thái phản thực bị loại bỏ
Phiên bản giải thích
Điểm 1,93 4,00 4,97
Bảng 1: Kết quả trung bình trên thang đo Likert 6 điểm từ nghiên cứu người dùng về độ trung thực.
5.2.2. RQ 2: Các trạng thái phản thực có thể giúp người dùng xác định tác nhân thiếu sót không?
Những người tham gia đã thành công hơn đáng kể trong việc xác định tác nhân thiếu sót khi
cung cấp các giải thích phản thực tế cho cả các giải thích trạng thái phản thực tế
( = 0,05, p-value = 0,0011, Pearson's Chi-square test) và NNCEs ( = 0,05, p
value=0,0009, Pearson's Chi-square test).
Giả thuyết này càng được củng cố khi tất cả những người tham gia trong cả hai điều kiện
tự báo cáo rằng đã tìm thấy lời giải thích hữu ích trong phần đánh giá. Chỉ 1
người tham gia trong số 60 người nói rằng video trong phần Phân tích đại lý rất hữu ích.
Thay vào đó, những người tham gia nhận thấy những điểm nổi bật và phản thực tế hữu ích hơn
video.
Hình 14: Tổng số lựa chọn trên tất cả những người tham gia và tất cả các giải thích liên quan đến
tính hữu ích tự báo cáo của từng thành phần giải thích.
33
Trong phần đánh giá, đối với mỗi lời giải thích từ một phương pháp phản thực nhất định,
chúng tôi đã yêu cầu những người tham gia đánh giá mức độ hữu ích của từng thành phần của lời giải thích về
thang đo Likert 5 điểm (1: Chỉ nổi bật, 2: Hầu hết nổi bật, 3: Cả hai đều như nhau,
4: Hầu hết là phản thực, 5: Chỉ phản thực). Đối với giải thích trạng thái phản thực
quốc gia, “Hầu hết là nổi bật” là phản hồi phổ biến nhất (204/600 lần; 34%)
để giúp những người tham gia xác định lỗ hổng trong AI. Đối với NNCE, “Cả hai ngang nhau” là
phản hồi phổ biến nhất (236/600 lượt; 39%). Phân phối phản hồi đầy đủ cho
từng điều kiện được thể hiện trong Hình 14. Những kết quả này chỉ ra rằng không thành phần nào
trong sự cô lập là lý tưởng. Hầu hết thời gian, những người tham gia thích có cả hai, nhưng với
mức độ hữu dụng khác nhau. Chúng tôi cũng tìm thấy kết quả này trong dữ liệu định tính từ
bảng câu hỏi sau nhiệm vụ, trong đó những người tham gia trong cả hai điều kiện áp đảo
tự báo cáo đã sử dụng những điểm nổi bật như một vật phẩm hỗ trợ cho phản thực
giải thích và ngược lại:
Người tham gia 43 trong tình trạng Trạng thái Phản thực: “Tôi đã sử dụng các điểm nổi bật
công cụ chủ yếu bởi vì đó là cách dễ nhất để xem những gì đang thay đổi từ
trạng thái ban đầu. Sau đó, tôi sẽ tham khảo công cụ trạng thái đã thay đổi để xem
bản gốc đã thay đổi như thế nào.”
Người tham gia 14 trong tình trạng Hàng xóm gần nhất: “Hầu hết các điểm nổi bật, tôi
đã sử dụng một cách tiết kiệm trạng thái thay đổi để củng cố các khẳng định từ các điểm nổi bật.
Những người tham gia trong cả hai điều kiện nhận thấy biểu đồ tóm tắt là hữu ích trong bảng điều khiển
hẹn hò với ý tưởng của họ và tạo điều kiện thu hồi. Ví dụ, hai người tham gia bình luận trong
phản ứng của họ:
Người tham gia 35 trong tình trạng Trạng thái Phản thực: “Biểu đồ thanh tại
kết thúc phản hồi của tôi cho cả hai AI ảnh hưởng đến nó nhiều nhất.
Người tham gia 16 trong tình trạng Hàng xóm gần nhất: “Các biểu đồ ở cuối
ảnh hưởng nặng nề đến quyết định của tôi, vì tôi nghĩ AI bị trục trặc
không thể nhìn thấy các rào chắn vì chúng có nhiều thiệt hại hơn ở phía tàu
của các rào cản hơn phía ngoài hành tinh, nhưng các biểu đồ cho thấy rằng đó là
34
một giả định tồi bởi vì hầu như mỗi lần tôi đánh giá các rào cản là
một cái gì đó họ có thể nhìn thấy.
5.2.3. RQ 3: So sánh các phương pháp Phản chứng
Không đúng Chính xác không thể nói
nhận dạng nhận dạng
không cần giải thích 10 (33%) 17 (57%) 3 (10%)
Với lời giải thích 2 (7%) 27 (90%) 1 (3%)
Bảng 2: Số lượng người tham gia, có và không có giải thích trạng thái phản thực tế, những người
xác định sai AI bình thường, xác định chính xác AI bị lỗi và những người không thể
cho biết sự khác biệt.
Những người tham gia được cung cấp các giải thích trạng thái phản thực tế đã xác định
AI thiếu sót với tỷ lệ thành công cao hơn nhiều so với NNCE. Không có bất kỳ lời giải thích nào, 57%
của những người tham gia đã xác định chính xác tác nhân thiếu sót (Bảng 2). với phản thực tế
giải thích của nhà nước, tỷ lệ phần trăm này được cải thiện lên 90%, đây là một sự cải thiện đáng
kể ở ( = 0,05, giá trị p = 10 9 , Pearson's Chi-square test). Ngoài ra, không ai trong số này
những người tham gia đã có thể xác định chính xác lỗ hổng cụ thể trong tác nhân trong lần đầu tiên
Phần Phân tích tác nhân. Tuy nhiên, sau khi sử dụng các giải thích trạng thái phản thực của chúng tôi, 60%
của những người tham gia đã chẩn đoán chính xác lỗ hổng cụ thể, có ý nghĩa thống kê
(= 0,05, p-value = 0, Pearson's Chi-square test).
Không đúng Chính xác không thể nói
nhận dạng nhận dạng
không cần giải thích 9 (30%) 19 (63%) 2 (7%)
Với lời giải thích 9 (30%) 14 (47%) 7 (23%)
Bảng 3: Số lượng người tham gia, có và không có NNCE, đã xác định sai
AI bình thường, đã xác định chính xác AI có lỗi và AI không thể phân biệt được.
Ngược lại, NNCEs thường khiến người tham gia bối rối. 63% số người tham gia xác định
đại lý thiếu sót một cách chính xác chỉ với video (Bảng 3), nhưng sau khi xem giải thích
35
Hình 15: Tổng số khác biệt về đối tượng được tính trên tất cả những người tham gia, trong đó đối tượng đề cập đến
phần tử Kẻ xâm lược không gian mà người tham gia xác định rằng tác nhân chú ý đến. Ở đây,
trục y đo lường sự khác biệt giữa tổng số đối tượng cho tác nhân có sai sót trừ đi
tổng số đối tượng được tính cho tác nhân bình thường. Số dương cho thấy rằng những người tham gia xem xét
tác nhân thiếu sót chú ý đến đối tượng đó nhiều hơn tác nhân bình thường, trong khi tác nhân tiêu cực
những con số chỉ ra rằng những người tham gia coi tác nhân có khuyết điểm ít chú ý đến đối tượng đó hơn.
khác, tỷ lệ này giảm xuống còn 47% ( = 0,05, p-value = 0,1432, Pearson's Chi square
Bài kiểm tra). Hình 15 chứa một so sánh tổng hợp về mức độ hiệu quả của những người tham gia
NNCE được hiển thị so với giải thích trạng thái phản thực tế có thể xác định lỗ hổng cụ thể.
Biểu đồ trong Hình 15 mô tả sự khác biệt về số lượng đối tượng trên tất cả những người tham gia,
trong đó đối tượng đề cập đến phần tử Kẻ xâm lược không gian mà người tham gia xác định
đại lý quan tâm đến. Sự khác biệt được tính khi tổng số đối tượng được tính cho
tác nhân có lỗi trừ đi tổng số đối tượng được tính cho tác nhân bình thường. Người tham gia cho cả hai
cách tiếp cận phản thực tế đã có thể phát hiện ra lỗ hổng chính xác, nhưng những người tham gia
đã được hiển thị giải thích trạng thái phản thực tế đã làm như vậy với số lượng cao hơn nhiều so với
những người tham gia đã được hiển thị NCE.
Một trong những lý do chính cho sự sụt giảm này là các NNCEs không nhất quán trong
chất lượng vì chất lượng phụ thuộc vào sự tồn tại của một phiên bản trong bộ dữ liệu theo dõi trò chơi
D gần hợp lý (trong không gian tiềm ẩn) với trạng thái truy vấn. Mặc dù rất lớn
36
Hình 16: Một ví dụ về phương pháp giải thích phản thực hàng xóm gần nhất đối với thông thường
đại lý được đào tạo với trạng thái truy vấn trong đó hành động = MoveRightAndShoot (trái), trạng thái phản thực
trong đó hành động = MoveLeftAndShoot (phải) và điểm khác biệt được đánh dấu (ở giữa).
Hình 17: Một ví dụ về phương pháp giải thích phản chứng hàng xóm gần nhất cho sai sót
tác nhân có trạng thái truy vấn trong đó hành động = MoveLeftAndShoot (trái), trạng thái phản thực trong đó
action = MoveLeft (phải) và điểm khác biệt được đánh dấu (ở giữa).
bộ dữ liệu theo dõi trò chơi (25 triệu khung hình trò chơi) dưới dạng nhóm cho NNCE, phù hợp
trường hợp có thể đóng vai trò phản thực có thể không tồn tại, dẫn đến những thay đổi kỳ lạ đối với
trạng thái truy vấn (ví dụ: một người ngoài hành tinh bổ sung xuất hiện ở phía đối diện với tác nhân) hoặc
phản thực tế cực kỳ khác với trạng thái hiện tại (ví dụ: thiết lập lại
trò chơi đã diễn ra hoặc nhiều kẻ thù đã được thêm/xóa). Ví dụ về thấp
có thể nhìn thấy phản thực hàng xóm gần nhất chất lượng trong Hình 16 và 17. Lưu ý rằng
cả hai ví dụ đều có một số lượng lớn các điểm nổi bật. Ngoài ra, NNCE trong Hình
17 thực sự di chuyển con tàu, điều này che lấp lỗ hổng thực sự của tác nhân. Sự phụ thuộc này
về việc tìm kiếm một phản chứng phù hợp trong bộ dữ liệu theo dõi trò chơi là một bất lợi lớn
của phản thực láng giềng gần nhất. Có khả năng không khả thi để tạo ra một lượng đủ lớn
tập dữ liệu để tạo điều kiện truy xuất một phản thực hợp lý cho bất kỳ trạng thái trò chơi tùy ý nào trong
37
một trò chơi đủ phức tạp. Ngược lại, cách giải thích trạng thái phản thực tế của chúng tôi tạo ra
khung trò chơi một cách nhanh chóng và mặc dù nó không hoàn toàn trung thực với trò chơi, nhưng nó có
đủ trung thực để cung cấp cái nhìn sâu sắc có ý nghĩa cho người tham gia.
Sự không nhất quán về chất lượng của các NNCE có thể đã góp phần gây ra sự nhầm lẫn về
những người tham gia. Trong đánh giá hồi cứu từ những người tham gia đã được cung cấp Gần nhất
Những lời giải thích ngược lại của hàng xóm, họ thường tự cho là mình bị nhầm lẫn
bởi những điểm nổi bật hoặc bản thân sự phản thực. Ví dụ, khi được hỏi liệu những điểm nổi bật
đã giúp đưa ra quyết định của họ:
Người tham gia 17 trong tình trạng Hàng xóm gần nhất: “Đôi khi, nhưng có
đôi khi khó hiểu vì tôi không thể biết điểm nổi bật nào thuộc về cái gì
hình ảnh, vì vậy tôi không thể hiểu được suy nghĩ của AI từ nó”
Tương tự, khi được hỏi liệu hình ảnh trạng thái phản thực có giúp họ đưa ra quyết định hay không:
Người tham gia 26 trong tình trạng Hàng xóm gần nhất: “Không, tôi không chắc làm thế nào
nó liên quan đến quyết định di chuyển hay bắn.”
NNCE dường như chỉ hữu ích cho một nhóm nhỏ người tham gia, vì 17%
những người tham gia có thể chẩn đoán chính xác lỗ hổng cụ thể trong tác nhân bị lỗi,
tăng từ không (= 0,05, giá trị p = 0,014, kiểm định Chi Square của Pearson). tỷ lệ phần trăm này
cao hơn một chút so với 12,5%, đó là xác suất đoán đúng sai sót
đại lý và đoán chính xác lỗ hổng chính xác hoàn toàn là tình cờ.
6. Thảo luận
Tóm lại, những người tham gia nghiên cứu đầu tiên của chúng tôi đã tìm thấy giải thích về trạng thái phản thực của chúng tôi.
để tạo khung hình trò chơi gần với độ trung thực mặc dù không hoàn hảo
Vì thế. Trong nghiên cứu người dùng thứ hai của chúng tôi, những giải thích trạng thái phản thực này là đủ
độ trung thực mà 90% người tham gia của chúng tôi có thể sử dụng chúng để xác định tác nhân nào có sai sót.
60% người tham gia có thể sử dụng các giải thích trạng thái phản thực tế của chúng tôi để thực hiện
nhiệm vụ khó khăn hơn là chẩn đoán lỗ hổng cụ thể. Trong quá trình nghiên cứu này, những người tham gia
đặc biệt đề cập đến các điểm nổi bật và biểu đồ tóm tắt là đặc biệt hữu ích
38
trong quá trình ra quyết định của họ, do đó gợi ý rằng những yếu tố trực quan này nâng cao đáng kể
những lời giải thích phản thực tế.
Giải thích trạng thái phản thực tế của chúng tôi cũng hiệu quả hơn nhiều đối với người dùng của chúng tôi
nghiên cứu hơn so với đường cơ sở hàng xóm gần nhất. Những người tham gia sử dụng trạng thái phản thực tế
giải thích đã thành công hơn nhiều trong việc xác định tác nhân thiếu sót cũng như
lỗ hổng cụ thể hơn so với những người tham gia sử dụng NCE. Ngoài ra, mặc dù các
NNCE trung thành 100% với trò chơi, chúng không phải lúc nào cũng gần với trạng thái truy vấn.
Những người tham gia nhận thấy rằng những giải thích trạng thái phản thực của chúng tôi, tạo ra hình ảnh
"gần" với trạng thái truy vấn ban đầu, sâu sắc hơn mặc dù không có
100% trung thực. Nghiên cứu của chúng tôi cũng chỉ ra rằng “Không có lời giải thích nào tốt hơn là một điều tồi tệ
giải thích” vì những người tham gia sử dụng NNCE thường bối rối và số lượng
những người tham gia xác định chính xác tác nhân thiếu sót thực sự giảm sau khi nhìn thấy
NCE.
Có một vài vấn đề với cách tiếp cận của chúng tôi vẫn là một lĩnh vực điều tra mở.
Đầu tiên, cách tiếp cận tạo ra sâu sắc của chúng tôi bổ sung một số đồ tạo tác khi tạo phản thực tế.
trạng thái, ảnh hưởng đến tính trung thực của lời giải thích của chúng tôi. Theo kinh nghiệm, chúng tôi thấy hầu hết
đồ tạo tác là thứ yếu, chẳng hạn như hình ảnh mờ và dường như không phải là rào cản chính đối với
những người tham gia của chúng tôi. Một trong những đồ tạo tác đáng chú ý hơn là cách các đồ vật nhỏ, chẳng hạn như
bắn vào những kẻ xâm lược không gian, thỉnh thoảng biến mất. Trong khi vấn đề này được giảm bớt phần nào
với max loss clipping, các đối tượng nhỏ khó bảo quản trong phản thực
các quá trình thế hệ. Tuy nhiên, những đồ vật nhỏ này có thể quan trọng đối với những người khác.
tên miền (ví dụ: Pong). Có khả năng một số đồ tạo tác này có thể được sửa chữa bằng cách đào tạo
lâu hơn, với nhiều dữ liệu hơn và với kiến trúc tốt hơn. Vấn đề này cũng đặt ra một hướng mở
câu hỏi trong việc học biểu diễn về việc bảo quản những đồ vật nhỏ, nhưng quan trọng, trong
hình ảnh.
Vấn đề thứ hai là làm thế nào để chọn các trạng thái truy vấn từ việc phát lại sao cho bộ đếm
các trạng thái và hành động thực tế, cung cấp cái nhìn sâu sắc nhất cho con người. Tiêu chí của chúng tôi là
dựa trên kinh nghiệm và cần điều tra sâu hơn vì có thể sử dụng các tiêu chí khác,
chẳng hạn như những phương pháp được sử dụng bởi các phương pháp khác để chọn các thời điểm quan trọng [Amir và Amir, 2018,
Sequeira và Gervasio, 2020]. Hơn nữa, chúng tôi đã chọn các phản chứng để trình bày cho
những người tham gia sử dụng heuristic hơn là cho phép những người tham gia tương tác
39
khám phá không gian của phản thực tế. Chúng tôi đã lựa chọn này vì nhiều quốc gia
các hành động thực tế không dẫn đến thay đổi hình ảnh và người dùng cần được hướng dẫn thêm khi
những hành động và trạng thái phản thực tế nào là hữu ích. Chúng tôi nhận ra rằng sự lựa chọn này
ảnh hưởng trực tiếp đến sự đa dạng giữa các phản thực tế mà những người tham gia nhìn thấy, và
có thể cản trở việc xây dựng một mô hình tinh thần đầy đủ [Mothilal et al.,
2020].
Một lĩnh vực khác cho công việc trong tương lai là chọn cách tạo ra một trạng thái phản thực tế.
đánh giá. Việc tạo ra trạng thái phản thực của chúng tôi dựa trên việc tìm kiếm một trạng thái
thay đổi tối thiểu (trong không gian tiềm ẩn) từ trạng thái truy vấn sẽ dẫn đến một
hành động khác với . Lý do cho sự thay đổi tối thiểu là để xác định các nec
các khía cạnh cơ bản của một trạng thái sẽ tạo ra hành động , không gây mất tập trung cho người dùng
với các yếu tố không liên quan khác trong hình ảnh. Tiêu chí thay đổi tối thiểu này tương tự
đến các phương pháp được sử dụng bởi các phương pháp gần đây khác để tạo ra các phản thực, chẳng hạn như
phương pháp chỉnh sửa tối thiểu để thay thế các vùng trong ảnh [Goyal et al., 2019] và
tìm kiếm các vùng hỗ trợ/xóa nhỏ nhất [Chang et al., 2019]. Tuy nhiên, chúng tôi
có thể sử dụng các tiêu chí khác ngoài thay đổi tối thiểu để xác định không gian sửa đổi đối với
trạng thái truy vấn. Chẳng hạn, chúng tôi có thể cho phép các thay đổi dẫn đến các thuộc tính cụ thể
trên các bước thời gian trong tương lai hoặc cho phép người dùng giúp xác định không gian thay đổi được phép.
Cuối cùng, chúng tôi nhận ra rằng những phát hiện của chúng tôi là dành riêng cho môi trường đầu vào trực quan
của Atari và sự thành công của một phương pháp học sâu tổng quát để sản xuất bộ đếm
thực tế trong các môi trường trực quan khác là một câu hỏi mở. Đặc biệt, độ trung thực của
các trạng thái phản thực phụ thuộc vào lượng dữ liệu đào tạo có sẵn và khả năng
của mạng lưới thần kinh sâu để nắm bắt các khía cạnh nổi bật của hình ảnh từ miền đó.
Mặc dù ứng dụng chính trong công việc của chúng tôi là dành cho các miền giống Atari, nhưng phức tạp hơn
phương pháp đào tạo mã hóa tự động đã được hiển thị để tạo ra hình ảnh chất lượng cao trong
môi trường trực quan phong phú hơn [Nie et al., 2020]. Vì vậy, chúng tôi tin rằng có
một số phát hiện trong nghiên cứu của chúng tôi có thể được áp dụng rộng rãi hơn. khung chung
công việc giải thích của chúng tôi, cụ thể là trình bày nguyên bản-nổi bật-phản thực tế có thể
hiệu quả trên nhiều lĩnh vực. Hơn nữa, kết quả của chúng tôi cũng chỉ ra rằng độ trung thực hoàn hảo
có thể không cần thiết. Hình ảnh phản thực với đủ độ trung thực có thể cung cấp đủ
cái nhìn sâu sắc trong các lĩnh vực khác và thậm chí cả những điểm nổi bật của chính họ có thể là đủ
40
sâu sắc cho các môi trường trực quan khác.
7. Kết luận
Chúng tôi đã giới thiệu một mô hình thế hệ sâu để tạo ra các giải thích trạng thái phản thực tế
như một cách để cung cấp cái nhìn sâu sắc về việc ra quyết định của một tác nhân RL sâu sắc. phản thực tế
các trạng thái cho thấy những thay đổi tối thiểu cần thiết xảy ra đối với một trạng thái để tạo ra một trạng thái khác
hành động của tác nhân RL được đào tạo. Kết quả từ nghiên cứu người dùng đầu tiên của chúng tôi cho thấy rằng những
giải thích trạng thái phản thực có đủ độ trung thực với trò chơi thực tế. Kết quả
từ nghiên cứu người dùng thứ hai của chúng tôi đã chứng minh rằng mặc dù có một số đồ tạo tác, những
giải thích trạng thái phản thực tế thực sự hữu ích để xác định tác nhân thiếu sót trong
nghiên cứu của chúng tôi cũng như lỗ hổng cụ thể trong tác nhân. Trong khi đó, hàng xóm gần nhất
giải thích phản thực khiến người tham gia bối rối và dẫn đến ít người tham gia hơn
xác định đúng tác nhân sau khi họ được xem phần giải thích. Hơn nữa, chỉ
một tỷ lệ nhỏ người tham gia có thể xác định lỗ hổng cụ thể. nghiên cứu của chúng tôi
cũng chứng minh rằng các điểm nổi bật và bảng tóm tắt là những yếu tố quan trọng để
kèm theo những lời giải thích phản thực tế.
Kết quả của chúng tôi cho thấy rằng độ trung thực hoàn hảo có thể không cần thiết cho phản thực
giải thích trạng thái để cung cấp cho các chuyên gia không học máy đủ hiểu biết về một
quyết định của đại lý để sử dụng kiến thức này cho một nhiệm vụ hạ nguồn. Trong khi
nghiên cứu của chúng tôi tập trung vào các đại lý Atari, chúng tôi tin rằng phương pháp này có triển vọng và có thể
áp dụng rộng rãi hơn cho các miền ngoài Atari với đầu vào trực quan phức tạp hơn
cần điều tra thêm. Hơn nữa, sử dụng các giải thích trạng thái phản thực tế trong
kết hợp với các kỹ thuật giải thích bổ sung và được thiết lập khác có thể
tạo thành một bộ công cụ đáng gờm để giúp những người không phải là chuyên gia hiểu được các quyết định do RL sâu đưa ra
đại lý.
8. Lời cảm ơn
Công việc này được DARPA hỗ trợ theo khoản trợ cấp N66001-17-2-4030. Chúng tôi sẽ
muốn cảm ơn Andrew Anderson, Margaret Burnett, Jonathan Dodge, Alan Fern, Stefan
Lee, Neale Ratzlaff và Janet Schmidt vì chuyên môn và những nhận xét hữu ích của họ.
41
Người giới thiệu
Julius Adebayo, Justin Gilmer, Michael Muelly, Ian Goodfellow, Moritz Hardt và Been
Kim. Sanity kiểm tra bản đồ độ mặn. Trong Kỷ yếu của Quốc tế thứ 32
Hội nghị về Hệ thống Xử lý Thông tin Thần kinh, trang 9525–9536, Red Hook,
NY, Hoa Kỳ, 2018. Curran Associates Inc.
Samuel Alvernaz và Julian Togelius. Tiến hóa thần kinh tăng cường tự động mã hóa cho
chơi doom trực quan. Năm 2017, Hội nghị IEEE về Trí tuệ Tính toán và
Trò chơi (CIG). IEEE, 2017.
Dan Amir và Ofra Amir. Điểm nổi bật: Tóm tắt hành vi của đại lý đối với mọi người. TRONG
Kỷ yếu của Hội nghị Quốc tế lần thứ 17 về Đại lý Tự trị và Mul
tiAgent Systems, trang 1168–1176, Richland, SC, 2018. International Foundation for
Các đại lý tự trị và các hệ thống đa tác nhân.
Andrew AndersonJonathan DodgeAmrita SadaranganiZoe JuozapaitisEvan New
người đàn ông, Jed Irvine, Souti Chattopadhyay, Matthew Olson, Alan Fern và Margaret
Burnett. Mô hình tinh thần của những người bình thường với lời giải thích về sự củng cố học hỏi
ing. Giao dịch ACM trên Hệ thống thông minh tương tác (TiiS), 10(2):1–37, 2020.
Akanksha Atrey, Kaleigh Clary và David Jensen. Thăm dò không giải thích: Coun
phân tích thực tế của bản đồ độ mặn cho việc học tăng cường sâu. trong nước
Hội nghị về Biểu diễn Học tập, 2020. URL https://openreview.net/
diễn đàn?id=rkl3m1BFDB.
Dana H Ballard. Học mô-đun trong mạng lưới thần kinh. Trong AAAI, 1987.
Yoshua Bengio, Aaron Courville và Pascal Vincent. Học đại diện: A
đánh giá và quan điểm mới. Giao dịch của IEEE về phân tích mẫu và máy
trí tuệ, 2013.
Michel Besserve, Arash Mehrjou, Rémy Sun, và Bernhard Schölkopf. phản thực tế
khám phá cấu trúc mô-đun của các mô hình thế hệ sâu. Trong Hội thảo Quốc tế
trên Biểu diễn học tập, 2020. URL https://openreview.net/forum?id=
SJxDDpEKvH.
42
Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman,
Jie Tang, và Wojciech Zaremba. Phòng tập thể dục mở. bản in sẵn arXiv arXiv:1606.01540,
2016.
Rich Caruana, Yin Lou, Johannes Gehrke, Paul Koch, Marc Sturm và Noemie El
đã có. Các mô hình thông minh cho chăm sóc sức khỏe: Dự đoán nguy cơ viêm phổi và bệnh viện
tái nhập viện 30 ngày. Trong Kỷ yếu của ACM SIGKDD International Con lần thứ 21
tham khảo về Khám phá tri thức và Khai thác dữ liệu, trang 1721–1730, New York, NY,
Hoa Kỳ, 2015. Hiệp hội Máy tính. ISBN 9781450336642.
Chun-Hao Chang, Elliot Creager, Anna Goldenberg và David Duvenaud. Giải thích
ing phân loại hình ảnh bằng cách tạo phản thực tế. Trong Hội thảo quốc tế về
Đại diện học tập, 2019.
Mark W. Craven và Jude W. Shavlik. Trích xuất các biểu diễn cấu trúc cây của
các mạng được huấn luyện. Trong Kỷ yếu Hội nghị Quốc tế lần thứ 8 về Thần kinh
Hệ thống xử lý thông tin, trang 24–30, Cambridge, MA, USA, 1995. MIT
Nhấn.
Piotr Dabkowski và Yarin Gal. Mức độ nổi bật của hình ảnh thời gian thực đối với bộ phân loại hộp đen. TRONG
Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2017.
Amit Dhurandhar, Pin-Yu Chen, Ronny Luss, Chun-Chen Tu, Paishun Ting, Karthikeyan
Shanmugam và Payel Das. Giải thích dựa trên sự thiếu sót: Hướng tới sự tương phản
giải thích với tiêu cực thích hợp. Những tiến bộ trong xử lý thông tin thần kinh
Hệ thống, 2018.
Ruth C Fong và Andrea Vedaldi. Giải thích có thể hiểu được về hộp đen theo ý nghĩa
đầy nhiễu loạn. Trong Kỷ yếu của Hội nghị Quốc tế IEEE về Máy tính
Tầm nhìn, 2017.
Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozair, Aaron Courville và Yoshua Bengio. Lưới đối thủ sáng tạo. TRONG
43
Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh và Stefan Lee. quận
giải thích trực quan terfactual. Trong Hội nghị quốc tế về học máy
(ICML), 2019.
Samuel Greydanus, Anurag Koul, Jonathan Dodge và Alan Fern. hình dung và
hiểu các đại lý Atari. Trong Kỷ yếu của Hội nghị Quốc tế lần thứ 35 về
Học máy, 2018.
Bradley Hayes và Julie A Shah. Cải thiện tính minh bạch của bộ điều khiển robot thông qua
giải thích chính sách tự chủ. Trong Kỷ yếu của ACM/IEEE quốc tế 2017
Hội nghị về tương tác giữa người và robot, 2017.
Hsiu-Fang Hsieh và Sarah E. Shannon. Ba cách tiếp cận nội dung định tính
Phân tích. Nghiên cứu Sức khỏe Định tính, 2005.
Sandy H. Huang, Kush Bhatia, Pieter Abbeel và Anca D. Dragan. Thiết lập
tin tưởng thích hợp thông qua các trạng thái quan trọng. Trong Hội nghị Quốc tế IEEE/RSJ năm 2018
trên Robot và Hệ thống Thông minh (IROS), các trang 3929–3936, 2018. doi: 10.1109/
IROS.2018.8593649.
Sandy H. Huang, David Held, Pieter Abbeel và Anca D. Dragan. Kích hoạt robot để
truyền đạt mục tiêu của họ. tự động. Người máy, 43(2):309–326, tháng 2 năm 2019.
Paul Jacard. Nouvelles recherches sur la phân phối hoa. Bò đực. Sóc. Vaud. Khoa học. tự nhiên,
44, 1908.
Ali Jahanian, Lucy Chai và Phillip Isola. Về "khả năng điều khiển" của đối thủ chung
các mạng. Trong Hội nghị Quốc tế về Biểu diễn Học tập, 2020. URL
https://openreview.net/forum?id=HylsTT4FvB.
Zoe Juozapaitis, Anurag Koul, Alan Fern, Martin Erwig, và Finale Doshi-Velez.
Học tăng cường có thể giải thích được thông qua phân tách phần thưởng. Trong Kỷ yếu của
ĲCAI 2019 Hội thảo về Trí tuệ nhân tạo có thể giải thích được, 2019.
Łukasz Kaiser, Mohammad Babaeizadeh, Piotr Miłos, Błażej Osiński, Trại Roy H
chuông, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey
44
Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker và Henryk Michalewski.
Học tăng cường dựa trên mô hình cho atari. Trong Hội thảo quốc tế về
Biểu diễn học tập, 2020. URL https://openreview.net/forum?id=
S1xCPJHtDB.
Omar Zia Khan, Pascal Poupart và James P. Black. giải thích đầy đủ tối thiểu cho
quá trình quyết định markov nhân tố. Trong Kỷ yếu của Quốc tế thứ mười chín
Hội thảo về Lập kế hoạch và Lập kế hoạch Tự động hóa, 2009.
Diederik P. Kingma và Jimmy Ba. Adam: Một phương pháp tối ưu hóa ngẫu nhiên.
CoRR, abs/1412.6980, 2014. URL http://arxiv.org/abs/1412.6980.
Diederik P. Kingma và Max Welling. Bayes biến thể mã hóa tự động. CoRR,
abs/1312.6114, 2013.
Pang Wei Koh và Percy Liang. Hiểu dự đoán hộp đen thông qua ảnh hưởng
chức năng. Trong Kỷ yếu Hội nghị Quốc tế lần thứ 34 về Học máy
- Tập 70, ICML'17, trang 1885–1894. JMLR.org, 2017.
Anurag Koul, Alan Fern và Sam Greydanus. Học biểu diễn trạng thái hữu hạn của
mạng lưới chính sách định kỳ. Trong Hội nghị quốc tế về biểu diễn học tập,
2019. URL https://openreview.net/forum?id=S1gOpsCctm.
Isaac Lage, Daphna Lifschitz, Finale Doshi-Velez, và Ofra Amir. Khám phá máy tính
các mô hình người dùng chuyên dụng để tóm tắt chính sách đại lý. Trong Sarit Kraus, biên tập viên, Kỷ yếu
của Hội nghị chung quốc tế lần thứ 28 về trí tuệ nhân tạo, trang
1401–1407. ĳcai.org, 2019.
Diễn viên: Guillaume LampleNeil ZeghidourNicolas UsunierAntoine BordesLudovic De
Noyer, et al. Mạng Fader: Thao tác hình ảnh bằng cách trượt thuộc tính. tạm ứng
trong Hệ thống xử lý thông tin thần kinh, 2017.
David Lewis. phản thực tế. John Wiley & Các con trai, 1973.
Prashan Madumal, Tim Miller, Liz Sonenberg, và Frank Vetere. Có thể giải thích được
ép buộc học tập thông qua lăng kính nhân quả. Trong Kỷ yếu Hội nghị AAAI
về Trí tuệ nhân tạo, 2020.
45
Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly và Ian J. Goodfellow. đối thủ
bộ mã hóa tự động ial. CoRR, abs/1511.05644, 2015. URL http://arxiv.org/abs/
1511.05644.
Sameer Singh Marco Tulio Ribeiro và Carlos Guestrin. Neo: Độ chính xác cao
giải thích mô hình bất khả tri. Trong Kỷ yếu Hội nghị AAAI lần thứ 32 về
Trí tuệ nhân tạo, 2018.
Tim Miller. Giải thích về trí tuệ nhân tạo: Những hiểu biết sâu sắc từ khoa học xã hội.
Trí tuệ nhân tạo, 2019.
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness,
Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg
Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen
King, Dharshan Kumaran, Daan Wierstra, Shane Legg và Demis Hassabis. Nhân loại
kiểm soát mức độ thông qua học tăng cường sâu. Thiên nhiên, 2015.
Ramaravind K. Mothilal, Amit Sharma, và Chenhao Tan. Giải thích học máy
phân loại thông qua các giải thích phản thực đa dạng. Trong Kỷ yếu 2020
Hội nghị về Công bằng, Trách nhiệm giải trình và Minh bạch, 2020.
Alex Mott, Daniel Zoran, Mike Chrzanowski, Daan Wierstra và Danilo Jimenez
Rezende. Hướng tới học tập củng cố có thể diễn giải bằng cách sử dụng tăng cường sự chú ý
đại lý. Trong NeurIPS, 2019.
Lawrence Neal, Matthew Olson, Xiaoli Fern, Weng-Keen Wong và Fuxin Li. Mở
thiết học có hình ảnh phản thực. Trong Kỷ yếu của Hội nghị Châu Âu
về Thị giác Máy tính (ECCV), 2018.
Weili Nie, Tero Karras, Animesh Garg, Shoubhik Debhath, Anjul Patney, Ankit B Patel,
và Anima Anandkumar. Stylegan bán giám sát để học gỡ rối.
arXiv, trang arXiv–2003, 2020.
Matthew Olson, Lawrence Neal, Fuxin Li, và Weng-Keen Wong. phản thực tế
trạng thái cho các đại lý atari thông qua học sâu tổng quát. Trong Kỷ yếu của ĲCAI 2019
Hội thảo về Trí tuệ nhân tạo có thể giải thích được, 2019.
46
Diễn viên: Adam PaszkeSam GrossFrancisco MassaAdam LererJames BradburyGregory
Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Des
maison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan
Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai và Soumith
Chintala. Pytorch: Một phong cách bắt buộc, thư viện học sâu hiệu suất cao. TRONG
Judea Pearl và Dana Mackenzie. Cuốn sách Tại sao: Khoa học mới về nguyên nhân và
Tác dụng. Sách cơ bản, 1 ấn bản, 2018.
Martin L. Puterman. Quy trình quyết định Markov: Discrete Stochastic Dynamic Pro
ngữ pháp. John Wiley & Sons, Inc., 1994.
Zhongang Qi, Saeed Khorram, và Fuxin Li. Trực quan hóa các mạng sâu bằng cách tối ưu hóa
với độ dốc tích hợp. CoRR, abs/1905.00954, 2019. URL http://arxiv.
org/abs/1905.00954.
Alec Radford, Luke Metz và Soumith Chintala. đại diện không giám sát
học tập với các mạng lưới đối thủ tạo tích chập sâu. bản in trước arXiv
arXiv:1511.06434, 2015.
Marco Tulio Ribeiro, Sameer Singh và Carlos Guestrin. "tại sao tôi nên tin tưởng bạn?": Ex
làm rõ các dự đoán của bất kỳ bộ phân loại nào. Trong Kỷ yếu của ACM SIGKDD lần thứ 22
Hội nghị quốc tế về khám phá tri thức và khai thác dữ liệu, 2016.
Ramprasaath R Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam,
Devi Parikh, và Dhruv Batra. Grad-cam: Giải thích trực quan từ các mạng sâu
thông qua nội địa hóa dựa trên độ dốc. Trong Kỷ yếu hội thảo quốc tế IEEE
về thị giác máy tính, 2017.
Pedro Sequeira và Melinda Gervasio. Các yếu tố thú vị để giải thích lại
học tập cưỡng bức: Hiểu khả năng và hạn chế của các đại lý. nhân tạo
cial Intelligence, 288:103367, tháng 11 năm 2020. doi: 10.1016/j.artint.2020.103367. URL
http://dx.doi.org/10.1016/j.artint.2020.103367.
47
Avanti Shrikumar, Peyton Greenside, và Anshul Kundaje. Học các tính năng quan trọng
thông qua tuyên truyền sự khác biệt kích hoạt. Trong Kỷ yếu của Quốc tế thứ 34
Conference on Machine Learning-Tập 70, 2017.
Karen Simonyan, Andrea Vedaldi và Andrew Zisserman. Sâu bên trong tích chập
mạng: Trực quan hóa các mô hình phân loại hình ảnh và bản đồ độ mặn. bản in trước arXiv
arXiv:1312.6034, 2013.
Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox và Martin Riedmiller.
Phấn đấu cho sự đơn giản: Mạng tích chập toàn bộ. arXiv in sẵn arXiv:1412.6806,
2014.
Mukund Sundararajan, Ankur Taly và Qiqi Yan. Phân bổ tiên đề cho sâu
các mạng. Trong Kỷ yếu Hội nghị Quốc tế lần thứ 34 về Học máy
- Tập 70, ICML'17, trang 3319–3328. JMLR.org, 2017.
Ilya Tolstikhin, Olivier Bousquet, Sylvain Gelly và Bernhard Schoelkopf. Wasserstein
bộ mã hóa tự động. Trong Hội nghị Quốc tế về Biểu diễn Học tập, 2018. URL
https://openreview.net/forum?id=HkL7n1-0b.
Lisa Torrey và Matthew Taylor. Giảng dạy với ngân sách: Đại lý tư vấn cho đại lý trong
học tăng cường. Trong Kỷ yếu Hội thảo Quốc tế 2013 về
Autonomous Agents and Multi-Agent Systems, trang 1053–1060, Richland, SC, 2013.
Tổ chức quốc tế về các đại lý tự trị và hệ thống đa tác nhân.
Jasper van der Waa, Jurriaan van Diggelen, Karel van den Bosch và Mark Neerincx.
Giải thích tương phản cho việc học tăng cường về kết quả dự kiến
nghi thức. Trong Kỷ yếu Hội thảo ĲCAI/ECAI 2018 về AI có thể giải thích được,
2018.
Abhinav Verma, Vĳayaraghavan Murali, Rishabh Singh, Pushmeet Kohli, và
Swarat Chaudhuri. Học tăng cường có thể diễn giải theo chương trình. CoRR,
abs/1804.02477, 2018. URL http://arxiv.org/abs/1804.02477.
48
Sandra Wachter, Brent Mittelstadt và Chris Russell. giải thích phản thực tế
mà không cần mở hộp đen: Các quyết định tự động và gdpr. Harv. JL & Tech.,
2017.
Tom Zahavy, Nir Ben-Zrihem và Shie Mannor. Làm xám hộp đen: Hiểu biết
dqns. Trong Hội nghị Quốc tế về Học máy, 2016.
Matthew D Zeiler và Rob Fergus. Trực quan hóa và hiểu mạng tích chập
làm. Trong hội nghị châu Âu về thị giác máy tính, 2014.
Jianming Zhang, Sarah Adel Bargal, Zhe Lin, Jonathan Brandt, Xiaohui Shen và Stan
Sclaroff. Sự chú ý thần kinh từ trên xuống bằng cách kích thích backprop. Tạp chí quốc tế
của Thị giác máy tính, 2018.
49
Phụ lục A. Điều chỉnh thông số
Hình A.18: Một ví dụ về các mô hình khác nhau được đào tạo với các tham số khác nhau đối với thông thường
đại lý được đào tạo. Trạng thái ban đầu với hành động = MoveLeftAndShoot để tạo
phản thực được hiển thị ở trên cùng bên trái, với phần còn lại của hình ảnh là trạng thái phản thực
trong đó tác nhân sẽ thực hiện hành động phản tác dụng = Cháy.
Hình A.18 cho thấy tác động của việc thay đổi tham số. Khi tăng, thì cũng vậy
lượng thay đổi trong trạng thái phản thực tế, với các giá trị thấp gây ra gần như
những thay đổi không thể nhận thấy và các giá trị cao tạo ra trạng thái chất lượng thấp, méo mó. Từ
nghiên cứu người dùng đầu tiên của chúng tôi, chúng tôi thấy rằng những người không phải là chuyên gia có thể xác định rõ ràng độ trung thực kém
hình ảnh, gây ra bởi các tham số quá cao. Đưa ra một tập hợp các hình ảnh được tạo ra
bởi các giá trị khác nhau, chúng tôi cảm thấy rằng việc tìm kiếm một "điểm ngọt ngào" giữa quá cao và quá
thấp nên có thể quản lý được đối với người xem không phải là chuyên gia vì có nhiều loại
các giá trị tạo ra phản thực chất lượng cao hợp lý. Tự động hóa quy trình
việc lựa chọn một sản phẩm phản thực có độ trung thực cao nằm ngoài phạm vi của tài liệu này.
công việc, nhưng là một lĩnh vực quan tâm trong tương lai.
Phụ lục B. Thí nghiệm Ablation cho Mạng nơ-ron trạng thái phản thực
Ngành kiến trúc
Trong phần này, chúng tôi mô tả nhiều thí nghiệm cắt bỏ khác nhau bằng cách sử dụng dây thần kinh.
kiến trúc mạng được mô tả trong Phần 3.2 để giải thích trạng thái phản thực tế của chúng tôi.
50
Thí nghiệm cắt bỏ 1 2 3 4 5 6 7 8 9 10
( )
( ( ))
Bảng B.4: Tổng quan về những yếu tố nào được cung cấp làm đầu vào cho bộ tạo cho mỗi lần cắt bỏ
cuộc thí nghiệm.
Những sự cắt bỏ này minh họa cách mỗi thành phần trong kiến trúc của chúng tôi cần thiết để đạt được
hình ảnh phản thực chất lượng cao. Trình tạo luôn được sử dụng với quá trình tái tạo MSE
mất mát, nhưng những gì chúng tôi truyền vào máy phát điện sẽ thay đổi đối với mỗi thí nghiệm cắt bỏ. Chúng tôi
cung cấp tổng quan về các phương pháp cắt bỏ khác nhau trong Bảng B.4 và Hình B.19 và B.20
chứa các hình ảnh đại diện cho các vấn đề đối với mỗi thí nghiệm cắt bỏ.
Tiếp theo, chúng tôi thảo luận chi tiết về từng thí nghiệm cắt bỏ:
Hình B.19: Từ trái sang phải: các lần cắt bỏ 1 - 5. Trong mỗi cột và mỗi hàng, hình trên cùng là
trạng thái ban đầu trong đó = MoveRight, hình ảnh trung tâm là bản dựng lại được mã hóa tự động của
trạng thái ban đầu, hình ảnh dưới cùng là trạng thái phản thực trong đó = MoveRightAndFire.
51
Hình B.20: Từ trái sang phải: lần cắt bỏ 6 - 10. Trong mỗi cột, hình trên cùng là ảnh gốc
trạng thái trong đó = MoveRight, hình ảnh ở giữa là bản dựng lại được mã hóa tự động và hình ảnh dưới cùng
là một trạng thái phản thực trong đó = MoveRightAndFire.
1. Chúng tôi điều tra tác động của việc chỉ sử dụng chính sách của đại lý để tạo lại
các trạng thái và sửa đổi nó bằng tay để tạo ra các trạng thái phản thực tế: loại bỏ tất cả các phần
từ mô hình của chúng tôi ngoại trừ tác nhân và trình tạo, chỉ chuyển ( ), trong đó = ( ), vào trình
tạo. Điều này cho chúng ta các trạng thái được xây dựng lại dưới dạng
( ( )). Chúng tôi sửa đổi vectơ chính sách ( ) bằng cách chọn một hành động phản tác dụng
, cài đặt ( , ) = ( , ) 1,01 và chuẩn hóa xác suất trở lại 1.
Sửa đổi tay này rõ ràng không phải là đại diện của đại lý. Như thể hiện trong
hình B.19, các trạng thái được tái tạo và phản thực tế có chất lượng cực kỳ thấp.
2. Chúng tôi điều tra tác động của việc chỉ sử dụng biểu diễn đã học của tác nhân để
tạo ra cả trạng thái được xây dựng lại và trạng thái phản tác dụng. Chúng tôi đã loại bỏ tất cả các bộ phận
từ mô hình của chúng tôi ngoại trừ tác nhân và trình tạo, chuyển vào trình tạo.
Điều này cho chúng ta các trạng thái được xây dựng lại ở dạng ( ) và các trạng thái phản thực
bằng cách sửa đổi giảm dần độ dốc như được mô tả trong Phần 3.3 để có được .
Như thể hiện trong hình B.19, các trạng thái phản thực là khá phi thực tế, nhưng
đáng ngạc nhiên là các trạng thái được xây dựng lại là chính xác.
52
3. Chúng tôi đã loại bỏ tất cả các bộ phận khỏi mô hình của mình ngoại trừ tác nhân và bộ tạo, điều này
thời gian chuyển cả hai và ( ) vào trình tạo. Điều này cho chúng ta xây dựng lại
trạng thái ở dạng ( , ( )) và các trạng thái phản thực bằng cách sửa đổi với
giảm độ dốc như được mô tả trong Phần 3.3 để có được một . Như thể hiện trong hình B.19,
các trạng thái phản thực tế là khá phi thực tế, nhưng đáng ngạc nhiên là các trạng thái được xây dựng lại
trạng thái là chính xác.
4. Chúng tôi điều tra chỉ sử dụng bộ mã hóa tự động Wasserstein. Ở đây chúng tôi chỉ vượt qua
vào trình tạo, ở đâu là biểu diễn tiềm ẩn của trạng thái trong Wasserstein
dấu cách = ( ( )). Điều này cho chúng ta các trạng thái được xây dựng lại ở dạng ( )
và các trạng thái phản thực bằng cách sửa đổi với độ dốc giảm dần như được mô tả trong
Mục 3.3 để có được một . Như thể hiện trong hình B.19, cả công trình được xây dựng lại và
trạng thái phản thực là hoàn toàn phi thực tế.
5. Chúng tôi đã loại bỏ tất cả các bộ phận khỏi mô hình của mình ngoại trừ tác nhân, chiếc ô tô Wasserstein
bộ mã hóa và bộ tạo. Ở đây chúng tôi chuyển cả hai và ( ) vào trình tạo.
Điều này cho chúng ta các trạng thái được xây dựng lại ở dạng ( , ( )) và phản thực
trạng thái bằng cách sửa đổi với giảm dần độ dốc như được mô tả trong Phần 3.3 để có được
Một . Như thể hiện trong Hình B.20, cả trạng thái được tái tạo và trạng thái phản thực
cải thiện tương đối so với lần cắt bỏ trước đó, nhưng vẫn còn khá phi thực tế.
6. Ở đây chúng tôi điều tra tác động của việc giữ bộ mã hóa và bộ phân biệt, nhưng
sửa đổi thủ công đầu vào chính sách cho trình tạo thay vì sử dụng Wasserstein
tự động mã hóa hoặc giảm độ dốc. Đầu vào của máy phát điện tương đương với
công việc được mô tả trong phần 3. Chúng tôi sửa đổi vectơ chính sách ( ), bằng cách chọn
một hành động phản thực tế , cài đặt ( , ) = ( , ) 1.01 và chuẩn hóa
xác suất trở lại 1. Những sửa đổi bàn tay này có thể, hoặc không, được đại diện
bản chất của những gì các đại lý làm. Như thể hiện trong hình B.19, các bang có cùng
chất lượng được tạo ra như phương pháp của chúng tôi và trạng thái phản thực có một chút, nhưng
thay đổi có ý nghĩa.
7. Lần cắt bỏ này tương tự như lần cắt bỏ trước, nhưng thay vì thông qua chính sách
vectơ ( ) cho trình tạo, chúng tôi nhập không gian tiềm ẩn của tác nhân. Như với trước
cắt bỏ, chúng tôi tạo ra các trạng thái phản thực bằng cách sửa đổi với độ dốc giảm dần
như được mô tả trong Phần 3.3 để có được một . Như thể hiện trong hình B.20, các bang có
53
một chất lượng tốt, nhưng các trạng thái phản thực tế có những thay đổi tương đối lớn và
một vài hiện vật.
8. Tương tự như lần cắt bỏ trước, nhưng thay vì chỉ chuyền , chúng tôi chuyền cả hai
vectơ chính sách ( ) và tới trình tạo. Như với các lần cắt bỏ trước đây, chúng tôi
tạo các trạng thái phản thực bằng cách sửa đổi với độ dốc giảm dần như được mô tả
trong Mục 3.3 để có được một . Như thể hiện trong hình B.20, các trạng thái có chất lượng tốt hơn
hơn là chỉ đi vào , nhưng phản thực có chất lượng thấp hơn phương pháp của chúng tôi.
9. Chúng tôi thêm lại bộ mã hóa tự động Wasserstein vào quá trình cắt bỏ trước đó. Thay vì
chuyển không gian tiềm ẩn của tác nhân sang trình tạo, chúng tôi chuyển vào Wasserstein
đại diện = ( ( )). Như được mô tả trong 3.3, chúng tôi tạo phản thực
trạng thái bằng cách sửa đổi để có được một . Như thể hiện trong hình B.20, các trạng thái cao
chất lượng, nhưng các trạng thái phản thực thường không có thay đổi.
10. Thí nghiệm này là một sự cắt bỏ theo nghĩa là chúng tôi loại bỏ sự ngắt kết nối
giữa thế hệ và . Nói cách khác, chúng tôi sử dụng phương pháp ban đầu của chúng tôi
và thêm làm đầu vào cho trình tạo. Khi các trạng thái phản thực được tạo ra,
được chuyển vào trình tạo cùng với ( ) và ( ). Như thể hiện trong hình
B.20, các trạng thái có chất lượng cao và các trạng thái phản thực rất thú vị. Chúng tôi
không thể tìm thấy sự khác biệt về chất lượng cho các trạng thái được tạo giữa trạng thái này
cắt bỏ và phương pháp của chúng tôi. Vì quá trình cắt bỏ này phức tạp hơn và đòi hỏi nhiều
tham số, chúng tôi quyết định không sử dụng nó cho mục đích của chúng tôi.
Phụ lục C. Chi tiết về Nghiên cứu người dùng 2
Trong phần này, chúng tôi cung cấp thêm chi tiết về nghiên cứu người dùng thứ hai. Cụ thể, chúng tôi
bao gồm tập lệnh hướng dẫn và hình ảnh được sử dụng trong nghiên cứu người dùng thứ hai.
Phụ lục C.1. Tập lệnh Hướng dẫn Nghiên cứu Người dùng
Trong hướng dẫn này, chúng tôi sẽ giới thiệu cho bạn công cụ tìm AI bị trục trặc.
Công cụ này hiển thị phản hồi của AI đối với các câu hỏi “Nếu như” cụ thể. Cả hai hoạt động
và AI bị trục trặc cung cấp câu trả lời cho câu hỏi “Nếu như”.
Đối với nghiên cứu này, chúng tôi đã chọn 20 ảnh chụp màn hình khác nhau từ các video. Sau đó
học cách sử dụng công cụ, bạn sẽ kiểm tra các ảnh chụp màn hình đã chọn để thu thập dữ liệu
54
Hình C.21: Các ví dụ hướng dẫn nghiên cứu người dùng được sử dụng để mô tả các trạng thái phản thực tế, trong đó
hàng trên cùng của hình ảnh là một lời giải thích có thể phản thực tế và hàng dưới cùng là một lời giải thích khác. Truy vấn
trạng thái có hành động = Rẽ phải nơi ô tô tự lái đang đưa bạn về nhà (trái), phản thực tế
trạng thái nơi hành động = Đi thẳng (phải) và sự khác biệt được đánh dấu (giữa).
trên hai AI. Danh tính của AI sẽ được ẩn danh cho đến khi đánh giá cuối cùng.
Tại thời điểm này, vui lòng nhấp vào hộp kiểm, sau đó nhấp vào nút tiếp tục.
Đối với mỗi ảnh chụp màn hình đã chọn, bạn sẽ thấy ba hình ảnh được sắp xếp trong một bảng. Chúng tôi
bây giờ sẽ đi qua cách sắp xếp bảng. Vui lòng nhấp vào Tiếp theo.
Hình ảnh đầu tiên là ảnh chụp màn hình từ các video gốc. Vui lòng nhấp vào Tiếp theo.
Trong cột này, bạn cũng sẽ thấy ngữ cảnh của ảnh chụp màn hình gốc với một đoạn ngắn
gif. Vui lòng nhấp vào Tiếp theo.
Nhấp vào hình ảnh để thay đổi nó thành một gif. Ảnh gif hiển thị ba trò chơi trước đó
Những trạng thái. Sau đó bấm một lần nữa để trở lại hình ảnh. Trong cột, bạn cũng sẽ thấy bản gốc
hành động mà AI quyết định sẽ thực hiện tại thời điểm đó trong video. Vui lòng nhấp vào Tiếp theo.
Trong ví dụ này, AI ban đầu quyết định nó sẽ thực hiện hành động "bắn". Sau đó chúng tôi
hỏi AI, "Màn hình hiện tại sẽ trông như thế nào để bạn thực hiện
hành động "di chuyển sang phải"? Để trả lời câu hỏi này, AI sẽ chỉ đánh giá hiện tại
thời điểm trong trò chơi, không phải quá khứ hay tương lai. Vui lòng nhấp vào Tiếp theo.
Để có một ví dụ cụ thể hơn, hãy xem xét những điều sau đây. Hãy tưởng tượng có một bản thân màu đỏ
lái xe đang đưa bạn về nhà. Nó đến gần một giao lộ và nó muốn rẽ
quyền đưa bạn đến đích. (Hiển thị Hình C.21 trên cùng bên trái)
55
Bây giờ hãy tưởng tượng một tình huống mà chiếc ô tô màu đỏ sẽ chọn đi thẳng thay vì
rẽ phải. Có nhiều lý do tại sao điều này có thể xảy ra. Một ví dụ là nếu
cây nâu đổ chắn ngang đường. (Hiển thị Hình C.21 trên cùng bên phải)
Trong ví dụ này, câu trả lời cho câu hỏi “cần thay đổi điều gì” ngay bây giờ
để ô tô chọn đi thẳng tại giao lộ này (chỉ vào hình bên trái), sẽ là “đường
cây màu nâu đổ chắn lối rẽ phải” (chỉ vào hình bên phải), rõ chưa?
Xuất sắc. Bây giờ trong các ví dụ bạn sẽ xem xét, AI sẽ trả lời câu hỏi về
“những gì cần thay đổi” bằng cách trả lời bằng 2 hình ảnh. Vui lòng nhấp vào Tiếp theo.
Phản hồi đầu tiên là trạng thái đã thay đổi. Phản ứng này cho thấy số lượng nhỏ nhất của
thay đổi trong trò chơi để thực hiện hành động khác là “di chuyển sang phải”. Quay lại ví dụ về ô tô,
nếu hình ảnh ban đầu là giao điểm (chỉ vào hình ảnh bên trái), phản hồi sau
hình ảnh sẽ là giao điểm với cây nâu bị đổ (chỉ vào hình ảnh bên phải), Vui lòng
Bấm tiếp.
Trong cột thứ ba, lưu ý trò chơi đã thay đổi một cách tinh vi như thế nào theo hai cách: con tàu
dưới thanh chắn và thanh chắn được bọc thép toàn bộ. Vui lòng nhấp vào Tiếp theo.
Phản hồi AI thứ hai là làm nổi bật hình ảnh, chụp ảnh màn hình gốc
và thêm các điểm nổi bật màu xanh lam vào các thay đổi. Phản hồi này cho biết AI đang tìm kiếm ở đâu
để thay đổi xảy ra. Sử dụng ví dụ về ô tô, phản hồi này sẽ giống như phản hồi ban đầu
giao lộ với điểm nổi bật màu xanh nơi cây màu nâu đã di chuyển. (Cho Hình C.21
top-center) Rõ chưa?
Xuất sắc. Nhiều đối tượng cũng có thể ảnh hưởng đến quyết định của AI.
(Hiển thị Hình C.21 phía dưới bên trái). Trong ví dụ này, hai điều ảnh hưởng đến bản thân màu đỏ
lái xe ô tô quyết định thực hiện hành động di chuyển thẳng. Đầu tiên là: nếu cây màu nâu
đã bị ngã, nhưng nếu vị trí của chiếc xe màu đỏ thay đổi để nó vượt qua
ngã tư. (Hiển thị toàn bộ Hình C.21). Những điểm nổi bật cho ví dụ này cho thấy
cả xe đỏ lẫn cây nâu nổi bật trên nền xanh. Ví dụ thứ hai này có rõ ràng không?
Xuất sắc. Hãy để chúng tôi tiếp tục với bảng và vui lòng nhấp vào Tiếp theo.
Lưu ý cách các đối tượng đã thay đổi được đánh dấu bằng màu xanh lam: thanh chắn được sửa chữa và
vị trí tàu mới. Khi bạn đang xem bảng cho từng ảnh chụp màn hình đã chọn, bạn sẽ
được hỏi hai câu hỏi. Câu hỏi đầu tiên là: “bạn nghĩ đồ vật nào trong trò chơi
AI chú ý đến? Vui lòng nhấp vào Tiếp theo để xem câu hỏi này. Bạn không cần phải
56
chọn một câu trả lời cho hướng dẫn này. Xin lưu ý rằng bạn có thể chọn nhiều hơn một hộp kiểm,
hoặc không có hộp kiểm nào cả.
Câu hỏi thứ hai bạn sẽ được hỏi là: bạn đã phản hồi hoặc phản hồi AI nào
sử dụng để đưa ra quyết định của bạn? Vui lòng nhấp vào Tiếp theo. Một lần nữa, bạn không cần phải trả lời điều này
cho hướng dẫn. Bạn sẽ được hỏi những câu hỏi tương tự cho mỗi ảnh chụp màn hình đã chọn.
Đây là công cụ đầy đủ mà bạn sẽ sử dụng để phân tích từng ảnh chụp màn hình được trình bày trong
thứ tự ngẫu nhiên. Phần này sẽ mất khoảng 10 đến 15 phút. Đối với mỗi bộ ảnh
bạn sẽ được yêu cầu dành ít nhất 30 giây. Sẽ có một bộ đếm thời gian trên màn hình.
Sau khi bạn kiểm tra xong 20 ảnh chụp màn hình ngẫu nhiên, bạn sẽ sử dụng
dữ liệu để hoàn thành đánh giá thứ hai. Kết quả của bạn từ công cụ sẽ được hiển thị trong
cả bảng và biểu đồ. Ngoài ra, chúng tôi sẽ tiết lộ cho bạn những ví dụ nào từ
AI một và đó là từ AI hai.
Với thông tin này, bạn sẽ trả lời lại câu hỏi: “AI nào đang trục trặc
và nó không thể nhìn thấy những đồ vật nào trong trò chơi?” Và cuối cùng, sau khi bạn đã gửi
Đánh giá thứ 2, chúng tôi yêu cầu bạn thực hiện một phản ánh ngắn bằng văn bản. Khi bạn đã sẵn sàng,
nhấp vào “Kết thúc hướng dẫn” để bắt đầu xem 20 ảnh chụp màn hình đã chọn. tôi sẽ rời khỏi
ví dụ hướng dẫn trên máy chiếu và ví dụ về ô tô trên bảng trắng. Bạn có thể
bắt đầu.
Phụ lục C.2. Hình ảnh
Trong phần này, chúng tôi trình bày thêm một loạt các giải thích từ nghiên cứu người dùng của chúng tôi.
Hình C.22 và C.23 trình bày các giải thích cho tác nhân được huấn luyện bình thường cho cả hai
giải thích trạng thái phản thực và giải thích phản thực hàng xóm gần nhất,
sắp xếp theo bước thời gian trò chơi. Hình C.24 và C.25 thể hiện tương tự các giải thích cho
đại lý thiếu sót. Những số liệu này cho thấy cách giải thích phản thực của hàng xóm gần nhất
thường cho thấy vị trí của con tàu màu xanh lá cây thay đổi vì tác nhân sai sót, trong khi chúng ta
giải thích trạng thái phản thực tế không bao giờ thay đổi vị trí của con tàu.
Phụ lục D. Phân tích dữ liệu nghiên cứu người dùng
Để trả lời câu hỏi nghiên cứu 2 và 3, hai nhà nghiên cứu đã áp dụng chung
phân tích nội dung [Hsieh và Shannon, 2005] vào kho dữ liệu câu hỏi của bài viết.
57
Họ đã phát triển các mã được trình bày trong Bảng D.5. Các mã này được xác định bằng cách có hai
các nhà nghiên cứu đã mã hóa 20% kho dữ liệu riêng lẻ, đạt được độ tin cậy giữa những người đánh giá
(IRR) ít nhất 90% (được tính bằng Chỉ số Jaccard [Jaccard, 1908]) với tất cả dữ liệu
bộ.
Mã số Sự miêu tả Ví dụ
Hữu ích Người tham gia tìm thấy “Vâng, hình ảnh thứ ba đóng một vai trò trong
hiện vật hữu ích cho giúp tôi đưa ra quyết định của mình.”
nhiệm vụ chính, và nó đã giúp
họ hiểu rõ hơn và
đánh giá đại lý.
Có vấn đề Người tham gia tìm thấy “Phần trạng thái thay đổi bối rối
tạo tác cản trở-một số và tôi vì tôi không chắc đó có phải là
chính có vấn đề hành động tiếp theo mà AI đã thực hiện hoặc ac
nhiệm vụ.
tion nó nghĩ về việc đưa ra
hoàn cảnh nổi bật.”
Bảng D.5: Các mã định tính được sử dụng trong phân tích của chúng tôi
58
= Di chuyển sang trái

= MoveRightAndShoot, = Di chuyển sang phải
= Di chuyển sang phải = MoveRightAndShoot, = Bắn
= Di chuyển sang phải = Bắn, = MoveRightAndShoot

= MoveRightAndShoot, = MoveLeftAndShoot

= MoveRightAndShoot, = MoveLeftAndShoot
Hình C.22: Năm giải thích đầu tiên cho tác nhân được đào tạo thông thường được sử dụng trong nghiên cứu người dùng.
(Giữa) Trạng thái ban đầu nơi tác nhân đã hành động . (Trái) Trạng thái phản thực
giải thích nơi đại lý thực hiện hành động . (Phải) Trạng thái phản thực láng giềng gần nhất
nơi đại lý thực hiện hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa
trạng thái phản thực và trạng thái ban đầu.
59

= MoveRightAndShoot, = Bắn
= Bắn = Di chuyển sang phải, = MoveRightAndShoot
= Bắn = Di chuyển sang phải, = MoveRightAndShoot


Hình C.23: Giải thích từ 6 đến 10 cho tác nhân được đào tạo thông thường được sử dụng trong nghiên cứu người dùng.
(Giữa) Trạng thái ban đầu nơi tác nhân đã hành động . (Trái) Trạng thái phản thực
giải thích nơi đại lý thực hiện hành động . (Phải) Trạng thái phản thực láng giềng gần nhất
nơi đại lý thực hiện hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa
trạng thái phản thực và trạng thái ban đầu.
60
= Di chuyển sang phải = Di chuyển sang trái, = MoveLeftAndShoot
= Di chuyển sang phải = Bắn, = Ở Lại


Hình C.24: Năm giải thích đầu tiên cho tác nhân sai sót được sử dụng trong nghiên cứu người dùng. (Trung tâm) Các
trạng thái ban đầu nơi đại lý đã hành động . (Trái) Các giải thích về trạng thái phản thực trong đó
đại lý thực hiện hành động . (Phải) Trạng thái phản thực Hàng xóm Gần nhất nơi tác nhân
hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa phản thực
trạng thái và trạng thái ban đầu.
61
= Di chuyển sang phải = MoveLeftAndShoot, = Di chuyển sang trái
Hình C.25: Giải thích từ 6 đến 10 cho tác nhân sai sót được sử dụng trong nghiên cứu người dùng. (Trung tâm) Các
trạng thái ban đầu nơi đại lý đã hành động . (Trái) Các giải thích về trạng thái phản thực trong đó
đại lý thực hiện hành động . (Phải) Trạng thái phản thực Hàng xóm Gần nhất nơi tác nhân
hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa phản thực
trạng thái và trạng thái ban đầu.
62

Viet

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Viet

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Giải thích trạng thái phản thực cho việc củng cố

aOregon State University, OR, Hoa Kỳ

giải thích cả.

Địa chỉ email: olsomatt@eecs.oregonstate.edu (Matthew L. Olson)

"đi sang phải".

trạng thái để tạo ra các kết quả thay thế.

trong khi ẩn nấp bên dưới ba rào cản.

hướng quan tâm cho công việc trong tương lai.

đại lý thiếu sót?

2. Công việc liên quan

2.1. Trí tuệ nhân tạo có thể giải thích

dự đoán [Koh và Liang, 2017].

công việc của chúng ta.

2.2. Học tăng cường có thể giải thích

môi trường trò chơi để ra quyết định.

của kỹ thuật này so với kỹ thuật kia.

2.3. Học sâu sáng tạo

nền, nhưng có màu khác với nhãn ban đầu.

3.1. trạng thái phản thực tế

được xem như ánh xạ ( ( )).

bộ mã hóa [Makhzani et al., 2015] và bộ mã hóa tự động Wasserstein [Tolstikhin et al.,

3.2. Kiến trúc mạng sâu

3.2.1. Bộ mã hóa, bộ phân biệt và bộ tạo

bỏ qua ( ( )) và chỉ sử dụng ( ); hành vi này xảy ra do hàm mất mát

tương tự như cách tiếp cận của Lample et al. [2017].

để tối đa hóa entropy ( ( ( ))), trong đó ( ) = ( ). Do đó, các

tổn thất đối thủ có thể được viết là:

3.2.2. Bộ mã hóa tự động Wasserstein

cư xử tốt hơn để tạo ra phản thực đại diện.

phân phối các trạng thái đại lý nội bộ .

Chênh lệch trung bình (MMD):

nhân bậc hai được sử dụng [Tolstikhin và cộng sự, 2018].

3.2.3. Đào tạo

3.2.4. Mất chức năng Clipping

3.3. Tạo phản thực tế

chịu arg cực ( ( ), ) =

= arg min || ( ( ))||2 + log (1 2 ( ( ), )) (6)

trạng thái phản thực tế .

3.4. Thiết lập thử nghiệm

dự đoán giá trị, ( ).

3.4.1. Chi tiết mạng

mạng được gọi trong văn bản là ( ).

thế hệ phản thực.

3.4.2. Chi Tiết Đào Tạo

truy cập tại: https://github.com/mattolson93/counterfactual-state-explanations/

3.4.3. Tạo điểm nổi bật trạng thái phản thực tế

bảng màu của trò chơi.

4. Phương pháp luận: Nghiên cứu người dùng

xác định một tác nhân RL thiếu sót.

bộ mã hóa, bộ phân biệt và bộ mã hóa tự động Wasserstein đã bị xóa và trình tạo

thành phần từ kiến trúc của chúng tôi.

trong độ tuổi từ 18-30, 10% từ 30-50 và 10% còn lại từ

phương pháp thuyết minh.

4.2.1. Thiết kế thử nghiệm

kẻ thù từ các quan sát.

lời giải thích.

trạng thái truy vấn.

4.2.2. Điều kiện

lấy , dẫn đến tập dữ liệu D = {( 1, 1, 1), . . . , ( , ,

bởi heuristic của chúng tôi.

(bỏ qua hành động không hoạt động).

4.2.3. Người tham gia và thủ tục

nữ và 60% là nam giới. Nghiên cứu này bao gồm 6 phần: