You are on page 1of 62

Machine Translated by Google

Giải thích trạng thái phản thực cho việc củng cố


Đại lý học tập thông qua học sâu sáng tạo

Matthew L. Olsona, , Roli Khannaa , Lawrence Neala ,Phụ Tân Liêu, Weng-Keen Wonga

aOregon State University, OR, Hoa Kỳ

trừu tượng

Những lời giải thích phản thực tế, giải quyết vấn đề “tại sao không?” kịch bản, có thể cung cấp trong

những lời giải thích dễ hiểu cho hành vi của tác nhân AI [Miller, 2019]. Trong công việc này, chúng tôi tập trung

về việc tạo ra các giải thích phản thực tế cho các tác nhân học tăng cường sâu (RL)

hoạt động trong môi trường đầu vào trực quan như Atari. Chúng tôi giới thiệu trạng thái phản thực tế

giải thích, một cách tiếp cận dựa trên ví dụ mới để giải thích phản thực tế dựa trên

học sâu tổng hợp. Cụ thể, một trạng thái phản thực tế minh họa những gì tối thiểu

arXiv:2101.12446v1
[cs.AI]
2021
Th01
29
cần thay đổi hình ảnh trò chơi Atari để tác nhân chọn một hành động khác.

Chúng tôi cũng đánh giá hiệu quả của các trạng thái phản thực đối với những người tham gia là con người.

không phải là chuyên gia học máy. Nghiên cứu người dùng đầu tiên của chúng tôi điều tra xem con người có thể phân biệt

nếu các giải thích trạng thái phản thực được tạo ra bởi trò chơi thực tế hoặc được tạo ra bởi một

phương pháp học sâu tổng quát. Nghiên cứu người dùng thứ hai của chúng tôi điều tra nếu phản thực

giải thích trạng thái có thể giúp những người tham gia không phải là chuyên gia xác định một tác nhân thiếu sót; chúng tôi so sánh

chống lại cách tiếp cận cơ bản dựa trên giải thích hàng xóm gần nhất sử dụng hình ảnh

từ trò chơi thực tế. Kết quả của chúng tôi chỉ ra rằng những giải thích trạng thái phản thực có

đủ độ trung thực với hình ảnh trò chơi thực tế để cho phép những người không phải là chuyên gia chơi hiệu quả hơn

xác định một tác nhân RL thiếu sót so với đường cơ sở hàng xóm gần nhất và không có

giải thích cả.

Từ khóa: Học sâu, Học tăng cường, AI có thể giải thích, AI có thể diễn giải

Tác giả tương ứng tại: 1148 Kelley Engineering Center, Corvallis, OR 97331-5501, USA. Điện thoại: +1
541 737 3617.

Địa chỉ email: olsomatt@eecs.oregonstate.edu (Matthew L. Olson)

Bản in trước được gửi đến Tạp chí Trí tuệ nhân tạo ngày 1 tháng 2 năm 2021
Machine Translated by Google

Hình 1: Một ví dụ phản chứng trong trò chơi Space Invaders thể hiện khả năng của một đặc vụ

hành động thay đổi bằng cách loại bỏ kẻ thù. Trái: Trạng thái trò chơi trong đó một tác nhân thực hiện hành động

"di chuyển sang trái và bắn". Đúng: Trạng thái phản thực mà tác nhân sẽ thực hiện hành động

"đi sang phải".

1. Giới thiệu

Bất chấp những tiến bộ ấn tượng của các tác nhân học tăng cường sâu (RL),

quá trình ra quyết định của họ là thách thức đối với con người để hiểu. hạn chế này

là mối quan tâm nghiêm trọng đối với các cài đặt trong đó độ tin cậy và độ tin cậy là rất quan trọng và việc triển khai

Tác nhân RL trong các cài đặt này yêu cầu đảm bảo rằng họ đang đưa ra quyết định cho

lý do đúng đắn. Để giải quyết vấn đề này, các nhà nghiên cứu đang phát triển các kỹ thuật để cung cấp

câu trả lời dễ hiểu của con người cho các câu hỏi giải thích về việc ra quyết định của tác nhân.

Các câu hỏi giải thích có thể được phân thành ba loại [Miller, 2019, Pearl and

Mackenzie, 2018]: “Cái gì?” (Lập luận liên tưởng), “Làm thế nào?” (Lý do can thiệp

ing) và “Tại sao?” (Lý luận phản chứng). Trong ba loại, "Tại sao?" câu hỏi

là thách thức nhất vì nó đòi hỏi lập luận phản thực tế [Lewis, 1973, Wachter

et al., 2017], bao gồm suy luận về các kết quả thay thế chưa xảy ra;

ngược lại, lập luận phản thực đòi hỏi cả lập luận kết hợp và lập luận can thiệp

[Miller, 2019]. Trong công trình của mình, chúng tôi trình bày một phương pháp giải thích phản chứng để giải quyết

tại sao?" câu hỏi trong phân loại của Miller. Cụ thể hơn, chúng tôi trả lời câu hỏi "Tại sao

không?" câu hỏi bằng cách sử dụng một mô hình thế hệ sâu có thể thay đổi trực quan hiện tại

trạng thái để tạo ra các kết quả thay thế.

2
Machine Translated by Google

Nền tảng của tác nhân RL là khung toán học của Quy trình Quyết định Markov

(MDP) [Puterman, 1994], mô hình hóa một tác nhân đưa ra một chuỗi các quyết định khi nó

tương tác với một môi trường ngẫu nhiên. Trong ký hiệu để làm theo trong phần này và trong

phần còn lại của bản thảo, vectơ, ma trận và tập hợp được in đậm trong khi vô hướng là

không. Chính thức, MDP là một bộ ( , MỘT, , , ), trong đó là tập hợp các trạng thái, A là tập hợp

của các hành động, ( , , ) là một hàm chuyển đổi nắm bắt xác suất di chuyển từ

trạng thái đến khi hành động được thực hiện ở trạng thái , ( , ) là hàm phần thưởng trả về

phần thưởng cho việc ở trạng thái và thực hiện hành động và được gọi là hệ số chiết khấu

(trong đó 0 ≤ ≤ 1) đánh giá tầm quan trọng của phần thưởng trong tương lai.

Sử dụng khung MDP, chúng tôi giới thiệu khái niệm về trạng thái phản thực như là một

giải thích phản thực1 . Chính xác hơn, đối với một tác nhân ở trạng thái thực hiện hành động

theo chính sách đã học của nó, một trạng thái phản thực tế là một trạng thái bao gồm một

thay đổi tối thiểu sao cho chính sách của đại lý chọn hành động thay vì . Vì

ví dụ, một trạng thái phản thực tế có thể được nhìn thấy trong Hình 1 cho trò chơi điện tử Space Invaders

[Brockman và cộng sự, 2016]. Trong trò chơi này, một đặc vụ trao đổi hỏa lực với kẻ thù đang đến gần

trong khi ẩn nấp bên dưới ba rào cản.

Cách tiếp cận của chúng tôi dành cho các tác nhân RL sâu hoạt động trong môi trường đầu vào trực quan

những thứ như Atari. Vai trò chính của deep learning trong những môi trường này là học

một đại diện chiều thấp hơn của trạng thái nắm bắt các khía cạnh nổi bật cần thiết

để học một chính sách thành công. Cách tiếp cận của chúng tôi điều tra xem những thay đổi đối với trạng thái gây ra như thế nào

tác nhân chọn một hành động khác. Như vậy, chúng tôi không tập trung giải thích dài dòng

hiệu quả ra quyết định tuần tự của việc tuân theo một chính sách đã học, mặc dù đây là một

hướng quan tâm cho công việc trong tương lai.

Mục tiêu cuối cùng của chúng tôi là một công cụ để thử nghiệm chấp nhận cho người dùng cuối của tác nhân RL sâu. Chúng tôi

hình dung các trạng thái phản thực đang được sử dụng trong môi trường diễn lại trong đó con người

người dùng quan sát tác nhân khi nó thực thi chính sách đã học. Tại các khung hình chính trong quá trình phát lại,

người dùng có thể yêu cầu tác nhân tạo các trạng thái phản thực giúp người dùng xác định

nếu tác nhân đã nắm bắt được các khía cạnh liên quan của đầu vào trực quan để ra quyết định.

Cách tiếp cận của chúng tôi dựa trên một kiến trúc thế hệ sâu mới lạ để tạo ra phản thực

1Phiên bản đầu tiên của tác phẩm này xuất hiện trong Olson et al. [2019].

3
Machine Translated by Google

Những trạng thái. Công việc trước đây về phản thực tế trong môi trường đầu vào trực quan đã dựa vào khác

các kỹ thuật như hoán đổi một phần với hình ảnh phân tâm [Goyal et al., 2019] hoặc khu vực

điền vào [Chang et al., 2019] để tạo ra những lời giải thích phản thực tế. Ngược lại, của chúng tôi

cách tiếp cận linh hoạt hơn ở chỗ nó có thể tạo ra toàn bộ hình ảnh trạng thái phản thực trên

nhu cầu bằng cách di chuyển qua không gian tiềm ẩn của mạng sâu.

Chúng tôi điều tra các câu hỏi nghiên cứu sau đây trong công việc này:

1. RQ1: Các mô hình thế hệ sâu có thể tạo ra các trạng thái phản thực có độ chính xác cao không

xuất hiện như thể chúng được tạo bởi trò chơi Atari?

2. RQ2: Các trạng thái phản thực có thể giúp ích cho người dùng không phải là chuyên gia về ma

chine learning, hiểu đủ về quyết định của một đại lý để xác định một

đại lý thiếu sót?

3. RQ3: Các trạng thái phản thực có hiệu quả hơn để giúp người dùng hiểu

quá trình ra quyết định của một đại lý hơn là một kỹ thuật cơ sở hàng xóm gần nhất?

Do đó, đóng góp của chúng tôi là gấp đôi. Đầu tiên, chúng tôi giới thiệu một thế hệ sâu mới

cách tiếp cận để tạo ra các trạng thái phản thực để cung cấp thông tin chi tiết về quyết định của tác nhân RL

làm. Thứ hai, chúng tôi trình bày kết quả nghiên cứu người dùng điều tra những nghiên cứu này

câu hỏi. Kết quả của chúng tôi chỉ ra rằng những giải thích về trạng thái phản thực thực sự hữu ích.

Trong các nghiên cứu của chúng tôi, chúng có đủ độ trung thực để hỗ trợ những người không phải là chuyên gia xác định RL thiếu sót

đại lý.

2. Công việc liên quan

2.1. Trí tuệ nhân tạo có thể giải thích

Tài liệu về AI có thể giải thích được rất nhiều và chúng tôi chỉ tóm tắt ngắn gọn nhất

công việc liên quan trực tiếp. Phần lớn công việc trước đây về giải thích học máy đã tập trung vào

về việc giải thích các tính năng hoặc vùng của đầu vào trực quan là quan trọng đối với dự đoán

/ hoạt động. Một nhóm lớn các cách tiếp cận thuộc loại này thuộc các kỹ thuật bản đồ nổi bật,

sử dụng các thuộc tính của gradient để ước tính ảnh hưởng của pixel trên đầu ra (ví dụ:

[Simonyan và cộng sự, 2013, Springenberg và cộng sự, 2014, Zeiler và Fergus, 2014, Selvaraju

và cộng sự, 2017, Fong và Vedaldi, 2017, Shrikumar và cộng sự, 2017, Dabkowski và Gal, 2017,

4
Machine Translated by Google

Sundararajan và cộng sự, 2017, Zhang và cộng sự, 2018, Greydanus và cộng sự, 2018, Qi và cộng sự, 2019]).

Tuy nhiên, công việc gần đây đã phát hiện ra một số kỹ thuật bản đồ nổi bật có vấn đề. Vì

ví dụ, Adebayo et al. [2018] nhận thấy rằng một số kỹ thuật bản đồ độ mặn vẫn được tạo ra

kết quả giống nhau ngay cả khi các tham số mô hình hoặc nhãn dữ liệu được chọn ngẫu nhiên. TRONG

Ngoài ra, Atrey et al. [2020] đã sử dụng lý luận phản thực tế để đánh giá liệu bản đồ độ mặn

là những lời giải thích thực sự về hành vi của một đặc vụ RL. Phát hiện của họ chỉ ra một tiêu cực

kết quả - cụ thể là bản đồ độ mặn có thể dẫn đến suy luận không chính xác

bởi con người và không nên được sử dụng như một lời giải thích về hành vi của một đại lý. Khác

các kỹ thuật giải thích bao gồm trích xuất một mô hình dễ hiểu đơn giản hơn từ một

mô hình phức tạp [Craven và Shavlik, 1995], sử dụng các mô hình có thể giải thích cục bộ (ví dụ:

[Marco Tulio Ribeiro và Guestrin, 2018, Ribeiro và cộng sự, 2016]), tạo các ô từ

Các mô hình phụ gia tổng quát với các thuật ngữ tương tác theo cặp [Caruana et al., 2015]

và sử dụng các hàm ảnh hưởng để xác định trường hợp dữ liệu đào tạo nào ảnh hưởng nhiều nhất đến

dự đoán [Koh và Liang, 2017].

Tuy nhiên, các phương pháp này không xác định cụ thể các thay đổi trong dữ liệu hiện tại

trường hợp sẽ dẫn đến một kết quả (hoặc phân loại) khác. Những thay đổi này

là một phần quan trọng của lý luận phản thực tế cần thiết để trả lời câu hỏi "Tại sao?" hoặc tại sao

Không?" câu hỏi. Một trong những phương pháp đầu tiên để làm như vậy là giải thích tương phản

Phương pháp (CEM) [Dhurandhar và cộng sự, 2018], xác định các tính năng quan trọng hoặc khác biệt

các vấn đề có thể khiến một thể hiện dữ liệu được phân loại thành một lớp khác. Chúng tôi tìm thấy

siêu tham số khiến CEM khó điều chỉnh để tạo phản thực có độ chính xác cao

cho dữ liệu nhiều chiều như hình ảnh Atari. Như chúng tôi sẽ trình bày trong Phần 5.2.1, CEM

sản xuất phản thực cho các trò chơi Atari chứa đầy đồ tạo tác "tuyết". CEM

cũng đã được mở rộng để giải thích sự khác biệt giữa các chính sách trong học tăng cường

[van der Waa và cộng sự, 2018]. Cách tiếp cận này tập trung vào sự khác biệt giữa các quỹ đạo

trong các môi trường hơn là trên các yếu tố trực quan của một trạng thái, đó là trọng tâm của

công việc của chúng ta.

Hai cách tiếp cận khác gần đây tập trung vào việc tạo ra các phản thực cho hình ảnh.

Chang et al. [2019] đã giới thiệu thuật toán FIDO tạo ra phản thực

cho hình ảnh bằng cách xác định vùng nào, khi được điền vào với các giá trị được tạo bởi một

mô hình chung, hầu hết sẽ thay đổi lớp dự đoán của hình ảnh. trọng tâm của

5
Machine Translated by Google

thuật toán FIDO đang tạo ra các bản đồ nổi bật và họ đã sử dụng các bản đồ thế hệ hiện có

các mô hình cho việc lấp đầy. Ngược lại, chúng tôi phát triển một mô hình thế hệ mới để sản xuất

giải thích trạng thái phản chứng; mục tiêu của phương pháp của chúng tôi là tạo ra một phiên bản thực tế

của toàn bộ trạng thái phản thực (ví dụ: toàn bộ hình ảnh khung trò chơi Atari) ngoài ra

để tạo ra các điểm nổi bật khác biệt tương tự như bản đồ độ mặn. Hơn nữa,

Chang et al. [2019] đã không đánh giá những lời giải thích phản thực tế của họ đối với người dùng

trong khi kết quả nghiên cứu người dùng của chúng tôi là một trong những đóng góp quan trọng của chúng tôi.

Goyal et al. [2019] đã tạo ra các giải thích trực quan phản thực tế cho hình ảnh bằng cách

tìm số lượng hoán đổi vùng tối thiểu giữa hình ảnh gốc với lớp

và một hình ảnh phân tâm với lớp sao cho lớp sẽ thay đổi thành . Cái này

phương pháp bị vấn đề mà giải thích phản thực tế của họ có thể tạo ra

hình ảnh với các vùng hoán đổi trông kỳ lạ, ví dụ: do đặt sai vị trí giữa

hai hình ảnh. Nghiên cứu người dùng của họ cũng tập trung vào dạy máy, điều này khác

từ trọng tâm của chúng tôi là đánh giá các tác nhân để thử nghiệm chấp nhận.

2.2. Học tăng cường có thể giải thích

Công việc giải thích RL trước đây đã tập trung vào việc giải thích các khía cạnh khác nhau của

công thức RL. Kỹ thuật giải thích chính sách bao gồm giải thích chính sách từ

Quy trình quyết định Markov với các mẫu dựa trên logic [Khan và cộng sự, 2009], nêu rõ ab

các chuỗi được tạo thông qua nhúng t-SNE [Mnih và cộng sự, 2015, Zahavy và cộng sự, 2016],

vị từ con người có thể hiểu được [Hayes và Shah, 2017], cấp cao, miền cụ thể

ngôn ngữ lập trình [Verma et al., 2018] và các máy trạng thái hữu hạn cho các chính sách RNN

[Koul và cộng sự, 2019]. Juozapa viêm et al. [2019] giải thích các quyết định do đại lý RL đưa ra bằng cách

phân tách các chức năng phần thưởng thành các thành phần đơn giản hơn nhưng có ý nghĩa về mặt ngữ nghĩa.

Cuối cùng, Mott et al. [2019] đã sử dụng một cơ chế chú ý để xác định các phần có liên quan của

môi trường trò chơi để ra quyết định.

Một loại kỹ thuật khác để giải thích RL đã sử dụng phương pháp dạy máy để trợ giúp

người dùng cuối hiểu mục tiêu của đại lý. Hoàng và cộng sự. [2019] đã dạy người dùng cuối về một

chức năng phần thưởng của đại lý sử dụng các quỹ đạo ví dụ được chọn bởi suy luận gần đúng

thuật toán RL nghịch đảo. Lage et al. [2019] được điều tra bằng cả RL nghịch đảo và

học bắt chước để tạo ra các bản tóm tắt về chính sách của một đại lý; công việc của họ đã làm nổi bật

6
Machine Translated by Google

cần các kỹ thuật tóm tắt được cá nhân hóa khi người dùng cuối thay đổi theo sở thích của họ

của kỹ thuật này so với kỹ thuật kia.

Các phương pháp khác xem xét tóm tắt hành vi của tác nhân bằng cách trình bày khóa mo

các quỹ đạo được thực hiện bởi một tác nhân được đào tạo [Amir và Amir, 2018, Huang và cộng sự,

2018, Sequeira và Gervasio, 2020]. Những khoảnh khắc quan trọng này nhằm chứng minh

khả năng của một đại lý, điều này có thể cải thiện lòng tin của người dùng cuối. Những khoảnh khắc quan trọng có thể là

được chọn theo mức độ quan trọng [Amir và Amir, 2018], tức là sự khác biệt lớn nhất về giá trị q đối với

một trạng thái nhất định [Torrey và Taylor, 2013] hoặc theo các trạng thái tới hạn trong đó giá trị q của một

hành động rõ ràng vượt trội so với những hành động khác [Huang và cộng sự, 2018]. Sequeira và Gervasio [2020]

khám phá sự thú vị dựa trên bốn chiều của tần suất, sự không chắc chắn, trước

tính chính tả và tính mâu thuẫn. Đối với một bản tóm tắt, thay vì trình bày một khoảnh khắc duy nhất,

họ đã trình bày một chuỗi các trạng thái thay đổi theo một chiều cụ thể.

Tất cả các phương pháp này đều khác nhau về cơ bản, nhưng bổ sung cho bộ đếm của chúng tôi

cách tiếp cận thực tế của việc tạo ra các giải thích. Cụ thể hơn, công việc của chúng tôi có thể được sử dụng như

một kỹ thuật giải thích để chứng minh trình độ của một tác nhân sau khi tương tác chính

thời điểm đã được chọn, chẳng hạn như bằng một trong những cách tiếp cận đã nói ở trên.

2.3. Học sâu sáng tạo

Vì các phản thực tế của chúng tôi được tạo ra bởi một mô hình tổng quát sâu sắc, chúng tôi thảo luận ngắn gọn

công việc liên quan về học sâu tổng quát. Các phương pháp học sâu sáng tạo mô hình hóa

quá trình tạo dữ liệu, do đó cho phép các trường hợp dữ liệu chưa từng thấy

sản xuất. Các phương pháp tạo bao gồm các bộ mã hóa tự động [Ballard, 1987], mã hóa một

đầu vào vector đặc trưng vào một đại diện tiềm ẩn chiều thấp hơn, và sau đó giải mã đó

đại diện tiềm ẩn trở lại không gian đầu vào ban đầu. Sau khi bộ mã hóa tự động được đào tạo,

một phương pháp phổ biến để tạo ra các thể hiện mới là di chuyển trong không gian tiềm ẩn và

sau đó giải mã biểu diễn không gian tiềm ẩn kết quả. Tuy nhiên, những sửa đổi này trong

không gian tiềm ẩn thường dẫn đến kết quả đầu ra không thực tế [Bengio et al., 2013] do "lỗ hổng"

trong không gian tiềm ẩn đã học. Vấn đề này có thể được giải quyết bằng cách kết hợp thêm một

thuật ngữ hàm mất mát làm cho biểu diễn tiềm ẩn khớp với phân phối được xác định trước

[Kingma và Welling, 2013, Makhzani và cộng sự, 2015, Tolstikhin và cộng sự, 2018].

Một loại mô hình sâu tổng quát khác là các mạng đối nghịch, có

7
Machine Translated by Google

đã thu hút được sự chú ý ngày càng tăng do các ứng dụng mới của chúng trong việc mô hình hóa độ phân giải cao

dữ liệu, đặc biệt là tạo ra những khuôn mặt không tồn tại [Goodfellow và cộng sự, 2014]. đối thủ

mạng đã được sử dụng để loại bỏ thông tin dự đoán của nhãn lớp từ một tiềm ẩn

không gian. Ví dụ: Fader Networks [Lample et al., 2017] đã mã hóa hình ảnh một bông hoa

thành một đại diện tiềm ẩn chiều thấp hơn mà vẫn giữ nguyên hình dạng và nền của nó, nhưng

không chứa thông tin liên quan đến màu của nó (trong đó màu là nhãn lớp). Các

nhãn lớp sau đó có thể được kết hợp với biểu diễn tiềm ẩn để tái cấu trúc hoàn toàn

hình ảnh dữ liệu gốc, nhưng điều quan trọng là nhãn lớp không cần phải là bản gốc

một. Phương pháp này có thể tạo lại nhiều phiên bản khác nhau của cùng một đầu vào được giữ lại

một số thuộc tính, nhưng các đặc điểm liên quan đến nhãn đã thay đổi. Như vậy, trong này

ví dụ, chúng ta có thể sử dụng Fader Networks để tạo một hình ảnh bông hoa với một hình dạng cụ thể và

nền, nhưng có màu khác với nhãn ban đầu.

3. Phương pháp luận: Mô hình học sâu sáng tạo cho các trạng thái phản thực

3.1. trạng thái phản thực tế

Mục tiêu của công việc này là làm sáng tỏ việc ra quyết định của một

tác nhân RL sâu sắc thông qua các giải thích phản chứng. Chúng tôi đặc biệt quan tâm đến

đạt được một số hiểu biết sâu sắc về khía cạnh nào của trạng thái đầu vào trực quan cho biết lựa chọn

hoạt động . Đưa ra một trạng thái truy vấn , chúng tôi tạo ra một trạng thái phản thực mà tối thiểu

khác trong một số ý nghĩa từ ,nhưng dẫn đến tác nhân thực hiện hành động hơn là

hoạt động . Chúng tôi gọi là hành động phản thực tế.

Hình 2: Các thành phần của một tác nhân được đào tạo trước.

số 8
Machine Translated by Google

Cách tiếp cận của chúng tôi yêu cầu một tác nhân RL chuyên sâu đã được đào tạo do một bên bên ngoài cung cấp cho chúng tôi.

Bây giờ chúng ta mô tả tác nhân này, được minh họa trong Hình 2. Tác nhân này có một chính sách đã học

được đại diện bởi một mạng lưới thần kinh sâu. Chúng tôi chia mạng chính sách này thành hai phân vùng

quan tâm (Hình 2). Phân vùng đầu tiên của các lớp mạng, mà chúng tôi biểu thị là ,

lấy một trạng thái và ánh xạ nó thành một biểu diễn tiềm ẩn = ( ). Vectơ tương ứng

đến biểu diễn tiềm ẩn của lớp được kết nối đầy đủ thứ hai đến lớp cuối cùng trong mạng.

Phân vùng thứ hai của các lớp mạng, mà chúng tôi biểu thị là , lấy và chuyển đổi nó

thành một phân phối hành động ( ) tức là một vectơ xác suất cho mỗi hành động. Tiêu biểu,

bao gồm một lớp tuyến tính được kết nối đầy đủ theo sau là một softmax. Chúng tôi sử dụng ( , ) ĐẾN

đề cập đến xác suất của hành động trong phân phối hành động ( ). Chúng tôi nhấn mạnh

sự khác biệt trong cài đặt Atari của chúng tôi giữa một trạng thái , đó là một hình ảnh trò chơi Atari thô

(còn được gọi là khung trò chơi) và trạng thái tiềm ẩn thu được từ giây đến

lớp được kết nối đầy đủ cuối cùng của mạng chính sách. Lớp tiềm ẩn này, mà chúng tôi gọi là

quan trọng trong chẩn đoán của chúng tôi vì nó được tác nhân sử dụng để thông báo lựa chọn hành động của nó.

Mô hình thế hệ của chúng tôi được đào tạo bằng cách sử dụng tập dữ liệu đào tạo X = {( 1, 1), . . . , ( , )}

của các cặp trạng thái-hành động, trong đó các vectơ hành động là các phân phối hành động thu được

từ tác nhân được đào tạo khi nó thực thi chính sách đã học. Tóm lại, tác nhân2 có thể là

được xem như ánh xạ ( ( )).

Cách tiếp cận của chúng tôi đối với các giải thích phản thực tế là tạo ra các trạng thái phản thực tế bằng cách sử dụng

một mô hình tổng quát sâu, đã được chứng minh là tạo ra những hình ảnh chân thực [Radford

và cộng sự, 2015]. Chiến lược của chúng tôi là mã hóa trạng thái truy vấn thành một biểu diễn tiềm ẩn.

Sau đó, từ biểu diễn tiềm ẩn này, chúng ta di chuyển trong không gian tiềm ẩn theo một hướng

làm tăng xác suất thực hiện hành động phản thực tế . Tuy nhiên, như

đã được lưu ý trước đó bởi công việc trước đó, không gian tiềm ẩn của bộ mã hóa tự động tiêu chuẩn được lấp đầy bằng

“lỗ hổng” và trạng thái phản thực được tạo ra từ những lỗ hổng này sẽ trông không thực tế

[Bengio và cộng sự, 2013]. Để tạo ra một không gian tiềm ẩn dễ tạo hơn

kết quả đầu ra đại diện, chúng tôi tạo ra một kiến trúc mới liên quan đến một ô tô đối nghịch

bộ mã hóa [Makhzani et al., 2015] và bộ mã hóa tự động Wasserstein [Tolstikhin et al.,

2Tác nhân có thể có các thành phần khác như mạng chức năng giá trị. Công việc hiện tại của chúng tôi chỉ sử dụng

mạng chính sách, nhưng chúng tôi muốn áp dụng những ý tưởng tương tự cho mạng chức năng giá trị.

9
Machine Translated by Google

Hình 3: Tổng quan về kiến trúc của chúng tôi, bao gồm bộ mã hóa , máy phát điện ,

người phân biệt đối xử và tác nhân được đào tạo trước (màu xám).

2018]. Các phương pháp khác để điều hướng không gian tiềm ẩn là có thể, chẳng hạn như

phương pháp được trình bày bởi Jahanian et al. [2020] và Besserve et al. [2020], nhưng những

phương pháp tiếp cận không chỉ định bộ mã hóa, được yêu cầu trong khuôn khổ của chúng tôi để mã hóa

trạng thái truy vấn thành một đại diện tiềm ẩn.

3.2. Kiến trúc mạng sâu

Hình 3 mô tả kiến trúc mà chúng tôi sử dụng trong quá trình đào tạo. Tác nhân RL được tô bóng

màu xám để chỉ ra rằng nó đã được đào tạo. Đầu tiên, chúng tôi mô tả Bộ mã hóa ( ),

Người phân biệt đối xử ( ) và Trình tạo ( ), hoạt động cùng nhau để tạo ra phản thực

hình ảnh trạng thái khác nhau tùy thuộc vào phân phối hành động đầu vào. Thứ hai, chúng tôi mô tả

bộ mã hóa tự động Wasserstein ( , ), tạo ra một không gian tiềm ẩn mới dựa trên

không gian tiềm ẩn của tác nhân; không gian tiềm ẩn mới này cho phép nhiễu loạn trong không gian này

để tạo ra các trạng thái phản thực có ý nghĩa. Mỗi thành phần này đóng góp một

thuật ngữ tổn thất đối với chức năng tổn thất tổng thể được sử dụng để huấn luyện mạng.

3.2.1. Bộ mã hóa, bộ phân biệt và bộ tạo

Mất bộ mã hóa tự động. Bộ mã hóa và bộ tạo hoạt động như một cặp bộ mã hóa-giải mã.

là một mạng thần kinh tích chập sâu ánh xạ trạng thái đầu vào sang chiều thấp hơn

đại diện tiềm ẩn ( ). Chúng tôi lưu ý rằng Bộ mã hóa khác với bộ mã hóa

được sử dụng bởi mạng chính sách của tác nhân và do đó có một không gian tiềm ẩn khác. là một sâu

mạng lưới thần kinh thế hệ tích chập tạo ra một hình ảnh Atari với khả năng tiềm ẩn của nó

10
Machine Translated by Google

đại diện ( ) và một vectơ chính sách ( ) (trong đó = ( )). mã hóa tự động

Hàm mất mát của E và G là hàm lỗi bình phương trung bình (MSE):

1
= (1)
|| ( ( ), ( ( ))) ||2 2
|X|
( , ) X

Để tạo ra các trạng thái phản thực tế, chúng tôi muốn tạo một hình ảnh mới bằng cách thay đổi

phân phối hành động ( ( )) để phản ánh hành động phản thực mong muốn . Tuy nhiên, trong

thí nghiệm của chúng tôi, chúng tôi nhận thấy rằng chỉ có hàm mất mát tự nó sẽ gây ra

bỏ qua ( ( )) và chỉ sử dụng ( ); hành vi này xảy ra do hàm mất mát

khuyến khích xây dựng lại có thể đạt được chỉ với mã hóa ( ) và

không có ( ( )). Để tạo điều kiện cho Trình tạo dựa trên phân phối hành động,

chúng tôi thêm một thuật ngữ thua lỗ đối thủ bằng cách sử dụng một bộ phân biệt đối xử
.

Mất phân biệt đối xử. Để đảm bảo rằng ( ) không bị bỏ qua, chúng tôi yêu cầu bộ mã hóa tạo

một biểu diễn bất biến hành động ( ). Bằng bất biến hành động, chúng tôi muốn nói rằng biểu

diễn ( ) không còn nắm bắt được các khía cạnh của trạng thái cho biết lựa chọn của , cùng

hoạt động. Bằng cách đó, thêm ( ) làm đầu vào cho với ( ), sẽ cung cấp

thông tin cần thiết sẽ cho phép tạo lại các hiệu ứng của . Để tạo ra

một đại diện bất biến hành động, chúng tôi thực hiện đào tạo đối thủ trên không gian tiềm ẩn,

tương tự như cách tiếp cận của Lample et al. [2017].

Do đó, chúng tôi thêm một bộ phân biệt đối xử được đào tạo để dự đoán phân phối hành động đầy đủ

( ) được cho ( ). Biểu diễn tiềm ẩn bất biến hành động được học theo cách sao cho

không thể dự đoán đúng ( ) từ đại lý của chúng tôi. Như trong Mạng đối thủ sáng tạo

(GANs) [Goodfellow et al., 2014], cài đặt này tương ứng với trò chơi hai người chơi trong đó

nhằm mục đích tối đa hóa khả năng xác định phân phối hành động và nhằm mục đích

ngăn cản trở thành một người phân biệt đối xử tốt. Bộ phân biệt xấp xỉ

( ) với trạng thái được mã hóa ( ) và được huấn luyện với mất MSE như hình bên dưới:

1
= (2)
|| ( ( )) ( ( ))||2 2
|X|
( , ) X

Thất bại đối thủ. Mục tiêu của bộ mã hóa bây giờ là tìm hiểu một biểu diễn tiềm ẩn

tối ưu hóa hai mục tiêu. Mục tiêu đầu tiên khiến máy phát tái tạo lại

11
Machine Translated by Google

trạng thái đã cho ( ) và ( ( )), nhưng mục tiêu thứ hai gây ra sự phân biệt đối xử

không thể dự đoán ( ( )) đã cho ( ). Để thực hiện hành vi này trong , chúng tôi muốn

để tối đa hóa entropy ( ( ( ))), trong đó ( ) = ( ). Do đó, các

tổn thất đối thủ có thể được viết là:

=
– ( ( ( ))) (3)
|X|
( , ) X

Siêu tham số > 0 đánh giá tầm quan trọng của tổn thất đối thủ này trong

hàm tổn thất tổng thể. Lớn hơn khuếch đại tầm quan trọng của entropy cao ( ), mà

lần lượt làm giảm lượng thông tin liên quan đến hành động trong ( ) và nếu được đẩy đến

cực đoan, dẫn đến trình tạo tạo ra các khung trò chơi không thực tế. Mặt khác

tay, các giá trị nhỏ của Lower phụ thuộc vào đầu vào ( ), dẫn đến những thay đổi nhỏ

đến trạng thái trò chơi khi ( ) được sửa đổi. Để phân tích tác động của sự khác nhau, nhìn thấy

Phụ lục A.

3.2.2. Bộ mã hóa tự động Wasserstein

Các trạng thái phản thực đòi hỏi một khái niệm về sự gần gũi giữa trạng thái truy vấn

và trạng thái phản thực . Khái niệm về sự gần gũi này có thể được đo bằng các thuật ngữ

khoảng cách trong không gian tiềm ẩn của tác nhân. Chúng tôi muốn tạo ra một trạng thái phản thực trong

không gian tiềm ẩn vì nó ảnh hưởng trực tiếp đến phân phối hành động . Chúng tôi thực hiện

giảm độ dốc trong không gian tính năng này đối với hành động mục tiêu của chúng tôi để tạo ra một

mới có khả năng xảy ra hành động phản thực tế tăng lên . Tuy nhiên, như

đã đề cập trước đó, di chuyển trong biểu diễn tiềm ẩn của bộ mã hóa tự động tiêu chuẩn

có thể dẫn đến những phản chứng không thực tế [Bengio và cộng sự, 2013]. Để tránh vấn đề này,

chúng tôi đại diện lại đến một đa tạp chiều thấp hơn đó là nhỏ gọn hơn và

cư xử tốt hơn để tạo ra phản thực đại diện.

Chúng tôi sử dụng bộ mã hóa tự động Wasserstein (WAE) để tìm hiểu chức năng ánh xạ từ

không gian tiềm ẩn ban đầu của tác nhân thành một đa tạp hoạt động tốt [Tolstikhin và cộng sự, 2018]. Qua

sử dụng khái niệm vận chuyển tối ưu, WAE đã chỉ ra rằng họ có thể học không chỉ

nhúng chiều thấp, nhưng cũng là một trong đó các điểm dữ liệu giữ lại khái niệm về

sự gần gũi trong không gian tính năng ban đầu của chúng, nơi các điểm dữ liệu có khả năng ở gần nhau.

12
Machine Translated by Google

Hình 4: Bộ mã hóa tự động Wasserstein (được hiển thị dưới dạng cặp Và ) xấp xỉ

phân phối các trạng thái đại lý nội bộ .

Bản chất duy trì sự gần gũi của WAE đóng một vai trò quan trọng khi tạo

một vectơ phân phối hành động ( ). Trong bối cảnh phản thực của chúng tôi, chúng tôi muốn điều tra

tác dụng của việc thực hiện hành động . Tuy nhiên, chúng ta không thể đơn giản chuyển đổi thành một hành động

vectơ phân phối và gán xác suất 1 cho thành phần tương ứng trong

vector vì cách tiếp cận này có thể dẫn đến hình ảnh không có tính đại diện và độ trung thực thấp. Thay vì,

chúng tôi theo một gradient trong không gian, tạo ra các vectơ phân phối hành động

đại diện hơn cho những sản phẩm do tác nhân RL sản xuất. Quá trình này, đến lượt nó,

cho phép Trình tạo tạo ra hình ảnh chân thực hơn.

Chúng tôi đào tạo một WAE, với bộ mã hóa và bộ giải mã , trên các trường hợp dữ liệu được đại diện

trong không gian tiềm ẩn của tác nhân (xem Hình 4). Chúng tôi sử dụng tổn thất MSE được điều chỉnh theo Tối đa

Chênh lệch trung bình (MMD):

1
= ( ( ( ))) ( ) + ( , ) (4)
2 2
| |

Ở đâu

( , ( ) (5)
) = ( , ·) ( ) ( , ·)
h

Ở đây H là một không gian Hilbert hạt nhân sao chép, và trong nghiên cứu của chúng tôi, một đa nghịch đảo

nhân bậc hai được sử dụng [Tolstikhin và cộng sự, 2018].

13
Machine Translated by Google

3.2.3. Đào tạo

Chúng tôi để một đặc vụ được đào tạo trước chơi trò chơi với sự khám phá - tham lam và huấn luyện với

tập dữ liệu kết quả X = {( 1, 1), . . . , ( , )). Chúng tôi đào tạo với chức năng mất tổng thể

bằng = + + + . Chức năng mất mát được giảm thiểu ở mỗi trò chơi

bước thời gian với việc giảm độ dốc ngẫu nhiên bằng trình tối ưu hóa ADAM [Kingma và Ba,

2014].

3.2.4. Mất chức năng Clipping

Các mô hình phát sinh đã được chứng minh là gặp khó khăn lớn trong việc giữ lại các

đối tượng [Alvernaz và Togelius, 2017]. Chúng tôi theo dõi [Kaiser et al., 2020] bằng cách sử dụng lỗ

clipping, được định nghĩa là max( , ) cho một hằng số . Clip này chỉ

được áp dụng cho bộ mã hóa tự động của chúng tôi và điều quan trọng là có nhiều độ dốc nhỏ cho mỗi

dự đoán pixel nền lớn hơn chi phí dự đoán sai kích thước nhỏ khó mã hóa

các đối tượng. Trong cài đặt của chúng tôi, chúng tôi thấy rằng việc cắt giảm tổn thất này đảm bảo duy trì

nhưng các đối tượng chính trong quá trình tự động mã hóa và tạo các đối tượng này khi tạo

trạng thái phản thực tế, chẳng hạn như những viên đạn trong trò chơi Atari Space Invaders.

3.3. Tạo phản thực tế

Mục tiêu của chúng tôi là tạo ra những hình ảnh phản thực gần giống với trạng thái thực của

môi trường trò chơi, nhưng dẫn đến tác nhân thực hiện hành động thay vì hành động . theo thứ tự

để xác định các yếu tố cần thiết của trạng thái cần thay đổi, chúng tôi yêu cầu

rằng trạng thái phản thực được tạo được thay đổi tối thiểu so với truy vấn ban đầu

tình trạng
. Tương tự với Neal et al. [2018], chúng tôi xây dựng quy trình này dưới dạng tối ưu hóa:

giảm thiểu || ( 2 ( )) ||
2

chịu arg cực ( ( ), ) =


đại A

ở đâu là trạng thái truy vấn đã cho, A là tập hợp các hành động và là một điểm tiềm ẩn

đại diện cho một trạng thái bên trong có thể có của tác tử. Tối ưu hóa này có thể được thư giãn như

14
Machine Translated by Google

sau:

= arg min || ( ( ))||2 + log (1 2 ( ( ), )) (6)

Ở đâu ( , ) là xác suất của tác nhân thực hiện một hành động rời rạc trên

biểu diễn trạng thái phản thực. Bằng cách giảm thiểu thuật ngữ thứ hai, chúng tôi nhằm mục đích

tăng xác suất thực hiện hành động và giảm xác suất thực hiện tất cả các hành động khác

hành động.

Để tạo trạng thái phản thực, chúng tôi chọn một trạng thái từ tập huấn luyện, sau đó mã hóa

trạng thái đến điểm tiềm ẩn Wasserstein = ( ( )). Sau đó chúng tôi giảm thiểu phương trình

6 thông qua giảm độ dốc đối với để tìm , sau đó giải mã điểm tiềm ẩn

để tạo một ( ) mới được chuyển đến trình tạo, cùng với ( ) để tạo

trạng thái phản thực tế .

3.4. Thiết lập thử nghiệm

Tác nhân được đào tạo trước là một mạng chuyển tiếp nguồn cấp tích chập sâu được đào tạo với

Lợi thế không đồng bộ Diễn viên-Nhà phê bình (A3C) [Mnih et al., 2015] để tối đa hóa điểm số trong

một trò chơi Atari. Các trò chơi được chơi với số lần bỏ qua khung hình cố định là 8 (7 đối với Space Invaders).

Mạng lấy bộ 4 khung hình đơn sắc ghép nối làm đầu vào và là

được đào tạo để tối đa hóa điểm trò chơi bằng thuật toán A3C. Chúng tôi phân hủy tác nhân

thành hai chức năng: ( ) lấy 4 khung hình video được nối đầu vào và tạo ra

một vectơ 256 chiều , và ( ) đưa ra phân phối giữa các hành động. Các

các khung được lấy mẫu xuống và cắt thành 80x80, với các giá trị chuẩn hóa [0,1]. Cái này

đầu vào được xử lý bởi 4 lớp tích chập (mỗi lớp có 32 bộ lọc, kích thước hạt nhân là 3,

các bước tiến là 2 và phần đệm là 1), tiếp theo là lớp được kết nối đầy đủ, có kích thước 256 và một

kích thước lớp được kết nối đầy đủ cuối cùng |A| + 1, trong đó |A| là kích thước không gian hành động. chúng tôi áp dụng một

kích hoạt softmax thành |A| đầu tiên tế bào thần kinh để có được ( ) = và sử dụng tế bào thần kinh cuối cùng để

dự đoán giá trị, ( ).

Thuật toán A3C RL được huấn luyện với tốc độ học = 10 4 , giảm giá

hệ số = 0,99 và tổn thất được tính toán đối với chính sách sử dụng Lợi thế tổng quát

Ước lượng với = 1,0. Chúng tôi thấy rằng sự hội tụ khó khăn hơn với một lượng lớn như vậy

bỏ qua khung hình, do đó, mỗi chính sách được đào tạo không đồng bộ cho tổng số 50 triệu khung hình.

15
Machine Translated by Google

Trong quá trình đào tạo, chúng tôi không thu nhỏ hoặc thang độ xám của trạng thái trò chơi. chúng tôi vượt qua trong

bước thời gian trò chơi hiện tại dưới dạng 3 kênh, hình ảnh RGB. Để tạo tập dữ liệu X, chúng tôi đặt

giá trị thăm dò thành 0,2 và yêu cầu tác nhân chơi trong 25 triệu bước môi trường.

3.4.1. Chi tiết mạng

Bộ mã hóa bao gồm 6 lớp chập theo sau là 2 lớp được kết nối đầy đủ

các lớp có kích hoạt LeakyReLU và chuẩn hóa hàng loạt. Đầu ra ( ) là một

véc tơ 16 chiều. Đối với hầu hết các đại lý của chúng tôi, chúng tôi nhận thấy giá trị = 50 thực thi một

sự đánh đổi tốt giữa tái thiết nhà nước và sự phụ thuộc vào ( ). Đầu ra của

mạng được gọi trong văn bản là ( ).

Trình tạo bao gồm một lớp được kết nối đầy đủ theo sau là 6 lớp được chuyển đổi

các lớp tích chập, tất cả đều có kích hoạt LeakyReLU và chuẩn hóa hàng loạt. Các

trạng thái được mã hóa ( ) và phân phối hành động ( ) được đưa đến lớp đầu tiên của trình

tạo. Ngoài ra, theo khuyến nghị của Lample et al. [2017], ( )

được thêm vào như một kênh đầu vào bổ sung cho mỗi lớp tiếp theo, điều này đảm bảo

học cách phụ thuộc vào các giá trị của ( ) để tạo ảnh khi ( ) được sửa đổi trong quá trình

thế hệ phản thực.

Bộ phân biệt bao gồm hai lớp được kết nối đầy đủ, theo sau là một softmax

chức năng và đưa ra phân phối giữa các hành động có cùng chiều như

( ).

Bộ mã hóa Wasserstein bao gồm 3 lớp được kết nối đầy đủ ánh xạ tới một

véc tơ 128 chiều , bình thường hóa sao cho 2 = 1. Mỗi lớp đều giống nhau

chiều là 256, ngoại trừ đầu ra của lớp thứ 3 là 128. Ngoài ra,

hai lớp đầu tiên được theo sau bởi chuẩn hóa hàng loạt và ReLU bị rò rỉ với rò rỉ

của 0,2. Bộ giải mã Wasserstein tương ứng đối xứng với , với lô

chuẩn hóa và ReLU bị rò rỉ sau hai lớp đầu tiên và ánh xạ trở lại .

3.4.2. Chi Tiết Đào Tạo

Bộ mã hóa, trình tạo và bộ phân biệt đều được đào tạo thông qua độ dốc ngẫu nhiên
4
giảm dần bằng trình tối ưu hóa Adam, với tham số = 1 , 1 = 0, 2 = 0,9. Này

các mạng thường được đào tạo cho 25 triệu trạng thái trò chơi để đạt được độ trung thực cao

16
Machine Translated by Google

tái tạo, nhưng chúng tôi nhận thấy thậm chí một phần mười trạng thái trò chơi là đủ để sản xuất

trạng thái phản thực có ý nghĩa. Chúng tôi đặt hằng số cắt tổn thất tối đa = 0,0001,

có nghĩa là nếu pixel được tạo lại (0-255) nằm trong 2 giá trị, độ dốc của nó sẽ bị bỏ qua.

Khi đào tạo tác nhân, chúng tôi sử dụng bước thời gian hiện tại và 3 bước thời gian trước đó

nối để đại diện cho trạng thái. Đối với mô hình thế hệ của chúng tôi, chúng tôi chỉ sử dụng hiện tại

tình trạng.

Bộ mã hóa tự động Wasserstein đã được đào tạo với các trình tối ưu hóa Adam có cùng tốc độ học

= 10 4 và với các tham số mặc định. Đào tạo đã được thực hiện cho

15 triệu khung hình, dựa vào đó chúng tôi nhận thấy việc chọn các hành động từ ( ( ( ( ))))

liên tục đạt được số điểm trò chơi trung bình giống như tác nhân ban đầu.

Tất cả các mô hình đều được xây dựng và đào tạo bằng PyTorch [Paszke và cộng sự, 2019]. Vì

thêm thông tin về kiến trúc và các thông số đào tạo của chúng tôi, mã của chúng tôi có thể

truy cập tại: https://github.com/mattolson93/counterfactual-state-explanations/

3.4.3. Tạo điểm nổi bật trạng thái phản thực tế

Trạng thái phản thực tế thường chứa đựng những thay đổi nhỏ khó nhận thấy nếu không

kiểm tra cẩn thận, vì vậy chúng tôi bắt chước quy trình tạo bản đồ độ mặn trong Greydanus et al.

[2018] để làm nổi bật sự khác biệt giữa trạng thái ban đầu và trạng thái phản thực. Chúng tôi

lấy sự khác biệt tuyệt đối giữa trạng thái ban đầu và trạng thái phản thực để

tạo mặt nạ phản thực =|| ||1. Để rõ ràng hơn về những thay đổi, chúng tôi

áp dụng hiệu ứng làm mờ Gaussian trên mặt nạ. Cuối cùng, chúng tôi đặt mặt nạ mờ thành một màu duy nhất

kênh và kết hợp mặt nạ màu này với trạng thái ban đầu để có được những điểm nổi bật. TRONG

thử nghiệm của chúng tôi, các điểm nổi bật có màu khác nhau cho các trò chơi khác nhau (ví dụ: màu xanh lam cho

Space Invaders và màu đỏ cho Qbert) vì chúng tôi muốn các màu tương phản hoàn toàn với

bảng màu của trò chơi.

4. Phương pháp luận: Nghiên cứu người dùng

Nhìn chung, đánh giá các giải thích là một vấn đề đầy thách thức và phản thực tế.

giải thích là đặc biệt khó khăn. Một lời giải thích phản thực tốt giúp con người

hiểu tại sao một tác nhân thực hiện một hành động cụ thể. Tiêu chí dựa trên con người này

không thể nắm bắt được bằng các chỉ số định lượng. Ví dụ, sử dụng xác suất

17
Machine Translated by Google

( , ) như một thước đo định lượng cho trạng thái phản thực tế là sai lệch bởi vì

xác suất này có thể cao đối với một số hình ảnh Atari mà con người có thể ngay lập tức nhận được

ognize không phải do chính trò chơi tạo ra và cũng cao đối với các ví dụ đối nghịch với

những thay đổi không thể nhận thấy đối với trạng thái ban đầu .

Vì việc đánh giá các thông tin phản thực cần có sự kiểm tra của con người nên chúng tôi đã thiết kế hai người dùng

học. Trong nghiên cứu người dùng đầu tiên, chúng tôi đã đánh giá mức độ trung thực của các trạng thái phản thực của chúng tôi đối với

trò chơi. Theo độ trung thực, chúng tôi đề cập đến việc hình ảnh phản thực dường như được tạo ra tốt như thế nào

bởi chính trò chơi chứ không phải bởi một mô hình deep learning tổng quát. trong lần thứ hai

nghiên cứu người dùng, chúng tôi đã điều tra xem trạng thái phản thực của chúng tôi có thể giúp con người hiểu

đủ khả năng ra quyết định của một đại lý để họ có thể thực hiện một nhiệm vụ xuôi dòng là

xác định một tác nhân RL thiếu sót.

4.1. Nghiên cứu dành cho người dùng 1: Tính trung thực của các trạng thái phản thực (RQ1)

Để đánh giá độ trung thực của các trạng thái phản thực của chúng tôi, chúng tôi cần tạo

phương pháp cơ sở để so sánh. Đầu tiên, chúng tôi đã thử nghiệm sử dụng tiêu cực thích hợp

từ Phương pháp giải thích tương phản (CEM) [Dhurandhar et al., 2018] như

phản thực tế. Những tiêu cực thích hợp này làm nổi bật các tính năng vắng mặt sẽ gây ra

tác nhân để chọn một hành động thay thế. Chúng tôi đã tạo ra những âm bản thích hợp từ Atari

các trạng thái có pixel dưới dạng các tính năng và diễn giải chúng dưới dạng các trạng thái phản thực tế. chúng tôi mỗi

đã hình thành một tìm kiếm mở rộng trên các siêu tham số để tạo ra các trạng thái có độ chính xác cao, nhưng

nhận thấy CEM rất khó điều chỉnh do tính chất nhiều chiều của hình ảnh Atari.

Các trạng thái phản thực được tạo giống hệt với trạng thái truy vấn ban đầu hoặc

chúng có các đồ tạo tác “tuyết” rõ ràng như trong Hình 5, khiến chúng có chất lượng quá thấp

để làm cơ sở hợp lý cho nghiên cứu người dùng của chúng tôi.

Sau đó, chúng tôi đã tạo ra một phương pháp cơ sở bao gồm các hình ảnh phản thực từ một

phiên bản cắt bỏ của mô hình thế hệ của chúng tôi. Trong phiên bản cắt bỏ của mạng,

bộ mã hóa, bộ phân biệt và bộ mã hóa tự động Wasserstein đã bị xóa và trình tạo

đã được đào tạo với mất MSE để tái tạo được đưa ra làm đầu vào. hình ảnh phản thực

được tạo bằng cách thực hiện giảm độ dốc đối với để tối đa hóa ( , )

cho một hành động phản thực tế . Chúng tôi thấy rằng các trạng thái phản thực tế được tạo ra theo cách này

không phải lúc nào cũng xây dựng một trạng thái trò chơi hoàn toàn thuyết phục như trong Hình 6, nhưng

18
Machine Translated by Google

Hình 5: Các trạng thái phản thực được tạo ra bằng Phương pháp giải thích tương phản với ba

sự lựa chọn của các tham số trên các trạng thái khác nhau. Hình ảnh có màu đen trắng vì bản gốc

Mã nguồn CEM hoạt động dựa trên đầu vào trực tiếp tới tác nhân– là những hình ảnh màu xám, được thu nhỏ lại.

Hình 6: Ba ví dụ về các trạng thái phản thực tế được tạo ra bằng mô hình cắt bỏ.

có đủ chất lượng để sử dụng làm cơ sở trong nghiên cứu người dùng của chúng tôi. Phụ lục B chi tiết

các thí nghiệm cắt bỏ khác, cho thấy những tác động tiêu cực của việc loại bỏ bất kỳ

thành phần từ kiến trúc của chúng tôi.

Cuối cùng, chúng tôi cũng bao gồm các hình ảnh từ chính trò chơi. Tóm lại, những hình ảnh trong

nghiên cứu người dùng đầu tiên của chúng tôi được tạo bởi ba nguồn khác nhau: 10 từ trò chơi thực tế,

10 từ phương pháp giải thích trạng thái phản thực của chúng tôi và 10 từ mạng bị loại bỏ của chúng tôi.

Những hình ảnh này được sắp xếp ngẫu nhiên cho mỗi người dùng.

Chúng tôi đã đánh giá các giải thích trạng thái phản thực của mình thông qua nghiên cứu người dùng trong phòng thí nghiệm của chúng tôi

với 30 người tham gia (20 nam, 10 nữ) không phải là chuyên gia về học máy;

những người tham gia bao gồm sinh viên đại học và các thành viên của cộng đồng địa phương. xấp xỉ

gần như một nửa là sinh viên đại học và những người khác đến từ cộng đồng. 80% là

trong độ tuổi từ 18-30, 10% từ 30-50 và 10% còn lại từ

19
Machine Translated by Google

50-60. Chúng tôi chọn tập trung nghiên cứu vào Space Invaders vì nó dễ

tìm hiểu cho một người tham gia không quen thuộc với trò chơi điện tử. Để người tham gia làm quen với

Space Invaders, chúng tôi bắt đầu nghiên cứu bằng cách cho những người tham gia chơi trò chơi này trong 5 phút.

Sau đó, những người tham gia đánh giá độ trung thực của 30 hình ảnh trò chơi được sắp xếp ngẫu nhiên trên Likert

thang điểm từ 1 đến 6: (1) Giả hoàn toàn, (2) Hầu hết các bộ phận là giả, (3) Giả hơn một nửa,

(4) Hơn một nửa là thực, (5) Hầu hết là thực và (6) Hoàn toàn là thực.

4.2. Nghiên cứu người dùng 2: Sử dụng thông tin phản thực để phát hiện tác nhân có sai sót (RQs 2 và 3)

Nghiên cứu người dùng thứ hai của chúng tôi nhằm đánh giá hiệu quả của bộ đếm của chúng tôi

giải thích trạng thái thực tế. Trọng tâm của chúng tôi là cài đặt thế giới thực trong đó người dùng, người

không phải là một chuyên gia máy học, cần thiết để đánh giá một tác nhân RL sắp

triển khai. Chúng tôi đã thiết kế một nhiệm vụ khách quan dựa trên sự hiểu biết của người dùng về

quá trình ra quyết định của tác nhân từ những lời giải thích phản thực tế. Nhiệm vụ

yêu cầu những người tham gia xác định tác nhân nào trong số hai tác nhân RL bị lỗi dựa trên số lượng

giải thích thực tế được cung cấp. Như trong nghiên cứu người dùng đầu tiên, chúng tôi đã chọn Space Invaders

vì nó học nhanh và chiến lược tối ưu không rõ ràng ngay lập tức. Từ

chúng tôi đã tuyển dụng những người không phải là chuyên gia về AI hoặc học máy, từ đó chúng tôi gọi là RL

tác nhân như một tác nhân AI trong nghiên cứu người dùng của chúng tôi để đơn giản hóa.

Hiệu quả của lời giải thích phản thực được đo bằng (2x2)x2 hỗn hợp

thiết kế các đối tượng giai thừa vì chúng ta có cả so sánh bên trong các đối tượng và giữa

so sánh đối tượng Việc so sánh bên trong chủ thể liên quan đến hai độc lập

các biến của loại tác nhân RL (thiếu sót so với bình thường) và sự hiện diện của lời giải thích (với

và không có lời giải thích). Vì vậy, tất cả những người tham gia đã được hiển thị các hành vi của

thiếu sót và các tác nhân bình thường cả khi có và không có lời giải thích phản thực tế. Các

so sánh giữa các chủ thể liên quan đến việc so sánh các phương pháp giải thích phản thực tế;

một nhóm người tham gia được xem một phương pháp giải thích phản thực cơ bản

dựa trên những người hàng xóm gần nhất và nhóm khác đã được hiển thị trạng thái phản thực của chúng tôi

phương pháp thuyết minh.

20
Machine Translated by Google

4.2.1. Thiết kế thử nghiệm

Những người tham gia được giao nhiệm vụ xác định tác nhân nào trong hai tác nhân

đã bị thiếu sót. Chúng tôi đã thiết kế hai đặc vụ của mình sao cho điểm trung bình của họ trong trò chơi là

gần như bằng nhau và điểm số không thể được sử dụng để xác định tác nhân nào có sai sót.

Ngoài ra, con người không thể xác định tác nhân thiếu sót bằng cách chỉ xem các tác nhân

chơi game. Do đó, những lời giải thích phản thực tế là nguồn chính của

cái nhìn sâu sắc về việc ra quyết định của đại lý cho những người tham gia.

Một cách tiếp cận khác để đánh giá hiệu quả của giải thích phản thực

các nhiệm vụ là yêu cầu những người tham gia dự đoán hành động của một tác nhân trong một trạng thái mới. Trong khi hành động

dự đoán có thể khả thi trong một số môi trường (ví dụ: Madumal et al. [2020]), nó có thể

cũng là thử thách trong các môi trường khác như trò chơi Atari và chiến lược thời gian thực

Trò chơi. Anderson và cộng sự. [2020] cho thấy rằng sử dụng lời giải thích để dự đoán các hành động trong tương lai

khó, đôi khi còn tệ hơn cả đoán ngẫu nhiên, bởi vì các tác nhân AI có thể

thành công trong những trò chơi này theo những cách không trực quan đối với con người.

Tác nhân "bình thường" của chúng tôi là tác nhân được mô tả trong phần 3.4. Đối với các đại lý thiếu sót, chúng tôi

đã cố gắng thiết kế các đặc vụ không hoàn hảo không thấy được các phần khác nhau của trò chơi, nhưng nhiều

những khả năng này rất dễ phát hiện bởi con người. Kết quả chặn một nửa màn hình

trong đại lý chỉ chơi ở một nửa có thể nhìn thấy. Loại bỏ các rào cản không có tác dụng vì

đặc vụ cuối cùng đã biết được vị trí của họ trong quá trình đào tạo. Loại bỏ những viên đạn gây ra

một sự thay đổi hành vi đáng chú ý khi tác nhân ẩn dưới các rào cản đối với phần lớn

trò chơi. Cuối cùng, chúng tôi không thể đào tạo một đại lý hoạt động tốt bằng cách loại bỏ

kẻ thù từ các quan sát.

Cuối cùng, chúng tôi đã giải quyết được một đặc vụ Space Invaders thiếu sót bằng cách che giấu khu vực của

màn hình chứa con tàu màu xanh lá cây, khiến đặc vụ không biết về con tàu của chính mình

chức vụ. Lỗ hổng này rất tinh vi và khó phát hiện nếu không có sự trợ giúp của phương pháp phản chứng.

lời giải thích.

Đặc vụ thiếu sót này khó đào tạo hơn một đặc vụ bình thường chơi Space Invaders

và do đó cần 160 triệu bước trò chơi để đạt được hiệu suất đủ tốt. TRONG

Ngoài ra, đối với tác nhân thiếu sót của chúng tôi, chúng tôi đặt siêu tham số tổn thất đối nghịch = 100 thành

làm cho các trạng thái phản thực tế được tạo ra có những thay đổi rõ ràng về mặt thị giác so với trạng thái ban đầu

21
Machine Translated by Google

trạng thái truy vấn.

4.2.2. Điều kiện

Nghiên cứu này liên quan đến hai điều kiện tương ứng với các giải thích phản chứng khác nhau.

phương pháp dân tộc. Điều kiện đầu tiên sử dụng một đường cơ sở đơn giản dựa trên một giá trị gần nhất đơn giản

cách tiếp cận hàng xóm. Điều kiện thứ hai liên quan đến việc giải thích trạng thái phản thực của chúng ta

tions.

Giải thích phản chứng hàng xóm gần nhất (NNCE). Đối với cách tiếp cận này, các

nhân viên đã chơi trò chơi trong = 25 triệu bước thời gian với -tham lam khám phá để

tạo bộ dữ liệu theo dõi trò chơi D, mà chúng tôi đã sử dụng để lựa chọn hàng xóm gần nhất. Vì

mỗi bước chúng tôi lưu trữ trong D, trạng thái , biểu diễn = ( ) và hành động )). Để tạo ra một

lấy , dẫn đến tập dữ liệu D = {( 1, 1, 1), . . . , ( , ,

phản thực tế từ tập dữ liệu này, tác nhân đã chơi một trò chơi mới và trên truy vấn mong muốn

trạng thái chúng tôi tìm thấy điểm tiềm ẩn gần nhất D đến điểm hiện tại = ( ) trong đó

đại lý đã thực hiện hành động mong muốn của ; chúng tôi đã sử dụng 2 khoảng cách để xác định mức độ gần. Sau đó chúng tôi

hiển thị trạng thái liên quan từ bộ ba ( , , ) là phản thực gần nhất

trạng thái nơi đại lý thực hiện một hành động khác . Lưu ý rằng những hình ảnh từ gần nhất

cách tiếp cận hàng xóm luôn trung thành với trò chơi vì chúng là khung trò chơi thực tế

từ trò chơi Atari. Tuy nhiên, ngay cả với bộ dữ liệu theo dõi trò chơi rất lớn có kích thước 25

triệu, cách tiếp cận hàng xóm gần nhất không phải lúc nào cũng lấy được trạng thái trò chơi

"đóng" trạng thái truy vấn. Ngược lại, những giải thích về trạng thái phản thực tế của chúng tôi luôn luôn

gần với trạng thái truy vấn theo thiết kế, nhưng chúng có thể không phải lúc nào cũng hoàn toàn trung thực với

trò chơi.

Chọn trạng thái truy vấn phản thực tế và hành động phản thực tế. cụ thể

hình ảnh, đóng vai trò là trạng thái truy vấn để trình bày cho người tham gia về trạng thái phản thực của chúng tôi

giải thích, đã được lựa chọn một cách khách quan bằng cách sử dụng heuristic dựa trên entropy của

vectơ chính sách ( ( )) của nhà nước; điểm số entropy này đã được sử dụng trong quá khứ cho

lựa chọn các khung chính để thiết lập niềm tin [Huang và cộng sự, 2018]. Đối với sự đa dạng, nếu một

hình ảnh tại thời điểm đã được chọn, chúng tôi không cho phép hình ảnh được chọn cho đến sau thời gian

+10. Hạn chế này đặc biệt quan trọng đối với sự đa dạng trong các trạng thái phản thực

22
Machine Translated by Google

được chọn cho tác nhân thiếu sót vì nó có entropy rất thấp trong vectơ chính sách của nó từ tác nhân ban đầu

trạng thái, nhưng entropy cao hơn sau đó. Vì Space Invaders là một trò chơi tương đối đơn giản trong

mà người ngoài hành tinh di chuyển nhanh hơn khi thời gian trôi qua, chúng tôi chỉ xem xét sự đa dạng về mặt

về sự tiến triển của thời gian trong một vòng và chúng tôi đã chọn các trạng thái truy vấn tại các điểm khác nhau

đúng giờ. Tất cả các trạng thái truy vấn được sử dụng trong nghiên cứu có thể được xem trong các hình C.22 - C.25 của Phụ lục.

Do đó, chúng tôi nhấn mạnh thực tế rằng các trạng thái phản thực tế và các hành động tương ứng mà chúng tôi

trình bày cho những người tham gia không được chọn thủ công; thay vào đó, họ đã được lựa chọn một cách khách quan

bởi heuristic của chúng tôi.

Đối với các giải thích trạng thái phản thực của chúng tôi, khi một trạng thái truy vấn được chọn, chúng tôi đã chọn

hành động phản thực tế là hành động liên quan đến sự thay đổi 2 lớn nhất giữa

trạng thái tiềm ẩn Wasserstein ban đầu và trạng thái tiềm ẩn Wasserstein phản thực tế

(bỏ qua hành động không hoạt động).

Đối với NNCE trong nghiên cứu người dùng của chúng tôi, chúng tôi sử dụng cùng phương pháp phỏng đoán lựa chọn trạng thái dựa trên entropy

để xác định trạng thái truy vấn nào sẽ hiển thị cho người tham gia, do đó đảm bảo truy vấn đó

trạng thái giống hệt nhau giữa hai điều kiện. Điều gì khác nhau giữa hai điều kiện

là quá trình giải thích, trong đó lựa chọn hành động phản thực tế và kết quả

trạng thái phản thực tế . Phương pháp chúng tôi đã sử dụng để chọn hành động phản thực

cho NNCE khác với heuristic được sử dụng bởi các giải thích trạng thái phản thực tế của chúng tôi. ĐẾN

chọn hành động phản thực tế trong NNCE, chúng tôi tìm thấy hàng xóm gần nhất gần nhất trong tiềm ẩn

không gian (thông qua 2 khoảng cách) nơi tác nhân thực hiện một hành động khác .

Các kinh nghiệm lựa chọn hành động hơi khác nhau giữa hai điều kiện trong

để tối đa hóa chất lượng của các trạng thái phản thực đã chọn bằng các phương pháp khác nhau.

Hai phương pháp khác nhau ở chỗ hình ảnh phản thực cách truy vấn bao xa.

trạng thái do các không gian tiềm ẩn khác nhau được sử dụng bởi hai phương pháp và cũng do

mức độ chi tiết của chuyển động của chúng trong không gian tiềm ẩn tương ứng của chúng. phản thực tế của chúng tôi

giải thích trạng thái hoạt động trong một không gian tiềm ẩn Wasserstein. Do thực tế là họ

được tạo bởi một quy trình tổng quát và không được truy xuất từ tập dữ liệu, sử dụng phương thức gần nhất

Điểm Wasserstein với một hành động khác thường gây ra rất ít thay đổi hoặc không thay đổi tại

tất cả. Ngược lại, phương pháp NNCE hoạt động trong không gian tiềm ẩn của tác nhân được đào tạo trước,

không có không gian tiềm ẩn Wasserstein. Các NNCE đã sử dụng hình ảnh có sẵn

từ tập dữ liệu D, thường ở xa trạng thái truy vấn (trực quan) hơn

23
Machine Translated by Google

hầu hết các trạng thái phản thực được tạo ra bởi phương pháp của chúng tôi. Nếu chúng ta chọn phản thực tế

hành động liên quan đến 2 thay đổi lớn nhất trong không gian tiềm ẩn, NNCE sẽ tạo ra

hình ảnh thường khác biệt đáng kể so với trạng thái truy vấn, điều này có khả năng

đã tạo ra kết quả tồi tệ hơn trong nghiên cứu người dùng của chúng tôi. Thay vào đó, để đưa ra điều kiện NNCE

những hình ảnh phản thực tốt nhất có thể (dựa trên kiểm tra trực quan), cuối cùng chúng tôi

đã chọn hành động phản thực làm hành động (khác với hành động ban đầu)

được liên kết với hàng xóm gần nhất với khoảng cách 2 gần nhất trong không gian tiềm ẩn.

4.2.3. Người tham gia và thủ tục

Chúng tôi đã tuyển dụng 60 người tham gia tại Đại học bang Oregon, với 30 người tham gia mỗi

tình trạng. Đối tượng mục tiêu cho nghiên cứu người dùng của chúng tôi là những người không phải là chuyên gia về

học máy. Khoảng một nửa là sinh viên đại học và những người khác đến từ

cộng đồng. Tất cả những người tham gia đều ở độ tuổi từ 18-40, 40% trong số họ là

nữ và 60% là nam giới. Nghiên cứu này bao gồm 6 phần:

1. Lối chơi

2. Phân tích tác nhân (đánh giá trước)

3. Hướng dẫn

4. Đánh giá (nhiệm vụ chính)

5. Phân tích tác nhân (hậu đánh giá)

6. Hồi tưởng

1. Lối chơi. Người hướng dẫn bắt đầu nghiên cứu với phần hướng dẫn về luật chơi

và mô tả nhiệm vụ sẽ được thực hiện, sau đó những người tham gia được phép sử dụng

hệ thống. Để có thể hiểu trò chơi tốt hơn, tất cả những người tham gia lần đầu tiên chơi

trò chơi điện tử Atari 2600 Space Invaders trong 5 phút.

2. Phân tích tác nhân (đánh giá trước). Sau khi có đủ kinh nghiệm thực hành với

trò chơi, mỗi người tham gia đã xem một video về tác nhân bình thường và một video về tác nhân bị lỗi

đặc vụ chơi một tập hoàn chỉnh của trò chơi từ đầu đến cuối. danh tính của

mỗi đại lý đã được ẩn từ những người tham gia. Các video được chọn sao cho

đặc vụ đã tiêu diệt tất cả kẻ thù trước khi chúng chạm đáy trong khi tránh tất cả các kẻ thù đang đến

24
Machine Translated by Google

Hình 7: Công cụ giải thích được sử dụng để hiển thị các trạng thái phản thực tế cho những người tham gia nghiên cứu của chúng tôi

nghiên cứu người dùng.

viên đạn. Chúng tôi đã chọn ngẫu nhiên thứ tự trình bày của tác nhân bình thường và tác nhân sai sót.

Để cụ thể, chúng tôi đã mô tả tác nhân không hoàn hảo cho những người tham gia như một tác nhân có

trục trặc trong các cảm biến của nó. Sau khi xem các video, chúng tôi đã hỏi những người tham gia, “Cái nào

trong số hai AI mà bạn tin là có trục trặc?", với lựa chọn của họ là "AI một",

"AI hai", hay "KHÔNG NÓI ĐƯỢC". Sau đó chúng tôi hỏi những người tham gia liệu họ có thể xác định

phần nào của trò chơi bị AI mù quáng: người ngoài hành tinh màu vàng, viên đạn trắng,

con tàu màu xanh lá cây, hoặc các rào cản màu cam. Sau khi trả lời cả hai câu hỏi, người tham gia

được đặt trên màn hình chờ để đảm bảo phần tiếp theo diễn ra đồng thời cho

mọi người. Tại thời điểm này, những người tham gia không thể thay đổi câu trả lời của họ cho câu hỏi trước đó.

câu hỏi và không thể xem video trong phần còn lại của nghiên cứu.

Các câu trả lời từ phần này hình thành kho dữ liệu mô tả của người tham gia

phân tích các tác nhân AI trước khi họ xem phần giải thích.

25
Machine Translated by Google

3. Hướng dẫn. Sau đó, người hướng dẫn đã hướng dẫn chi tiết để mô tả bộ đếm

công cụ hiển thị giải thích thực tế, đặc biệt vì phản thực tế là một chủ đề bí truyền

cho hầu hết những người không phải là chuyên gia. Công cụ hiển thị bao gồm một bộ gồm 3 hình ảnh: bản gốc

trạng thái nơi một đại lý đã thực hiện hành động ưa thích của mình , trạng thái đã thay đổi nơi đại lý

đã hành động , và hình ảnh nổi bật. Trạng thái ban đầu là một giao diện người dùng tương tác

phần tử, trong đó nếu được nhấp vào, nó sẽ thay đổi thành GIF hiển thị tuần tự

ba bước trò chơi hiện tại và trước đó để cung cấp ngữ cảnh cho trạng thái truy vấn. chúng tôi bỏ qua

thuật ngữ "phản thực tế" vì chúng tôi thấy từ vựng bổ sung gây nhầm lẫn trong

Nghiên cứu sơ bộ.

Cách tiếp cận của chúng tôi trong việc trình bày hình ảnh gốc, điểm nổi bật và phản thực

bên cạnh nhau gắn liền với mối quan hệ nhân quả của lý luận bắt cóc và

suy luận [Miller, 2019], trong đó các điểm nổi bật phục vụ mục đích “sửa nhãn cầu”

của những người tham gia và các phản ứng thực tế đưa ra lý do cho các hành động của AI. Các

kịch bản chính xác cho phần hướng dẫn được cung cấp trong phần phụ lục Phụ lục C.1.

4. Đánh giá (nhiệm vụ chính). Sau phần hướng dẫn, những người tham gia đã đánh giá 20 màn hình

cảnh quay của trò chơi trong công cụ hiển thị: 10 trạng thái cho mỗi tác nhân được chọn thông qua heuristic

miêu tả trên. Tất cả 10 trạng thái đã được chọn từ tập trò chơi duy nhất được hiển thị trong

các video từ trước đó. Có thể xem ví dụ về màn hình trong công cụ giải thích trong

hình 7.

Đối với mỗi ảnh chụp màn hình, chúng tôi hỏi người tham gia hai câu hỏi. Câu hỏi đầu tiên

là "Bạn nghĩ AI này chú ý đến đối tượng nào?" với 4 hộp kiểm để

có khả năng được chọn (người ngoài hành tinh, đạn, tàu, rào cản) và câu hỏi thứ hai là

"Bạn đã sử dụng lời giải thích nào để đưa ra quyết định của mình?" với 6 lựa chọn (Chỉ

Điểm nổi bật, Hầu hết là điểm nổi bật, Điểm nổi bật và Trạng thái được thay đổi ngang nhau, Hầu hết được thay đổi

Trạng thái, Chỉ trạng thái được thay đổi hoặc Không). Chúng tôi trình bày 20 lời giải thích (của bình thường

và các tác nhân thiếu sót) theo thứ tự ngẫu nhiên để tránh làm sai lệch những người tham gia.

Các câu trả lời từ phần này hình thành kho dữ liệu mô tả của người tham gia

phân tích của các tác nhân AI sau khi họ xem phần giải thích.

5. Phân tích tác nhân (đánh giá sau). Sau khi những người tham gia hoàn thành việc đánh giá 20

giải thích, chúng tôi đã tóm tắt kết quả trả lời của chính họ cho câu hỏi "Cái gì

26
Machine Translated by Google

Hình 8: Một ví dụ về màn hình kết quả mà người dùng sẽ thấy sau khi hoàn thành đánh giá cho

trạng thái phản thực.

bạn nghĩ AI này chú ý đến những đối tượng nào?" trong bảng và biểu đồ, phân tách

hai tác nhân khác nhau và kiểm đếm số lần người tham gia chọn từng tác nhân

sự vật. Sau đó, chúng tôi hỏi lại những câu hỏi tương tự từ phần nghiên cứu thứ hai: AI là gì?

trục trặc và nó trục trặc theo cách nào. Ví dụ về kết quả cuối cùng

màn hình có thể được nhìn thấy trong Hình 8, trong đó từng thành phần dọc của giao diện người dùng bị ẩn cho đến khi

người dùng nhấp vào nút “tiếp tục” để hướng dẫn người tham gia thông qua dữ liệu tóm tắt

Một bước tại một thời điểm. Chúng tôi nhận thấy rằng chỉ hiển thị kết quả đã kiểm tra trước khi yêu cầu lại

các câu hỏi là cách tốt nhất để khiến người tham gia tập trung vào các giải thích. TRONG

thí nghiệm sơ bộ của chúng tôi dẫn đến thiết kế của nghiên cứu cuối cùng, chúng tôi nhận thấy rằng

những người tham gia bị choáng ngợp với dữ liệu nếu họ có thể quay lại xem

các ví dụ riêng lẻ hoặc xem lại video của các đặc vụ đang chơi trò chơi.

27
Machine Translated by Google

6. Suy tư. Chúng tôi kết thúc nghiên cứu bằng cách yêu cầu những người tham gia thực hiện một bài viết ngắn

phản ánh sau khi họ gửi câu trả lời của họ để đánh giá sự hiểu biết của họ về lời giải thích

quốc gia, và để khơi gợi ý kiến của họ về lời giải thích. Các câu hỏi bao gồm, “Cái nào

các phần của công cụ giải thích ảnh hưởng đến quyết định của bạn trong việc xác định sự cố

có AI không?” để hiểu những gì người tham gia thấy hữu ích trong phần giải thích và những gì

đã góp phần truy tìm thành công tác nhân mất tích. Chúng tôi cũng hỏi những người tham gia

để mô tả các thành phần của lời giải thích, “Nói cách riêng của bạn, bạn có thể nói ngắn gọn

rõ hình ảnh 3 từ công cụ giải thích là gì (các hình ảnh có tiêu đề: "AI Response

Trạng thái đã thay đổi")?” để đánh giá xem những người tham gia thậm chí có hiểu khái niệm về phản tác dụng hay không

tương đối tốt, và họ đã hoàn thành nhiệm vụ chính như thế nào nếu không. ruột thừa

D mô tả phân tích nội dung áp dụng cho hai câu hỏi này.

5. Kết quả

5.1. Ví dụ về trạng thái phản thực

Bây giờ chúng tôi đưa ra các ví dụ về các trạng thái phản thực tế cho các đại lý được đào tạo trước trong các trường hợp khác nhau.

trò chơi Atari; những ví dụ này bao gồm cả phản thực chất lượng cao và thấp. TRONG

Hình 9 đến 12, chúng tôi hiển thị các bộ ảnh trong đó ảnh bên trái là truy vấn ban đầu

trạng thái nơi đại lý sẽ thực hiện hành động theo chính sách của mình, hình bên phải là

trạng thái phản thực tế nơi tác nhân sẽ thực hiện hành động đã chọn , và trung tâm

hình ảnh là sự khác biệt nổi bật giữa hai.

5.1.1. Q bert

Trong trò chơi này, đặc vụ điều khiển nhân vật màu cam Q*bert, người bắt đầu mỗi trò chơi

với 3 mạng sống trên đỉnh kim tự tháp và có 5 hành động để nhảy theo đường chéo từ khối lập phương

thành khối lập phương (hoặc đứng yên). Hạ cánh trên một khối lập phương khiến nó thay đổi màu sắc và thay đổi mọi

khối lập phương thành màu mục tiêu cho phép tác nhân chuyển sang giai đoạn tiếp theo. Đại lý phải

tránh kẻ thù màu tím hoặc mất mạng khi tiếp xúc. Kẻ thù màu xanh lá cây hoàn nguyên màu khối

thay đổi có thể được dừng lại thông qua liên hệ.

Ở hàng trên cùng của Hình 9, phản chứng chỉ ra rằng nếu hình vuông phía trên bên phải là

màu vàng (đã được truy cập), Qbert sẽ di chuyển lên trên bên trái. Ở hàng dưới cùng của Hình 9, nếu

28
Machine Translated by Google

= MoveUpRight, = MoveUpLeft

= MoveUpRight, = MoveDownLeft

Hình 9: Mỗi hàng hiển thị một ví dụ về cách giải thích trạng thái phản thực tế cho Q bert: Truy vấn

trạng thái có hành động (trái), trạng thái phản thực có hành động (phải) và điểm nổi bật màu đỏ (giữa).

Qbert đã ở trên cấu trúc cao hơn, đặc vụ sẽ nhảy xuống và rời đi; trong này

ví dụ, hình ảnh Qbert không hoàn toàn thực tế nhưng đủ để mang lại cảm giác về

quyết định của đại lý.

5.1.2. yêu cầu đi biển

Trong trò chơi này, một đặc vụ phải bắn ngư lôi vào kẻ thù đang lao tới trong khi giải cứu

thợ lặn thân thiện. Trong Hình 10 (hàng trên cùng), một kẻ thù mới phải xuất hiện ở bên trái theo thứ tự

để đặc vụ thực hiện hành động quay tàu ngầm trong khi khai hỏa. Như vậy, các

đặc vụ có hiểu biết về sự xuất hiện của kẻ thù và hướng tàu ngầm. giữa

hàng của Hình 10 cho thấy một kịch bản (được xem tốt nhất trên máy tính) trong đó tác nhân sẽ

di chuyển lên và sang trái nhưng không bắn vì tác nhân sẽ không hoàn toàn thẳng hàng với

cá địch bên trái đánh nó; Ngoài ra, tàu ngầm đã bắn ngư lôi vào

dự đoán cá địch xuất hiện ở phía dưới bên phải và chỉ có thể có một con

ngư lôi trên màn hình tại một thời điểm. Lưu ý rằng ngư lôi thực sự được đánh dấu bằng màu đỏ nhưng

do kích thước của hình ảnh trong Hình 10, những điểm nổi bật này là không thể nhận thấy.

29
Machine Translated by Google

= MoveUpRightAndShoot, = MoveUpLeftAndShoot

= MoveUpLeftAndShoot, = MoveUpLeft

= MoveLeftAndShoot, = MoveDown

Hình 10: Mỗi hàng hiển thị một ví dụ giải thích trạng thái phản thực cho Seaquest: Truy vấn

trạng thái có hành động (trái), trạng thái phản thực có hành động (phải) và điểm nổi bật (giữa).

Hình 10 (hàng dưới cùng) cho thấy một phản thực không thực tế, trong đó mặc dù không bao giờ

nhìn thấy hai tàu ngầm trong dữ liệu huấn luyện, dự đoán tốt nhất về Máy phát điện (đã cho

các đầu vào phản thực tế), là đặt một tàu ngầm ở cả hai địa điểm.

5.1.3. nhà leo núi điên

Trong trò chơi này, một đặc vụ phải trèo lên một tòa nhà trong khi tránh các chướng ngại vật khác nhau.

Hình 11 (hàng trên cùng) thể hiện trạng thái ban đầu trong đó tác nhân có thể

di chuyển theo chiều ngang, trong khi trạng thái phản tác dụng cho thấy người leo núi ở trạng thái sẵn sàng

để di chuyển theo chiều dọc như được chỉ ra bởi vị trí của chân của nó. Hình 11 (hàng dưới)

cho thấy tác nhân sẽ leo lên như thế nào khi kẻ thù không còn ở trên nó nữa. Cho cả hai

ví dụ, bởi vì người leo núi ở một vị trí thẳng đứng cố định với toàn bộ tòa tháp

30
Machine Translated by Google

= MoveRight, = MoveBodyUp

= MoveLeft, = MoveArmsUp

Hình 11: Mỗi hàng hiển thị một ví dụ giải thích trạng thái phản thực cho Crazy Climber: Truy vấn

trạng thái có hành động (trái), trạng thái phản thực có hành động (phải) và điểm nổi bật (giữa).

chính nó di chuyển xuống, những điểm nổi bật rất khó giải thích. Những ví dụ này cho thấy

tầm quan trọng của việc sử dụng cả những điểm nổi bật và trạng thái phản thực như trong một số trường hợp,

các trạng thái phản thực dễ hiểu hơn nhiều so với các điểm nổi bật.

5.1.4. Kẻ xâm lược không gian

Trong trò chơi này, một đặc vụ trao đổi hỏa lực với kẻ thù đang đến gần trong khi ẩn nấp

bên dưới ba rào cản. Hình 12 mô tả ví dụ, cũng được sử dụng trong

nghiên cứu người dùng. Ví dụ này tiết lộ rằng đại lý đã học cách ưu tiên các địa điểm cụ thể

để sắp xếp các phát bắn một cách an toàn, chọn kẻ thù để bắn một cách có chọn lọc.

Chúng tôi cũng bao gồm một ví dụ về cách giải thích tình trạng phản thực tế với sai sót.

đại lý trong nghiên cứu người dùng thứ hai của chúng tôi. Hình 13 cho thấy rằng trong phản chứng được tạo ra

giải thích của nhà nước, tác nhân thiếu sót không di chuyển con tàu vì nó mù quáng với chính con tàu của mình

vị trí; trên thực tế, tác nhân thiếu sót không bao giờ di chuyển con tàu trong tất cả trạng thái phản thực tế của chúng ta

lời giải thích.

31
Machine Translated by Google

Hình 12: Một ví dụ về giải thích trạng thái phản thực cho Space Invaders với trạng thái "bình thường"

đại lý. Ở đây, hành động = MoveRightAndShoot (trái), trạng thái phản thực khi hành động =

MoveRight (phải) và điểm khác biệt được đánh dấu (ở giữa).

Hình 13: Một ví dụ về cách giải thích trạng thái phản thực tế cho Space Invaders có sai sót

đại lý từ nghiên cứu người dùng thứ hai của chúng tôi. Ở đây, hành động = MoveLeftAndShoot (trái), phản thực tế

trạng thái nơi hành động = MoveRight (phải) và sự khác biệt được đánh dấu (giữa).

5.2. Kết quả nghiên cứu người dùng

5.2.1. RQ 1: Tính trung thực của phản chứng

Về độ trung thực, xếp hạng trung bình trên thang đo Likert 6 điểm được thể hiện

trong Bảng 1. Sự khác biệt giữa xếp hạng độ trung thực cho các trạng thái phản thực

và trạng thái thực không có ý nghĩa thống kê ( = 0,05, p-value=0,458, một phía

kiểm tra cấp bậc có chữ ký Wilcoxon). Những kết quả này cho thấy rằng các trạng thái phản thực tế của chúng tôi là trên

trung bình gần như trung thành với trạng thái trò chơi nhưng chúng không hoàn hảo. bên trong

phần tiếp theo, chúng tôi sẽ chỉ ra rằng bất chấp những điểm không hoàn hảo này, các phản chứng thực

vẫn hữu ích cho người tham gia.

32
Machine Translated by Google

Trò chơi thực tế Trạng thái phản thực bị loại bỏ

Phiên bản giải thích

Điểm 1,93 4,00 4,97

Bảng 1: Kết quả trung bình trên thang đo Likert 6 điểm từ nghiên cứu người dùng về độ trung thực.

5.2.2. RQ 2: Các trạng thái phản thực có thể giúp người dùng xác định tác nhân thiếu sót không?

Những người tham gia đã thành công hơn đáng kể trong việc xác định tác nhân thiếu sót khi

cung cấp các giải thích phản thực tế cho cả các giải thích trạng thái phản thực tế

( = 0,05, p-value = 0,0011, Pearson's Chi-square test) và NNCEs ( = 0,05, p

value=0,0009, Pearson's Chi-square test).

Giả thuyết này càng được củng cố khi tất cả những người tham gia trong cả hai điều kiện

tự báo cáo rằng đã tìm thấy lời giải thích hữu ích trong phần đánh giá. Chỉ 1

người tham gia trong số 60 người nói rằng video trong phần Phân tích đại lý rất hữu ích.

Thay vào đó, những người tham gia nhận thấy những điểm nổi bật và phản thực tế hữu ích hơn

video.

Hình 14: Tổng số lựa chọn trên tất cả những người tham gia và tất cả các giải thích liên quan đến

tính hữu ích tự báo cáo của từng thành phần giải thích.

33
Machine Translated by Google

Trong phần đánh giá, đối với mỗi lời giải thích từ một phương pháp phản thực nhất định,

chúng tôi đã yêu cầu những người tham gia đánh giá mức độ hữu ích của từng thành phần của lời giải thích về

thang đo Likert 5 điểm (1: Chỉ nổi bật, 2: Hầu hết nổi bật, 3: Cả hai đều như nhau,

4: Hầu hết là phản thực, 5: Chỉ phản thực). Đối với giải thích trạng thái phản thực

quốc gia, “Hầu hết là nổi bật” là phản hồi phổ biến nhất (204/600 lần; 34%)

để giúp những người tham gia xác định lỗ hổng trong AI. Đối với NNCE, “Cả hai ngang nhau” là

phản hồi phổ biến nhất (236/600 lượt; 39%). Phân phối phản hồi đầy đủ cho

từng điều kiện được thể hiện trong Hình 14. Những kết quả này chỉ ra rằng không thành phần nào

trong sự cô lập là lý tưởng. Hầu hết thời gian, những người tham gia thích có cả hai, nhưng với

mức độ hữu dụng khác nhau. Chúng tôi cũng tìm thấy kết quả này trong dữ liệu định tính từ

bảng câu hỏi sau nhiệm vụ, trong đó những người tham gia trong cả hai điều kiện áp đảo

tự báo cáo đã sử dụng những điểm nổi bật như một vật phẩm hỗ trợ cho phản thực

giải thích và ngược lại:

Người tham gia 43 trong tình trạng Trạng thái Phản thực: “Tôi đã sử dụng các điểm nổi bật

công cụ chủ yếu bởi vì đó là cách dễ nhất để xem những gì đang thay đổi từ

trạng thái ban đầu. Sau đó, tôi sẽ tham khảo công cụ trạng thái đã thay đổi để xem

bản gốc đã thay đổi như thế nào.”

Người tham gia 14 trong tình trạng Hàng xóm gần nhất: “Hầu hết các điểm nổi bật, tôi

đã sử dụng một cách tiết kiệm trạng thái thay đổi để củng cố các khẳng định từ các điểm nổi bật.

Những người tham gia trong cả hai điều kiện nhận thấy biểu đồ tóm tắt là hữu ích trong bảng điều khiển

hẹn hò với ý tưởng của họ và tạo điều kiện thu hồi. Ví dụ, hai người tham gia bình luận trong

phản ứng của họ:

Người tham gia 35 trong tình trạng Trạng thái Phản thực: “Biểu đồ thanh tại

kết thúc phản hồi của tôi cho cả hai AI ảnh hưởng đến nó nhiều nhất.

Người tham gia 16 trong tình trạng Hàng xóm gần nhất: “Các biểu đồ ở cuối

ảnh hưởng nặng nề đến quyết định của tôi, vì tôi nghĩ AI bị trục trặc

không thể nhìn thấy các rào chắn vì chúng có nhiều thiệt hại hơn ở phía tàu

của các rào cản hơn phía ngoài hành tinh, nhưng các biểu đồ cho thấy rằng đó là

34
Machine Translated by Google

một giả định tồi bởi vì hầu như mỗi lần tôi đánh giá các rào cản là

một cái gì đó họ có thể nhìn thấy.

5.2.3. RQ 3: So sánh các phương pháp Phản chứng

Không đúng Chính xác không thể nói

nhận dạng nhận dạng

không cần giải thích 10 (33%) 17 (57%) 3 (10%)

Với lời giải thích 2 (7%) 27 (90%) 1 (3%)

Bảng 2: Số lượng người tham gia, có và không có giải thích trạng thái phản thực tế, những người

xác định sai AI bình thường, xác định chính xác AI bị lỗi và những người không thể

cho biết sự khác biệt.

Những người tham gia được cung cấp các giải thích trạng thái phản thực tế đã xác định

AI thiếu sót với tỷ lệ thành công cao hơn nhiều so với NNCE. Không có bất kỳ lời giải thích nào, 57%

của những người tham gia đã xác định chính xác tác nhân thiếu sót (Bảng 2). với phản thực tế

giải thích của nhà nước, tỷ lệ phần trăm này được cải thiện lên 90%, đây là một sự cải thiện đáng

kể ở ( = 0,05, giá trị p = 10 9 , Pearson's Chi-square test). Ngoài ra, không ai trong số này

những người tham gia đã có thể xác định chính xác lỗ hổng cụ thể trong tác nhân trong lần đầu tiên

Phần Phân tích tác nhân. Tuy nhiên, sau khi sử dụng các giải thích trạng thái phản thực của chúng tôi, 60%

của những người tham gia đã chẩn đoán chính xác lỗ hổng cụ thể, có ý nghĩa thống kê

(= 0,05, p-value = 0, Pearson's Chi-square test).

Không đúng Chính xác không thể nói

nhận dạng nhận dạng

không cần giải thích 9 (30%) 19 (63%) 2 (7%)

Với lời giải thích 9 (30%) 14 (47%) 7 (23%)

Bảng 3: Số lượng người tham gia, có và không có NNCE, đã xác định sai

AI bình thường, đã xác định chính xác AI có lỗi và AI không thể phân biệt được.

Ngược lại, NNCEs thường khiến người tham gia bối rối. 63% số người tham gia xác định

đại lý thiếu sót một cách chính xác chỉ với video (Bảng 3), nhưng sau khi xem giải thích

35
Machine Translated by Google

Hình 15: Tổng số khác biệt về đối tượng được tính trên tất cả những người tham gia, trong đó đối tượng đề cập đến

phần tử Kẻ xâm lược không gian mà người tham gia xác định rằng tác nhân chú ý đến. Ở đây,

trục y đo lường sự khác biệt giữa tổng số đối tượng cho tác nhân có sai sót trừ đi

tổng số đối tượng được tính cho tác nhân bình thường. Số dương cho thấy rằng những người tham gia xem xét

tác nhân thiếu sót chú ý đến đối tượng đó nhiều hơn tác nhân bình thường, trong khi tác nhân tiêu cực

những con số chỉ ra rằng những người tham gia coi tác nhân có khuyết điểm ít chú ý đến đối tượng đó hơn.

khác, tỷ lệ này giảm xuống còn 47% ( = 0,05, p-value = 0,1432, Pearson's Chi square

Bài kiểm tra). Hình 15 chứa một so sánh tổng hợp về mức độ hiệu quả của những người tham gia

NNCE được hiển thị so với giải thích trạng thái phản thực tế có thể xác định lỗ hổng cụ thể.

Biểu đồ trong Hình 15 mô tả sự khác biệt về số lượng đối tượng trên tất cả những người tham gia,

trong đó đối tượng đề cập đến phần tử Kẻ xâm lược không gian mà người tham gia xác định

đại lý quan tâm đến. Sự khác biệt được tính khi tổng số đối tượng được tính cho

tác nhân có lỗi trừ đi tổng số đối tượng được tính cho tác nhân bình thường. Người tham gia cho cả hai

cách tiếp cận phản thực tế đã có thể phát hiện ra lỗ hổng chính xác, nhưng những người tham gia

đã được hiển thị giải thích trạng thái phản thực tế đã làm như vậy với số lượng cao hơn nhiều so với

những người tham gia đã được hiển thị NCE.

Một trong những lý do chính cho sự sụt giảm này là các NNCEs không nhất quán trong

chất lượng vì chất lượng phụ thuộc vào sự tồn tại của một phiên bản trong bộ dữ liệu theo dõi trò chơi

D gần hợp lý (trong không gian tiềm ẩn) với trạng thái truy vấn. Mặc dù rất lớn

36
Machine Translated by Google

Hình 16: Một ví dụ về phương pháp giải thích phản thực hàng xóm gần nhất đối với thông thường

đại lý được đào tạo với trạng thái truy vấn trong đó hành động = MoveRightAndShoot (trái), trạng thái phản thực

trong đó hành động = MoveLeftAndShoot (phải) và điểm khác biệt được đánh dấu (ở giữa).

Hình 17: Một ví dụ về phương pháp giải thích phản chứng hàng xóm gần nhất cho sai sót

tác nhân có trạng thái truy vấn trong đó hành động = MoveLeftAndShoot (trái), trạng thái phản thực trong đó

action = MoveLeft (phải) và điểm khác biệt được đánh dấu (ở giữa).

bộ dữ liệu theo dõi trò chơi (25 triệu khung hình trò chơi) dưới dạng nhóm cho NNCE, phù hợp

trường hợp có thể đóng vai trò phản thực có thể không tồn tại, dẫn đến những thay đổi kỳ lạ đối với

trạng thái truy vấn (ví dụ: một người ngoài hành tinh bổ sung xuất hiện ở phía đối diện với tác nhân) hoặc

phản thực tế cực kỳ khác với trạng thái hiện tại (ví dụ: thiết lập lại

trò chơi đã diễn ra hoặc nhiều kẻ thù đã được thêm/xóa). Ví dụ về thấp

có thể nhìn thấy phản thực hàng xóm gần nhất chất lượng trong Hình 16 và 17. Lưu ý rằng

cả hai ví dụ đều có một số lượng lớn các điểm nổi bật. Ngoài ra, NNCE trong Hình

17 thực sự di chuyển con tàu, điều này che lấp lỗ hổng thực sự của tác nhân. Sự phụ thuộc này

về việc tìm kiếm một phản chứng phù hợp trong bộ dữ liệu theo dõi trò chơi là một bất lợi lớn

của phản thực láng giềng gần nhất. Có khả năng không khả thi để tạo ra một lượng đủ lớn

tập dữ liệu để tạo điều kiện truy xuất một phản thực hợp lý cho bất kỳ trạng thái trò chơi tùy ý nào trong

37
Machine Translated by Google

một trò chơi đủ phức tạp. Ngược lại, cách giải thích trạng thái phản thực tế của chúng tôi tạo ra

khung trò chơi một cách nhanh chóng và mặc dù nó không hoàn toàn trung thực với trò chơi, nhưng nó có

đủ trung thực để cung cấp cái nhìn sâu sắc có ý nghĩa cho người tham gia.

Sự không nhất quán về chất lượng của các NNCE có thể đã góp phần gây ra sự nhầm lẫn về

những người tham gia. Trong đánh giá hồi cứu từ những người tham gia đã được cung cấp Gần nhất

Những lời giải thích ngược lại của hàng xóm, họ thường tự cho là mình bị nhầm lẫn

bởi những điểm nổi bật hoặc bản thân sự phản thực. Ví dụ, khi được hỏi liệu những điểm nổi bật

đã giúp đưa ra quyết định của họ:

Người tham gia 17 trong tình trạng Hàng xóm gần nhất: “Đôi khi, nhưng có

đôi khi khó hiểu vì tôi không thể biết điểm nổi bật nào thuộc về cái gì

hình ảnh, vì vậy tôi không thể hiểu được suy nghĩ của AI từ nó”

Tương tự, khi được hỏi liệu hình ảnh trạng thái phản thực có giúp họ đưa ra quyết định hay không:

Người tham gia 26 trong tình trạng Hàng xóm gần nhất: “Không, tôi không chắc làm thế nào

nó liên quan đến quyết định di chuyển hay bắn.”

NNCE dường như chỉ hữu ích cho một nhóm nhỏ người tham gia, vì 17%

những người tham gia có thể chẩn đoán chính xác lỗ hổng cụ thể trong tác nhân bị lỗi,

tăng từ không (= 0,05, giá trị p = 0,014, kiểm định Chi Square của Pearson). tỷ lệ phần trăm này

cao hơn một chút so với 12,5%, đó là xác suất đoán đúng sai sót

đại lý và đoán chính xác lỗ hổng chính xác hoàn toàn là tình cờ.

6. Thảo luận

Tóm lại, những người tham gia nghiên cứu đầu tiên của chúng tôi đã tìm thấy giải thích về trạng thái phản thực của chúng tôi.

để tạo khung hình trò chơi gần với độ trung thực mặc dù không hoàn hảo

Vì thế. Trong nghiên cứu người dùng thứ hai của chúng tôi, những giải thích trạng thái phản thực này là đủ

độ trung thực mà 90% người tham gia của chúng tôi có thể sử dụng chúng để xác định tác nhân nào có sai sót.

60% người tham gia có thể sử dụng các giải thích trạng thái phản thực tế của chúng tôi để thực hiện

nhiệm vụ khó khăn hơn là chẩn đoán lỗ hổng cụ thể. Trong quá trình nghiên cứu này, những người tham gia

đặc biệt đề cập đến các điểm nổi bật và biểu đồ tóm tắt là đặc biệt hữu ích

38
Machine Translated by Google

trong quá trình ra quyết định của họ, do đó gợi ý rằng những yếu tố trực quan này nâng cao đáng kể

những lời giải thích phản thực tế.

Giải thích trạng thái phản thực tế của chúng tôi cũng hiệu quả hơn nhiều đối với người dùng của chúng tôi

nghiên cứu hơn so với đường cơ sở hàng xóm gần nhất. Những người tham gia sử dụng trạng thái phản thực tế

giải thích đã thành công hơn nhiều trong việc xác định tác nhân thiếu sót cũng như

lỗ hổng cụ thể hơn so với những người tham gia sử dụng NCE. Ngoài ra, mặc dù các

NNCE trung thành 100% với trò chơi, chúng không phải lúc nào cũng gần với trạng thái truy vấn.

Những người tham gia nhận thấy rằng những giải thích trạng thái phản thực của chúng tôi, tạo ra hình ảnh

"gần" với trạng thái truy vấn ban đầu, sâu sắc hơn mặc dù không có

100% trung thực. Nghiên cứu của chúng tôi cũng chỉ ra rằng “Không có lời giải thích nào tốt hơn là một điều tồi tệ

giải thích” vì những người tham gia sử dụng NNCE thường bối rối và số lượng

những người tham gia xác định chính xác tác nhân thiếu sót thực sự giảm sau khi nhìn thấy

NCE.

Có một vài vấn đề với cách tiếp cận của chúng tôi vẫn là một lĩnh vực điều tra mở.

Đầu tiên, cách tiếp cận tạo ra sâu sắc của chúng tôi bổ sung một số đồ tạo tác khi tạo phản thực tế.

trạng thái, ảnh hưởng đến tính trung thực của lời giải thích của chúng tôi. Theo kinh nghiệm, chúng tôi thấy hầu hết

đồ tạo tác là thứ yếu, chẳng hạn như hình ảnh mờ và dường như không phải là rào cản chính đối với

những người tham gia của chúng tôi. Một trong những đồ tạo tác đáng chú ý hơn là cách các đồ vật nhỏ, chẳng hạn như

bắn vào những kẻ xâm lược không gian, thỉnh thoảng biến mất. Trong khi vấn đề này được giảm bớt phần nào

với max loss clipping, các đối tượng nhỏ khó bảo quản trong phản thực

các quá trình thế hệ. Tuy nhiên, những đồ vật nhỏ này có thể quan trọng đối với những người khác.

tên miền (ví dụ: Pong). Có khả năng một số đồ tạo tác này có thể được sửa chữa bằng cách đào tạo

lâu hơn, với nhiều dữ liệu hơn và với kiến trúc tốt hơn. Vấn đề này cũng đặt ra một hướng mở

câu hỏi trong việc học biểu diễn về việc bảo quản những đồ vật nhỏ, nhưng quan trọng, trong

hình ảnh.

Vấn đề thứ hai là làm thế nào để chọn các trạng thái truy vấn từ việc phát lại sao cho bộ đếm

các trạng thái và hành động thực tế, cung cấp cái nhìn sâu sắc nhất cho con người. Tiêu chí của chúng tôi là

dựa trên kinh nghiệm và cần điều tra sâu hơn vì có thể sử dụng các tiêu chí khác,

chẳng hạn như những phương pháp được sử dụng bởi các phương pháp khác để chọn các thời điểm quan trọng [Amir và Amir, 2018,

Sequeira và Gervasio, 2020]. Hơn nữa, chúng tôi đã chọn các phản chứng để trình bày cho

những người tham gia sử dụng heuristic hơn là cho phép những người tham gia tương tác

39
Machine Translated by Google

khám phá không gian của phản thực tế. Chúng tôi đã lựa chọn này vì nhiều quốc gia

các hành động thực tế không dẫn đến thay đổi hình ảnh và người dùng cần được hướng dẫn thêm khi

những hành động và trạng thái phản thực tế nào là hữu ích. Chúng tôi nhận ra rằng sự lựa chọn này

ảnh hưởng trực tiếp đến sự đa dạng giữa các phản thực tế mà những người tham gia nhìn thấy, và

có thể cản trở việc xây dựng một mô hình tinh thần đầy đủ [Mothilal et al.,

2020].

Một lĩnh vực khác cho công việc trong tương lai là chọn cách tạo ra một trạng thái phản thực tế.

đánh giá. Việc tạo ra trạng thái phản thực của chúng tôi dựa trên việc tìm kiếm một trạng thái

thay đổi tối thiểu (trong không gian tiềm ẩn) từ trạng thái truy vấn sẽ dẫn đến một

hành động khác với . Lý do cho sự thay đổi tối thiểu là để xác định các nec

các khía cạnh cơ bản của một trạng thái sẽ tạo ra hành động , không gây mất tập trung cho người dùng

với các yếu tố không liên quan khác trong hình ảnh. Tiêu chí thay đổi tối thiểu này tương tự

đến các phương pháp được sử dụng bởi các phương pháp gần đây khác để tạo ra các phản thực, chẳng hạn như

phương pháp chỉnh sửa tối thiểu để thay thế các vùng trong ảnh [Goyal et al., 2019] và

tìm kiếm các vùng hỗ trợ/xóa nhỏ nhất [Chang et al., 2019]. Tuy nhiên, chúng tôi

có thể sử dụng các tiêu chí khác ngoài thay đổi tối thiểu để xác định không gian sửa đổi đối với

trạng thái truy vấn. Chẳng hạn, chúng tôi có thể cho phép các thay đổi dẫn đến các thuộc tính cụ thể

trên các bước thời gian trong tương lai hoặc cho phép người dùng giúp xác định không gian thay đổi được phép.

Cuối cùng, chúng tôi nhận ra rằng những phát hiện của chúng tôi là dành riêng cho môi trường đầu vào trực quan

của Atari và sự thành công của một phương pháp học sâu tổng quát để sản xuất bộ đếm

thực tế trong các môi trường trực quan khác là một câu hỏi mở. Đặc biệt, độ trung thực của

các trạng thái phản thực phụ thuộc vào lượng dữ liệu đào tạo có sẵn và khả năng

của mạng lưới thần kinh sâu để nắm bắt các khía cạnh nổi bật của hình ảnh từ miền đó.

Mặc dù ứng dụng chính trong công việc của chúng tôi là dành cho các miền giống Atari, nhưng phức tạp hơn

phương pháp đào tạo mã hóa tự động đã được hiển thị để tạo ra hình ảnh chất lượng cao trong

môi trường trực quan phong phú hơn [Nie et al., 2020]. Vì vậy, chúng tôi tin rằng có

một số phát hiện trong nghiên cứu của chúng tôi có thể được áp dụng rộng rãi hơn. khung chung

công việc giải thích của chúng tôi, cụ thể là trình bày nguyên bản-nổi bật-phản thực tế có thể

hiệu quả trên nhiều lĩnh vực. Hơn nữa, kết quả của chúng tôi cũng chỉ ra rằng độ trung thực hoàn hảo

có thể không cần thiết. Hình ảnh phản thực với đủ độ trung thực có thể cung cấp đủ

cái nhìn sâu sắc trong các lĩnh vực khác và thậm chí cả những điểm nổi bật của chính họ có thể là đủ

40
Machine Translated by Google

sâu sắc cho các môi trường trực quan khác.

7. Kết luận

Chúng tôi đã giới thiệu một mô hình thế hệ sâu để tạo ra các giải thích trạng thái phản thực tế

như một cách để cung cấp cái nhìn sâu sắc về việc ra quyết định của một tác nhân RL sâu sắc. phản thực tế

các trạng thái cho thấy những thay đổi tối thiểu cần thiết xảy ra đối với một trạng thái để tạo ra một trạng thái khác

hành động của tác nhân RL được đào tạo. Kết quả từ nghiên cứu người dùng đầu tiên của chúng tôi cho thấy rằng những

giải thích trạng thái phản thực có đủ độ trung thực với trò chơi thực tế. Kết quả

từ nghiên cứu người dùng thứ hai của chúng tôi đã chứng minh rằng mặc dù có một số đồ tạo tác, những

giải thích trạng thái phản thực tế thực sự hữu ích để xác định tác nhân thiếu sót trong

nghiên cứu của chúng tôi cũng như lỗ hổng cụ thể trong tác nhân. Trong khi đó, hàng xóm gần nhất

giải thích phản thực khiến người tham gia bối rối và dẫn đến ít người tham gia hơn

xác định đúng tác nhân sau khi họ được xem phần giải thích. Hơn nữa, chỉ

một tỷ lệ nhỏ người tham gia có thể xác định lỗ hổng cụ thể. nghiên cứu của chúng tôi

cũng chứng minh rằng các điểm nổi bật và bảng tóm tắt là những yếu tố quan trọng để

kèm theo những lời giải thích phản thực tế.

Kết quả của chúng tôi cho thấy rằng độ trung thực hoàn hảo có thể không cần thiết cho phản thực

giải thích trạng thái để cung cấp cho các chuyên gia không học máy đủ hiểu biết về một

quyết định của đại lý để sử dụng kiến thức này cho một nhiệm vụ hạ nguồn. Trong khi

nghiên cứu của chúng tôi tập trung vào các đại lý Atari, chúng tôi tin rằng phương pháp này có triển vọng và có thể

áp dụng rộng rãi hơn cho các miền ngoài Atari với đầu vào trực quan phức tạp hơn

cần điều tra thêm. Hơn nữa, sử dụng các giải thích trạng thái phản thực tế trong

kết hợp với các kỹ thuật giải thích bổ sung và được thiết lập khác có thể

tạo thành một bộ công cụ đáng gờm để giúp những người không phải là chuyên gia hiểu được các quyết định do RL sâu đưa ra

đại lý.

8. Lời cảm ơn

Công việc này được DARPA hỗ trợ theo khoản trợ cấp N66001-17-2-4030. Chúng tôi sẽ

muốn cảm ơn Andrew Anderson, Margaret Burnett, Jonathan Dodge, Alan Fern, Stefan

Lee, Neale Ratzlaff và Janet Schmidt vì chuyên môn và những nhận xét hữu ích của họ.

41
Machine Translated by Google

Người giới thiệu

Julius Adebayo, Justin Gilmer, Michael Muelly, Ian Goodfellow, Moritz Hardt và Been

Kim. Sanity kiểm tra bản đồ độ mặn. Trong Kỷ yếu của Quốc tế thứ 32

Hội nghị về Hệ thống Xử lý Thông tin Thần kinh, trang 9525–9536, Red Hook,

NY, Hoa Kỳ, 2018. Curran Associates Inc.

Samuel Alvernaz và Julian Togelius. Tiến hóa thần kinh tăng cường tự động mã hóa cho

chơi doom trực quan. Năm 2017, Hội nghị IEEE về Trí tuệ Tính toán và

Trò chơi (CIG). IEEE, 2017.

Dan Amir và Ofra Amir. Điểm nổi bật: Tóm tắt hành vi của đại lý đối với mọi người. TRONG

Kỷ yếu của Hội nghị Quốc tế lần thứ 17 về Đại lý Tự trị và Mul

tiAgent Systems, trang 1168–1176, Richland, SC, 2018. International Foundation for

Các đại lý tự trị và các hệ thống đa tác nhân.

Andrew AndersonJonathan DodgeAmrita SadaranganiZoe JuozapaitisEvan New

người đàn ông, Jed Irvine, Souti Chattopadhyay, Matthew Olson, Alan Fern và Margaret

Burnett. Mô hình tinh thần của những người bình thường với lời giải thích về sự củng cố học hỏi

ing. Giao dịch ACM trên Hệ thống thông minh tương tác (TiiS), 10(2):1–37, 2020.

Akanksha Atrey, Kaleigh Clary và David Jensen. Thăm dò không giải thích: Coun

phân tích thực tế của bản đồ độ mặn cho việc học tăng cường sâu. trong nước

Hội nghị về Biểu diễn Học tập, 2020. URL https://openreview.net/

diễn đàn?id=rkl3m1BFDB.

Dana H Ballard. Học mô-đun trong mạng lưới thần kinh. Trong AAAI, 1987.

Yoshua Bengio, Aaron Courville và Pascal Vincent. Học đại diện: A

đánh giá và quan điểm mới. Giao dịch của IEEE về phân tích mẫu và máy

trí tuệ, 2013.

Michel Besserve, Arash Mehrjou, Rémy Sun, và Bernhard Schölkopf. phản thực tế

khám phá cấu trúc mô-đun của các mô hình thế hệ sâu. Trong Hội thảo Quốc tế

trên Biểu diễn học tập, 2020. URL https://openreview.net/forum?id=

SJxDDpEKvH.

42
Machine Translated by Google

Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman,

Jie Tang, và Wojciech Zaremba. Phòng tập thể dục mở. bản in sẵn arXiv arXiv:1606.01540,

2016.

Rich Caruana, Yin Lou, Johannes Gehrke, Paul Koch, Marc Sturm và Noemie El

đã có. Các mô hình thông minh cho chăm sóc sức khỏe: Dự đoán nguy cơ viêm phổi và bệnh viện

tái nhập viện 30 ngày. Trong Kỷ yếu của ACM SIGKDD International Con lần thứ 21

tham khảo về Khám phá tri thức và Khai thác dữ liệu, trang 1721–1730, New York, NY,

Hoa Kỳ, 2015. Hiệp hội Máy tính. ISBN 9781450336642.

Chun-Hao Chang, Elliot Creager, Anna Goldenberg và David Duvenaud. Giải thích

ing phân loại hình ảnh bằng cách tạo phản thực tế. Trong Hội thảo quốc tế về

Đại diện học tập, 2019.

Mark W. Craven và Jude W. Shavlik. Trích xuất các biểu diễn cấu trúc cây của

các mạng được huấn luyện. Trong Kỷ yếu Hội nghị Quốc tế lần thứ 8 về Thần kinh

Hệ thống xử lý thông tin, trang 24–30, Cambridge, MA, USA, 1995. MIT

Nhấn.

Piotr Dabkowski và Yarin Gal. Mức độ nổi bật của hình ảnh thời gian thực đối với bộ phân loại hộp đen. TRONG

Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2017.

Amit Dhurandhar, Pin-Yu Chen, Ronny Luss, Chun-Chen Tu, Paishun Ting, Karthikeyan

Shanmugam và Payel Das. Giải thích dựa trên sự thiếu sót: Hướng tới sự tương phản

giải thích với tiêu cực thích hợp. Những tiến bộ trong xử lý thông tin thần kinh

Hệ thống, 2018.

Ruth C Fong và Andrea Vedaldi. Giải thích có thể hiểu được về hộp đen theo ý nghĩa

đầy nhiễu loạn. Trong Kỷ yếu của Hội nghị Quốc tế IEEE về Máy tính

Tầm nhìn, 2017.

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley,

Sherjil Ozair, Aaron Courville và Yoshua Bengio. Lưới đối thủ sáng tạo. TRONG

Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2014.

43
Machine Translated by Google

Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh và Stefan Lee. quận

giải thích trực quan terfactual. Trong Hội nghị quốc tế về học máy

(ICML), 2019.

Samuel Greydanus, Anurag Koul, Jonathan Dodge và Alan Fern. hình dung và

hiểu các đại lý Atari. Trong Kỷ yếu của Hội nghị Quốc tế lần thứ 35 về

Học máy, 2018.

Bradley Hayes và Julie A Shah. Cải thiện tính minh bạch của bộ điều khiển robot thông qua

giải thích chính sách tự chủ. Trong Kỷ yếu của ACM/IEEE quốc tế 2017

Hội nghị về tương tác giữa người và robot, 2017.

Hsiu-Fang Hsieh và Sarah E. Shannon. Ba cách tiếp cận nội dung định tính

Phân tích. Nghiên cứu Sức khỏe Định tính, 2005.

Sandy H. Huang, Kush Bhatia, Pieter Abbeel và Anca D. Dragan. Thiết lập

tin tưởng thích hợp thông qua các trạng thái quan trọng. Trong Hội nghị Quốc tế IEEE/RSJ năm 2018

trên Robot và Hệ thống Thông minh (IROS), các trang 3929–3936, 2018. doi: 10.1109/

IROS.2018.8593649.

Sandy H. Huang, David Held, Pieter Abbeel và Anca D. Dragan. Kích hoạt robot để

truyền đạt mục tiêu của họ. tự động. Người máy, 43(2):309–326, tháng 2 năm 2019.

Paul Jacard. Nouvelles recherches sur la phân phối hoa. Bò đực. Sóc. Vaud. Khoa học. tự nhiên,

44, 1908.

Ali Jahanian, Lucy Chai và Phillip Isola. Về "khả năng điều khiển" của đối thủ chung

các mạng. Trong Hội nghị Quốc tế về Biểu diễn Học tập, 2020. URL

https://openreview.net/forum?id=HylsTT4FvB.

Zoe Juozapaitis, Anurag Koul, Alan Fern, Martin Erwig, và Finale Doshi-Velez.

Học tăng cường có thể giải thích được thông qua phân tách phần thưởng. Trong Kỷ yếu của

IJCAI 2019 Hội thảo về Trí tuệ nhân tạo có thể giải thích được, 2019.

Łukasz Kaiser, Mohammad Babaeizadeh, Piotr Miłos, Błażej Osiński, Trại Roy H

chuông, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey

44
Machine Translated by Google

Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker và Henryk Michalewski.

Học tăng cường dựa trên mô hình cho atari. Trong Hội thảo quốc tế về

Biểu diễn học tập, 2020. URL https://openreview.net/forum?id=

S1xCPJHtDB.

Omar Zia Khan, Pascal Poupart và James P. Black. giải thích đầy đủ tối thiểu cho

quá trình quyết định markov nhân tố. Trong Kỷ yếu của Quốc tế thứ mười chín

Hội thảo về Lập kế hoạch và Lập kế hoạch Tự động hóa, 2009.

Diederik P. Kingma và Jimmy Ba. Adam: Một phương pháp tối ưu hóa ngẫu nhiên.

CoRR, abs/1412.6980, 2014. URL http://arxiv.org/abs/1412.6980.

Diederik P. Kingma và Max Welling. Bayes biến thể mã hóa tự động. CoRR,

abs/1312.6114, 2013.

Pang Wei Koh và Percy Liang. Hiểu dự đoán hộp đen thông qua ảnh hưởng

chức năng. Trong Kỷ yếu Hội nghị Quốc tế lần thứ 34 về Học máy

- Tập 70, ICML'17, trang 1885–1894. JMLR.org, 2017.

Anurag Koul, Alan Fern và Sam Greydanus. Học biểu diễn trạng thái hữu hạn của

mạng lưới chính sách định kỳ. Trong Hội nghị quốc tế về biểu diễn học tập,

2019. URL https://openreview.net/forum?id=S1gOpsCctm.

Isaac Lage, Daphna Lifschitz, Finale Doshi-Velez, và Ofra Amir. Khám phá máy tính

các mô hình người dùng chuyên dụng để tóm tắt chính sách đại lý. Trong Sarit Kraus, biên tập viên, Kỷ yếu

của Hội nghị chung quốc tế lần thứ 28 về trí tuệ nhân tạo, trang

1401–1407. ijcai.org, 2019.

Diễn viên: Guillaume LampleNeil ZeghidourNicolas UsunierAntoine BordesLudovic De

Noyer, et al. Mạng Fader: Thao tác hình ảnh bằng cách trượt thuộc tính. tạm ứng

trong Hệ thống xử lý thông tin thần kinh, 2017.

David Lewis. phản thực tế. John Wiley & Các con trai, 1973.

Prashan Madumal, Tim Miller, Liz Sonenberg, và Frank Vetere. Có thể giải thích được

ép buộc học tập thông qua lăng kính nhân quả. Trong Kỷ yếu Hội nghị AAAI

về Trí tuệ nhân tạo, 2020.

45
Machine Translated by Google

Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly và Ian J. Goodfellow. đối thủ

bộ mã hóa tự động ial. CoRR, abs/1511.05644, 2015. URL http://arxiv.org/abs/

1511.05644.

Sameer Singh Marco Tulio Ribeiro và Carlos Guestrin. Neo: Độ chính xác cao

giải thích mô hình bất khả tri. Trong Kỷ yếu Hội nghị AAAI lần thứ 32 về

Trí tuệ nhân tạo, 2018.

Tim Miller. Giải thích về trí tuệ nhân tạo: Những hiểu biết sâu sắc từ khoa học xã hội.

Trí tuệ nhân tạo, 2019.

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness,

Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg

Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen

King, Dharshan Kumaran, Daan Wierstra, Shane Legg và Demis Hassabis. Nhân loại

kiểm soát mức độ thông qua học tăng cường sâu. Thiên nhiên, 2015.

Ramaravind K. Mothilal, Amit Sharma, và Chenhao Tan. Giải thích học máy

phân loại thông qua các giải thích phản thực đa dạng. Trong Kỷ yếu 2020

Hội nghị về Công bằng, Trách nhiệm giải trình và Minh bạch, 2020.

Alex Mott, Daniel Zoran, Mike Chrzanowski, Daan Wierstra và Danilo Jimenez

Rezende. Hướng tới học tập củng cố có thể diễn giải bằng cách sử dụng tăng cường sự chú ý

đại lý. Trong NeurIPS, 2019.

Lawrence Neal, Matthew Olson, Xiaoli Fern, Weng-Keen Wong và Fuxin Li. Mở

thiết học có hình ảnh phản thực. Trong Kỷ yếu của Hội nghị Châu Âu

về Thị giác Máy tính (ECCV), 2018.

Weili Nie, Tero Karras, Animesh Garg, Shoubhik Debhath, Anjul Patney, Ankit B Patel,

và Anima Anandkumar. Stylegan bán giám sát để học gỡ rối.

arXiv, trang arXiv–2003, 2020.

Matthew Olson, Lawrence Neal, Fuxin Li, và Weng-Keen Wong. phản thực tế

trạng thái cho các đại lý atari thông qua học sâu tổng quát. Trong Kỷ yếu của IJCAI 2019

Hội thảo về Trí tuệ nhân tạo có thể giải thích được, 2019.

46
Machine Translated by Google

Diễn viên: Adam PaszkeSam GrossFrancisco MassaAdam LererJames BradburyGregory

Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Des

maison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan

Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai và Soumith

Chintala. Pytorch: Một phong cách bắt buộc, thư viện học sâu hiệu suất cao. TRONG

Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2019.

Judea Pearl và Dana Mackenzie. Cuốn sách Tại sao: Khoa học mới về nguyên nhân và

Tác dụng. Sách cơ bản, 1 ấn bản, 2018.

Martin L. Puterman. Quy trình quyết định Markov: Discrete Stochastic Dynamic Pro

ngữ pháp. John Wiley & Sons, Inc., 1994.

Zhongang Qi, Saeed Khorram, và Fuxin Li. Trực quan hóa các mạng sâu bằng cách tối ưu hóa

với độ dốc tích hợp. CoRR, abs/1905.00954, 2019. URL http://arxiv.

org/abs/1905.00954.

Alec Radford, Luke Metz và Soumith Chintala. đại diện không giám sát

học tập với các mạng lưới đối thủ tạo tích chập sâu. bản in trước arXiv

arXiv:1511.06434, 2015.

Marco Tulio Ribeiro, Sameer Singh và Carlos Guestrin. "tại sao tôi nên tin tưởng bạn?": Ex

làm rõ các dự đoán của bất kỳ bộ phân loại nào. Trong Kỷ yếu của ACM SIGKDD lần thứ 22

Hội nghị quốc tế về khám phá tri thức và khai thác dữ liệu, 2016.

Ramprasaath R Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam,

Devi Parikh, và Dhruv Batra. Grad-cam: Giải thích trực quan từ các mạng sâu

thông qua nội địa hóa dựa trên độ dốc. Trong Kỷ yếu hội thảo quốc tế IEEE

về thị giác máy tính, 2017.

Pedro Sequeira và Melinda Gervasio. Các yếu tố thú vị để giải thích lại

học tập cưỡng bức: Hiểu khả năng và hạn chế của các đại lý. nhân tạo

cial Intelligence, 288:103367, tháng 11 năm 2020. doi: 10.1016/j.artint.2020.103367. URL

http://dx.doi.org/10.1016/j.artint.2020.103367.

47
Machine Translated by Google

Avanti Shrikumar, Peyton Greenside, và Anshul Kundaje. Học các tính năng quan trọng

thông qua tuyên truyền sự khác biệt kích hoạt. Trong Kỷ yếu của Quốc tế thứ 34

Conference on Machine Learning-Tập 70, 2017.

Karen Simonyan, Andrea Vedaldi và Andrew Zisserman. Sâu bên trong tích chập

mạng: Trực quan hóa các mô hình phân loại hình ảnh và bản đồ độ mặn. bản in trước arXiv

arXiv:1312.6034, 2013.

Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox và Martin Riedmiller.

Phấn đấu cho sự đơn giản: Mạng tích chập toàn bộ. arXiv in sẵn arXiv:1412.6806,

2014.

Mukund Sundararajan, Ankur Taly và Qiqi Yan. Phân bổ tiên đề cho sâu

các mạng. Trong Kỷ yếu Hội nghị Quốc tế lần thứ 34 về Học máy

- Tập 70, ICML'17, trang 3319–3328. JMLR.org, 2017.

Ilya Tolstikhin, Olivier Bousquet, Sylvain Gelly và Bernhard Schoelkopf. Wasserstein

bộ mã hóa tự động. Trong Hội nghị Quốc tế về Biểu diễn Học tập, 2018. URL

https://openreview.net/forum?id=HkL7n1-0b.

Lisa Torrey và Matthew Taylor. Giảng dạy với ngân sách: Đại lý tư vấn cho đại lý trong

học tăng cường. Trong Kỷ yếu Hội thảo Quốc tế 2013 về

Autonomous Agents and Multi-Agent Systems, trang 1053–1060, Richland, SC, 2013.

Tổ chức quốc tế về các đại lý tự trị và hệ thống đa tác nhân.

Jasper van der Waa, Jurriaan van Diggelen, Karel van den Bosch và Mark Neerincx.

Giải thích tương phản cho việc học tăng cường về kết quả dự kiến

nghi thức. Trong Kỷ yếu Hội thảo IJCAI/ECAI 2018 về AI có thể giải thích được,

2018.

Abhinav Verma, Vijayaraghavan Murali, Rishabh Singh, Pushmeet Kohli, và

Swarat Chaudhuri. Học tăng cường có thể diễn giải theo chương trình. CoRR,

abs/1804.02477, 2018. URL http://arxiv.org/abs/1804.02477.

48
Machine Translated by Google

Sandra Wachter, Brent Mittelstadt và Chris Russell. giải thích phản thực tế

mà không cần mở hộp đen: Các quyết định tự động và gdpr. Harv. JL & Tech.,

2017.

Tom Zahavy, Nir Ben-Zrihem và Shie Mannor. Làm xám hộp đen: Hiểu biết

dqns. Trong Hội nghị Quốc tế về Học máy, 2016.

Matthew D Zeiler và Rob Fergus. Trực quan hóa và hiểu mạng tích chập

làm. Trong hội nghị châu Âu về thị giác máy tính, 2014.

Jianming Zhang, Sarah Adel Bargal, Zhe Lin, Jonathan Brandt, Xiaohui Shen và Stan

Sclaroff. Sự chú ý thần kinh từ trên xuống bằng cách kích thích backprop. Tạp chí quốc tế

của Thị giác máy tính, 2018.

49
Machine Translated by Google

Phụ lục A. Điều chỉnh thông số

Hình A.18: Một ví dụ về các mô hình khác nhau được đào tạo với các tham số khác nhau đối với thông thường

đại lý được đào tạo. Trạng thái ban đầu với hành động = MoveLeftAndShoot để tạo

phản thực được hiển thị ở trên cùng bên trái, với phần còn lại của hình ảnh là trạng thái phản thực

trong đó tác nhân sẽ thực hiện hành động phản tác dụng = Cháy.

Hình A.18 cho thấy tác động của việc thay đổi tham số. Khi tăng, thì cũng vậy

lượng thay đổi trong trạng thái phản thực tế, với các giá trị thấp gây ra gần như

những thay đổi không thể nhận thấy và các giá trị cao tạo ra trạng thái chất lượng thấp, méo mó. Từ

nghiên cứu người dùng đầu tiên của chúng tôi, chúng tôi thấy rằng những người không phải là chuyên gia có thể xác định rõ ràng độ trung thực kém

hình ảnh, gây ra bởi các tham số quá cao. Đưa ra một tập hợp các hình ảnh được tạo ra

bởi các giá trị khác nhau, chúng tôi cảm thấy rằng việc tìm kiếm một "điểm ngọt ngào" giữa quá cao và quá

thấp nên có thể quản lý được đối với người xem không phải là chuyên gia vì có nhiều loại

các giá trị tạo ra phản thực chất lượng cao hợp lý. Tự động hóa quy trình

việc lựa chọn một sản phẩm phản thực có độ trung thực cao nằm ngoài phạm vi của tài liệu này.

công việc, nhưng là một lĩnh vực quan tâm trong tương lai.

Phụ lục B. Thí nghiệm Ablation cho Mạng nơ-ron trạng thái phản thực

Ngành kiến trúc

Trong phần này, chúng tôi mô tả nhiều thí nghiệm cắt bỏ khác nhau bằng cách sử dụng dây thần kinh.

kiến trúc mạng được mô tả trong Phần 3.2 để giải thích trạng thái phản thực tế của chúng tôi.

50
Machine Translated by Google

Thí nghiệm cắt bỏ 1 2 3 4 5 6 7 8 9 10

( )

( ( ))

Bảng B.4: Tổng quan về những yếu tố nào được cung cấp làm đầu vào cho bộ tạo cho mỗi lần cắt bỏ

cuộc thí nghiệm.

Những sự cắt bỏ này minh họa cách mỗi thành phần trong kiến trúc của chúng tôi cần thiết để đạt được

hình ảnh phản thực chất lượng cao. Trình tạo luôn được sử dụng với quá trình tái tạo MSE

mất mát, nhưng những gì chúng tôi truyền vào máy phát điện sẽ thay đổi đối với mỗi thí nghiệm cắt bỏ. Chúng tôi

cung cấp tổng quan về các phương pháp cắt bỏ khác nhau trong Bảng B.4 và Hình B.19 và B.20

chứa các hình ảnh đại diện cho các vấn đề đối với mỗi thí nghiệm cắt bỏ.

Tiếp theo, chúng tôi thảo luận chi tiết về từng thí nghiệm cắt bỏ:

Hình B.19: Từ trái sang phải: các lần cắt bỏ 1 - 5. Trong mỗi cột và mỗi hàng, hình trên cùng là

trạng thái ban đầu trong đó = MoveRight, hình ảnh trung tâm là bản dựng lại được mã hóa tự động của

trạng thái ban đầu, hình ảnh dưới cùng là trạng thái phản thực trong đó = MoveRightAndFire.

51
Machine Translated by Google

Hình B.20: Từ trái sang phải: lần cắt bỏ 6 - 10. Trong mỗi cột, hình trên cùng là ảnh gốc

trạng thái trong đó = MoveRight, hình ảnh ở giữa là bản dựng lại được mã hóa tự động và hình ảnh dưới cùng

là một trạng thái phản thực trong đó = MoveRightAndFire.

1. Chúng tôi điều tra tác động của việc chỉ sử dụng chính sách của đại lý để tạo lại

các trạng thái và sửa đổi nó bằng tay để tạo ra các trạng thái phản thực tế: loại bỏ tất cả các phần

từ mô hình của chúng tôi ngoại trừ tác nhân và trình tạo, chỉ chuyển ( ), trong đó = ( ), vào trình

tạo. Điều này cho chúng ta các trạng thái được xây dựng lại dưới dạng

( ( )). Chúng tôi sửa đổi vectơ chính sách ( ) bằng cách chọn một hành động phản tác dụng

, cài đặt ( , ) = ( , ) 1,01 và chuẩn hóa xác suất trở lại 1.

Sửa đổi tay này rõ ràng không phải là đại diện của đại lý. Như thể hiện trong

hình B.19, các trạng thái được tái tạo và phản thực tế có chất lượng cực kỳ thấp.

2. Chúng tôi điều tra tác động của việc chỉ sử dụng biểu diễn đã học của tác nhân để

tạo ra cả trạng thái được xây dựng lại và trạng thái phản tác dụng. Chúng tôi đã loại bỏ tất cả các bộ phận

từ mô hình của chúng tôi ngoại trừ tác nhân và trình tạo, chuyển vào trình tạo.

Điều này cho chúng ta các trạng thái được xây dựng lại ở dạng ( ) và các trạng thái phản thực

bằng cách sửa đổi giảm dần độ dốc như được mô tả trong Phần 3.3 để có được .

Như thể hiện trong hình B.19, các trạng thái phản thực là khá phi thực tế, nhưng

đáng ngạc nhiên là các trạng thái được xây dựng lại là chính xác.

52
Machine Translated by Google

3. Chúng tôi đã loại bỏ tất cả các bộ phận khỏi mô hình của mình ngoại trừ tác nhân và bộ tạo, điều này

thời gian chuyển cả hai và ( ) vào trình tạo. Điều này cho chúng ta xây dựng lại

trạng thái ở dạng ( , ( )) và các trạng thái phản thực bằng cách sửa đổi với

giảm độ dốc như được mô tả trong Phần 3.3 để có được một . Như thể hiện trong hình B.19,

các trạng thái phản thực tế là khá phi thực tế, nhưng đáng ngạc nhiên là các trạng thái được xây dựng lại

trạng thái là chính xác.

4. Chúng tôi điều tra chỉ sử dụng bộ mã hóa tự động Wasserstein. Ở đây chúng tôi chỉ vượt qua

vào trình tạo, ở đâu là biểu diễn tiềm ẩn của trạng thái trong Wasserstein

dấu cách = ( ( )). Điều này cho chúng ta các trạng thái được xây dựng lại ở dạng ( )

và các trạng thái phản thực bằng cách sửa đổi với độ dốc giảm dần như được mô tả trong

Mục 3.3 để có được một . Như thể hiện trong hình B.19, cả công trình được xây dựng lại và

trạng thái phản thực là hoàn toàn phi thực tế.

5. Chúng tôi đã loại bỏ tất cả các bộ phận khỏi mô hình của mình ngoại trừ tác nhân, chiếc ô tô Wasserstein

bộ mã hóa và bộ tạo. Ở đây chúng tôi chuyển cả hai và ( ) vào trình tạo.

Điều này cho chúng ta các trạng thái được xây dựng lại ở dạng ( , ( )) và phản thực

trạng thái bằng cách sửa đổi với giảm dần độ dốc như được mô tả trong Phần 3.3 để có được

Một . Như thể hiện trong Hình B.20, cả trạng thái được tái tạo và trạng thái phản thực

cải thiện tương đối so với lần cắt bỏ trước đó, nhưng vẫn còn khá phi thực tế.

6. Ở đây chúng tôi điều tra tác động của việc giữ bộ mã hóa và bộ phân biệt, nhưng

sửa đổi thủ công đầu vào chính sách cho trình tạo thay vì sử dụng Wasserstein

tự động mã hóa hoặc giảm độ dốc. Đầu vào của máy phát điện tương đương với

công việc được mô tả trong phần 3. Chúng tôi sửa đổi vectơ chính sách ( ), bằng cách chọn

một hành động phản thực tế , cài đặt ( , ) = ( , ) 1.01 và chuẩn hóa

xác suất trở lại 1. Những sửa đổi bàn tay này có thể, hoặc không, được đại diện

bản chất của những gì các đại lý làm. Như thể hiện trong hình B.19, các bang có cùng

chất lượng được tạo ra như phương pháp của chúng tôi và trạng thái phản thực có một chút, nhưng

thay đổi có ý nghĩa.

7. Lần cắt bỏ này tương tự như lần cắt bỏ trước, nhưng thay vì thông qua chính sách

vectơ ( ) cho trình tạo, chúng tôi nhập không gian tiềm ẩn của tác nhân. Như với trước

cắt bỏ, chúng tôi tạo ra các trạng thái phản thực bằng cách sửa đổi với độ dốc giảm dần

như được mô tả trong Phần 3.3 để có được một . Như thể hiện trong hình B.20, các bang có

53
Machine Translated by Google

một chất lượng tốt, nhưng các trạng thái phản thực tế có những thay đổi tương đối lớn và

một vài hiện vật.

8. Tương tự như lần cắt bỏ trước, nhưng thay vì chỉ chuyền , chúng tôi chuyền cả hai

vectơ chính sách ( ) và tới trình tạo. Như với các lần cắt bỏ trước đây, chúng tôi

tạo các trạng thái phản thực bằng cách sửa đổi với độ dốc giảm dần như được mô tả

trong Mục 3.3 để có được một . Như thể hiện trong hình B.20, các trạng thái có chất lượng tốt hơn

hơn là chỉ đi vào , nhưng phản thực có chất lượng thấp hơn phương pháp của chúng tôi.

9. Chúng tôi thêm lại bộ mã hóa tự động Wasserstein vào quá trình cắt bỏ trước đó. Thay vì

chuyển không gian tiềm ẩn của tác nhân sang trình tạo, chúng tôi chuyển vào Wasserstein

đại diện = ( ( )). Như được mô tả trong 3.3, chúng tôi tạo phản thực

trạng thái bằng cách sửa đổi để có được một . Như thể hiện trong hình B.20, các trạng thái cao

chất lượng, nhưng các trạng thái phản thực thường không có thay đổi.

10. Thí nghiệm này là một sự cắt bỏ theo nghĩa là chúng tôi loại bỏ sự ngắt kết nối

giữa thế hệ và . Nói cách khác, chúng tôi sử dụng phương pháp ban đầu của chúng tôi

và thêm làm đầu vào cho trình tạo. Khi các trạng thái phản thực được tạo ra,

được chuyển vào trình tạo cùng với ( ) và ( ). Như thể hiện trong hình

B.20, các trạng thái có chất lượng cao và các trạng thái phản thực rất thú vị. Chúng tôi

không thể tìm thấy sự khác biệt về chất lượng cho các trạng thái được tạo giữa trạng thái này

cắt bỏ và phương pháp của chúng tôi. Vì quá trình cắt bỏ này phức tạp hơn và đòi hỏi nhiều

tham số, chúng tôi quyết định không sử dụng nó cho mục đích của chúng tôi.

Phụ lục C. Chi tiết về Nghiên cứu người dùng 2

Trong phần này, chúng tôi cung cấp thêm chi tiết về nghiên cứu người dùng thứ hai. Cụ thể, chúng tôi

bao gồm tập lệnh hướng dẫn và hình ảnh được sử dụng trong nghiên cứu người dùng thứ hai.

Phụ lục C.1. Tập lệnh Hướng dẫn Nghiên cứu Người dùng

Trong hướng dẫn này, chúng tôi sẽ giới thiệu cho bạn công cụ tìm AI bị trục trặc.

Công cụ này hiển thị phản hồi của AI đối với các câu hỏi “Nếu như” cụ thể. Cả hai hoạt động

và AI bị trục trặc cung cấp câu trả lời cho câu hỏi “Nếu như”.

Đối với nghiên cứu này, chúng tôi đã chọn 20 ảnh chụp màn hình khác nhau từ các video. Sau đó

học cách sử dụng công cụ, bạn sẽ kiểm tra các ảnh chụp màn hình đã chọn để thu thập dữ liệu

54
Machine Translated by Google

Hình C.21: Các ví dụ hướng dẫn nghiên cứu người dùng được sử dụng để mô tả các trạng thái phản thực tế, trong đó

hàng trên cùng của hình ảnh là một lời giải thích có thể phản thực tế và hàng dưới cùng là một lời giải thích khác. Truy vấn

trạng thái có hành động = Rẽ phải nơi ô tô tự lái đang đưa bạn về nhà (trái), phản thực tế

trạng thái nơi hành động = Đi thẳng (phải) và sự khác biệt được đánh dấu (giữa).

trên hai AI. Danh tính của AI sẽ được ẩn danh cho đến khi đánh giá cuối cùng.

Tại thời điểm này, vui lòng nhấp vào hộp kiểm, sau đó nhấp vào nút tiếp tục.

Đối với mỗi ảnh chụp màn hình đã chọn, bạn sẽ thấy ba hình ảnh được sắp xếp trong một bảng. Chúng tôi

bây giờ sẽ đi qua cách sắp xếp bảng. Vui lòng nhấp vào Tiếp theo.

Hình ảnh đầu tiên là ảnh chụp màn hình từ các video gốc. Vui lòng nhấp vào Tiếp theo.

Trong cột này, bạn cũng sẽ thấy ngữ cảnh của ảnh chụp màn hình gốc với một đoạn ngắn

gif. Vui lòng nhấp vào Tiếp theo.

Nhấp vào hình ảnh để thay đổi nó thành một gif. Ảnh gif hiển thị ba trò chơi trước đó

Những trạng thái. Sau đó bấm một lần nữa để trở lại hình ảnh. Trong cột, bạn cũng sẽ thấy bản gốc

hành động mà AI quyết định sẽ thực hiện tại thời điểm đó trong video. Vui lòng nhấp vào Tiếp theo.

Trong ví dụ này, AI ban đầu quyết định nó sẽ thực hiện hành động "bắn". Sau đó chúng tôi

hỏi AI, "Màn hình hiện tại sẽ trông như thế nào để bạn thực hiện

hành động "di chuyển sang phải"? Để trả lời câu hỏi này, AI sẽ chỉ đánh giá hiện tại

thời điểm trong trò chơi, không phải quá khứ hay tương lai. Vui lòng nhấp vào Tiếp theo.

Để có một ví dụ cụ thể hơn, hãy xem xét những điều sau đây. Hãy tưởng tượng có một bản thân màu đỏ

lái xe đang đưa bạn về nhà. Nó đến gần một giao lộ và nó muốn rẽ

quyền đưa bạn đến đích. (Hiển thị Hình C.21 trên cùng bên trái)

55
Machine Translated by Google

Bây giờ hãy tưởng tượng một tình huống mà chiếc ô tô màu đỏ sẽ chọn đi thẳng thay vì

rẽ phải. Có nhiều lý do tại sao điều này có thể xảy ra. Một ví dụ là nếu

cây nâu đổ chắn ngang đường. (Hiển thị Hình C.21 trên cùng bên phải)

Trong ví dụ này, câu trả lời cho câu hỏi “cần thay đổi điều gì” ngay bây giờ

để ô tô chọn đi thẳng tại giao lộ này (chỉ vào hình bên trái), sẽ là “đường

cây màu nâu đổ chắn lối rẽ phải” (chỉ vào hình bên phải), rõ chưa?

Xuất sắc. Bây giờ trong các ví dụ bạn sẽ xem xét, AI sẽ trả lời câu hỏi về

“những gì cần thay đổi” bằng cách trả lời bằng 2 hình ảnh. Vui lòng nhấp vào Tiếp theo.

Phản hồi đầu tiên là trạng thái đã thay đổi. Phản ứng này cho thấy số lượng nhỏ nhất của

thay đổi trong trò chơi để thực hiện hành động khác là “di chuyển sang phải”. Quay lại ví dụ về ô tô,

nếu hình ảnh ban đầu là giao điểm (chỉ vào hình ảnh bên trái), phản hồi sau

hình ảnh sẽ là giao điểm với cây nâu bị đổ (chỉ vào hình ảnh bên phải), Vui lòng

Bấm tiếp.

Trong cột thứ ba, lưu ý trò chơi đã thay đổi một cách tinh vi như thế nào theo hai cách: con tàu

dưới thanh chắn và thanh chắn được bọc thép toàn bộ. Vui lòng nhấp vào Tiếp theo.

Phản hồi AI thứ hai là làm nổi bật hình ảnh, chụp ảnh màn hình gốc

và thêm các điểm nổi bật màu xanh lam vào các thay đổi. Phản hồi này cho biết AI đang tìm kiếm ở đâu

để thay đổi xảy ra. Sử dụng ví dụ về ô tô, phản hồi này sẽ giống như phản hồi ban đầu

giao lộ với điểm nổi bật màu xanh nơi cây màu nâu đã di chuyển. (Cho Hình C.21

top-center) Rõ chưa?

Xuất sắc. Nhiều đối tượng cũng có thể ảnh hưởng đến quyết định của AI.

(Hiển thị Hình C.21 phía dưới bên trái). Trong ví dụ này, hai điều ảnh hưởng đến bản thân màu đỏ

lái xe ô tô quyết định thực hiện hành động di chuyển thẳng. Đầu tiên là: nếu cây màu nâu

đã bị ngã, nhưng nếu vị trí của chiếc xe màu đỏ thay đổi để nó vượt qua

ngã tư. (Hiển thị toàn bộ Hình C.21). Những điểm nổi bật cho ví dụ này cho thấy

cả xe đỏ lẫn cây nâu nổi bật trên nền xanh. Ví dụ thứ hai này có rõ ràng không?

Xuất sắc. Hãy để chúng tôi tiếp tục với bảng và vui lòng nhấp vào Tiếp theo.

Lưu ý cách các đối tượng đã thay đổi được đánh dấu bằng màu xanh lam: thanh chắn được sửa chữa và

vị trí tàu mới. Khi bạn đang xem bảng cho từng ảnh chụp màn hình đã chọn, bạn sẽ

được hỏi hai câu hỏi. Câu hỏi đầu tiên là: “bạn nghĩ đồ vật nào trong trò chơi

AI chú ý đến? Vui lòng nhấp vào Tiếp theo để xem câu hỏi này. Bạn không cần phải

56
Machine Translated by Google

chọn một câu trả lời cho hướng dẫn này. Xin lưu ý rằng bạn có thể chọn nhiều hơn một hộp kiểm,

hoặc không có hộp kiểm nào cả.

Câu hỏi thứ hai bạn sẽ được hỏi là: bạn đã phản hồi hoặc phản hồi AI nào

sử dụng để đưa ra quyết định của bạn? Vui lòng nhấp vào Tiếp theo. Một lần nữa, bạn không cần phải trả lời điều này

cho hướng dẫn. Bạn sẽ được hỏi những câu hỏi tương tự cho mỗi ảnh chụp màn hình đã chọn.

Đây là công cụ đầy đủ mà bạn sẽ sử dụng để phân tích từng ảnh chụp màn hình được trình bày trong

thứ tự ngẫu nhiên. Phần này sẽ mất khoảng 10 đến 15 phút. Đối với mỗi bộ ảnh

bạn sẽ được yêu cầu dành ít nhất 30 giây. Sẽ có một bộ đếm thời gian trên màn hình.

Sau khi bạn kiểm tra xong 20 ảnh chụp màn hình ngẫu nhiên, bạn sẽ sử dụng

dữ liệu để hoàn thành đánh giá thứ hai. Kết quả của bạn từ công cụ sẽ được hiển thị trong

cả bảng và biểu đồ. Ngoài ra, chúng tôi sẽ tiết lộ cho bạn những ví dụ nào từ

AI một và đó là từ AI hai.

Với thông tin này, bạn sẽ trả lời lại câu hỏi: “AI nào đang trục trặc

và nó không thể nhìn thấy những đồ vật nào trong trò chơi?” Và cuối cùng, sau khi bạn đã gửi

Đánh giá thứ 2, chúng tôi yêu cầu bạn thực hiện một phản ánh ngắn bằng văn bản. Khi bạn đã sẵn sàng,

nhấp vào “Kết thúc hướng dẫn” để bắt đầu xem 20 ảnh chụp màn hình đã chọn. tôi sẽ rời khỏi

ví dụ hướng dẫn trên máy chiếu và ví dụ về ô tô trên bảng trắng. Bạn có thể

bắt đầu.

Phụ lục C.2. Hình ảnh

Trong phần này, chúng tôi trình bày thêm một loạt các giải thích từ nghiên cứu người dùng của chúng tôi.

Hình C.22 và C.23 trình bày các giải thích cho tác nhân được huấn luyện bình thường cho cả hai

giải thích trạng thái phản thực và giải thích phản thực hàng xóm gần nhất,

sắp xếp theo bước thời gian trò chơi. Hình C.24 và C.25 thể hiện tương tự các giải thích cho

đại lý thiếu sót. Những số liệu này cho thấy cách giải thích phản thực của hàng xóm gần nhất

thường cho thấy vị trí của con tàu màu xanh lá cây thay đổi vì tác nhân sai sót, trong khi chúng ta

giải thích trạng thái phản thực tế không bao giờ thay đổi vị trí của con tàu.

Phụ lục D. Phân tích dữ liệu nghiên cứu người dùng

Để trả lời câu hỏi nghiên cứu 2 và 3, hai nhà nghiên cứu đã áp dụng chung

phân tích nội dung [Hsieh và Shannon, 2005] vào kho dữ liệu câu hỏi của bài viết.

57
Machine Translated by Google

Họ đã phát triển các mã được trình bày trong Bảng D.5. Các mã này được xác định bằng cách có hai

các nhà nghiên cứu đã mã hóa 20% kho dữ liệu riêng lẻ, đạt được độ tin cậy giữa những người đánh giá

(IRR) ít nhất 90% (được tính bằng Chỉ số Jaccard [Jaccard, 1908]) với tất cả dữ liệu

bộ.

Mã số Sự miêu tả Ví dụ

Hữu ích Người tham gia tìm thấy “Vâng, hình ảnh thứ ba đóng một vai trò trong

hiện vật hữu ích cho giúp tôi đưa ra quyết định của mình.”

nhiệm vụ chính, và nó đã giúp

họ hiểu rõ hơn và

đánh giá đại lý.

Có vấn đề Người tham gia tìm thấy “Phần trạng thái thay đổi bối rối

tạo tác cản trở-một số và tôi vì tôi không chắc đó có phải là

chính có vấn đề hành động tiếp theo mà AI đã thực hiện hoặc ac

nhiệm vụ.
tion nó nghĩ về việc đưa ra

hoàn cảnh nổi bật.”

Bảng D.5: Các mã định tính được sử dụng trong phân tích của chúng tôi

58
Machine Translated by Google

= Di chuyển sang trái


= MoveRightAndShoot, = Di chuyển sang phải

= Di chuyển sang phải = MoveRightAndShoot, = Bắn

= Di chuyển sang phải = Bắn, = MoveRightAndShoot

= Di chuyển sang trái


= MoveRightAndShoot, = MoveLeftAndShoot

= Di chuyển sang trái


= MoveRightAndShoot, = MoveLeftAndShoot

Hình C.22: Năm giải thích đầu tiên cho tác nhân được đào tạo thông thường được sử dụng trong nghiên cứu người dùng.

(Giữa) Trạng thái ban đầu nơi tác nhân đã hành động . (Trái) Trạng thái phản thực

giải thích nơi đại lý thực hiện hành động . (Phải) Trạng thái phản thực láng giềng gần nhất

nơi đại lý thực hiện hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa

trạng thái phản thực và trạng thái ban đầu.

59
Machine Translated by Google

= Di chuyển sang trái


= MoveRightAndShoot, = Bắn

= Bắn = Di chuyển sang phải, = MoveRightAndShoot

= Bắn = Di chuyển sang phải, = MoveRightAndShoot

= Di chuyển sang trái


= MoveRightAndShoot, = Di chuyển sang phải

= Di chuyển sang trái


= MoveRightAndShoot, = Di chuyển sang phải

Hình C.23: Giải thích từ 6 đến 10 cho tác nhân được đào tạo thông thường được sử dụng trong nghiên cứu người dùng.

(Giữa) Trạng thái ban đầu nơi tác nhân đã hành động . (Trái) Trạng thái phản thực

giải thích nơi đại lý thực hiện hành động . (Phải) Trạng thái phản thực láng giềng gần nhất

nơi đại lý thực hiện hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa

trạng thái phản thực và trạng thái ban đầu.

60
Machine Translated by Google

= Di chuyển sang phải = Di chuyển sang trái, = MoveLeftAndShoot

= Di chuyển sang phải = Bắn, = Ở Lại

= Di chuyển sang trái


= MoveRightAndShoot, = Di chuyển sang phải

= Di chuyển sang trái


= MoveRightAndShoot, = Di chuyển sang phải

= Di chuyển sang phải = MoveRightAndShoot, = Bắn

Hình C.24: Năm giải thích đầu tiên cho tác nhân sai sót được sử dụng trong nghiên cứu người dùng. (Trung tâm) Các

trạng thái ban đầu nơi đại lý đã hành động . (Trái) Các giải thích về trạng thái phản thực trong đó

đại lý thực hiện hành động . (Phải) Trạng thái phản thực Hàng xóm Gần nhất nơi tác nhân

hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa phản thực

trạng thái và trạng thái ban đầu.

61
Machine Translated by Google

= Di chuyển sang phải = MoveRightAndShoot, = Bắn

= Di chuyển sang phải = MoveLeftAndShoot, = Di chuyển sang trái

= Di chuyển sang phải = MoveLeftAndShoot, = Di chuyển sang trái

= Di chuyển sang phải = MoveLeftAndShoot, = Di chuyển sang trái

= Di chuyển sang phải = MoveLeftAndShoot, = Di chuyển sang trái

Hình C.25: Giải thích từ 6 đến 10 cho tác nhân sai sót được sử dụng trong nghiên cứu người dùng. (Trung tâm) Các

trạng thái ban đầu nơi đại lý đã hành động . (Trái) Các giải thích về trạng thái phản thực trong đó

đại lý thực hiện hành động . (Phải) Trạng thái phản thực Hàng xóm Gần nhất nơi tác nhân

hành động . (Giữa Trái/Phải) Sự khác biệt nổi bật giữa phản thực

trạng thái và trạng thái ban đầu.

62

You might also like