You are on page 1of 18

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN

KHOA CÔNG NGHỆ THÔNG TIN

Addressing Inquiries about History: An Efficient and


Practical Framework for Evaluating Open-domain
Chatbot Consistency
BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU
Ngành: Công nghệ thông tin

Giảng viên hướng dẫn:

PGS.TS. Hà Quang Thụy

Nhóm thực hiện: Nhóm 13

19020427 Đỗ Đức Tâm

19020232 Nguyễn Văn Chính

19020400 Nguyễn Khánh Quân

Hà Nội – 2022
Lời cam đoan
Chúng tôi xin cam đoan bài tập lớn này là do nhóm chúng tôi tự nghiên cứu và thực hiện,
không có sự sao chép sản phẩm của người khác. Tất cả tài liệu tham khảo được liệt kê rõ ở phần
cuối báo cáo và đều nằm trong giới hạn cho phép theo quy định. Nếu sai sự thật, nhóm chúng tôi
xin chịu hoàn toàn trách nhiệm.

Nhóm sinh viên thực hiện

Đỗ Đức Tâm

Nguyễn Văn Chính

Nguyễn Khánh Quân


Bảng Mục Lục
Bảng Mục Lục 3

1. Giới thiệu bài báo và các tác giả 4


1.1. Giới thiệu chung về bài báo 4
1.2. Giới thiệu các tác giả 4
1.2.1. Zekang Li 4
1.2.1. Jinchao Zhang 4
1.2.1. Zhengcong Fei 5
1.2.1. Yang Feng 5
1.2.1. Jie Zhou 6

2. Phân tích nội dung 6


2.1. Chủ đề 6
2.2. Đóng góp chính của bài báo 7
2.3. Cấu trúc bài báo 7
2.4. Phương pháp đề xuất 8
2.4.1. Giai đoạn đặt câu hỏi 9
2.4.2 Giai đoạn nhận biết mâu thuẫn 10
Đánh giá từ con người 11
2.4.3. Chỉ số nhất quán và xếp hạng bot 11

3. Quá trình thực nghiệm 12


3.1 Chatbots 12
3.2 Cài đặt thử nghiệm 13

4. Kết quả thực nghiệm 14


4.1 Đánh giá tính hiệu quả 15
4.2 Hiệu quả về thời gian 17
4.3 Tính ổn định của xếp hạng 18

5. Mở rộng 19
1. Giới thiệu bài báo và các tác giả
1.1. Giới thiệu chung về bài báo
Bài báo nhóm em được giao phân tích có tên “Addressing Inquiries about History: An
Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency” , được
công bố trong Hội nghị Quản lý thông tin và tri thức 2013

1.2. Giới thiệu các tác giả


Theo như công bố của bài báo“Addressing Inquiries about History: An Efficient and
Practical Framework for Evaluating Open-domain Chatbot Consistency”, nghiên cứu liên
quan được thực hiện bởi 5 tác giả, làm việc tại Phòng nghiên cứu thông tin tri
thức(ICT/CAS), Đại học viện khoa học Trung Quốc (UCAS), Trung tâm nhận dạng mẫu
của Wechat AI, công ty Tencent.

1.2.1. Zekang Li
Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/243/2436.html
Google Scholar: https://scholar.google.com/citations?hl=vi&user=ZmfOwN8AAAAJ
Số lượng công bố: 20 (Theo DBLP)
Tổng số trích dẫn: 311
h-index:5 | h-index (2017 - nay): 5
i10-index:5 | i10-index (2017 - nay): 5

Tóm tắt lý lịch khoa học: Hiện đang là Học viên Cao học tại Phòng nghiên cứu trọng
điểm về Xử lý Thông tin Thông minh, ICT, CAS, do Giáo sư Yang Feng cố vấn. Trước đó
đã được bằng B.E. tốt nghiệp tại Đại học Khoa học và Công nghệ Huazhong vào tháng 6
năm 2019.
Mối quan tâm nghiên cứu nằm trong Xử lý ngôn ngữ tự nhiên, đặc biệt là trong các
nhiệm vụ Hệ thống đối thoại và Thị giác-Ngôn ngữ. Đồng thời tham gia vào Khoa học
Nhận thức và ứng dụng của nó trong Hệ thống Đối thoại.

1.2.1. Jinchao Zhang


Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/127/3143.html
Google Scholar:https://scholar.google.com/citations?user=vH9YLsAAAAAJ&hl=en
Số lượng công bố: 82 (Theo DBLP)
Tổng số trích dẫn: 566
h-index: 13 | h-index (2017 - nay): 12
i10-index: 15 | i10-index (2017 - nay): 14

Tóm tắt lý lịch khoa học: Bằng Tiến sĩ về lý thuyết phần mềm máy tính của Học viện
Khoa học Trung Quốc, Trung Quốc, năm 2018. Hiện đang làm việc với Trung tâm Nhận
dạng Mẫu, WeChat AI, Tencent Ltd. với tư cách là Nhà khoa học Nghiên cứu Cấp cao.
Các mối quan tâm nghiên cứu của anh ấy bao gồm học sâu để xử lý ngôn ngữ tự nhiên,
đặc biệt là trong các hệ thống đối thoại và phiên dịch máy.

1.2.1. Zhengcong Fei


Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/267/2616.html
Google Scholar: https://scholar.google.com/citations?hl=en&user=_43YnBcAAAAJ
Số lượng công bố: 16 (Theo DBLP)
Tổng số trích dẫn: 69
h-index: 4 | h-index (2017 - nay): 4
i10-index: 2 | i10-index (2017 - nay): 2

Tóm tắt lý lịch khoa học: Tốt nghiệp thủ khoa Đại học Khoa học và Công nghệ Nam
Kinh, hiện đang là Học viên Cao học tại Phòng nghiên cứu trọng điểm về Xử lý Thông tin
Thông minh, ICT, CAS và là thực tập sinh tại Trung tâm Nhận dạng Mẫu, WeChat AI,
Tencent Ltd.

1.2.1. Yang Feng


Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/07/6095-4.html
Google Scholar:
https://scholar.google.com/citations?user=UYIw2qAAAAAJ&hl=en&oi=ao
Số lượng công bố: 77 (Theo DBLP)
Tổng số trích dẫn: 1157
h-index: 19 | h-index (2017 - nay): 15
i10-index: 27 | i10-index (2017 - nay): 24
Tóm tắt lý lịch khoa học: Yang Feng là giáo sư tại Viện Công nghệ Máy tính, Học viện
Khoa học Trung Quốc, nơi cô nhận bằng phD vào năm 2011. Cô đã làm việc tại Đại học
Sheffield và Viện Khoa học Thông tin, Đại học Nam California từ năm 2011 đến năm
2014. Hiện cô dẫn đầu về ngôn ngữ tự nhiên nhóm quy trình trong ICT / CAS và mối
quan tâm nghiên cứu của cô là xử lý ngôn ngữ tự nhiên, chủ yếu tập trung vào dịch máy
và đối thoại. Cô đã nhận được Giải thưởng Best Longest Paper của ACL 2019.

1.2.1. Jie Zhou


Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/00/5012-16.html
Semantic Scholar: https://www.semanticscholar.org/author/Jie-Zhou/49178343
Số lượng công bố: 214 (Theo DBLP)
Tổng số trích dẫn: 4442 (Theo Semantic Scholar)
h-index: 4 | h-index (2017 - nay): 4 (Theo Google Scholar)
i10-index: 3 | i10-index (2017 - nay): 3

Tóm tắt lý lịch khoa học: Jie Zhou nhận bằng cử nhân của USTC vào năm 2004 và
bằng Tiến sĩ. bằng cấp của Học viện Khoa học Trung Quốc năm 2009, và hiện là Giám
đốc cấp cao của Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Inc. Sở thích nghiên
cứu của anh ấy bao gồm xử lý ngôn ngữ tự nhiên và học máy.

2. Phân tích nội dung


2.1. Chủ đề
Trong những năm gần đây, chatbot thông minh miền mở đã đạt được những tiến bộ
vượt bậc do sự phát triển của các phương pháp tiếp cận đào tạo large-scale (Devlin và
cộng sự, 2019; Radford và cộng sự, 2019; Brown và cộng sự, 2020) và lượng lớn bộ dữ
liệu đàm thoại chất lượng cao (Dinan và cộng sự, 2019; Baumgartner và cộng sự, 2020;
Smith và cộng sự, 2020). Mặc dù những thành công đạt được là không thể chối cãi và có
những kết quả thú vị, vẫn còn một chặng đường dài để xây dựng một chatbot miền mở
thực sự giống con người.

Trong bài báo này, nhóm tác giả đề xuất Giải quyết các thắc mắc về lịch sử (AIH), một
framework hiệu quả và thiết thực để đánh giá tính nhất quán. Ở giai đoạn trò chuyện, AIH
cố gắng giải quyết các câu hỏi thích hợp về lịch sử đối thoại để khiến chatbot khai báo lại
các sự kiện hoặc ý kiến ​lịch sử. Nhóm nghiên cứu thực hiện cuộc trò chuyện giữa các
chatbot, điều này hiệu quả hơn tương tác giữa con người với bot và cũng có thể làm giảm
bớt sự thiên vị chủ quan. Bằng cách này nhanh chóng có được một phiên đối thoại chứa
các câu trả lời có khả năng mâu thuẫn cao. Ở giai đoạn nhận dạng mâu thuẫn có thể sử
dụng các thẩm phán của con người hoặc mô hình suy luận ngôn ngữ tự nhiên (NLI) để
nhận biết liệu câu trả lời cho các câu hỏi có mâu thuẫn với lịch sử hay không. Cuối cùng,
có thể xếp hạng chatbot theo thống kê mâu thuẫn.

2.2. Đóng góp chính của bài báo


Addressing Inquiries about History (AIH), một framework hiệu quả và thiết thực để
đánh giá tính nhất quán của chatbot miền mở. Framework có thể được sử dụng để xếp
hạng các chatbot khác nhau liên quan đến khả năng nhất quán với chính họ trong cuộc trò
chuyện.

Những đóng góp của tác giả được tóm tắt như sau:
• Đề xuất Giải quyết thắc mắc về lịch sử (AIH), một framework hiệu quả và thiết thực
để đánh giá tính nhất quán của chatbot miền mở.
• Các thử nghiệm cho thấy AIH có thể tạo ra đánh giá tính nhất quán hiệu quả, hiệu quả
và đáng tin cậy. Framework được phát hành như một công cụ sẵn sàng sử dụng để đánh
giá tính nhất quán của chatbot. AIH có thể tạo điều kiện và cung cấp đánh giá tiêu chuẩn
cho công việc phát triển chatbot miền mở tự nhất quán trong tương lai.

2.3. Cấu trúc bài báo


Bài báo “Addressing Inquiries about History: An Efficient and Practical Framework for
Evaluating Open-domain Chatbot Consistency” được chia làm tổng cộng 9 mục chính,
được trình bày theo thứ tự sau:
1. Mở đầu: Tóm tắt chung về bối cảnh bài toán và vấn đề đặt ra
2. Giới thiệu: Nói lên những nhược điểm của những phương pháp ra đời trước đó,
hướng giải quyết và giới thiệu về Framework AIH
3. Công việc liên quan: Nói về phương pháp đánh giá tĩnh và đánh giá tương tác
4. Cách tiếp cận: Cung cấp cái nhìn tổng quan về framework AIH, sau đó mô tả các
giai đoạn tiến hành trong framework: Yêu cầu, nhận biết mâu thuẫn và xếp hạng chatbots
5. Thiết lập thử nghiệm: Liệt kê các hệ thống đối thoại được sử dụng trong các thử
nghiệm, sau đó mô tả chi tiết các cài đặt thử nghiệm.
6. Kết quả thực nghiệm: Tiến hành các thí nghiệm để minh họa tính hiệu lực, hiệu quả
và tính ổn định của AIH framework được đề xuất.
7. Nghiên cứu thêm: Thảo luận thêm về hiệu quả của ba phần trong framework của
chúng tôi bao gồm tạo câu hỏi, phát hiện mâu thuẫn và đánh giá chú thích của con người.
8. Kết luận và công việc trong tương lai
9. Tài liệu tham khảo

2.4. Phương pháp đề xuất


Để ước tính khả năng nhất quán, các câu hỏi về ý kiến ​và sự kiện trong lịch sử đối
thoại được chèn vào cuộc trò chuyện bot-bot hiện tại. Sau đó, các phản hồi tương ứng
được thu thập và đánh giá bằng các công cụ tự động hoặc sự đánh giá của con người. Quy
trình làm việc của AIH Framework được thể hiện trong Hình 1.

Cụ thể, có năm “tác nhân” trong framework: Chatbot1, Chatbot2, Người hỏi, Bộ đánh
giá tự động và đánh giá từ con người. Chatbot1 và Chatbot2 là những thực thể tham gia
vào cuộc trò chuyện giữa bot-bot. Inquirer trích xuất các thực thể liên quan đến quan
điểm hoặc sự kiện và tạo các câu hỏi dựa trên các thực thể đó. Trình đánh giá tự động nói
chung là một mô hình phát hiện mâu thuẫn để tự động đánh giá xem các phản hồi từ
Chatbot2 có nhất quán hay không. Đánh giá từ con người được sử dụng để đánh giá
chính xác hơn.

Về mặt hình thức, giả sử một nhóm N chatbot {B1, ..., BN} đã sẵn sàng được đánh giá
về khả năng nhất quán. Đối với mỗi cặp chatbot (được gọi là Chatbot1 và Chatbot2),
chúng tôi để Chatbot1 nói chuyện với Chatbot2 trong K lượt. Lưu ý rằng Chatbot2 là một
trong những con cần được đánh giá. (i) Trong giai đoạn tìm hiểu, trong cuộc trò chuyện
giữa Chatbot1 và Chatbot2, đối với mỗi u2k phát ngôn do Chatbot2 tạo ra, Inquirer trích
xuất các thực thể về ý kiến ​và sự kiện, sau đó hỏi Chatbot2 một câu hỏi qk về các thực thể
này, trong đó k là số lượt. Chatbot 2 trả lời câu hỏi qk và tạo ra câu trả lời tương ứng. Lưu
ý rằng chúng tôi bỏ qua thao tác tạo câu hỏi khi không có thực thể nào có thể được trích
xuất. (ii) Trong giai đoạn nhận dạng mâu thuẫn, chúng tôi sử dụng mô hình nơ ron (ví dụ:
Mô hình suy luận ngôn ngữ tự nhiên) hoặc sử dụng các thẩm phán của con người để
quyết định xem cặp phát ngôn {u2k, rk} có tồn tại vấn đề không nhất quán hay không.
Chúng tôi thu thập ít nhất M hội thoại từ mỗi cặp chatbot, sau đó tính toán thứ tự xếp
hạng về tính nhất quán. Bằng cách này, chúng ta có thể phân biệt khả năng nhất quán của
chatbots một cách hiệu quả và nhanh chóng. Sau đây, chúng tôi sẽ lần lượt giới thiệu giai
đoạn điều tra và giai đoạn nhận biết mâu thuẫn.

2.4.1. Giai đoạn đặt câu hỏi

Dựa trên quan sát của chúng tôi và công việc trước đây (Nie và cộng sự, 2020), trong
cuộc trò chuyện giữa con người với bot hoặc bot tự nhiên, mâu thuẫn dễ xảy ra hơn khi
trò chuyện về các sự kiện và ý kiến ​lặp đi lặp lại, đặc biệt là sau những câu hỏi tương tự.
Do đó, để bắt chước quá trình xảy ra mâu thuẫn như vậy, chúng tôi tạo ra các chatbots để
tạo ra các câu trả lời bằng cách đặt các câu hỏi liên quan đến chatbots về các sự kiện và ý
kiến ​trước đó. Trong điều kiện này, việc tạo ra các câu hỏi thích hợp là khá quan trọng.
Do đó, trước tiên, chúng tôi trích xuất các thực thể về các sự kiện và ý kiến ​từ các phát
ngôn trong lịch sử, sau đó sử dụng mô hình thần kinh để tạo ra các câu hỏi về các thực thể
được trích xuất.

Trích xuất thực thể

Xét rằng các chatbot thường tạo ra mâu thuẫn khi trò chuyện về các sự kiện và ý kiến,
chúng tôi áp dụng các công cụ Nhận dạng đối tượng được đặt tên trong Stanza (Qi và
cộng sự, 2020), một gói phân tích ngôn ngữ tự nhiên phổ biến, để trích xuất các thực thể
được đặt tên từ u2k có chứa người, tổ chức. , vị trí, v.v. 2 Ví dụ: đối với câu nói “i would
love to visit New York next year.”, chúng ta có thể trích xuất hai thực thể: “New York” và
“Next year”.

Mô hình khởi tạo câu hỏi

Để khởi tạo câu hỏi, chúng tôi sử dụng mô hình UniLM (Dong et al., 2019) được tinh
chỉnh trên tập dữ liệu SQuAD (Rajpurkar et al., 2016) với nhiệm vụ tạo câu hỏi
(Wangperawong, 2020). Chúng tôi tận dụng việc triển khai công khai và checkpoint .
Trong framework của chúng tôi, với các thực thể được trích xuất trước và phát biểu,
UniLM tạo ra một câu hỏi phù hợp cho từng thực thể. Ví dụ: với “New York” và “Tôi rất
muốn đến thăm New York vào năm tới.”, Mô hình sẽ tạo ra “Where will you visit next
year?”. Sau đó, chúng tôi chọn ngẫu nhiên một câu hỏi và chèn nó vào cuộc trò chuyện
giữa bot-bot.

2.4.2 Giai đoạn nhận biết mâu thuẫn

Trong framework, vì câu hỏi qk dựa trên câu trả lời u2k của Chatbot2 trước đó, nên câu
trả lời từ Chatbot2 phải nhất quán với câu trả lời u2k. Do đó, bộ đánh giá tự động và đánh
giá từ con người chỉ có thể xem xét câu trả lời rk và câu nói u2k.

Trình đánh giá tự động

Để đánh giá tự động, Trình đánh giá tự động thường là một mô hình phát hiện mâu
thuẫn. Trình đánh giá tự động lấy câu trả lời rk được trả lời bởi Chatbot2 và câu nói trước
đó u2k làm đầu vào và xuất ra điểm số mâu thuẫn yk. Nó có thể được xây dựng dưới
dạng:

yk = fθ (rk, u2k), (1)

trong đó fθ là hàm phát hiện và θ là tham số. So với các phương pháp phát hiện mâu
thuẫn khác xem xét toàn bộ cuộc đối thoại, Trình đánh giá tự động có thể hạn chế tiếng ồn
có trong toàn bộ cuộc đối thoại. Trên thực tế, chúng tôi chọn mô hình Roberta-large (Liu
và cộng sự, 2019) được tinh chỉnh trên bộ dữ liệu Suy luận ngôn ngữ tự nhiên đa thể loại
(Williams và cộng sự, 2018) để triển khai Trình đánh giá tự động.

Đánh giá từ con người

Trong truyền thống các phương pháp đánh giá tính nhất quán đối thoại, các thẩm phán
con người được yêu cầu đọc toàn bộ cuộc đối thoại và đưa ra điểm số nhất quán tổng thể,
thường là 0 hoặc 1. Theo chúng tôi, các phương pháp này có chi phí cao và sự thống nhất
giữa các bên thấp vì không có hướng dẫn cụ thể, và nó quá khó để các thẩm phán con
người đưa ra điểm tổng thể cho toàn bộ cuộc đối thoại (Mehri và Eskenazi ´, 2020).
Trong framework của chúng tôi, đánh giá từ con người chỉ được yêu cầu đưa ra quyết
định nếu câu trả lời rk được Chatbot2 trả lời có nhất quán với câu trả lời trước đó u2k
hay không, điều này cụ thể và dễ dàng hơn so với các phương pháp truyền thống. Kết quả
là, chi phí giảm, và chất lượng đánh giá tăng lên. Bên cạnh đó, chú thích của con người
trong framework của chúng tôi chi tiết hơn nhiều so với các phương pháp truyền thống,
có thể cung cấp thêm thông tin cho chu trình phát triển của hệ thống đối thoại.

2.4.3. Chỉ số nhất quán và xếp hạng bot


Dựa trên kết quả trước đó,chúng ta có thể có được danh sách xếp hạng của chatbots
khác nhau về khả năng nhất quán. Về mặt hình thức, đối với mỗi cặp chatbot {Bi, Bj},
chúng tôi thu thập M hội thoại. Đối với mỗi cặp câu hỏi, việc phát hiện mâu thuẫn được
thực hiện bằng cách so sánh yk với một ngưỡng τ:

(2)

Tỷ lệ mâu thuẫn của chatbot Bj trong cặp chatbot Bij có thể được tính như sau:

(3)

trong đó m là số câu hỏi trong mỗi cặp đối thoại và M là tổng số cặp câu hỏi. Đối với
tỷ lệ mâu thuẫn tổng thể của chatbot Bj được tính như sau:

(4)

Cuối cùng, chúng ta có thể xếp hạng các chatbot bằng cách sử dụng tỷ lệ mâu thuẫn
tổng thể.

3. Quá trình thực nghiệm


Trong phần này, trước tiên liệt kê các hệ thống đối thoại được sử dụng trong các thử
nghiệm, sau đó mô tả chi tiết các cài đặt thử nghiệm.
3.1 Chatbots

Một số chatbot miền mở phổ biến được lựa chọn trong cuộc thí nghiệm.

Blender (BL) (Adiwardana và cộng sự, 2020a) được đào tạo trước trên tập dữ liệu
Reddit (Baumgartner và cộng sự, 2020) và sau đó được tinh chỉnh bằng tập dữ liệu hội
thoại chất lượng cao có chú thích của con người (BST), bao gồm bốn tập dữ liệu: Blended
Skill Talk (Smith et al., 2020), Wizard of Wikipedia (Dinan et al., 2019), ConvAI2 (Dinan
et al., 2020) và Empathetic Dialogues (Rashkin et al., 2019). Bằng cách tinh chỉnh,
Blender có thể học các kỹ năng đàm thoại kết hợp của sự tương tác, kiến ​thức, sự đồng
cảm và tính cách. Blender có ba kích thước mô hình: 90M, 2.7B và 9.4B. Vì mô hình
tham số 2.7B đạt được hiệu suất tốt nhất trong (Adiwardana và cộng sự, 2020a) nên phiên
bản 2.7B được sử dụng trong các thử nghiệm.

Plato (PL) (Bao et al., 2020) là một chatbot miền mở, được đào tạo trước với tập dữ
liệu Reddit và được tinh chỉnh với tập dữ liệu BST, được cho là vượt trội hơn Blender.
Theo đánh giá trong (Bao và cộng sự, 2020), phiên bản tham số 1.6B được lựa chọn trong
các thí nghiệm.

DialoGPT (DG) (Zhang và cộng sự, 2020) được đào tạo trên cơ sở GPT-2 (Radford và
cộng sự, 2019) bằng cách sử dụng các nhận xét của Reddit. Có ba kích thước mô hình:
117M, 345M và 762M. Nhóm tác giả đã tinh chỉnh phiên bản 762M trên bộ dữ liệu BST.

DialoFlow (DF) (Li và cộng sự, 2021a, b) là một phương pháp hàng đầu trong nghiên
cứu Đánh giá Đối thoại Tương tác DSTC9 (Gunasekara và cộng sự, 2021). Nhóm tác giả
đã tái tạo mô hình DialoFlow dựa trên GPT2-large (Radford và cộng sự, 2019) và tinh
chỉnh nó bằng tập dữ liệu BST.

3.2 Cài đặt thử nghiệm

Áp dụng bốn mô hình thử nghiệm để đánh giá hiệu quả của AIH.

Tương tác Bot-Bot. Đối với tương tác bot-bot, lượt tương tác tối đa được đặt thành 15.
Tất cả các chatbot đều khai thác Lấy mẫu hạt nhân (Holtzman và cộng sự, 2020) với p =
0,9 khi tạo phản hồi. Đối với mỗi cặp chatbot thu thập ít nhất 200 cuộc đối thoại.
Chú thích của con người. Để xác minh tính hiệu quả của framework, nhóm tác giả
tiến hành đánh giá con người. Đối với cuộc trò chuyện bot-bot theo framework, sử dụng
ba chuyên gia về chú thích nhân tạo từ một công ty chú thích dữ liệu thương mại để chú
thích riêng ba trường: liệu chatbot sử dụng cho việc đặt câu hỏi có tạo ra các câu hỏi thích
hợp hay không, Chatbot2 có trả lời các câu hỏi một cách phù hợp hay không và các câu
trả lời từ chatbot2 có mâu thuẫn không với lịch sử đối thoại. Công ty cung cấp điều kiện
làm việc thoải mái và mức lương công bằng cho các chú thích viên. Đối với mỗi cặp
chatbot lấy mẫu ngẫu nhiên 50 đoạn hội thoại cần chú thích. Quyết định cuối cùng được
tính toán thông qua biểu quyết.

Trong Tương tác tự nhiên của con người với bot và Đánh giá của chuyên gia, triển khai
bốn chatbot trên máy chủ từ xa và thiết kế giao diện web. Con người có thể trò chuyện
với một chatbot ngẫu nhiên thông qua giao diện web và đưa ra điểm nhất quán mà không
cần biết họ đang trò chuyện với chatbot nào.

Tương tác Tự nhiên giữa Con người-Bot.

Đối với mỗi chatbot thu thập các cuộc đối thoại bằng cách mời sinh viên tình nguyện
từ trường đại học thông qua giao diện web. Những người tham gia đã được hướng dẫn để
trò chuyện với các chatbot một cách tự nhiên. Họ được yêu cầu ký vào thỏa thuận trước
khi trò chuyện:
(i) Họ từ 18 tuổi trở lên và có thể vào giao diện web để trò chuyện với chatbots. (ii) Họ
được cho biết rằng sự tương tác của họ sẽ tạo ra dữ liệu văn bản ẩn danh chỉ được sử
dụng cho nghiên cứu về hệ thống đối thoại. Nhóm tác giả lọc ra những đoạn hội thoại có
<5 lượt và những đoạn hội thoại có từ ngữ lăng mạ. Đối với mỗi chatbot, có ít nhất 40
cuộc đối thoại đủ điều kiện. Sau đó sử dụng ba chú thích viên chuyên nghiệp để chú thích
riêng liệu từng câu nói từ chatbot có nhất quán hay không.

Đánh giá của chuyên gia.


Để có được xếp hạng con người về tính nhất quán của các chatbot, nhóm nghiên cứu
mời ba chuyên gia tình nguyện từ phòng thí nghiệm, những người có 2-3 năm kinh
nghiệm phát triển hệ thống đối thoại, trò chuyện với mỗi bot ít nhất 10 lần và khoảng 15
lượt mỗi lần. Trong cuộc trò chuyện, các chuyên gia được yêu cầu cố ý khiến các chatbots
trả lời lại các câu hỏi về lịch sử đối thoại và cho điểm nhất quán từ 0 đến 1. Lưu ý rằng
các chuyên gia được yêu cầu trò chuyện với các chatbots> 20 lần trước khi chính thức
đánh giá. Lấy trung bình điểm từ ba chuyên gia làm điểm nhất quán tổng thể.
Lưu ý rằng Đánh giá của chuyên gia và Chú thích của con người đã được thực hiện
trước đánh giá tự động. Tương tác tự nhiên giữa con người và bot đã được thực hiện sau
khi đánh giá tự động. Tất cả các đánh giá của con người đều độc lập với đánh giá tự động.

4. Kết quả thực nghiệm


Trong phần này, tiến hành các thí nghiệm để minh họa tính hiệu lực, hiệu quả và tính
ổn định của AIH framework được đề xuất.

4.1 Đánh giá tính hiệu quả

Báo cáo kết quả xếp hạng chuyên gia trong đánh giá chuyên gia, đánh giá tự động và
đánh giá con người theo framework AIH tương ứng.

Xếp hạng Chuyên gia. Bảng 2 cho thấy điểm nhất quán mà chuyên gia chấm điểm
cho các chatbot khác nhau. Chúng ta có thể thấy rằng Plato đạt được điểm nhất quán của
chuyên gia tốt nhất, lên đến 0,85. Và xếp hạng về tính nhất quán cho bốn chatbot này là:
Plato> DialoGPT> DialoFlow> Blender, có thể coi là tham chiếu vàng.

Bảng 2. Điểm nhất quán do các chuyên gia chấm cho các con bot. Điểm cao hơn tức là hoạt
động tốt hơn.
Kết quả Đánh giá Tự động. Bảng 3 cho thấy tỷ lệ mâu thuẫn của từng cặp chatbot
trong đánh giá tự động. Tỷ lệ mâu thuẫn thấp hơn có nghĩa là tính nhất quán tốt hơn. Tên
cột và tên hàng lần lượt đại diện cho Chatbot1 và Chatbot2. Giá trị "Trung bình" trong tên
cột thể hiện tỷ lệ mâu thuẫn tổng thể của mỗi chatbot. Giá trị "Trung bình" trong hàng tên
có thể được coi là khả năng khiến các chatbot khác khai báo lại về các sự kiện hoặc ý kiến
​có khả năng mâu thuẫn. Trong đánh giá tự động, xếp hạng về tính nhất quán cho các
chatbot là Plato> DialoGPT> DialoFlow> Blender, giống với đánh giá của chuyên gia.
Blender đạt tỷ lệ mâu thuẫn cao nhất.

Bảng 3: Tỷ lệ mâu thuẫn của từng cặp chatbot. Tên cột và tên hàng lần lượt đại diện cho
Chatbot 1 và Chatbot 2

Kết quả Đánh giá Con người.


Nhóm nghiên cứu liệt kê các kết quả đánh giá ở cuối Bảng 3. Như dự đoán, BL có tỷ lệ
mâu thuẫn cao nhất. Trong khi đó, đánh giá của con người cũng cung cấp xếp hạng nhất
quán tương tự: Plato> DialoGPT> DialoFlow> Blender như trước đây.

Tóm lược. Cả đánh giá tự động và đánh giá con người trong framework đều có thể đưa
ra cùng xếp hạng hiệu suất với chuyên gia, điều này chứng tỏ rằng framework là phổ biến
và có thể đánh giá hiệu quả tính nhất quán của chatbots.

4.2 Hiệu quả về thời gian


Các phương pháp đánh giá tính nhất quán trước với sự tương tác của con người là tốn
kém và mất nhiều thời gian, điều này làm chậm nghiêm trọng chu kỳ phát triển của cuộc
đối thoại. Trong phần này, nhóm tác giả cố gắng minh họa rằng framework Giải quyết
thắc mắc về Lịch sử được đề xuất là tiết kiệm thời gian và chi phí và có thể giúp quá trình
phát triển của hệ thống đối thoại so với các phương pháp khác.

Bảng 4: Hiệu quả thời gian của Framework AIH so với phương pháp đánh giá truyền thống
với sự tương tác giữa người và bot. “Time” đại diện cho thời gian để tạo ra một cuộc trò chuyện
và thời gian để chú thích những mâu thuẫn trong một cuộc trò chuyện. “Contradiction” biểu thị
số lượng mâu thuẫn trung bình trên mỗi cuộc trò chuyện (trung bình 15 lượt). Đường gạch
ngang biểu thị thời gian có thể bỏ qua.

Như trong Bảng 4, so sánh chi phí thời gian trên hai khía cạnh:
(i) thời gian để tạo ra các câu hỏi,
và (ii) thời gian để phát hiện các mâu thuẫn trong cuộc trò chuyện. Framework giải
quyết các thắc mắc về Lịch sử dựa trên cuộc trò chuyện giữa bot-bot nên thời gian tạo
cuộc trò chuyện có thể được bỏ qua, trong khi cuộc trò chuyện giữa con người với bot
mất khoảng 4 phút cho mỗi cuộc trò chuyện. Đối với thời gian phát hiện mâu thuẫn, các
phương pháp trước đây mất khoảng 1 phút để xem xét toàn bộ cuộc đối thoại, trong khi
framework đề xuất, chỉ khoảng 24 giây đối với chú thích của con người hoặc bị bỏ qua để
đánh giá tự động. Bên cạnh đó,cũng so sánh số lượng mâu thuẫn trong mỗi cuộc trò
chuyện. Như được trình bày trong Bảng 4, trong framework, các chatbot tạo ra nhiều mâu
thuẫn hơn so với các phương pháp trước đây. Những mâu thuẫn được phát hiện rất hữu
ích cho nhà phát triển chatbot để cải thiện hơn nữa tính nhất quán của chatbot.

Tóm lược. Framework có thể phát hiện nhiều mâu thuẫn hơn với thời gian ít hơn nhiều
so với các phương pháp trước đây. Tương ứng, framework giải quyết thắc mắc sẽ thúc
đẩy quá trình phát triển về tính nhất quán của chatbot.

4.3 Tính ổn định của xếp hạng


Một yêu cầu quan trọng đối với framework đánh giá là việc thực hiện lặp đi lặp lại quy
trình sẽ dẫn đến kết quả giống nhau. Nhóm nghiên cứu đo lường số lượng cuộc trò
chuyện giữa mỗi cặp chatbot được yêu cầu để đảm bảo xếp hạng ổn định. Nhóm tác giả
lấy mẫu ngẫu nhiên gồm S cuộc hội thoại cho mỗi cặp chatbot và tính toán xếp hạng nhất
quán bằng cách sử dụng đánh giá tự động, trong đó Sˆ ∈ {1, · · ·, 200}. Lặp lại quy trình
lấy mẫu phụ này 1000 lần và tính toán độ chính xác của việc đạt được cùng xếp hạng với
xếp hạng trước đó của chuyên gia. Như trong Hình 2, khi S> ˆ 100, kết quả xếp hạng của
bốn chatbot giống với chuyên gia trong 95% trường hợp và đảm bảo xếp hạng ổn định.
Sự ổn định của thứ hạng phụ thuộc vào tầm quan trọng của thứ hạng. Bảng 2 cho thấy
điểm số nhất quán của DialoGPT và DialoFlow là gần nhau. Nhóm nghiên cứu đã áp
dụng phân tích độ ổn định còn sót lại, trong đó chúng tôi loại bỏ một chatbot. Hình 2 cho
thấy rằng khi loại bỏ 1 trong 2 chatbot DialoGPT hoặc DialoFlow ra ngoài, thì sự ổn định
đạt được với Sˆ = 50 hội thoại.
Hình 2: Các thí nghiệm về độ ổn định của việc xếp hạng. Trục x biểu thị số lượng cuộc hội
thoại cho mỗi cặp chatbot. Trục y biểu thị tỷ lệ đạt được cùng xếp hạng với kết quả các chuyên
gia.
Tóm lược. Số lượng cuộc trò chuyện cần thiết để đánh giá ổn định trong AIH
Framework phụ thuộc vào các chatbot được kiểm tra và nhiều cuộc trò chuyện hơn
thường dẫn đến đánh giá ổn định hơn. Trong các trường hợp chung, 75 cuộc hội thoại là
đủ để phát hiện mâu thuẫn hợp lệ.

5. Mở rộng
Do vấn đề này tương đối mới lạ nên bọn em vẫn chưa kiếm được bài báo nào phù hợp
để liên kết đến phần mở rộng. Bọn em sẽ tiếp tục tìm và hoàn thiện trong báo cáo cuối kỳ.

You might also like