Đề xuất chatbot

Nguyễn Hữu Phát, Đỗ Mạnh Cầm, Hoàng Văn Quang
ĐỀ XUẤT THUẬT TOÁN DỰA TRÊN

CHATBOT ĐỂ PHÁT HIỆN CÁC BÌNH
LUẬN NHẠY CẢM
Nguyễn Hữu Phát*, Đỗ Mạnh Cầm* , Hoàng Văn Quang†
*
Bộ môn Mạch và Xử lý tín hiệu, Viện Điện tử viễn thông, Trường Đại học Bách Khoa Hà Nội
†
Phòng Tổ chức cán bộ, Trường Đại học Bách Khoa Hà Nội
Tóm tắt: Hiện nay văn hóa ứng xử trên mạng xã hội
1 huống. Phạm vi và sự phức tạp của ChatBot được xác
đang là một vấn đề gây nhức nhối dư luận trong khoảng định bởi thuật toán của người tạo nên chúng. ChatBot
thời gian qua. Các cơ quan nhà nước cũng đã và đang bắt thường được ứng dụng trong nhiều lĩnh vực như thương
tay vào để làm sạch môi trường mạng của đất nước. Hàng mại điện tử, dịch vụ khách hàng, y tế, tài chính ngân hàng,
loạt bộ luật chương trình lên án và xử lý những video và các dịch vụ giải trí.
clip có nội dung phản cảm. Nhưng đó chỉ là một phần rất Chatbot có thể được chia thành 2 loại:
nhỏ trong quá trình làm sạch môi trường mạng. Thứ
chúng ta thấy hàng ngày đó chính là những bình luận • Hệ thống hướng mục tiêu trên một miền ứng dụng
mang nội dung phản cảm trên các trang mạng xã hội. Nó (Task-Oriented)(hay còn gọi là Miền đóng (Close
tồn tại ở bất cứ đâu từ mạng xã hội đến các cộng đồng, Domain))
trong các game online. Hiện tại trên thị trường cũng Miền đóng (Close Domain): Mô hình trả lời tự động
không có quá nhiều trang mạng xã hội, game online. Do thuộc miền đóng thường tập trung vào trả lời các câu hỏi
đó không quá khó cho các cộng đồng có các biện pháp đối thoại liên quan đến một miền cụ thể, ví dụ như: Y tế,
hạn chế những từ ngữ không phù hợp xuất hiện. Xuất Giáo dục, Du lịch, Mua sắm, ..
phát từ thực tế đó trong bài báo này, chúng tôi đề xuất Trong một miền đóng cụ thể, không gian các mẫu hỏi
thuật toán dựa trên chatbot để phát hiện các bình luận input và output là có giới hạn, bởi vì các hệ thống này
nhạy cảm với hi vọng có thể góp phần nào vào việc làm đang cố gắng để đạt được một mục tiêu rất cụ thể. Hệ
sạch môi trường mạng, mang đến sự thoải mái mỗi khi thống hỗ trợ kỹ thuật (Technical Customer Support) hay
tham gia các trang mạng xã hội hiện thời. Kết quả chỉ ra tư vấn và hỗ trợ mua hàng (Shopping Assistants) là các
rằng hệ thống đạt được độ chính xác lên đến 75% với ứng dụng thuộc miền đóng. Các hệ thống này không thể
100.000 bình luận được thử nghiệm. đối thoại về “Chính trị” hay “Pháp luật”, chúng chỉ cần
thực hiện các nhiệm vụ cụ thể một cách hiệu quả nhất có
Từ khóa: Chatbot, bình luận phản cảm, văn hóa ứng thể. Chắc chắn, người dùng vẫn có thể hỏi đáp bất cứ gì,
xử, online, xử lý dữ liệu. nhưng hệ thống không yêu cầu phải xử lý những trường
hợp ngoại lệ này.
I. ĐẶT VẤN ĐỀ • Hệ thống không có định hướng mục tiêu (chit-

chat)(hay còn gọi là Miền mở (Open Domain))
Với sự bùng nổ của internet như hiện nay, số lượng
người sử dụng ngày càng nhiều. Ví dụ như trang mạng xã Miền mở (Open Domain): Mô hình trả lời tự động trên
hội lới nhất hiện nay Facebook, tính đến 31/3/2020 có đến miền mở cho phép người dùng có thể tham gia trò chuyện
2,6 tỷ người sử dụng và 1,7 tỷ người sử dụng hàng ngày với một chủ đề bất kỳ, không nhất thiết phải có một mục
[1], [2]. Nguyên trên Việt Nam, với dân số trên 90 triệu tiêu rõ ràng hay một ý định cụ thể nào. Các cuộc trò
dân thì có đến 64 triệu tài khoản FaceBook đủ để thấy số chuyện trên mạng xã hội như Facebook, Twitter thường là
lượng người đang dùng các trạng mạng xã hội lớn như thế miền mở, chúng có thể đi vào tất cả các chủ đề. Số lượng
nào. Trong số đó không thiếu các thành phần luôn luôn để các chủ đề thảo luận được đề cập đến là không giới hạn,
lại những lời bình luận đầy phản cảm, đi ngược lại dư luận do đó, tri thức yêu cầu được tạo ra để trả lời các câu đối
khiến người đọc khó chịu. Để tránh những tác hại xấu đến thoại thuộc miền mở trở nên khó hơn. Tuy nhiên, việc thu
tương lai, chúng ta phải thực hiện loại bỏ ngay. Vì thế thập trích rút dữ liệu từ miền này khá phong phú và đơn
chúng tôi đưa ra đề xuất chatbot quản lý bình luận để góp giản.
phần giải quyết vấn đề này.
Mỗi cách tiếp cận bài toán đều có hướng giải quyết
Hệ thống đối thoại người máy hay còn gọi với thuật khác nhau dẫn tới các kỹ thuật sử dụng khác nhau.
ngữ là chatbot [3]. ChatBot là một chương trình máy tính
Hiện nay, với việc các trang mạng xã hội ngày càng
tiến hành cuộc trò chuyện thông qua nhắn tin nhanh, nó
phổ biến, với việc các bình luận không được kiểm soát
có thể tự động trả lời những câu hỏi hoặc xử lý tình
một cách triệt để thì những câu phản cảm, những câu nói
không phù hợp xuất hiện ngày càng nhiều gây nhức mắt
Tác giả liên hệ: Nguyễn Hữu Phát những người cùng tham gia cộng đồng.
Email: phat.nguyenhuu@hust.edu.vn
Đến tòa soạn: 12/2020, chỉnh sửa: 3/2021, chấp nhận đăng: 4/2021
SOÁ 01(CS.01) 2021 TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG 82
ĐỀ XUẤT THUẬT TOÁN DỰA TRÊN CHATBOT ĐỂ PHÁT HIỆN CÁC BÌNH LUẬN NHẠY CẢM
Tuy nhiên vấn đề khó khăn ở đây là các từ trong tiếng • Chương trình có thể tích hợp vào nhiều loại ngôn ngữ
việt có khả năng kết hợp với nhau một cách kỳ diệu để tạo lập trình khác nhau. Cần biến chat bot thành dạng như
ra những câu nói vô cùng đa dạng. một lib có thể sử dụng rộng rãi.
• Tốc độ chạy cần nhanh chóng, không ảnh hưởng đến
cả chương trình chính. Tối đa để xử lý một câu bình
luận là 30 giây.
Hình 1.
Hình 1. Sơ đồ cầu trúc hệ thống
Hình 2.
Từ những yêu cầu, mục đích trên kết hợp thêm với
Ví dụ: Hổ mang bò lên núi. Có thể hiểu là con hổ
hiểu biết về chatbot chúng tôi đưa ra sơ đồ cấu trúc của
mang con bò lên núi mà cũng có thể hiểu được là rắn Hổ
Mang đang bò lên núi. hệ thống như hình 1.
Trong đó:
Điều này cũng áp dụng với những câu phản cảm. Tùy • Khối tiền xử lý: Tiến hành chuyển đổi câu đầu vào
vào ngữ cảnh mà một câu có thể hiểu là câu phản cảm. thành một mảng chứa các từ có ý nghĩa. Nó gồm các
Nếu như liệt kê tất cả các từ đó thành các từ cấm và kiểm bước: tách từ tiếng việt; làm sạch dữ liệu; xử lý các từ
soát là hoàn toàn có thể. Nhưng điều này cần một cơ sở dữ không có nghĩa; và cuối cùng là xác định ý nghĩa của
liệu rất là lớn. Mà còn chưa kể đến việc con người là từng từ.
những người rất biết lách luật. Cùng một cách diễn đạt thì
bọn họ có thể diễn đạt kiểu khác như: • Khối xác định mức độ phản cảm: Dựa vào một mảng
đã xác định ở trên, cộng thêm một quy chuẩn đề ra từ
• Dùng từ trái nghĩa. Ví dụ: Ngu như bò với không đó xác định mức độ phản cảm của cả câu.
thông minh bằng con bò.
• Trả lời: Từ mức độ phản cảm của câu và những thành
• Dùng những từ đồng nghĩa. Ví dụ: Ngu như bò với dốt phần cấu tạo nên điều này. Chatbot sẽ tiến hành đưa ra
như heo. câu trả lời thích đáng nhất.
• Dùng cách viết đánh vần. Trong phạm vi nghiên cứu, chúng tôi chưa tìm thấy tài
• Dùng cách viết tắt. liệu nào nghiên cứu về các thuật toán để xử lý từ nhạy
cảm trong tiếng Việt. Từ sơ đồ cấu trúc hệ thống, ta tiến
• Dùng cách nói lái. hành đi phân tích chi tiết từng vấn đề cần xử lý.
• Dùng cách thêm, bớt từ. A.A.1 Thu thập dữ liệu
Với vô vàn cách để biểu diễn như vậy thì việc thống Khó khăn trong việc kiểm tra hiệu quả của chatbot
kê hết tất cả các trường hợp phản cảm nói tục là rất khó chính là bộ dữ liệu những câu bình luận trên các trang
khăn. Chúng ta cần rất nhiều thời gian để thu thập và tổng mạng xã hội. Hiện tại chúng tôi không tìm thấy data
hợp. Không chỉ thế còn cần liên tục bổ sung không ngừng những câu bình luận do đó đã tiến hành tự tạo dựa vào
để có thể bắt kịp thời đại. Công sức chúng ta bỏ ra chưa lấy bình luận trên facebook. Hiện tại, bộ dữ liệu của
chắc đã thu về được hiệu quả. Do đó, chúng ta cần tìm chúng tôi có khoảng 100.000 câu bình luận.
một phương pháp khác để giải quyết vấn đề này.
A.A.2 Tiền xử lý dữ liệu
Trong bài viết này, chúng tôi sẽ đề xuất phương pháp
Chúng tôi chia thành bốn bước:
để giải quyết sự đa dạng trong việc phản cảm trên mạng,
Tách từ tiếng Việt:
để từ đó tạo ra một mô hình chatbot có thể nhận diện và
phân loại các câu nói không phù hợp trên mạng. Xử lý ngôn ngữ tự nhiên bao gồm rất nhiều các bài
toán như dịch tự động (machine translation), tóm tắt văn
Nội dung bài báo được tổ chức như sau. Sau phần I bản (text summarization), tìm kiếm thông tin
giới thiệu, chúng tôi sẽ trình bày các phương hướng giải (information retrieval), trích chọn thông tin (information
quyết vấn đề trong phần II. Phần III cho thấy kết quả thử extraction). Muốn giải quyết được các bài toán trên thì
nghiệm của thuật toán. Phần IV là kết luận và hướng phát bài toán phân tách từ (word segmentation) là bài toán
triển mới của đề tài. quan trọng nhất, nó quyết định thành công của các bài
toán khác.
II. NỘI DUNG CẦN GIẢI QUYẾT Để hiểu được vì sao cần một bài toán tách từ thì chúng
ta cần biết một số đặc tính chính của từ trong tiếng Việt
A. Xây dựng lý thuyết là:
Để thuận lợi cho việc thiết kế, ta cần phải đề ra những • Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc
yêu cầu cho thuật toán (chatbot) cũng như kết quả cuối lập với cú pháp.
cùng chúng ta cần đạt được.
• Từ bao gồm từ đơn và từ phức, bao gồm từ láy, từ
Ở đây, yêu cầu chúng tôi đặt ra với chatbot sẽ là: ghép.
• Tự động phát hiện các câu nói không phù hợp với độ
chính xác cao từ 70\% trở lên. • Từ được cấu trúc từ tiếng. Việc nhận biết từ trong
tiếng Việt được gọi là phân cụm từ:
Trong hình 2, có nhiều hơn một cách để hiểu câu • Đồ thị hoá: Xây dựng một đồ thị biểu diễn câu và giải
văn này: bài toán tìm đường đi ngắn nhất trên đồ thị.
1. (Học sinh) (vi phạm) (quy chế) (thi cử).
Hình 2. Vấn đề phân cụm từ trong tiếng Việt [6].
2. (Học sinh) (vi) (phạm quy) (chế) (thi cử).

Câu văn này không mang ý nghĩa. • Machne Learning: Coi như bài toán gán nhãn chuỗi.
Cách này được sử dụng trong JVNSegmenter, Đông
Như chúng ta đã biết, văn bản tiếng Việt đặt dấu du.
cách giữa các âm tiết chứ không phải giữa các từ. Một
từ có thể có một, hai hoặc nhiều âm tiết nên có nhiều • Dùng mô hình ngôn ngữ: Cho trước một số cách tách
cách phân chia các âm tiết thành các từ, gây ra nhập từ của toàn bộ câu, một mô hình ngôn ngữ có thể đánh
nhằng. Việc phân giải nhập nhằng này gọi là bài toán giá được cách nào có khả năng cao hơn. Đây là cách
tách từ. tiếp cận của vnTokenizer.
Tiêu chí quan trọng nhất trong bài toán tách từ Trong bài viết lần này, chúng tôi sử dụng phương
đương nhiên là độ chính xác. Hiện tại người ta đã đạt pháp Ghép cực đại.
được độ chính xác lên đến 97% tính theo từ. Tuy Làm sạch dữ liệu:
nhiên nếu tính theo câu (số câu được tách hoàn toàn
đúng/tổng số câu) thì độ chính xác chỉ khoảng 50%. Sau khi tách từ, văn bản còn xuất hiện nhiều ký tự
Sự chênh lệch này nguyên nhân là do sự phức tạo của đặc biệt, dấu câu, … Những thành phần này làm giảm
tiếng Việt. hiệu quả trong quá trình xử lí. Trong phần này, chúng
tôi chuyển tất cả những từ in hoa về chữ in thường,
Chúng ta lấy ví dụ một câu khá nổi tiếng về sự xóa bỏ các dấu câu.
phức tạp của tiếng việt: Hổ mang bò lên núi.
Xử lý những từ không có nghĩa:
Câu này tùy theo cách chia câu có thể hiểu theo hai
cách. Đây chính là điểm mấu chốt của bài báo lần này.
Không như những bài viết đã có những quy chuẩn, các
• Hổ mang/ bò/ lên núi. Câu này có nghĩa là con rắn hổ từ ngữ sử dụng phải chính xác.Trong các câu comment
mang đang bò lên núi. trên mạng thường xuyên sử dụng các từ viết tắt và
• Hổ/ mang/ bò/ lên núi. Câu này có nghĩa là Con hổ cách nói lái nói tắt. Chỉ có một phần nhỏ là sử dụng
đang mang con bò lên núi. thẳng thừng những câu phản cảm thông dụng.Nếu chỉ
có tách từ và phân loại sẽ bỏ sót rất nhiều câu phản
Cả 2 cách tách này đều đúng, đều có thể nhưng lại cảm vẫn đang tồn tại trên mạng xã hội.Mà một vài
tạo ra những câu có ý nghĩa khác nhau. Do đó độ cách nói lái câu phản cảm thường dùng là
chính xác khi tính theo câu mới nhỏ như vậy.
• Sử dụng các từ thay thế để nói lái câu đi.
Đây có thể nói là vấn đề khá là nghiêm trọng trong
quá trình xác định ý nghĩa của câu bởi vì chỉ cần thay • Sử dụng các dấu để vào giữa câu.
đổi một chút thì hoàn toàn có thể khiến câu có nghĩa Những cách viết này đều có thể biểu đạt trọn vẹn
khác hoàn toàn. nghĩa của từ phản cảm nhưng khi tách từ, nó sẽ không
Hiện tại có một số cách tiếp cận bài toán tách từ tạo ra được từ mang ý nghĩa phản cảm. Đây chính là
như sau [4]: những cách thường thấy để phản cảm. Điểm chung
của hai cách này là những từ tách ra là những từ không
• Ghép cực đại: Đặt các từ vào câu sao cho phủ hết có nghĩa hoặc là từ đơn. Từ điểm chung đó, ta tiến
được câu đó, thoả mãn một số heuristic nhất định. hành xử lý các từ đã được tách ra.
Phương pháp này các ưu điểm là rất nhanh, nhưng có
rất nhiều hạn chế, ví dụ như độ chính xác thấp, không Như trong hình 2, chúng ta sẽ có 2 bước để xử lý
xử lý được những từ không có trong từ điển. vấn đề này.
• Xây dựng tập luật bằng tay hoặc tự động để phân biệt • Ghép từ: Áp dụng với những từ có một đến hai chữ cái
các cách kết hợp được phép và không được phép. đứng cạnh nhau hoặc lớn hơn hai từ không có nghĩa
đứng cạnh nhau. Tiến hành ghép chúng lại thành một
từ mới. Nếu từ đó có nghĩa thì tiến hành ghép lại.
Ngược lại thì thực hiện bước xử lý số 2.
Hình 3. Thiết kế database xác định mức độ phản

cảm.
• Đổi chỗ: Các chữ cái trong tiếng việt sẽ được chia
thành nguyên âm và phụ âm. Các từ trong tiếng việt sẽ
được cấu tạo từ những nguyên âm và phụ âm
này.Trong đó có rất nhiều những từ không có nghĩa
nhưng có nguyên âm và phụ âm giống với những tiếng
phản cảm. Vì vậy nó sẽ được sử dụng như từ thay thế
cho các từ phản cảm và người nghe vẫn có thể hiểu Hình 4. Thiết kế database câu trả lời chatbot
được ý nghĩa của từ đó. Nắm được điểm này, với
những từ không có nghĩa, chúng ta tiến hành phân tách • Từ so sánh: Các từ dùng để so sánh. Ví dụ: giống,
nguyên âm và phụ âm. Nếu ghép được các từ mang ý khác, hơn, kém
nghĩa phản cảm thì tiến hành cập nhật vào từ điển của
bản thân. • Từ phủ định: Các từ mang nghĩa phủ định. Ví dụ:
không, not
Qua bước này, chúng ta đã giải quyết được hai
trong số vô số cách viết các từ phản cảm. Nâng cao • Nguyền rủa: các từ liên quan đến bệnh tật, chết chóc.
khả năng chính xác trong quá trình tách từ những câu Ví dụ: chết, nguyền
bình luận, câu nói hàng ngày. • Hoạt động: Các từ chỉ hoạt động. Ví dụ: Đi, đứng ăn.
Phân loại ý nghĩa của từ: • Các từ chỉ hoạt động xuồng xã.
Như đã đề cập ở trên, một trong số những cách hay Xác định mức độ phản cảm:
dùng nhất để phản cảm là sử dụng những từ đồng
nghĩa và trái nghĩa.Để giải quyết vấn đề này, chúng tôi Nhìn phân chia các từ đồng nghĩa trái nghĩa có lẽ
đề xuất cần phải nhóm các từ đồng nghĩa, trái nghĩa rất nhiều người sẽ thắc mắc vì sao rất nhiều nhóm từ
hay được sử dụng vào thành từng nhóm ý nghĩa. chẳng có tý phản cảm này như là hoạt động, so sánh
hay là cơ quan. Nhưng chỉ vài từ đó cũng có thể tạo ra
Ở đây, chúng tôi đang phân chia các thành phần những câu phản cảm. Do một từ chỉ hoạt động và một
thường xuyên được sử dụng trong các từ phản cảm đại từ quan hệ tạo ra. Nó vẫn có phần nào đó phản
thành các nhóm sau. cảm. Không chỉ thế, có những câu phản cảm theo
• Từ phản cảm: Những từ mang ý nghĩa phản cảm. người này là vô cùng tục nhưng với người khác lại
cảm thấy bình thường.Để giải quyết vấn đề này, chúng
• Từ chê bai: Những từ thường dùng khi mà xúc phạm tôi tiến hành tạo một quy chuẩn để xác định mức độ
người khác. Ví dụ: Ngu, dốt, ngốc phản cảm của câu. Quy chuẩn được thể hiện như trên
bảng 1.
• Đại từ nhân xưng: Các từ được sử dụng để xưng hô
những người thân trong nhà. Ví dụ: cha, mẹ Điểm phản cảm sẽ là tổng của tất cả các điểm tục từ
• Động vật: Các từ chỉ động vật. Ví dụ: chó, mèo các từ có có ý nghĩa như trên. Từ đó chúng tôi đề xuất
chia thành 6 cấp độ như sau:
• Những từ xưng hô: Những từ xưng hô mang tính • Mức 0(0-3 điểm): Câu không phản cảm, không tiến
xuồng xã. Ví dụ: mày, tao, thằng hành xử phạt.
• Quát: Các từ ra lệnh, quát nạt người khác. Ví dụ:im, • Mức 1(4-7 điểm): Những câu nói xuồng xã, những câu
câm, cút, nín chửi không sử dụng các từ mang tính chê bai. Nhưng
nếu lặp lại nhiều có thể lên đến mức hai.
• Cơ quan: Các từ chỉ cơ quan con người. Ví dụ: mắt,
mũi, mồm. • Mức 2(8-11 điểm): Những câu đã có mục đích xúc
phạm người khác. Cần tiến hành cảnh cáo, xử phạt.
• Từ nhạy cảm: Các từ liên quan đến vấn đề sinh
lý của con người.
• Mức 3(12-15 điểm): những câu chửi mang tính phản • Câu cảnh báo: Bên cạnh hình phạt thì chatbot sẽ gửi
cảm, xúc phạm, chứa đựng những từ ngữ mang tính trên kênh chat những câu cảnh báo, thông báo về hình
tục. Cần xử phạt. phạt mà người dùng mắc phải. Các câu thông báo sẽ
dựa vào 2 yếu tố.
Bảng 1. Quy chuẩn xác định các câu không phù hợp
• Mức độ của lời nói: Đây là yếu tố quyết định hình phạt
Ý nghĩa Ví dụ Điểm Điểm tục Điều kiện
của từ tục lớn nhất
cũng như mức độ nặng nhẹ của câu cảnh báo.
Từ phản *** 14 Không Không • Ý nghĩa của các từ: Mỗi câu nói không phù hợp có thể
cảm giới hạn do nhiều từ có các yếu tố khác nhau cấu tạo thành.
Từ dùng Ngu, dốt, 7 14 Không Dựa vào những yếu tố cấu thành đó, chúng tôi sẽ đưa
chửi, chê chảnh,… ra những lời cảnh báo, thông báo khác nhau.\\
Đại từ Cha, mẹ, 2 2 không
nhân xưng anh chị... Tất cả thông tin này sẽ được lưu trữ dưới dạng
Động vật Chó, mèo... 2 2 không database (Hình 3), thuận lợi cho người quản lý có thể
Xưng hô Mày, tao, 1 2 Đi liền với thay đổi tùy theo ý muốn.
không phù thằng... từ chỉ
hợp động vật B. Thiết kế CSDL
thì điểm Các mạng xã hội hiện giờ rất đa dạng, được viết bởi
tục tăng 1 rất nhiều ngôn ngữ. Để chatbot này có thể phổ biến thì cần
Quát Im, nín, 3 9 Không phải có thể sử dụng ở tất cả các loại ngôn ngữ.
cút…
Từ chỉ cơ Mắt, mũi 1 2 Từ chửi, Để làm được điều đó thì chương trình này không được
quan miệng... động vật, sử dụng các thư viện riêng biệt của từng loại ngôn ngữ
người khác nhau mà chỉ sử dụng những thư viện phổ biến. Tuy
Từ nhạy *** 9 9 không nhiên điều đó là chưa đủ. Người Việt được đánh giá là khá
cảm thông minh và biết cách để lách luật, phát minh ra những
Từ so sánh Giống, 2 2 Với những cách nói khác nhau để thể hiện sự phản cảm mà lại không
như,… từ có điểm vi phạm. Do đó thì để có thể đảm bảo hiệu quả của
tục>=3 chatbot, cần không ngừng cập nhật, mở rộng.
Phủ định Mang 2 2 Có tác
nghĩa phủ dụng khi Ở đây sẽ có hai yếu tố cần thiết để đảm bảo việc này.
định đi với • Số lượng từ ngữ Việt Nam đã có phải đủ phong phú để
những từ không dẫn đến việc nhầm lẫn
có ý nghĩa
khen • Cần một chương trình có thể thuận lợi cho việc cập
Nguyền Chết, 7 7 Đi liền với nhật thường xuyên mà không cần những thao tác rườm
rủa biến,… đại từ rà.
nhân xưng
Hoạt động Đi, đứng, 1 1 Đi liền với Để thỏa mãn yếu tố đầu tiên là một nhiệm vụ rất khó.
ăn,… từ nguyền Với mười hai nguyên âm và mười bảy phụ âm thì số
rủa. lượng từ có thể ghép từ chúng là một con số vô cùng lớn
Những từ Vãi, đù,… 4 8 Không khó ai có thể thống kê hết. Chỉ có thể không ngừng cập
xuồng xã nhật, không ngừng hoàn thiện theo thời gian, theo số
không phù lượng câu bình luận ngày càng nhiều và phong phú. Do đó
hợp chúng ta chú trọng vào điều thứ hai. Đó là làm sao để dễ
dàng có thể cập nhật thường xuyên một cách dễ dàng
không cần phải rườm rà, không cần mỗi lần chỉnh sửa lại
• Mức 4(16-19 điểm): Những câu chứa các từ ngữ phản phải bảo trì để cập nhật phiên bản.
cảm mang tính xúc phạm cao. Cần xử phạt mạnh tay
Chúng tôi không có biện pháp nào để có thể tránh
• Mức 5(>=20 điểm): Nhưng câu mang đầy những từ hoàn toàn điều này nhưng muốn hạn chế tối đa việc này.
phản cảm không chấp nhận được. Cần răn đe đề làm Chúng tôi cố gắng dựa nhiều vào cơ sở dữ liệu hiện có để
gương. xử lý như trên hình 3, trong đó:
Qua bước này, chúng ta đã xác định được tính phản • Diem_min, diem_max là điểm nhỏ nhất và lớn nhất
cảm cũng như mức độ phản cảm của các câu bình luận ứng với từng nhóm đã tạo ở trên,
riêng biệt để từ đó có thể đưa ra những biện pháp xử lý
cũng như cảnh cáo phù hợp. • Diem_hien_tai là điểm số của từng nhóm ý nghĩa,
Trả lời: • Dieu_kien là điều kiện của ý nghĩa đó(nếu có),
Đây là phần chatbot sẽ tương tác với người dùng.
Chatbot sẽ tác động đến người dùng qua hai yếu tố sau: • Tu_chui_tuc là từ phản cảm ứng với nhóm ý nghĩa đó.
• Hình phạt: Như đã đề cập ở phần trên, ứng với từng Dựa vào bảng từ điển, ta có thể chia các câu thành các
mức độ không phù hợp của các câu bình luận, tiến từ và cụm từ mang ý nhĩa.
hành đưa ra những hình phạt thích đáng như: cấm chat
15 phút hay 1 tiếng. Cấm tài khoản 15 phút, 1 tiếng.
Các hình phạt này tùy vào như cầu của admin có thể
thay đổi.
Từ giá
Bảng 2. Thống kê đánh bảngkết2,quả
ta có thể thấy kết quả có độ chính xác vẫn
training
còn thấp mới đạt đến 75%. Đó là còn chưa kể đến các câu
Thời gian xử Số lượng Số lượng
khôngTỷphùlệ hợp
chính
khôngThời gianphát
được xử hiện
Đánh
và giá
liệt kê. Cụ thể
Số lượng lý dự comment chính xác nguyên
về xácnhân như sau:lý thực tế
comment kiến(Tối đa) mang ý phản cấp bậc
cảm được trong số Về những câu phản cảm cấp bậc thấp. Tỷ lệ chính xác
tìm ra comment vẫn chưa cao do có rất nhiều câu không có nghĩa phản
đã nhưng vẫn có từ phản cảm. Ví dụ: @DanLe, mai bà
phản cảm cảm
tìm ra dắt chó đi dạo nhớ đeo rọ mõm đó.
100.000 80h 10.211 7696 75.36% 115h Chưa đạt
Sau đó dựa vào ý nghĩa đó. Ta tiến hành cập nhật điểm
hiện tại vào bảng 1 ứng với các nhóm ý nghĩa nằm trong Bảng 3. Thống kê kết quả thu được với từng cấp bậc
bảng đó. Từ đó xác định ra được cấp độ phản cảm của câu nhạy cảm
nói để tiến hành xử lý. Cấp bậc phản Số lượng câu Tỷ lệ chính xác
cảm comment
Một câu trả lời có thể dùng cho nhiều hình phạt. 1 lv
1 4254 63.3%
trừng phạt có thể sử dụng cho nhiều hình phạt. Do đó cơ
2 2627 77.54%
sở dữ liệu thể hiện cho chức năng hình phạt sẽ gồm ba
3 1574 80.74%
bảng với hai quan hệ 1-n với nhau như hình 4, trong đó:
4 1021 94%
• thoi_gian_phat: Thời gian trừng phạt ứng với mỗi mức 5 735 100%
trừng phạt tính theo phút,
Câu này có từ bà là đại từ nhân xưng và từ chó là động
• bot_dap: câu trả lời của bot, vật=> Cấp độ 1. Các trường hợp kết quả sai thường gắn
với 1 số loại từ như sau:
• isbot, istuc, ischui, iscoquan, isquat, issosanh,
isxungho, isgiadinh, ishoatdong, isnguyenrua, isdv, • Các câu có nhiều đại từ nhân xưng như bà, bố,
isnhaycam, isnotkhen: sự tồn tại của các yếu tố kiểm mẹ..vv..
tra câu có phải câu phản cảm hay không.
• Các câu liên quan đến động vật.
Như vậy, chúng tôi đã tiến hành dữ liệu hóa việc xác
• Các câu chỉ các bộ phận trên cơ thể.
định cấp bậc cũng như cách chatbot đáp lại. Tùy vào ý
muốn của người sử dụng có thể điều chỉnh theo ý Còn những câu có mức độ phản cảm cao thì tỷ lệ
muốn của bản thân một cách dễ dàng. chính xác rất cao vì nó đều có những từ mang ý nghĩa
phản cảm hay nói tục. Nhưng số lượng phát hiện quá ít.
III. KẾT QUẢ VÀ THẢO LUẬN Rất nhiều từ để dưới dạng viết tắt bị bỏ qua và không thể
phát hiện.
Chúng tôi tiến hành thực hiện chạy thử 100.000 câu
bình luận đã chuẩn bị dựa trên [5]. Các trường hợp sai đối với những câu có mức phản
cảm cao thường liên quan đến:
Cụ thể kế hoạch training như sau:
• Các từ xuồng xã như: vãi, dù...
• Dữ liệu đầu vào: 100.000 câu bình luận lấy từ các bài
viết trên facebook. Lưu dưới dạng các file .xlsx. • Các câu liên quan đến bệnh tật, nguyền rủa
• Ngôn ngữ lâp trình: php. • Những câu phủ định
• Hệ thống cơ sở dữ liệu sử dụng: my Sql Ngoài ra do chương trình cần lặp đi lặp lại xử lý câu
nên với những câu dài, tốc độ xử lý là quá chậm. Với
• Công cụ training: 1 chương trình sử dụng ngôn ngữ 100.000 câu bình luận. Thời gian tối đa để xử lý là khoảng
lập trình php sẽ đọc các câu comment từ file đầu vào. 83 tiếng. Tương ứng với khoảng gần 3.5 ngày. Tuy nhiên,
Sau đó chạy qua chương trình chatbot đã chuẩn bị sẵn thời gian training thực tế lên đến con số gần 5 ngày.
để tiến hành lấy dữ liệu output và lưu lại.
Không chỉ thế, thuật toán chatbot này mới chỉ hoàn
• Thông số máy tính để chạy chương trình training: thành vấn đề phát hiện bình luận và đưa ra những hình
CPU: Intel Core i7. Memory: 8192 Ram. System phạt cũng như nhắc nhở. Đây mới chỉ là tương tác một
Model: Inspiron 3543. chiều giữa chatbot đến người dùng. Cần phát triển thêm
• Dữ liệu đầu ra: 5 file ứng với các cấp bậc phản cảm. các tương tác mà người dùng có thể sử dụng chatbot như:
Chương trình sẽ phân chia câu bình luận thành cấp bậc khen, hỏi, chào, yêu cầu 1 số tác vụ như: hỏi thời gian,
phản cảm và lưu vào từng file tương ứng thống kê các câu bình luận không phù hợp trong tháng...
Do không thể sàng lọc hết 100.000 câu này nên chúng Do đó thuật toán này vẫn cần cập nhật để có thể áp
tôi sẽ tiến hành đánh giá dựa theo kết quả thu được của dụng vào trong thực tế. Để có thể hướng tới điều này, cần
từng mức độ. Kết quả như trên bảng 2. phải làm được những công việc sau:
Cụ thể kết quả chi tiết với từng cấp độ phản cảm như • Thiết lập lại bảng phân chia mức độ bình luận sao cho
bảng 3: chặt chẽ hơn nữa. Có thể bao quát càng nhiều trường
hợp cũng như có thể loại bỏ những trường hợp không
chính xác như đã đề cập ở trên.
• Tối ưu hóa code, giảm thời gian xử lý xuống mức phù Press, Nov. 2006, pp. 215–222. [Online]. Available:
hợp. Tối đa xử lý cho 1 câu comment là 30 giây. https://www.aclweb.org/anthology/Y06-1028
[5] M. Burtsev, A. Seliverstov, R. Airapetyan, M. Arkhipov,
• Không ngừng cập nhật từ điển để bước xử lý các từ D. Baymurzina, N. Bushkov, O. Gureenkova, T.
không có nghĩa có thể có độ chính xác cao nhất. Khakhulin, Y. Kuratov, D. Kuznetsov, A. Litinsky, V.
Logacheva, A. Lymar, V. Malykh, M. Petrov, V.
• Tìm cách ứng dụng machine learning và AI vào Polulyakh, L. Pugachev, A. Sorokin, M. Vikhreva, and
M. Zaynutdinov, “Deeppavlov: Open-source library for
chatbot [7]÷[9] để chương trình trở nên thông minh dialogue systems,” 07 2018.
hơn. Có thể dựa vào hoàn cảnh để đưa ra những nhận [6] L.-H. Phuong, H. Nguyen, A. Roussanaly, and T. Ho, “A
định chính xác nhất. hybrid approach to word segmentation of vietnamese
texts,” in Language and Automata Theory and
• Phát triển tương tác hai chiều giữa người dùng và Applications. LATA 2008. Lecture Notes in Computer
chatbot. Science, vol. 5196, 12 2013, pp. 240–249.
Dựa vào những kinh nghiệm đã nhận được, chúng tôi [7] T. Kl¨uwer, From Chatbots to Dialogue Systems, 07
2011, pp. 1–22.
có thể phát triển nó thành một phần mềm có tính thực
[8] Y.-N. Chen, C. Asli, and D. Hakkani-Tur, “Deep learning
dụng cao và có thể áp dụng vào trong thực tế, góp phần for dialogue systems,” 01 2017, pp. 8–14.
nho nhỏ vào công cuộc làm sạch thế giới mạng đang tràn [9] K. van Deemter, E. Krahmer, and M. Theune, “Plan- based
đầy những lời ác ý như hiện nay. vs. template-based nlg: a false opposition?” 08, 1999.
[10] N. N. Khin and K. M. Soe, “University chatbot using
IV. KẾT LUẬN artificial intelligence markup language,” in 2020 IEEE
Conference on Computer Applications(ICCA), 2020, pp.
Những câu bình luận mang ý nghĩa phản cảm, không 1–5.
phù hơp tràn ngập trên mạng. Ở bất cứ trang mạng xã hội [11] J. Bozic, O. A. Tazl, and F. Wotawa, “Chatbot testing
nào dù lớn dù nhỏ ta có thể dễ dàng thấy những câu đó ở using ai planning,” in 2019 IEEE International Conference
On Artificial Intelligence Testing (AITest), 2019, pp. 37–
một nơi nào đó. Càng là những vấn đề nóng hổi thì những 44.
câu bình luận phản cảm càng nhiều và càng nặng. Thậm [12] N. Albayrak, A. ¨Ozdemir, and E. Zeydan, “An overview
chí các câu bình luận còn vượt qua biên giới mà xuất hiện of artificial intelligence based chatbots and an example
ở các cộng đồng nước ngoài, làm xấu hình ảnh chúng ta chatbot application,” in 2018 26th Signal Processing and
trong mắt bạn bè quốc tế. Communications Applications Conference (SIU), 2018,
pp. 1–4.
Vì hình ảnh của đất nước, chúng ta cần cấm hoặc chí ít
[13] S. J. du Preez, M. Lall, and S. Sinha, “An intelligent web-
là hạn chế những bình luận không phù hợp thuần phong based voice chat bot,” in IEEE EUROCON 2009, 2009,
mĩ tục tràn lan trên mạng. Hiện nay, một số game nổi pp. 386–391.
tiếng đều có một số cách để che đi những câu bình luận
không phù hợp. Nhưng vấn đề này dường như vẫn chưa PROPOSING ALGORITHM BASED ON
xử lý triệt để. Các chương trình đó đại đa số chỉ là dựa
CHATBOT TO DETECT SENSITIVE COMMENTS
vào các từ ngữ cụ thể để xác định. Do vậy tác dụng nó
đem lại quả thật không lớn.
Abstract: Today, the cultural behavior is an issue of
Đó chính là lý do chúng tôi đề xuất chương trình
social concern. State and government have many policies
chatbot quản lý bình luận này. Trong đây, chúng tôi đã
to solve the problem in order to clean up the network
xử lý được một số cách viết lái các câu bình luận không
environment. However, there are still many comments
phù hợp bao gồm:
with offensive content on social networking sites and
• Dùng từ đồng nghĩa trái nghĩa, online games. Therefore, we propose an algorithm to
• Tách từ bằng dấu cách hay các dấu câu, detect sensitive comments in the paper. The chatbot-
based algorithm automatically detects and warns
• Dùng các từ thay thế. unhealthy content as well as inappropriate comments.
Ngoài ra, chúng tôi định ra môt quy chuẩn để có thể The results show that the algorithm achieves 75%
xác định mức độ phản cảm của một câu bình luận để từ accuracy with 100,000 comments that is applicable in
đó có thể đưa ra các biện pháp xử lý tối ưu.Trong tương practice.
lai chúng tôi sẽ tích hợp thêm các thuật toán mới dựa trên Keywords: Chatbot, offensive comments, behavioral
nền tảng trí tuệ nhân tạo để xử lý triệt để hơn [10] ÷[13]. culture, online, data processing.
TÀI LIỆU THAM KHẢO

Nguyễn Hữu Phát, nhận bằng
kỹ sư2003), thạc sỹ (2005) ngành
[1] S. Phillips, “A brief history of facebook,” The Điện tử và Viễn thông tại Đại học
Guardian, 01 2007. Bách Khoa Hà Nội (HUST), Việt
[2] M. Zuckerberg, Facebook, 2020 (accessed Dec. 11, Nam và bằng tiến sĩ (2012) về
2020.). [Online]. Available: https://www.facebook.com/ Khoa học Máy tính tại Viện Công
[3] M. Mauldin, Chatbot, 2020 (accessed Dec. 11, nghệ Shibaura, Nhật Bản. Hiện tại,
2020.). [Online]. Available: đang là giảng viên tại Viện Điện tử
https://en.wikipedia.org/wiki/Chatbot Viễn thông, HUST, Việt Nam. Các
nghiên cứu gồm xử lý hình ảnh và
[4] C.-T. Nguyen, T.-K. Nguyen, X.-H. Phan, L.-M. video, mạng không dây, big data,
Nguyen, and Q.-T. Ha, “Vietnamese word hệ thống giao thông thông minh
segmentation with CRFs and SVMs: An investigation,” in (ITS), và internet của vạn vật (IoT).
Proceedings of the 20th Pacific Asia Conference on Ông đã nhận được giải thưởng bài
Language, Information and Computation. Huazhong báo hội nghị tốt nhất trong
Normal University, Wuhan, China: Tsinghua University
SoftCOM (2011), giải thưởng tài
trợ sinh viên tốt nhất trong
APNOMS (2011), giải thưởng
danh dự của Viện Công nghệ
Shibaura (SIT).
Đỗ Mạnh Cầm, hiện tại là sinh

viên Viện Điện tử Viễn thông,
Trường Đại Học Bách Khoa Hà
Nội. Hướng nghiên cứu gồm xử
lý ngôn ngữ và các ứng dụng
thông minh.
Hoàng Văn Quang, hiện tại

là cán bộ phòng Tổ chức,
Trường Đại Học Bách Khoa Hà
Nội. Hướng nghiên cứu quan
tâm gồm quan trắc môi trường,
xử lý ngôn ngữ, và các ứng
dụng thông minh.

Đề xuất chatbot

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Đề xuất chatbot

Uploaded by

Copyright:

Available Formats

Nguyễn Hữu Phát, Đỗ Mạnh Cầm, Hoàng Văn Quang

ĐỀ XUẤT THUẬT TOÁN DỰA TRÊN

I. ĐẶT VẤN ĐỀ • Hệ thống không có định hướng mục tiêu (chit-

Hình 2. Vấn đề phân cụm từ trong tiếng Việt [6].

2. (Học sinh) (vi) (phạm quy) (chế) (thi cử).

Hình 3. Thiết kế database xác định mức độ phản

TÀI LIỆU THAM KHẢO

Đỗ Mạnh Cầm, hiện tại là sinh

Hoàng Văn Quang, hiện tại

You might also like