You are on page 1of 2

Xây dựng mô hình tóm tắt văn bản Tiếng Việt với mô hình TextRank:

1. Khai phá dữ liệu và tiền xử lý:


Dữ liệu được lấy từ https://github.com/ThanhChinhBK/vietnews vơí 3 tập dữ
liệu train, validion, test.

Trong đó thì cột original là cột văn bản gốc còn cột summary là cột văn bản đã
được tóm tắt.
Đối với dữ liệu vietnew gồm các folder như chính trị, giáo dục, xã hội,… là các
file .txt

Trong quá trình tiền xử lý dữ liệu gồm có:


Trong xử lý ngôn ngữ tự nhiên bước tiền xử lý thường để giảm kích thước của
từ vựng. Các kí tự đặc biệt thường không mang nhiều ý nghĩa trong việc phân
tích (trừ phân tích cảm xúc). Tạo ra biểu diễn tinh gọn giúp mô hình tập trung
vào nhưng yếu tố chính và tăng tính đồng nhất dữ liệu đầu vào
 Tách từ và loại bỏ các từ dừng:
Sử dụng thư viện pyvi để tách từ trong văn bản gốc và loại bỏ từ dùng những
từ phổ biến và không quan trọng trong quyết định ý nghĩa của văn bản. Ở đây dùng từ
điển: chúng ta tiến hành filter văn bản, loại bỏ những từ xuất hiện trong từ điển
StopWords.

 Loại bỏ các ký tự đặc biệt và dấu cách thừa:

Vector hóa câu dùng word2vec:

Trích rút câu quan trọng sử dụng TextRank:


Đánh giá trên rouge: (đánh giá trên tập dữ liệu) ~ tính trung bình:
[0.4250003755385766, 0.2715199875516351, 0.39675560313066105]

You might also like