You are on page 1of 13

ĐẠI HỌC QUỐC GIA TP.

HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

BÀI TOÁN TÓM TẮT VĂN BẢN


TRONG XỬ LÝ NGÔN NGỮ TỰ
NHIÊN

GVHD: PGS. TS. ĐINH ĐIỀN


GVTG: NCS. LƯƠNG AN VINH
HV: TRẦN CHÁNH MẠNH QUÂN. MSHV: 20C29014.
PHẠM LÊ DƯƠNG. MSHV: 20C29004.
TRẦN MẠNH HÙNG. MSHV: 20C29023.

TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Tp. Hồ Chí Minh - 2021


Mục lục

1 Giới Thiệu Về Đề Tài 2


1.1 Lý do chọn đề tài . . . . . . . . . . . . . . . . . . . . . 2
1.2 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . 2
1.3 Hướng tiếp cận . . . . . . . . . . . . . . . . . . . . . . 3

2 Bài toán tóm tắt văn bản trong xử lí ngôn ngữ tự nhiên 4
2.1 Đặc điểm của văn bản tóm tắt . . . . . . . . . . . . . . 4
2.2 Ứng dụng của bài toán tóm tắt văn bản . . . . . . . . 4
2.3 Một số thuật ngữ trong bài toán tóm tắt văn bản . . . 5
2.4 Những giai đoạn của một hệ thống tóm tắt văn bản . . 5
2.5 Phân loại bài toán tóm tắt văn bản . . . . . . . . . . . 5
2.6 Những khó khăn của bài toán tóm tắt văn bản . . . . . 6

3 Hướng Nghiên Cứu 7


3.1 Những hướng tiếp cận của bài toán tóm tắt văn bản . . 7
3.1.1 Tóm tắt rút trích(Extraction) . . . . . . . . . . 7
3.1.2 Tóm tắt tóm lược(Abstraction) . . . . . . . . . 7
3.2 Một số phương pháp đã được nghiên cứu . . . . . . . . 8
3.3 Phương pháp thống kê trên TF.IDF . . . . . . . . . . . 8

4 Kết Quả Thực Nghiệm 10

1
Chương 1

Giới Thiệu Về Đề Tài

1.1 Lý do chọn đề tài

Sự phát triển nhanh chóng của mạng Internet cùng với những bước
tiến mạnh mẽ của công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay
đang trở nên vô cùng lớn. Thông tin được sinh ra liên tục mỗi ngày
trên mạng Internet, lượng thông tin văn bản khổng lồ trong đó đó đã
và đang mang lại lợi ích không nhỏ cho con người, tuy nhiên, nó cũng
khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin.
Giải pháp cho vấn đề này là tóm tắt văn bản tự động. Tóm tắt văn
bản tự động được xác định là một bài toán thuộc lĩnh vực khái phá
dữ liệu văn bản; việc áp dụng tóm tắt văn bản sẽ giúp người dùng tiết
kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả đánh
chỉ mục cho máy tìm kiếm.
Từ nhu cầu thực tế đã nói ở trên, bài toán tóm tắt văn bản tự động
nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học, nhóm
nghiên cứu cũng như các công ty lớn trên thế giới.
Bài tiểu luận này nhằm mục đích giới thiệu về bài toán tóm tắt văn
bản, một số phương pháp, nghiên cứu về bài toán tóm tắt văn bản,
và phương pháp thống kê trên TF.IDF.

1.2 Phát biểu bài toán

Tóm tắt văn bản là quá trình rút trích những thông tin quan trọng
nhất từ một hoặc nhiều nguồn để tạo ra phiên bản cô đọng, ngắn gọn
phục vụ cho một hoặc nhiều người dùng cụ thể, hay một hoặc nhiều
nhiệm vụ cụ thể.

2
1.3 Hướng tiếp cận

Trong bài tiểu luận này, nhóm sẽ tập trung vào hướng tiếp cận
bài toán bằng phương pháp rút trích (Extraction) và sử dụng độ đo
TF.IDF.

3
Chương 2

Bài toán tóm tắt văn bản trong xử


lí ngôn ngữ tự nhiên

2.1 Đặc điểm của văn bản tóm tắt

Những đặc điểm của một văn bản đã được tóm tắt :
ˆ Giảm nội dung thông tin : lượng nội dung trong bản tóm tắt phải
ít hơn so với văn bản gốc, nhưng phải đảm bào vẫn còn những
thông tin quan trọng, nổi bật.
ˆ Nội dung thông tin : phải trung thực hoặc tương đương với văn
bản nguồn,phải liên quan và phù hợp với yêu cầu người dùng.
ˆ Định dạng tốt : phải có định dạng tốt về ngữ pháp và cấu trúc
diễn ngôn, có thể đọc và hiểu được đối với người dùng.

2.2 Ứng dụng của bài toán tóm tắt văn bản

Một số ứng dụng của tóm tắt văn bản có thể kể tới như sau :
ˆ Tóm tắt tin tức
ˆ Tóm tắt kết quả tìm kiếm trong các search engine
ˆ Thu thập dữ liệu thông minh
ˆ Tóm tắt bài báo khoa học
ˆ Tóm tắt nội dung hội nghị, cuộc họp
ˆ Tóm tắt nội dung video, audio, . . .
ˆ Trả lời tự động

4
2.3 Một số thuật ngữ trong bài toán tóm tắt văn bản

- Tỷ lệ nén (Compression Rate) : độ đo thể hiện bao nhiêu thông


tin được cô đọng trong văn bản tóm tắt. Được tính như sau : chiều
dài tóm tắt / chiều dài văn bản gốc.
- Độ nổi bật hay liên quan (Salient or Relevance) : trọng số được
gán cho thông tin trong văn bản thể hiện độ quan trọng của thông tin
đó đối với toàn văn bản hay để chỉ sự liên quan của thông tin đó đối
với yêu cầu truy vấn của người dùng.
- Sự mạch lạc (Coherence) : một văn bản được gọi là mạch lạc nếu
tất cả các thành phần trong nó tuân theo một thể thống nhất về mặt
nội dung và không có sự trùng lặp nào giữa các thành phần.

2.4 Những giai đoạn của một hệ thống tóm tắt văn bản

Theo [Hovy 1999, Mani 2001, Sparck Jones 1999], hệ thống tóm tắt
văn bản tự động được chia thành 3 giai đoạn chính :

ˆ Phân tích (Analysis or Interpretation) : biểu diễn và hiểu văn bản


nguồn
ˆ Biến đổi (Transformation) : trích chọn những nội dung quan trọng
ˆ Tổng hợp (Synthesis or Realization) : tạo văn bản mới chứa những
điểm chính, quan trọng của văn bản gốc.

2.5 Phân loại bài toán tóm tắt văn bản

ˆ Theo kết quả : Tóm tắt rút trích (Extract) và Tóm tắt tóm lược
(Abstract).
ˆ Theo mục đích hay chức năng tóm tắt : Tóm tắt chỉ thị (Indica-
tive), Tóm tắt thông tin (Information), Tóm tắt đánh giá (Evalu-
ation).
ˆ Theo nội dung : Tóm tắt chung (Generalized) và Tóm tắt hướng
truy vấn (Query-based).
ˆ Theo miền dữ liệu : Tóm tắt trên 1 miền dữ liệu (Domain), Tóm
tắt trên 1 thể loại (Genre), Tóm tắt độc lập (Independent).

5
ˆ Theo mức độ chi tiết : Tóm tắt tổng quan (overview) và Tóm tắt
tập trung sự kiện (event).
ˆ Theo số lượng : Tóm tắt đơn văn bản và Tóm tắt đa văn bản.
ˆ Theo ngôn ngữ : Tóm tắt đơn ngôn ngữ, Tóm tắt đa ngôn ngữ,
Tóm tắt xuyên ngôn ngữ (cross-language).

2.6 Những khó khăn của bài toán tóm tắt văn bản

Một trong những thách thức lớn nhất của tóm tắt đa văn bản chính
là sự nhập nhằng nội dung giữa các văn bản. Có ba nguyên nhân gây
ra nhập nhằng nội dung trong tóm tắt đa văn bản đó là:
ˆ Đồng tham chiếu xuyên văn bản
ˆ Nhập nhằng về thời gian xuyên văn bản
ˆ Sự trùng lặp nội dung giữa các văn bản.

6
Chương 3

Hướng Nghiên Cứu

3.1 Những hướng tiếp cận của bài toán tóm tắt văn bản

Có hai hướng tiếp chính thường được sử dụng để tóm tắt văn bản
trong Xử Lý Ngôn Ngữ Tự Nhiên:

3.1.1 Tóm tắt rút trích(Extraction)

Cách tiếp cận này chọn các đoạn văn bản mang ý chính để tạo ra
một bản tóm tắt. Nó sẽ cân nhắc phần quan trọng của các tài liệu
và xếp hạng chúng dựa trên mức độ quan trọng và tương đồng của
chúng.
Ý tưởng chính của phương phương pháp extraciton này là lấy các
cụm từ chính (key phrase) từ tài liệu và kết hợp chúng để tạo ra một
bản tóm tắt.
Văn bản đầu vào độ tương tự của các câu  đánh giá mức độ
quan trọng của các câu 
lựa chọn các câu với level đánh giá cao.

3.1.2 Tóm tắt tóm lược(Abstraction)

Các phương pháp abstractive chọn các từ dựa trên sự hiểu biết ngữ
nghĩa, ngay cả những từ đó không xuất hiện trong các tài liệu gốc.
Khi phương pháp này được áp dụng để tóm tắt văn bản trong deep
learning, nó có thể khắc phục sự không nhất quán về ngữ pháp của
phương pháp extractive.
Phương pháp abstractive có vẻ ưu việt hơn so với phương pháp
extractive. Tuy nhiên, các thuật toán tóm tắt văn bản thực hiện theo
phương pháp abstractive khó phát triển hơn và đó là lý do tại sao việc
sử dụng phương pháp extractive vẫn còn phổ biến.
Văn bản đầu vào  hiểu nội dung phân tích về mặt ngữ nghĩa
 tạo văn bản tóm tắt.

7
3.2 Một số phương pháp đã được nghiên cứu

Những nghiên cứu sớm nhất về tóm tắt văn bản được đề xuất bởi
Luhn vào năm 1958 tại Viện nghiên cứu của IBM, ngoài ra còn có của
Baxendale trong cùng năm cũng tại IBM. Cả hai đều sử dụng phương
pháp thống kê để tiếp cận bài toán tóm tắt văn bản.
Tiếp theo sau đó, bằng cách sử dụng phương pháp kết nối tuyến
tính để kết hợp các điểm đặc trưng lại với nhau, một hệ thống sinh ra
văn bản tóm tắt dựa trên cách tiếp cận trích rút câu được Edmundson
đưa ra vào năm 1969 và đạt kết quả là 44% trên 400 văn bản kỹ thuật
được thử nghiệm.
Năm 1975, Salton đưa ra hướng giải quyết bài toán tóm tắt văn bản
bằng cách sử dụng phương pháp tính độ đo TF.IDF và biểu diễn văn
bản bằng mô hình không gian vector.
Từ năm 1990, nhiều kỹ thuật máy học được ứng dụng vào trong
xử lý ngôn ngữ và nhiều phương án giải quyết bài toán tóm tắt văn
bản ra đời như : Naı̈ve-Bayes ( Kupiec 1995, Aone 1999), OOP và
Decision Tree (Lin và Hovy trong năm 1997 và 1999), Hidden Makov
Model (Conroy và O’leary 2001), Log-Linear (Osborne 2002), Neural
Network, SVM,...
Ngoài ra, những phương pháp tóm tắt đa văn bản bằng cách sử
dụng template cũng bắt đầu được đưa ra bởi McKeown và Radev
(1995, 1998) với hệ thống SUMMONS.
Tiếp theo đó lần lượt các phương pháp để tóm tắt đa văn bản cũng
ra đời như: phương pháp gom cụm (cluster-based) với MMR, phương
pháp gom cụm với lý thuyết đồ thị, phương pháp kích hoạt lan truyền
trên đồ thị,...

3.3 Phương pháp thống kê trên TF.IDF

Theo wikipedia định nghĩa là:


Trong truy hồi thông tin, tf–idf, TF*IDF, hay TFIDF, viết
tắt từ cụm từ tiếng Anh: term frequency–inverse document
frequency, là một thống kê số học nhằm phản ánh tầm quan
trọng của một từ đối với một văn bản trong một tập hợp hay
một ngữ liệu văn bản. tf–idf thường dùng dưới dạng là một
trọng số trong tìm kiếm truy xuất thông tin, khai thác văn
bản, và mô hình hóa người dùng.

8
Công thức gồm 2 phần tf (term frequency) và idf (inverse document
frequency)

f(t,d) |D|
tfidf(t, d, D) = tf(t, d) × idf(t, D) = max{f(w,d):w∈d} × log |{d∈D:t∈d}|

Có thể xem là điểm số đánh giá mức độ quan trọng của từ t ở văn
bản d, khi xét trong tập tất cả văn bản D.

9
Chương 4

Kết Quả Thực Nghiệm

Trong phần này, nhóm sẽ trình bày kết quả thực nghiệm sử dụng độ
đo TF.IDF để tóm tắt những bài báo trong khoảng thời gian từ ngày
28-30/3/2021 trên VnExpress mà keyword có giá trị TF.IDF cao nhất.

Chúng ta khai báo cách tính độ đo IF.IDF như công thức đã nói ở
trên.

10
Dựa trên giá trị IF.IDF để trích xuất kết quả ứng với keyword.

Kết quả với keyword là covid dựa trên giá trị IF.IDF.

11
Tài liệu tham khảo

[1] Wikipedia Tf–idf

[2] Trần Mai Vũ TÓM TẮT ĐA VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU
[3] Nguyễn Minh Thành Text Summarization
[4] Internet

12

You might also like