You are on page 1of 20

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA


KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN TỐT NGHIỆP


ĐỀ TÀI
ÁP DỤNG MÔ HÌNH KHÔNG GIAN VECTOR
XÂY DỰNG HỆ THỐNG TÌM KIẾM TÀI LIỆU THEO CHỦ ĐỀ

SVTH : NGUYỄN ĐÌNH LONG


LỚP : 16T3
CBHG : PGS. TS.  PHAN HUY KHÁNH
NỘI DUNG CHÍNH
I. Đặt vấn đề

II. Mục đích của đề tài

III. Nội dung thực hiện

IV. Đánh giá kết quả:

V. Kết luận và hướng phát triển:


I. ĐẶT VẤN ĐỀ
          Đặt vấn đề
Do sự phát triển nhanh của các thư viện số, các hệ thống lưu trữ
tài liệu luận văn, đồ án, báo cáo khoa học,....
Thông tin, tài liệu khi người dùng tra cứu phải chính xác, liên
quan với nhu cầu của họ.

Vì vậy, việc xây dựng hệ thống tìm kiếm tài liệu hiệu quả
là vấn đề rất quan trọng.
II. MỤC ĐÍCH CỦA ĐỀ TÀI
Áp dụng một số hệ truy hồi thông tin :
+ Vector Space Model – Mô hình không gian vector.
+ Latent Semantic Indexing và thuật toán gom cụm K-means.
Xây dựng hệ thống tìm kiếm tài liệu ngành Công Nghệ Thông Tin một
cách chính xác và liên quan nhất theo nội dung và ngữ nghĩa.
III. NỘI DUNG THỰC HIỆN

1. Tìm hiểu mô hình không gian vector

2. Tìm hiểu mô hình Latent Semantic Indexing

3. Kết hợp mô hình LSI với thuật toán gom cụm

4.Đánh giá hiệu quả truy hồi thông tin


III. NỘI DUNG THỰC HIỆN:
1. Mô hình không gian vector:
Ma trận biểu diễn tập tài liệu gồm m từ chỉ mục và n tài liệu:
III. NỘI DUNG THỰC HIỆN
1. Mô hình không gian vector:
Công thức tính trọng số của từ :
 
T

 
S ố  l ầ n   xuấ t  hi ệ n  c ủ a  t ừ  t  trong   tà i  liệ u  d
𝑻𝑭 𝒕 ,𝒅 =
T ổ ng s ố  t ừ  trong  t à i  li ệu  d
 
T ổng  s ố  t à i  li ệu  trong  t ậ p  d ữ  li ệu  D
𝑰𝑫𝑭𝒕 , 𝑫=𝐥𝐨𝐠( )
S ố  t à i  li ệu  m à ch ứ a   t ừ  t
III. NỘI DUNG THỰC HIỆN
1. Mô hình không gian vector:

| 𝒗|
  ∑ 𝒒𝒊 𝒅𝒊
Độ đo tương tự: 𝒄𝒐𝒔 ( ⃗𝒒 , ⃗
𝒅 )=
⃗ ,⃗
𝒒 𝒅 𝒒
⃗ ⃗
𝒅
=⃗ . ⃗=
⃗| |𝒒| |𝒅|
𝒊=𝟏

𝒒||𝒅
|⃗ |𝒗| |𝒗|

√ ∑𝒒
𝒊=𝟏
𝟐
𝒊
√ ∑ 𝒅 𝟐𝒊
𝒊=𝟏
III. NỘI DUNG THỰC HIỆN
2. Mô hình Latent Semantic Indexing:
 Khắc phục hai hạn chế tồn tại trong mô hình không gian vector chuẩn về
hai vấn đề từ đồng nghĩa và từ đa nghĩa.
A U V
xe hơi ô tô bảo phổi tai Chủ đề Chủ đề Chủ đề Chủ đề
dưỡng Xe y học xe y học

xe hơi 1
doc1 1 1 1
doc1 1
ô tô 1
doc2 1 1
bảo 1 doc2 1
dưỡng
doc3 1 1 doc3 1
Phổi 1
doc4 1 1 doc4 1
Tai 1

Ma trận tài liệu – từ chỉ mục Ma trận từ chỉ mục – chủ đề Ma trận tài liệu – chủ đề
III. NỘI DUNG THỰC HIỆN
2. Mô hình Latent Semantic Indexing:
 Phân tích Singular Value Decomposition (SVD ) trên ma trận từ chỉ mục A:

A = UΣVT
III. NỘI DUNG THỰC HIỆN
2. Mô hình Latent Semantic Indexing:
 Giảm số chiều ma trận sau khi phân tích SVD:
NỘI DUNG THỰC HIỆN
2. Kết hợp LSI với thuật toán gom cụm Kmeans:

 Input: tập các vector tài liệu trong không gian LSI k
chiều (Các vector cột của ma trận trong mô hình LSI
đại diện cho các tài liệu).

Output: Các vector trung tâm của cụm tài liệu và


các cụm tài liệu đã được gán nhãn theo chủ đề.
NỘI DUNG THỰC HIỆN
3. Kiến trúc hệ thống:
ĐÁNH GIÁ KẾT QUẢ:
Câu truy vấn Số tài liệu Số tài liệu Tổng số tài Độ chính Độ bao Số tài liệu Số tài liệu Tổng số tài Độ chính xác Độ bao phủ R
tìm được tìm được liệu liên xác P phủ R tìm được tìm được liệu liên quan P
liên quan quan liên quan

tài liệu nhận dạng hình ảnh sử 15 15 19 100% 78.9% 27 19 19 70.3% 100%
dụng trí tuệ nhân tạo
tài liệu liên quan đến kiểm thử 10 10 10 100% 100% 13 10 10 76.9% 100%
phần mềm
xây dựng bộ dịch từ điển đa 9 8 12 88.8% 66.6% 18 8 12 44.4% 66.6%
ngôn ngữ
xây dựng các hệ trợ giúp, ra 12 8 17 66.6% 47.1% 21 14 17 66.6% 82.3%
quyết định
khai phá dữ liệu 18 15 18 83.3% 83.3% 25 17 18 68% 94.4%
tài liệu về bảo mật mạng máy 13 6 12 46.15% 50% 17 9 12 52.9% 75%
tính
làm thế nào để xây dựng web 16 12 14 75% 85.7% 34 14 14 41.1% 100%
ngữ nghĩa
xây dựng hệ thống truy hồi, tìm 22 7 13 31.8% 53.8% 20 7 13 35% 53.8%
kiếm
xây dựng các hệ thống điện 7 6 6 85.71% 100% 9 6 6 66.6% 100%
toán đám mây
TRUNG BÌNH 75.28% 73.95%  TRUNG BÌNH 58% 85.5%

Hình 3.1 Thử nghiệm trên mô hình Latent Semantic Indexing Hình 3.2 Thử nghiệm trên mô hình không gian vector
ĐÁNH GIÁ KẾT QUẢ:

Hình 3.3 So sánh độ chính xác (Precision) của mô hình VSM với LSI kết hợp K-means
KẾT LUẬN VÀ HƯỚNG PHÁT
TRIỂN:

 Kết quả đạt được:


- Nghiên cứu tìm hiểu các mô hình truy hồi thông tin cải thiện kết quả tìm kiếm.
- Nắm được quá trình phân tích, thiết kế hệ thống truy hồi.
- Kỹ năng nghiên cứu các lĩnh vực mới, các kỹ thuật xử lý ngôn ngữ tự nhiên.

 Hướng phát triển:


- Tiếp tục nghiên cứu và phát triển hệ thống trên kho tài liệu lớn.
- Hỗ trợ tìm kiếm, tham khảo tài liệu phục vụ nhu cầu nghiên cứu, học tập.
- Tinh chỉnh các tham số ảnh hưởng đến hệ thống một cách hiệu quả.
DEMO KẾT QUẢ:
Tài liệu tham khảo:
TÀI LIỆU TIẾNG VIỆT

[1] Vector Space Model https://blog.duyet.net/2019/08/ir-vector-space-model.html

[2] Nguyễn Thế Quang (2009), Phát triển thuật toán gom cụm văn bản và ứng dụng, luận văn thạc sĩ, Đại học
công nghệ thông tin – ĐHQG Hồ Chí Minh.

[3] Ngô Thị Hiền Trang (2012), Nghiên cứu, thử nghiệm và đánh giá các phương pháp xếp hạng kết quả tìm
kiếm, luận văn thạc sĩ, Đại học Đà Nẵng.

TÀI LIỆU TIẾNG ANH

[1] Wiki https://en.wikipedia.org/wiki/Vector_space_model


[2] Wiki https://en.wikipedia.org/wiki/Latent_semantic_analysis

[3]Stanford University https://nlp.stanford.edu/IR-book

You might also like