Professional Documents
Culture Documents
Slide
Slide
Vì vậy, việc xây dựng hệ thống tìm kiếm tài liệu hiệu quả
là vấn đề rất quan trọng.
II. MỤC ĐÍCH CỦA ĐỀ TÀI
Áp dụng một số hệ truy hồi thông tin :
+ Vector Space Model – Mô hình không gian vector.
+ Latent Semantic Indexing và thuật toán gom cụm K-means.
Xây dựng hệ thống tìm kiếm tài liệu ngành Công Nghệ Thông Tin một
cách chính xác và liên quan nhất theo nội dung và ngữ nghĩa.
III. NỘI DUNG THỰC HIỆN
S ố l ầ n xuấ t hi ệ n c ủ a t ừ t trong tà i liệ u d
𝑻𝑭 𝒕 ,𝒅 =
T ổ ng s ố t ừ trong t à i li ệu d
T ổng s ố t à i li ệu trong t ậ p d ữ li ệu D
𝑰𝑫𝑭𝒕 , 𝑫=𝐥𝐨𝐠( )
S ố t à i li ệu m à ch ứ a t ừ t
III. NỘI DUNG THỰC HIỆN
1. Mô hình không gian vector:
| 𝒗|
∑ 𝒒𝒊 𝒅𝒊
Độ đo tương tự: 𝒄𝒐𝒔 ( ⃗𝒒 , ⃗
𝒅 )=
⃗ ,⃗
𝒒 𝒅 𝒒
⃗ ⃗
𝒅
=⃗ . ⃗=
⃗| |𝒒| |𝒅|
𝒊=𝟏
𝒒||𝒅
|⃗ |𝒗| |𝒗|
√ ∑𝒒
𝒊=𝟏
𝟐
𝒊
√ ∑ 𝒅 𝟐𝒊
𝒊=𝟏
III. NỘI DUNG THỰC HIỆN
2. Mô hình Latent Semantic Indexing:
Khắc phục hai hạn chế tồn tại trong mô hình không gian vector chuẩn về
hai vấn đề từ đồng nghĩa và từ đa nghĩa.
A U V
xe hơi ô tô bảo phổi tai Chủ đề Chủ đề Chủ đề Chủ đề
dưỡng Xe y học xe y học
xe hơi 1
doc1 1 1 1
doc1 1
ô tô 1
doc2 1 1
bảo 1 doc2 1
dưỡng
doc3 1 1 doc3 1
Phổi 1
doc4 1 1 doc4 1
Tai 1
Ma trận tài liệu – từ chỉ mục Ma trận từ chỉ mục – chủ đề Ma trận tài liệu – chủ đề
III. NỘI DUNG THỰC HIỆN
2. Mô hình Latent Semantic Indexing:
Phân tích Singular Value Decomposition (SVD ) trên ma trận từ chỉ mục A:
A = UΣVT
III. NỘI DUNG THỰC HIỆN
2. Mô hình Latent Semantic Indexing:
Giảm số chiều ma trận sau khi phân tích SVD:
NỘI DUNG THỰC HIỆN
2. Kết hợp LSI với thuật toán gom cụm Kmeans:
Input: tập các vector tài liệu trong không gian LSI k
chiều (Các vector cột của ma trận trong mô hình LSI
đại diện cho các tài liệu).
tài liệu nhận dạng hình ảnh sử 15 15 19 100% 78.9% 27 19 19 70.3% 100%
dụng trí tuệ nhân tạo
tài liệu liên quan đến kiểm thử 10 10 10 100% 100% 13 10 10 76.9% 100%
phần mềm
xây dựng bộ dịch từ điển đa 9 8 12 88.8% 66.6% 18 8 12 44.4% 66.6%
ngôn ngữ
xây dựng các hệ trợ giúp, ra 12 8 17 66.6% 47.1% 21 14 17 66.6% 82.3%
quyết định
khai phá dữ liệu 18 15 18 83.3% 83.3% 25 17 18 68% 94.4%
tài liệu về bảo mật mạng máy 13 6 12 46.15% 50% 17 9 12 52.9% 75%
tính
làm thế nào để xây dựng web 16 12 14 75% 85.7% 34 14 14 41.1% 100%
ngữ nghĩa
xây dựng hệ thống truy hồi, tìm 22 7 13 31.8% 53.8% 20 7 13 35% 53.8%
kiếm
xây dựng các hệ thống điện 7 6 6 85.71% 100% 9 6 6 66.6% 100%
toán đám mây
TRUNG BÌNH 75.28% 73.95% TRUNG BÌNH 58% 85.5%
Hình 3.1 Thử nghiệm trên mô hình Latent Semantic Indexing Hình 3.2 Thử nghiệm trên mô hình không gian vector
ĐÁNH GIÁ KẾT QUẢ:
Hình 3.3 So sánh độ chính xác (Precision) của mô hình VSM với LSI kết hợp K-means
KẾT LUẬN VÀ HƯỚNG PHÁT
TRIỂN:
[2] Nguyễn Thế Quang (2009), Phát triển thuật toán gom cụm văn bản và ứng dụng, luận văn thạc sĩ, Đại học
công nghệ thông tin – ĐHQG Hồ Chí Minh.
[3] Ngô Thị Hiền Trang (2012), Nghiên cứu, thử nghiệm và đánh giá các phương pháp xếp hạng kết quả tìm
kiếm, luận văn thạc sĩ, Đại học Đà Nẵng.