You are on page 1of 19

KHO DỮ LIỆU &

TRI THỨC KINH


DOANH
TRUY HỒI THÔNG TIN

Người trình bày: Vi Mạnh Hùng


Nội dung trình bày
 Giới thiệu chung về truy hồi thông tin
 Dữ liệu phi cấu trúc và chỉ mục dữ liệu
 Các thành phần và cơ chế hoạt động của máy tìm kiếm
 Tổng kết

04/04/2022 2/19
Giới thiệu chung về truy hồi thông
tin

04/04/2022 3/19
Truy hồi thông tin
 Tra cứu lại thông tin, kinh
nghiệm được đúc kết trong
sách báo
 Bùng nổ thông tin
 Xử lý dữ liệu phi cấu trúc
 Đưa ra kết quả phù hợp với
mục đích tìm kiếm của người
dùng

04/04/2022 4/19
Kiến trúc tổng quan

Web Data Mining – Bing Liu

04/04/2022 5/19
Dữ liệu phi cấu trúc

04/04/2022 6/19
Thách thức khi xử lý dữ liệu phi cấu trúc
 Mỗi loại có định dạng đặc
thù
 Khó khăn trong việc trích
rút thông tin
 Độ chính xác không được
đảm bảo
 Khả năng mở rộng và tốc
độ xử lý

04/04/2022 7/19
Bộ chỉ mục
 Đánh chỉ mục dựa trên nội dung tài
liệu để tối ưu tốc độ tìm kiếm
 Các bước cơ bản:
 Tiền xử lý nội dung
 Chuyển đổi sang dạng vector
 Tách từ, loại bỏ những từ không có ý
nghĩa tìm kiếm
 Tính toán trọng số
 Tạo chỉ mục

04/04/2022 8/19
Hash Index
 Được tổ chức dưới dạng key-value
 Không sắp xếp các bản ghi theo thứ
tự nhất định
 Tối ưu trong các truy vấn với sự
chính xác tuyệt đối
 Không có tác dụng trong các truy
vấn có điều kiện theo khoảng giá trị

04/04/2022 9/19
B-Tree
 Tổ chức và lưu trữ dưới dạng cây
 Node con có giá trị nhỏ hơn sẽ nằm bên trái, lớn hơn nằm bên phải
 Giá trị cần được sắp xếp trước khi tạo chỉ mục

04/04/2022 10/19
Inverted Index
 Chứa danh sách các từ khóa
duy nhất được phân tách ra
từ các tài liệu
 Mỗi từ khóa sẽ trỏ tới các tài
liệu có chứa từ khóa đó
 Thường sử dụng trong các
máy tìm kiếm nội dung

04/04/2022 11/19
Máy tìm kiếm

04/04/2022 12/19
Giới thiệu về máy tìm kiếm
 Hệ thống tìm kiếm thông tin
trên Internet
 Các thành phần cơ bản:
 Database
 Crawler
 Indexer
 Query processor
 Ranking algorithm
 User interface

04/04/2022 13/19
Cơ chế hoạt động của Crawler
 Duyệt qua các trang web,
phân tích cấu trúc, tìm ra các
liên kết đến các trang khác để
duyệt tiếp
 Thu thập thông tin từ các
trang web duyệt qua
 Lưu trữ vào cơ sở dữ liệu
phục vụ thao tác tìm kiếm
 Hoạt động hoàn toàn tự động

04/04/2022 14/19
Cơ chế xếp hạng kết quả tìm kiếm
 Đảm bảo kết quả tìm kiếm phù
hợp với nhu cầu của người dùng
 Tiêu chí đánh giá thứ tự: sự liên
quan, độ phổ biến và độ tin cậy
 Một số thuật toán xếp hạng:
 Link popularity
 PageRank (Google)
 TF-IDF

04/04/2022 15/19
Công cụ tìm kiếm Google
 Là công cụ tìm kiếm phổ biến
nhất thế giới
 Sử dụng nhiều công nghệ và
thuật toán phức tạp để xác
định kết quả tìm kiếm của
người dùng
 Cung cấp khả năng tìm kiếm
hình ảnh, video, tin tức, …

04/04/2022 16/19
Một số công cụ tìm kiếm khác

04/04/2022 17/19
Kết luận
 Truy hồi thông tin là quá trình tìm kiếm thông tin từ các nguồn dữ liệu
khác nhau, cung cấp cho người dùng các thông tin cần thiết nhanh
chóng
 Đóng vai trò quan trọng trong nhiều lĩnh vực: thư viện, kinh doanh,
giáo dục, …
 Các hệ thống truy hồi thông tin phổ biến như: Google, Bing, Facebook

04/04/2022 18/19
Cảm ơn đã theo dõi!

04/04/2022 19/19

You might also like