Professional Documents
Culture Documents
Kho Dữ Liệu & Tri Thức Kinh Doanh: Truy Hồi Thông Tin
Kho Dữ Liệu & Tri Thức Kinh Doanh: Truy Hồi Thông Tin
04/04/2022 2/19
Giới thiệu chung về truy hồi thông
tin
04/04/2022 3/19
Truy hồi thông tin
Tra cứu lại thông tin, kinh
nghiệm được đúc kết trong
sách báo
Bùng nổ thông tin
Xử lý dữ liệu phi cấu trúc
Đưa ra kết quả phù hợp với
mục đích tìm kiếm của người
dùng
04/04/2022 4/19
Kiến trúc tổng quan
04/04/2022 5/19
Dữ liệu phi cấu trúc
04/04/2022 6/19
Thách thức khi xử lý dữ liệu phi cấu trúc
Mỗi loại có định dạng đặc
thù
Khó khăn trong việc trích
rút thông tin
Độ chính xác không được
đảm bảo
Khả năng mở rộng và tốc
độ xử lý
04/04/2022 7/19
Bộ chỉ mục
Đánh chỉ mục dựa trên nội dung tài
liệu để tối ưu tốc độ tìm kiếm
Các bước cơ bản:
Tiền xử lý nội dung
Chuyển đổi sang dạng vector
Tách từ, loại bỏ những từ không có ý
nghĩa tìm kiếm
Tính toán trọng số
Tạo chỉ mục
04/04/2022 8/19
Hash Index
Được tổ chức dưới dạng key-value
Không sắp xếp các bản ghi theo thứ
tự nhất định
Tối ưu trong các truy vấn với sự
chính xác tuyệt đối
Không có tác dụng trong các truy
vấn có điều kiện theo khoảng giá trị
04/04/2022 9/19
B-Tree
Tổ chức và lưu trữ dưới dạng cây
Node con có giá trị nhỏ hơn sẽ nằm bên trái, lớn hơn nằm bên phải
Giá trị cần được sắp xếp trước khi tạo chỉ mục
04/04/2022 10/19
Inverted Index
Chứa danh sách các từ khóa
duy nhất được phân tách ra
từ các tài liệu
Mỗi từ khóa sẽ trỏ tới các tài
liệu có chứa từ khóa đó
Thường sử dụng trong các
máy tìm kiếm nội dung
04/04/2022 11/19
Máy tìm kiếm
04/04/2022 12/19
Giới thiệu về máy tìm kiếm
Hệ thống tìm kiếm thông tin
trên Internet
Các thành phần cơ bản:
Database
Crawler
Indexer
Query processor
Ranking algorithm
User interface
04/04/2022 13/19
Cơ chế hoạt động của Crawler
Duyệt qua các trang web,
phân tích cấu trúc, tìm ra các
liên kết đến các trang khác để
duyệt tiếp
Thu thập thông tin từ các
trang web duyệt qua
Lưu trữ vào cơ sở dữ liệu
phục vụ thao tác tìm kiếm
Hoạt động hoàn toàn tự động
04/04/2022 14/19
Cơ chế xếp hạng kết quả tìm kiếm
Đảm bảo kết quả tìm kiếm phù
hợp với nhu cầu của người dùng
Tiêu chí đánh giá thứ tự: sự liên
quan, độ phổ biến và độ tin cậy
Một số thuật toán xếp hạng:
Link popularity
PageRank (Google)
TF-IDF
04/04/2022 15/19
Công cụ tìm kiếm Google
Là công cụ tìm kiếm phổ biến
nhất thế giới
Sử dụng nhiều công nghệ và
thuật toán phức tạp để xác
định kết quả tìm kiếm của
người dùng
Cung cấp khả năng tìm kiếm
hình ảnh, video, tin tức, …
04/04/2022 16/19
Một số công cụ tìm kiếm khác
04/04/2022 17/19
Kết luận
Truy hồi thông tin là quá trình tìm kiếm thông tin từ các nguồn dữ liệu
khác nhau, cung cấp cho người dùng các thông tin cần thiết nhanh
chóng
Đóng vai trò quan trọng trong nhiều lĩnh vực: thư viện, kinh doanh,
giáo dục, …
Các hệ thống truy hồi thông tin phổ biến như: Google, Bing, Facebook
04/04/2022 18/19
Cảm ơn đã theo dõi!
04/04/2022 19/19