Professional Documents
Culture Documents
2
Full-text Search
Full-text search (gọi tắt là FTS) là cách tự nhiên
nhất để tìm kiếm thông tin. Không tìm kiếm từ
theo dạng word-for-word, mà đoán ý người dùng
muốn để học cách tìm ra phù hợp nhất.
Vấn đề cần tìm hiểu
Inverted Index
Tokenize
Boolean Logic
Ranking
3 inverted index
Để tạo ra Inverted Index:
Tạo index theo đơn vị term
4 Tokenize:
Tách chuỗi làm sao để có được tập hợp index ?
Có 2 kỹ thuật cơ bản giải quyết bài toán
N-gram và Morphological Analysis (MA)
5
Xếp rank không phụ thuộc vào mối quan hệ ngữ nghĩa
giữa “query term” và “document”
Được xác định dựa trên lý thuyết "độ quan trọng của
document phụ thuộc vào mối quan hệ giữa các
document với nhau".
Ví dụ: page rank để sắp sếp kết quả tìm kiếm website
của Google. Ý tưởng của PageRank là “Page nào càng
được nhiều link tới, và được link tới bởi các page càng
quan trọng, thì score càng cao”. (Vì thế có 1 thủ thuật
SEO là đi đặt link của mình vào càng nhiều website càng
tốt).
9
Ví dụ:
Để tìm kiếm các hàng có ít nhất một trong hai từ: mysql
hoặc tutorial
mysql tutorial
Để tìm các hàng xuất hiện cả hai từ mysql
và tutorial.
+mysql +tutorial
Để tìm các hàng bắt buộc có từ mysql nhưng
từ tutorial thì có thể có hoặc không
+mysql tutorial
24
Để tìm các hàng xuất hiện từ mysql nhưng không được
xuất hiện từ tutorial.
+mysql –tutorial
Để tìm kiếm các hàng có chứa từ mysql và xếp hạng
hàng thấp hơn nếu nó chứa từ tutorial.
+mysql ~tutorial
Để tìm kiếm các hàng có chứa các từ mysql và tutorial
hoặc training, nhưng đặt các hàng có chứa mysql
tutorial cao hơn so với mysql training.
+mysql +(>tutorial <training)
25