You are on page 1of 47

KIẾN TRÚC THÔNG TIN HỆ THỐNG TÌM KIẾM

SEARCH SYSTEMS
KTTT

CẦN TÌM KIẾM?


Các vấn đề cần xem xét trước khi triển khai hệ thống tìm kiếm

❖Khối lượng nội dung

❖Tập trung vào các hệ thống điều hướng hữu ích hơn

❖Thời gian và cách tối ưu hệ thống tìm kiếm

❖Các lựa chọn thay thế khác

❖Cách tương tác ưa thích của người dùng


KTTT

CẦN TÌM KIẾM?


Các vấn đề cần xem xét trước khi triển khai hệ thống tìm kiếm

❖Hữu ích của tìm kiếm khi có quá nhiều thông tin để duyệt

❖Tìm kiếm giúp các site bị phân mảnh

❖Tìm kiếm là công cụ học

❖Tìm kiếm phải có vì người dùng mong đợi nó

❖Tìm kiếm có thể giới hạn nội dung “động”


KTTT

HỆ THỐNG TÌM KIẾM

4
KTTT

ĐÁNH CHỈ MỤC


❖Nội dung nên lập chỉ mục để tìm kiếm?
➢ Lập chỉ mục toàn bộ tài liệu tím thấy và thực hiện tìm kiếm
➢ Toàn diện và bao phủ lượng lớn nội dung nhanh chóng
❖Vùng tìm kiếm (search zone): giảm hiệu ứng apples-and-oranges, cho phép
người dùng tập trung vào việc tìm kiếm
❖Các thành phần nội dung nhỏ hơn toàn tài liệu => một số cấu trúc được tận
dụng, một số sẽ bị bỏ sót
❖Kiểm tra phân tích nội dung => hiểu được nội dung nào tốt

5
KTTT

XÁC ĐỊNH KHU VỰC TÌM KIẾM


❖Khu vực tìm kiếm (search zone)
➢Tập hợp con của môi trường thông tin
➢Được đánh chỉ mục tách biệt với phần còn lại của nội dung
➢Cho phép nội dung được chia bằng nhiều cách
➢Các cách tiếp cận
✓ Điều hướng/Điểm đích (navigation/destination)
✓ Lập chỉ mục cho các đối tượng riêng biệt
✓ Lập chỉ mục theo chủ đề
✓ Lập chỉ mục nội dung gần đây

6
KTTT

XÁC ĐỊNH KHU VỰC TÌM KIẾM


❖Các tiếp cận Điều hướng/Điểm đích
➢Trang đích (destination page): chứa thông tin mong muốn
➢Trang điều hướng: trang đưa người dùng đến trang đích
➢Có thể khó xác định ranh giới giữa trang điều hướng và trang đích
 kiểm tra trước khi áp dụng
➢Điểm yếu: sơ đồ chính xác

7
KTTT

XÁC ĐỊNH KHU VỰC TÌM KIẾM


❖Chỉ mục cho các đối tượng riêng biệt (indexing for specific audiences)
➢ Sử dụng sơ đồ tổ chức hướng người xem  search zone theo từng đối tượng riêng
➢ Ví dụ: website thư viện Michigan có 03 đối tượng sử dụng với các nhu cầu thông tin
khác nhau
 tạo 4 chỉ mục: 03 chỉ mục cho từng đối tượng và 01 chỉ mục cho toàn bộ

8
KTTT

XÁC ĐỊNH KHU VỰC TÌM KIẾM


❖Lập chỉ mục theo chủ đề (indexing by topic)

9
KTTT

XÁC ĐỊNH KHU VỰC TÌM KIẾM


❖Lập chỉ mục nội dung gần đây

10
KTTT

CHỌN THÀNH PHẦN LẬP CHỈ MỤC

11
KTTT

CHỌN THÀNH PHẦN NỘI DUNG LẬP CHỈ MỤC


❖Cho phép người dùng tìm kiếm các
thành phần cụ thể trong tài liệu
 kết quả chính xác hơn
❖Định dạng của kết quả tìm kiếm có
ý nghĩa hơn
❖Kiểm tra các giao diện tìm kiếm
nào đó mà người dùng thấy có giá
trị

12
KTTT

THUẬT TOÁN TÌM KIẾM


❖Thuật toán so khớp mẫu (pattern-matching algorithms)
➢So sánh truy vấn của người dùng với chỉ mục của cùng chuỗi trong văn
bản
➢Nếu phù hợp, nguồn văn bản sẽ được thêm vào bộ truy xuất
➢Một số giải thuật: Brute-Force, Boyer-Moore, KMP…
➢Precision (độ chính xác) và độ nhạy (recall)
số tài liệu liên quan nhận được
✓ Precision =
tổng số tài liệu nhận được
số tài liệu liên quan nhận được
✓ Recall =
tổng số tài liệu liên quan trong hệ thống

13
KTTT

THUẬT TOÁN TÌM KIẾM


❖Phương pháp khác:
➢ Tương đồng văn bản (document
similarity)
✓ Loại bỏ stopword
✓ Giữ lại những mục (term) ý nghĩa
biểu diễn cho tài liệu
✓ Những term được chuyển thành một
truy vấn sao cho nhận được kết quả
tương tự
➢ Trình bày kết quả đã được lập chỉ
mục với siêu dữ liệu (metadata)

14
KTTT

THUẬT TOÁN TÌM KIẾM


❖Lọc cộng tác (collaborative
filtering) và tìm kiếm trích dẫn giúp
mở rộng kết quả từ một tài liệu
phù hợp
❖Mục đích các thuật toán: xác định
nhóm tài liệu tốt nhất dưới dạng
kết quả tìm kiếm

15
KTTT

BỘ TẠO TRUY VẤN (QUERY BUILDERS)


❖Bộ tạo truy vấn (query builder): công cụ cải thiện hiệu suất truy vấn
➢ Kiểm tra chính tả (spell checker)
➢ Công cụ ngữ âm (phonetic tool)
➢ Công cụ stemming (stemming tool)
➢ Công cụ xử lý ngôn ngữ tự nhiên (natural language processing tool)
➢ Từ vựng kiểm soát (controlled vocabularies) và từ điển đồng nghĩa (thesauri)

16
KTTT

THỂ HIỆN KẾT QUẢ


❖Nội dung hiển thị:
➢Hiển thị ít thông tin cho những người dùng biết họ tìm kiếm gì hoặc
nhiều thông tin cho người dùng không chắc họ muốn gì
➢Người dùng biết rõ tìm gì: hiển thị thành phần nội dung đại diện
(representational content component)
➢Người dùng không biết rõ tìm gì: thành phần nội dung mô tả (descriptive
content component)
➢Cung cấp người dùng các tùy chọn hiển thị

17
KTTT

THỂ HIỆN KẾT QUẢ

18
KTTT

THỂ HIỆN KẾT QUẢ


❖Nội dung hiển thị:
➢Lượng thông tin hiển thị ở mỗi kết quả cho biết độ lớn của tập
kết quả
✓Hiển thị nhiều thành phần nội dung hơn trên mỗi kết quả nếu cần
thiết
✓Cần xem xét đến sự phù hợp với màn hình hiển thị với số lượng kết
quả hiển thị
➢Thành phần nội dung hiển thị: phụ thuộc thành phần có sẵn
trong mỗi tài liệu và cách nội dung sẽ được sử dụng.

19
KTTT

THỂ HIỆN KẾT QUẢ

20
KTTT

THỂ HIỆN KẾT QUẢ

21
KTTT

THỂ HIỆN KẾT QUẢ


❖Số lượng tài liệu hiển thị
➢2 yếu tố: lượng thông tin mỗi tài liệu truy xuất; độ phân giải màn hình,
tốc độ kết nối và trình duyệt
➢Nên cho người dùng biết tổng số kết quả để người dùng sàng lọc kết quả
tìm kiếm
➢Cung cấp điều hệ thống điều giúp di chuyển giữa các kết quả

22
KTTT

THỂ HIỆN KẾT QUẢ

23
KTTT

THỂ HIỆN KẾT QUẢ


❖Danh sách kết quả:
➢Hai phương pháp phổ biến liệt kê kết quả: sắp xếp theo trật tự hoặc theo
kết quả xếp quả
➢Sắp xếp:
✓ Theo bảng chữ cái
✓ Theo thời gian
➢Xếp hạng:
✓ Theo mức độ liên quan
✓ Theo độ phổ biến
✓ Theo đánh giá người dùng hoặc chuyên gia
✓ Theo vị trí đã được trả tiền

24
KTTT

THỂ HIỆN KẾT QUẢ

25
KTTT

THỂ HIỆN KẾT QUẢ

26
KTTT

THỂ HIỆN KẾT QUẢ


❖Phân nhóm kết quả:
➢ Phân cụm các kết quả được truy xuất theo một khía cạnh phổ biến nào đó.

➢ Cách phân cụm:


✓ Sử dụng siêu dữ liệu đã có và ngày tháng tạo/cập nhật file

✓ Sử dụng các siêu dữ liệu thủ công (chủ đề, người xem, ngôn ngữ...)

27
KTTT

THỂ HIỆN KẾT QUẢ

28
KTTT

THỂ HIỆN KẾT QUẢ


❖Hành động dựa trên kết quả:
➢ Đưa ra hành động để người dùng thực hiện

29
KTTT

THỂ HIỆN KẾT QUẢ


❖Hành động dựa trên kết quả:
➢ Lựa chọn tập con của kết quả

30
KTTT

THỂ HIỆN KẾT QUẢ


❖Hành động dựa trên kết quả:
➢ Lưu lại tìm kiếm

31
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Một số biến số ảnh hưởng đến thiết kế giao diện
➢ Mức độ chuyên môn và động lực tìm kiếm
➢ Loại nhu cầu thông tin
➢ Loại thông tin đang được tìm kiếm
➢ Lượng thông tin đang được tìm kiếm

32
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Hộp (box) tìm kiếm
➢ Đơn giản và rõ ràng

➢ Cung cấp hộp tìm kiếm đơn giản nêu người dùng không có nhu cầu tìm hiểu các cách
tìm kiếm khác nhau
➢ Tìm cơ hội cho người dùng “học” cách tìm kiếm khi họ sẵn sàng
➢ Nên chỉ hiển thị một hộp nhập (trừ trường hợp tìm kiếm yêu cầu nhiều hơn 1 trường)
➢ Nhất quán: ví trị, nhãn
➢ Giả định của người dùng nên được sử dụng để thiết kế các cài đặt mặc định

33
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM

34
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM

35
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Tự động hoàn thành (autocomplete) và tự động đề xuất
(autosuggest)
➢Sử dụng phổ biến để tương tác với hệ thống tìm kiếm
➢Danh sách kết quả được hiển thị dọc theo hộp tìm kiếm, nhắc/gợi ý
người dùng về các kết quả có thể có dựa trên một vài ký tự đầu tiên
được nhập
➢Được chọn lọc từ chỉ mục tìm kiếm, từ vựng được kiểm soát, danh sách
đối sánh được cấu hình thủ công hoặc là tổng hợp của các phương pháp.

36
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM

37
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Tìm kiếm nâng cao (advanced search)
➢Cho phép nhiều thao tác hơn
➢Thường được sử dụng bởi: người tìm kiếm nâng cao (advanced searcher)
và người tìm kiếm muốn thay đổi tìm kiếm ban đầu của họ
➢Giao diện nâng cao hỗ trợ các giao diện
➢Cung cấp tính linh hoạt và khả năng mạnh hơn cho người dùng hiểu cấu
trúc thông tin đang tìm kiếm

38
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM

39
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Hỗ trợ sửa đổi (supporting revision)
➢ Lặp lại tìm kiếm trong trang kết quả

40
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Hỗ trợ sửa đổi (supporting revision)
➢ Giải thích kết quả đến từ đâu

41
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Hỗ trợ sửa đổi (supporting revision)
➢ Giải thích những gì người dùng đã làm: “điều gì đã xảy ra”
✓ Khôi phục truy vấn
✓ Nội dung đã tìm kiếm
✓ Bộ lọc có thể có
✓ Các phép toán Boolean ngầm hoặc các toán tử khác
✓ Các cài đặt khác đang có
✓ Số lượng kết quả được truy xuất

42
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM

43
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Hỗ trợ sửa đổi (supporting revision)
➢ Tích hợp tìm kiếm với việc duyệt (browsing)

44
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM


❖Khi người dùng gặp khó khăn
➢ Khi kết quả quá nhiều?
✓ Hiển thị theo xếp hạng mức độ liên quan
✓ Cung cấp hướng dẫn giảm kết quả tìm kiếm
✓ Thu hẹp kết quả ngay trong tập kết quả hiện tại
➢ Khi không tìm được kết quả?
✓ Chính sách “No dead ends”: người dùng luôn có tùy chọn nào đó ngay cả khi họ không nhận
được kết quả
✓ Các tùy chọn có thể:
▪ Các phương tiện giúp sửa đổi tìm kiếm
▪ Các mẹo tìm kiếm hoặc các lời khuyên
▪ Các phương tiện duyệt
▪ Các biện pháp liên hệ

45
KTTT

THIẾT KẾ GIAO DIỆN TÌM KIẾM

46
KTTT

CÂU HỎI
❖Trả lời câu hỏi tại:
https://forms.gle/hn1fJAL2CNiMWhGx6

47

You might also like