You are on page 1of 1

11.

2 Nguyên tắc xếp hạng theo xác suất

11.2.1 Trường hợp thua lỗ 1/0


Đây là nguyên tắc xếp hạng theo xác suất (PRP) (van Rijsbergen 1979, 113–114):
“Nếu phản hồi của hệ thống truy xuất tham chiếu đối với mỗi yêu cầu là xếp hạng của
các tài liệu trong bộ sưu tập theo thứ tự giảm xác suất mức độ liên quan đến người
dùng đã gửi yêu cầu, trong đó xác suất được ước tính chính xác nhất có thể dựa trên
cơ sở của bất kỳ dữ liệu nào đã được được cung cấp cho hệ thống vào mục đích này,
hiệu quả tổng thể của hệ thống đối với người dùng sẽ là tốt nhất có được trên cơ sở
những dữ liệu đó”.
Trong trường hợp đơn giản nhất của PRP, không có chi phí truy xuất hoặc các mối
quan tâm về tiện ích khác có thể tạo ra các hành động hoặc sai sót có trọng số khác
nhau. Bạn mất một điểm nếu trả về một trang không liên quan tài liệu hoặc không trả
lại tài liệu liên quan. Mục đích là trả lại những gì tốt nhất có thể kết quả là k tài liệu
hàng đầu, cho bất kỳ giá trị nào của k mà người dùng chọn để kiểm tra. PRP sau đó
nói chỉ cần xếp hạng tất cả các tài liệu theo thứ tự giảm dần của P (R = 1 | d, q). Nếu
một tập hợp các kết quả truy xuất được trả lại chứ không phải theo thứ tự, thì Quy tắc
Quyết định Tối ưu của Bayes, quyết định giảm thiểu rủi ro mất mát, chỉ đơn giản là trả
lại các tài liệu có nhiều khả năng phù hợp hơn là không liên quan.
11.6 d is relevant iff P(R = 1|d, q) > P(R = 0|d, q)
Định lý 11.1. PRP là tối ưu, theo nghĩa là nó giảm thiểu tổn thất dự kiến (còn được gọi
là rủi ro Bayes) dưới mức thua lỗ 1/0. Tuy nhiên, nó yêu cầu rằng tất cả các xác suất
phải được biết một cách chính xác. Điều này không bao giờ đúng trong thực tế. Tuy
nhiên, PRP vẫn cung cấp một nền tảng rất hữu ích để phát triển các mô hình IR.

11.2.2 PRP với chi phí truy xuất


Thay vào đó, giả sử rằng chúng ta giả định một mô hình chi phí truy xuất. Gọi C1 là
chi phí không truy xuất tài liệu liên quan và C0 là chi phí truy xuất tài liệu không liên
quan. Sau đó, Nguyên tắc xếp hạng xác suất nói rằng nếu đối với một tài liệu cụ thể d
và cho tất cả các tài liệu d ′ chưa được truy xuất.
11.7 C0 · P (R = 0 | d) - C1 · P (R = 1 | d) ≤ C0 · P (R = 0 | d ′) - C1 · P (R = 1 | d ′)
Sau đó, d là tài liệu tiếp theo được truy xuất. Một mô hình như vậy cung cấp một
khuôn khổ chính thức trong đó chúng ta có thể lập mô hình chi phí chênh lệch của
dương tính giả và âm tính giả và thậm chí cả các vấn đề về hiệu suất hệ thống ở giai
đoạn mô hình hóa, thay vì chỉ đơn giản là ở giai đoạn đánh giá, như chúng ta đã làm
trong Phần 8.6 (trang 168).

You might also like