Đây là nguyên tắc xếp hạng theo xác suất (PRP) (van Rijsbergen 1979, 113–114): “Nếu phản hồi của hệ thống truy xuất tham chiếu đối với mỗi yêu cầu là xếp hạng của các tài liệu trong bộ sưu tập theo thứ tự giảm xác suất mức độ liên quan đến người dùng đã gửi yêu cầu, trong đó xác suất được ước tính chính xác nhất có thể dựa trên cơ sở của bất kỳ dữ liệu nào đã được được cung cấp cho hệ thống vào mục đích này, hiệu quả tổng thể của hệ thống đối với người dùng sẽ là tốt nhất có được trên cơ sở những dữ liệu đó”. Trong trường hợp đơn giản nhất của PRP, không có chi phí truy xuất hoặc các mối quan tâm về tiện ích khác có thể tạo ra các hành động hoặc sai sót có trọng số khác nhau. Bạn mất một điểm nếu trả về một trang không liên quan tài liệu hoặc không trả lại tài liệu liên quan. Mục đích là trả lại những gì tốt nhất có thể kết quả là k tài liệu hàng đầu, cho bất kỳ giá trị nào của k mà người dùng chọn để kiểm tra. PRP sau đó nói chỉ cần xếp hạng tất cả các tài liệu theo thứ tự giảm dần của P (R = 1 | d, q). Nếu một tập hợp các kết quả truy xuất được trả lại chứ không phải theo thứ tự, thì Quy tắc Quyết định Tối ưu của Bayes, quyết định giảm thiểu rủi ro mất mát, chỉ đơn giản là trả lại các tài liệu có nhiều khả năng phù hợp hơn là không liên quan. 11.6 d is relevant iff P(R = 1|d, q) > P(R = 0|d, q) Định lý 11.1. PRP là tối ưu, theo nghĩa là nó giảm thiểu tổn thất dự kiến (còn được gọi là rủi ro Bayes) dưới mức thua lỗ 1/0. Tuy nhiên, nó yêu cầu rằng tất cả các xác suất phải được biết một cách chính xác. Điều này không bao giờ đúng trong thực tế. Tuy nhiên, PRP vẫn cung cấp một nền tảng rất hữu ích để phát triển các mô hình IR.
11.2.2 PRP với chi phí truy xuất
Thay vào đó, giả sử rằng chúng ta giả định một mô hình chi phí truy xuất. Gọi C1 là chi phí không truy xuất tài liệu liên quan và C0 là chi phí truy xuất tài liệu không liên quan. Sau đó, Nguyên tắc xếp hạng xác suất nói rằng nếu đối với một tài liệu cụ thể d và cho tất cả các tài liệu d ′ chưa được truy xuất. 11.7 C0 · P (R = 0 | d) - C1 · P (R = 1 | d) ≤ C0 · P (R = 0 | d ′) - C1 · P (R = 1 | d ′) Sau đó, d là tài liệu tiếp theo được truy xuất. Một mô hình như vậy cung cấp một khuôn khổ chính thức trong đó chúng ta có thể lập mô hình chi phí chênh lệch của dương tính giả và âm tính giả và thậm chí cả các vấn đề về hiệu suất hệ thống ở giai đoạn mô hình hóa, thay vì chỉ đơn giản là ở giai đoạn đánh giá, như chúng ta đã làm trong Phần 8.6 (trang 168).