Professional Documents
Culture Documents
Lekcija 11with Formuls
Lekcija 11with Formuls
ІМОВІРНІСНА
МОДЕЛЬ
ІНФОРМАЦІЙНОГО
ПОШУКУ
Глибовець А.М.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
Буква "A" позначає подію (підмножина з
простору можливих результатів).
Цю підмножина можна також
представити за допомогою випадкової
величини (random variable) - функції, яка
результатам ставить у відповідність дійсні
числа; в такому випадку підмножина
являє собою область визначення
випадкової величини A.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
Часто нам невідомо з певністю, відбулася
подія в реальному світі чи ні.
У такому випадку слід оцінити ймовірність
події 0 ≤ P (A) ≤ 1.
Наступ подій A і B одночасно описується
спільною ймовірністю P (A, B).
Умовна ймовірність P (A | B) виражає
ймовірність події A, якщо подія B вже
настала.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
Правило Байєса дозволяє отримати
апостеріорну ймовірність P(A|B) (posterior
probability) за умови, що відбулася подія B
і ми знаємо її ймовірність (likelihood) як у
випадку, якщо подія A відбудеться, так і у
випадку, якщо подія A не відбудеться .
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
ПРИНЦИП ЙМОВІРНІСНОГО
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ.
Розглянемо ранжований пошук в колекції
документів, при якому користувач
відсилає запити і отримує у відповідь
впорядкований список документів.
Припустимо також, що оцінки
релевантності є бінарними.
ПРИНЦИП ЙМОВІРНІСНОГО
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ.
Для запиту q та документа d позначимо
через Rd,q випадкову величину - індикатор
релевантності документа d по
відношенню до запиту q.
Ця величина дорівнює одиниці, якщо
документ релевантний, і нулю в іншому
випадку.
У ситуаціях, що не викликають
непорозумінь, будемо писати R, а не Rd,q.
ПРИНЦИП ЙМОВІРНІСНОГО
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ.
У рамках ймовірнісної моделі природно
ранжувати результати пошуку по оціненим
ймовірностями їх релевантності інформаційній
потребі: P(R =1|d,q).
Такий підхід лежить в основі принципу
імовірнісного ранжування (Probability Ranking
Principle - PRP), що був запропонований ван
Рійсбергеном (van Rijsbergen, 1979).
Якщо у відповідь на кожен запит пошукова система
ранжує документи в колекції в порядку убування
ймовірності їх релевантності для користувача, що
надіслав запит, де ймовірності оцінені як можна
більш точно на основі доступних даних, то загальна
якість системи є найкращою на цих даних.
ПРИНЦИП ЙМОВІРНІСНОГО
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ.
Найпростіший варіант принципу PRP
ігнорує вартість пошуку та інші
міркування про корисність, відповідно до
яких дії і помилки системи можуть мати
різні ваги.
Ви просто втрачаєте бал, якщо система
повертає нерелевантний документ або не
знаходить релевантний документ (така
бінарна модель оцінки правильності
(accuracy) називається моделлю бінарних
втрат (1 / 0 loss)).
ПРИНЦИП ЙМОВІРНІСНОГО
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ.
Мета системи - повернути в якості перших
k документів найкращі результати для
будь-якого значення k, яке вибирає
користувач.
У такому випадку відповідно до принципу
PRP досить розташувати всі документи в
порядку убування величин P (R = 1|d,q).
Якщо необхідно повернути не ранжовану
множину знайдених результатів, то
відповідно до байєсовського правила
оптимального рішення (Bayes optimal
decision rule), які мінімізують ризик втрат,
досить повернути документи, які скоріше
релевантні, ніж нерелевантні.
ПРИНЦИП ЙМОВІРНІСНОГО
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ
ПРИНЦИП ІМОВІРНІСНОГО
РАНЖИРУВАННЯ З УРАХУВАННЯМ
ВАРТОСТІ ПОШУКУ
Припустимо тепер, що модель враховує
вартість пошуку.
Нехай С1 - вартість пошуку релевантного
документа, а С0 - вартість пошуку
нерелевантного документа.
ПРИНЦИП ІМОВІРНІСНОГО
РАНЖИРУВАННЯ З УРАХУВАННЯМ
ВАРТОСТІ ПОШУКУ
ПРИНЦИП ІМОВІРНІСНОГО
РАНЖИРУВАННЯ З УРАХУВАННЯМ
ВАРТОСТІ ПОШУКУ
Така модель дає формальний апарат, за
допомогою якого можна моделювати різну
вартість хибнопозитивних і
псевдонегативних відповідей і навіть
враховувати продуктивність системи на
етапі моделювання, а не на етапі
тестування.
Проте надалі ми не будемо розглядати
питання втрат і корисності в цій лекції.
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
Спочатку опишемо модель, в якій
передбачається, що користувач
задовольняє інформаційну потребу за
один крок.
Як зазначалося в лекції 9, переглянувши
список результатів, користувач може
уточнити свою інформаційну потребу.
На щастя, модель BIM можна
модифікувати так, щоб створити основу
для зворотного зв'язку за релевантністю.
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
Для уточнення ймовірнісної стратегії
пошуку необхідно оцінити, як терміни у
документі впливають на його релевантність.
зокрема, ми хочемо знати, як частота терміна,
документна частота, довжина документа та
інші статистичні показники, які можна
обчислити, впливають на релевантність
документів і як їх правильно використовувати
для оцінки ймовірності релевантності
документа.
Після цього ми розташуємо документи в
порядку зменшення оціненої ймовірності їх
релевантності.
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
Ці ймовірності слід вважати функціями,
визначеними на просторі можливих
документів з предметної області.
Як обчислити ці ймовірності?