Lekcija 11with Formuls

ЛЕКЦІЯ 11.
ІМОВІРНІСНА
МОДЕЛЬ
ІНФОРМАЦІЙНОГО
ПОШУКУ
Глибовець А.М.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
 Буква "A" позначає подію (підмножина з
простору можливих результатів).
 Цю підмножина можна також
представити за допомогою випадкової
величини (random variable) - функції, яка
результатам ставить у відповідність дійсні
числа; в такому випадку підмножина
являє собою область визначення
випадкової величини A.
 Часто нам невідомо з певністю, відбулася
подія в реальному світі чи ні.
 У такому випадку слід оцінити ймовірність
події 0 ≤ P (A) ≤ 1.
 Наступ подій A і B одночасно описується
спільною ймовірністю P (A, B).
 Умовна ймовірність P (A | B) виражає
ймовірність події A, якщо подія B вже
настала.
 Правило Байєса дозволяє отримати
апостеріорну ймовірність P(A|B) (posterior
probability) за умови, що відбулася подія B
і ми знаємо її ймовірність (likelihood) як у
випадку, якщо подія A відбудеться, так і у
випадку, якщо подія A не відбудеться .
ПРИНЦИП ЙМОВІРНІСНОГО
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ.
 Розглянемо ранжований пошук в колекції
документів, при якому користувач
відсилає запити і отримує у відповідь
впорядкований список документів.
 Припустимо також, що оцінки
релевантності є бінарними.
 Для запиту q та документа d позначимо
через Rd,q випадкову величину - індикатор
релевантності документа d по
відношенню до запиту q.
 Ця величина дорівнює одиниці, якщо
документ релевантний, і нулю в іншому
випадку.
 У ситуаціях, що не викликають
непорозумінь, будемо писати R, а не Rd,q.
 У рамках ймовірнісної моделі природно
ранжувати результати пошуку по оціненим
ймовірностями їх релевантності інформаційній
потребі: P(R =1|d,q).
 Такий підхід лежить в основі принципу
імовірнісного ранжування (Probability Ranking
Principle - PRP), що був запропонований ван
Рійсбергеном (van Rijsbergen, 1979).
 Якщо у відповідь на кожен запит пошукова система
ранжує документи в колекції в порядку убування
ймовірності їх релевантності для користувача, що
надіслав запит, де ймовірності оцінені як можна
більш точно на основі доступних даних, то загальна
якість системи є найкращою на цих даних.
 Найпростіший варіант принципу PRP
ігнорує вартість пошуку та інші
міркування про корисність, відповідно до
яких дії і помилки системи можуть мати
різні ваги.
 Ви просто втрачаєте бал, якщо система
повертає нерелевантний документ або не
знаходить релевантний документ (така
бінарна модель оцінки правильності
(accuracy) називається моделлю бінарних
втрат (1 / 0 loss)).
 Мета системи - повернути в якості перших
k документів найкращі результати для
будь-якого значення k, яке вибирає
користувач.
 У такому випадку відповідно до принципу
PRP досить розташувати всі документи в
порядку убування величин P (R = 1|d,q).
 Якщо необхідно повернути не ранжовану
множину знайдених результатів, то
відповідно до байєсовського правила
оптимального рішення (Bayes optimal
decision rule), які мінімізують ризик втрат,
досить повернути документи, які скоріше
релевантні, ніж нерелевантні.
РАНЖУВАННЯ. БІНАРНІ ВТРАТИ
ПРИНЦИП ІМОВІРНІСНОГО
РАНЖИРУВАННЯ З УРАХУВАННЯМ
ВАРТОСТІ ПОШУКУ
 Припустимо тепер, що модель враховує
вартість пошуку.
 Нехай С1 - вартість пошуку релевантного
документа, а С0 - вартість пошуку
нерелевантного документа.
 Така модель дає формальний апарат, за
допомогою якого можна моделювати різну
вартість хибнопозитивних і
псевдонегативних відповідей і навіть
враховувати продуктивність системи на
етапі моделювання, а не на етапі
тестування.
 Проте надалі ми не будемо розглядати
питання втрат і корисності в цій лекції.
БІНАРНА МОДЕЛЬ НЕЗАЛЕЖНОСТІ
 Спочатку опишемо модель, в якій
передбачається, що користувач
задовольняє інформаційну потребу за
один крок.
 Як зазначалося в лекції 9, переглянувши
список результатів, користувач може
уточнити свою інформаційну потребу.
 На щастя, модель BIM можна
модифікувати так, щоб створити основу
для зворотного зв'язку за релевантністю.
 Для уточнення ймовірнісної стратегії
пошуку необхідно оцінити, як терміни у
документі впливають на його релевантність.
 зокрема, ми хочемо знати, як частота терміна,
документна частота, довжина документа та
інші статистичні показники, які можна
обчислити, впливають на релевантність
документів і як їх правильно використовувати
для оцінки ймовірності релевантності
документа.
 Після цього ми розташуємо документи в
порядку зменшення оціненої ймовірності їх
релевантності.
 Ці ймовірності слід вважати функціями,
визначеними на просторі можливих
документів з предметної області.
 Як обчислити ці ймовірності?
 Точні ймовірності завжди невідомі, і тому

їх доводиться замінювати оцінками,
отриманими на основі реальної колекції
документів.
ВИВЕДЕННЯ ФУНКЦІЇ РАНЖУВАННЯ
ДЛЯ ТЕРМІНІВ ЗАПИТУ
Документ Релевантни Нерелевантний
й (R=1) (R=0)
Термін xt=1 pt ut
присутній
Термін xt=0 1-pt 1-ut
відсутній
ОЦІНКИ ЙМОВІРНОСТЕЙ: ТЕОРІЯ
 Як виглядають величини ct для кожного
терміна t по всій колекції?
 Таблиця спряженості ознак містить
статистичні показники документів в
колекції, де dft - це кількість документів,
що містять термін t.
Докумен Релевантни Нерелевантни Всього
т й (R=1) й (R=0)
Термін xt=1 s dft-s Dft
присутні
й
Термін xt=0 S-s (N-dft)-(S-s) N-dft
відсутній
Всього S N-S N
 Додавання 1/2 являє собою вид згладжування.
 Для випробувань з категоріальними
результатами (наприклад, коли термін або
присутній, або відсутній) оцінити ймовірність
за даними можна, підрахувавши, скільки разів
сталася подія, і розділивши це число на
загальну кількість випробувань.
 Отримане число називається відносною
частотою події (relative frequency).
 Оцінка ймовірності на основі відносної частоти
події являє собою оцінку максимальної
правдоподібності (Maximum Likelihood Estimate
- MLE), оскільки саме це значення робить
спостережувані значення максимально
правдоподібними.
ОЦІНКА ЙМОВІРНОСТЕЙ: ПРАКТИКА
 Величину pt можна оцінити різними
способами.
 1. Можна використовувати частоту появи
терміна у відомих релевантних
документах (якщо такі документи є).
 Нацьому засновані імовірнісні підходи до
зважування за допомогою зворотного зв'язку
за релевантністю, які будуть розглянуті далі.
 2. Крофт і Харпер (Croft and Harper, 1979)
запропонували використовувати
константу у своїй моделі комбінаційного
узгодження (combination match model).
 Наприклад, можна припустити, що pt - це
константа для всіх термінів xt і pt = 0,5.
 Це означає, що всі терміни мають однакові
шанси з'явитися в релевантних документах і
множники pt і 1-pt у виразі для обчислення
RSV скорочуються.
 Така оцінка є слабкою, але не суперечить
очікуванням виявити шукані терміни в
багатьох, але не у всіх релевантних
документах.
 Комбінуючи цей метод з попередньою
апроксимацією величини ut, ми отримуємо
ранжування документів на основі суми ваг
idf термінів запиту.
 3. Грейф (Greiff, 1998) стверджує, що
модель Крофта і Харпера слабо
обгрунтована з теоретичної точки зору і
не знаходить підтвердження на практиці:
 як і слід було очікувати, виявилося, що при
зростанні dft величина pt зростає.
 Виходячи з цього, розумно запропонувати
використовувати оцінку:
 pt = 1/3+(2/3)dft/N.
ЙМОВІРНІСНІ ПІДХОДИ ДО
ЗВОРОТНОГО ЗВ’ЯЗКУ ЗА
РЕЛЕВАНТНІСТЮ
 В ході ітеративного процесу більш точну
оцінку величини pt можна отримати за
допомогою зворотного зв'язку по (псевдо)
релевантністю (RF).
 Імовірнісний підхід до зворотного зв'язку
за релевантністю працює таким чином:
 1. Вгадуємо початкові ймовірності pt і ut.
 Для цього можна використовувати оцінки з
попереднього розділу.
 Наприклад, можна припустити, що величина
pt є постійною для всіх термінів xt в запиті,
зокрема можна покласти pt = 1/2.
 2. На основі поточних оцінок ймовірностей
pt і ut формуємо безліч найкращих
документів
R = {d: Rd,q = 1}.
 Застосовуємо цю модель для пошуку
ймовірних релевантних документів і
представляємо їх користувачеві.
 3. Взаємодіючи з користувачем, уточнюємо
модель для визначення множини R.
 Для цього збираємо оцінки релевантності,
зроблені користувачем, для документів з
деякої підмножини документів V.
 Грунтуючись на цих оцінках релевантності,
поділяємо множину V на підмножину
 VR = {d ∈ V, Rd,q = 1} ⊂ R
 і підмножину
 VNR = {d ∈ V, Rd,q = 0}, яка не перетинається з
R.
 4. Оцінюємо ймовірності pt і ut заново на
основі відомих релевантних і
нерелевантних документів.
 Якщо множини VR і VNR досить великі, то
ці величини можна оцінити безпосередньо
як оцінки максимальної правдоподібності.
 pt = |VRt|/|VR|
 Тут VRt – підмножина документів з
множини VR, що містить термін t.
 5. Повторюємо процес, починаючи з етапу
2, генеруючи послідовні наближення
множини R і ймовірності pt, поки
користувач не буде повністю
задоволений.
 На основі цього алгоритму легко можна
створити його варіант зі зворотним
зв'язком по псевдорелевантності, в якому
просто передбачається, що VR = V.
РОЛЬ І МІСЦЕ ЙМОВІРНІСНИХ
МОДЕЛЕЙ
 Імовірнісні моделі - одні з найстаріших моделей
в теорії інформаційного пошуку.
 Вже в 1970-х роках вони розглядалися як засіб
теоретичного обгрунтування методів
інформаційного пошуку.
 У міру відродження імовірнісних методів у
комп'ютерній лінгвістиці в 1990-х роках ці надії
повернулися, і імовірнісні методи знову стали
однією з найбільш інтенсивно досліджуваних
тем у теорії інформаційного пошуку.
 Традиційно імовірнісні методи інформаційного
пошуку відрізнялися витонченими ідеями, але
ніколи не вигравали в продуктивності.
 Для того щоб отримати розумні наближення
необхідних ймовірностей в рамках цих моделей,
необхідно зробити кілька припущень.
МОДЕЛЕЙ
 Перерахуємо припущення, на яких
заснована модель BIM.
 1. Документи, запити та висновки про
релевантність мають бінарне подання.
 2. Терміни не залежать один від одного.
 3. Терміни, що не містяться в запиті, не
впливають на результати пошуку.
 4. Оцінки релевантності документів є
незалежними один від одного.
МОДЕЛЕЙ
 Ймовірно, дуже жорсткі припущення не
дозволяють імовірнісним моделям досягти
високої продуктивності.
 Основною проблемою є те, що імовірнісні
моделі або вимагають часткової
інформації про релевантність, або, за
відсутності такої інформації, дозволяют
вивести лише очевидно слабші моделі
зважування термінів.
МОДЕЛЕЙ
 Стан справ почав змінюватися в 1990-х
роках, коли була продемонстрована дуже
висока продуктивність схеми зважування
BM25.
 З тих пір ця схема стала застосовуватися
для зважування термінів багатьма
дослідницькими групами.
 Різниця між векторними і імовірнісними
інформаційно пошуковими системами
невелика, і в тому, і в іншому випадках
система інформаційного пошуку
створюється точно так само.
МОДЕЛЕЙ
 Просто для ймовірнісної інформаційно-
пошукової системи запити оцінюються не
за допомогою косинусної міри схожості і
схеми зважування tf-idf, як у векторному
просторі, а по трохи іншим формулами, що
випливають з теорії ймовірностей.
 По суті, в деяких випадках розробники
просто модифікували існуючі
інформаційно-пошукові системи, засновані
на моделі векторного простору, просто
запозичивши імовірнісні схеми
зважування термінів.
OKAPI BM25
OKAPI BM25
OKAPI BM25
 Зважувальна схема термінів BM25
застосовувалась досить вдало та успішно
для різних колекцій і пошукових задач.
 Особливо добре вона зарекомендувала
себе в рамках експериментів TREC (Text
Retrieval Conference).
 Дякую за увагу.

Lekcija 11with Formuls

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lekcija 11with Formuls

Uploaded by

Copyright:

Available Formats

ЛЕКЦІЯ 11.

 Точні ймовірності завжди невідомі, і тому

You might also like