You are on page 1of 49

ЛЕКЦІЯ 12.

МОВНІ МОДЕЛІ
ІНФОРМАЦІЙНОГО
ПОШУКУ
Глибовець А.М.
ВСТУП
 Для того щоб скласти гарний запит,
користувачам рекомендується уявити, які
слова можуть зустрітися в релевантних
документах, і саме їх використовувати у
запиті.
 Ця ідея знайшла своє безпосереднє
втілення в мовних моделях
інформаційного пошуку.
ВСТУП
 У рамках цього підходу вважається, що
документ відповідає запиту, якщо модель
документа з великою ймовірністю
породжує цей запит, що, в свою чергу,
трапляється, якщо в документі часто
зустрічаються слова запиту.
 Таким чином, цей підхід є альтернативною
реалізацію однієї з основних ідей
ранжирування документів.
ВСТУП
 Замість безпосереднього моделювання
ймовірності P (R = 1|q,d) релевантністю
документа d по відношенню до запиту q,
як в традиційних моделях ймовірнісного
інформаційного пошуку, цей підхід
передбачає створення ймовірнісної мовної
моделі Md для кожного документа d і
ранжування документів відповідно до
ймовірності P (q|Md) того, що побудована
модель Md породжує запит q.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Що означає вираз "Модель документа
породжує запит"?
 Для того щоб розпізнавати або генерувати
рядки, можна використовувати
традиційну мовну породжуючу модель
(generative model), концепція якої
прийшла з теорії формальних мов.
 Повна сукупність рядків, яку може
згенерувати кінцевий автомат,
називається мовою автомата (language of
the automation).
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.

Простий скінченний автомат і деякі рядки, які він може


генерувати. Стрілка показує початковий стан автомата, а
подвійна окружність - (можливий) кінцевий стан.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
  
Якщо кожен вузол має розподіл
ймовірностей над різними генерованими
термінами, то ми отримаємо мовну
модель.
 Поняття мовної моделі, по суті, є
імовірнісним.
 Мовна модель (language model) - це
функція, яка кожному рядку, виведеної з
певного конкретного словника, приписує
деяку ймовірність.
 Інакше кажучи, для мовної моделі M над
алфавітом Σ виконується рівність
 (12.1)
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Найпростішим
  різновидом мовної моделі є
імовірнісний кінцевий автомат, що складається
з одного вузла і одного розподілу ймовірностей
над генерованими термінами, так що .
 Після генерування кожного слова ми
вирішуємо, зупинятися або продовжувати цикл
і генерувати наступне слово, тому модель
вимагає також вказати ймовірність зупинки в
кінцевому стані.
 Такі моделі визначають ймовірність будь-якої
послідовності слів.
 Такий автомат являє собою модель породження
тексту відповідно до заданого розподілу.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Скінченний автомат з одним станом, що
діє як уніграмна модель.
 Показано часткове визначення
ймовірностей стану (рис 12.2).
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Для того щоб обчислити вірогідність
послідовності слів, слід просто
перемножити ймовірності появи кожного з
цих слів у послідовності, а також
імовірність продовження або зупинки
після генерації кожного слова, наприклад:
 P(frogsaid toad likes frog) = (0,01 × 0,03 × 0,04
× 0,01 × 0,02 × 0,01) × (0,8 × 0,8 × 0,8 × 0,8
× 0,8 × 0,2) ≈ 0,0000000000001573.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Як бачимо, ймовірність конкретного рядка або
документа зазвичай дуже мала!
 В даному випадку ми зупинилися після
генерування слова frog вдруге.
 Перший рядок цифр є ймовірності емісії терміну,
а другий рядок містить ймовірності продовження
або зупинки після генерування кожного слова.
 Відповідно до рівності (12.1), для того щоб мовна
модель була узгодженою, кінцевий автомат
повинен мати явну ймовірність зупинки.
 Проте в більшості випадків ми будемо ігнорувати
ймовірності станів STOP і 1-STOP (як і більшість
авторів).
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Для порівняння двох моделей на одному і тому ж
наборі даних можна обчислити відношення
правдоподібності (likelihood ratio), що є вірогідність
даних відповідно з однією моделлю, поділену на
ймовірність даних з іншої моделі.
 Враховуючи, що ймовірність зупинки є фіксованою,
її врахування не впливає на відношення
правдоподібності, що виникає в результаті
порівняння ймовірностей того, що дві мовні моделі
згенерують один і той же рядок.
 Отже, вона не впливає і на ранжування документів.

 Проте з формальної точки зору величини більше не


можна вважати справжніми ймовірностями, а
можна вважати лише пропорційними
ймовірностями.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Припустимо тепер, що ми порівнюємо моделі
M1 і M2, частково продемонстровані на рис.
12.2.
 Кожна дає оцінку вірогідності послідовності
термінів, як показано в прикладі.
 Якщо мовна модель приписує послідовності
термінів більш високу ймовірність, то більш
імовірно, що саме вона згенерувала дану
послідовність.
 На цей раз ми проігноруємо ймовірності
зупинки при розрахунках.
 Для продемонстрованої послідовності ми
отримуємо такі результати.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Як бачимо, P (s|M1)> P (s|M2).
 Тут формули являють собою добуток
ймовірностей, але, як звичайно в
застосуваннях теорії ймовірностей, на
практиці зручніше працювати з сумами
логарифмів ймовірностей.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Часткова специфікація двох уніграмних
мовних моделей
ТИПИ МОВНИХ МОДЕЛЕЙ
 Як обчислити ймовірності послідовностей
термінів?
 Для цього можна використовувати
правило множення ймовірностей,
розклавши ймовірність послідовності на
ймовірності появи окремих термінів за
умови появи попередніх термінів.
P (t1t2t3t4) = P (t1)P (t2|t1)P (t3|t1t2)P(t4|t1t2t3) (12.4)
ТИПИ МОВНИХ МОДЕЛЕЙ
 У найпростішій формі мовної моделі всі
умовні ймовірності просто відкидаються, і
всі терміни вважаються незалежними
один від одного.
 Така модель називається уніграмною
мовною моделлю (unigram language
model).
 Puni(t1t2t3t4)=P(t1)P(t2)P(t3)P(t4) (12.5)
ТИПИ МОВНИХ МОДЕЛЕЙ
 Існують більш складні мовні моделі,
наприклад біграмні (bigram language
models), в яких використовується
ймовірність попереднього терміну.
 Puni(t1t2t3t4)=P(t1)P(t2|t1)P(t3|t2)P(t4|t3) (12.6)
ТИПИ МОВНИХ МОДЕЛЕЙ
 Ще більш складні мовні моделі засновані
на граматиці, наприклад імовірнісні
контекстно-вільні граматики.
 Ці моделі дуже важливі для вирішення
таких завдань, як розпізнавання мови,
виправлення орфографічних помилок і
машинний переклад, коли необхідно
знати ймовірність появи терміну в
залежності від навколишнього контексту.
 Проте в інформаційному пошуку
найчастіше використовувалися уніграмі
мовні моделі.
ТИПИ МОВНИХ МОДЕЛЕЙ
 Інформаційний пошук - це не та область, в якій
відразу необхідно застосовувати складні мовні
моделі, оскільки пошук не настільки залежить від
структури пропозиції, як інші завдання, наприклад
розпізнавання мови.
 Часто для того, щоб зрозуміти тему тексту, цілком
достатньо уніграмної моделі.
 Більше того, як буде показано нижче, мовні моделі
інформаційного пошуку часто будуються на основі
одного документа, і тому виникає питання, чи
можна на цьому невеликому обсязі даних зробити
щось більш складне.
 Втрати від розрідженості даних часто переважують
будь-який виграш, досягнутий завдяки складним
моделями.
ТИПИ МОВНИХ МОДЕЛЕЙ
 Крім того, уніграмні моделі ефективніше
отримувати і застосовувати, ніж моделі
більш високого порядку.
 Проте важливість фразових запитів і
запитів з урахуванням близькості слів
запиту в документі мотивують
використання в майбутньому більш
складних мовних моделей.
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ

 Мовне моделювання являє собою досить


загальну формальну теорію в галузі
інформаційного пошуку, що має
різноманітні реалізації.
 Основним методом використання мовних
моделей в інформаційному пошуку є
модель правдоподібності запиту (query
likelihood model).
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ

 У ній для кожного документа d з колекції


створюється мовна модель Md.
 Наша мета - ранжувати документи по
ймовірності P (d|q), де ймовірність
документа інтерпретується як
правдоподібність того, що він
релевантний запиту.
 Використовуючи правило Байєса,
одержимо наступне рівність.
 P(d|q) = P(q|d)P(d)/P (q)
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ

 Тут P (q) - ймовірність, однакова для всіх


документів, і тому її можна ігнорувати.
 Апріорний розподіл імовірностей
документа часто вважається рівномірним
по всіх документах, і тому ймовірність P(d)
також може бути відкинута, хоча можна
було б спробувати оцінити апріорну
ймовірність, враховуючи такі показники,
як авторитетність, довжина, жанр,
новизна і кількість людей, що вже
прочитали документ.
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ

 Однак, зробивши зазначені спрощення, ми


отримаємо результати, ранжирування
просто за ймовірністю P(q|d) того, що
запит q в рамках мовної моделі виведений
з документа d.
 Таким чином, мовне моделювання
намагається імітувати процес генерації
запиту: документи ранжуються за
ймовірністю того, що запит може
з'явитися як випадкова вибірка з
відповідної моделі документа.
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ

  
Найчастіше для цього використовується
мультіноміальна уніграмна мовна модель,
яка еквівалентна мультіноміальній наївній
байєсівській моделі, в якій документи - це
класи, які відіграють роль окремих "мов".
 У цій моделі виконується наступна
рівність.

 Тут - мультиноміальний коефіцієнт для


запита q, який для конкретного запиту є
постійним і може не враховуватися.
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ

  
Для пошуку на основі мовної моделі,
генерування запитів розглядається як
випадковий процес.
 1. Виводимо мовну модель для кожного
документа.
 2. Оцінюємо , вірогідність генерування запиту
відповідно до кожної з цих моделей.
 3. Ранжуємо документи у відповідності з цими
імовірностями.
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ
 В основі даної моделі лежить інтуїтивне
припущення, що користувач тримає в умі
прототип документа і генерує запит на основі
слів, які містяться в цьому документі.
 Часто користувачі мають розумні припущення
про терміни, які, ймовірно, можуть зустрітися
в документах що їх цікавлять, і вибирають
терміни в запиті так, щоб відрізнити шуканий
документ від інших документів колекції.
 Статистичні характеристики колекції є
невід'ємною частиною мовної моделі, а не
використовуються евристично, як в інших
методах.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Давайте

  розберемося, як оцінити ймовірність P (q|
Md).
 Ймовірність згенерувати запит по заданій мовній
моделі Md, побудованої по документу d, на основі
оцінки максимальної правдоподібності (MLE) і
припущення про незалежність термінів (тобто в
рамках уніграммной моделі) обчислюється за такою
формулою.

 Md - мовна модель документа d


 tft,d - частота терміна t в документі d
 Ld - кількість лексем в документі d.

 Інакше кажучи, ми просто підраховуємо, скільки


разів з'являється кожне слово, і ділимо частоту на
загальну кількість слів у документі d.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Класична проблема, пов'язана з мовними
моделями, - оцінка ймовірності (символ ∧ над
буквою P підкреслює, що в моделі
використовуються оцінки).
 Терміни в документах повторюються дуже
рідко.
 Зокрема, деякі слова взагалі не зустрічаються в
документах, але є цілком можливими для
вираження інформаційної потреби.
 Якщо для терміна, відсутнього в документі,
оцінка ймовірності дорівнює нулю, то ми
отримаємо суворо кон'юнктивну семантику:
запит має ненульову ймовірність, тільки якщо
всі терміни запиту містяться в документі.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Нульові ймовірності створюють очевидні
проблеми в інших застосуваннях мовних
моделей, наприклад для передбачення
наступного слова при розпізнаванні мови,
оскільки багато слів рідко зустрічаються в
навчальній вибірці.
 Проблематичність нульових ймовірностей
в інформаційному пошуку не так
очевидна.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Можна вважати, що ця складність відноситься
до аспектів людино-машинного інтерфейсу:
системи, засновані на моделі векторного
простору, зазвичай віддають перевагу
неповним збігам, хоча недавні розробки в
області веб-пошуку демонструють тенденцію
до використання кон'юнктивної семантики.
 Незалежно від обраного підходу проблема
оцінки залишається: частота слів що
зустрічаються оцінюється дуже погано;
зокрема, ймовірність появи слова, що
зустрічається в документі один раз, зазвичай
переоцінюється, оскільки ця поява може
носити випадковий характер.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Вирішенням даної проблеми є згладжування
(smoothing).
 Проте у міру того, як люди стали краще
розуміти підхід, заснований на мовних моделях,
стало ясно, що роль згладжування в цій моделі
не зводиться тільки до усунення нульових
ймовірностей.
 Згладжування термінів стало важливою
частиною обчислення їх ваг.
 Це означає, що незгладжені моделі мають не
тільки кон'юнктивну семантику, незгладжені
моделі працюють погано, тому що вони не
враховують важливий компонент - ваги
терміна.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Таким чином, для того щоб усунути нульові
ймовірності та присвоїти певні ймовірності
словам, які в тексті не зустрілися, в мовних
моделях необхідно застосовувати
згладжування.
 Для згладжування розподілів ймовірностей
запропоновано багато методів.
 Вважається, що терміни, які не з'являються в
документі, можуть з'являтися у запитах,
проте їх ймовірність має бути менше або
дорівнювати ймовірності випадкової появи
терміна в усій колекції.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Інакше
  кажучи, якщо tft,d = 0, то

 Тут cft - частота терміна в колекції, а T -


кількість лексем в колекції.
 Проста ідея, яка виправдала себе на практиці,
полягає в тому, щоб використовувати суміш
мультіноміального розподілу, отриманого на
основі документа, і мультіноміального
розподілу, отриманого по всій колекції.

 Тут 0< <1, а - мовна модель, побудована по


всій колекції документів.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Цей розподіл є сумішшю розподілів
ймовірностей терміна по документу і по
колекції.
 Така модель називається мовною
моделлю, заснованій на лінійній
інтерполяції (linear interpolation LM).
 Для гарного функціонування цієї моделі
важливий правильний вибір параметра λ.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
  
Альтернативою є використання мовної
моделі, побудованої по всій колекції, як
апріорного розподілу для байєсівського
процесу уточнення даних (Bayesian
updating process).
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Обидва ці методи згладжування добре
показали себе в експериментах.
 Незважаючи на відмінності в деталях
обидва методи, в принципі, схожі один на
одного.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Згладжування в мовних моделях не
зводиться лише до вирішення проблем,
пов'язаних з оцінками.
 Цей факт ще не був ясний, коли моделі
були запропоновані вперше, але зараз
зрозуміло, що згладжування дозволяє
поліпшити якість моделі в цілому.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Ступінь згладжування в описаних моделях
залежить від параметрів λ і α.
 Невелике значення параметра λ або велике
значення параметра α означає сильне
згладжування.
 Керуючи цими параметрами, можна
оптимізувати продуктивність моделі.
 Їх величини не зобов'язані бути постійними.

 Один з підходів – зробити значення функцією від


розміру запиту.
 Це корисно, оскільки для коротких запитів краще
підходить невелике згладжування ("майже
кон'юнктивний" пошук), а для довгих - сильне
згладжування.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
  
Отже, функція ранжирування результатів
пошуку за запитом q в рамках базової
мовної моделі виглядає так.

 Це рівняння характеризує ймовірність


того, що документ, який користувач мав
на увазі – це дійсно документ d.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Приклад. Припустимо, що колекція
складається з двох документів.
 d1: Xyzzy reports a profit but revenue is down
 d2: Quorus narrows quarter loss but revenue
decreases further
 Модель являє собою суміш двох MLE-
моделей, побудованих за документами і
колекції, і змішаних c λ = 1 / 2.
 Припустимо, що запит має вигляд revenue
down.
 Порахуємо ймовірності P(d|q)
ЕКСПЕРИМЕНТИ ПОНТЕ І КРОФТА
 Понте і Крофт (Ponte and Croft, 1998)
описали перші експерименти, що
стосуються застосування мовних моделей в
області інформаційного пошуку.
 В якості основної вони використовували
описану вище модель.
 Однак ми дотримувалися підходу, в якому
мовна модель являла собою суміш двох
мультіноміальних розподілів, як в роботах
Міллера, Хіемстри та ін (Miller et al., 1999;
Hiemstra, 2000), в той час як Понте і Крофт
використовували багатомірну модель
Бернуллі.
ЕКСПЕРИМЕНТИ ПОНТЕ І КРОФТА
 Використання мультиноміальних розподілів з
часом стало загальноприйнятим в більшості
робіт за мовними моделями та експериментів
з інформаційного пошуку.
 Понте і Крофт переконливо довели, що ваги
термінів, визначені за мовними моделями,
набагато ефективніше, ніж ваги tf-idf.
 Частина результатів Понте і Крофта
представлені на наступному слайді.
 Тут наведено результати порівняння
зважування на основі tf-idf і мовних моделей
стосовно до завданнь TREC 202-250 і даними
дисків 2 і 3.
ЕКСПЕРИМЕНТИ ПОНТЕ І КРОФТА
 Запити являють собою пропозиції на
природній мові.
 Мовні моделі продемонстрували перевагу
над схемою зважування термінів tf-idf.
 Ця перевага потім було підтверджена в
інших роботах.
РОЗШИРЕННЯ МОВНИХ МОДЕЛЕЙ
 Існують альтернативні точки зору на
використання мовних моделей для
інформаційного пошуку.
 Замість дослідження ймовірності того, що мовна
модель документа Md згенерує запит, можна
орієнтуватися на ймовірність того, що мовна
модель запиту Mq згенерує документ.
 Основна причина невисокої популярності моделі
правдоподібності документа (document likelihood
model) полягає в тому, що для побудови мовної
моделі запиту є набагато менше тексту, тому
оцінки в цій моделі будуть грубіше, а значить,
вони будуть сильніше залежати від
згладжування з участю іншої мовної моделі.
РОЗШИРЕННЯ МОВНИХ МОДЕЛЕЙ
 З іншого боку, неважко переконатися, що
інтегрування зворотного зв'язку за релевантністю в
таку модель здійснити набагато легше.
 Ми можемо розширити запит за рахунок термінів,
взятих з релевантних документів, і тим самим
уточнити мовну модель Mq (Zhai and Lafferty, 2001,
а).
 Дійсно, при правильному виборі параметрів цей
підхід призводить до моделі BIM.
 Прикладом моделі правдоподібності документа є
модель релевантності, запропонована Лавренко і
Крофт (Lavrenko and Croft, 2001), в яку вбудовано
зворотній зв'язок щодо псевдорелевантності.
 Це дозволило досягти дуже хороших емпіричних
результатів.
РОЗШИРЕННЯ МОВНИХ МОДЕЛЕЙ
 Замість того щоб слідувати в одному з
напрямків, ми можемо побудувати мовні
моделі як по документу, так і за запитом
та порівняти їх один з одним.
 Лафферті і Жаі (Lafferti and Zhai, 2001)
реалізували всі три підходи до вирішення
поставленого завдання і розробили
загальний метод мінімізації ризику при
пошуку документа.
 Дякую за увагу.

You might also like