Lekcija 12

ЛЕКЦІЯ 12.
МОВНІ МОДЕЛІ
ІНФОРМАЦІЙНОГО
ПОШУКУ
Глибовець А.М.
ВСТУП
 Для того щоб скласти гарний запит,
користувачам рекомендується уявити, які
слова можуть зустрітися в релевантних
документах, і саме їх використовувати у
запиті.
 Ця ідея знайшла своє безпосереднє
втілення в мовних моделях
інформаційного пошуку.
ВСТУП
 У рамках цього підходу вважається, що
документ відповідає запиту, якщо модель
документа з великою ймовірністю
породжує цей запит, що, в свою чергу,
трапляється, якщо в документі часто
зустрічаються слова запиту.
 Таким чином, цей підхід є альтернативною
реалізацію однієї з основних ідей
ранжирування документів.
ВСТУП
 Замість безпосереднього моделювання
ймовірності P (R = 1|q,d) релевантністю
документа d по відношенню до запиту q,
як в традиційних моделях ймовірнісного
інформаційного пошуку, цей підхід
передбачає створення ймовірнісної мовної
моделі Md для кожного документа d і
ранжування документів відповідно до
ймовірності P (q|Md) того, що побудована
модель Md породжує запит q.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
 Що означає вираз "Модель документа
породжує запит"?
 Для того щоб розпізнавати або генерувати
рядки, можна використовувати
традиційну мовну породжуючу модель
(generative model), концепція якої
прийшла з теорії формальних мов.
 Повна сукупність рядків, яку може
згенерувати кінцевий автомат,
називається мовою автомата (language of
the automation).
Простий скінченний автомат і деякі рядки, які він може

генерувати. Стрілка показує початковий стан автомата, а
подвійна окружність - (можливий) кінцевий стан.

Якщо кожен вузол має розподіл
ймовірностей над різними генерованими
термінами, то ми отримаємо мовну
модель.
 Поняття мовної моделі, по суті, є
імовірнісним.
 Мовна модель (language model) - це
функція, яка кожному рядку, виведеної з
певного конкретного словника, приписує
деяку ймовірність.
 Інакше кажучи, для мовної моделі M над
алфавітом Σ виконується рівність
 (12.1)
 Найпростішим
 різновидом мовної моделі є
імовірнісний кінцевий автомат, що складається
з одного вузла і одного розподілу ймовірностей
над генерованими термінами, так що .
 Після генерування кожного слова ми
вирішуємо, зупинятися або продовжувати цикл
і генерувати наступне слово, тому модель
вимагає також вказати ймовірність зупинки в
кінцевому стані.
 Такі моделі визначають ймовірність будь-якої
послідовності слів.
 Такий автомат являє собою модель породження
тексту відповідно до заданого розподілу.
 Скінченний автомат з одним станом, що
діє як уніграмна модель.
 Показано часткове визначення
ймовірностей стану (рис 12.2).
 Для того щоб обчислити вірогідність
послідовності слів, слід просто
перемножити ймовірності появи кожного з
цих слів у послідовності, а також
імовірність продовження або зупинки
після генерації кожного слова, наприклад:
 P(frogsaid toad likes frog) = (0,01 × 0,03 × 0,04
× 0,01 × 0,02 × 0,01) × (0,8 × 0,8 × 0,8 × 0,8
× 0,8 × 0,2) ≈ 0,0000000000001573.
 Як бачимо, ймовірність конкретного рядка або
документа зазвичай дуже мала!
 В даному випадку ми зупинилися після
генерування слова frog вдруге.
 Перший рядок цифр є ймовірності емісії терміну,
а другий рядок містить ймовірності продовження
або зупинки після генерування кожного слова.
 Відповідно до рівності (12.1), для того щоб мовна
модель була узгодженою, кінцевий автомат
повинен мати явну ймовірність зупинки.
 Проте в більшості випадків ми будемо ігнорувати
ймовірності станів STOP і 1-STOP (як і більшість
авторів).
 Для порівняння двох моделей на одному і тому ж
наборі даних можна обчислити відношення
правдоподібності (likelihood ratio), що є вірогідність
даних відповідно з однією моделлю, поділену на
ймовірність даних з іншої моделі.
 Враховуючи, що ймовірність зупинки є фіксованою,
її врахування не впливає на відношення
правдоподібності, що виникає в результаті
порівняння ймовірностей того, що дві мовні моделі
згенерують один і той же рядок.
 Отже, вона не впливає і на ранжування документів.
 Проте з формальної точки зору величини більше не

можна вважати справжніми ймовірностями, а
можна вважати лише пропорційними
ймовірностями.
 Припустимо тепер, що ми порівнюємо моделі
M1 і M2, частково продемонстровані на рис.
12.2.
 Кожна дає оцінку вірогідності послідовності
термінів, як показано в прикладі.
 Якщо мовна модель приписує послідовності
термінів більш високу ймовірність, то більш
імовірно, що саме вона згенерувала дану
послідовність.
 На цей раз ми проігноруємо ймовірності
зупинки при розрахунках.
 Для продемонстрованої послідовності ми
отримуємо такі результати.
 Як бачимо, P (s|M1)> P (s|M2).
 Тут формули являють собою добуток
ймовірностей, але, як звичайно в
застосуваннях теорії ймовірностей, на
практиці зручніше працювати з сумами
логарифмів ймовірностей.
 Часткова специфікація двох уніграмних
мовних моделей
ТИПИ МОВНИХ МОДЕЛЕЙ
 Як обчислити ймовірності послідовностей
термінів?
 Для цього можна використовувати
правило множення ймовірностей,
розклавши ймовірність послідовності на
ймовірності появи окремих термінів за
умови появи попередніх термінів.
P (t1t2t3t4) = P (t1)P (t2|t1)P (t3|t1t2)P(t4|t1t2t3) (12.4)
 У найпростішій формі мовної моделі всі
умовні ймовірності просто відкидаються, і
всі терміни вважаються незалежними
один від одного.
 Така модель називається уніграмною
мовною моделлю (unigram language
model).
 Puni(t1t2t3t4)=P(t1)P(t2)P(t3)P(t4) (12.5)
 Існують більш складні мовні моделі,
наприклад біграмні (bigram language
models), в яких використовується
ймовірність попереднього терміну.
 Puni(t1t2t3t4)=P(t1)P(t2|t1)P(t3|t2)P(t4|t3) (12.6)
 Ще більш складні мовні моделі засновані
на граматиці, наприклад імовірнісні
контекстно-вільні граматики.
 Ці моделі дуже важливі для вирішення
таких завдань, як розпізнавання мови,
виправлення орфографічних помилок і
машинний переклад, коли необхідно
знати ймовірність появи терміну в
залежності від навколишнього контексту.
 Проте в інформаційному пошуку
найчастіше використовувалися уніграмі
мовні моделі.
 Інформаційний пошук - це не та область, в якій
відразу необхідно застосовувати складні мовні
моделі, оскільки пошук не настільки залежить від
структури пропозиції, як інші завдання, наприклад
розпізнавання мови.
 Часто для того, щоб зрозуміти тему тексту, цілком
достатньо уніграмної моделі.
 Більше того, як буде показано нижче, мовні моделі
інформаційного пошуку часто будуються на основі
одного документа, і тому виникає питання, чи
можна на цьому невеликому обсязі даних зробити
щось більш складне.
 Втрати від розрідженості даних часто переважують
будь-який виграш, досягнутий завдяки складним
моделями.
 Крім того, уніграмні моделі ефективніше
отримувати і застосовувати, ніж моделі
більш високого порядку.
 Проте важливість фразових запитів і
запитів з урахуванням близькості слів
запиту в документі мотивують
використання в майбутньому більш
складних мовних моделей.
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ
 Мовне моделювання являє собою досить

загальну формальну теорію в галузі
інформаційного пошуку, що має
різноманітні реалізації.
 Основним методом використання мовних
моделей в інформаційному пошуку є
модель правдоподібності запиту (query
likelihood model).
 У ній для кожного документа d з колекції

створюється мовна модель Md.
 Наша мета - ранжувати документи по
ймовірності P (d|q), де ймовірність
документа інтерпретується як
правдоподібність того, що він
релевантний запиту.
 Використовуючи правило Байєса,
одержимо наступне рівність.
 P(d|q) = P(q|d)P(d)/P (q)
 Тут P (q) - ймовірність, однакова для всіх

документів, і тому її можна ігнорувати.
 Апріорний розподіл імовірностей
документа часто вважається рівномірним
по всіх документах, і тому ймовірність P(d)
також може бути відкинута, хоча можна
було б спробувати оцінити апріорну
ймовірність, враховуючи такі показники,
як авторитетність, довжина, жанр,
новизна і кількість людей, що вже
прочитали документ.
 Однак, зробивши зазначені спрощення, ми

отримаємо результати, ранжирування
просто за ймовірністю P(q|d) того, що
запит q в рамках мовної моделі виведений
з документа d.
 Таким чином, мовне моделювання
намагається імітувати процес генерації
запиту: документи ранжуються за
ймовірністю того, що запит може
з'явитися як випадкова вибірка з
відповідної моделі документа.

Найчастіше для цього використовується
мультіноміальна уніграмна мовна модель,
яка еквівалентна мультіноміальній наївній
байєсівській моделі, в якій документи - це
класи, які відіграють роль окремих "мов".
 У цій моделі виконується наступна
рівність.
 Тут - мультиноміальний коефіцієнт для

запита q, який для конкретного запиту є
постійним і може не враховуватися.

Для пошуку на основі мовної моделі,
генерування запитів розглядається як
випадковий процес.
 1. Виводимо мовну модель для кожного
документа.
 2. Оцінюємо , вірогідність генерування запиту
відповідно до кожної з цих моделей.
 3. Ранжуємо документи у відповідності з цими
імовірностями.
 В основі даної моделі лежить інтуїтивне
припущення, що користувач тримає в умі
прототип документа і генерує запит на основі
слів, які містяться в цьому документі.
 Часто користувачі мають розумні припущення
про терміни, які, ймовірно, можуть зустрітися
в документах що їх цікавлять, і вибирають
терміни в запиті так, щоб відрізнити шуканий
документ від інших документів колекції.
 Статистичні характеристики колекції є
невід'ємною частиною мовної моделі, а не
використовуються евристично, як в інших
методах.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
 Давайте

розберемося, як оцінити ймовірність P (q|
Md).
 Ймовірність згенерувати запит по заданій мовній
моделі Md, побудованої по документу d, на основі
оцінки максимальної правдоподібності (MLE) і
припущення про незалежність термінів (тобто в
рамках уніграммной моделі) обчислюється за такою
формулою.
 Md - мовна модель документа d

 tft,d - частота терміна t в документі d
 Ld - кількість лексем в документі d.
 Інакше кажучи, ми просто підраховуємо, скільки

разів з'являється кожне слово, і ділимо частоту на
загальну кількість слів у документі d.
 Класична проблема, пов'язана з мовними
моделями, - оцінка ймовірності (символ ∧ над
буквою P підкреслює, що в моделі
використовуються оцінки).
 Терміни в документах повторюються дуже
рідко.
 Зокрема, деякі слова взагалі не зустрічаються в
документах, але є цілком можливими для
вираження інформаційної потреби.
 Якщо для терміна, відсутнього в документі,
оцінка ймовірності дорівнює нулю, то ми
отримаємо суворо кон'юнктивну семантику:
запит має ненульову ймовірність, тільки якщо
всі терміни запиту містяться в документі.
 Нульові ймовірності створюють очевидні
проблеми в інших застосуваннях мовних
моделей, наприклад для передбачення
наступного слова при розпізнаванні мови,
оскільки багато слів рідко зустрічаються в
навчальній вибірці.
 Проблематичність нульових ймовірностей
в інформаційному пошуку не так
очевидна.
 Можна вважати, що ця складність відноситься
до аспектів людино-машинного інтерфейсу:
системи, засновані на моделі векторного
простору, зазвичай віддають перевагу
неповним збігам, хоча недавні розробки в
області веб-пошуку демонструють тенденцію
до використання кон'юнктивної семантики.
 Незалежно від обраного підходу проблема
оцінки залишається: частота слів що
зустрічаються оцінюється дуже погано;
зокрема, ймовірність появи слова, що
зустрічається в документі один раз, зазвичай
переоцінюється, оскільки ця поява може
носити випадковий характер.
 Вирішенням даної проблеми є згладжування
(smoothing).
 Проте у міру того, як люди стали краще
розуміти підхід, заснований на мовних моделях,
стало ясно, що роль згладжування в цій моделі
не зводиться тільки до усунення нульових
ймовірностей.
 Згладжування термінів стало важливою
частиною обчислення їх ваг.
 Це означає, що незгладжені моделі мають не
тільки кон'юнктивну семантику, незгладжені
моделі працюють погано, тому що вони не
враховують важливий компонент - ваги
терміна.
 Таким чином, для того щоб усунути нульові
ймовірності та присвоїти певні ймовірності
словам, які в тексті не зустрілися, в мовних
моделях необхідно застосовувати
згладжування.
 Для згладжування розподілів ймовірностей
запропоновано багато методів.
 Вважається, що терміни, які не з'являються в
документі, можуть з'являтися у запитах,
проте їх ймовірність має бути менше або
дорівнювати ймовірності випадкової появи
терміна в усій колекції.
 Інакше
кажучи, якщо tft,d = 0, то
 Тут cft - частота терміна в колекції, а T -

кількість лексем в колекції.
 Проста ідея, яка виправдала себе на практиці,
полягає в тому, щоб використовувати суміш
мультіноміального розподілу, отриманого на
основі документа, і мультіноміального
розподілу, отриманого по всій колекції.
 Тут 0< <1, а - мовна модель, побудована по

всій колекції документів.
 Цей розподіл є сумішшю розподілів
ймовірностей терміна по документу і по
колекції.
 Така модель називається мовною
моделлю, заснованій на лінійній
інтерполяції (linear interpolation LM).
 Для гарного функціонування цієї моделі
важливий правильний вибір параметра λ.

Альтернативою є використання мовної
моделі, побудованої по всій колекції, як
апріорного розподілу для байєсівського
процесу уточнення даних (Bayesian
updating process).
 Обидва ці методи згладжування добре
показали себе в експериментах.
 Незважаючи на відмінності в деталях
обидва методи, в принципі, схожі один на
одного.
 Згладжування в мовних моделях не
зводиться лише до вирішення проблем,
пов'язаних з оцінками.
 Цей факт ще не був ясний, коли моделі
були запропоновані вперше, але зараз
зрозуміло, що згладжування дозволяє
поліпшити якість моделі в цілому.
 Ступінь згладжування в описаних моделях
залежить від параметрів λ і α.
 Невелике значення параметра λ або велике
значення параметра α означає сильне
 Керуючи цими параметрами, можна
оптимізувати продуктивність моделі.
 Їх величини не зобов'язані бути постійними.
 Один з підходів – зробити значення функцією від

розміру запиту.
 Це корисно, оскільки для коротких запитів краще
підходить невелике згладжування ("майже
кон'юнктивний" пошук), а для довгих - сильне

Отже, функція ранжирування результатів
пошуку за запитом q в рамках базової
мовної моделі виглядає так.
 Це рівняння характеризує ймовірність

того, що документ, який користувач мав
на увазі – це дійсно документ d.
 Приклад. Припустимо, що колекція
складається з двох документів.
 d1: Xyzzy reports a profit but revenue is down
 d2: Quorus narrows quarter loss but revenue
decreases further
 Модель являє собою суміш двох MLE-
моделей, побудованих за документами і
колекції, і змішаних c λ = 1 / 2.
 Припустимо, що запит має вигляд revenue
down.
 Порахуємо ймовірності P(d|q)
ЕКСПЕРИМЕНТИ ПОНТЕ І КРОФТА
 Понте і Крофт (Ponte and Croft, 1998)
описали перші експерименти, що
стосуються застосування мовних моделей в
області інформаційного пошуку.
 В якості основної вони використовували
описану вище модель.
 Однак ми дотримувалися підходу, в якому
мовна модель являла собою суміш двох
мультіноміальних розподілів, як в роботах
Міллера, Хіемстри та ін (Miller et al., 1999;
Hiemstra, 2000), в той час як Понте і Крофт
використовували багатомірну модель
Бернуллі.
 Використання мультиноміальних розподілів з
часом стало загальноприйнятим в більшості
робіт за мовними моделями та експериментів
з інформаційного пошуку.
 Понте і Крофт переконливо довели, що ваги
термінів, визначені за мовними моделями,
набагато ефективніше, ніж ваги tf-idf.
 Частина результатів Понте і Крофта
представлені на наступному слайді.
 Тут наведено результати порівняння
зважування на основі tf-idf і мовних моделей
стосовно до завданнь TREC 202-250 і даними
дисків 2 і 3.
 Запити являють собою пропозиції на
природній мові.
 Мовні моделі продемонстрували перевагу
над схемою зважування термінів tf-idf.
 Ця перевага потім було підтверджена в
інших роботах.
РОЗШИРЕННЯ МОВНИХ МОДЕЛЕЙ
 Існують альтернативні точки зору на
використання мовних моделей для
інформаційного пошуку.
 Замість дослідження ймовірності того, що мовна
модель документа Md згенерує запит, можна
орієнтуватися на ймовірність того, що мовна
модель запиту Mq згенерує документ.
 Основна причина невисокої популярності моделі
правдоподібності документа (document likelihood
model) полягає в тому, що для побудови мовної
моделі запиту є набагато менше тексту, тому
оцінки в цій моделі будуть грубіше, а значить,
вони будуть сильніше залежати від
згладжування з участю іншої мовної моделі.
 З іншого боку, неважко переконатися, що
інтегрування зворотного зв'язку за релевантністю в
таку модель здійснити набагато легше.
 Ми можемо розширити запит за рахунок термінів,
взятих з релевантних документів, і тим самим
уточнити мовну модель Mq (Zhai and Lafferty, 2001,
а).
 Дійсно, при правильному виборі параметрів цей
підхід призводить до моделі BIM.
 Прикладом моделі правдоподібності документа є
модель релевантності, запропонована Лавренко і
Крофт (Lavrenko and Croft, 2001), в яку вбудовано
зворотній зв'язок щодо псевдорелевантності.
 Це дозволило досягти дуже хороших емпіричних
результатів.
 Замість того щоб слідувати в одному з
напрямків, ми можемо побудувати мовні
моделі як по документу, так і за запитом
та порівняти їх один з одним.
 Лафферті і Жаі (Lafferti and Zhai, 2001)
реалізували всі три підходи до вирішення
поставленого завдання і розробили
загальний метод мінімізації ризику при
пошуку документа.
 Дякую за увагу.

Lekcija 12

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lekcija 12

Uploaded by

Copyright:

Available Formats

ЛЕКЦІЯ 12.

Простий скінченний автомат і деякі рядки, які він може

 Проте з формальної точки зору величини більше не

 Мовне моделювання являє собою досить

 У ній для кожного документа d з колекції

 Тут P (q) - ймовірність, однакова для всіх

 Однак, зробивши зазначені спрощення, ми

 Тут - мультиноміальний коефіцієнт для

 Md - мовна модель документа d

 Інакше кажучи, ми просто підраховуємо, скільки

 Тут cft - частота терміна в колекції, а T -

 Тут 0< <1, а - мовна модель, побудована по

 Один з підходів – зробити значення функцією від

 Це рівняння характеризує ймовірність

You might also like