Professional Documents
Culture Documents
Lekcija 12
Lekcija 12
МОВНІ МОДЕЛІ
ІНФОРМАЦІЙНОГО
ПОШУКУ
Глибовець А.М.
ВСТУП
Для того щоб скласти гарний запит,
користувачам рекомендується уявити, які
слова можуть зустрітися в релевантних
документах, і саме їх використовувати у
запиті.
Ця ідея знайшла своє безпосереднє
втілення в мовних моделях
інформаційного пошуку.
ВСТУП
У рамках цього підходу вважається, що
документ відповідає запиту, якщо модель
документа з великою ймовірністю
породжує цей запит, що, в свою чергу,
трапляється, якщо в документі часто
зустрічаються слова запиту.
Таким чином, цей підхід є альтернативною
реалізацію однієї з основних ідей
ранжирування документів.
ВСТУП
Замість безпосереднього моделювання
ймовірності P (R = 1|q,d) релевантністю
документа d по відношенню до запиту q,
як в традиційних моделях ймовірнісного
інформаційного пошуку, цей підхід
передбачає створення ймовірнісної мовної
моделі Md для кожного документа d і
ранжування документів відповідно до
ймовірності P (q|Md) того, що побудована
модель Md породжує запит q.
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
Що означає вираз "Модель документа
породжує запит"?
Для того щоб розпізнавати або генерувати
рядки, можна використовувати
традиційну мовну породжуючу модель
(generative model), концепція якої
прийшла з теорії формальних мов.
Повна сукупність рядків, яку може
згенерувати кінцевий автомат,
називається мовою автомата (language of
the automation).
МОВНІ МОДЕЛІ. СКІНЧЕННІ
АВТОМАТИ І МОВНІ МОДЕЛІ.
Найчастіше для цього використовується
мультіноміальна уніграмна мовна модель,
яка еквівалентна мультіноміальній наївній
байєсівській моделі, в якій документи - це
класи, які відіграють роль окремих "мов".
У цій моделі виконується наступна
рівність.
Для пошуку на основі мовної моделі,
генерування запитів розглядається як
випадковий процес.
1. Виводимо мовну модель для кожного
документа.
2. Оцінюємо , вірогідність генерування запиту
відповідно до кожної з цих моделей.
3. Ранжуємо документи у відповідності з цими
імовірностями.
ВИКОРИСТАННЯ МОВНИХ МОДЕЛЕЙ
ПРАВДОПОДІБНОСТІ ЗАПИТУ В
ІНФОРМАЦІЙНОМУ ПОШУКУ
В основі даної моделі лежить інтуїтивне
припущення, що користувач тримає в умі
прототип документа і генерує запит на основі
слів, які містяться в цьому документі.
Часто користувачі мають розумні припущення
про терміни, які, ймовірно, можуть зустрітися
в документах що їх цікавлять, і вибирають
терміни в запиті так, щоб відрізнити шуканий
документ від інших документів колекції.
Статистичні характеристики колекції є
невід'ємною частиною мовної моделі, а не
використовуються евристично, як в інших
методах.
ОЦІНКА ЙМОВІРНОСТІ
ПОРОДЖЕННЯ ЗАПИТУ
Давайте
розберемося, як оцінити ймовірність P (q|
Md).
Ймовірність згенерувати запит по заданій мовній
моделі Md, побудованої по документу d, на основі
оцінки максимальної правдоподібності (MLE) і
припущення про незалежність термінів (тобто в
рамках уніграммной моделі) обчислюється за такою
формулою.