You are on page 1of 9

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»


ІНСТИТУТ КОМП’ЮТЕРНИХ НАУК ТА ІНФОРМАЦІЙНИХ
ТЕХНОЛОГІЙ
КАФЕДРА ПРИКЛАДНОЇ ЛІНГВІСТИКИ

Звіт
до лабораторної роботи №6
з дисципліни «Корпусна лінгвістика»
на тему:
«Корпусобазовані дослідження»

Виконав:
Студент групи ФЛ-42
Казанцев Дмитро
Перевірив: асистент. каф. ПЛ
Карасьов В. В.

Львів 2023
Мета роботи: навчитись використовувати засоби, пропоновані
програмним забезпеченням корпусів текстів.

Хід роботи:

Під час виконання лабораторної роботи №5 був створений власний


корпус на основі тексту до лабораторної роботи №1. Відповідно, у цьому
корпусі наявний список ключових слів:

На основі перших таких слів формуємо чотири вебкорпуси – по три на


кожне ключове слово (разом це перших 12 слів). Для першого корпусу цими
словами будуть stress-packed, unbothered, unnerving; для другого – deep-
rooted, hairstyle, black-and-white; для третього – seriousness, dreadful, unrest;
для четвертого – verge, palette, forefront.
Створимо чотири веб-корпуси вже відомим нам способом,
використавши ключові слова та надавши їм відповідні назви:
Далі необхідно визначити слово, яке було найбільш частотним для
власного корпусу, використавши функцію Wordlist:

Список найчастотніших слів у власному корпусі:


Найбільш частотне слово – артикль the, однак нам потрібна перша
поява самостійної частини мови. У нашому випадку це дієслово “is”, що є
однією із форм теперішнього часу дієслова “be”.
Кількість появ такого слова знаходимо для кожного з чотирьох
сформованих веб-корпусів. Для цього використаємо функцію Concordance. У
Simple Search вписуємо слово “is”:

Зверху бачимо загальну кількість вживань слова “is”, знизу – вживання


у контексті. Для першого корпусу кількістю появ є число 324:

Для другого – 286 появ:


Для третього – 204 появи:

Для четвертого – 125 одиниць:

Визначимо також загальну кількість слів для кожного з чотирьох


корпусів. Перший – 35358 слів, другий – 21228, третій – 21585, четвертий –
11962. Об’єм усіх вищезгаданих корпусів – 90133 слова. Результати пошуку
зводимо у таблицю:

Наступний крок – здійснити обчислення необхідних для вирішення


задачі апріорної та апостеріорної ймовірностей.
Якщо лінгвістична подія A може відбутись разом з однією і тільки з
однією з n несумісних подій H1,..., Hn , які утворюють повну групу подій, то
для визначення ймовірності події A використовується формула повної
ймовірності. Вона має такий вигляд:

Несумісні події називають гіпотезами. Таким чином, ймовірність події


A дорівнює сумі добутків ймовірності кожної гіпотези на ймовірність події
при здійсненні цієї гіпотези.
Формула повної ймовірності використовується для обчислення
загальної ймовірності лінгвістичної події за умови, що відомі її ймовірності у
вузькотематичних вибірках.
Нехай, наприклад, є текст із загальною довжиною в 90133
слововживань. Цей загальний текст розподілений на чотири веб-корпуси.
Наявна інформація в табличному вигляді як про конкретну кількість
слововживань у кожному з корпусів, так і про використання дієслова “is” у
кожному з них.
Визначимо ймовірність того, що будь-яке обране слово із цієї
сукупності текстів може бути словоформою “is”. Для цього вважатимемо
появу словоформи подією A.
Розглянемо такі чотири гіпотези: H1 – приналежність цього слова до
першого веб-корпусу, H2 – приналежність цього слова до другого веб-
корпусу, H3 – приналежність цього слова до третього веб-корпусу, H4 –
приналежність цього слова до четвертого веб-корпусу.
Вважаючи частки вказаних текстів веб-корпусів у загальній вибірці
ймовірностями наших гіпотез, обчислюємо:
P(H1) = 35358/90133 = 0.392
P(H2) = 21228/90133 = 0.235
P(H3) = 21585/90133 = 0.239
P(H4) = 11962/90133 = 0.132
Умовні імовірності події А за цих гіпотез дорівнюють:
P(A/H1) = 324/35358 = 0.009163
P(A/H2) = 286/21228 = 0.013472
P(A/H3) = 204/21585 = 0.009451
P(A/H4) = 125/11962 = 0.010449
Застосуємо формулу повної ймовірності для того, щоб визначити, що
ймовірність вибрати навмання з даного тексту словоформу “is” дорівнює:
P(A) = P(H1) * P(A/H1) + P(H2) * P(A/H2) + P(H3) * P(A/H3) + P(H4) *
P(A/H4) = 0.392 * 0.009163 + 0.235 * 0.013472 + 0.239 * 0.009451 + 0.132 *
0.010449 ≈ 0.01 = 1%
Досі ми мали справу з так званими апріорними ймовірностями
лінгвістичних подій. Ці апріорні ймовірності встановлювались інтуїтивно-
емпірично або теоретично до здійснення досвіду, виходячи з наших знань
про умови σ цього досліду. Наші відомості про умови досліду звичайно
неповні, тому апріорні ймовірності є ймовірностями деяких лінгвістичних
гіпотез H1, H2, ..., Hn про результат експерименту.
Результат експерименту, як правило, змушує здійснити переоцінку
наших гіпотез і надати їм нові – апостеріорні ймовірності. Визначення
апостеріорних ймовірностей здійснюється так.
Нехай апріорні ймовірності гіпотез до досліду відповідно дорівнюють
P(H1), P(H2), ..., P(Hn), а в результаті досліду з’явилась подія A. Необхідно
визначити, як потрібно змінити ймовірності наших лінгвістичних гіпотез у
зв’язку з появою події A.
За теоремою множення ймовірностей для залежних подій, ймовірність
сумісної появи події A і гіпотези H1 складає:
P(AHi) = P(A) * P(Hi/A) = P(Hi) * P(A/Hi)
З чого випливає, що:

Використаємо формулу для обчислення апостеріорних ймовірностей:


P(H1/A) = 0.392 * 0.009163 / 0.01 = 0.359189
P(H2/A) = 0.235 * 0.013472 / 0.01 = 0.316592
P(H3/A) = 0.239 * 0.009451 / 0.01 = 0.225878
P(H4/A) = 0.132 * 0.010449 / 0.01 = 0.137926
Перевіримо результати обчислень. Сума імовірностей Р(Ні) = 1, а
також сума апостеріорних імовірностей також рівна 1. Заповнимо таблицю:
Висновок: я навчився використовувати засоби, пропоновані
програмним забезпеченням корпусів текстів, розв’язувати задачі з пошуку
апріорної та апостеріорної ймовірності появи певного слова.

You might also like