You are on page 1of 6

ПЗ 7

Для того, щоб перевірити принципи роботи English Corpora, я обрала декілька
слів та прогнала їх через деякі функції. І ось як вони працюють
Першим мені чомусь спало на думку слово prosperity. Тому на його прикладі
ми подивимось, як переглянути частоту та контекст його вживання. Для цього
вводимо його в пошуку, і на екрані спочатку покаже загальну кількість згадок
цього слова в обраній базі даних, а потім в сусідньому вікні можна
переглянути контекст. Там же в таблиці буде вказано і джерело, звідки було
взято уривок:
Тепер перейдемо до оглядів дієслова. Ми можемо подивитися, які
прийменники найчастіше вживаються з тим чи іншим дієсловом. Для цього
ми вводимо потрібне нам дієслово (у моєму випадку це дієслово stand) та
ставимо біля нього зірочку (але обов'язково через пробіл. Якщо ж ставити без
нього, програма видасть різні форми цього слова). Отримуємо наступне:
Якщо нам потрібно продивитись статистику по слову, ми також можемо це
зробити. Для цього просто натискаємо на "chart" і після цього вивчаємо дані
отриманих стовпчикових діаграм (як зі словом exams):

Що робити у випадку, якщо ми маємо 2 схожі за значенням слова і нам


потрібно перевірити їх вживання та контекст у порівнянні? Для цього
використаємо функцію "Compare" та введемо ці 2 слова туди. У результаті ми
отримаємо розлогу табличку, у якій так само за рейтингом буде показано
найпопулярніші слова, які вживаються у поєднанні з обраними двома:
Жуковська В. В. Вступ до корпусної лінгвістики
Корпусний менеджер - спеціальна пошукова система, що включає програмні
засоби для пошуку дани у корпусі та отримання статистичної інформації
щодо слова, яке нас цікавить
Пошукові можливості включають в себе:
-пошук конкретних словоформ
-пошук словоформ по лемах
-пошук групи словоформ у вигляді розривної чи нерозривної синтагми
-пошук словоформ по набору морфологічних ознак
-збереження отриманих дани в окремому файлі
Результати видаються у вигляді конкордансу - одиниця представлена в
контекстному оточенні та має статистичну інформацію
Завдання корпусного менеджера:
-будувати повні конкордансні списки
-шукати не лише слова, а й словосполучення
-здійснювати пошук по шаблонах
-сортувати списки
-подавати статистику по окремих запитах
Корпусна лінгвістика почала активно розвиватися у 1980-х завдяки деяким
програмам, які полегшили роботу корпусних лінгвістів та позбавив
необхідності працювати в команді з програмістом, який би додатково
створював необхідне програмне забезпечення. Третє покоління
конкордансерів було значно кращим за два попередніх, це такі програми, як
AntConc, Xiara, Wordsmith.
Функції AntConc:
-пошук за окремими словами та словосполученнями без урахування чи з
урахуванням регістру клавіатури
-графік розподілу слова у файлах корпусу
-аналізатор сполучуваності
Автоматичний аналіз природної мови не завжди безпомилковий, тому зняття
неоднозначності є однією з найскладніших проблем.
Один з найвідоміших та найкращих тегерів для англ. мови - CLAWS
(Constituent-Likelihood Automatic Word Tagging) - 97% точності

У висновку можна зазначити, що ці програми можна використовувати у


лінгвістичних дослідженнях при вивченні вживання лексики. Наприклад, у
цих програмах можна переглянути варіанти сполучуваності слова, з чим воно
вживається, а з чим ні; подивитись статистику по слову, щоб визначити,
наскільки воно є актуальним на даний момент (це може допомогти певним
чином у створенні рекламних слоганів тощо); переглянути різні словоформи
обраного слова; переглянути з якими сполучниками найчастіше вживається те
чи інше дієслово, статистику його вживання в такому варіанті та, що
найголовніше, побачити це слово у контексті.

You might also like