You are on page 1of 11

Корпусна лінгвістика

Мета: сформувати поняття про корпусну


лінгвістику в контексті прикладної лінгвістики.
План заняття:

 Розглянути мовний матеріал у лінгвістичних


дослідженнях.
 Дослідити корпусну лінгвістику як напрям у
прикладному мовознавстві.
 Розглянути поняття “корпус текстів”.
 Схарактеризувати типи корпусів текстів.
 Розглянути вимоги до корпусу текстів з боку
користувача.
Мовний матеріал :

Корпус (лінгв.) – великий масив мовного матеріалу,


зібраного з різноманітних джерел та зведений в
комп’ютеризовану систему.

Будь-яке лінгвістичне дослідження спирається на аналіз мовного


матеріалу, мовних даних. Чим більшим за обсягом є цей матеріал,
тим вищою є достовірність висновків.
Традиційні способи збору мовного матеріалу:
ручна обробка письмових текстів, опитування
інформантів.

Проблеми традиційного збору матеріалу:


 традиційні картотеки не є доступними для всіх
дослідників, часто вони губляться;
 займає багато часу;
 ускладнює процес обробки та доповнення мовного
матеріалу;
 неможливою є робота з мовним матеріалом на відстані;
 обсяг традиційним способом зібраних корпусів
текстів є досить обмеженим.
У зв’язку з вищевикладеним, постає задача розробки
загальних принципів побудови лінгвістичних корпусів із
застосуванням сучасних комп’ютерних технологій.

Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку


та використання корпусів. Розв'язування задач, пов'язаних з пошуком
прикладів, що ілюструють те або інше мовне явище, а також з уточненням
вживання окремих лексем привело до появи нового напряму в прикладній
лінгвістиці — до корпусної лінгвістики, тобто науки, що вивчає створення
корпусів текстів і їхнє використання.

Найважливіші теми корпусної лінгвістики, пов’язані з конструюванням


корпусів текстів:
 формулювання загальних вимог до корпусів даних з бокукористувача;
 висвітлення досвіду створення корпусів даних для різних дослідницьких проектів.
Проблемна галузь корпусної
лінгвістики:

галузь реалізації мовної системи, що містить


феномени, які є об’єктами лінгвістичного опису,
дослідження

Для конкретного корпусу проблемна галузь може мати


необмежений обсяг і визначається обраним об’єктом
аналізу.
Корпус даних – це сформована за певними правилами
вибірка даних із проблемної галузі.

Одиниця збереження – це певна сукупність


природномовленнєвих висловлювань проблемної галузі,
якій протиставляється один опис певною метамовою, яка
визначається процедурою формування корпусу. Такими
одиницями можуть бути слова, фрази, речення,
словосполучення, цілі тексти або їх фрагменти.
Корпус текстів – це різновид корпусу даних, одиницями
якого є тексти або їх достатньо значні фрагменти.
Основні способи представлення корпуса даних:
 неструктурований текстовий формат збереження
 структурований формат збереження

Межа (поріг) відображення – це співвідношення між


корпусом даних та проблемною галуззю при
пропорційному звуженні.
Вимоги до корпусу текстів з боку
користувачів

 Репрезентативність
 Повнота
 Економічність
 Структуризація матеріалу
 Комп’ютерна підтримка
Дякую за увагу!

You might also like