You are on page 1of 10

Корпусна лінгвістика -

напрямок, завданням якого є


розроблення теоретичних засад та
практичних прийомів побудови,
машинного опрацювання та
експлуатації лінгвальних даних,
оформлених як корпус текстів.
Об'єкт – корпус, предмет – текст.
Періоди розвитку:
- рання або протокорпусна
лінгвістика (1910-60-ті рр.)

- власне корпусна лінгвістика


(з 1960-х рр.)
Напрямки досліджень:
(1)побудова електронних
текстових корпусів
(2)програмне опрацювання
текстових корпусів
(3)екстрагування, аналіз і опис
корпусних даних
Огляд подій
• Створення лабораторій механізації лексикологічної та
лексикографічної роботи в Європі (Лабораторії
лексикографічного аналізу при Центрі вивчення словника
французької мови у Безансоні (1957 р.) та Лабораторії
Центру з автоматизації філологічного аналізу в італійському
Галараті (1953 р.)
• Створення Браунівського Корпусу (Brown University Standard
Corpus of Present-Day American English) (1962-1964 рр.) та
інших еталонних корпусів англійської мови (1962-1989 рр.)
• Поширення термінa «корпусна лінгвістика» після публікації
збірника „Corpus Linguistics: Recent Developments in the Use
of Computer Corpora in English Language Research« (1984 р.)
• Розробка низки корпусних проектів (CRATER, MULTEXT,
MULTEXT-EAST, PAROLE), створенням робочої групи EAGLES
(Expert Advisory Group on Language Engineering Standards) та
консорціуму TEI (Text Encoding Initiative) (1990-ті).
• З 1990-х починають з’являтися національні корпуси,
починаючи з еталонного Британського національного корпусу
і закінчуючи слов’янськими корпусами: Cesky narodni korpus,
Polski Korpus Narodowy, FIDA; Korpus Slaveskega Jezika, HETA;
Hrvatski elektronski testovni arhiv, Национальный корпус
русского языка і т.д.
• У 2009 р. почали роботу над Національним корпусом
української мови.
Теоретичні засади:
• доробок Празької лінгвістичної
школи
• глосематичної теорії
• американського структуралізму
• Лондонської лінгвістичної школи
КОРПУС -
електронне зібрання текстів
природної мови,
впорядковане, організоване і
оформлене певним чином,
призначене для наукового та
практичного вивчення мови.
Основні параметри :
• Достатньо великий обсяг та
репрезентативність
• Наявність розмітки або структури
• Електронна форма текстів-
складових (машиночитність)
• Обслуговування спеціальним
програмним забезпеченням
Класифікація корпусів:
• За метою створення і призначенням:
- дослідницький/ілюстративний
- моніторинговий/референційний
- синхронний/діахронний
- динамічний/статичний
- загальномовний/спеціальний
• За типом текстового матеріалу:
- повнотекстовий/фрагментний
- усний/писемний
- одномовний/кількамовний
- порівняльний/паралельний
• За типом програмного оброблення:
- анотований/неанотований
Дякую за увагу

You might also like