Professional Documents
Culture Documents
Корпусна лінгвістика лекція
Корпусна лінгвістика лекція
Термін «корпусна лінгвістика» міцно ввійшов до наукового вжитку лише в останні десятиліття
ХХ століття з публікацією у 1983 році збірника наукових праць «Corpus Linguisitcs: Recent
Developments in the Use of Computer Corpora in English Language Research» за матеріалами
конференції ICAME “Conference on the Use of Computer Corpora in English Language Research”
Корпусний аналіз
емпіричний підхід до аналізу мовних даних (досліджуються реальні моделі мовної реалізації
у природних текстах);
Корпус
корпус – це організована певним чином словесна єдність, елементами якої є цілі тексти чи
спеціальним чином відібрані уривки з текстів, що доступні для лінгвістичного аналізу [Meyer
2004: xi];
корпус – це зібрання текстів, яке вважається репрезентативним стосовно даної мови, діалекту
або іншої ділянки мови й призначене для використання в лінгвістичних дослідженнях [Francis
1991]
Ознаки корпусу
Автентичність передбачає відбір реально створеного носієм(ями) мови писемного або усного
тексту(ів), уривка(ів) тексту(ів) у процесі реальної комунікації. Дотримання вимоги
автентичності є однією зі складових емпіризації фактичного корпусного матеріалу.
Т. МакЕнері, Р. Ксіао та Й. Тоно в класифікації корпусів залежно від дослідницької мети та завдання
виділяються такі типи корпусів:
• загальні/спеціалізовані корпуси,
• синхронічні/діахронічні корпуси,
Відомі національні корпуси: BNC (British National Corpus, обсяг 100 млн. слововживань), the American
National Corpus (22 млн.), COCA (Corpus of Contemporary American English, 1 мілрд., the PELCRA
Reference Corpus of Polish Corpus (100 млн.), the Czech National Corpus (більше 100 млн.), ГРАК
(Генеральний регіонально анотований корпус української мови), Національної словникової бази
Українського мовно-інформаційного фонду НАН України, Український національний лінгвістичний
корпус (УНЛК)
Поняття корпусної розмітки