You are on page 1of 5

ЛЕКЦІЯ 4.

ЕЛЕКТРОННІ ЛІНГВІСТИЧНІ КОРПУСИ

План лекції:
1. Поняття електронного лінгвістичного корпусу
2. Класифікація корпусів
3. Характеристика електронних лінгвістичних корпусів
4. Корпуси англійських текстів
5. Методи пошуку інформації в корпусі

Електронні лінгвістичні корпуси


Електронні лінгвістичні корпуси – зібрання машиночитаних текстів,
відібраних таким чином, щоб максимально репрезентувати мову та її
різноманіття; велика кількість текстів природної мови, що мають
комп'ютерну форму і є об'єктом певного лінгвістичного дослідження, де під
«природним» розуміють усе, що фактично було висловлено в усній або
писемній формі; зібрання, колекція відібраних і впорядкованих текстових
уривків, що їх використовують як взірець мови.

Класифікація корпусів

За метою створення та призначенням:


ДОСЛІДНИЦЬКИЙ - застосовується у лінгвістиці для формулювання
нових теорій, концепцій, теоретичних положень чи гіпотез про мову;
ІЛЮСТРАТИВНИЙ - релевантний для підтвердження вже
висловлених теоретичних положень чи гіпотез про мову;
МОНІТОРИНГОВИЙ дає змогу перманентно відстежувати зміни в
мові;
РЕФЕРЕНЦІЙНИЙ забезпечує якомога різноманітнішу інформацію
про мову на певному синхронному зрізі;
СИНХРОННИЙ репрезентує мову певного (сучасного, історичного)
часового проміжку;
ДІАХРОННИЙ репрезентує мову впродовж певного (довшого)
історичного проміжку часу;
ДИНАМІЧНИЙ сфокусований на динаміці мови, розвиткові мови,
змінах у мові з урахуванням діахронії;
СТАТИЧНИЙ засвідчує стан мови на певному синхронному зрізі;
ЗАГАЛЬНОМОВНИЙ репрезентує загальнонародну національну мову;
скерований на розв'язання наукових дослідницьких завдань, зорієнтованих на
мову народу в усіх її виявах;
СПЕЦІАЛЬНИЙ репрезентує певний мовний зріз або рівень, фрагмент
мови; скерований на розв'язання часткових, галузевих, спе- цифічних
наукових дослідницьких завдань.

За типом текстового матеріалу:


ПОВНОТЕКСТОВИЙ - тексти у корпусі подано повністю;
ФРАГМЕНТНИЙ - у корпусі подано уривки текстів;
УСНИЙ - конститутивним матеріалом корпусу є лише тексти усного
мовлення;
ПИСЕМНИЙ - конститутивним матеріалом корпусу є лише писемні
(друковані) тексти;
ОДНОМОВНИЙ - до корпусу ввійшли тексти лише однієї мови;
КІЛЬКАМОВНИИ - до корпусу ввійшли тексти двох або більше мов;
ПОРІВНЯЛЬНИЙ - корпуси різних мов або різних варіантів однієї
мови, структура, текстові дані, принципи опрацювання яких є однаковими;
ПАРАЛЕЛЬНИЙ - єдність підмножини оригінальних текстів та
підмножини їх перекладів на інші мови;

За типом програмного оброблення:


АНОТОВАНИЙ - наявна формалізована інформація щодо одиниць
зберігання корпусу;
НЕАНОТОВАНИЙ - відсутня формалізована інформація щодо одиниць
зберігання корпусу.

Характеристика електронних лінгвістичних корпусів


Щоб довільне зібрання текстів могло називатися корпусом, воно
повинно мати певні важливі характеристики.
По-перше, мати електронну форму і бути стандартно організованим,
тобто відповідати вимогам міжнародного стандарту кодування корпусу.
По-друге, бути репрезентативним і збалансованим.
По-третє, бути вичерпним; у корпусі ідеально має бути не забагато і не
замало певних текстів або їх уривків.
Найчастіше основними, визначальними ознаками текстового корпусу
вважають машиночитаність чи наявність, по-перше, електронної форми
подання і, по-друге, спеціальної системи кодування текстових даних, та
репрезентативність, чи здатність корпусу правильно відображати мову або її
частину.

Корпуси англійських текстів


British National Corpus – корпус сучасної англійської мови, за взірцем
якого створювалось багато сучасних корпусів різноманітних мов. Корпус
містить більш 100 млн. слововживань, а також підкорпус усної мови на 10
млн. слововживань. Характеризується використанням повних текстів різного
стилю та напряму. Британський національний корпус (BNC) є зібранням 100
млн. слів зі зразків писемного та усного мовлення з широкого кола джерел,
призначений для широкого представлення британської англійської кінця 20-
го століття, як в усній, так і в письмовій формі. Останній випуск є видання
BNC XML Edition (2007 р.).
Письмова частина BNC (90%) включає в себе уривки з регіональних і
національних газетах, спеціалізованих періодичних видань і журналів для
різного віку та інтересів, академічних книг та популярної фантастики,
опубліковані та неопубліковані листи і записки, шкільні та університетські
есе та багато інших видів тексту.
Усна частина (10%) складається з орфографічних транскрипцій усних
неофіційних бесід (зафіксованих добровольцями, вибраними за різним віком,
регіоном і соціальними класами в демографічно збалансованому
співвідношенні) та розмовної мови, зібрані в різних контекстах, починаючи
від ділових або урядових засідань до радіо-шоу і телефонних розмов.
Cambridge International Corpus – створювався, перш за все, як база для
розробки навчальних матеріалів та словників англійської мови. Містить
велику колекцію текстів. Недоліком даного корпусу є те, що на даний момент
до нього мають доступ лише автори, що працюють над книгами для
видавництва Cambridge University Press.
The Bank of English – корпус англійської мови, що постійно
поповнюється; містить 524 млн. слововживань. Надає можливість вибору
підкорпусу: британські книги, журнали тощо; американські книги,
радіопередачі тощо. Доступ до повної версії корпусу є платним.
The Open American National Corpus (OANC) – масивна електронна
збірка американської англійської, у тому числі текстів всіх жанрів і
стенограми усних даних, отриманих з 1990 і пізніше. Всі дані та анотації
повністю відкриті, і обмежень щодо будь-якого їх використання немає.
The Corpus of Contemporary American English (COCA) - найбільший
корпус американської англійської мови на даний час, і єдиний доступний
публічно корпус американської англійської, який містить широкий спектр
текстів різних жанрів.
Корпус містить більш, ніж 450 000 000 слів з більш ніж 160 000 текстів,
у тому числі щорічні поповнення з 1990 по 2011 рік на 20 мільйонів слів.
Найбільше останнє оновлення було зроблено в 2012 році.
Кожного року поповнення корпусу рівномірно поділяється між п'ятьма
жанрами: розмовним, фантастикою, популярними журналами, газетами і
науковими журналами.
Розмовна мова: (85 млн. слів) стенограми усних бесід з майже 150
різних телевізійних і радіопрограм.
Фантастика: (81 млн. слів): короткі історії і п’єси, перші розділи книг з
1990р. до теперішнього часу, кіноскрипти.
Популярні журнали: (86 млн. слів) майже 100 різних журналів –
новини, здоров'я, дім та озеленення, жіночі журнали, фінанси, релігія та
спорт.
Газети: (81 млн. слів) десять газет з усієї території США, з текстом з
різних розділів газет, таких як місцеві новини, різні думки, спорт і
фінансовий розділ.
Академічні журнали: (81 млн. слів) майже 100 різних рецензованих
журналів.

ЛІТЕРАТУРА
1. Зубов А.В. Информационные технологии в лингвистике: Учеб.
пособие для студ. лингв. фак-тов высш. учеб. заведений/ А.В.Зубов,
И.И.Зубова – М.: Издательский центр “Академия”, 2004. – 208 с.
2. Карпіловська Є.А. Вступ до прикладної лінгвістики: комп'ютерна
лінгвістика: Підручник. – Донецьк: ТОВ “ Юго-Восток, Лтд”, 2006. – 188 с.
3. Потапова Р.К. Новые информационные технологии и
лингвистика. – М.: МГЛУ, 2002. – 575 с.

You might also like