You are on page 1of 12

Конститутивні параметри

корпусу текстів

ВИКОНАВ: Цибас Йозапас


Вступ

Для кращого розуміння та виокремлення конститутивних


параметрів корпусу текстів наведемо декілька прикладів
визначення терміну «корпус» вітчизняними та
зарубіжними корпусними лінгвістами:
Приклади №1
• корпус – це організована певним чином словесна єдність, елементами якої є цілі тексти чи
спеціальним чином відібрані уривки з текстів, що доступні для лінгвістичного аналізу
[Meyer 2004: xi];

• корпус – це певне зібрання текстів, в основі яких лежить логічний задум, логічна ідея, що
об’єднує ці тексти. Логічна ідея втілюється в правилах організації текстів в корпус,
алгоритмі і програмі аналізу корпусу текстів та в пов’язаних з цим ідеологією та
методологією. Корпус є четвертою фактурою мовлення (тексти на машинному носії) [Рыков];
Приклади №2
корпус – це зібрання текстів, яке вважається репрезентативним стосовно даної мови,
діалекту або іншої ділянки мови й призначене для використання в лінгвістичних
дослідженнях [Francis 1991];

корпус – це значне за обсягом цифрове зібрання текстів і текстових уривків, що


слугує репрезентативною вибіркою для певного, обмеженого на основі різних
параметрів використання мови, а в загальномовному лексикографічному контексті
виступає цільовою вибіркою з мови в цілому [Asmussen 2007: 123];
Приклади №3

корпус – це машиночитане, стандартно організоване зібрання


репрезентативних для певної мови, діалекту або іншої підмножин(и) мов(и)
писемних або усних текстів, призначених для лінгвістичного аналізу й опису,
відібраних і впорядкованих згідно з експліцитними екстра- та
інтралінгвальними критеріями [Демська-Кульчицька 2005].
Висновок №1

Отже, аналіз наведених вище дефініцій дозволяє виділити низку


дистинктивних ознак, що відрізняють сучасний корпус текстів від звичайних
колекцій текстів в електронній формі (електронних бібліотек, архівів):
репрезентативність, автентичність, відібраність, збалансованість,
машиночитаність. Зупинимося детальніше на цих ознаках.
Репрезентативність

Репрезентативність полягає в здатності корпусу відображати всі властивості


предметної галузі. Під предметною галуззю розуміється рівень реалізації
мовної системи, яка містить феномени, що підлягають лінгвістичному описові.
Автентичність

Передбачає відбір реально створеного носієм(ями) мови


писемного або усного тексту(ів), уривка(ів) тексту(ів) у
процесі реальної комунікації. Дотримання вимоги
автентичності є однією зі складових емпіризації
фактичного корпусного матеріалу.
Відібраність
Ставить вимогу обмеження фактичного матеріалу шляхом відбору певних
фрагментів мови з усього мовного континууму.

Навіть найбільший за обсягом корпус природної мови завжди залишається лише


крихітним взірцем усіх усних і писемних текстів, створених усіма носіями мови
навіть упродовж одного дня, і навіть сучасні інформаційні технології не дають
змоги подати весь цей мовний матеріал, тому необхідна певна вибірка
Збалансованість
Полягає у введенні до корпусу пропорційної кількості текстових
ресурсів.

Для досягнення збалансованості корпусу необхідні мінімальні


критерії відбору текстів, які мають включати розрізнення між
художньою літературою і нехудожньою літературою; книжкою,
журналом або газетою; нормативним і ненормативним варіантом
мови; з контролем віку, статі та походження авторів.
Машиночитаність

Є визначальною ознакою до сучасного електронного


текстового корпусу природної мови. Крім електронної
форми подання, ця вимога передбачає наявність кодування
первинних корпусних даних та лінгвістичну анотацію,
хоча на сьогодні це вже параметр «за промовчанням».
Висновок

Конститутивні параметри корпусу текстів є важливими складовими, які визначають


особливості та характеристики текстів.

Для успішного написання тексту потрібно враховувати всі ці параметри та


використовувати їх залежно від мети та призначення тексту, а також від
авторського стилю та індивідуальних особливостей.

You might also like