You are on page 1of 7

Корпус текстів

природної мови
Конститутивні параметри
корпусу текстів
Центральним для корпусної лінгвістики є поняття «корпус
текстів». Адже, з одного боку, він виступає головною ціллю, яку
ставить перед собою корпусна лінгвістика, а з іншого, постає
об’єктом дослідження цієї мовознавчої галузі.
Взагалі лінгвістичний корпус текстів – це надзвичайна річ,
унікальність якої полягає не лише в тому, що це велика за
обсягом збірка електронних текстів, але і в тих можливостях,
яких набуває корпус, за умови, він добре організований і
правильно укладений.
1) досить великий
(репрезентативний) обсяг
корпусу гарантує типовість даних
і забезпечує повноту
представлення всього спектру
мовних явищ;

Доцільність створення й
використання корпусів
визначається такими
передумовами:

2) дані різного типу


3) одного разу створений і
перебувають у корпусі у
підготовлений масив даних своїй природній
може використовуватися контекстній формі, що
багаторазово, багатьма створює можливість їх
дослідниками й у різних всебічного й об'єктивного
цілях. вивчення;
Перед тим, як увійти до лінгвістичної
термінології, слово «корпус» широко
використовувалося на позначення збірки
або колекції певних текстів. Лише у 1984
році Дж. Аартс та В. Мейс у статті
«Corpus Linguistics: Recent Developments
in the Use of Computer Corpora in English
Language Research» [Aarts, Meijs 1984].
вперше використали його як термін
корпусної лінгвістики. До кінця 90-х років
термін «корпус» міцно увійшов до
лінгвістичного вжитку вже у його
традиційному значенні як сукупність
стандартно організованих електронних
текстів, призначених для проведення
конкретних лінгвістичних досліджень.
На сьогодні в обігу корпусного мовознавства наявні декілька трактувань
лінгвістичного корпусу текстів (англ. linguistic corpus або text corpus). З метою
виокремлення конститутивних параметрів корпусу текстів наведено декілька
прикладів визначення терміну «корпус» вітчизняними та зарубіжними корпусними
лінгвістами:
• корпус – це організована певним чином словесна єдність, елементами якої є цілі
тексти чи спеціальним чином відібрані уривки з текстів, що доступні для
лінгвістичного аналізу
• корпус – це зібрання текстів, яке вважається репрезентативним стосовно даної
мови, діалекту або іншої ділянки мови й призначене для використання в
лінгвістичних дослідженнях
• корпус – це певне зібрання текстів, в основі яких лежить логічний задум, логічна
ідея, що об’єднує ці тексти. Логічна ідея втілюється в правилах організації текстів в
корпус, алгоритмі і програмі аналізу корпусу текстів та в пов’язаних з цим
ідеологією та методологією. Корпус є четвертою фактурою мовлення (тексти на
машинному носії)
• корпус – це значне за обсягом цифрове зібрання текстів і текстових уривків, що
слугує репрезентативною вибіркою для певного, обмеженого на основі різних
параметрів використання мови, а в загальномовному лексикографічному контексті
виступає цільовою вибіркою з мови в цілому
• корпус – це машиночитане, стандартно організоване зібрання репрезентативних
для певної мови, діалекту або іншої підмножин(и) мов(и) писемних або усних
текстів, призначених для лінгвістичного аналізу й опису, відібраних і
впорядкованих згідно з експліцитними екстра- та інтралінгвальними критеріями
Отже, аналіз наведених вище дефініцій
дозволяє виділити низку дистинктивних
ознак, що відрізняють сучасний корпус
текстів від звичайних колекцій текстів в
електронній формі репрезентативність,
автентичність, відібраність,
збалансованість, машиночитаність.
Дякую за увагу!

You might also like