You are on page 1of 13

Національні мовні

корпуси

Виконала студентка Прокіп Мар'яна


Мовленнєві корпуси- це...
Мовленнєві корпуси являють собою бази даних у вигляді
звукових і пов'язаних з ними текстових файлів.
Звукові файли містять зразки елементів мовлення (звуки,
склади, слова, фрази, тощо), та у текстових файлах розміщені
відповідні транскрипції.
Що таке корпусна лінгвістика?

Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку


та використання корпусів.

Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або


інше мовне явище, а також з уточненням вживання окремих лексем
привело до появи нового напряму в прикладній лінгвістиці — до корпусної
лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє
використання.
Зараз в науковому словнику лінгвістів з'являються такі поняття як: «електронні
бібліотеки», «масив текстів», «колекція текстів», «електронний архів», «повнотекстова
база даних». Серед них можна виділити лінгвістичні корпуси, або мовні корпуси. Корпус
текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні
фрагменти, що включають, наприклад, якісь повні фрагменти текстів даної проблемної
області.

Корпус текстів характеризується чотирма основними параметрами: по-перше,


він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути
структурованим або розміченим; по-третє, тексти, складові певного корпусу,
повинні бути в електронному варіанті; по-четверте, в поняття «Електронний
корпус» входить, як правило, спеціальне програмне забезпечення для роботи з
цим корпусом.
Робота з корпусами, тобто з масивами текстів, представленими в
електронному вигляді, стала одним з основних методів лінгвістичних
досліджень. Так, ще в 1960-і роки створювався Браунівський корпус
(США), який включає 1 млн слів. Відтоді виникла ціла низка
аналогічно побудованих корпусів: LOB корпус (британська англійська
у 1960-х роках), Колхапур ( індійська англійська [en]), Веллінгтон
(новозеландська англійська, Австралійський корпус англійської мови
(австралійська англійська), корпус Фраун (на початку 1990-х років
американська англійська), а також FLOB Корпус (1990-ті роки
британська англійська). Міжнародний корпус англійської мови і
Британський національний корпус British National Corpus
[Архівовано 25 лютого 2011 у Wayback Machine.] включають
колекцію зі 100 млн слів розмовного та письмового тексту.
Наповнюються інші національні корпуси мов (угорський, італійський,
хорватський, чеський, японський) обсягом 100 млн слів. На початку
XXI ст. створили American National Corpus [Архівовано 13 травня
2008 у Wayback Machine.], 100 млн слів і Gigaword corpora
(англійська, арабська, китайська), що включає 1 млрд слів.
Перший комп'ютеризований лінгвістичний корпус був розроблений 1971 року Монреальським
французьким проектом, що містить один мільйон слів.

Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які
зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з
традиційною технологією збору прикладів вручну.
Варто відзначити, що саме анотація, або розмітка, — головна характеристика
корпусу, яка і відрізняє його від електронних колекцій, бібліотек,
енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту
— це приписування тексту певної інформації для зручнішого аналізу.

Існують різні типи розмітки:


метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і


т. д.), яка характеризує текст в цілому;

структурна розмітка є інформацією про структуру тексту, яка дозволяє


відокремити одне слово від іншого, виділити межі словосполучення, речення,
тексту;

лінгвістична розмітка полягає в приписуванні одиницям тексту певної


лінгвістичної інформації (заперечне речення або питальне, спонукальне або
примикання і т. д.).

Чим багатша і різноманітніша розмітка, тим вищою є наукова і навчальна


цінність корпусу.
В Україні перший доступний для пошуку в інтернеті корпус текстів
української мови розроблено співробітниками лабораторії комп'ютерної
лінгвістики Інституту філології Київського національного університету імені
Тараса Шевченка під керівництвом Н. П. Дарчук у 2004 році. Обсяг
корпусу — понад 100 млн слововживань. Корпус доступний для пошуку
онлайн з 2010 року.

У корпусі зберігаються публіцистичні, художні, наукові, законодавчі,


поетичні, фольклорні тексти, опрацьовані автоматичним лінгвістичним
аналізатором. Кожній одиниці тексту (морфемі, слову, словосполученню,
реченню) приписана супровідна інформація: частиномовна належність,
граматична форма, синтаксична функція, контекст тощо.
Хорватський національний корпус є найбільшим та найважливішим
корпусом хорватської мови. Його почали створювати на
лінгвістичній кафедрі філософського факультету у Загребському
унверситеті 1998 року завдяки ідеям Марка Тадича.
Самі теоретичні положення та твердження про необхідність
великого, репрезентативного, великого корпусу хорватської мови з
десятками мільйонів прикладів почали з’являтися раніше.
Хорватський національний корпус складається з вибраних текстів
хорватською мовою з усіх галузей, професій, жанрів і стилів: від
літературних і наукових праць до підручників, від газет до онлайн-
газет.
Спочатку він складався з двох основних компонентів:

30-мільйонного корпусу сучасної хорватської мови (30м), який включав


тексти або їх розділи, створені після 1990 року, виключно від носіїв мови,
виключно письмові тексти, різних сфер, жанрів та тем. Переклади та поетичні
тексти не були включені.
Хорватського електронного текстового архіву (HETA), який включав тексти в
цілому, і перш за все мав цілі серії публікацій (роки, серії, видання тощо), які б
своїм включенням до 30м, багато в чому порушили б його баланс.
З 2004 року, з прийняттям концепції корпусу 3-го покоління,
від двокомпонентної структури відмовились на користь
багатокомпонентної та з білим маштабом. З 2005 року ХНК
охоплює понад 105 мільйонів прикладів і складається з низки
підкорпусів, які можна шукати окремо та разом. З відмовою від
оригінальної двокомпонентної концепції ХНК переходить на
нову серверну платформу та за допомогою цієї програми можна
отримати значно більше детальних та складних запитів по
корпусу, отримати різні типи статистичних даних, повні або
часткові списки слів за різних умов введення. Також увімкнули
автоматичний пошук словосполучень.
Дякую за увагу!

You might also like