Лекція 10

10.
Корпусна лінгвістика
1. Мовний матеріал в лінгвістичному дослідженні.
2. Вихідні поняття корпусної лінгвістики.
Будь-яке лінгвістичне дослідження тією чи іншою мірою спирається на

аналіз мовного матеріалу, мовних даних. Чим більшим є матеріал, тим вищою є
достовірність висновків, тим ширшою є сфера дії спостережуваних
закономірностей.
Традиційно мовний матеріал збирали, обробляючи писемні тексти,
опитуючи інформантів за різними методиками тощо. Традиційні способи
вимагають надзвичайно багато часу. Важко оновлювати картотеки. Раніше
корпуси текстів існували в дуже обмеженому за обсягом вигляді – наприклад,
як хрестоматії чи збірки текстів.
Нові інформаційні технології й технічні засоби (комп’ютерні системи,
системи зв’язку, системи мульмедіа) значно полегшили збирання даних,
оскільки більшість текстів представлені в Інтернеті. Окрім того, є продуктивні
пристрої сканування тексту – сканери й ефективні програми розшифрування
графічної інформації («картинки» тексту) у власне текстовий формат (текст як
сукупність графем). Багато видавництв використовують для укладання
словників спеціально підготовлені корпуси текстів – Бірмінгемський корпус
англійської мови і відповідна база даних, створені як джерела підготовки
англомовних словників видавництва «Коллінз» (Collins COBUILD English
language dictionary 1987).
Цей технологічний ривок створив інші проблеми, які суттєво утруднюють
використання матеріалу як для чисто наукової, так і для науково-практичної
мети. Справа в тому, що надмірний обсяг досліджуваних даних може
утруднити опис феномену. Такий ефект виникає у двох випадках: коли
інформації занадто багато; коли вибраний мовний матеріал спотворює реальну
картину функціювання мови відносно описуваного феномену. За накладання
першої і другої ситуації – і матеріалу занадто багато, і він не відображає
реальний узус – результати дослідження практично жодним чином не можна
реально оцінити.
Постає завдання розробити загальні принципи побудови лінгвістичних
корпусів даних з використанням сучасних комп’ютерних технологій.
Найголовніше під час конструювання корпусів текстів:
 сформулювати загальні вимоги до корпусу з погляду користувача;
 обговорити досвід створення корпусів даних для різних
дослідницьких проектів.
Вихідні поняття корпусної лінгвістики.

Проблемна ділянка. Під проблемною ділянкою розуміють сферу
реалізації мовної системи, яка містить феномени, які підлягають
лінгвістичному опису. Проблемна ділянка для конкретного корпусу даних може
бути якою завгодно великою чи малою – все визначає об’єкт аналізу.
Проблемна ділянка має два виміри – мовний та мовленнєвий. Мовленнєвий
вимір представлений мовленнєвими висловами (реалізаціями). а мовний вимір
виявляється в існування потенційної можливості появи інших уживань, які
доповнюють масив наявних реалізацій. У корпусній лінгвістиці мовний аспект
фактично ігнорують, оскільки початково фіксують ділянку використовуваних
даних – реалізацій мовної системи. Це логічно, оскільки не можна зібрати
«можливість», потенційні вживання. Проте для регулярно змінюваних корпусів
даних мовний аспект проблемної ділянки відразу вилізає під час розроблення
принципів модифікації корпусу. Окрім того, для лінгвістичного дослідження
(окрім спеціальних випадків) у центрі уваги перебуває саме мовний вимір,
оскільки його треба реконструювати в результаті аналізу.
З практичного погляду проблемна ділянка найчастіше постає перед
розробником корпусу як множина даних, оброблення яких утруднено через те,
що мовних реалізацій занадто багато.
Корпус даних. Корпус даних – це сформована за певними правилами
вибірка даних із проблемної ділянки. Це результат відображення з проблемної
ділянки. На відміну від проблемної ділянки, корпус даних має лише один
вимір – мовленнєвий, оскільки сам по собі він не має потенції продукування
своїх складників. Останнє, проте, не означає, що корпус даних не можна
використовувати для реконструкції мови як системи. Навпаки – це одне з
головних завдань лінгвістичного дослідження корпусу. Перед нами одна з
головних суперечностей, властивих будь-якому продуктові мовної системи –
від звуку до тексту. Лінгвістові доводиться за окремими результатами
діяльності мови робити висновки про функціювання мови як цілого, як
системи.
Одиниця зберігання корпусу даних. Оскільки корпус даних – це деяка
вибірка із проблемної ділянки, сформована за певними принципами, то одиниця
зберігання безпосередньо залежить від того, за якими принципами сформовано
вибірку. Одиниця зберігання - це деяка сукупність природномовних висловів
проблемної ділянки, якій дають один опис деякою метамовою, яку визначає
процедура формування корпусу. Це можуть бути окремі слова, короткі фрази,
речення. словосполуки. Якщо корпус створюють для синтаксичного
дослідження, то він має містити цілі тексти чи їхні достатньо великі фрагменти.
Приклад, с. 115.
Корпус текстів. Корпус текстів – це вид корпусу даних, одиницями якого

є тексти чи їхні достатньо великі фрагменти, які містять, наприклад, якісь повні
фрагменти макроструктури текстів цієї проблемної ділянки.
Дослідницькі корпуси. Дослідницькими називають такі корпуси, які
призначені здебільшого для вивчення різних аспектів функціювання мовної
системи. Їх будують не пост фактум – після здійснення якого-небудь
дослідження, а до його проведення. Цей тип корпусів даних, як правило.
орієнтовано на широке коло лінгвістичних задач. Неспецифікованість задачі
вимагає під час побудови дослідницьких корпусів використовувати
пропорційне звуження, яке є найпростішим способом забезпечити
репрезентативність.
Ілюстративні корпуси. Ілюстративні корпуси створюють після
проведення наукового дослідження: їхня мета не стільки виявити нові факти,
скільки підтвердити й обґрунтувати вже здобуті результати. Такі корпуси це не
зліпок, правильне (з погляду статистики) відображення проблемної ділянки.
Вони містять лише те, що достатньо для ілюстрації досліджуваного феномену.
Динамічні та статичні корпуси текстів. Початково корпуси текстів
будували як статичні утворення, які відбивали певний часовий стан мовної
системи. Типовими представниками цього виду корпусів є авторські корпуси –
колекції текстів письменників. Однак значна частина чисто лінгвістичних і не
лише лінгвістичних задач вимагає виявлення функціювання мовних феноменів
на часовій шкалі – наприклад, зміни значення слів, частоти використання тих
чи інших синтаксичних конструкцій тощо. Для відображення функційного
аспекту проблемної ділянки було розроблено нову технологію побудови й
експлуатації динамічного корпусу текстів. Інколи такі корпуси називають
моніторними. Особливість збирання таких моніторних текстів полягає в тому,
що вони не передбачають раз і назавжди заданого переліку текстів. Упродовж
наперед фіксованого відтинку часу відбувається оновлення і/або доповнення
множини текстів корпусу.
Специфіка експлуатації динамічного корпусу полягає в тому, що
користувач під час проведення дослідження може виокремити із загального
генерального корпусу робочий корпус, який містить лише частину
генерального корпусу. Як динамічний збудовано Бірмінгемський корпус
англійської мови.
Корпуси паралельних текстів. Для наукової та практичної мети (зокрема
для викладання іноземних мов) формують корпуси паралельних тестів. За
своєю структурою ця підмножина тестів мовою-джерелом і одна чи декілька
підмножин текстів, які є перекладами текстів мови-джерела на мову-мету.
Наприклад, англійський текст «Аліса в Країні Чудес» та його переклади на
німецьку, французьку та російську мови можуть формувати такий корпус чи
бути частиною більшого корпусу паралельних текстів.
Спосіб представлення і зберігання корпусу даних. Найцікавішими є ті
способи. які спираються на сучасні комп’ютерні технології зберігання та
оброблення даних. Для подальшого викладу важливо розрізняти два основних
способи представлення – неструктурований текстовий формат зберігання
(запис графем тексту в ASCI-кодах) і структурований формат зберігання
(текст зі спеціальною розміткою); до останнього можна віднести також
представлення даних в форматах баз даних різного типу.
Поріг відображення. Оскільки корпус даних є звуженням проблемної
ділянки, то очевидно, що під час «пропорційного» звуження, яке є
найпростішим випадком реалізації принципу репрезентативності, деякі
проблемні ділянки опиняються поза корпусом даних. Візьмімо такий приклад.
Нехай проблемна ділянка містить 20 контекстів, а в корпусі даних має бути
четверта частина - 5 контекстів. Контексти є прикладами реалізації різних
синтаксичних феноменів: у десяти контекстах представлені прості речення, а у
восьми - складні. Два останні контексти містять приклади парцеляції. У
корпусі даних один контекст відповідає чотирьом контекстам проблемної
ділянки. Це означає, що контексти парцеляції за пропорційного звуження в
чотири рази не потраплять до корпусу даних. Співвідношення між корпусом
даних і проблемною ділянкою за пропорційного звуження називатимемо
порогом відображення. Чим вище поріг, тим більша ймовірність, що якісь
феномени проблемної ділянки, що мають порівняно низьку частотність, не
потраплять до корпусу даних.
Параметризація проблемної ділянки. Звуження проблемної ділянки до
дослідницького корпусу засновано на виокремленні деяких характеристик
проблемної ділянки, які релевантні для передбачуваного дослідження.
Сукупність цих характеристик (їхні можливі комбінації) утворюють
багатомірну матрицю, яка слугує основою для відбирання текстів до корпусу.
Часто для оцінювання релевантних параметрів проблемної ділянки
використовують експертне оцінювання.
Основна література
1. Баранов А. Я. Автоматизация лингвистических исследований как
лингвистаческая проблема / /Русистика сегодня. 1998. № 1-2. с. 179-191.
2. Баранов А. Н., Добровольский Д. О. Немецкая корпусная лингвистика //
Вестник МГУ. Сер. Иностранные языки. 1998. N° 1.
3. Исаев И. А. Опыт автоматизации лексикографических исследований.
Система DIALEX // Слово Достоевского. М., 1996.
4 Михайлов М. Я. Компьютерное обеспечение корпуса текстов (взгляд
пользователя) // Русистика сегодня. 1998. № 1-2. С. 192-201.
5 Мошкович Ж. Г. Аетоматическая лексическая система Унилекс-2. М
6. Фрэнсис У. Я. Проблемы формирования и^машинного Р^^^^ го корпуса
текстов // Новое в зарубежной лингвистике. Вып. XIV. Проблемы и методы
лексикографии. М., 1983. С. 334-353.
Додаткова література
1. Леннгрен Л., Ферм Л. Уппсальский машинный фонд русского языка //
Труды машинного фонда русского языка. Т. 1. М., 1991.
Renouf A. Corpus development at Birmingham University, Coipus Unguistics
Scent developments in the use of computer corpora in English language research /
Eds. Aarts J. & Meijs W. Amsterdam, 1984. WordCrancher. WC Index Text
Retrieval Software. Birgham Young University, 1989 a
WordCruncher. WC View Text Retrieval Software. Birgham Young University,
1989 b.
Література:
Баранов А. Н. (2001) Введение в прикладную лингвистику. – М.
Герд А. С. (1986) Типы русских текстов и организация машинного фонда
русского языка // Машинный фонд русского языка: идеи и суждения. – Москва.
Грязнухіна Т.О. (1983) Лінгвістичне забезпечення автоматичних систем
управління // Мовознавство. – №5.
Демская-Кульчицкая О.М. (2001) Корпус текстов украинской периодики //
Исследование славянских языков в русле традиций сравнительно-
исторического и сопоставительного языкознания // Информационные
материалы и тезисы докладов международной конференции. – М.
Демська-Кульчицька О.М. (2003) Базові поняття корпусної лінгвістики //
Українська мова. – №1.
Карпіловська Н.Є. (2003) Вступ до комп’ютерної лінгвістики. – Донецьк.
Клименко Н.Ф. (1990) Построение тезауруса с помощью ЭВМ //
Украинский семантический словарь. Проспект. – К.
Німчук В.В. (1997-1998) Періодизація як напрямок дослідження генезис та
історії української мови // Мовознавство. – № 6, 1
Перебийніс В.С. (1981) Теоретичні та прикладні проблеми структурно-
математичної лінгвістики // Мовознавство. – №4.
Пещак М.М. (1999) Нариси з комп’ютерної лінгвістики. – Ужгород.
Рыков В. (2001а) Корпус текстов как реализация объектно-
ориентированной парадигмы. – http://rykov-cl.narod.ru/http://rykov-cl.narod.ru.
Рыков В. (2001б) Корпусная лингвистика. –
http://rykov-cl.narod.ru/lekcii.doc.
Рычкова Л.В. (2002) Корпусная лингвистика: лексикографический аспект //
Слово и словарь. – Гродно.
Френсис У. Н. (1983) Проблемы формирования и машинного
представления большого корпуса текстов // Новое в лингвистике. – Вып. XIV.
Шаров С. А. (2002) Большой Корпус русского языка. –
www.bokrcorpora.narod.ru.
Bańko M. (2003) Korpus PWN. – Warszawa: PWN.
Bańko M. (2003) Korpus tekstów jako źródło wiedzy o języku: Tekst wykładu
na sesji MSH Uniwersytetu Warszawskiego. – Watszawa.
Erjavec T. (2001) The ELAN Slovene-English Aligned Corpus. – http://nl.ijs.si.
Francis W. N., Kucera H. A (1979) Standard Corpus of Present-Day Edited
American English (Brown corpus). – Providence: Brown University.
Hajič J. (1998) Building a Syntactically Annotated Corpus: the Prague
Dependency Treebank // Issue of Valiancy and Meaning. – Prague.
Ide N. (2000) Corpus Encoding Standard. –
http://lpl.univ.-aix.fr/projects/multext/CES.
Kennedy G. (1998) Introduction to Corpus Linguistics. – London-New-York.
Sinclair J. (1994) Corpus Typology Draft. –
http://www.icl.pi.cnr.it/EAGLES96/typology.
Teubert W. (2000) Corpus Linguistics – a Partisan View // International Journal
of Corpus Linguistics. – Vol. 5, No.1.
Примітки:
1. У мережі Інтернет існує чимало сторінок, на яких виставлено переліки
корпусів текстів природних мов. Подаємо один з них, як ілюстрацію
динамічного розвитку корпусної лінгвістики, наслідком чого є, зокрема,
існування найрізноманітніших корпусів текстів природних мов.
Багатомовні корпуси:
The ECI Multilingual Corpus I - Multilingual Corpus I (ECI/MCI) of over 98
million words, covering most of the major European languages, as well as Turkish,
Japanese, Russian, Chinese, Malay and more.
CRATER Multilingual Aligned Annotated Corpus
Паралельні корпуси:
English-Norwegian Parallel Corpus
Parallel Corpora in Uppsala
Корпуси англійської мови:
American National Corpus
The International Corpus of Learner English (The Brazilian Portuguese Sub-
corpus of ICLE)
The Lampeter Corpus of Early Modern English Tracts
The Canterbury Corpus
Calgary/Canterbury Text Compression Corpus
The International Corpus of English
BNC Online
The HCRC Map Task Corpus
The Bergen Corpus of London Teenage Language (COLT)
Історичні корпуси англійської мови:
Penn-Helsinki Parsed Corpus of Middle English
Корпуси німецької мови:
NEGRA Corpus - A Syntactically Annotated Corpus of German Newspaper
Texts
COSMAS-I-Korpora
Корпуси французької мови:
Frantext
Корпуси іспанської мови:
Spanish and Portuguese Corpora
Written corpus from Argentina and Chile
Корпуси португальської мови:
Spanish and Portuguese Corpora
Corpus of Brazilian Media Portuguese - see the file "cbmp.txt" for information.
Корпуси турецької мови:
Turkish Corpus (Bilkent University FTP Server)
Корпуси шведської мови:
The Stockholm - Umeå Corpus (SUC)
Bank of Swedish
Корпуси російської мови:
Russian Corpora in Tübingen
Russian Text Corpora - collected by Prof. Fowler of Dept. of Slavic Languages,
Indiana University.
Корпуси івриту:
The Corpus of Spoken Israeli Hebrew
Корпуси китайської мови:
Segmented version of Guo Jin's Mandarin Chinese PH corpus
COLIPS' Archive (The Chinese and Oriental Languages Information Processing
Society)

Лекція 10

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Лекція 10

Uploaded by

Copyright:

Available Formats

10.

Будь-яке лінгвістичне дослідження тією чи іншою мірою спирається на

Вихідні поняття корпусної лінгвістики.

Корпус текстів. Корпус текстів – це вид корпусу даних, одиницями якого

You might also like