You are on page 1of 14

Багатолінгвіальні та

паралельні корпуси
ФЛ-12 Підготувала студентка 1-го курсу Щіпкова Анастасія
Група: ФЛ-12
Ко́ рпусна лінгві́стика — розділ мовознавства, що
вивчає створення, обробку та використання
корпусів.
Корпус текстів — це вид
корпусу даних, одиницями
якого є тексти або їх
достатньо значні фрагменти,
що включають, наприклад,
якісь повні фрагменти
макроструктури текстів даної
проблемної області.
Характеристика корпусу текстів:

•по-перше, він повинен бути достатньо великого обсягу;

•по-друге, корпус повинен бути структурованим або розміченим;

•по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті;

•по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим
корпусом.
Багатомовні
корпуси
(multilingual corpus)
У загальному значенні,
включають в себе тексти
декількома різними
мовами.
У вузькому сенсі, корпус
називають багатомовним,
якщо до його складу
входять тексти більше,
ніж двома мовами.
Багатомовні корпуси
Корпуси текстів двома мовами називають
двомовними корпусами (bilingual corpus),
наприклад, Англо-норвезький паралельний
корпус (English-Norwegian Parallel Corpus
(ENPC)).
Існує 2 типи багатомовних корпусів

Багатомовний Багатомовний
порівнянний паралельний
корпус корпус
Перший можна описати як невелике зібрання окремих одномовних
корпусів, у тому значенні, що для кожної мови використовуються ті ж
самі процедури та категорії, але кожен має абсолютно різні тексти цими
декількома мовами. Цей тип корпусу зазвичай об’єднує тексти з однієї і
тієї ж тематичної області, написані незалежно один від одного на двох
або декількох мовах. Такі корпуси допомагають у роботі з
термінологією та часто використовуються перекладачами. Наприклад,
Корпус контрактного права (Aarhus corpus in contract law) датського,
французького та англійського контрактного права складається з набору
трьох одномовних корпусів текстів з юриспрунденції, які не є
перекладами тих же ж самих текстів. Ще одним прикладом такого
корпусу можна вважати C-ORAL-ROM – багатомовний корпус
спонтанного мовлення основних романських мов (французької,
італійської, португальської та іспанської) на 1,2 млн. слів.
В паралельному корпусі повинна бути розмітка. Є різні види
розмітки: метатекстова, граматична і семантична. Це різні теги,
які приписуються окремим словами або всьому тексту в цілому.
Для чого вони потрібні? Якщо у мене текст не розмічений, то я
не можу шукати якусь граматичну форму. Я, наприклад, не
можу попросити все пасивні дієприкметники множини, а якщо
у мене текст розмічений, якщо стоять відповідні теги, то таке
завдання здійсненне, і я можу вирішувати якусь дослідницьку
задачу: дивитися, як та чи інша граматична форма
перекладається на іншу мова. Семантична розмітка - це теж
дуже цікава річ. Наприклад, я можу попросити видати мені всі
контексти, в яких присутні позначення предмета одягу.
«Піджак», «сорочка», «штани» - вони, напевно, навряд чи
потрібні, тому що ми і так знаємо, як перекласти ці слова на
інші мови, але «чумарці», «сіряк», «сіряк», «кожух »- знайти всі
ці слова і подивитися, як різні перекладачі в різних контекстах з
ними працюють, буває дуже цікаво, тим більше що такі слова
не в будь-якому словнику знайдеш.
Якщо брати до уваги напрямок перекладу, то виділяють:
• однонаправлені (uni- directional) паралельні корпуси, як наприклад, з української на англійську чи з англійської на українську
мови;

• двонаправлені (bi-directional) паралельні корпуси, які наприклад, включають як оригінальні тексти українською мовою та їх
переклади англійською, так і оригінальні тексти англійською та їх переклади українською;

• різнонаправлені (multi-directional) паралельні корпуси – корпуси, до яких, наприклад, увійшли оригінальні тексти українською
мовою та їх переклади англійською, німецькою та французькою.

До останньої категорії також можна віднести тексти, які продукуються одночасно декількома мовами (McEnery & Xiao 2007).
За структурою корпус
паралельних текстів суттєво
відрізняється від одномовних
корпусів. Тексти сегментовані
за реченнями або абзацами,
тобто кожному реченню або
абзацу оригіналу відповідає
речення або абзац перекладу.
Такий устрій корпусу, при
якому співвідносяться
“переклади сегментів замість
еквівалентів слів, переміщає
увагу перекладача з лексичної
одиницю на одиницю смислу”
Серед основних можливих напрямків використання корпусу
паралельних текстів перекладачами називають наступні:

1) перевірити, чи використовується певна форма в мові, на яку


виконується переклад;
2) переконатися, що така форма використовується в певному
контексті(ах), лінгвістичному чи соціальному;
3) перевірити, в яких словосполученнях і в яких контекстах
використовується така форма.
Тобто, корпус паралельних текстів надає перекладачу інструмент для
швидкого аналізу мовної одиниці та варіантів її перекладу із залученням
великого масиву текстової та екстралінгвістичної інформації з одночасним
зануренням у контекст

You might also like