You are on page 1of 2

Конспект

Корпусна лінгвістика використовує великі вибірки текстів для дослідження мови. Для цього
використовуються різні програми, такі як конкордансери і корпусні менеджери. Корпусний менеджер
- це програма, яка дозволяє здійснювати пошук даних у корпусі, отримувати статистичну інформацію
та надавати результати у зручній формі. Використання корпусів дозволяє вивчати лексичні одиниці в
контекстах та одержувати дані про частоту словоформ, граматичні категорії, сполучуваність слів та
інше.

Корпусні менеджери (конкордансери) дають результати пошуку у вигляді конкордансу з контекстним


оточенням та статистичною інформацією. Вони повинні задовольняти різні вимоги користувачів, такі
як можливість шукати словосполучення, виконувати складні запити, сортувати результати за
критеріями, відображати розширений контекст, показувати леми, морфологічні характеристики і
метадані, працювати з різними форматами текстових даних тощо.

Історія розробки конкордансерів має тривалу історію, яка почалася з діяльності Роберто Бузи в 1951
році. Робота Бузи привела до появи конкордансерів першого покоління, які були функціонально
обмеженими. З появою перших конкордансерів виникла необхідність створення стандартних правил
анотування корпусних даних, щоб можна було безпечно передавати корпуси між дослідними
центрами та створювати конкордансери, що будуть працювати на різних комп’ютерах та на різних
корпусах.

Перші конкордансери могли укладати лише KWIC конкорданси і не могли виконувати інші маніпуляції
з даними, що призвело до необхідності створення стандартних правил анотування корпусних даних.
Досвід використання перших конкордансерів показав, що краще розробляти програми-
конкондансери, які поєднують різні операції та дозволяють різноаспектні маніпуляції з корпусними
даними.

Конкордансери другого покоління з’явилися з появою машин сумісних з IBM-продукцією і дозволяли


працювати на різних комп’ютерах. Вони значно спростили роботу корпусних лінгвістів, але мали
багато недоліків і виконували мало функцій. Зростаючі потужності комп’ютерів привели до появи
конкордансерів третього покоління.

Конкордансери третього покоління, такі як Wordsmith, MonoConc, AntConc, Xiara, можуть обробляти
величезні масиви даних на ПК та пропонують більше функцій та роблять більш складні статистичні
операції. Вони можуть обробляти тексти на значно більшій кількості систем письма. Основні функції
цих конкордансерів включають конкорданси, частотні списки, сполучуваність (колокації), та аналіз
ключових слів.

Конкордансери четвертого покоління схожі у функціональному аспекті з конкордансерами третього


покоління, але були розроблені з метою вирішення проблем, пов'язаних з обмеженою потужністю
стаціонарних ПК, несумісністю операційних систем та юридичними обмеженнями. Сучасні корпуси
почали розповсюджуватись через веб-інтерфейси для дотримання авторських прав на тексти та
забезпечення швидкого та масштабного доступу. Корпуси четвертого покоління передають дані за
моделлю клієнт-сервер через World Wide Web. Програмою аналізу корпусних даних четвертого
покоління може бути система, розроблена для Британського Національного корпусу Марком
Дейвісом, що була пізніше розширена для доступу до низки значних за обсягом корпусів через сайт
corpus.byu.edu.

Сучасний корпус - це комп'ютерна база даних, яку створюють за допомогою спеціальних програм,
включаючи програми автоматичної розмітки. Для морфологічного та синтаксичного аналізу
використовують теггери та парсери. Результати роботи програм призначають граматичні
характеристики для лексичних одиниць та фіксують синтаксичні зв'язки між словами та
словосполученнями.

Автоматичний аналіз природньої мови дає кілька варіантів аналізу для однієї лексичної одиниці, що
створює граматичну омонімію. Зняття неоднозначності - складна задача комп'ютерної лінгвістики.
Для зняття неоднозначності використовуються автоматичні та ручні способи. Корпуси нового
покоління містять сотні мільйонів слів, тому висуваються принципи розробки систем, які б
мінімізували втручання людини. Автоматичне зняття омонімії базується на використанні інформації
більш високого рівня з використанням статистичних методів.

Висновок
British National Corpus та English Corporsa є великими електронними корпусами англійської мови, які
можуть бути використані для лінгвістичних досліджень. Корпус - це колекція письмових або усних
текстів, яка зазвичай міститься в базі даних та використовується для дослідження мови.

Ці програми можуть бути використані для аналізу лексики, граматики та стилістики англійської мови.
Зокрема, вони можуть допомогти дослідникам знайти різноманітні лексичні та граматичні
конструкції, вивчати колокації та стилістичні особливості мовлення.

Крім того, програми British National Corpus та English Corporsa можуть бути використані для
порівняльного аналізу різних типів текстів, таких як наукові статті, літературні твори, газетні статті
тощо. Це дозволяє дослідникам з'ясувати, які особливості мови використовуються в різних контекстах
та жанрах.

Загалом, програми British National Corpus та English Corporsa надають лінгвістам величезну базу
даних, яка може бути використана для вивчення різноманітних аспектів англійської мови. Вони є
важливим інструментом для дослідження мовленнєвих процесів та розвитку мови в цілому.

You might also like