You are on page 1of 7

Докомпютерний корпус текстів

Сваволя Владислав
• У лінгвістиці кóрпус — підібрана й оброблена за певними правилами
сукупність текстів, які використовують як базу для дослідження мови.
Їх застосовують для статистичного аналізу і перевірки статистичних
гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів
є предметом дослідження корпусної лінгвістики.
• Корпус — основне поняття і база даних корпусної лінгвістики. Аналіз і
обробка різних типів корпусів є предметом більшості робіт в галузі
комп'ютерної лінгвістики (наприклад, видобування ключових слів),
розпізнавання мови і машинного перекладу, в яких корпуси часто
застосовуються при створенні прихованих марковських моделей для
маркування частин мови та інших завдань. Корпуси та частотні
словники корисні в навчанні іноземних мов.
• в історії корпусів спочатку був так званий «кам'яний вік», або
докомп'ютерний період, коли корпуси укладалися вручну на папері.
Ці перші паперові доелектронні корпуси по суті були конкордансами,
тобто алфавітними списками всіx ужитих у певному тексті/текстах слів
у їх контекстному оточенні. Укладання таких паперових корпусів-
конкордансів займало багато часу та вимагало напруженого аналізу,
який здійснювався вручну. Найвагомішу роль доелектронні корпуси
відіграли в таких лінгвістичних проектах, як укладання конкордансів
Біблії й літературних творів, а також написання граматик і словників
• Біблія була першими серйозним корпусними дослідженням
лінгвістичного матеріалу. Дослідники Біблії та їхні помічники уважно
проглядали сторінку за сторінкою, рядок за рядком і вручну
індексували всі слова. Етимологія підтвердила що Біблія це
гармонійне божественне послання, а не збірка текстів із розрізнених
джерел.
• Значні за обсягом вибірки текстів використовувалися ще для
укладання ранніх граматик. Перші ранні відомі граматики класичних
мов також можна вважати написаними на основі корпусів тестів,
наприклад, у IV столітті до н.е. граматика Паніні описувала мову Ведів
яка збереглася лише в корпусі ведичних текстів.
Дякую за Увагу!!

You might also like