You are on page 1of 19

Въведение в корпусната

лингвистика.
Основни понятия.

СУ “Св. Климент Охридски” -


магистърска програма
Корпусна лингвистика
 Корпусна лингвистика - наука, която изучава езика чрез множество от реални езикови
примери или текстове, събрани в общо цяло, наречено корпус.
 Корпусните изследвания на езика са практически подход, който позволява на лингвистите да
изследват голямо количество разнообразни текстове и автентични примери при изучаването
и описанието на естествения език. Емпиричният материал улеснява лингвиста в
изграждането на обективни изследвания и изводи, които не разчитат на индивидуалния
езиков усет, и позволява изследването на различните разновидности на езика като
диалекти, ранни периоди на езиково развитие и др.
 Корпусно­ основаният подход е методология, която обслужва както изследването на
множество различни аспекти и области на лингвистичното познание на различни езикови
нива като фонетика, морфология, синтаксис и т. н., така и различни практически и
теоретични цели и задачи.
 Корпусните изследвания дават възможност за анализ и потвърждение на общоизвестни, но
неполучили обяснение факти и задоволяват необходимостта от доказателства за подкрепа на
дадена теория.
 Компютърната корпусна лингвистика разработва компютърни модели за подпомагане
наблюдението над лингвистичен материал, формирането и проверката на лингвистичните
хипотези. Тя съчетава целите на лингвистичната наука и компютърните технологии и
поражда нов тип взаимодействие между интуицията на езиковеда и автентичния езиков
материал.
Корпус
 „колекция от езикови примери, избрани и подредени според експлицитни
лингвистични критерии, за да се използват като модел на езика“ (ЕГПКОЕ 1996: 4);
 Синклер 2005:­ колекция от текстове в електронна форма, подбрани чрез външни
критерии, така че да представят, доколкото е възможно, даден език или негова
разновидност и да предоставят данни за лингвистични изследвания.
 Коева 2010: голяма колекция от езикови примери, представени по начин, даващ
възможност за компютърна обработка, и избрани по определени (лингвистични)
критерии, така че да представляват адекватен езиков модел.
 Определенията за езиков корпус се основават на критериите при подбора на
корпусните единици, значението на корпусите за различни лингвистични изследвания,
както и възможността, която корпусите предоставят за компютърна обработка.
 Корпусът е основен обект на изследване и езиков ресурс в корпусната и
компютърната лингвистика. Представлява множество от текстове или фрагменти с
езиков материал в писмен или речев формат, главно в електронна форма,
организирани по систематичен и структуриран начин, така че да могат да бъдат
използвани за изследването на различни езикови употреби.
Критерии определяне на даден набор от текстове
като корпус
 компютърно достъпна, електронна форма, подчинена на даден формат (напр. txt, SGML,
XML);
 целенасочена и добре документирана структурна организация;
 представителността за езиковата вариативност и/или за предварително определени,
конкретни езикови явления;
 балансирността при разпределението на текстовете в общата структура спрямо
употребата в изследваната езикова общност.
 Текстовите корпуси обикновено се използват за статистически анализ, за проверка на
честотата на определени употреби или лингвистични правила, специфични за дадена
езикова или литературна сфера, използва се и за изучаване на исторически документи,
антични ръкописи и др.
Корпус
 „колекция от езикови примери, избрани и подредени според експлицитни
лингвистични критерии, за да се използват като модел на езика“ (ЕГПКОЕ 1996: 4);
 Синклер 2005:­ колекция от текстове в електронна форма, подбрани чрез външни
критерии, така че да представят, доколкото е възможно, даден език или негова
разновидност и да предоставят данни за лингвистични изследвания.
 Коева 2010: голяма колекция от езикови примери, представени по начин, даващ
възможност за компютърна обработка, и избрани по определени (лингвистични)
критерии, така че да представляват адекватен езиков модел.
 Определенията за езиков корпус се основават на критериите при подбора на
корпусните единици, значението на корпусите за различни лингвистични изследвания,
както и възможността, която корпусите предоставят за компютърна обработка.
 Корпусът е основен обект на изследване и езиков ресурс в корпусната и
компютърната лингвистика. Представлява множество от текстове или фрагменти с
езиков материал в писмен или речев формат, главно в електронна форма,
организирани по систематичен и структуриран начин, така че да могат да бъдат
използвани за изследването на различни езикови употреби.
История на корпусната
лингвистика
• С развитието на езиковите технологии
корпусите намират все повече приложения
в компютърната лингвистика, във всички
нейни области
• Браун корпус – първият структуриран
електронен корпус, съставен през 60-те
години на 20 век, състои се от 500 откъса от
текстове, около 1 милион думи
Големи едноезикови корпуси
• Британски национален корпус (BNC), над
100 милиона думи, събран по строго
определени принципи, предлага онлайн
търсене
http://www.natcorp.ox.ac.uk
• Corpus of Contemporary American English
(COCA), над 450 млн думи, в 5 категории –
говорим език, литература, списания,
вестници, академични статии, онлайн
търсене
Големи едноезикови корпуси
• Руски национален корпус – над 300 млн
думи, текстове от средата на 18 век насам, с
подкорпуси със синтактична, семантична и
др. анотации, уеб интерфейс за търсене в
корпуса и подкорпусите
http://www.ruscorpora.ru
• Полски национален корпус – около 1
милиард думи, има балансиран субкорпус
от 250 млн думи, една част от него, около
1,2 млн думи, е ръчно анотирана
Тенденции в съставянето на
едноезикови корпуси
• Създаване по предварително определена
методология, която се счита за адекватна,
за да осигури балансираност и
представителност
• Създаване на големи небалансирани
корпуси със статични балансирани
подкорпуси
• Събиране на големи небалансирани
корпуси, от които могат да се извлекат
подкорпуси въз основа на описаниетона
Големи паралелни корпуси
• Големи публично достъпни колекции от
юридически, административни и
журналистически текстове:
– Europarl – заседанията на Европейския
парламент;
– Канадски корпус от парламентарни заседания;
– JRC-Acquis- многоезиков паралелен корпус от
юридически текстове;
– официалният вестник на ЕС;
– колекцията OPUS – няколко различни корпуса
от юридически текстове, колекция
Големи паралелни корпуси
• Чешко-английски корпус (CzEng) – 206,4 млн
токъни на чешки и 232,7 млн на английски
от 7 области, основно художествени и
юридически
http://ufal.mff.cuni.cz/czeng/czeng10/
• Унгарско-английски корпус (Hunglish corpus)
– 34,6 млн унгарски 44,6 млн английски,
разнообразни области
http://mokk.bme.hu/resources/hunglishcorpus/
• Полско-руски корпус – общо 50 млн думи,
Тенденции при паралелните
корпуси
• По-малки по обем в сравнение с
едноезиковите корпуси поради
ограничения брой паралелни текстове; по
същите причини балансът и
представителността се считат за
нерелевантни
• Събиране на корпуси от публични колекции
• Събиране (обикновено автоматично) на
паралелни корпуси, които да отразяват
разнообразието ан едноезиковите
Ключовите критерии за корпус
• Освен в традиционната корпусна
лингвистика, корпусите стават необходим
ресурс в различни области на
компютърната лингвистика
• В контекста на бързо развиващия се уеб и
улеснения достъп до едноезикови и
паралелни корпуси, претърпяват промени
традиционните разбирания за съставяне на
корпус – обем, балансираност и
представителност
Обем
• Даден корпус може да е достатъчно голям
за емпирични изследвания, но да не
съдържа достатъчно редки езикови
явления, така че да бъдат съставени
статистически валидни изводи
• Следователно за съставяне на вероятностни
модели са необходими големи количества
данни, тъй като дори и да са шумни, те са
предпоставка за по-достоверни модели
• Експерименти с машинно трениране на
Баланс и представителност
• Макар че се считат за основни качества на
един корпус, няма точни критерии за
тяхното оценяване
• За задачите на компютърната лингвистика
тяхното значение е преосмислено
• Подходът в БНК:
– Тъй като при динамичните (разрастващите се)
корпуси балансът трудно се поддържа, вместо
да се поддържа за целия корпус, да могат да се
извличат балансирани подкорпуси по различни
критерии
Метаданни
• Метаданните са описание на текста и са
външни за него
• Детайлните метаданни позволяват да се
определи дали даден текст е подходящ за
задачата
• Класификация на Бърнард, приета за БНК:
– Редакторска информация – автори, източник,
дата на издаване...
– Описателна информация – класификационна
информация – стил, жанр, област
– Административна – достъпност, права ...
Лингвистична анотация
• Повишава стойността на текстовете
• Подход в БНК:
– Многопластова анотация – колкото повече
равнища на анотация, толкова по-широко поле
за приложения
– Съответствие със стандартите за анотация – при
форматирането и репрезентацията
– Еднотипност – еднакъв подход при различните
видове текст
– Консистентност – при големи обеми текстове е
необходима проверка и валидация
Единен подход към текстовете в
корпуса
• Еднакво третиране на едноезиковия и
многоезиковите корпуси в БНК
• Текстовете се събират, обработват,
анотират, оценяват и достъпват чрез общи
модели
• Този подход осигурява стандартизация,
използваемост и автоматизация при всички
процеси на съставяне и използване на
корпуса
Библиография
Svetla Koeva, Ivelina Stoyanova, Svetlozara
Leseva, Tsvetana Dimitrova, Rositsa Dekova, and
Ekaterina Tarpomanova. The Bulgarian National
Corpus. Theory and Practice in Corpus Design. –
In: Journal of Language Modeling, vol. 0, Nr. 1,
2012, 65-110.
http://jlm.ipipan.waw.pl/index.php/JLM/
article/view/33/30

You might also like