магистърска програма Корпусна лингвистика Корпусна лингвистика - наука, която изучава езика чрез множество от реални езикови примери или текстове, събрани в общо цяло, наречено корпус. Корпусните изследвания на езика са практически подход, който позволява на лингвистите да изследват голямо количество разнообразни текстове и автентични примери при изучаването и описанието на естествения език. Емпиричният материал улеснява лингвиста в изграждането на обективни изследвания и изводи, които не разчитат на индивидуалния езиков усет, и позволява изследването на различните разновидности на езика като диалекти, ранни периоди на езиково развитие и др. Корпусно основаният подход е методология, която обслужва както изследването на множество различни аспекти и области на лингвистичното познание на различни езикови нива като фонетика, морфология, синтаксис и т. н., така и различни практически и теоретични цели и задачи. Корпусните изследвания дават възможност за анализ и потвърждение на общоизвестни, но неполучили обяснение факти и задоволяват необходимостта от доказателства за подкрепа на дадена теория. Компютърната корпусна лингвистика разработва компютърни модели за подпомагане наблюдението над лингвистичен материал, формирането и проверката на лингвистичните хипотези. Тя съчетава целите на лингвистичната наука и компютърните технологии и поражда нов тип взаимодействие между интуицията на езиковеда и автентичния езиков материал. Корпус „колекция от езикови примери, избрани и подредени според експлицитни лингвистични критерии, за да се използват като модел на езика“ (ЕГПКОЕ 1996: 4); Синклер 2005: колекция от текстове в електронна форма, подбрани чрез външни критерии, така че да представят, доколкото е възможно, даден език или негова разновидност и да предоставят данни за лингвистични изследвания. Коева 2010: голяма колекция от езикови примери, представени по начин, даващ възможност за компютърна обработка, и избрани по определени (лингвистични) критерии, така че да представляват адекватен езиков модел. Определенията за езиков корпус се основават на критериите при подбора на корпусните единици, значението на корпусите за различни лингвистични изследвания, както и възможността, която корпусите предоставят за компютърна обработка. Корпусът е основен обект на изследване и езиков ресурс в корпусната и компютърната лингвистика. Представлява множество от текстове или фрагменти с езиков материал в писмен или речев формат, главно в електронна форма, организирани по систематичен и структуриран начин, така че да могат да бъдат използвани за изследването на различни езикови употреби. Критерии определяне на даден набор от текстове като корпус компютърно достъпна, електронна форма, подчинена на даден формат (напр. txt, SGML, XML); целенасочена и добре документирана структурна организация; представителността за езиковата вариативност и/или за предварително определени, конкретни езикови явления; балансирността при разпределението на текстовете в общата структура спрямо употребата в изследваната езикова общност. Текстовите корпуси обикновено се използват за статистически анализ, за проверка на честотата на определени употреби или лингвистични правила, специфични за дадена езикова или литературна сфера, използва се и за изучаване на исторически документи, антични ръкописи и др. Корпус „колекция от езикови примери, избрани и подредени според експлицитни лингвистични критерии, за да се използват като модел на езика“ (ЕГПКОЕ 1996: 4); Синклер 2005: колекция от текстове в електронна форма, подбрани чрез външни критерии, така че да представят, доколкото е възможно, даден език или негова разновидност и да предоставят данни за лингвистични изследвания. Коева 2010: голяма колекция от езикови примери, представени по начин, даващ възможност за компютърна обработка, и избрани по определени (лингвистични) критерии, така че да представляват адекватен езиков модел. Определенията за езиков корпус се основават на критериите при подбора на корпусните единици, значението на корпусите за различни лингвистични изследвания, както и възможността, която корпусите предоставят за компютърна обработка. Корпусът е основен обект на изследване и езиков ресурс в корпусната и компютърната лингвистика. Представлява множество от текстове или фрагменти с езиков материал в писмен или речев формат, главно в електронна форма, организирани по систематичен и структуриран начин, така че да могат да бъдат използвани за изследването на различни езикови употреби. История на корпусната лингвистика • С развитието на езиковите технологии корпусите намират все повече приложения в компютърната лингвистика, във всички нейни области • Браун корпус – първият структуриран електронен корпус, съставен през 60-те години на 20 век, състои се от 500 откъса от текстове, около 1 милион думи Големи едноезикови корпуси • Британски национален корпус (BNC), над 100 милиона думи, събран по строго определени принципи, предлага онлайн търсене http://www.natcorp.ox.ac.uk • Corpus of Contemporary American English (COCA), над 450 млн думи, в 5 категории – говорим език, литература, списания, вестници, академични статии, онлайн търсене Големи едноезикови корпуси • Руски национален корпус – над 300 млн думи, текстове от средата на 18 век насам, с подкорпуси със синтактична, семантична и др. анотации, уеб интерфейс за търсене в корпуса и подкорпусите http://www.ruscorpora.ru • Полски национален корпус – около 1 милиард думи, има балансиран субкорпус от 250 млн думи, една част от него, около 1,2 млн думи, е ръчно анотирана Тенденции в съставянето на едноезикови корпуси • Създаване по предварително определена методология, която се счита за адекватна, за да осигури балансираност и представителност • Създаване на големи небалансирани корпуси със статични балансирани подкорпуси • Събиране на големи небалансирани корпуси, от които могат да се извлекат подкорпуси въз основа на описаниетона Големи паралелни корпуси • Големи публично достъпни колекции от юридически, административни и журналистически текстове: – Europarl – заседанията на Европейския парламент; – Канадски корпус от парламентарни заседания; – JRC-Acquis- многоезиков паралелен корпус от юридически текстове; – официалният вестник на ЕС; – колекцията OPUS – няколко различни корпуса от юридически текстове, колекция Големи паралелни корпуси • Чешко-английски корпус (CzEng) – 206,4 млн токъни на чешки и 232,7 млн на английски от 7 области, основно художествени и юридически http://ufal.mff.cuni.cz/czeng/czeng10/ • Унгарско-английски корпус (Hunglish corpus) – 34,6 млн унгарски 44,6 млн английски, разнообразни области http://mokk.bme.hu/resources/hunglishcorpus/ • Полско-руски корпус – общо 50 млн думи, Тенденции при паралелните корпуси • По-малки по обем в сравнение с едноезиковите корпуси поради ограничения брой паралелни текстове; по същите причини балансът и представителността се считат за нерелевантни • Събиране на корпуси от публични колекции • Събиране (обикновено автоматично) на паралелни корпуси, които да отразяват разнообразието ан едноезиковите Ключовите критерии за корпус • Освен в традиционната корпусна лингвистика, корпусите стават необходим ресурс в различни области на компютърната лингвистика • В контекста на бързо развиващия се уеб и улеснения достъп до едноезикови и паралелни корпуси, претърпяват промени традиционните разбирания за съставяне на корпус – обем, балансираност и представителност Обем • Даден корпус може да е достатъчно голям за емпирични изследвания, но да не съдържа достатъчно редки езикови явления, така че да бъдат съставени статистически валидни изводи • Следователно за съставяне на вероятностни модели са необходими големи количества данни, тъй като дори и да са шумни, те са предпоставка за по-достоверни модели • Експерименти с машинно трениране на Баланс и представителност • Макар че се считат за основни качества на един корпус, няма точни критерии за тяхното оценяване • За задачите на компютърната лингвистика тяхното значение е преосмислено • Подходът в БНК: – Тъй като при динамичните (разрастващите се) корпуси балансът трудно се поддържа, вместо да се поддържа за целия корпус, да могат да се извличат балансирани подкорпуси по различни критерии Метаданни • Метаданните са описание на текста и са външни за него • Детайлните метаданни позволяват да се определи дали даден текст е подходящ за задачата • Класификация на Бърнард, приета за БНК: – Редакторска информация – автори, източник, дата на издаване... – Описателна информация – класификационна информация – стил, жанр, област – Административна – достъпност, права ... Лингвистична анотация • Повишава стойността на текстовете • Подход в БНК: – Многопластова анотация – колкото повече равнища на анотация, толкова по-широко поле за приложения – Съответствие със стандартите за анотация – при форматирането и репрезентацията – Еднотипност – еднакъв подход при различните видове текст – Консистентност – при големи обеми текстове е необходима проверка и валидация Единен подход към текстовете в корпуса • Еднакво третиране на едноезиковия и многоезиковите корпуси в БНК • Текстовете се събират, обработват, анотират, оценяват и достъпват чрез общи модели • Този подход осигурява стандартизация, използваемост и автоматизация при всички процеси на съставяне и използване на корпуса Библиография Svetla Koeva, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova, and Ekaterina Tarpomanova. The Bulgarian National Corpus. Theory and Practice in Corpus Design. – In: Journal of Language Modeling, vol. 0, Nr. 1, 2012, 65-110. http://jlm.ipipan.waw.pl/index.php/JLM/ article/view/33/30