Professional Documents
Culture Documents
PresentMOFRF2008 2
PresentMOFRF2008 2
Мария Тодорова
1
Формализми за обработка на идиоми
Речникови граматики (Lexicon Grammar - Грос 1986)
Tree Adjoining Grammar (Abeillé и Shabes 1990),
Лексикално-функционална граматика (Lexical-Functional
Grammar – Брезнан и Каплан 1982),
Категориална граматика (Ван дер Линден)
2
Формални подходи към инфлектирането на ФЕ
Формализми, основани на речниковият формат DELA. -
INTEX, UNITEX, NOOJ, MultyFlex, WordEditor
Подходи, основани на каскадни крайни автомати -
Lexc, IDAREX , Процесор на несвободни фрази в турски
Подходи, основани на релационни бази данни HABIL ,
Подходи на унификационните граматики Проектът
LinGO FASTR
3
формализъм на речниковите граматики и
таблици
Методологията на описание чрез речникови граматики е
разработена от Морис Грос(1975) и екипа на LADL.
Основните принципи на този формализъм, насочен главно към
синтактичната структура, изхождат от тезата, че изречението е
лингвистична единица на значението.
Лексикалните единици са предикативни елементи, като за всеки
предикт се изследва почти уникално множество от синтактични
особености, които е необходимо да бъдат описани
систематично.
Тези описания се представят чрез таблични матрици, където
редиците съответстват на глаголи, а колоните на синтактичните
особености, като броя и типа на разрешените комплементи на
глагола и различните трансформации, които глаголът може да
претърпи (пасивизация, номинализация, разместване), някои
комбинаторни специфики и др.
Матриците представляват таблици и описват бинарни
характеристики: знакът + се постявая при пресичането на
редица и колоната за конкретна особеност на глагола, ако я има
и съответно знакът – ако я няма. Този тип описания са
прилагани за прилагателни, предикативни съществителни,
наречия, фразеологични изрази за много езици.
4
Лексикализирана унификационна граматика
граматиката се генерира полуавтоматично от таблиците,
описващи синтагматичните особености на полуидиомите –
синтактични, конструктивни, словоредни специфики.
Лексикалните и локални ограничения на съставните единици с
представят чрез графи, крайни автомати (Silberztein 1994; Gross
1997).
Представянето на синтактични конституенти в рекурсивни крайни
автомати позволява свързването на граматични конструкции,
считани за трансформационни еквиваленти.
Трансформационните еквиваленти се реализират при подобни
конструктивни типове и се представят чрез параметризирани
графи, които преобразуват таблиците в краен автомат, съдържащ
граматика от синтактични конструкции.
Те нямат характер на унифициращи синтактични правила и се
реализират при специфични конструкции.
Всеки параметризиран граф описва синтактичните конституенти –
променливи, чиито стойности се приписват в процеса на
лексикализация.
Множеството от параметризирани графи, свързани с дадена
таблица образуват метаграматики. Всеки път в графа се
идентифицира с параметър рефериращ към характеристика,
кодирана в съответната таблица.
5
Матрица на вариациите на полуидиоми от
тип N+Pron+Pron+V3pl
7
Измерване на морфологичната
композицираност по модела на Герджиков
формално декомпозира всички морфологични признаци на езиковата
единица, за да определи морфологичната типология на разглежданите
единици и да изведе формално обусловени признаци за обединяването им в
групи и анализирането на разпределението на граматическата информация
върху броя микрословоформи в дадена единица
Степента на композираност на думите се разглежда като измерител на преход
по скалата между аналитизъм и синтетизъм при съпоставка и типологизиране
на различни езици и езикови периоди.
Степените на аналитизъм и синтетизъм показват доколко граматичните
значения се изразяват вътре в словоформата чрез релационни афикси
(граматични морфеми) и доколко се изразяват извън нея чрез други средства
за граматично изразяване например служебни думи, словоред и интонация в
някои езици.
При синтетичността граматичната информация се изразява вътре в
словоформата, а при аналитичността някои от граматичните значения се
изразяват извън словоформата.
Авторът посочва, че композираността, силна при глаголите в български, се
изразява като нарастващото количество информация се разпределя върху все
повече микрословоформи и на тази основа - върху все повече морфеми.
8
Разпределяне на информацията върху
членовете на парадигмата
индекси
s (средната степен на синтетизъм на дадена парадигма),
m (средната степен на маркираност на член, т. е. средното
количество информация, което се пада на член)
С (степента на композираност)
9
формални зависимости между индексите:
s = ρ/µ , съответно степента на аналитизъм - a = µ /ρ, a = .c
m = p/U, показва върху колко члена са се разпределени показателите за
богатство на парадигмата.
Реципрочното число = U/ρ е показател за бедност на парадигмата, за
аморфологизъм или за деморфологизация.
С = µ/U, C = a.m, колко микрословоформи се падат на член. Степента на
композираност на формата на даден член е толкова по-голяма, колкото
по-маркиран е той
Реципрочният индекс за некомпозираност = U/µ изразява
ограниченост на парадигмата, т. е.предимно синтетичен характер на
формите на членовете
Типологически показател на степента на дискретизацията на
информацията на формално равнище - d, се определя като отношение на
броя на граматическите морфеми - M към броя на позитивните
диференциатори - p, т. е. d =M/p .
Реципрочният индекс е индекс за недискретизираност на
информацията на формално равнище.
Индекс на граматическата полиморфемност – π отговаря на броя на
реалните граматически морфеми- M, които се падат на
микрословоформа - µ., т.е. p = M/π.
10
Матрица за измерване на степента на композираност на
глагола броят ми се ребрата
11