Professional Documents
Culture Documents
PROMT vertimo sistema lygiui. Žodis aprašytas kaip kamieno ir galūnės kom-
Promt sistemos vertimo algoritmai paremti ne pozicija. Iš vienos pusės, tai leidžia atpažinti pirmos
nuosekliomis transformavimo procedūromis, bet hie- kalbos (toliau – PK) žodį ir morfologiškai jį nagrinė-
rarchiniu pagrindu, kuriame vertimo procesai suskai- ti, iš kitos pusės, patogus kelias nustatyti vertimui
dyti į susisiekiančias transformavimo procedūras pagal susijusius morfologinius duomenis (kamienas,
skirtinguose analizės etapuose [8]. kaitymo tipas, ir galūnės adresas tokios kaitybos ti-
Sistemą galima išskirstyti į tokius lygmenis: po galūnių masyve). Taigi, jei galima pritaikyti kei-
Leksikos vienetų lygmuo. Leksikinis vienetas timo taisykles iš PK morfologinių duomenų į antros
yra žodis, arba kolokacija, priklausanti žemiausiam kalbos (toliau – AK) morfologinius duomenis, tada
124
TECHNOLOGIJOS MOKSLAI. INFORMATIKA
galima vykdyti transformavimo procedūras morfolo- pradėtas kurti daugiau nei prieš 30 metų. Pirmieji
giniame lygmenyje. vartotojai – JAV vyriausybinės organizacijos, o po
Grupių lygmuo. Jis atsako už sudėtingesnes to ir Europos ekonomikos sąjunga, kuri Systran per-
struktūras: daiktavardžių grupes, būdvardžius, prie- tvarkė ir gausios dokumentacijos vertimas tapo įma-
veiksmius ir sudėtines veiksmažodžių formas. Šio nomas į daugelį jai priklausančių šalių.
lygmens pagrindas yra formalios ryšių gramatikos. Systran toliau tobulinamas įtraukiant ir statisti-
Analizės metu tai leidžia jungti grupes į sintaksinius nius metodus. Čia aprašomi formalieji metodai ir ver-
vienetus. Kiekvieną vienetą charakterizuoja susinte- timo algoritmas, nesusijęs su statistiniais metodais.
zuoti struktūriniai duomenys ir pagrindinis jungimo Systran sistemos dizainas yra agreguotas ir aukšto
vienetas. modalumo. Jame yra dviejų tipų programos:
Paprasto sakinio lygmuo. Paprastasis sakinys Sisteminės, aprašytos asemblerio kodu, nepri-
traktuojamas kaip struktūra, susidedanti iš sintaksi- klausančios nuo kalbos; jos, pavyzdžiui, atsakingos
nių vienetų. Jo analizė vykdoma pagal karkasines ta- už žodyno peržiūros paprogrames.
rinio struktūras. Paprastuose sakiniuose, pagrindinis Vertimo programos, sudarytos iš daug atskirų
elementas yra veiksmažodis, o jo junglumas (valen- modulių. Vertimo programos skirtos analizei ir gene-
tingumas) nulemia aktyvaus karkaso užpildymą. ravimui. Analizės modulis pirmai kalbai yra pasto-
Sudėtinio sakinio lygmuo. Analizė reikalinga, vus nepriklausomai nuo antros kalbos, o generavimo
kai reikia suderinti laikus ir teisingai išversti jungtu- moduliai yra pastovūs antrai kalbai, nesvarbu, kokia
kus. bebūtų pirma kalba.
Pagrindinė sistemos dalis – didžiulis dvikalbis
Šie procesai tarpusavyje siejasi pagal tekstinio
žodynas, talpinantis leksikos ekvivalentus, gramati-
vieneto hierarchiškumą, keičiasi susintezuotais ir pa-
kos ir semantikos informaciją, vartojamą analizei
veldėtais atributais. Toks algoritmo sudarymas lei-
ir generacijai. Didelė šios informacijos dalis yra al-
džia panaudoti formaliuosius metodus algoritmams
goritmų formos, jie iškviečiami įvairiuose vertimo
aprašyti skirtinguose lygiuose.
proceso etapuose. Pagrindiniai vertimo procesai val-
domi sudėtingo dvikalbio žodyno.
SYSTRAN vertimo sistema
Lietuvių kalbos žodžio analizės algoritmas
Iš pradžių sistema suprojektuota tiktai verti-
mui iš rusų kalbos į anglų kalbą, dabar apima 80 kal- Atlikus lietuviško žodžio dalių analizę ir išnag-
bų porų, verčia iš 22 kalbų ir yra daugelio didžiųjų rinėjus panašias sistemas, buvo sudarytas lietuvių
portalų variklis [8]. Systran sistema tradiciškai trak- kalbos žodžio dalių analizės algoritmas. Diagramoje
tuojama kaip taisyklėmis pagrįsta sistema. Projektas (1 pav.) pateiktas bendras algoritmo veikimas.
Žodžio
vedimas
Išvesti visas
rastas žodžio
Ar yra neleistin dalis
simboli? Taip
Ar žodis <
liks žodis=šaknis
dvi raids?
Ne
Taip
Išvesti šakn Priesag
metodas()
Ne
Galni Priešdli
Ar žodis yra
metodas() metodas()
šakn DB?
Taip Taip
Išvesti šakn
liks žodis <
liks žodis >=
dvi raids?
dvi raids?
Ne
Ar žodis yra Ne
Taip
žodži DB ? Ne Išvesti galn
bei šakn
Taip
Išvesti
išanalizuot
žod
Įvedus žodį, pirmiausia tikrinama, ar nėra drau- • Tikrinama, ar paimta žodžio dalis yra tapati ga-
džiamų simbolių (leidžiamos tik raidės ir tarpai). Tik- lūnei, paimtai iš DB. Jei taip, įrašoma į galūnių
rinama, ar žodis nėra trumpesnis už dvi raides. Jei masyvą.
taip yra, visas žodis yra šaknis, rezultatai išvedami į • Taip patikrinamos visos galūnės, esančios duo-
ekraną. Jei ne, tikrinama, ar žodis yra tarp DB įvestų menų bazėje.
šaknų, ir jei taip, visas žodis yra šaknis, rezultatai • Jei buvo rastos kelios galūnės, tikroji bus ta, kuri
išvedami į ekraną. Jei žodis nebuvo rastas tarp DB sudaryta iš daugiau raidžių.
šaknų, kviečiamas galūnių radimo metodas (2 pav.).
Po to tikrinama, ar likęs žodis yra tarp DB įvestų, Priesagų analizės algoritmas (3 pav.) analogiš-
jau išanalizuotų žodžių. Jei yra, išvedamas išanali- kas galūnių analizei – tik pabaigoje, radus priesagą,
zuotas žodis su rasta galūne. Jei nėra, tikrinama, ar dar patikrinama, ar rastos priesagos pirma raidė ir li-
likęs žodis yra trumpesnis už dvi raides. Jei trumpes- kusio žodžio (atmetus rastą priesagą) paskutinė raidė
nis, likusi žodžio dalis yra šaknis, išvedama šaknis nėra balsės. Jei nėra balsės, tada tai yra tikroji įvesto
bei rasta galūnė. Jei ne, kviečiami galūnių (2 pav.), žodžio priesaga.
priešdėlių ir priesagų radimo metodai (žr. 3 pav.).
Įvykdžius šiuos metodus, likusi žodžio dalis priski-
riama šakniai. Pabaigoje išvedamos visos rastos žo-
džio dalys.
Tyrimo rezultatai
Algoritmo veiksmingumui išsiaiškinti buvo su-
2 pav. Galūnių analizė algortimas kurta sistema ir atlikta įvairių lietuvių kalbos žodžių
dalių analizė. Tikrinti daiktavardžiai, būdvardžiai,
Detaliau aprašysime galūnės radimo algorit- veiksmažodžiai, įvardžiai, skaitvardžiai, prieveiks-
mą (2 pav.). Paieška atliekama taip: miai, prielinksniai. 2 lentelėje parodyta, kaip siste-
• Nuskaitoma galūnė iš duomenų bazės. ma apdorojo skirtingų lietuvių kalbos žodžių dalis.
• Paima tiek raidžių nuo žodžio galo, kiek turi ga- Brūkšnelis šalia morfemos pažymi kitos morfemos
lūnė, esanti duomenų bazėje; vietą.
2 lentelė. Žodžio dalių analizės tikrinimo rezultatai
Reikalavimai / Laukiamas
Įvykis / įvestis Gautas rezultatas T/N Pastabos
tikslai rezultatas
Daiktavardžių ana- Analizuojamas žodis Šaknis dang- Šaknis dang- T
lizė dangus Galūnė -us Galūnė -us
Analizuojamas žodis Šaknis nam- Šaknis nam- T
namelis Priesaga -el- Priesaga -el-
Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis kaim- Šaknis kaim- T
kaimas Galūnė -as Galūnė -as
126
TECHNOLOGIJOS MOKSLAI. INFORMATIKA
2 lentelės tęsinys
Daiktavardžių Analizuojamas žodis Šaknis trin- Šaknis trin- T
analizė trintukas Priesaga -tuk- Priesaga -tuk-
Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis kaln- Šaknis kaln- T
kalnelis Priesaga -el- Priesaga -el-
Galūnė -is Galūnė -is
Būdvardžių analizė Analizuojamas žodis Šaknis bal- Šaknis bal- T
baltas Priesaga -t- Priesaga -t-
Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis svar- Šaknis -svar- T
svarbus Priesaga -b- Priesaga -b-
Galūnė -us Galūnė -us
Analizuojamas žodis Šaknis srau- Šaknis srau- T
sraunus Priesaga -n- Priesaga -n-
Galūnė -us Galūnė -us
Analizuojamas žodis Šaknis did- Šaknis did- T
didelis Priesaga -el- Priesaga -el-
Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis auk- Šaknis auk- T
aukštas Priesaga -št- Priesaga -št-
Galūnė -as Galūnė -as
Veiksmažodžių Analizuojamas žodis Šaknis bėg- Šaknis bėg- T
analizė bėgti Priesaga -ti- Priesaga -ti-
Analizuojamas žodis Šaknis mieg- Šaknis miego- N Priesaga -o- neįves-
miegoti Priesaga -o- Priesaga -ti- ta į duomenų bazę
Priesaga -ti
Analizuojamas žodis Priešdėlis per- Priešdėlis per- T
pereiti Šaknis -ei- Šaknis -ei-
Priesaga -ti Priesaga -ti
Analizuojamas žodis Priešdėlis nu- Priešdėlis nu- T
nuvažiavo Šaknis -važ- Šaknis -važ-
Priesaga -iav- Priesaga -iav-
Galūnė -o Galūnė -o
Analizuojamas žodis Šaknis neš- Šaknis neš- T
nešdamas Priesaga -dam- Priesaga -dam-
Galūnė -as Galūnė -as
Įvardžių analizė Analizuojamas žodis Šaknis j- Šaknis j- T
jis Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis k- Šaknis k- T
kas Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis kur- Šaknis kur- T
kuris Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis man- Šaknis man- T
mano Galūnė -o Galūnė -o
Analizuojamas žodis Šaknis pat- Šaknis pat- T
patiems Galūnė -iems Galūnė -iems
Skaitvardžių analizė Analizuojamas žodis Šaknis vien- Šaknis vien- T
vienas Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis dv- Šaknis dvej- N Taisyklės „šaknis
dveji Priesaga -ej- Galūnė -i dvi priebalsės“
Galūnė -i išimtis
Skaitvardžių analizė Analizuojamas žodis Šaknis penk- Šaknis penk- T
penktas Priesaga -t- Priesaga -t-
Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis ket- Šaknis ket- T
ketveri Priesaga -v- Priesaga -v-
Priesaga -er- Priesaga -er-
Galūnė -i Galūnė -i
127
ISSN 1648-8776
JAUNŲJŲ MOKSLININKŲ DARBAI. Nr. 4 (33). 2011
2 lentelės tęsinys
Skaitvardžių analizė Analizuojamas žodis Šaknis penk- Šaknis penk- T
penketas Priesaga -et- Priesaga -et-
Galūnė -as Galūnė -as
Prieveiksmių Analizuojamas žodis Šaknis puik- Šaknis puik- N
analizė puikiai Priesaga -iai Galūnė -iai.
Analizuojamas žodis Šaknis svaig- Šaknis svaiginam- N Neskiriama galūnė
svaiginamai Priesaga -in- Galūnė -ai nuo priesagos, jei
Priesaga -am- jos tapačios
Priesaga -ai
Analizuojamas žodis Priešdėlis ne- Priešdėlis ne- N Neskiriama galūnė
nesunkiai Šaknis -sunk- Šaknis -sunk- nuo priesagos, jei
Priesaga -iai Galūnė -iai jos tapačios
Analizuojamas žodis Šaknis jaun- Šaknis jaun- N Neskiriama galūnė
jaunai Priesaga -ai Galūnė -ai nuo priesagos, jei
jos tapačios
Analizuojamas žodis Šaknis švar- Šaknis šavar- N Neskiriama galūnė
švariai Priesaga -iai Galūnė -iai nuo priesagos, jei
jos tapačios
Prielinksnių analizė Analizuojamas žodis Šaknis per Šaknis per T
per
Analizuojamas žodis už Šaknis už Šaknis už T
Analizuojamas žodis Šaknis prieš Šaknis prieš T
prieš
Analizuojamas žodis Šaknis ant Šaknis ant T
ant
Analizuojamas žodis su Šaknis su Šaknis su T
7. Morfologinis anotatorius internete [interaktyvus] [žiū- 8. Paliulis E., Milisevičiūtė D., 2009, Lietuvių – anglų
rėta 2011–12–02]. Prieiga per internetą: <http://done- kalbų vertimo sistema. Jaunųjų mokslininkų darbai.
laitis.vdu.lt/>. Nr. 2 (23). P. 51–56. Šiauliai: VšĮ Šiaulių universiteto
leidykla.
Summary
Multilingual automatic (machine) translation systems are now in great demand in the world. These systems are
based on analysis of grammar and lexis of different languages, and their conversions from one language into another.
Translations produced by automatic translation systems are obtained fast, but they do not always have quality and accu-
racy. Lithuanian grammar and lexis are very complex and very different from those of some of the internationally used
languages (e.g., English).
This morphology of the Lithuanian language was analyzed and the algorithm for analysis of Lithuanian words and
their parts was created in this study. The algorithm was used in the system for analysis of Lithuanian word parts. The sys-
tem was tested. The designed system performs best in analysing nouns and adjectives, worse in analysing verbs, pronouns
and numerals, but analysis of adverbs is usually erroneous. When developing the algorithm in future it is necessary for the
analysis of word parts to be preceded by identification of part of speech of the word under analysis.
Keywords: morphology of Lithuanian language, analysis of word parts, algorithm for analysis of words.
Santrauka
Šiuo metu pasaulyje labai didelę paklausą turi daugiakalbės automatinio (mašininio) vertimo sistemos. Jų veiki-
mas remiasi skirtingų kalbų gramatikos ir leksikos analize bei jų transformacijomis iš vienos kalbos į kitą. Automatinio
vertimo sistemų vertimas pakankamai greitas, tačiau ne visada kokybiškas ir tikslus. Lietuvių kalbos gramatika ir leksika
sudėtinga ir labai skiriasi nuo kai kurių tarptautiniu mastu vartojamų bendravimo kalbų (pvz., anglų kalbos).
Šiame darbe nagrinėjama lietuvių kalbos morfologija ir kuriamas lietuviškų žodžių ir jo dalių analizės algoritmas.
Sukurtas algoritmas panaudotas žodžio dalių analizės sistemoje. Atliktas sistemos patikrinimas. Sukurta sistema geriau-
siai analizuoja daiktavardžius, būdvardžius, prasčiau – veiksmažodžius, įvardžius ir skaitvardžius, o prieveiksmių analizė
dažniausiai klaidinga. Ateityje tobulinant algoritmą, būtina pirmiausia nustatyti, kuriai kalbos daliai priklauso nagrinėja-
mas žodis, po to atlikti analizę žodžio dalimis.
Prasminiai žodžiai: lietuvių kalbos morfologija, žodžio dalių analizė, žodžio analizės algoritmas.
Įteikta 2011-12-02
129