You are on page 1of 7

LIETUVIŲ KALBOS ŽODŽIO DALIŲ ANALIZĖS ALGORITMAS

Saulius Kazilionis, Egidijus Paliulis


Šiaulių universitetas, Technologijos fakultetas

Įvadas Morfema negali būti skaidoma į smulkesnius


Tarptautiniam bendravimui labai svarbus vienetus, nepažeidžiant jos reikšmės [1, 2]. Anali-
užsienio kalbų mokėjimas. Todėl šiuo metu pasauly- zuojant žodį morfemiškai, svarbu išsiaiškinti, ar jis
je itin didelę paklausą turi daugiakalbės automatinio skaidomas į morfemas, ar neskaidomas, ir jei skai-
(mašininio) vertimo sistemos, kurių veikimas remia- domas, – kurios morfemos jį sudaro, kaip jos pasi-
si skirtingų kalbų gramatikos ir leksikos analize bei skirsčiusios. Morfemiškai skaidomi tokie žodžiai,
jų transformacijomis iš vienos kalbos į kitą. Automa- kurių atskiros morfemos, turinčios tą pačią reikšmę,
tinio vertimo sistemų vertimas pakankamai greitas, pasikartoja kituose žodžiuose. Skaidomas žodis gre-
tačiau ne visada kokybiškas ir tikslus. Tai susiję su tinamas su bendrašakniais žodžiais ir su tais, kurie
įvairių kalbų tarpusavio gramatiniais skirtumais, turi tuos pačius darybos ar kaitybos afiksus. Pvz.:
kurie sukelia netikslias transformacijas. Lietuvių kal- išvežimas skaidomas į tokias morfemas: vež- šakninė
bos gramatika ir leksika sudėtinga ir labai skiriasi morfema, pasikartojanti žodžiuose vež-ti, vež-imas,
nuo kai kurių tarptautiniu mastu vartojamų bendravi- iš- priešdėlis, su kuriuo gali būti sudaryta daugybė
mo kalbų (pvz., anglų kalbos). priešdėlinių veiksmažodžių (iš-nešti, iš-vykti), -im-
Tyrimo tikslas – sukurti lietuvių kalbos žo- priesaga, būdinga daugeliui lietuvių kalbos daikta-
džio dalių analizės algoritmą, jį realizuoti ir praktiš- vardžių, pavadinančių veiksmą (draud-im-as, lėk-
kai patikrinti. im-as). Galūnė -as rodo vyriškosios giminės viena-
Uždaviniai: skaitos vardininką.
• Išnagrinėti lietuvių kalbos morfologiją. Visi kaitomieji lietuvių kalbos žodžiai yra mor-
• Atlikti egzistuojančių lietuvių kalbos gramatikos femiškai skaidomi [1, 2], nes juose galima aiškiai
ir leksikos analizės sistemų apžvalgą. išskirti kaitybos morfemas (mišk-as, ger-as, vien-as).
• Sukurti lietuvių kalbos žodžio dalių analizės al- Morfemiškai skaidomi ir kai kurie nekaitomi žodžiai
goritmą. [2]. Juose galima išskirti kituose žodžiuose pasikar-
• Atlikti sukurto algoritmo realizaciją ir praktinį tojančias šaknines ir darybines morfemas (vis-ada,
patikrinimą. kit-ur). Morfemiškai neskaidomais vadinami tokie
žodžiai, kuriuos sudaro viena morfema.
Lietuvių kalbos žodžio sandara Sunkesnis uždavinys yra morfeminis kamieno
Automatinio vertimo sistemose labai svarbi skaidymas [1]. Žodžio kamienas laikytinas skaido-
konkrečios kalbos gramatikos ir leksikos analizė. mu tada, kai jo morfemos pasikartoja kituose kamie-
Kuriant žodžio dalių analizės algoritmą, svarbu nuose. Žodžio kamieną gali sudaryti: šaknis ir prie-
išstudijuoti tos kalbos morfologiją. Morfologija (gr. saga (alksn-yn-as), šaknis ir dvi priesagos (plėš-ik-
morphe – forma, logos – mokslas) yra gramatikos av-o), šaknis ir trys priesagos (penk-et-uk-inink-as),
šaka, nagrinėjanti kalbos dalis (žodžių klases) ir jų priešdėlis ir šaknis (pa-mišk-ė), priešdėlis, šaknis
sudėtį – kaitybą, darybą [1]. ir priesaga (per-vež-im-as), priešdėlis, šaknis ir dvi
Visi žodžiai sudaryti iš morfemų [2]. Morfe- priesagos (iš-aug-in-im-as), priešdėlis sangrąžinė
ma yra paprasčiausias, mažiausias kalbos vienetas, morfema ir šaknis (iš-si-praus-ti), priešdėlis, sangrą-
turintis reikšmę. Pavyzdžiui, žodyje stalelis yra trys žinė morfema, šaknis ir priesaga (iš-si-praus-im-as),
morfemos: stal- , -el- , -is. Visos jos turi vienokią ar dvi šaknys (juod-alksn-is), dvi šaknys ir jungiamo-
kitokią reikšmę: stal– sudaro žodžio leksinės reikš- ji morfema (saul-ė-lyd-is), dvi šaknys ir priesaga
mės branduolį, -el- rodo, kad žodis turi mažybinę (žmog-žudž-iau-ti), dvi šaknys ir dvi priesagos (nak-
reikšmę, -is – kad jis yra vyriškosios giminės vienas- v-yn-pinig-iai) ir t. t. Skaidomais kamienais laikomi
kaitos vardininko linksnio. Lietuvių kalbos morfe- ir tie, kurių viena morfema (ar kelios) su ta pačia
mos pagal jų funkcijas skirstomos [1, 2, 3]: reikšme pasikartoja kituose žodžiuose, o viena yra
• šaknis, arba šakninė morfema, labai reta, arba visiškai unikali [1, 2]. Toks kamienų
• afiksas, arba afiksinė morfema. skaidumas vadinamas daliniu. Unikali gali būti arba
Afiksas (lot. affixus – pritvirtintas) yra reikš- šaknis arba afiksas. Morfemiškai neskaidomais laiko-
minė žodžio dalis (morfema), išskyrus šaknį (pvz., mi tokie kamienai, kurių visos numatomos išskirti
priešdėlis, priesaga, intarpas, galūnė ir pan.) [1, 2, 3]. morfemos yra unikalios.
123
ISSN 1648-8776
JAUNŲJŲ MOKSLININKŲ DARBAI. Nr. 4 (33). 2011

Panašių sistemų apžvalga Lietuviška anglų – lietuvių mašininio vertimo


sistema [6]. Galimybės:
Panašiai veikiančios sistemos – tai automati-
• Rišlus teksto vertimas, atsižvelgiant į teksto mor-
nio (mašininio) vertimo sistemos. Automatinio verti-
fologiją, sintaksę ir semantiką.
mo sistemų (toliau – AVS) kūrimui reikalingas kelių
• DOC, RTF, HTML ir TXT formatu pateiktų doku-
sričių išmanymas – kompiuterinės ir matematinės
mentų vertimas.
lingvistikos, vertimo teorijos, informacinių techno-
• Vertimo funkcijos įtraukimas į Microsoft Word,
logijų, kalbos filosofijos. AVS vartojamos tada, kai
Internet Explorer ir Mozilla Firefox (pasitelkiant
reikalingas greitas, nors ne visada kokybiškas ir tiks-
atitinkamus papildinius).
lus vertimas.
• Tekstų vertimas bet kurioje Windows taikomojo-
Internetu pasiekiamų AVS skaičius yra dau-
je programoje (pasitelkiant specialias taikomą-
giau nei 30. Tačiau jų veikimo principai nėra visiš-
sias programas).
kai skirtingi, turi panašumų. Pvz., Babelfish, Apple,
• Vertimo kokybės gerinimas, panaudojant papil-
Worldlingo, Yahoo!, Google vertimo portalai yra
domus specializuotus žodynus ir temų šablonus;
palaikomi Systran vertimo sistemos. Interaktyvi ru-
• Vertimų statistikos peržiūra.
sų – anglų programa MagicGooddie yra senos rusų
Didžiausias šios vertimo sistemos trūkumas
kompanijos Promt produktas. Viena pirmųjų AVS,
yra tas, kad ji verčia žodžius tik iš anglų kalbos.
dirbančių su lietuvišku tekstu, yra VDU projektas
Realizacija: Ši sistema yra realizuota ASP.
(Anglų – lietuvių mašininio vertimo sistema), taip
NET tinklalapio struktūros technologijos pagrindu.
pat sukurtas Promt kompanijos sistemos pagrindu,
Morfologinis lietuvių kalbos anotatorius [7].
kuris anksčiau buvo skirtas rusų – anglų kalbų kryp-
Galimybės:
ties teksto vertimui [6].
Aptarsime keletą panašiai veikiančių sistemų. • Įvesto žodžio ar sakinio pilna morfologinė anali-
Šiuo metu didžiausia mašininio vertimo sistema yra zė.
Google Translator [5]. Sistemos galimybės: • Nemažas nustatymų pasirinkimas.
• Greitas vertimas į 57 skirtingas kalbas ir iš jų. • Galimybė rezultatus išsaugoti tekstiniame faile
• Verčiami žodžiai, sakiniai, dokumentai ir tinkla- (= rinkmenoje).
lapiai iš bet kurios palaikomos kalbos ir į bet ku- Veikimas: pritaikius statistinius modelius ir
rią palaikomą kalbą. panaudojus 1 mln. žodžių pusiau automatiškai pa-
• Išversto žodžio įgarsinimas, norimo išversti žo- rengtą morfologiškai anotuotą tekstyną, sukurtas
džio pasiūlymas. vienareikšminimo įrankis, kurio tikslumas apie 94
• Tinklalapio vertimas vienu pelės mygtuko spus- procentai. Antraštinių lietuvių kalbos žodžių formų
telėjimu. nustatymo tikslumas netgi 99 procentai.
Realizacija: sprendžiant iš adreso struktūros, Realizacija: PHP programavimo kalba kartu
ši sistema yra realizuota PHP programavimo kalba su JavaScript.
kartu su JavaScript.

1 lentelė. Analogiškų sistemų palyginimas


Google vertėjas [5] Teksto vertimas [6] Tildė biuras
<http://translate.google.lt> <vertimas.vdu.lt> <www.tilde.lt>
Nemokama taip taip ne
Žodžio vertimas yra yra yra
Sakinio vertimas yra yra yra
Galimybė atsispausdinti išverstą tekstą yra yra yra
Dokumento vertimas yra nėra nėra
Išsami pagalba nėra yra yra
Internetinio puslapio vertimas yra yra nėra

PROMT vertimo sistema lygiui. Žodis aprašytas kaip kamieno ir galūnės kom-
Promt sistemos vertimo algoritmai paremti ne pozicija. Iš vienos pusės, tai leidžia atpažinti pirmos
nuosekliomis transformavimo procedūromis, bet hie- kalbos (toliau – PK) žodį ir morfologiškai jį nagrinė-
rarchiniu pagrindu, kuriame vertimo procesai suskai- ti, iš kitos pusės, patogus kelias nustatyti vertimui
dyti į susisiekiančias transformavimo procedūras pagal susijusius morfologinius duomenis (kamienas,
skirtinguose analizės etapuose [8]. kaitymo tipas, ir galūnės adresas tokios kaitybos ti-
Sistemą galima išskirstyti į tokius lygmenis: po galūnių masyve). Taigi, jei galima pritaikyti kei-
Leksikos vienetų lygmuo. Leksikinis vienetas timo taisykles iš PK morfologinių duomenų į antros
yra žodis, arba kolokacija, priklausanti žemiausiam kalbos (toliau – AK) morfologinius duomenis, tada
124
TECHNOLOGIJOS MOKSLAI. INFORMATIKA

galima vykdyti transformavimo procedūras morfolo- pradėtas kurti daugiau nei prieš 30 metų. Pirmieji
giniame lygmenyje. vartotojai – JAV vyriausybinės organizacijos, o po
Grupių lygmuo. Jis atsako už sudėtingesnes to ir Europos ekonomikos sąjunga, kuri Systran per-
struktūras: daiktavardžių grupes, būdvardžius, prie- tvarkė ir gausios dokumentacijos vertimas tapo įma-
veiksmius ir sudėtines veiksmažodžių formas. Šio nomas į daugelį jai priklausančių šalių.
lygmens pagrindas yra formalios ryšių gramatikos. Systran toliau tobulinamas įtraukiant ir statisti-
Analizės metu tai leidžia jungti grupes į sintaksinius nius metodus. Čia aprašomi formalieji metodai ir ver-
vienetus. Kiekvieną vienetą charakterizuoja susinte- timo algoritmas, nesusijęs su statistiniais metodais.
zuoti struktūriniai duomenys ir pagrindinis jungimo Systran sistemos dizainas yra agreguotas ir aukšto
vienetas. modalumo. Jame yra dviejų tipų programos:
Paprasto sakinio lygmuo. Paprastasis sakinys Sisteminės, aprašytos asemblerio kodu, nepri-
traktuojamas kaip struktūra, susidedanti iš sintaksi- klausančios nuo kalbos; jos, pavyzdžiui, atsakingos
nių vienetų. Jo analizė vykdoma pagal karkasines ta- už žodyno peržiūros paprogrames.
rinio struktūras. Paprastuose sakiniuose, pagrindinis Vertimo programos, sudarytos iš daug atskirų
elementas yra veiksmažodis, o jo junglumas (valen- modulių. Vertimo programos skirtos analizei ir gene-
tingumas) nulemia aktyvaus karkaso užpildymą. ravimui. Analizės modulis pirmai kalbai yra pasto-
Sudėtinio sakinio lygmuo. Analizė reikalinga, vus nepriklausomai nuo antros kalbos, o generavimo
kai reikia suderinti laikus ir teisingai išversti jungtu- moduliai yra pastovūs antrai kalbai, nesvarbu, kokia
kus. bebūtų pirma kalba.
Pagrindinė sistemos dalis – didžiulis dvikalbis
Šie procesai tarpusavyje siejasi pagal tekstinio
žodynas, talpinantis leksikos ekvivalentus, gramati-
vieneto hierarchiškumą, keičiasi susintezuotais ir pa-
kos ir semantikos informaciją, vartojamą analizei
veldėtais atributais. Toks algoritmo sudarymas lei-
ir generacijai. Didelė šios informacijos dalis yra al-
džia panaudoti formaliuosius metodus algoritmams
goritmų formos, jie iškviečiami įvairiuose vertimo
aprašyti skirtinguose lygiuose.
proceso etapuose. Pagrindiniai vertimo procesai val-
domi sudėtingo dvikalbio žodyno.
SYSTRAN vertimo sistema
Lietuvių kalbos žodžio analizės algoritmas
Iš pradžių sistema suprojektuota tiktai verti-
mui iš rusų kalbos į anglų kalbą, dabar apima 80 kal- Atlikus lietuviško žodžio dalių analizę ir išnag-
bų porų, verčia iš 22 kalbų ir yra daugelio didžiųjų rinėjus panašias sistemas, buvo sudarytas lietuvių
portalų variklis [8]. Systran sistema tradiciškai trak- kalbos žodžio dalių analizės algoritmas. Diagramoje
tuojama kaip taisyklėmis pagrįsta sistema. Projektas (1 pav.) pateiktas bendras algoritmo veikimas.

Žodžio
vedimas

Išvesti visas
rastas žodžio
Ar yra neleistin dalis
simboli? Taip

Ar žodis <
liks žodis=šaknis
dvi raids?
Ne
Taip
Išvesti šakn Priesag
metodas()
Ne

Galni Priešdli
Ar žodis yra
metodas() metodas()
šakn DB?
Taip Taip
Išvesti šakn
liks žodis <
liks žodis >=
dvi raids?
dvi raids?
Ne
Ar žodis yra Ne
Taip
žodži DB ? Ne Išvesti galn
bei šakn
Taip
Išvesti
išanalizuot
žod

1 pav. Bendras žodžio analizės algoritmas


125
ISSN 1648-8776
JAUNŲJŲ MOKSLININKŲ DARBAI. Nr. 4 (33). 2011

Įvedus žodį, pirmiausia tikrinama, ar nėra drau- • Tikrinama, ar paimta žodžio dalis yra tapati ga-
džiamų simbolių (leidžiamos tik raidės ir tarpai). Tik- lūnei, paimtai iš DB. Jei taip, įrašoma į galūnių
rinama, ar žodis nėra trumpesnis už dvi raides. Jei masyvą.
taip yra, visas žodis yra šaknis, rezultatai išvedami į • Taip patikrinamos visos galūnės, esančios duo-
ekraną. Jei ne, tikrinama, ar žodis yra tarp DB įvestų menų bazėje.
šaknų, ir jei taip, visas žodis yra šaknis, rezultatai • Jei buvo rastos kelios galūnės, tikroji bus ta, kuri
išvedami į ekraną. Jei žodis nebuvo rastas tarp DB sudaryta iš daugiau raidžių.
šaknų, kviečiamas galūnių radimo metodas (2 pav.).
Po to tikrinama, ar likęs žodis yra tarp DB įvestų, Priesagų analizės algoritmas (3 pav.) analogiš-
jau išanalizuotų žodžių. Jei yra, išvedamas išanali- kas galūnių analizei – tik pabaigoje, radus priesagą,
zuotas žodis su rasta galūne. Jei nėra, tikrinama, ar dar patikrinama, ar rastos priesagos pirma raidė ir li-
likęs žodis yra trumpesnis už dvi raides. Jei trumpes- kusio žodžio (atmetus rastą priesagą) paskutinė raidė
nis, likusi žodžio dalis yra šaknis, išvedama šaknis nėra balsės. Jei nėra balsės, tada tai yra tikroji įvesto
bei rasta galūnė. Jei ne, kviečiami galūnių (2 pav.), žodžio priesaga.
priešdėlių ir priesagų radimo metodai (žr. 3 pav.).
Įvykdžius šiuos metodus, likusi žodžio dalis priski-
riama šakniai. Pabaigoje išvedamos visos rastos žo-
džio dalys.

3 pav. Priesagų analizė algortimas

Tyrimo rezultatai
Algoritmo veiksmingumui išsiaiškinti buvo su-
2 pav. Galūnių analizė algortimas kurta sistema ir atlikta įvairių lietuvių kalbos žodžių
dalių analizė. Tikrinti daiktavardžiai, būdvardžiai,
Detaliau aprašysime galūnės radimo algorit- veiksmažodžiai, įvardžiai, skaitvardžiai, prieveiks-
mą (2 pav.). Paieška atliekama taip: miai, prielinksniai. 2 lentelėje parodyta, kaip siste-
• Nuskaitoma galūnė iš duomenų bazės. ma apdorojo skirtingų lietuvių kalbos žodžių dalis.
• Paima tiek raidžių nuo žodžio galo, kiek turi ga- Brūkšnelis šalia morfemos pažymi kitos morfemos
lūnė, esanti duomenų bazėje; vietą.
2 lentelė. Žodžio dalių analizės tikrinimo rezultatai
Reikalavimai / Laukiamas
Įvykis / įvestis Gautas rezultatas T/N Pastabos
tikslai rezultatas
Daiktavardžių ana- Analizuojamas žodis Šaknis dang- Šaknis dang- T
lizė dangus Galūnė -us Galūnė -us
Analizuojamas žodis Šaknis nam- Šaknis nam- T
namelis Priesaga -el- Priesaga -el-
Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis kaim- Šaknis kaim- T
kaimas Galūnė -as Galūnė -as

126
TECHNOLOGIJOS MOKSLAI. INFORMATIKA

2 lentelės tęsinys
Daiktavardžių Analizuojamas žodis Šaknis trin- Šaknis trin- T
analizė trintukas Priesaga -tuk- Priesaga -tuk-
Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis kaln- Šaknis kaln- T
kalnelis Priesaga -el- Priesaga -el-
Galūnė -is Galūnė -is
Būdvardžių analizė Analizuojamas žodis Šaknis bal- Šaknis bal- T
baltas Priesaga -t- Priesaga -t-
Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis svar- Šaknis -svar- T
svarbus Priesaga -b- Priesaga -b-
Galūnė -us Galūnė -us
Analizuojamas žodis Šaknis srau- Šaknis srau- T
sraunus Priesaga -n- Priesaga -n-
Galūnė -us Galūnė -us
Analizuojamas žodis Šaknis did- Šaknis did- T
didelis Priesaga -el- Priesaga -el-
Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis auk- Šaknis auk- T
aukštas Priesaga -št- Priesaga -št-
Galūnė -as Galūnė -as
Veiksmažodžių Analizuojamas žodis Šaknis bėg- Šaknis bėg- T
analizė bėgti Priesaga -ti- Priesaga -ti-
Analizuojamas žodis Šaknis mieg- Šaknis miego- N Priesaga -o- neįves-
miegoti Priesaga -o- Priesaga -ti- ta į duomenų bazę
Priesaga -ti
Analizuojamas žodis Priešdėlis per- Priešdėlis per- T
pereiti Šaknis -ei- Šaknis -ei-
Priesaga -ti Priesaga -ti
Analizuojamas žodis Priešdėlis nu- Priešdėlis nu- T
nuvažiavo Šaknis -važ- Šaknis -važ-
Priesaga -iav- Priesaga -iav-
Galūnė -o Galūnė -o
Analizuojamas žodis Šaknis neš- Šaknis neš- T
nešdamas Priesaga -dam- Priesaga -dam-
Galūnė -as Galūnė -as
Įvardžių analizė Analizuojamas žodis Šaknis j- Šaknis j- T
jis Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis k- Šaknis k- T
kas Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis kur- Šaknis kur- T
kuris Galūnė -is Galūnė -is
Analizuojamas žodis Šaknis man- Šaknis man- T
mano Galūnė -o Galūnė -o
Analizuojamas žodis Šaknis pat- Šaknis pat- T
patiems Galūnė -iems Galūnė -iems
Skaitvardžių analizė Analizuojamas žodis Šaknis vien- Šaknis vien- T
vienas Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis dv- Šaknis dvej- N Taisyklės „šaknis
dveji Priesaga -ej- Galūnė -i dvi priebalsės“
Galūnė -i išimtis
Skaitvardžių analizė Analizuojamas žodis Šaknis penk- Šaknis penk- T
penktas Priesaga -t- Priesaga -t-
Galūnė -as Galūnė -as
Analizuojamas žodis Šaknis ket- Šaknis ket- T
ketveri Priesaga -v- Priesaga -v-
Priesaga -er- Priesaga -er-
Galūnė -i Galūnė -i

127
ISSN 1648-8776
JAUNŲJŲ MOKSLININKŲ DARBAI. Nr. 4 (33). 2011

2 lentelės tęsinys
Skaitvardžių analizė Analizuojamas žodis Šaknis penk- Šaknis penk- T
penketas Priesaga -et- Priesaga -et-
Galūnė -as Galūnė -as
Prieveiksmių Analizuojamas žodis Šaknis puik- Šaknis puik- N
analizė puikiai Priesaga -iai Galūnė -iai.
Analizuojamas žodis Šaknis svaig- Šaknis svaiginam- N Neskiriama galūnė
svaiginamai Priesaga -in- Galūnė -ai nuo priesagos, jei
Priesaga -am- jos tapačios
Priesaga -ai
Analizuojamas žodis Priešdėlis ne- Priešdėlis ne- N Neskiriama galūnė
nesunkiai Šaknis -sunk- Šaknis -sunk- nuo priesagos, jei
Priesaga -iai Galūnė -iai jos tapačios
Analizuojamas žodis Šaknis jaun- Šaknis jaun- N Neskiriama galūnė
jaunai Priesaga -ai Galūnė -ai nuo priesagos, jei
jos tapačios
Analizuojamas žodis Šaknis švar- Šaknis šavar- N Neskiriama galūnė
švariai Priesaga -iai Galūnė -iai nuo priesagos, jei
jos tapačios
Prielinksnių analizė Analizuojamas žodis Šaknis per Šaknis per T
per
Analizuojamas žodis už Šaknis už Šaknis už T
Analizuojamas žodis Šaknis prieš Šaknis prieš T
prieš
Analizuojamas žodis Šaknis ant Šaknis ant T
ant
Analizuojamas žodis su Šaknis su Šaknis su T

Sistema gerai analizuoja daiktavardžius ir 4. Sukurta sistema geriausiai analizuoja daikta-


būdvardžius, sunkiau sekasi su veiksmažodžiais, vardžius, būdvardžius, prasčiau – veiksmažo-
įvardžiais ir skaitvardžiais, o prieveiksmių analizė džius, įvardžius ir skaitvardžius, o prieveiksmių
nėra tinkama. Taip yra dėl to, kad sistema nesugeba analizė dažniausiai klaidinga. Taip yra dėl to, jog
nustatyti, kuri kalbos dalis yra žodis. Be to, ne visos sistema neskiria, kuriai kalbos daliai priklauso
žodžių dalys yra suvestos į duomenų bazę. įvestas žodis.
5. Sistemos rezultatams gerinti sukurta galimybė
Išvados įvesti į DB jau išanalizuotą žodį. Siekiant dar ge-
1. Atlikta lietuvių kalbos žodžių analizė ir nustaty- resnių rezultatų, sistemą reikėtų susieti su anks-
ta, kad tai – sudėtingas mokslas: norint nustatyti čiau minėtu morfologiniu anotatoriumi, kuris pa-
žodžio „sudėtį“, reikia žinoti jo kilmę, o tai ne dėtų nustatyti kalbos dalį, giminę, skaičių, links-
visada įmanoma išsiaiškinti. nį ir t. t. Tada būtų galima patobulinti algoritmą.
2. Atlikta analogiškų sistemų analizė ir nustatyta,
kad panašiai veikiančios sistemos – automati- Literatūra
nio vertimo sistemos, kurios taip pat analizuoja
1. Ružė A., 2008, Lietuvių kalbos morfologija (I dalis).
žodžius, netgi nustato žodžio galūnę, tačiau šios Vilniaus universitetas.
analizės rezultatų vartotojams neišveda. Arti- 2. Paulauskienė A., 2006, Lietuvių kalbos morfologijos
miausias analogas sukurtai sistemai – morfologi- pagrindai. Kaunas.
nis anotatorius [7], analizuojantis žodžius – tik 3. Rimkutė E., 2006, Morfologinio daugiareikšmišku-
platesniu, morfologiniu aspektu. mo ribojimas kompiuteriniame tekstyne. Daktaro di-
3. Išsiaiškinta lietuvių kalbos žodžių sandara ir su- sertacija. Kaunas: VDU Lietuvių kalbos institutas.
kurtas lietuviškų žodžių analizės algoritmas bei 4. Keinys S., 1999, Bendrinės lietuvių kalbos žodžių da-
sistema. Sistema naudoja duomenų bazę, kurioje ryba. Šiauliai: VšĮ Šiaulių universiteto leidykla.
saugomos žodžio dalys. Kadangi lietuvių kalbo- 5. Google automatinio vertimo sistema [interaktyvus]
[žiūrėta 2011–12–02]. Prieiga per internetą: <http://
je šaknų aibė yra gausiausia ir ją sudėtinga nusta-
translate.google.lt>.
tyti, todėl buvo nuspręsta į duomenų bazę įvesti 6. Anglų–lietuvių kalbos vertimo sistema [interaktyvus]
tik tas šaknis, kurios sudaro visą žodį. Šaknų duo- [žiūrėta 2011–12–02]. Prieiga per internetą: <http://
menų bazė nuolatos papildoma atlikus žodžių vertimas.vdu.lt>.
analizę.
128
TECHNOLOGIJOS MOKSLAI. INFORMATIKA

7. Morfologinis anotatorius internete [interaktyvus] [žiū- 8. Paliulis E., Milisevičiūtė D., 2009, Lietuvių – anglų
rėta 2011–12–02]. Prieiga per internetą: <http://done- kalbų vertimo sistema. Jaunųjų mokslininkų darbai.
laitis.vdu.lt/>. Nr. 2 (23). P. 51–56. Šiauliai: VšĮ Šiaulių universiteto
leidykla.

ALGORITHM FOR ANALYSIS OF PARTS OF LITHUANIAN WORD

Saulius Kazilionis, Egidijus Paliulis

Summary

Multilingual automatic (machine) translation systems are now in great demand in the world. These systems are
based on analysis of grammar and lexis of different languages, and their conversions from one language into another.
Translations produced by automatic translation systems are obtained fast, but they do not always have quality and accu-
racy. Lithuanian grammar and lexis are very complex and very different from those of some of the internationally used
languages (e.g., English).
This morphology of the Lithuanian language was analyzed and the algorithm for analysis of Lithuanian words and
their parts was created in this study. The algorithm was used in the system for analysis of Lithuanian word parts. The sys-
tem was tested. The designed system performs best in analysing nouns and adjectives, worse in analysing verbs, pronouns
and numerals, but analysis of adverbs is usually erroneous. When developing the algorithm in future it is necessary for the
analysis of word parts to be preceded by identification of part of speech of the word under analysis.
Keywords: morphology of Lithuanian language, analysis of word parts, algorithm for analysis of words.

LIETUVIŲ KALBOS ŽODŽIO DALIŲ ANALIZĖS ALGORITMAS

Saulius Kazilionis, Egidijus Paliulis

Santrauka

Šiuo metu pasaulyje labai didelę paklausą turi daugiakalbės automatinio (mašininio) vertimo sistemos. Jų veiki-
mas remiasi skirtingų kalbų gramatikos ir leksikos analize bei jų transformacijomis iš vienos kalbos į kitą. Automatinio
vertimo sistemų vertimas pakankamai greitas, tačiau ne visada kokybiškas ir tikslus. Lietuvių kalbos gramatika ir leksika
sudėtinga ir labai skiriasi nuo kai kurių tarptautiniu mastu vartojamų bendravimo kalbų (pvz., anglų kalbos).
Šiame darbe nagrinėjama lietuvių kalbos morfologija ir kuriamas lietuviškų žodžių ir jo dalių analizės algoritmas.
Sukurtas algoritmas panaudotas žodžio dalių analizės sistemoje. Atliktas sistemos patikrinimas. Sukurta sistema geriau-
siai analizuoja daiktavardžius, būdvardžius, prasčiau – veiksmažodžius, įvardžius ir skaitvardžius, o prieveiksmių analizė
dažniausiai klaidinga. Ateityje tobulinant algoritmą, būtina pirmiausia nustatyti, kuriai kalbos daliai priklauso nagrinėja-
mas žodis, po to atlikti analizę žodžio dalimis.
Prasminiai žodžiai: lietuvių kalbos morfologija, žodžio dalių analizė, žodžio analizės algoritmas.

Įteikta 2011-12-02

129

You might also like