You are on page 1of 23

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

SISSEJUHATUS ARVUTILINGVISTIKASSE
1. Sissejuhatus
1. Arvutuslingvistika mõiste
Arvutuslingvistika on interdistsiplinaarne teadusala lingvistika ja arvutiteaduse vahepeal, mille
eesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetodite
väljatöötamine ja arvutitel realiseerimine.
2. Arvutuslingvistika komponendid, nende ülesanded
Arvutuslingvistika komponendid: teoreetiline ja rakenduslik; analüüs ja genereerimine (süntees).
Teoreetilise arvutuslingvistika ülesandeks on teooriate püstitamine ja kontrollimine inimese keeleliste
võimete kohta.
Rakenduslik arvutuslingvistika ülesandeks on tarkvara (arvutiprogrammide) koostamine keele (teksti
ja kõne) automaattöötluseks.
3. Arvutuslingvistika arengulugu
I Masintõlge (MT) [1950ndad]
1949 Warren Weaver "Translation"
1954 1. MT eksperiment Georgetowni ülikoolis USA-s: arvuti IBM tõlkis 200-sõnalise teksti vene
keelest inglise keelde
1966 ALPAC (Loomulike keelte automaattöötluse konsultatiivkomitee USA rahvusliku TA juures)
aruanne: pessimism MT võimalikkuse suhtes
II N. Chomsky generatiivsed grammatikad [1960ndad]
1956 "Three models for the description of language"
1957 "Syntactic structures"
Transformatsioonigrammatika
Regulaarsed üritused: COLING alates 1965
Organisatsioonid: ACL 1968
III Küsimus-vastussüsteemid [1970ndad]
1972: T. Winograd SHRDLU (modelleeris roboti kätt "kuubikute maailmas", suhtlus inglise keeles); W.
Woods LUNAR (Kuu kivimiproovide identifitseerimine, suhtlus inglise keeles)
Tihe seos tehisintellektiga!
Ekspertsüsteemid DENDRAL 1965, MYCIN 1976
Andmebaasid (liidesega loomulikus keeles); infootsisüsteemid
IV Unifikatsioonigrammatikad [1980ndad]
FUG (Functional Unification Grammar) M. Kay 1979
GPSG (Generalized Phrase Structure Grammar) - G. Gazdar 1970ndate II pool; G. Gazdar & E. Klein
& G. Pullum& I. Sag 1985
LFG (Lexical Functional Grammar) - R. Kaplan & J. Bresnan 1982
HPSG (Head driven Phrase Structure Grammar) <= GPSG, LFG
C. Pollard 1984; C. Pollard & I. Sag 1987
Unifikatsioonigrammatikates kasutatakse lingvistiliste teadmiste esitamiseks nn. tunnuste struktuure
(sõna iseloomustatakse grammatiliste tunnuste komplektiga), millele rakendatakse unifitseerimist (2
struktuuri asendatakse 3-nda, üldisema struktuuriga; sellest ka nimetus). Eesmärk: väike hulk (väga
keerulisi) reegleid.
AL kui eriala hakati õpetama ülikoolides.
V Keeletehnoloogia (language technology) [1990ndad] - meetodite ja vahendite kompleks keele
töötlemiseks tänapäeva elektrooniliste vahenditega.
1
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Ka teoreetiline AL ei tule toime arvutiteta (keerulised formalismid).


4. Keeletehnoloogia mõiste
Keeletehnoloogia on meetodite ja vahendite kompleks keele töötlemiseks tänapäeva elektrooniliste
vahenditega.
Keeletehnoloogia on keelealaste teadmiste rakendamine arvutisüsteemide loomiseks, mis võimaldavad
analüüsida, tuvastada, mõista ja sünteesida inimkeelt kõigis tema vormides.
5. Keele analüüsi ja sünteesi (genereerimise) tasemed. Sisend ja väljund igal tasemel
Keele analüüs/genereerimine
lause analüüs/genereerimine
teksti (diskursuse ja dialoogi) analüüs/genereerimine
Lause analüüs/genereerimine
Fonoloogiline [heli  häälikute järjend]
Morfoloogiline [häälikute järjend  sõnade järjend]
Süntaktiline [sõnade järjend  sõnade rollid lauses]
Semantiline [sõnade järjend koos rollidega  terviklik tähendus]

2
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

2. Arvutifonoloogia
13. Arvutifonoloogia põhiküsimused
Kõnetuvastus – põhiprobleemiks junktuur e üleminek ühest sõnast teiseks.
Kõnetuvastaja sisendiks on häälelainete järjend. Nendest tehakse nn spektraalne esitus, nt tükeldatakse
sisend ja koostatakse iga sellise tüki tunnuste vektor. Saadud vektorite abil määratakse foneetilised
tõenäosused (nn vaatlustõenäosused). Seejärel toimub dekodeerimine (kasutades nt Viterbi algoritmi
või intellektitehnikast tuntud otsingualgoritmi A*). Väljundil saadakse sõnade järjend - tekst.
Paljud pideva kõne tuvastamise süsteemid kasutavad erinevaid teadmisi, et muuta hüpotees
konkreetseks sõnaks, mis konteksti sobib. Nii teeb ka inimene loomulikus suhtluses. Ainus vahe on
selles, et inimene kasutab kõrgema tasandi teadmisi ainult siis, kui info on segane (nt pole hästi
kuulda), arvutisüsteemid kasutavad selliseid teadmisi kogu aeg:
1. Foneemide jaoks tehakse kõnesignaali parameetriline analüüs, et püstitada hüpotees: testitakse
sagedusi, amplituude, muutumist ajas ja nende sobivust konteksti.
2. Lisatakse süntaktilised teadmised. Need reeglid pole nii spetsiifilised kui fonoloogilised: nt täita
lünk lauses The very old ... spoke softly. Sellesse lausesse sobib süntaktiliselt palju erinevaid
sõnu ja semantiline analüüs peab kindlaks tegema, et sobiv sõna tähistab inimest.
Kõnesüntees - Suuri edusamme on kõnesünteesis tehtud tänu häälikuprosoodiale (süstemaatilised
muutused kõne intensiivsuses, kõrguses ja kestuses).
Kõige olulisem prosoodiline vahend on rõhk. Rõhulised vokaalid on veidi pikema kestusega ja veidi
kõrgemad kui rõhuta vokaalid. Teine oluline nähtus rõhu kõrval on kõrguse muutumine.
• Arvuti kannab ette sõnu ja fraase väiksest sõnastikust. Sellisel puhul saab kasutada šabloone või
fonoloogilist transkriptsiooni, mõlemal puhul on vaja digitaalne heli muuta tagasi analoogseks (nt
elektroonilise ostsillaatori e võnkegeneraatori abil).
• Rakendused, mis nõuavad tekst-kõne sünteesi: arvuti muudab teksti loomulikuks, arusaadavaks
kõneks. Süsteemi on lisatud ka piiramatu sõnastik, kust saab iga sõna jaoks šablooni või
fonoloogilise transkriptsiooni. Seejärel ühendatakse sõnad lauseteks.
Üks tekst-kõne-sünteesi meetod on nn konkatenatiivne süntees, kus lausung moodustatakse kui
difoonide (kahe hääliku järjend) konkatenatsioon, mida seejärel silutakse. Kindla keele difoonide
leidmiseks on vaja salvestada suures mahus kõnenäiteid.

3
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

3. Arvutigrammatika
6. Generatiivse grammatika mõiste. Näide
Generatiivne grammatika on grammatika, mis esitab keele rangelt defineeritavate reeglite süsteemina,
mis genereerib ja seletab kõiki antud keele grammatilised (õiged) laused.
Näide: Generatiivne grammatika G = (T, N, P, S) P = {S -> NP VP,
NP -> Adj NP,
T = {väike, Mari, laulab, hästi} NP ->N,
eesti keele sõna(vormi)d VP -> VP Adv,
N = {S, VP, NP, N, V, Adj, Adv} VP -> V
grammatiliste kategooriate nimetused N -> Mari,
V -> laulab,
Lause genereerimine ehk süntees: Adj -> väike,
S => NP VP => N V => Mari V => Mari laulab Adv -> hästi }

7. Chomsky hierarhia (grammatikate tüübid sõltuvalt produktsioonide kujust)


Generatiivsed grammatikad moodustavad nn. Chomsky hierarhia.
* piiramata e. 0-tüüpi,
* kontekstisidusad e. 1. tüüpi,
* kontekstivabad e. 2. tüüpi,
* regulaarsed e. 3. tüüpi.
Regulaarsed grammatikad
Vasak-lineaarsed: reeglid kujul A  Bt, A  t
ja parem-lineaarsed: A  tB, A  t (A,B kuuluvad sõnastikku N, t kuulub sõnastikku T).
Loomulikud keeled (kui lausete hulgad) ei ole kirjeldatavad regulaarsete grammatikatega.
Kontekstivabad grammatikad (KVG): reeglid kujul A  x, kus A kuulub sõnastikku N, x kuulub
hulka V*.
Kontekstisidusad grammatikad (KTG): reeglid kujul
x  y, kus x,y kuuluvad hulka V+ ja y pikkus ei ole väiksem kui x pikkus. (Või xAz  xyz, kus A on
mitteterminaal hulgast N, x,z kuuluvad hulka V*, y kuulub hulka V+; x_z on kontekst.)
Enamus 1950/60-ndatel aastatel realiseeritud generatiivsetest grammatikatest olid KVG-d.
8. Lause genereerimine kontekstivabas grammatikas. Näide
Kontekstivabas grammatikas reeglid kujul A x, kus A kuulub sõnastikku N, x kuulub sõnastikku V*.
S  NP VP
NP  Jüri; Mari Grammatika on esitatud Backus-Nauri valemite
VP  V Obj abil.
V  Sööb; Joob <lause> ::= <subjekt> <verbifraas>
Obj  Vett; Leiba <subjekt> ::= Jüri | Mari
<verbifraas> ::= <verb> <objekt>
<verb> ::= sööb | joob
<objekt> ::= vett | leiba
S rollis <lause>.
Näiteks: "Mari sööb leiba"

4
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

9. Regulaaravaldise mõiste. Operatsioonid regulaaravaldistega. Näited


Regulaaravaldis on erilises keeles üleskirjutatud valem, mis kirjeldab teatava sõnede klassi;
kontrolleeskiri, mida rakendatakse mingile sõnele. Iga sõna jaoks saadakse vastus, kas sõne vastas
avaldisele või mitte. Regulaaravaldise otsing eeldab malli (pattern), mida me soovime otsida, ja
tekstikorpust, kus otsing teostatakse. Regulaaravaldise otsing väljastab korpusest kõik mallile vastavad
sõned. Nõnda võib suhteliselt kerge vaevaga korjata lausest välja näiteks numbrid, konkreetsed sõnad,
konkreetsed tähed jne. Regulaaravaldisi kasutatakse Interneti otsingumootorites,
tekstitöötlusprogrammides (nt MS Word, Word Perfect) ja mitmetes UNIXi utiliitides (sed, grep).
Lisaks praktilisele kasutusele on regulaaravaldised ka tähtsad teoreetiliseks vahendiks arvuti- ja
keeleteaduses.
Põhioperatsioonid regulaaravaldistes. Näited.
• sümbolite konkatenatsioon – järjest kirjutamine
• sümbolite disjunktsioon „[]“, „|“ ja „.“
„[abc]“ - kas a või b või c
„koer|kass“ - kas koer või kass
„.“ - suvaline üks sümbol
ka.s - kaas, kaes, kaks jne
• loendurid „*“, „+“ ja „{n,m}“
„*“ - vahetult eelneva sümboli või avaldise 0 või enam sisaldumist
„a*“ - 0 või enam sümbolit a
„[ab]*“ - 0 või enam sümbolit a või sümbolit b
„+“ - vahetult eelneva sümboli või avaldise 1 või enam sisaldumist
„{n}“ - vahetult eelneva sümboli või avaldise n sisaldumist
„{n,m}“ - vahetult eelneva sümboli või avaldise n kuni m sisaldumist
„{n,}“ - vahetult eelneva sümboli või avaldise vähemalt n sisaldumist
• ankrud „^“ ja „$“
„[^Ss]“ - ei S ega s
„^“ - rea algus
„$“ - rea lõpp
„^See Jaan$“ - leiab rea See Jaan
„\b“ - sõnapiir
„\base\b“ - ase (mitte aga tasemed)
„\B“ - sõnapiiri puudumine
• eelnevus „(„ ja „)“
„lau(l|d)“ - laud või laul (lau eelneb kas l-le või d-le)

„\*“ - tärn (literaalse sümbolina)


„\.“ - punkt (literaalse sümbolina)
„\?“ - küsimärk (literaalse sümbolina)
„\n“ - uus rida
„\t“ - tabel

Operaatorite rakendamise järjekord: (); loendurid; järjendid ja ankrud; disjunktsioon.


10. Lõpliku automaadi mõiste
Lõplik (seisundi/oleku)automaat on abstraktne masin, mis saab sisendiks sõne, loeb sellest sõnest
vasakult paremale ühe sümboli korraga, peatub pärast viimase sümboli lugemist ning kas aktsepteerib
sisendi või lükkab selle tagasi. Lõpliku automaadi arvutusi juhib programm. Arvutamine algab nn.

5
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

lähteseisundist, peale selle on seisundite hulgas välja eraldunud ka lõplik hulk lõppseisundeid. Kui
automaat saavutab ühe lõppseisunditest, siis on sisendsõne aktsepteeritav, vastasel juhul mitte. Lõpliku
automaadi võib esitada olekudiagrammina – märgendatud graafina, kus tippudele vastavad olekud,
kaartele aga üleminekud ühest olekust teise. Kaarte märgendiks on sümbol, mille automaat loeb
sisendsõnest seda kaart läbides.
Determineeritud lõpliku automaadi puhul on algolek ja see, mis olekus olles mis sisendtähe korral
millisesse olekusse liikuda tuleb, üheselt määratud. St. Determineeritud automaadi puhul ei teki ei
alguses ega töö keskel mingeid alternatiive ega jää automaadi töö seisma, kuna sisend lõppes.
Determineeritud automaadi töö lõpeb sisendsõne lõppedes ja sõne aktsepteeritakse, kui töö lõppedes
asutakse ühes lõppolekuist. Mittedetermineeritud lõplik automaat on identne determineeritud lõpliku
automaadiga, erinevus on vaid selles, et mittedetermineeritud automaadis on üleminekufunktsiooni
asemel relatsioon.
Keelt nimetatakse lõpliku automaadi keeleks, kui leidub mingi lõplik automaat, mis teda aktsepteerib.
11. Lõpliku muunduri mõiste
Lõplik muundur on lõplik automaat, mis tuvastab kahe sõne vahelise relatsiooni – loeb ühe sõne ja
genereerib teise.
Lõplik muundur ei tegele morfoloogilise analüüsiga – automaadi abil ei saa teada, millise sõnavormiga
sisendi näol tegemist on. Et seda teada saada, tuuakse sisse kahetasandilise morfoloogia mõiste. Need
kaks tasandit on leksikaalne, millel eristatakse erinevaid morfeeme, millest sõna koosneb, ning
pindtasand, millega tähistatakse sõna lõplikku kirjapilti. Pindtasandi tähejärgnevused tõlgitakse teatud
reeglite abil leksikaalsel tasandil morfeemide ja tunnuste järgnevusteks.
12. Lõplike automaatide ja lõplike muundurite kasutamine arvutimorfoloogias
Morfoloogiline analüüs on sõna koostisosadeks olevate morfeemide leidmine ja määramine.
Morfotaktika (määravad ära sõnavormi sisemise struktuuri: millised üksused millises järjestuses ja
mis tingimustel võivad ühes sõnavormis koos esineda) reeglite esiletoomiseks.
Keele õigekirjareeglid.
Lõplik muundur täidab järgmisi funktsioone:
1. tunneb ära, kas sõna on antud keeles olemas.
2. genereerib sõnede paare.
3. tõlgib ühe sõne teiseks sõneks
4. suhestab sõnekomplektid ja määrab ära erinevate sõnekomplektide omavahelised seosed
 Lõplikke automaate saab kasutada mitmete inglise keele morfotaktika reeglite esiletoomiseks.
 Lõplikud muundurid kujutavad endast lõplike automaatide laiendusi, mis on võimelised
genereerima väljundeid tähtede ja metasümbolite näol.
 Kahetasandiline morfoloogia on lõplike muundurite rakendus sõnade morfoloogiliseks
analüüsimiseks.
 Muundurite sisuks võivad olla ka keele ortograafiareeglid (õigekirjareeglid).
 On olemas automaate, mille abil on võimalik valmistada muundur igast lihtsamast
ümberkirjutusreeglist.
 Sõnavara ning ortograafiareeglid on võimalik kokku viia ühte automaati erinevate muundurite
ühendamise läbi.
14. Lause süntaktiline analüüs kontekstivaba grammatikaga: tipust alla analüüs
(algoritm) ja alt üles analüüs (põhimõte)
Süntaksianalüüs kontekstivaba grammatikaga: kuna KVG on deklaratiivne formalism, siis ta ei määra,
kuidas täpselt tuleb leida analüüsitava lause süntaksipuu. Selleks kasutatakse erinevaid strateegiaid: 1)
tipust alla analüüs, 2) alt üles analüüs.
6
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Üks tuntumatest analüüsialgoritmidest on Early algoritm.


• tipust alla meetod alustab lähtesümbolist S ja püüab produktsioonide rakendamise teel
analüüsitavat lauset genereerida. Kui see õnnestub, siis on ühtlasi leitud ka lause süntaktiline
struktuur.
• alt üles meetod lähtub analüüsitava lause sõnadest ja rakendab produktsioone ümberpööratud kujul
- kui reduktsioone (s.t. otsides analüüsitavas lauses produktsioonide paremaid pooli ja asendades
neid produktsioonide vasakute pooltega), püüdes "taandada" analüüsitava lause lähtesümboliks S.
Tipust alla analüüs
Sisend: lause, väljund - süntaktiline struktuur.
Lihtne tipust alla analüsaator kasutab sümbolite nimestikku - siiani rakendatud operatsioonide resultaati
(pärast reegli S -> NP VP rakendamist on sümbolite nimestik (NP VP); seejärel reeglit NP -> ART N
rakendades saadakse sümbolite nimestikuks (ART N VP) jne.). Kui on genereeritud terminaalne
järjend, siis võrdleb seda analüüsitava lausega: ühtelangemise korral on analüüs tehtud.
Parem analüsaator võrdleb sisendit igal sammul. Eraldi reeglite asemel, mis näitavad iga sõna
süntaktilist kategooriat, kasutab leksikoni (cried: V; dogs: N, V; the: ART jne.). Analüsaatori seisund on
nüüd defineeritud kui paar: sümbolite nimestik + järjekorranumber, mis näitab jooksvat positsiooni
lauses: 1 The 2 dogs 3 cried 4 korral näiteks ((N VP) 2).

Et analüsaator leiaks lause süntaktilise struktuuri, peab ta süstemaatiliselt vaatama läbi kõik võimalikud
uued seisundid. Üks lihtne tehnika selleks on tagasipöördumine: selle asemel et genereerida
järjekordsest seisundist lähtudes üksainus uus seisund, genereeritakse kõik võimalikud. Üks neist
võetakse järgmiseks seisundiks, ülejäänud aga jäetakse meelde (nn. tagavaraseisundid). Kui jõutakse
ummikusse, võetakse järgmiseks seisundiks üks tagavaraseisunditest.
• jooksev seisund
• võimaluste nimestik - sisaldab seisundid, millest saab analüüsi jätkata
Tipust alla analüüsi algoritm
Lähteseisund ((S) 1), tagavaraseisundeid ei ole. Võimaluste nimestik koosneb ainult lähteseisundist.
1. Vali jooksev seisund, võttes selleks esimese seisundi võimaluste nimestikust, ja anna talle nimi C.
Kui võimaluste nimestik on tühi, siis ebaedukas lõpp (analüüs pole võimalik).
2. Kui C sisaldab tühja sümbolite nimestiku ja vaadeldav positsioon on lause lõpus, siis edukas lõpp.
3. Vastupidisel juhul genereeri järgmised võimalikud seisundid:
1. kui nimestiku C esimene sümbol on leksikaalne sümbol (N, V jms.) ja lause järgmine sõna võib
kuuluda sellesse leksikaalsesse klassi, siis moodusta uus seisund, kustutades esimese sümboli
nimestikust C ja muutes vaadeldavat positsiooni, ning lisa uus seisund võimaluste nimestikku;
2. vastupidisel juhul (kui C esimene sümbol on mitteterminaal) genereeri uued seisundid
grammatika iga sellise reegli jaoks, mille kohaselt saab ümber kirjutada selle mitteterminaali, ja
lisa kõik genereeritud seisundid võimaluste nimestikku.
4. Mine 1.
Alt üles analüüsil on põhioperatsiooniks (terminaalsete või mitteterminaalsete) sõnade järjendi
valimine ja kontroll, kas see on mõne produktsiooni paremaks pooleks. Kui on, siis asendatakse see
järjend produktsiooni vasaku poolega (s.o. reduktsioon).
Alt üles analüsaatori võib nagu tipust alla analüsaatorigi esitada otsinguprotsessina. Seisund koosneb
sümbolite nimestikust, lähteseisundiks on analüüsitav lause kui sõnade järjend. Järgmised seisundid
konstrueeritakse
• asendades sõna tema võimalike leksikaalsete kategooriatega (N, V jms.);
• asendades iga sümbolite järjendi, mis ühtib mingi produktsiooni parema poolega, selle
produktsiooni vasaku poolega (s.o. reduktsioon).

7
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

15. Süntaksianalüüs kui otsing


Süntaksianalüüsi võib käsitleda kui otsingut, mis on tuntud intellektitehnikas.
Otsinguprotseduur
Koosta võimaluste nimestik, mis koosneb algul ainult analüüsi lähteseisundist. Korda järgmisi samme,
kuni eduka või ebaeduka lõpuni:
1. Vali esimene seisund võimaluste nimestikust (ja eemalda ta nimestikust).
2. Genereeri kõikvõimalikud sellele seisundile järgnevad seisundid.
3. Lisa kõik genereeritud seisundid võimaluste nimestikku.
Süvitsiotsingul (depth-first) on võimaluste nimestikuks magasin (stack). S. t. otsingu 1. sammul
võetakse nimestikust esimene element ja 3. sammul paigutatakse iga uus seisund nimestiku algusesse
(last-in-first-out, LIFO). See on tagasipöörduv analüsaator (mis proovib ühtainsat derivatsiooni korraga
ja pöördub tagasi alternatiivse analüüsi juurde, kui eelmine analüüs jõuab ummikusse).
Laiutiotsingul (breadth-first) on võimaluste nimestikuks järjekord (queue). S. t. otsingu 3. sammul
lisatakse iga uus seisund nimestiku lõppu (first-in-first-out, FIFO). See on paralleelne analüsaator (mis
püüab leida kõiki võimalikke derivatsioone paralleelselt).
Paljudes siiani konstrueeritud analüsaatorites kasutatakse süvitsiotsingut, sest nii on tagavaraseisundite
arv minimaalne ja mäluvajadus väiksem.
16. Vahetu domineerimise – lineaarse eelnevuse (ID/LP) grammatika
17. Puuadjunktsioonigrammatika (tree adjoining grammar)
Erinevalt siiani vaadeldud grammatikatest ei genereeri puuühendamisgrammatika lauseid
sümbolistringide ümberkirjutamise teel, vaid alustab lõpliku hulga lähtepuudega, mida saab laiendada,
sisestades vastava(te)sse positsiooni(desse) ühe nn. abipuu lõplikust hulgast.
G=(I,A), kus I - lähtepuude lõplik hulk ja A - abipuude lõplik hulk. Lähtepuudeks on puud, mille
juureks on lähtesümbol ja kõik lehed on terminaalsed. Abipuude lehed on samuti terminaalsed, välja
arvatud üks mitteterminaal, mis ühtib juurega. G poolt genereeritud puude hulk saadakse suvalisest
lähtepuust, paigutades sellesse (võib-olla 0 korda) puid hulgast A. Keel L(G) - terminaalstringide hulk
G poolt genereeritud puudes.
Iga KVG jaoks on rangelt ekvivalentne puuühendamisgrammatika (mis genereerib täpselt samad
stringid samade puustruktuuridega). On aga puuühendamisgrammatikaid, mille jaoks ei leidu rangelt
ekvivalentset KVG-d.
Puuühendamisgrammatikatega genereeritavad keeled on nõrgalt ekvivalentsed piiratud klassi
indekseeritud keeltega (mis genereeritakse selliste IG-te (indekseeritud grammatikad) poolt, kus
reeglitel on piirang indeksjärjendite pärimise ja nendega manipuleerimise suhtes: reegli paremal poolel
võib olla ainult üks mitteterminaalne alluv). See piirang teeb nad vähe huvitavaks loomulike keelte
korral, kuna sidesõnade konstruktsioonid nõuavad mitme alluvaga indeksijärjendite pärimist.
18. Tunnuste struktuuri (tunnuste süsteemi) mõiste. Näited
Konstituent – sõnade rühm, mis funktsioneerib ühe üksusena ja asub mingis hierarhilises struktuuris.
Konstituendiks võib olla fraas lauses, aga ka lause tekstis.
Tunnuste struktuurid ja laiendatud grammatikad
Inglise keeles "a men" pole korrektne. Nõutav on ühildumine arvus.
Mitut liiki ühildumisi: subjekti-verbi, asesõnade sugu, tingimused fraasi pea ja tema komplementide
vormi vahel jne.

8
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Käsitlemaks selliseid fenomene, laiendatakse grammatikaformalismi, lubades konstituentidel omada


tunnuseid. Näiteks võime defineerida tunnuse number, mille väärtus on kas sing või plural, ja
kirjutada KVG (kontekstivaba grammatika) reegli
NP  ART N parajasti siis, kui (artikli arv) NUMBER1 ühildub (nimisõna arvuga) NUMBER2
See reegel on samaväärne kahe KVG reegliga:
NP-sing  ART-sing N-sing
NP-plural  ART-plural N-plural
Tunnuste struktuur – kujutus, mis seab tunnustele vastavusse väärtused.
Näiteks tunnuste struktuur konstituendi ART1 jaoks (kasutab tunnuseid CAT, ROOT ja NUMBER):
ART1: (CAT ART
ROOT a
NUMBER sing)
Lühemalt:
ART1: (ART ROOT a NUMBER sing)
Laiendatud grammatikas esitatakse reeglid tunnuste struktuuride terminites, nt.
(NP NUMBER ?n) -> (ART NUMBER ?n) (N NUMBER ?n)
See reegel ütleb, et konstituent NP võib sisaldada kaks alamkonstituenti, esimene on ART ja teine N,
ning tunnus NUMBER kõigis kolmes konstituendis on sama väärtusega.
Kui tunnus on kitsendatud selle nõudega, et tema väärtus ülemusel peab tingimata olema võrdne tema
väärtusega alluvatel, siis sellist tunnust nimetatakse peatunnuseks. Näiteks kõigis VP reeglites on
VFORM ja AGR väärtused verbifraasil VP ja verbil V samad.
19. Üldistatud tunnuste struktuuri mõiste. Graafiline esitus (näide)
20. Unifikatsioonigrammatika mõiste (sisu, reeglite kuju). Näide
Unifikatsioonigrammatika on süsteem, mis üldistab tunnuste struktuuri ja esitab grammatikat kui
kitsenduste hulka tunnuste struktuuride vahel.
Unifikatsioonigrammatika võtmemõiste on laiendamise suhe kahe tunnuste struktuuri vahel: tunnuste
struktuur F1 laiendab tunnuste struktuuri F2 (ehk: F1 on spetsiifilisem kui F2), kui F1 iga tunnuse
väärtus on esindatud struktuuris F2.
Näiteks tunnuste struktuur
F1 = (CAT V
ROOT cry)
laiendab tunnuste struktuuri F2 = (CAT V), sest struktuuris F2 on CAT väärtus V (nagu vaja) ja tunnus
ROOT on piiramata.
21. Lause analüüs/genereerimine unifikatsioonigrammatikas
22. Keel ja keerukus
Igas loomulius keeles on lauseid, mis oma keerukuse tõttu on raskesti mõistetavad.
Selliste lausete uurimine on oluline valdkond keeletöötluses. Keerukusel on tähtis roll otsustamaks,
millist konkreetset formaalset mehhanismi millisel puhul rakendada. Formaalseid mehhanisme (nagu
lõplikud olekuautomaadid, Markovi mudelid, muundurid, fonoloogilise ümberkirjutuse reeglid ja
kontekstivabad grammatikad) võib iseloomustada nende genereeriva jõu seisukohalt või vastavalt
kirjeldatava nähtuse keerukusele.
Lisaks loomuliku keele ja formaalsete mudelite keerukuse uurimisele tegeleb keerukuse analüüs ka
küsimusega: mis on see, mis muudab üksikkonstruktsioonid ja -laused raskestimõistetavaks. Nagu

9
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

ülaltoodud näidetest selgub, on teatud pesistatud /üksteise sisse astetatud/ ehk keskme/sse/-sisestatud
laused inimestele rasked töödelda. Viimase probleemi lahendamisel on oluline osa inimese
grammatilise analüüsi (võime) mõistmisel.
• Grammatikaid saab iseloomustada GENERATIIVSE JÕU kaudu. Üks grammatika on teisest
generatiivselt võimsam ehk KEERUKAM, kui ta suudab määratleda keele, mida teine ei suuda.
CHOMSKY HIERARHIA on grammatikate generatiivsel jõul baseeruv hierarhia. See sisaldab
Turingi e 0-tüüpi, KONTEKSTISIDUSAID, KONTEKSTIVABU ja REGULAARSEID
grammatikaid.
• PUMPAMISLEMMAT võib kasutada tõestamaks, et antud keel EI OLE regulaarne. Inglise keel
ei ole regulaarne; just neid lauseid, mis temast teevad ebaregulaarse keele, on inimestel raske
grammatiliselt analüüsida. Hoolimata aastakümneid kestnud katsetest tõestada vastupidist,
tundub inglise keel siiski olevat kontekstivaba. Šveitsi saksa keele süntaks ja bambara keele
morfoloogia seevastu näivad olevat isegi mitte kontekstivabad, vaid nõuavad kontekstisidusat
grammatikat.
• KESKME/SSE/-SISESTATUD laused on inimestele rasked grammatiliselt analüüsida. Paljud
teooriad on üksmeelel, et see tuleneb inimanalüsaatori mälu piiratusest.
23. Statistiliste meetodite kasutamine mitmesuse lahendamisel
Igal analüüsietapil - morfoloogilisel, süntaktilisel, semantilisel - võib esineda mitmesus. Mitmesuse
lahendamine e ühestamine: sõnaliikide määramine teksti analüüsil: olgu antud lause
mitmetitõlgendatavate sõnadega, tuleb määrata iga sõna jaoks kõige tõenäosem leksikaalne kategooria.
Olgu lihtsuse mõttes sõnad ainult kas nimisõnad või verbid.
10 – flies (6 Verb, 4 Nimisõna), sõnadekorpus 12 730 sõna.
PROB(flies) ~10/12730 = 0,0008 ja
PROB(flies&N) ~ 4/12730 = 0,0003; PROB(flies&V) ~ 6/12730 = 0,0005 ning
PROB(V|flies) = PROB(V&flies)/PROB(flies) = 0,0005/0,0008=0,625.
Algoritm, mis alati otsustaks, et flies=V, oleks korrektne 62,5 % juhtudest. Selline meetod pole muidugi
hea, kuid on siiski parem kui algoritm, mis alati määraks flies=N. Saamaks paremat meetodit, peaksime
vaatama pikemat konteksti kui lause.
Tõenäosuste määramine. Hõredad andmed: 1 miljon sõna, kuid erinevaid on üksnes 49 000. Iga sõna
peaks esinema keskmiselt 20 korda - aga üle 40 000 sõnadest esinevad 5 korda või veelgi vähem.
Kui meil juba on olemas tõenäosuste hulk ja mingiks rakenduseks algoritm, siis võib hinnata, kui hea
on uus algoritm võrreldes vana algoritmiga. Üldine meetod selleks: jagada korpus 2 ossa: treeninghulk
ja testhulk. Tüüpiliselt sisaldab testhulk 10-20 % andmetest. Treeninghulka kasutatakse tõenäosuste
määramiseks ja algoritm käivitatakse seejärel testhulgal, et näha, kui hästi ta tuleb toime uute
andmetega.
Sõnaliikide märgendamine. Soovides automaatselt määrata tekstis iga sõna leksikaalne kategooria (N,
V jne.) tuleb valida tõlgendus, mis esineb treeninghulgal kõige sagedamini.
Üldine meetod: kasutada lause lokaalset konteksti. Näiteks flies on 60 % juhtudel V, aga kui eelnev
sõna on "the", siis on tõenäolisem, et ta on nimisõna.
Leksikaalsete tõenäosuste leidmine. Kui meil on kättesaadav suur korpus, kus laused on analüüsitud,
siis saame analüüsialgoritmides kasutada statistilisi meetodeid. See võimaldab valida mitmesuse korral
kõige tõenäolisema tõlgenduse.
Olgu tarvis leida leksikaalsete üksuste ja n-grammide tõenäosused. Kui palju andmeid on vaja, et
hinnangud oleksid korrektsed? Praktikas sõltub andmete hulk kasutatavate n-grammide hulgast.
Näiteks tüüpilises märgendite hulgas on 40 erinevat leksikaalset kategooriat. Et koguda statistikuid
unigrammil (lihtne sõnade hulk igas kategoorias), on vaja ainult 40 statistikut, iga kategooria jaoks üks.
Bigrammide jaoks on vaja 40 * 40 =1600 statistikut, iga paari jaoks üks; trigrammide jaoks 40 * 40 *

10
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

40 = 64 000, 4-grammide jaoks 2 560 000. Kui korpuses on 1 miljon sõna, siis 4-grammanalüüsi puhul
on enamus kategooriaid tühjad. 3-grammide jaoks on igas kategoorias keskmiselt 15 näidet.
Tõenäosuslik kontekstivaba grammatika. On välja töötatud algoritmid, mis püüavad esimesena
analüüsida kõige tõenäosemaid konstituente. See on nn. parim-enne analüüs.
Teine ala, kus statistilised meetodid on kasulikud, on tundmatute sõnade mõistatamine analüüsil.
24. Tõenäosuslik kontekstivaba grammatika

11
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

4. Arvutisemantika
25. Tähenduse esitamise keeled
Loomulike keelte semantika esitamiseks on vaja defineerida lihtsa semantikaga formaalne keel,
määrates kujutuse loomulikust keelest sellesse formaalsesse keelde. Selline formaalne keel peab olema
ühene ja lihtsate interpreteerimis- ja tuletusreeglitega.
Kui me koostame loomuliku keele automaattöötlussüsteemi, siis pole esmatähtis määrata, kas laused on
tõesed või väärad. Tavaliselt on hoopis vaja, et süsteem teeks midagi vastuseks sisendile – otsiks
andmeid, liigutaks roboti kätt jne. Üldiselt tähendab see sisendil oleva loomuliku keele (teksti/kõne)
tõlkimist andmebaasi otsisüsteemi, roboti käsusüsteemi vms. formaalsesse keelde.
Lauseloogika e lausearvutus (propositional logic) – lihtsaim sümboolne loogika. Tõeväärtused
{tõene, väär}. Võimaldab teha tuletusi.
Valemi (formula) definitsioon (induktiivne):
1. Väide (proposition) on valem.
2. Kui G on valem, siis ¬G on valem. ( G eitus)
3. Kui G ja H on valemid, siis ( G & H ), ( G ∨ H ) ja ( G → H ) on valemid. (vastavalt G ja H
konjunktsioon, disjunktsioon, implikatsioon)
4. Valemid on need ja ainult need, mida saab genereerida reeglitega 1-3.
Predikaatloogika e predikaatarvutus (predicate logic)
Predikaatloogikas esinevad:
• termid (term) ja predikaadid (predicate)
• loogilised operatsioonid ¬ , &, V, 
• kvantorid (quantifier): olemasolu ∃ (existential) ja üldisuse ∀ (universal) kvantor
Term – kas konstant või muutuja. Vabad (free, unbound) ja seotud (bound) muutujad.
Kui P on n -kohaline predikaat ja t1 ,..., t n on termid, siis P( t1 ,..., t n ) on aatom e atomaarne valem e
elementaarvalem (atom). Valemi definitsioon:
1. Aatom on valem.
2. Kui G ja H on valemid, siis ¬G , ( G & H ), ( G ∨ H ) ja ( G → H ) on valemid.
3. Kui F on valem ja x vaba muutuja selles, siis ( ∀x ) F ja ( ∃x ) F on valemid.
4. Valemid on need ja ainult need, mida saab genereerida reeglitega 1-3.
Mõisted, mida ei saa esitada predikaatloogikas:
• modaalsus, aeg ja arvamus (modality, tense, belief)
• presupositsioon (presupposition) - eeldus, et eksisteerib teatav objekt
• hägusus (fuzziness) – nt. vähe, palju, enamus
Semantiline võrk (semantic net) – semantilise struktuuri graafiline esitus
Semantiline võrk on graaf, milles esinevad sõlmed ja märgendatud kaared.
Näide: Tartu Ülikooli eesti keele tesaurus e eesti wordnet
Jaotatud (partitioned) semantiline võrk (Hendrix 1978). Lisatakse mõiste "ruum" (space).
26. Lause tähenduse esitamine 1. järku predikaatarvutuse valemina. Näited
Esimene samm – kehtestada vastavus sisendi süntaktiliste konstruktsioonide ja väljundi semantiliste
konstruktsioonide vahel. Intuitiivselt võiks oodata, et laused kujutuvad valemiteks ja nimisõnafraasid
termideks.

12
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

<S> ::= <subjekt> <verb> <objekt>* <laiend>*


<subjekt> ::= <NP> | <S>
<objekt> ::= <NP> | <S>
<NP> ::= [ <DET> ] <nimisõna> <laiend>*
<DET> ::= <artikkel> | <kvantifikaator>
<laiend> ::= <S>
Siin a* tähistab a esinemist 0 või enam korda, <nimisõna>, <verb>, <artikkel> ja <kvantifikaator> on
terminaalsed sümbolid.
Näited:
• Mari kohtas Peetrit.
kohtas(Mari, Peeter)
• Iga õpetaja armastab Peetrit
(∀ t ∈ õpetajad) armastab(t,Peeter)
(∀ t ∈ õpetajad) (ι u ∈{Peeter}) armastab(t,u)
• Iga õpetaja Tapal armastab Peetrit
(∀ t {v∈ õpetajad | asukoht(v, Tapa)}) armastab(t,Peeter)
NP tõlkimine: 3 juhtu
• nimisõna on koopia nimisõnast, mis on juba seotud muutujaga välises kontekstis (laiendis);
tõlkeks on see seotud muutuja
• nimisõna on nimi n (mis üheselt identifitseerib indiviidi); tõlkeks on (u - varem kasutamata
muutuja) (ι u ∈ {n})
• teiste NP-de korral toimub tõlkimine 2 staadiumis:
o valida veel kasutamata muutuja v ja siduda see nimisõnaga: {v ∈ B | R}
o valida veel kasutamata muutuja u, valida kvantor q ja nimisõna arv järgmiselt:
üldisuskvantor, kui sõnad on
each, every, all [the], the + plural noun;
olemasolukvantor, kui sõnad on
a, some, any;
definiitne kvantor, kui the + nimisõna ainsuses.
Kui determinaatorit ei esine, siis kasutada olemasolukvantorit.
Üldiselt: (q u ∈ G)
Kvantorite järjestus e. kvantori skoop, mõjupiirkond (scope). Kõik poisid loevad raamatut.
27. Probleemid lause semantilisel analüüsil
Semantilised kitsendused
1. Kitsenduste olemus
Riie on tumesinine.
*Pimedus on tumesinine.
Kaabuga mees
*Kaabuga tänav
• Tähendusega lauses ei tohi olla vastuolusid (*Ta jõi punast värvitut vedelikku.)
• Tähendusega tekst peab rahuldama ka teksti sidususe (koherentsuse) kitsendusi (*Mari
küpsetas kooke, aga Jüri küpsetas kooke.)
2. Allkeeled

13
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Ilmateadete, haiguslugude keel, tehniliste seadmete kasutusjuhendite keel, erialaartiklite keel jms.
3. Kitsenduste esitamine
Iga predikaadi iga argumendi jaoks tuleb määrata, missugused antud piirkonna objektid võivad esineda
vastava argumendina – predikaadi piirkond (domain)
4. Kitsenduste kontrollimine
• Kitsendusi võib kontrollida loogilisel vormil või
• kitsendused lülitada otse grammatikasse.
28. Probleemid seotud teksti analüüsil
Diskursus (discourse) - mitmelauseline seotud tekst: monoloog või dialoog.
Maailmateadmuse esitamine – Teksti tähendus on midagi enamat kui üksiklausete tähenduste summa.
Kui tähenduse esitamiseks kasutatav loogiline formalism on valitud, siis võib lihtsalt kodeerida kogu
maailmateadmuse (kõigi maailma kohta käivate teadmiste hulga) selles formalismis - saame nn
aksioomide hulga. Teksti analüüsimisel tuleb kõik üksiklaused tõlkida samasse formalismi (s.t. teha
eraldi iga lause analüüs, alustades morfoloogilisest ja lõpetades semantilisega). Seejärel võiks kasutada
näiteks mõnda üldotstarbelist automaatset teoreemide tõestajat, et teha tekstist loogilisi järeldusi
(muuhulgas näiteks välistada mõningaid semantilisi tõlgendusi, mis on maailmateadmusega vastuolus).
Probleemid:
• Kuidas koguda kõiki vajalikke teadmisi maailma kohta? (Näiteks proovige üles kirjutada kõik,
mida teate toiduainete ostmisest.)
• Kuidas teoreemitõestaja peab valima (kõikvõimalike hulgast) aksioomid, mida antud
konkreetsel juhul kasutada? Missuguseid järeldusi (kõikvõimalike hulgast) ta peaks tegema?
Mõned võimalused maailmateadmuse organiseerimiseks:
• Faktide grupeerimine teema järgi. Kui tekstis on mainitud teatavat teemat, siis aktiviseeritakse
selle teema kohta käivad aksioomid.
• Freimid (frame) - tüüpkirjeldused. Näiteks "kauplus", "toidukauplus", "toidukauplus Tartus Oa
t. 35". Freimide hierarhia. Slotid freimis.
• Skript – stereotüüpne situatsioon
• Plaan - tegevuste hulk, mis on seotud võrdsuse eeldustega ja põhjuslikkuse suhetega ning mis
täidesaatmise korral saavutab mingi eesmärgi
• Eesmärk – olek, mida agent soovib teha tõeseks, või tegevus, mida agent soovib teha.
Maailmateadmuse kasutamine: sidususe tuvastamine – Diskursuse mõistmiseks tuleb määrata,
kuidas iga lause on seotud teistega ja diskursuse kui tervikuga. Sidususe eeldus juhib interpreteerimise
protsessi.
Sobitamine ootustega – Eelnevad laused genereerivad ootuste hulga järgnevas lauses kirjeldatavate
sündmuste kohta.
Diskursuse struktuur. Diskursuse segment - diskursuse vahemik, milles laused käsitlevad üht ja sama
teemat. Segmendi sees kehtivad järgmised tingimused: lauseid iseloomustab fikseeritud aeg ja koht,
rääkijate ja kuulajate fikseeritud hulk ning taustaeelduste fikseeritud hulk.
29. Konversatsiooniagent dialoogis: partneri dialoogiaktide automaatne tuvastamine,
dialoogi juhtimine
Huvitav arvutuslingvistika jaoks:
• teoreetiliselt: kuidas määrata rääkija/kirjutaja eesmärke loomuliku keele väidete konstrueerimisel
ning nende väidete mõju teistele (kuulajatele/lugejatele)  pragmaatika;

14
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

• praktiliselt: paljud olemasolevad ja ehitatavad loomuliku keele süsteemid eeldavad inimese


suhtlemist arvutiga (KVS, robotid jne.). Sellise süsteemi efektiivsus on seda suurem, mida paremini
me mõistame ja modelleerime oma arvutiprogrammides neid tehnikaid, mida inimesed kasutavad
omavahelises suhtlemises.
Intellektitehnikas (Artificial Intelligence) kasutatakse spetsiaalset tehnikat – planeerimist,
analüüsimaks ratsionaalsete agentide tegevusi või panemaks arvutit tegutsema kui ratsionaalset agenti.
Ülesanne defineeritakse, andes ette:
• maailma (ainevaldkonna) lähteseisundi,
• eesmärgi, mida on vaja saavutada,
• tegevuste hulga, mida saab rakendada, kusjuures iga tegevuse puhul näidatakse tema mõju
maailmale (kuidas ta muudab jooksvat seisundit).
Plaan – tegevuste järjend lähteseisundist eesmärgi saavutamiseks.
Kõneaktide teooria töötasid välja keelefilosoofid (J. Austin 1962, J. Searle 1969, 1975). Kõneaktide
formaalse, plaanipõhise teooria töötasid välja C. R. Perrault, J. F. Allen, P. R. Cohen 1979 jt.
Mõningaid selle teooria planeerimismehhanisme rakendati dialoogsüsteemis, mis modelleeris raudtee
infoagendi tegevust. Formalism on keeruline: väljendatakse arvamusi, arvamusi arvamuste kohta jne.
Idee: rääkija tõenäoliste eesmärkide tuvastamine.
Lause ütlemine on teatav kommunikatiivne akt, mille mõjuks on kuulaja arvamuse muutmine.
Kas järgmine rong väljub kell 4? – Otsene plaanipõhine vastus Ei. Kooperatiivne vastus Ei, kell 5.
Süsteem peab koostama plaani, kus oleks side ilmutatud eesmärgist tegeliku eesmärgini.

15
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

5. Teksti genereerimine
30. Teksti genereerimine
Keele genereerimine on arvutilingvistikas kaua aega olnud teisejärguline.
Analüüsi ülesanne on tõlkida loomulikust keelest tähenduse esitamise keelde (näiteks
predikaatarvutus). Sünteesi ülesanne on pöördülesanne: tõlkimine tähenduse esitamise keelest
loomulikku keelde.
Teksti genereerimisel on põhiprobleemideks teksti planeerimine, lausete planeerimine ja plaani
teisendamine grammatiliselt korrektseks tekstiks.
Tasemed:
1. Paljudes loomuliku keele süsteemides kasutatakse lihtsaimat lähenemisviisi: süsteem väljastab
valmis lauseid (veateated, hoiatused).
2. Järgmine tase on šabloonide kasutamine, kui teadet tuleb produtseerida korduvalt, kuid väikeste
muudatustega.
3. Täiuslikumad süsteemid kasutavad tunnustel põhinevat lähenemist, kus väljund ehitatakse üles
lihtsatest tunnustest struktuuri moodustamise teel.
Lause süntees
1. Loogiliselt vormilt süvastruktuurile
Analüüsil 2 ülesannet: 1) sõnade kujutamine predikaatideks ja hulkade nimedeks ja 2) täpselt piiritletud
loogiliste kvantorite koostamine. Analüüsil võib kasutada algoritmi: üks funktsioon analüüsib
nimisõnafraase ja moodustab piiritletud kvantoreid, teine analüüsib lausestruktuure ja moodustab
predikaate kvantoritega seotud argumentidega. Samasuguse, kuid pööratud struktuuri võib üle võtta
sünteesiks.
Noomenifraaside moodustamine ja lausestruktuuride moodustamine (asesõnade kasutamine, aja,
tegumoe jms valik)
2. Süvastruktuurilt lausele
Teksti süntees
Teksti organisatsioon
• info lineaarse järjestuse määramine
• fraaside ühendamine lauseks ja lausete ühendamine paragrahvideks (lõikudeks)

16
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

6. Arvutilingvistika suunad
31. Ratsionalism ja empirism keele automaattöötluses
Ratsionalism: tunnetuse aluseks on mõtlemine (on olemas kaasasündinud ideed)
Empirism: teadmised kujunevad maailmast saadud kogemusest (laps alustab “puhta lehena”)
Ratsionalism keele automaattöötluses: keelestruktuurid on kaasa sündinud  reeglipõhine
keeletöötlus (s.t keelereeglid tuleb arvutile ette anda)
Empirism keele automaattöötluses: keelestruktuurid on kogemusest õpitavad  korpused ja
keeleandmete statistiline töötlus, masinõpe (s.t arvuti ise tuletab keelemudeli korpuse põhjal),
keeleandmete konnektsionistlik töötlus (nt tehisnärvivõrgud)
Reeglipõhiste keelemudelite eelised
• arusaadavad kirjeldava/genereeriva jõu mõttes ja praktilistes rakendustes
• suudavad efektiivsemalt kui empiirilised mudelid käsitleda kaugsõltuvusi (nt aluse ja öeldise
ühildumine)
• on “läbinähtavad”, s.t lingvistilised faktid on mudeli struktuuris ja koostisosades selgelt
väljendatud
• on pööratavad, s.t rakendatavad nii analüüsiks kui ka sünteesiks (genereerimiseks)
Reeglipõhiste keelemudelite puudused
• haprad praktilistes rakendustes, tundlikud sisendi väikestegi kõrvalekallete suhtes
• väljatöötamiseks vaja häid eksperte, kuna sellised mudelid ei suuda näidetest õppida
• muuta raske
Statistiliste keelemudelite eelised
• Käsitlevad efektiivselt tüüpilist keelekasutust, kui neid on treenitud korpustel
• Ületavad reeglipõhiseid mudeleid selliste lingvistiliste nähtuste modelleerimisel, mille kohta
pole selget arusaama, nt kõne
• Efektiivsus sõltub oluliselt treeningandmete mahust: mida rohkem andmeid, seda parem
Statistiliste keelemudelite puudused
• Täitmisomadused sõltuvad erinevate klasside arvust: mida rohkem klasse, seda raskem nii
treenimine kui juba treenitud süsteemi töö
• Treenimiseks vajalike korpuste kogumine ja märgendamine on töömahukas ja veaohtlik
Konnektsionistlike keelemudelite eelised
• “Iseorganiseeruvad”: suudavad treeningandmetest üldistusi teha ka siis, kui neid pole
“juhendatud”, mida õppida
• Veatolerantsed, sest teadmus on esitatud hajutatult
Konnektsionistlike keelemudelite puudused
• Kui süsteem on treenitud, siis on ta valmis ega õpi enam (kui õppis valesti, siis käitubki valesti)
• Süsteemi võib “üle treenida” – siis ta ei suuda enam üldistada ja on võimeline töötlema vaid
treeningandmeid
Koostöö: Valida meetod sõltuvalt rakendusest. Kasutada tüüpilise käsitlemiseks empiirilisi meetodeid,
aga ebatüüpilist käsitleda reeglitega. Hübriidsüsteemid.
Uus teooria: vaja paradigma vahetust algoritmides ja tehnoloogias – unifitseeritud teooriat, mis
ühendaks erinevad inimaju funktsioneerimise uurimise ja modelleerimisega seotud teadusharud
(keeleteadus, psühholoogia, tehisintellekt, informaatika jne)  kognitiivne informaatika.

17
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

18
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

7. Arvutilingvistika Eestis
32. Kõnetehnoloogia Eestis: kõnetuvastus, kõnesüntees, kõnelejatuvastus
Kõnetuvastus
Piiratud sõnavara:
• väike sõnastik (< 1000 sõna)
• suur sõnastik (< 10000 sõna)
• sõnakaupa hääldus
• spontaanne kõne (dialoogsüsteem)
Piiramata sõnavara (> 10000 sõna):
• sõnakaupa hääldus (nimede, aadresside tuvastus)
• sidus kõne (dikteerimissüsteem)
• spontaanne kõne
Kõnetuvastuse skeem
KÕNESIGNAAL

AKUSTILINE ANALÜÜS

SEGMENTEERIMINE JA HÄÄLIKU-
KLASSIFITSEERIMINE MUDELID

SÕNADE TUVASTUS SÕNASTIK

SÜNTAKTILINE JA KEELE MUDELID


SEMANTILINE ANALÜÜS (SÜNTAKTILINE
SEMANTILINE)

PRAGMAATILINE KOMMUNIKATSIOONI
ANALÜÜS REEGLID

TUVASTATUD LAUSE

Mustrituvastus – arvutuslikud meetodid, mis võimaldavad automaatselt minna üle ühelt esitusvormilt
teisele (füüsilised objektid, signaalid, helilaine, spekter, kepster, sümbolesitus, foneemid, sõnad, laused,
...). Lihtne ülesanne inimesele. Eriliselt raske realiseerida arvutis. Põhiprobleem on variatiivsus – sama
nähtuse erinevad realisatsioonid väljenduvad füüsiliselt mõõdetavates tunnustes erinevalt.
Eestikeelse kõnetuvastuse andmebaas (SpeechDat) (Foneetika ja kõnetehnoloogia labor,
TTÜ Küberneetika Instituut) – telefonisalvestuste andmebaasi loomine kõne- ja kõnelejatuvastuse
uuringuteks ning süsteemide treenimiseks-testimiseks. Kestus 24 kuud. Kõnelejaid min 1000 (500
meest, 500 naist). Tekstikorpus: isoleeritud numbrid, numbrijadad, naturaalarvud, rahaühikud ja
-summad, tähthaaval hääldatud sõnad ja nimed, kuupäevad, kellaajad, jah/ei küsimused, koha- ja
isikunimed, IT-terminid ja laused, foneetiliselt rikkad sõnad ja laused.

19
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Kõnesüntees
Prosoodiareeglid
Grafeem-foneem
teisendusreeglid
Prosoodia
juhtimine:
põhitoon, kestus,
Foneemid + amplituud Süntesaator,
Tekst Kõne-
prosoodiline kõnetrakti
signaal
info mudel
Spektri
genereerimine

Sõnastikud
Kõnesegmentide
etalonid
Kõnesünteesi meetodid
Artikulatoorne süntees – baseerub kõneproduktisooni füsioloogilisel mudelil ja kõnetraktis hääle
tekkimise füüsikalisel kirjeldusel; modelleeritakse erinevate artikulatsiooniorganite kinemaatikat.
Pakub teoreetilist huvi kõneproduktsiooni uurimisel. Praktilisteks rakendusteks sobimatu.
Formantsüntees – baseerub kõnesignaali akustilis-foneetilisel kirjeldusel, kasutab allikas-filter
mudelit
Kompilatiivne süntees – baseerub naturaalkõnest väljalõigatud signaalilõikude (difoonide, trifoonide,
silpide, jm.) sobival ühendamisel.
Eesti keele tekst-kõne süntees: Eestikeelne kõnesüntesaator. Sisend: ortograafiline tekst. Väljund:
eestikeelne kõne.
Kõnesünteesi võimalikud rakendused: Eesti Mobiiltelefon kavandab teenust, milles kõnesünteesi
kasutatakse elektronposti ettelugemiseks mobiiltelefoni teel. Kõnesünteesi kasutajad ka puudega
inimesed.
33. Eesti keele arvutimorfoloogia
Eestis tegeleb arvutimorfoloogiaga Tartu ülikooli arvutilingvistika uurimisrühm, OÜ Filosoft ja Eesti
Keele Instituut.
Morfoloogiline analüsaator on programm, mis sõna vormist lähtudes määrab selle sõna struktuuri (nt.
tüvi, järelliide, lõpp), sõnaliigi ja käände või pöörde.
Eesti keele morfoloogilised analüsaatorid:
• ESTMORF (Filosoft), kasutab leksikoni, aluseks eesti keele spelleritele (MS Office jt)
• Reeglipõhine mudel (EKI), kasutab reegleid + erandite leksikoni
• Kahetasandiline mudel (TÜ, Heli Uibo), kasutab lõplikku muundurit
34. Eesti keele arvutisüntaks
Eesti keele süntaksianalüsaator (TÜ, Kaili Müürisep) põhineb kitsenduste grammatikal (Fred
Karlsson)

20
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Süntaktiliselt märgendatud eesti keele tekstikorpused:


• kitsenduste grammatika pindsüntaktiliselt (alus, öeldis, ...) märgendatud korpus - planeeritav
maht 2010. aastaks 500 tuhat sõna
• süvasüntaktiliselt (lisaks seosed lauseliikmete vahel) märgendatud korpus ehk eesti keele
puude pank – planeeritav maht 2010. aastaks 10 000 lauset
35. Eesti keele arvutisemantika
Tesaurus on liik mõistelist sõnaraamatut. See kujutab endast sõnakogu, kus sõnad (väljendid) on
organiseeritud mitte tähestikuliselt, vaid sisuseoseid (semantilisi seoseid) pidi. Arvutiversioonis
tähendab see seda, et tesaurus eksisteerib andmebaasina, kus sisaldub info nii märksõnade tähenduste
kui nendevaheliste seoste kohta.
Eesti üldkeele tesaurus (TEKsaurus) on alates 1998. aastast Tartu Ülikooli arvutilingvistika
uurimisrühma poolt koostatud tesaurus. Koos viidetega ingliskeelsele WordNetile moodustab see eesti
wordnet'i (EstWN) ja on üks kaheksast EuroWordNet-2 projekti tulemusena saadud ja ELRA kaudu
levitatavast wordnet-tüüpi tesaurusest. Eesti wordneti tegemisel on järgitud Princetoni WordNeti ja
EuroWordNeti põhimõtteid.
TEKsauruse elementaarosake on sünonüümirida e sünohulk (ingl. synonym set, synset), mille
moodustavad ühte mõistet (concept, meaning) väljendavad sünonüümsed (sama tähendusega) sõnad ja
sõnaühendid. Termin sünohulk on loodud sellepärast, et erinevalt sünonüümisõnastiku sünonüümireast
võib sünohulk olla ka üheliikmeline. Kui sünonüümisõnastiku eesmärgiks on kõigi võimalike keeles
leiduvate sünonüümide esitamine, siis TEKsauruse eesmärgiks on mõistete esitamine, ka siis, kui selle
väljendamiseks keeles leidub ainult üks leksikaalne üksus.
Eesti üldkeele tesaurus sisaldab hetkel ca 11 000 sünohulka. Sünohulgad koosnevad põhiliselt
nimisõnadest (66%) ja tegusõnadest (27%), kuid vähesel hulgal esineb ka omadussõnu ja pärisnimesid.
Paljude, aga mitte kõigi sünohulkade juurde kuulub(vad) sõnatähenduse seletus(ed), samuti on enamus
sünohulki varustatud EuroWordNeti keeltevaheliste indeksiga, milleks on Princetoni WordNet ver. 1.5
(ingliskeelsed) sõnatähendused.
Rakenduse näide: sõnatähenduste ühestamine tekstis.
36. Eesti kirjakeele korpused
Eesti kirjakeele korpusi haldab Tartu Ülikooli arvutilingvistika uurimisrühm.
Eesti Kirjakeele Korpus 1890-1990 koosneb umbes paarist miljonist sõnast. Eraldi alamkorpused on
1990ndate, 1980ndate (baaskorpus), 1970ndate, 1960ndate, 1950ndate, 1930ndate, 1910ndate,
1900ndate ja 1890ndate korpus.
Eesti keele segakorpuse eesmärk on pakkuda arvutilingvistidele senisest suuremat eesti kirjakeele
korpust – kuni mitmesajast miljonist sõnast koosnevat korpust. Korpuses on ainult terviktekstid, mitte
tekstikatked, millest suures osas koosneb Eesti Kirjakeele Korpus 1890-1990. Kogutakse ainult
kirjalikku keelt. Hetkel on korpuses juba üle poole saja miljoni sõna. Segakorpuse alamosad on
Riigikogu stenogrammid, Eesti ja Euroopa seadused, «Postimees», «Eesti Ekspress», «Horisont»,
«Kroonika», «Eesti Arst».
Lisaks on avalikult saadaval järgmised korpused:
• Morfoloogiliselt ühestatud korpus
• Ühestatud sõnatähendustega korpus
• Süntaktiliselt ühestatud korpus
• Tasakaalus korpus (võrdses koguses ilukirjanduse, ajakirjanduse ja teaduse keele tekstid)
• Inglise-eesti ja eesti-inglise paralleelkorpus
• Vana kirjakeele korpus
21
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

37. Eesti suulise keele korpus ja andmebaasid


Eesti kõnekeele korpust haldab Tartu ülikooli suulise kõne uurimisrühm, mis tegutseb TÜ
üldkeeleteaduse õppetooli juures alates 1997. aastast. Rühm tegeleb eesti suulise kõne lindistamise,
litereerimise ja uurimisega. Üheks eesmärgiks on koostada suulise kõne korpus, mis oleks piisavalt
mahukas ning sisaldaks erinevat tüüpi suulisi tekste.
Suuliste tekstide kirjapanekul kasutatakse Jeffersoni transkriptsiooni. Samuti kuulub iga teksti juurde
taustakirjeldus, mis sisaldab tähtsamaid andmeid lindistussituatsiooni ja kõnelejate kohta.
Korpus koosneb hetkel umbes 800 000 sõnast.
Eestikeelse kõnetuvastuse andmebaasi (SpeechDat) haldab Tallinna Tehnikaülikooli foneetika ja
kõnetehnoloogia labor. Antud andmebaasi eesmärk on suuremahulise telefonisalvestuste andmebaasi
loomine kõne- ja kõnelejatuvastuse uuringuteks ning süsteemide treenimiseks-testimiseks. Projekti
kestus 24 kuud. Kõnelejaid min 1000 (500 meest, 500 naist).
38. Eesti keele arendamise strateegia (2004-2010) põhiseisukohad
• eesti keel on Eesti ainus riigikeel,
• eesti keel on Eesti identiteedi kandja,
• eesti keel on stabiilse keelekeskkonna kujundaja Eestis.

22
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Viited
• Eesti keele arendamise strateegia 2004-2010, http://www.eki.ee/keelenoukogu/
• Eesti Keeletehnoloogia Sihtprogramm, http://www.eki.ee/keeletehnoloogia/
• OÜ Filosoft, http://www.filosoft.ee/
• Keelevara, http://www.keelevara.ee/
• Keeleveeb, http://keeleveeb.edu.ee/
• Tallinna Tehnikaülikooli Foneetika ja Kõnetehnoloogia Labor, http://www.phon.ioc.ee/
• Tartu Ülikooli aine sissejuhatus arvutilingvistikasse, http://www.cs.ut.ee/~koit/SAL/
• Tartu Ülikooli Arvutilingvistika uurimisrühm, http://www.cl.ut.ee/

23