• Embed Doc
  • Readcast
  • Collections
  • CommentGo Back
Download
 
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)
SISSEJUHATUS ARVUTILINGVISTIKASSE
1. Sissejuhatus
1. Arvutuslingvistika mõiste
Arvutuslingvistika
on interdistsiplinaarne teadusala lingvistika ja arvutiteaduse vahepeal, milleeesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetoditeväljatöötamine ja arvutitel realiseerimine.
2. Arvutuslingvistika komponendid, nende ülesanded 
Arvutuslingvistika komponendid:
teoreetiline ja rakenduslik; analüüs ja genereerimine (süntees).
Teoreetilise arvutuslingvistika
ülesandeks on teooriate püstitamine ja kontrollimine inimese keelelistevõimete kohta.
Rakenduslik arvutuslingvistika
ülesandeks on tarkvara (arvutiprogrammide) koostamine keele (teksti ja kõne) automaattöötluseks.
3. Arvutuslingvistika arengulugu
I Masintõlge (MT)
[1950ndad]1949 Warren Weaver "Translation"1954 1. MT eksperiment Georgetowni ülikoolis USA-s: arvuti IBM tõlkis 200-sõnalise teksti venekeelest inglise keelde1966 ALPAC (Loomulike keelte automaattöötluse konsultatiivkomitee USA rahvusliku TA juures)aruanne: pessimism MT võimalikkuse suhtes
II N. Chomsky generatiivsed grammatikad
[1960ndad]1956 "Three models for the description of language"1957 "Syntactic structures"TransformatsioonigrammatikaRegulaarsed üritused: COLING alates 1965Organisatsioonid: ACL 1968
III Küsimus-vastussüsteemid
[1970ndad]1972: T. Winograd SHRDLU (modelleeris roboti kätt "kuubikute maailmas", suhtlus inglise keeles); W.Woods LUNAR (Kuu kivimiproovide identifitseerimine, suhtlus inglise keeles)Tihe seos tehisintellektiga!Ekspertsüsteemid DENDRAL 1965, MYCIN 1976Andmebaasid (liidesega loomulikus keeles); infootsisüsteemid
IV Unifikatsioonigrammatikad
[1980ndad]FUG (Functional Unification Grammar) M. Kay 1979GPSG (Generalized Phrase Structure Grammar) - G. Gazdar 1970ndate II pool; G. Gazdar & E. Klein& G. Pullum& I. Sag 1985LFG (Lexical Functional Grammar) - R. Kaplan & J. Bresnan 1982HPSG (Head driven Phrase Structure Grammar) <= GPSG, LFGC. Pollard 1984; C. Pollard & I. Sag 1987Unifikatsioonigrammatikates kasutatakse lingvistiliste teadmiste esitamiseks nn. tunnuste struktuure(sõna iseloomustatakse grammatiliste tunnuste komplektiga), millele rakendatakse unifitseerimist (2struktuuri asendatakse 3-nda, üldisema struktuuriga; sellest ka nimetus). Eesmärk: väike hulk (vägakeerulisi) reegleid.AL kui eriala hakati õpetama ülikoolides.
V Keeletehnoloogia (language technology)
[1990ndad]
-
meetodite ja vahendite kompleks keeletöötlemiseks tänapäeva elektrooniliste vahenditega.1
 
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)
Ka teoreetiline AL ei tule toime arvutiteta (keerulised formalismid).
4. Keeletehnoloogia mõiste
Keeletehnoloogia
on meetodite ja vahendite kompleks keele töötlemiseks tänapäeva elektroonilistevahenditega.
Keeletehnoloogia
on keelealaste teadmiste rakendamine arvutisüsteemide loomiseks, mis võimaldavadanalüüsida, tuvastada, mõista ja sünteesida inimkeelt kõigis tema vormides.
5. Keele analüüsi ja sünteesi (genereerimise) tasemed. Sisend ja väljund igal tasemel 
Keele analüüs/genereerimine
lause analüüs/genereerimineteksti (diskursuse ja dialoogi) analüüs/genereerimine
Lause analüüs/genereerimine
Fonoloogiline [heli
häälikute järjend]Morfoloogiline [häälikute järjend
sõnade järjend]Süntaktiline [sõnade järjend
sõnade rollid lauses]Semantiline [sõnade järjend koos rollidega
terviklik tähendus]2
 
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)
2. Arvutifonoloogia
13. Arvutifonoloogia põhiküsimused 
Kõnetuvastus
– põhiprobleemiks junktuur e üleminek ühest sõnast teiseks.Kõnetuvastaja sisendiks on häälelainete järjend. Nendest tehakse nn spektraalne esitus, nt tükeldataksesisend ja koostatakse iga sellise tüki tunnuste vektor. Saadud vektorite abil määratakse foneetilisedtõenäosused (nn vaatlustõenäosused). Seejärel toimub dekodeerimine (kasutades nt Viterbi algoritmivõi intellektitehnikast tuntud otsingualgoritmi A*). Väljundil saadakse sõnade järjend - tekst.Paljud pideva kõne tuvastamise süsteemid kasutavad erinevaid teadmisi, et muuta hüpoteeskonkreetseks sõnaks, mis konteksti sobib. Nii teeb ka inimene loomulikus suhtluses. Ainus vahe onselles, et inimene kasutab kõrgema tasandi teadmisi ainult siis, kui info on segane (nt pole hästikuulda), arvutisüsteemid kasutavad selliseid teadmisi kogu aeg:1.Foneemide jaoks tehakse kõnesignaali parameetriline analüüs, et püstitada hüpotees: testitaksesagedusi, amplituude, muutumist ajas ja nende sobivust konteksti.2.Lisatakse süntaktilised teadmised. Need reeglid pole nii spetsiifilised kui fonoloogilised: nt täitalünk lauses
The very old ... spoke softly
. Sellesse lausesse sobib süntaktiliselt palju erinevaidsõnu ja semantiline analüüs peab kindlaks tegema, et sobiv sõna tähistab inimest.
Kõnesüntees
- Suuri edusamme on kõnesünteesis tehtud tänu häälikuprosoodiale (süstemaatilisedmuutused kõne intensiivsuses, kõrguses ja kestuses).Kõige olulisem prosoodiline vahend on rõhk. Rõhulised vokaalid on veidi pikema kestusega ja veidikõrgemad kui rõhuta vokaalid. Teine oluline nähtus rõhu kõrval on kõrguse muutumine.
Arvuti kannab ette sõnu ja fraase väiksest sõnastikust. Sellisel puhul saab kasutada šabloone võifonoloogilist transkriptsiooni, mõlemal puhul on vaja digitaalne heli muuta tagasi analoogseks (ntelektroonilise ostsillaatori e võnkegeneraatori abil).
Rakendused, mis nõuavad tekst-kõne sünteesi: arvuti muudab teksti loomulikuks, arusaadavakskõneks. Süsteemi on lisatud ka piiramatu sõnastik, kust saab iga sõna jaoks šablooni võifonoloogilise transkriptsiooni. Seejärel ühendatakse sõnad lauseteks.Üks tekst-kõne-sünteesi meetod on nn konkatenatiivne süntees, kus lausung moodustatakse kuidifoonide (kahe hääliku järjend) konkatenatsioon, mida seejärel silutakse. Kindla keele difoonideleidmiseks on vaja salvestada suures mahus kõnenäiteid.3
of 00

Leave a Comment

You must be to leave a comment.
Submit
Characters: ...
You must be to leave a comment.
Submit
Characters: ...