• Embed Doc
  • Readcast
  • Collections
  • CommentGo Back
Download
 
Tartu ÜlikoolMatemaatika-informaatika teaduskondArvutiteaduse instituut
Teksti töötluse alused
ReferaatKoostaja: Rein RaudjärvJuhendaja: Kadri MuischnekTartu 2006
 
2
Sisukord
Sissejuhatus................................................................................................................................31. Sisend.....................................................................................................................................32. Sõnad ja sõnavormid..............................................................................................................33. Tekst ja sõnavara....................................................................................................................44. Sagedusloend – esmane ilmumine.........................................................................................45. Sagedusloend – alfabeetiline..................................................................................................56. Sagedusloend – sageduse järjekorras.....................................................................................57. Sõna sageduse profiilid..........................................................................................................68. Konkordantsid........................................................................................................................69. Põhisõna kontekstis................................................................................................................710. Teksti analüüsi statistika......................................................................................................811. Valikuline info......................................................................................................................812. Kesktaseme kategooriad.......................................................................................................813. Uus lähenemine....................................................................................................................9Kasutatud kirjandus..................................................................................................................10Lisa 1........................................................................................................................................11
 
3
Sissejuhatus
Arvuti on lootusetult ja väiklaselt andmetele orienteeritud. Lingivisti jaoks ei leidu otseteidtema abstraktsioonide jaoks. Esimene samm kohanemisel on detailide tuupimisest loobumine.Üksikasjadele tähelepanu pööramine viib kiiresti ülearu lihtsustamisele ning tundub, et mõnedüldistused tuleks muuta üksikasjalikumaks. Andmete ja abstraktsioonide vaheline seos, midaarvuti paljastab, muutub üha suuremaks uurimisalaks.
1. Sisend
Uuritava teksti juures tuleb kõige pealt otsustada, kuidas antud teksti arvutis hoida. Võibtunduda, et teksti taasesitamine arvutis on väga lihtne, kuid praktikas ei salvestata arvutissekõiki teksti omadusi. Teksti salvestamine arvutisse toimub vastavalt ülesande vajadustest.Üldiseks töötluseks hoitakse teksti lihtsas vormis – tavaliselt ühe pika tähtede, tühikute jakirjavahemärkide jadana. Tähti, kirjavahemärke ja tühikuid kutsutakse karakteriteks(
characters
). Suurte ja väikeste tähtede eristamine säilib. Lehekülje- ja reanumbreid hoitakseainult viitamiseks. Ülejäänud küljenduse, paigutuse ja kirjatüüpide info jäetakse kõrvale.See on kõik, mida arvuti „teab” teksti kohta – pikk ebamääraste karakterite rida, mis pärineblehekülgedelt ja ridadelt.
2. Sõnad ja sõnavormid
On uuritud eraldi ka karakterite arvu, kuid enamasti piirdutakse sõna ühe mõiste – sõnavormi– uurimisega.
Sõnavorm
on üks katkematu tähtede jada (sidekriips ja ülakoma vajavad eralditähelepanu, aga siinkohal me detailidesse ei lasku).Sõnavorm on lähedane, aga mitte täpselt sama, argielus kasutatava sõna mõistega. Mitmederinevad sõnavormid võivad olla ühe sõna eksemplarid. Seega
 jooksma, joosta, jooksen, jooksed, jookseb, jookseme, jooksete, jooksis, joosti, jooksmine
moodustavad kümme erinevatsõnavormi, mis on kõik seotud sõnaga
 jooksma
. Tavaliselt ei eristata sõnavormidefineerimisel suuri ja väikseid tähti. Nii
KUJU 
,
Kuju
kui
kuju
on kõik ühe sõnavormieksemplarid. See tava rikub muidugi ära paljude erinevuste tähelepaneku, nagu
 poola
ja
Poola
, aga samas eemaldab paljud sõnavormid, mis algavad suure tähega ainult sellepärast, et
of 00

Leave a Comment

You must be to leave a comment.
Submit
Characters: ...
You must be to leave a comment.
Submit
Characters: ...