Professional Documents
Culture Documents
Sveučilišta u Zagrebu
Odsjek za lingvistiku
Ak. g. 2016./2017.
Godina studija: 3.
e-mail: ipogles@ffzg.hr
Uvod
Intex
Nazivi
Evaluacija rezultata
Greške u prepoznavanju
Zaključak
Uvod
Ovaj seminar bavit će se prezentacijom izrađenih gramatika kategorija naziva koje su stvorene u
računalnom programu Intex i njihovim rezultatima. Nakon izrade gramatika, iste smo testirali te
prikupili tekstove s interneta koji su nam bili nužni za evaluaciju sustava. Napravili smo to na
način da smo od svih tih tekstova koji su bili srodni predmetu našeg istraživanja, odnosno
odabranoj tematici naših kategorija naziva, stvorili mali korpus koji nam je poslužio za ispit
točnosti stvorenih gramatika. U ovom seminaru opisat ću izrađene gramatike, evaluaciju
rezultata te također spomenuti i greške do kojih može doći u prepoznavanju. Za početak, objasnit
ću što je zapravo Intex i definirati nazive.
Intex
Intex je lingvističko razvojno okružje koje omogućuje izradu velikih formaliziranih opisa
prirodnih jezika i njihovu primjenu na velike tekstove u realnom vremenu. On uključuje alate za
stvaranje i održavanje leksičkih resursa velikog opsega, kao i morfološke i sintaktičke gramatike.
Rječnici i gramatike primjenjuju se na tekstove kako bi pronašli morfološke, leksičke i
sintaktičke obrasce, uklonili nejasnoće i označili jednostavne i složene riječi. Intex se koristi u
više od 80 laboratorija kao sustav za pronalaženje informacija, analizu književnih tekstova i
kvantifikaciju varijacija jezika. Pomoću njega možemo podučavati druge jezike kao i računalnu
lingvistiku studentima lingvistike. Nekoliko Intex modula dostupno je od 1992. godine, a postao
je potpuno uključen u grafičko sučelje 1996. (verzija 3.0). Posljednja verzija Intexa je 4.33.
Nazivi
Zadatak koji je grupa A dobila bila je izrada gramatike koja će u korpusu pronaći imena
organizacija i lokacije. Nakon što sam napravila nekoliko gramatika na zadanu temu, sve sam ih
objedinila u jednu glavnu gramatiku. Na prikupljenim tekstovima koji su činili mali korpus,
testirala sam svoje gramatike. Sve sam tekstove pronalazila i bazirala na internetskoj stranici
jutarnji.hr. Prve dvije prikazane gramatike prepoznaju nazive raznih organizacija poput zavoda,
odsjeka, klinika, bolnica i slično.
Nadalje, još jedna napravljena gramatika prepoznaje lokacije, ali one u svojem nazivu sadrže
lekseme koji označavaju strane svijeta:
Sljedeća gramatika prikazuje lokacije kao što su nazivi mora, rijeka, otoka i poluotoka.
Posljednja gramatika prepoznaje dva specifična naziva, a to su iz Huma na Sutli i na rijeci Krki
kod Skradina.
Sve te gramatike objedinila sam u jednu, veliku gramatiku koja je prikazana na slici:
Evaluacija rezulata
Budući da gramatike nisu savršene, a pogotovo ne one koje se prvi put rade, razumljivo je da će
se potkrasti pokoja greška. Navest ću neke primjere grešaka dolje:
Na temelju svega navedenog, možeme zaključiti da nije lako napraviti sustav sa stopostotnom
točnošću jer na to uvelike utječe sama priroda jezika. Intex kao program se pokazao veoma
učinkovitim, a moram priznati i zabavnim. Na početku nitko od nas nije zano što treba, ali kako
je vrijeme odmicalo ne samo da smo shvatili kako funkcionira, već smo taj program shvatili i
kao zabavu, a ne samo zadatak. Sve u svemu, vidiljivo je da se lingvistika i računalna znanost
sve više isprepliću i dolaze do mnogo zanimljivih zaključaka i otkrića što je jedna od sretnih
posljedica tehnološke ere.