You are on page 1of 9

Filozofski fakultet

Sveučilišta u Zagrebu

Odsjek za lingvistiku

Ak. g. 2016./2017.

Seminar iz kolegija Prepoznavanje obavijesti u tekstu

Studentica: Iris Pogleš

Godina studija: 3.

Studijske grupe: LIN/FIL

e-mail: ipogles@ffzg.hr
 Uvod

 Intex

 Nazivi

 Opis izrađenih gramatika

 Evaluacija rezultata

 Greške u prepoznavanju

 Zaključak
Uvod

Ovaj seminar bavit će se prezentacijom izrađenih gramatika kategorija naziva koje su stvorene u
računalnom programu Intex i njihovim rezultatima. Nakon izrade gramatika, iste smo testirali te
prikupili tekstove s interneta koji su nam bili nužni za evaluaciju sustava. Napravili smo to na
način da smo od svih tih tekstova koji su bili srodni predmetu našeg istraživanja, odnosno
odabranoj tematici naših kategorija naziva, stvorili mali korpus koji nam je poslužio za ispit
točnosti stvorenih gramatika. U ovom seminaru opisat ću izrađene gramatike, evaluaciju
rezultata te također spomenuti i greške do kojih može doći u prepoznavanju. Za početak, objasnit
ću što je zapravo Intex i definirati nazive.

Intex

Intex je lingvističko razvojno okružje koje omogućuje izradu velikih formaliziranih opisa
prirodnih jezika i njihovu primjenu na velike tekstove u realnom vremenu. On uključuje alate za
stvaranje i održavanje leksičkih resursa velikog opsega, kao i morfološke i sintaktičke gramatike.
Rječnici i gramatike primjenjuju se na tekstove kako bi pronašli morfološke, leksičke i
sintaktičke obrasce, uklonili nejasnoće i označili jednostavne i složene riječi. Intex se koristi u
više od 80 laboratorija kao sustav za pronalaženje informacija, analizu književnih tekstova i
kvantifikaciju varijacija jezika. Pomoću njega možemo podučavati druge jezike kao i računalnu
lingvistiku studentima lingvistike. Nekoliko Intex modula dostupno je od 1992. godine, a postao
je potpuno uključen u grafičko sučelje 1996. (verzija 3.0). Posljednja verzija Intexa je 4.33.
Nazivi

Naziv, odnosno Named Entity definiran je na konferenciji MUC-7 te se koristi u metajezičnom


značenju. On obuhvaća imena, vremenske i brojčane izraze. Imena se dijele na izraze koji mogu
predstavljati osobe, organizacije i lokacije. Vremenske izraze predstavljaju datumi i vremena,
dok brojčane postotci i novčani izrazi. Glavno svojstvo naziva je svojstvo da odgovaraju na
pitanja tko?, što?, kada?, gdje? i koliko?. U nekim žanrovima pokrivaju čak jednu desetinu
cjelokupnog teksta, a gotovo i ne postoji tekst na nekom od prirodnih jezika koji ih ne sadrži.
Nazivi sačinjavaju velik dio otvorenog jezičnog popisa. Sudjeluju u konkretnoj realizaciji jezika,
te ravnopravno stoje s ostalim jedinicama.

Opis izrađenih gramatika

Zadatak koji je grupa A dobila bila je izrada gramatike koja će u korpusu pronaći imena
organizacija i lokacije. Nakon što sam napravila nekoliko gramatika na zadanu temu, sve sam ih
objedinila u jednu glavnu gramatiku. Na prikupljenim tekstovima koji su činili mali korpus,
testirala sam svoje gramatike. Sve sam tekstove pronalazila i bazirala na internetskoj stranici
jutarnji.hr. Prve dvije prikazane gramatike prepoznaju nazive raznih organizacija poput zavoda,
odsjeka, klinika, bolnica i slično.
Nadalje, još jedna napravljena gramatika prepoznaje lokacije, ali one u svojem nazivu sadrže
lekseme koji označavaju strane svijeta:
Sljedeća gramatika prikazuje lokacije kao što su nazivi mora, rijeka, otoka i poluotoka.

Posljednja gramatika prepoznaje dva specifična naziva, a to su iz Huma na Sutli i na rijeci Krki
kod Skradina.
Sve te gramatike objedinila sam u jednu, veliku gramatiku koja je prikazana na slici:

Evaluacija rezulata

Evaluacija sustava je standardizirana metodologija vrednovanja preuzeta iz područja


pronalaženja obavijesti. Sastoji se od preciznosti (P), odziva (R) i F-mjere. Također, bitan je i
parametar β koji odražava težinsku vrijednost između preciznosti i odziva. Budući da su mi obje
stavke bitne, β=1. Ručno sam izačunala te sastavnice na prikupljenom korpusu. Rezultate koje
sam dobila su sljedeći: P=0,6557377, R=0,7142857, F-mjera=0,6837606
Greške u prepoznavanju

Budući da gramatike nisu savršene, a pogotovo ne one koje se prvi put rade, razumljivo je da će
se potkrasti pokoja greška. Navest ću neke primjere grešaka dolje:

1. Riječ Duh nije prepoznata kao ime bolnice:

2. Ovdje pronalazimo dvije greške; sustav prepoznaje pridjev najnepristupačniji i glagolsku


imenicu putujući kao nazive otoka.

3. Prepoznajemo dvije greške, a to su:


a) Ime Bošković nije svrstano u naziv instituta
b) Ime Imperial nije svrstano u naziv hotela
Zaključak

Na temelju svega navedenog, možeme zaključiti da nije lako napraviti sustav sa stopostotnom
točnošću jer na to uvelike utječe sama priroda jezika. Intex kao program se pokazao veoma
učinkovitim, a moram priznati i zabavnim. Na početku nitko od nas nije zano što treba, ali kako
je vrijeme odmicalo ne samo da smo shvatili kako funkcionira, već smo taj program shvatili i
kao zabavu, a ne samo zadatak. Sve u svemu, vidiljivo je da se lingvistika i računalna znanost
sve više isprepliću i dolaze do mnogo zanimljivih zaključaka i otkrića što je jedna od sretnih
posljedica tehnološke ere.

You might also like