Professional Documents
Culture Documents
VI - Obrada Prirodnog Jezika
VI - Obrada Prirodnog Jezika
Uvod
Obrada prirodnog jezika (Natural language processing) je oblast vetake inteligencije i lingvistike i bavi
se prouavanjem generisanja i razumevanja prirodnog ljudskog jezika. Predstavlja metod za interakciju
izmeu oveka i raunara. Sistemi za generisanje prirodnog jezika pretvaraju informacije iz raunarske
baze podataka u ljudski jezik, a sistemi za razumevanje prirodnog jezika pretvaraju primere ljudskog
jezika u jezik kojim raunarski programi lake manipuliu. ( npr. interfejs za sistem baza podataka
prevodi ulaz od strane korisnika u formalni upit u baze i zatim sistem nastavlja obradu bez dalje
potrebe za tehnikama obrade prirodnog jezika.)
Obrada prirodnog jezika podrazumeva da se pri procesiranju informacija koncentrie na programe koji
osposobljavaju raunar za razumevanje pisane i verbalne informacije, davanje odgovara na odreena
pitanja ili preraspodeli podataka korisnicima zainteresovanim za odreene delove tih informacija. U tim
programima je najbitniji kapacitet sistema za stvaranje gramatiki korektnih reenica i uspostavljanje
veze izmeu rei i ideja. Problem strukturne logike jezika (sintakse), mogude reiti programiranjem
odgovarajudih algoritama, a problem znaenja (semantike) je reiv primenom vetake inteligencije.
Sistem mora da komunicira sa ovekom i drugim inteligentnim sistemima na prijateljski nain - zato
treba da upotrebljava prirodni jezik i govor. Takva komunikacija podrazumeva baratanje i
dvosmislenostima i gramatiki neispravnim reenicama, tolerisanje greaka i nejasnoda u komunikaciji
Problemi obrade prirodnog jezika podrazumevaju najede veoma sloen postupak kojeg ine pre svega:
leksika analiza (segmentacija govora ili teksta, gde se najpre odreuje poetak i kraj rei i reenica, kao i
lekseme, ili tokeni: brojevi, interpunkcija, rei itd.), sintaksna analiza (struktura rei, reenica i teksta), i
na kraju semantika analiza (ili ak analiza pragmatike - nain izgovora i naglasak nad odreenom rei
menja sutinsko znaenje reenice). Parseri, programi koji objedinjuju ceo ovaj postupak moraju da
obuhvate sva pravila i osobine nekog prirodnog jezika, jezike nejasnode i mnoge druge problem i
primenjuju analize na top-down nain. Cilj ovih analiza su strukture i pravila koje odgovaraju tipovima
jezika prema osobinama produkcionih pravila (egularnim, kontekstno-slobodnim, kontekstno osetljivim i
rekurzivno nabrojivim). Jeziki modeli i odgovarajudi algoritmi zbog toga u mnogim sluajevima nisu bili
dovoljno praktino efikasni zbog velike sloenosti takvog modela prirodnog jezika i cene reenja.
Posebno bitan deo u obradi prirodnog jezika je dvosmislenost samog jezika i ona je sveprisutna, i u
prepoznavanju govora (youth in Asia vs. euthanasia), sintaksnoj analizi (I ate spaghetti with
chopsticks vs. I ate spaghetti with meatballs.), semantikoj analizi (I put the plant in the window vs.
Ford put the plant in Mexico), pragmatikoj analizi. Dvosmislenost je primarna razlika izmeu
prirodnih i raunarskih jezika. Formalni programski jezici su dizajnirani da budu nedvosmisleni, odnosno
definisani su gramatikom koja jedinstveno ralanjuje svaku reenicu na datom jeziku. Programski jezici
su takoe dizajnirani za efikasno (deterministiko) parsiranje, odnosno oni su deterministiki
bezkontekstni jezici. (DCLFs). Reenica u DCFL moe se analizirati u O(n) vremenu gde je n duina stringa.
Pragmatiki zadaci:
Anaphora Resolution/Co-Reference problem reavanja na ta se odreene fraze, imenice, zamenice
odnose u reenici (John helped Mary. He was very kind. John i he se odnose na istu stvar, u ovom
sluaju osobu)
Ellipsis Resolution - najede rei i fraze su izostavljene iz reenica kada se mogu izvesti iz
konteksta.(Mary sleeps, and John does, too.)
Ostali zadaci:
Information Extraction (IE) nadi i razumeti odreene bitne delove teksta, prikupiti informacije od tih
mnogih delova teksta, stvoriti strukturnu reprezentaciju relevantnih informacija odn. identifikovati fraze
koje se odnose na razliite tipove entiteta i relacija u tekstu i cilj je da se organizuju informacije tako da
su korisne ljudima. (Michael Dell is the CEO of Dell Computer Corporation and lives in Austin Texas.;
prvo se izdvajaju ljudi, organizacije, mesta itd. u tekstu: Michael Dell people, Dell Computer
Corporation organisation, Austin Texas place; nakon toga izdvajaju se i relacije izmeu datih entiteta)
Question Answering - direktno odgovaranje na pitanja prirodnog jezika na osnovu podataka
prezentovanih u korpusu tekstualnog dokumenata (npr. Internetu) (Who was president when Barack
Obama was born? John F. Kennedy; How many presidents have there been since Barack Obama was
born? 9.)
Text Summarization napraviti kratak rezime dugakog dokumenta ili lanka.
Machine Translation (MT) prevoenje reenice iz jednog prirodnog jezika u drugi. (Hasta la vista, beb
Until we see each other again, baby)
Razumevanje prirodnog jezika se neki put naziva problemom celokupne vetake inteligencije, zato to
izgleda da prepoznavanje prirodnog jezika zahteva iroko znanje o spoljanjem svetu i sposobnost da se
njime manipulie. Bududnost obrade prirodnog jezika je dakle povezana sa napretkom vetake
inteligencije uopte.
Literatura:
http://sr.wikipedia.org/wiki/Obrada_prirodnih_jezika
http://2008.telfor.rs/files/radovi/10_18.pdf
http://users.hemo.net/shoom/tag.pdf
http://www.cs.utexas.edu/~mooney/cs388/