VI - Obrada Prirodnog Jezika

Univerzitet u Niu
Elektronski fakultet u Niu
Obrada prirodnog jezika

(Natural language processing)
Uvod
Obrada prirodnog jezika (Natural language processing) je oblast vetake inteligencije i lingvistike i bavi
se prouavanjem generisanja i razumevanja prirodnog ljudskog jezika. Predstavlja metod za interakciju
izmeu oveka i raunara. Sistemi za generisanje prirodnog jezika pretvaraju informacije iz raunarske
baze podataka u ljudski jezik, a sistemi za razumevanje prirodnog jezika pretvaraju primere ljudskog
jezika u jezik kojim raunarski programi lake manipuliu. ( npr. interfejs za sistem baza podataka
prevodi ulaz od strane korisnika u formalni upit u baze i zatim sistem nastavlja obradu bez dalje
potrebe za tehnikama obrade prirodnog jezika.)
Obrada prirodnog jezika podrazumeva da se pri procesiranju informacija koncentrie na programe koji
osposobljavaju raunar za razumevanje pisane i verbalne informacije, davanje odgovara na odreena
pitanja ili preraspodeli podataka korisnicima zainteresovanim za odreene delove tih informacija. U tim
programima je najbitniji kapacitet sistema za stvaranje gramatiki korektnih reenica i uspostavljanje
veze izmeu rei i ideja. Problem strukturne logike jezika (sintakse), mogude reiti programiranjem
odgovarajudih algoritama, a problem znaenja (semantike) je reiv primenom vetake inteligencije.
Sistem mora da komunicira sa ovekom i drugim inteligentnim sistemima na prijateljski nain - zato
treba da upotrebljava prirodni jezik i govor. Takva komunikacija podrazumeva baratanje i
dvosmislenostima i gramatiki neispravnim reenicama, tolerisanje greaka i nejasnoda u komunikaciji
Problemi obrade prirodnog jezika podrazumevaju najede veoma sloen postupak kojeg ine pre svega:
leksika analiza (segmentacija govora ili teksta, gde se najpre odreuje poetak i kraj rei i reenica, kao i
lekseme, ili tokeni: brojevi, interpunkcija, rei itd.), sintaksna analiza (struktura rei, reenica i teksta), i
na kraju semantika analiza (ili ak analiza pragmatike - nain izgovora i naglasak nad odreenom rei
menja sutinsko znaenje reenice). Parseri, programi koji objedinjuju ceo ovaj postupak moraju da
obuhvate sva pravila i osobine nekog prirodnog jezika, jezike nejasnode i mnoge druge problem i
primenjuju analize na top-down nain. Cilj ovih analiza su strukture i pravila koje odgovaraju tipovima
jezika prema osobinama produkcionih pravila (egularnim, kontekstno-slobodnim, kontekstno osetljivim i
rekurzivno nabrojivim). Jeziki modeli i odgovarajudi algoritmi zbog toga u mnogim sluajevima nisu bili
dovoljno praktino efikasni zbog velike sloenosti takvog modela prirodnog jezika i cene reenja.
Posebno bitan deo u obradi prirodnog jezika je dvosmislenost samog jezika i ona je sveprisutna, i u
prepoznavanju govora (youth in Asia vs. euthanasia), sintaksnoj analizi (I ate spaghetti with
chopsticks vs. I ate spaghetti with meatballs.), semantikoj analizi (I put the plant in the window vs.
Ford put the plant in Mexico), pragmatikoj analizi. Dvosmislenost je primarna razlika izmeu
prirodnih i raunarskih jezika. Formalni programski jezici su dizajnirani da budu nedvosmisleni, odnosno
definisani su gramatikom koja jedinstveno ralanjuje svaku reenicu na datom jeziku. Programski jezici
su takoe dizajnirani za efikasno (deterministiko) parsiranje, odnosno oni su deterministiki
bezkontekstni jezici. (DCLFs). Reenica u DCFL moe se analizirati u O(n) vremenu gde je n duina stringa.
Sintaksa, semantika, pragmatika

Sintaksa se odnosi na pravilan redosled rei i njihov uticaj na znaenje (The dog bit the boy./The boy bit
the dog./Bit boy dog the the.) Semantika se odnosi na doslovno znaenje rei, fraza i reenica. (plant
kao biljka, plant kao elektrana itd.) Pragmatika se odnosi na ukupni komuniktivni i drutveni kontekst i
njegov uticaj na interpretaciju. Obrada teksta prirodnog jezika (engleskog u ovom radu) ukljuuje mnoge
razliite sintaksike, semantike i pragmatine zadatke pored drugih problema.
Sintaksni zadaci:
Word segmentation - parsiranje niza karaktera (grafema) u niz rei (primeri iz engleskog URL:
jumptheshark.com jump the shark .com)
Morphological Analysis - morfologija je polje lingvistike koji prouava unutranju strukturu rei,
morfema je najmanja jezika jedinica koja ima semantiko znaenje, a morfoloka analiza ima zadatak da
segmentira rei u morfeme. (carried carry + ed, Googlers (Google + er) + s)
Part Of Speech (POS) Tagging oznaavati svaku re u reenici sa delom govora, korisno za kasniju
sintaksnu i smislenu analizu. (I(Pro) ate(V) the(Det) spaghetti(N) with(Prep) meatballs(N)).
Phrase Chunking pronadi sve nerekurzivne fraze imenica (NP-noun phrase) i fraze glagola (VP-verb
phrase) u reenici ([NP I] [VP ate] [NP the spaghetti] [PP with] [NP meatballs].)
Sintaksno parsiranje odrediti korektno stablo sintaksnog parsiranja reenice.
Semantiki zadaci:
Word Sense Disambiguation (WSD) - rei u prirodnom jeziku obino imaju prilian broj razliitih mogudih
znaenja i za mnoge zadatke (odgovaranje na pitanja, prevoenje), mora se odrediti pravilan smisao
svake dvosmislene rei u reenici. (Ellen has a strong interest in computational linguistics./Ellen pays a
large amount of interest on her credit card.)
Semantic Role Labeling (SRL) poznato kao i plitko semantiko ralanjivanje, je zadatak u obradi
prirodnih jezika koja se sastoji od otkrivanja semantikih argumenata koji su u vezi sa predikatima ili
glagolima reenice i njihove klasifikacije u njihovim specifinim ulogama. Na primer, " Mary sold the
book to John ", zadatak bi bio da se prepoznaju glagol "sold" kao predikat, "Mary", kao prodavac (agent),
"book" kao roba (theme), i "John" kao primaoc. Ovo je vaan korak ka stvaranju smislenog znaenja
reenice.
Semantic Parsing semantiki parser mapira reenice prirodnog jezika u kompletnu, detaljnu
semantiku reprezentaciju (logiku formu) i za mnoge aplikacije eljeni izlaz je odmah izvriv od strane
drugog programa. (primer, mapiranje upita baze podataka na engleskom u jezik Prolog - How many
cities are there in the US? answer(A, count(B, (city(B), loc(B, C), const(C, countryid(USA))), A))
Textual Entailment - utvrditi da li jedna reenica prirodnog jezika podrazumeva jo neku pored obinog
tumaenja reenice. (tekst: Since its formation in 1948, Isreal fought many wars with many countries;
hipoteza: Israel was established in 1948.; rezultat: true)
Pragmatiki zadaci:
Anaphora Resolution/Co-Reference problem reavanja na ta se odreene fraze, imenice, zamenice
odnose u reenici (John helped Mary. He was very kind. John i he se odnose na istu stvar, u ovom
sluaju osobu)
Ellipsis Resolution - najede rei i fraze su izostavljene iz reenica kada se mogu izvesti iz
konteksta.(Mary sleeps, and John does, too.)
Ostali zadaci:
Information Extraction (IE) nadi i razumeti odreene bitne delove teksta, prikupiti informacije od tih
mnogih delova teksta, stvoriti strukturnu reprezentaciju relevantnih informacija odn. identifikovati fraze
koje se odnose na razliite tipove entiteta i relacija u tekstu i cilj je da se organizuju informacije tako da
su korisne ljudima. (Michael Dell is the CEO of Dell Computer Corporation and lives in Austin Texas.;
prvo se izdvajaju ljudi, organizacije, mesta itd. u tekstu: Michael Dell people, Dell Computer
Corporation organisation, Austin Texas place; nakon toga izdvajaju se i relacije izmeu datih entiteta)
Question Answering - direktno odgovaranje na pitanja prirodnog jezika na osnovu podataka
prezentovanih u korpusu tekstualnog dokumenata (npr. Internetu) (Who was president when Barack
Obama was born? John F. Kennedy; How many presidents have there been since Barack Obama was
born? 9.)
Text Summarization napraviti kratak rezime dugakog dokumenta ili lanka.
Machine Translation (MT) prevoenje reenice iz jednog prirodnog jezika u drugi. (Hasta la vista, beb
Until we see each other again, baby)
Razumevanje prirodnog jezika se neki put naziva problemom celokupne vetake inteligencije, zato to
izgleda da prepoznavanje prirodnog jezika zahteva iroko znanje o spoljanjem svetu i sposobnost da se
njime manipulie. Bududnost obrade prirodnog jezika je dakle povezana sa napretkom vetake
inteligencije uopte.
Literatura:
http://sr.wikipedia.org/wiki/Obrada_prirodnih_jezika
http://2008.telfor.rs/files/radovi/10_18.pdf
http://users.hemo.net/shoom/tag.pdf
http://www.cs.utexas.edu/~mooney/cs388/

VI - Obrada Prirodnog Jezika

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

VI - Obrada Prirodnog Jezika

Uploaded by

Copyright:

Available Formats

Univerzitet u Niu

Elektronski fakultet u Niu

Obrada prirodnog jezika

Sintaksa, semantika, pragmatika

You might also like