POOPJ Pretrazivanje Obavijesti I Obrada Prirodnog Jezika Ljubesic Skripta

Booleanovo prikupljanje
Informatičko prikupljanje je pronalaženje materijala(često dokumenta, tekst) nestrukturirane

forme koji zadovoljava informacijsku potrebu. Prikupljanje se često vrši nad ogromnom
količinom informacija i dokumenata.
Informacijska potreba je informacija koja je potrebna korisniku i o kojoj želi znati više. Upit
je suprotno to je postupak kojim korisnik želi u računalu s naredbom doći do odgovora kako
bi ispunio svoju informacijsku potrebu. Relevantnost je kada procjeni da dokumenti i ma
informacijsku vrijednost koja ispunjava njegovu informacijsku potrebu.
Podatke možemo dijeliti na strukturirane, nestrukturirane i polustrukturirane. Strukturirani

podatci su ono koji imaju jasno kategoriju i dobro određeno značenje, nestrukturirani su
suprotni i teško ih je kategorizirati, polustrukturirani često imaju razlikovni sadržaj pa ih
računalo teško klasificira.
Pregledavanje i filtriranje se odnosi na raspoređivanje informacija na one koje ćemo

pretraživati i na one koje nećemo pretraživati. Računalo ga treba vršiti u pretražnji
informacije. U pretražnji bitno je da sve nađene dokumente grupira i klasificira. Grupiranje je
raspoređivanje dokumenata u određene grupe s obzirom na sadržaj, klasifikacija slijedi nakon
toga i određuju koji skupinu dokumenata ide u koju klasu. Klasifikacija se na početku radi
ručno, ali kasnije računalo bi trebalo moći klasificirati dokumente po prijašnjim ručno
klasificiranim primjerima.
Tri načina na koje računalo pretražuje informacije su:

 Grepping- računalo skenira i nalazi riječi u tekstu. Može koristi regularne izraze.
Najjednostavniji način pretraživanja.
 Bolean ili logičko pretraživanje informacija- pretražujemo informacije pomoću upita
u obliku boleanovog izraza s terminima. Tj. Termine kombiniramo s operatorima
AND, OR i NOT.
 Ad hock(for this) pretraživanje-Čisto normalno pretraživanje po zahtjevu. Izbacuje
dokumente iz kolekcije koji procjenjuje relevantni za korisnikove potrebe. Bitna je
brzina pretraživanja, točnost pretrage i vrijeme povratka informacija.
Kada računalo nađe dokument indeksira ga (označi ga). Omogućava lakše pronalaženje
dokumenta.
Matrica pojmova i dokumenata gleda koje se riječi, termini ili dokumenti javljaju u nekim
tekstovima, skupinama dokumenta ili bilo kojoj većoj cjelini.
Bitno je da u radu s tekstom pazimo na samu pohranu i obradu teksta jer ako imamo previše
teksta to je zahtjevno za radnu memoriju. Zato se pokušava klasifikacijom odrediti nad kojim
dokumentima se pretražuje da ne bi bilo zahtjevno računalu uraditi s prevelikom količinom
teksta odjednom.
Invertni indeks je skup termina koji su povezani s dokumentima u kojima se nalaze. Prema
tim terminima nalazimo dokumente koje tražimo. Pozicijski indeks još sadrži dodatne
informacije o poziciji termina u dokumentima, pa može pomoći u ispisivanju konkordanci.
Četri točke pripreme dokument za indeksiranje:
 sakupi dokumente koji se trebaju indeksirati
 pretvori niz dokumenata u listu termina
 napravi listu čestih termina
 stvori invertni indeks koji se sastoji od riječi i oznaka
TF-IDF
TF označava koliko često se pojavljuje termin u dokumentu. U računanju TF-IDF vrijednosti
umjesto apsolutne vrijednost TF-a koristimo relativnu. Do relativne vrijednosti dolazimo kada
uzmemo pojavu jednog termina u dokumentu i podijelimo ju sa svim terminima u dokumentu
i to činimo za sve termine. Formula: tf=(br. termina/br. riječi u dokumentu) .
IDF je broj dokumenata koji sadrže neki termin. Ako termin se nalazi u mnogo dokumenta
ona je IDF vrijednost manja po formuli: log(br. dokumenata/br. dokumenata u kojem je
termin). Određuje specifičnost termina, ako se termin pojavljuje u malo dokumenta onda je
bitan i vrijednost IDF je veća.
TF-IDF je umnožak TF vrijednosti (lokalna vrijednost) i IDF vrijednosti (globalna

vrijednost). TF-IDF prikazuje koliko je specifičan (bitan) određeni termin za dokument.
Koristi se za rudarenje teksta i pronalaženje podataka. Može se uspješno koristiti za filtriranje
stop riječi (najfrekventnije riječi teksta su najčešće one najmanje bitne poput veznika) u
sažimanju i klasifikaciji teksta.
Vektorski prostorni model

Vektorski prostorni model je algebarski model koji predstavlja tekstove dokumenta kao
prostor u vektoru. Koristi se u prikupljanju informacija, filtriranju, indeksiranju i rangiranju
relevantnosti termina. Koriste se u tf-idf vrjednovanju. Nad Booleanovim modelom ima
prednosti jer ima linearnu algebru, vrijednost termina nije binarna, može se putem vektora
računati sličnost između dokumenta i upita putem kosinusa, može rangirati dokumente po
relevantnosti i omogućuje djelomično podudaranje dokumenata. Mane su mu jedino da dugi
dokumenti su loše predstavljeni jer imaju malo sličnih vrijednosti, ne gleda na semantičku
vrijednost(riječi koje imaju povezano ili isto značenje ,ali se drukčije pišu) i redoslijed pojave
termina u dokumentu je teško odrediti unutar vektora. Leksička baza podataka poput
WordNeta nam može pomoći u rješavanju nekih od ovih problema.
Bag of word je koliko puta se koje riječi pojavljuje u tekstu ili dokumentu bez nekog
redoslijeda. Dokumenti koji imaju isti bag of word su slični u sadržaju.
Matrica termina-dokumenta pokazuje koliko puta se termin pojavljuje u kolekciji

dokumenata. Imamo podjelu na stupce i redove. U stupcima su termini, a u redcima
dokumenti. Putem tablice bilježimo u kojim dokumentima su prisutni koji termini.
L2 norma određuje duljinu vektora koju koristimo za kosinus sličnosti. Pomoću L2 norme
vektori koji sadrže termine i dokumente postaju metričan prostor koji je računljiv.
Kosinus sličnosti
Za kosinus sličnosti prvo trebamo imati vektore koji ima TF relativnu vrijednost. Nakon toga
možemo izmjeriti sličnost između ta dva vektora sa kosinus funkcijom u koju ubacujemo kut
između ta dva vektora. Kosinus može biti između 0 i -1. Kosinus od kuta 0 je 1, od 180 (kada
su vektori skroz suprotni) je -1, a od 90 je točno 0. Kosinus sličnosti bi se jedno trebao
koristiti u pozitivnom prostoru gdje je rezultat između 0 i 1 jer pojam frekvencije (pojave
riječi) ne može biti negativan.
Kosinus sličnost nam može dati omjer koliko su slična dva dokumenta što se tiče teme.
Možemo još uspoređivati dokument s upitom (koji dokument je bliži upitu).
Klasifikacija teksta
Želimo imati stalan upit koji će dohvaćati i nove ažurirane informacije po potrebi. Takav upit
zovemo stojećim upitom jer se u određenom toku njegova funkcija izvršava nad kolekcijom
podataka gdje se novi dokumenti dodaju. Posao stojećega upita je da klasificira zadane
dokumente na one koji su nam potrebni i one koji nam nisu potrebni. (klasifikacija u dvije
klase) Klasifikacija uz pomoć standardnih upita se još zove routing(preusmjeravanje) ili
filtering(filtriranje). Većina današnjih Information retrival sustava koriste neku vrstu
klasifikacije.
Česti primjeri klasifikacije teksta su izbjegavanje spam i erotskih stranica zbog neprimjerenog
i neželjenog sadržaja :D, filtriranje i sortiranje e-mail poruka, vertikalne tražilice koje
ograničavaju pretražnju sadržaja samo na određenu temu upita. Postoji sentimentalna
detekcija gdje želimo naći neko pozitivno ili negativno mišljenje o nečem. (recimo recenzija
mobitela)
Ručna klasifikacija se vršu u knjižnicama gdje knjige stavljamo u određene klase(s obzirom
na vrstu, žanr, starost i itd.), ali njen problem je u radu s većom količinom dokumenata je
cijena cijelog procesa i oduzimanje vremena. Može se ručno odrediti računalu sve uvjete i
pravila pod kojima klasificira, ali za to potrebna je osoba koja ima veliko znanje o tome i
može računalo isprogramirati da vrši to(putem regularnih izraza najčešće). Treći način je da
računalo samo naučimo kako da klasificira tekst. "Statistical text classification" zahtjeva da
imamo skup dokumenata(training data) za svaku klasu. Taj skup dokumenata je ručno
označen (lejbelan- znači da je svakom dokumentu određena klasa). Želimo putem toga skupa
dokumenata naučiti računalo kako da klasificira dokumente zadajući mu algoritam(γ: X→C).
U tom algoritmu skup klasa se označava s C, a skup dokumenta s D(training set). Γ funkcija
lejbela dokumente i stvalja ih u klasu u koju pripadaju. Klase mogu biti hijerarhijski
raspoređene po raznim kategorijama što olakšava klasifikaciju.
Dok računalo izvršava algoritam mi ga nadgledamo kako vrši klasifikaciju testnih

dokumenata(test data, training set) prije nego mu zadamo da se bavi klasifikacijom nad
pravim dokumentima(onima koji nisu u trening data). Jedan od sustav za ovakvu vrstu
klasifikacije je Naive Bayes koji ima postotak pogreški 20%.
Cijela poanta automatske klasifikacije metodom učenja je da računalo samo zna klasificirati
članak koji se npr. pojavi sutra u novinama. Nažalost točnost te metode vrlo je lako postiči u
našem skupu dokumenata za trening(trening data), ali to ne znaći da će klasifikator raditi nad
novim dokumentima izvan svog skupa. Mi u trening dana stavljamo dokumente koje
smatramo da su slični i obuhvaćaju ono što želimo da nam program klasificira, pa je bitno da
ne fulamo i izboru dokumenata.
Naive Bayes metoda

Provjerava mogućnost pojave dokumenta u klasi. Koji dokument pripada u kojoj klasi?
P(tk|c) – mogućnost pojave termina tk u dokumentu klase c. Pomoću ove formule gledamo
koliko je bitan termin za samu klasu.
P(c) je procjenjena mogućnost dokumenta da se pojavi u klasi c. Ako termin dokumenta ne
daje jasan dokaz klasi da dokument pripada njoj onda taj dokument stavimo u klasu za koju
ima izračunatu najveću vjerojatnost.
Maximum posteriori klasa je naziv koji dajemo najvjerojatnijoj klasi za dokument u Naive
Bayes metodi.Pomoću trening setova (dokumenta koje smo mi izabrali za rad) odredimo
najbolju mogućnost probabilisnosti klase (tu probabilnost pišemo kao s Ρ naopakom
kvačicom umjesto običnog P). Ne želimo da nam vrijednost formule 1≤k≤nd padne zbog
množenja logaritma svake probabilnosti, pa zato svaki logaritam zbrajmo i dalje nam odredi
klasu s najvećom probabilnošću.
P s naopakom kvačicom (c) se računa tako da uzmemo broj dokumenata u klasi c i podijelimo
sa sveukupnim brojem dokumenata. Time dobijamo apriornu vrijednost.
Vrijednost termina u dokumentu računamo tako što uzmemo pojavu termina t u određenom
dokumentu klas i podjelimo sa svim ostalim terminima u klasi.
Kada imamo termin koji se nije pojavio u trening dana(našim dokumentima za vježbanje) koji
ima vjerojatnost 0, odmah čitav dokument dobije vjerojatnost 0 što želimo izbjeći. To
riješavamo tako što svaki termin koji klasificiramo povećamo za 1. Ovaj proces nazivamo
"Add one smoothing".
Precizonost i odziv
U informacijskom prikupljanju s binarnom klasifikacijom preciznost je dio prikupljenih
instanci koje su relevantne, a odziv je dio relevantnih instanci koje se prikupljene.(preciznost
gleda relvantne instance, odziv relevantnost samih instanci) Oboje se baziraju na
razumjevanju i mjerenu relevantnošću.
U primjeru gdje program traži psa u videozapisu i program identificira 7 psa u sceni gdje
imamo još 4 psa i 3 mačke. Tu je preciznost 4/7, a odziv 4/9. Dok pretraživać vrati 30 stranica
od kojih su 20 relevantne, a 40 drugih opcionalnih relevantnih stranica nije pokupio.
(preciznost je 20/30, a odziv 20/60 ).
U primjeru klasifikacije gdje imamo releventne i nerelevantne dokumente s obzirom na upitni

termin. Odziv u ovom slučaju je broj relevantnih dokumenata koji su prikupljeni s obzirom na
sve relevantne dokumente, a preciznost gleda broj relevantnih dokumenata prikupljenih s
obzirom na sve prikupljene dokumente.
U klasifikaciji preciznost klase je broj točnih pozitiva(količina predmeta koji su točno
lejbelani da pripadaju točnoj klasi) podjeljn sa sveukupnim brojem elemenata koji su lejbelani
da pripadaju točnoj klasi(Ali nisu nužno točni. Sastoje se od točnih i lažnih pozitiva). Odziv u
ovom kontekstu je broj točnih pozitiva podjeljen sa svim elementima koji bi trebali pripadati
točnom pozitivu(oni koji nisu ,ali trebali su biti lejbelani za točnu pozitivu).
Savršeni rezultat preciznosti je 1.0 što govori da je svako prikupljanje bilo relevantno (ali ne
govori jesu li sve relevantne informacije nam dane). Savršen rezultat odziva je 1.0 šta znaći da
su svi relevantni dokumenti prikupljeni(ali ne govori ništa o tome jeli ima netočnih
informacija ili krivo lejbelanih dokumenata u klasi).
Odnos preciznosti i odziva može biti inverzan. Dakle ima slučajeva gdje povećamo vrijednost
jednog i time smanjimo vrijednost druge vrijednosti. Te dvije vrijednosti se zato ne gledaju
odvojeno i trebaju se obije uzeti u obzir za vrijeme klasifikacije. F-mjera kombinira te dvije
vrijednosti u jednu mjeru.
Kada bi gledali na probabilnost preciznost gleda da su vračeni dokumenti točni, a odziv da su

prikupljeni svi točni dokumenti. Preciznost je prosječna vjerojatnost relevantnog prikupljanja.
Odziv je prosječna mogučnost cijelog prikupljanja.
Vrijednosti true positive(tp), true negative(tn), false positive(fp) i false negative(fn) korite se
za određivanje vrijednost preciznosti i odziva u radu s nekom klasom. Pozitiv i negativ
gledaju na klasifikatorova predviđanja(očekivanja osobe koja klasificira) i termini istinito i
lažno gledaju jeli predviđenje istinito. Recimo ako smo očekivali da u dokumentu klase sport
će se pojaviti riječ lopta i ona se pojavi dobojemo True positive, a da se nije pojavila bio bi
True negative. Da kažemo da se u istoj klasi ne pojavljuje Sanader i u pravu smo dobili bi
True negativ kao točan odgovor u slučaju da se ne pojavljuje, a Da se pojavljuje dobili bi
False negative.
Formule za ove vrijednosti pišemo ovako:
Odziv još ima naziv ”True positive rate” ili ”Sensitivity”, a preciznost ”Positive predictive
value”. Još možemo povezano mjeriti ”True negative rate” i ”Accuracy”(preciznost).
F-mjera
Mjera koja kombinira preciznost i odziv i usklađuje ih u jednu vrijednost.
Još je poznato kao F1 mjera zato što odaziv i preciznost su jednako odmjereni.
Ako mjerimo mjeru sa pozitivnim vrijednostima bete. mjeri uspješnost prikupljanja
sa u kojem korisnik pridodaje β onoliko puta koliko je važno za preciznosti i odaziv.
(bazirano na Van Rijsbergenovoj metodi efektivnosti)
F2 mjera mjeri odziv više od preciznosti. F0.5 mjera stavlja veći fokus na preciznost od odziva.
Najbolja vrijednost koju F1 rezultat može postići je 1, a najgori rezultat je 0.
Van Rijsbergenovoj metodi efektivnosti:
gdje je alpha .
se koristi za mnoge aplikacije u informacijskom prikupljanju.
G- mjera je geometriska mjesra preciznosti i odziva.

POOPJ Pretrazivanje Obavijesti I Obrada Prirodnog Jezika Ljubesic Skripta

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

POOPJ Pretrazivanje Obavijesti I Obrada Prirodnog Jezika Ljubesic Skripta

Uploaded by

Copyright:

Available Formats

Booleanovo prikupljanje

Informatičko prikupljanje je pronalaženje materijala(često dokumenta, tekst) nestrukturirane

Podatke možemo dijeliti na strukturirane, nestrukturirane i polustrukturirane. Strukturirani

Pregledavanje i filtriranje se odnosi na raspoređivanje informacija na one koje ćemo

Tri načina na koje računalo pretražuje informacije su:

TF-IDF je umnožak TF vrijednosti (lokalna vrijednost) i IDF vrijednosti (globalna

Vektorski prostorni model

Matrica termina-dokumenta pokazuje koliko puta se termin pojavljuje u kolekciji

Dok računalo izvršava algoritam mi ga nadgledamo kako vrši klasifikaciju testnih

Naive Bayes metoda

U primjeru klasifikacije gdje imamo releventne i nerelevantne dokumente s obzirom na upitni

Kada bi gledali na probabilnost preciznost gleda da su vračeni dokumenti točni, a odziv da su

Formule za ove vrijednosti pišemo ovako:

Najbolja vrijednost koju F1 rezultat može postići je 1, a najgori rezultat je 0.

Van Rijsbergenovoj metodi efektivnosti:

se koristi za mnoge aplikacije u informacijskom prikupljanju.

G- mjera je geometriska mjesra preciznosti i odziva.

You might also like