Professional Documents
Culture Documents
Informacijska potreba je informacija koja je potrebna korisniku i o kojoj želi znati više. Upit
je suprotno to je postupak kojim korisnik želi u računalu s naredbom doći do odgovora kako
bi ispunio svoju informacijsku potrebu. Relevantnost je kada procjeni da dokumenti i ma
informacijsku vrijednost koja ispunjava njegovu informacijsku potrebu.
Kada računalo nađe dokument indeksira ga (označi ga). Omogućava lakše pronalaženje
dokumenta.
Matrica pojmova i dokumenata gleda koje se riječi, termini ili dokumenti javljaju u nekim
tekstovima, skupinama dokumenta ili bilo kojoj većoj cjelini.
Bitno je da u radu s tekstom pazimo na samu pohranu i obradu teksta jer ako imamo previše
teksta to je zahtjevno za radnu memoriju. Zato se pokušava klasifikacijom odrediti nad kojim
dokumentima se pretražuje da ne bi bilo zahtjevno računalu uraditi s prevelikom količinom
teksta odjednom.
Invertni indeks je skup termina koji su povezani s dokumentima u kojima se nalaze. Prema
tim terminima nalazimo dokumente koje tražimo. Pozicijski indeks još sadrži dodatne
informacije o poziciji termina u dokumentima, pa može pomoći u ispisivanju konkordanci.
Četri točke pripreme dokument za indeksiranje:
sakupi dokumente koji se trebaju indeksirati
pretvori niz dokumenata u listu termina
napravi listu čestih termina
stvori invertni indeks koji se sastoji od riječi i oznaka
TF-IDF
TF označava koliko često se pojavljuje termin u dokumentu. U računanju TF-IDF vrijednosti
umjesto apsolutne vrijednost TF-a koristimo relativnu. Do relativne vrijednosti dolazimo kada
uzmemo pojavu jednog termina u dokumentu i podijelimo ju sa svim terminima u dokumentu
i to činimo za sve termine. Formula: tf=(br. termina/br. riječi u dokumentu) .
IDF je broj dokumenata koji sadrže neki termin. Ako termin se nalazi u mnogo dokumenta
ona je IDF vrijednost manja po formuli: log(br. dokumenata/br. dokumenata u kojem je
termin). Određuje specifičnost termina, ako se termin pojavljuje u malo dokumenta onda je
bitan i vrijednost IDF je veća.
Bag of word je koliko puta se koje riječi pojavljuje u tekstu ili dokumentu bez nekog
redoslijeda. Dokumenti koji imaju isti bag of word su slični u sadržaju.
L2 norma određuje duljinu vektora koju koristimo za kosinus sličnosti. Pomoću L2 norme
vektori koji sadrže termine i dokumente postaju metričan prostor koji je računljiv.
Kosinus sličnosti
Za kosinus sličnosti prvo trebamo imati vektore koji ima TF relativnu vrijednost. Nakon toga
možemo izmjeriti sličnost između ta dva vektora sa kosinus funkcijom u koju ubacujemo kut
između ta dva vektora. Kosinus može biti između 0 i -1. Kosinus od kuta 0 je 1, od 180 (kada
su vektori skroz suprotni) je -1, a od 90 je točno 0. Kosinus sličnosti bi se jedno trebao
koristiti u pozitivnom prostoru gdje je rezultat između 0 i 1 jer pojam frekvencije (pojave
riječi) ne može biti negativan.
Kosinus sličnost nam može dati omjer koliko su slična dva dokumenta što se tiče teme.
Možemo još uspoređivati dokument s upitom (koji dokument je bliži upitu).
Klasifikacija teksta
Želimo imati stalan upit koji će dohvaćati i nove ažurirane informacije po potrebi. Takav upit
zovemo stojećim upitom jer se u određenom toku njegova funkcija izvršava nad kolekcijom
podataka gdje se novi dokumenti dodaju. Posao stojećega upita je da klasificira zadane
dokumente na one koji su nam potrebni i one koji nam nisu potrebni. (klasifikacija u dvije
klase) Klasifikacija uz pomoć standardnih upita se još zove routing(preusmjeravanje) ili
filtering(filtriranje). Većina današnjih Information retrival sustava koriste neku vrstu
klasifikacije.
Česti primjeri klasifikacije teksta su izbjegavanje spam i erotskih stranica zbog neprimjerenog
i neželjenog sadržaja :D, filtriranje i sortiranje e-mail poruka, vertikalne tražilice koje
ograničavaju pretražnju sadržaja samo na određenu temu upita. Postoji sentimentalna
detekcija gdje želimo naći neko pozitivno ili negativno mišljenje o nečem. (recimo recenzija
mobitela)
Ručna klasifikacija se vršu u knjižnicama gdje knjige stavljamo u određene klase(s obzirom
na vrstu, žanr, starost i itd.), ali njen problem je u radu s većom količinom dokumenata je
cijena cijelog procesa i oduzimanje vremena. Može se ručno odrediti računalu sve uvjete i
pravila pod kojima klasificira, ali za to potrebna je osoba koja ima veliko znanje o tome i
može računalo isprogramirati da vrši to(putem regularnih izraza najčešće). Treći način je da
računalo samo naučimo kako da klasificira tekst. "Statistical text classification" zahtjeva da
imamo skup dokumenata(training data) za svaku klasu. Taj skup dokumenata je ručno
označen (lejbelan- znači da je svakom dokumentu određena klasa). Želimo putem toga skupa
dokumenata naučiti računalo kako da klasificira dokumente zadajući mu algoritam(γ: X→C).
U tom algoritmu skup klasa se označava s C, a skup dokumenta s D(training set). Γ funkcija
lejbela dokumente i stvalja ih u klasu u koju pripadaju. Klase mogu biti hijerarhijski
raspoređene po raznim kategorijama što olakšava klasifikaciju.
Cijela poanta automatske klasifikacije metodom učenja je da računalo samo zna klasificirati
članak koji se npr. pojavi sutra u novinama. Nažalost točnost te metode vrlo je lako postiči u
našem skupu dokumenata za trening(trening data), ali to ne znaći da će klasifikator raditi nad
novim dokumentima izvan svog skupa. Mi u trening dana stavljamo dokumente koje
smatramo da su slični i obuhvaćaju ono što želimo da nam program klasificira, pa je bitno da
ne fulamo i izboru dokumenata.
Maximum posteriori klasa je naziv koji dajemo najvjerojatnijoj klasi za dokument u Naive
Bayes metodi.Pomoću trening setova (dokumenta koje smo mi izabrali za rad) odredimo
najbolju mogućnost probabilisnosti klase (tu probabilnost pišemo kao s Ρ naopakom
kvačicom umjesto običnog P). Ne želimo da nam vrijednost formule 1≤k≤nd padne zbog
množenja logaritma svake probabilnosti, pa zato svaki logaritam zbrajmo i dalje nam odredi
klasu s najvećom probabilnošću.
P s naopakom kvačicom (c) se računa tako da uzmemo broj dokumenata u klasi c i podijelimo
sa sveukupnim brojem dokumenata. Time dobijamo apriornu vrijednost.
Vrijednost termina u dokumentu računamo tako što uzmemo pojavu termina t u određenom
dokumentu klas i podjelimo sa svim ostalim terminima u klasi.
Kada imamo termin koji se nije pojavio u trening dana(našim dokumentima za vježbanje) koji
ima vjerojatnost 0, odmah čitav dokument dobije vjerojatnost 0 što želimo izbjeći. To
riješavamo tako što svaki termin koji klasificiramo povećamo za 1. Ovaj proces nazivamo
"Add one smoothing".
Precizonost i odziv
U informacijskom prikupljanju s binarnom klasifikacijom preciznost je dio prikupljenih
instanci koje su relevantne, a odziv je dio relevantnih instanci koje se prikupljene.(preciznost
gleda relvantne instance, odziv relevantnost samih instanci) Oboje se baziraju na
razumjevanju i mjerenu relevantnošću.
U primjeru gdje program traži psa u videozapisu i program identificira 7 psa u sceni gdje
imamo još 4 psa i 3 mačke. Tu je preciznost 4/7, a odziv 4/9. Dok pretraživać vrati 30 stranica
od kojih su 20 relevantne, a 40 drugih opcionalnih relevantnih stranica nije pokupio.
(preciznost je 20/30, a odziv 20/60 ).
Savršeni rezultat preciznosti je 1.0 što govori da je svako prikupljanje bilo relevantno (ali ne
govori jesu li sve relevantne informacije nam dane). Savršen rezultat odziva je 1.0 šta znaći da
su svi relevantni dokumenti prikupljeni(ali ne govori ništa o tome jeli ima netočnih
informacija ili krivo lejbelanih dokumenata u klasi).
Odnos preciznosti i odziva može biti inverzan. Dakle ima slučajeva gdje povećamo vrijednost
jednog i time smanjimo vrijednost druge vrijednosti. Te dvije vrijednosti se zato ne gledaju
odvojeno i trebaju se obije uzeti u obzir za vrijeme klasifikacije. F-mjera kombinira te dvije
vrijednosti u jednu mjeru.
Vrijednosti true positive(tp), true negative(tn), false positive(fp) i false negative(fn) korite se
za određivanje vrijednost preciznosti i odziva u radu s nekom klasom. Pozitiv i negativ
gledaju na klasifikatorova predviđanja(očekivanja osobe koja klasificira) i termini istinito i
lažno gledaju jeli predviđenje istinito. Recimo ako smo očekivali da u dokumentu klase sport
će se pojaviti riječ lopta i ona se pojavi dobojemo True positive, a da se nije pojavila bio bi
True negative. Da kažemo da se u istoj klasi ne pojavljuje Sanader i u pravu smo dobili bi
True negativ kao točan odgovor u slučaju da se ne pojavljuje, a Da se pojavljuje dobili bi
False negative.
Odziv još ima naziv ”True positive rate” ili ”Sensitivity”, a preciznost ”Positive predictive
value”. Još možemo povezano mjeriti ”True negative rate” i ”Accuracy”(preciznost).
F-mjera
Mjera koja kombinira preciznost i odziv i usklađuje ih u jednu vrijednost.
Još je poznato kao F1 mjera zato što odaziv i preciznost su jednako odmjereni.
Ako mjerimo mjeru sa pozitivnim vrijednostima bete. mjeri uspješnost prikupljanja
sa u kojem korisnik pridodaje β onoliko puta koliko je važno za preciznosti i odaziv.
(bazirano na Van Rijsbergenovoj metodi efektivnosti)
F2 mjera mjeri odziv više od preciznosti. F0.5 mjera stavlja veći fokus na preciznost od odziva.
gdje je alpha .