You are on page 1of 87

INFORMACIJSKA ZNANOST INFORMACIJSKA ZNANOST

1
INFORMACIJSKA ZNANOST = disciplina koja se bavi procesima INFORMACIJSKA ZNANOST = disciplina koja se bavi procesima
poranjivanja i prijenosa obavijes!i poranjivanja i prijenosa obavijes!i
Ra"li#i!a !erminolo$ija% s&$lasnos! da se' Ra"li#i!a !erminolo$ija% s&$lasnos! da se' informacijska znanost bavi informacijska znanost bavi
nastajanjem, prikupljanjem, organizacijom, tumaenjem, nastajanjem, prikupljanjem, organizacijom, tumaenjem,
pohranjivanjem, pretraivanjem, diseminacijom, preoblikom i pohranjivanjem, pretraivanjem, diseminacijom, preoblikom i
uporabom obavijesti, s naglaskom na primjeni modernih uporabom obavijesti, s naglaskom na primjeni modernih
tehnologija u ovom podruju. tehnologija u ovom podruju.
O(A)IJ*ST + osnovni ,enomen pro&#avanja in,ormacijske "nanos!i O(A)IJ*ST + osnovni ,enomen pro&#avanja in,ormacijske "nanos!i
R*-*)ANTNOST .svrovi!os!/ + klj&#ni pojam "a in!erpre!acij& R*-*)ANTNOST .svrovi!os!/ + klj&#ni pojam "a in!erpre!acij&
kom&nikacijski procesa + klj&#ni pojam "a pros&db& in,ormacijske kom&nikacijski procesa + klj&#ni pojam "a pros&db& in,ormacijske
djelo!vornos!i .prakse/ i najva0niji !eorijski pojam "a procjen& djelo!vornos!i .prakse/ i najva0niji !eorijski pojam "a procjen&
ra"mjene obavijes!i i ra"&mijevanje kom&nikacijsko$ procesa ra"mjene obavijes!i i ra"&mijevanje kom&nikacijsko$ procesa
UVOD U ORGANIZACIJU ZNANJA I DOHVAANJE INFORMACIJA UVOD U ORGANIZACIJU ZNANJA I DOHVAANJE INFORMACIJA
(organization of knowledge and information retrieval) (organization of knowledge and information retrieval)
Organizacijom znanja uzrokovana je rastom koliine znanja Organizacijom znanja uzrokovana je rastom koliine znanja
potreba za organizacijom znanja proporcionalna je koliini raspoloivog znanja potreba za organizacijom znanja proporcionalna je koliini raspoloivog znanja
Za organizaciju znanja nuna je njezina svrha Za organizaciju znanja nuna je njezina svrha
moe biti radi samog reda organizacije, ali najvanije je omoguiti da pohranjenu informaciju moe biti radi samog reda organizacije, ali najvanije je omoguiti da pohranjenu informaciju
moemo kasnije to lake dohvatiti moemo kasnije to lake dohvatiti
Organizacija znanja i dohvaanje informacija dijelovi su istog procesa Organizacija znanja i dohvaanje informacija dijelovi su istog procesa
!ljuna stvar u procesu organizacije znanja jest sistem organizacije "kriterij po kojemu sistem !ljuna stvar u procesu organizacije znanja jest sistem organizacije "kriterij po kojemu sistem
organizira i trai informaciju# organizira i trai informaciju#
On mora bi!i !akav da $a korisnik po"naje ili da $a barem mo0e On mora bi!i !akav da $a korisnik po"naje ili da $a barem mo0e
nasl&!i!i nasl&!i!i
$eke temeljne definicije% $eke temeljne definicije%
Organizirati "to organize# & oblikovati u organsku cjelinu, dati neemu strukturu Organizirati "to organize# & oblikovati u organsku cjelinu, dati neemu strukturu
Znanje "kno'ledge# & poznatost dobivena iskustvom, opseg informacija, teorijsko i praktino Znanje "kno'ledge# & poznatost dobivena iskustvom, opseg informacija, teorijsko i praktino
razumijevanje razumijevanje
(
)ohvatiti "to retrieve# & dobiti pomou pretraivanja )ohvatiti "to retrieve# & dobiti pomou pretraivanja
*nformacija "information# & pojedini predmet znanja *nformacija "information# & pojedini predmet znanja
1ok&men! + "abilje0eno "nanje% in,ormacija ili krea!ivan i"ra0aj2 1ok&men! + "abilje0eno "nanje% in,ormacija ili krea!ivan i"ra0aj2
+
ORGANIZACIJA ZNANJA UZDIUE PERSPEKTIVE ORGANIZACIJA ZNANJA UZDIUE PERSPEKTIVE
,adr ,adr aj aj
Ra"voj kon!eks!a Ra"voj kon!eks!a
3ro4irenje koncep!a 3ro4irenje koncep!a
)a0nos! or$ani"acije "nanja )a0nos! or$ani"acije "nanja
)rijednos! or$ani"acije "nanja )rijednos! or$ani"acije "nanja
-azvoj konteksta -azvoj konteksta
Sk&p poda!aka nije in,ormacija Sk&p poda!aka nije in,ormacija
Sk&p in,ormacija nije "nanje Sk&p in,ormacija nije "nanje
Sk&p "nanja nije m&dros! Sk&p "nanja nije m&dros!
Sk&p m&dros!i nije is!ina Sk&p m&dros!i nije is!ina
3oda!ak be" kon!eks!a ima slabo ili nikakvo "na#enje5 3odaci mo$& #ini!i 3oda!ak be" kon!eks!a ima slabo ili nikakvo "na#enje5 3odaci mo$& #ini!i
in,ormacij&% no je li !o in,ormacija ovisi o "nanj& ono$a !ko je opa0a5 in,ormacij&% no je li !o in,ormacija ovisi o "nanj& ono$a !ko je opa0a5
In,ormacija je% jednos!avno% ra"&mijevanje odnosa me6& podacima ili In,ormacija je% jednos!avno% ra"&mijevanje odnosa me6& podacima ili
me6& podacima i dr&$im in,ormacijama5 me6& podacima i dr&$im in,ormacijama5
Kada pos!oji &"orak odnosa me6& podacima i in,ormacijama% &"orak ima Kada pos!oji &"orak odnosa me6& podacima i in,ormacijama% &"orak ima
po!encijal da preds!avlja "nanje5 1od&4e% pos!aje "nanje samo kada je po!encijal da preds!avlja "nanje5 1od&4e% pos!aje "nanje samo kada je
proma!ra# sposoban sva!i!i i ra"&mje!i &"orke i njiove implikacije5 proma!ra# sposoban sva!i!i i ra"&mje!i &"orke i njiove implikacije5
M&dros! i"ras!a kada proma!ra# ra"&mije osnovne principe od$ovorne "a M&dros! i"ras!a kada proma!ra# ra"&mije osnovne principe od$ovorne "a
!o da s& &"orci koji preds!avljaj& "nanje ono 4!o jes&5 !o da s& &"orci koji preds!avljaj& "nanje ono 4!o jes&5
In,ormacija je ve"ana &" opis% de7nicij&% ili perspek!iv& .4!o% !ko% In,ormacija je ve"ana &" opis% de7nicij&% ili perspek!iv& .4!o% !ko%
kada% $dje/5 kada% $dje/5
Znanje sadr0i s!ra!e$ij&% praks&% me!od&% ili pris!&p .kako/5 Znanje sadr0i s!ra!e$ij&% praks&% me!od&% ili pris!&p .kako/5
M&dros! #ini princip% &vid% moral% ili 4ablon& ."a4!o/5 M&dros! #ini princip% &vid% moral% ili 4ablon& ."a4!o/5
.roirenje koncepta .roirenje koncepta
8#imo pove"ivanjem in,ormacija prema &"orcima koje ve9 8#imo pove"ivanjem in,ormacija prema &"orcima koje ve9
ra"&mijemo5 Time pro4ir&jemo &"orke5 ra"&mijemo5 Time pro4ir&jemo &"orke5
/
0
PODACI, INFORMACIJE, ZNANJE I MUDROST PODACI, INFORMACIJE, ZNANJE I MUDROST
.O)12* .O)12*
: : Simboli be" "na#enja5 Oni samo pos!oje% 4!o mo0e bi!i ili korisno ili Simboli be" "na#enja5 Oni samo pos!oje% 4!o mo0e bi!i ili korisno ili
beskorisno5 beskorisno5
*$3O-412*56 *$3O-412*56
: : Simboli & ve"i% sa "na#enjem5 Njiovo "na#enje mo0e bi!i bilo Simboli & ve"i% sa "na#enjem5 Njiovo "na#enje mo0e bi!i bilo
beskorisno bilo korisno5 To je konkre!na ve"a #injenica & beskorisno bilo korisno5 To je konkre!na ve"a #injenica &
konkre!nome svije!&5 konkre!nome svije!&5
Z$1$56 Z$1$56
: : Sk&p in,ormacija s ciljem korisnos!i% primjene% no o$rani#eno je !ime Sk&p in,ormacija s ciljem korisnos!i% primjene% no o$rani#eno je !ime
4!o "a!jeva ra"&mijevanje5 4!o "a!jeva ra"&mijevanje5
RAZU!"#$A%"# RAZU!"#$A%"#
: : Ko$ni!ivni i anali!i#ki proces kojim sin!e!i"iramo poranjenje Ko$ni!ivni i anali!i#ki proces kojim sin!e!i"iramo poranjenje
in,ormacije i "nanje% !e i samo ra"&mijevanje & neko novo "nanje5 in,ormacije i "nanje% !e i samo ra"&mijevanje & neko novo "nanje5
47)-O,8 47)-O,8
: : Nadila"i ra&mijevanje !emelje9i se na savjesnos!i #ovjeka5 Najvi4a je Nadila"i ra&mijevanje !emelje9i se na savjesnos!i #ovjeka5 Najvi4a je
$ranica od$ovor na pi!anje ;"a4!o;% no m&dros! !o ne pi!a ona $ranica od$ovor na pi!anje ;"a4!o;% no m&dros! !o ne pi!a ona
ra"&mijeva principe% !e pos!avlja i pros&6&je od$ovore koji nemaj& ra"&mijeva principe% !e pos!avlja i pros&6&je od$ovore koji nemaj&
konkre!an od$ovor konkre!an od$ovor
UPRAVLJANJE SPISIMA, DOKUMENTIMA I SADRAJIMA UPRAVLJANJE SPISIMA, DOKUMENTIMA I SADRAJIMA
,pisi i dokumenti ,pisi i dokumenti
1ok&men! je de7niran kao in,ormacija% sa#&vana na papir&% 1ok&men! je de7niran kao in,ormacija% sa#&vana na papir&%
skenirana ili elek!roni#ka koja se mo0e mjenja!i skenirana ili elek!roni#ka koja se mo0e mjenja!i
Spis je de7nirana kao dok&men! ili dr&$a in,ormacija koja nije Spis je de7nirana kao dok&men! ili dr&$a in,ormacija koja nije
podlo0na promjenama podlo0na promjenama
1e7nicija mena6men!a spisa je' <3laniranje kon!roliranje% &re6ivanje 1e7nicija mena6men!a spisa je' <3laniranje kon!roliranje% &re6ivanje
i svako dr&$o &pravljane spisima= i svako dr&$o &pravljane spisima=
9
Svaki spis ima !ri >cikl&sa 0ivo!a? Svaki spis ima !ri >cikl&sa 0ivo!a?
a5 a5 S!varanje ili primanje S!varanje ili primanje
b5 b5 Odr0avanje i kori4!enje Odr0avanje i kori4!enje
c5 c5 Rje4avanje Rje4avanje
.reslikavanje dokumenta .reslikavanje dokumenta
3reslikavanje dok&men!a .doc&men! ima$in$/ dola"i & &pe!reb& kad 3reslikavanje dok&men!a .doc&men! ima$in$/ dola"i & &pe!reb& kad
kompanije preras!& papirna!e s&s!ave i !rebaj& ne4!o s kompanije preras!& papirna!e s&s!ave i !rebaj& ne4!o s
jednos!avnijim pris!&pom jednos!avnijim pris!&pom
3rebacivanje dok&men!a na mikro7lm ili elek!roni#ki ,orma! je 3rebacivanje dok&men!a na mikro7lm ili elek!roni#ki ,orma! je
preslikavanje dok&men!a preslikavanje dok&men!a
3os!oje #e!ri osnovne komponen!e pri preslikavanj& dok&men!a 3os!oje #e!ri osnovne komponen!e pri preslikavanj& dok&men!a
!nput !nput% % !ndeksiranje !ndeksiranje% % &premanje &premanje% % !zvlaenje !zvlaenje
7pravljanje sadrajem 7pravljanje sadrajem
3os!oje dva na#ina &pravljanja sadr0ajem oba validna 3os!oje dva na#ina &pravljanja sadr0ajem oba validna
&trukturirati sve &trukturirati sve .knji0ni#ki pris!&p/ pos!avi!i markere% e!ike!e% ke@Aords .knji0ni#ki pris!&p/ pos!avi!i markere% e!ike!e% ke@Aords
i opise na sve5 1es!r&k!&ira!i sve5 i opise na sve5 1es!r&k!&ira!i sve5
INFORMACIJA KAO PREDMET INFORMACIJA KAO PREDMET
Moemo definirati tri osnovna naina upotrebe rijei INF!M"#I$"% Moemo definirati tri osnovna naina upotrebe rijei INF!M"#I$"%
Informacija kao proces Informacija kao proces
& & informacija predstavlja sam in informiranja: prenoenje znanja ili novosti o nekoj injenici informacija predstavlja sam in informiranja: prenoenje znanja ili novosti o nekoj injenici
ili doga;aju ili doga;aju
Informacija kao znanje Informacija kao znanje
<priopeno znanje vezano za neku odre;enu injenicu, predmet ili doga;aj <priopeno znanje vezano za neku odre;enu injenicu, predmet ili doga;aj
Informacija kao predmet Informacija kao predmet
=
<predmeti koji mogu biti informativni, odnosno dokumenti <predmeti koji mogu biti informativni, odnosno dokumenti
Obrada informacija Obrada informacija
brada informacija ( brada informacija (information processing#% baratanje, manipuliranje i dobivanje information processing#% baratanje, manipuliranje i dobivanje
novih oblika ili verzija informacije kao predmeta> novih oblika ili verzija informacije kao predmeta>
> >Tipovi in,ormacija Tipovi in,ormacija
podaci podaci
tekstovi i dokumenti tekstovi i dokumenti
objekti objekti
doga;aji doga;aji
.O)12* ? *nformacija kao predmet koja je procesirana na neki nain za upotrebu .O)12* ? *nformacija kao predmet koja je procesirana na neki nain za upotrebu
?uobiajeno oznaava zapise spremljene na kompjutoru ?uobiajeno oznaava zapise spremljene na kompjutoru
86!,8O@* * )O!746$8* ? 8ermin dokument obino oznaava tekstove, tonije 86!,8O@* * )O!746$8* ? 8ermin dokument obino oznaava tekstove, tonije
predmete koji sadre tekst predmete koji sadre tekst
OA56!8* OA56!8* ? Objekti, koji nisu dokumenti u uobiajenom smislu poput teksta, ipak ? Objekti, koji nisu dokumenti u uobiajenom smislu poput teksta, ipak
mogu biti izvori informacija, informacija kao predmet> Oni se sakupljaju, pohranjuju, mogu biti izvori informacija, informacija kao predmet> Oni se sakupljaju, pohranjuju,
pretrauju i pregledavaju kao informacije , kao osnova za informiranje> pretrauju i pregledavaju kao informacije , kao osnova za informiranje>
B8O 56 )O!746$8C B8O 56 )O!746$8C
)okument kao generiki pojam oznaava bilo koji fiziki izvor informacija, a nije ogranien )okument kao generiki pojam oznaava bilo koji fiziki izvor informacija, a nije ogranien
samo na predmete s tekstom na specifinim medijima poput papira, papirusa ili mikrofilma> samo na predmete s tekstom na specifinim medijima poput papira, papirusa ili mikrofilma>
Objekti nisu dokumenti sami po sebi ve to postaju kada su procesirani u informativnu svrhe> Objekti nisu dokumenti sami po sebi ve to postaju kada su procesirani u informativnu svrhe>
Oni moraju biti reprezentativni za neto, odnosno informativni> Oni moraju biti reprezentativni za neto, odnosno informativni>
)oga;aji )oga;aji
)oga;aji su informativni fenomeni te bi trebali biti ukljueni u svaki pristup )oga;aji su informativni fenomeni te bi trebali biti ukljueni u svaki pristup
informacijskoj znanosti informacijskoj znanosti
D
-azlikujemo tri tipa uporabe dokaza o doga;ajima -azlikujemo tri tipa uporabe dokaza o doga;ajima
1# .-6)468* & dokazi koji se daju sakupiti i predstaviti "mrlja krvi u tepihu, otisak 1# .-6)468* & dokazi koji se daju sakupiti i predstaviti "mrlja krvi u tepihu, otisak
stopala u pijesku# stopala u pijesku#
(# O.*,* )OE1F151 & fotografije, memoari, novinski izvjetaji (# O.*,* )OE1F151 & fotografije, memoari, novinski izvjetaji
+# 74568$O ,8@O-6$* "!-6*-1$*# *G* -6!-6*-1$* )OE1F15* & ako se +# 74568$O ,8@O-6$* "!-6*-1$*# *G* -6!-6*-1$* )OE1F15* & ako se
doga;aj ne moe pohraniti onda ga je potrebno tako izvesti da ga i drugi mogu ponovo doga;aj ne moe pohraniti onda ga je potrebno tako izvesti da ga i drugi mogu ponovo
izvesti "esto se koristi u eksperimentalnim znanostima# izvesti "esto se koristi u eksperimentalnim znanostima#
> >
!opije informacija !opije informacija
!opije% !opije% tipovi tipovi & razliiti primjerci informacije & razliiti primjerci informacije
tokeni tokeni & isti primjerci informacije & isti primjerci informacije
6lektronike baze podataka razlikuju dvije vrste kopija% 6lektronike baze podataka razlikuju dvije vrste kopija% privremene privremene i i trajne trajne> >
*nterpretacije i saeci dokaza *nterpretacije i saeci dokaza
@eina informacija u informacijskim sustavima je bila obra;ena na neki nain% @eina informacija u informacijskim sustavima je bila obra;ena na neki nain%
kodiranjem, interpretacijom, saimanjem, ili nekim drugim oblikom transformacije> kodiranjem, interpretacijom, saimanjem, ili nekim drugim oblikom transformacije>
8akve informacije nazivamo prikazima informacija 8akve informacije nazivamo prikazima informacija
!arakteristike prikaza informacija !arakteristike prikaza informacija
1# svaki prikaz informacijaje je vie ili manje nepotpun 1# svaki prikaz informacijaje je vie ili manje nepotpun
(# prikazi informacija su stvoreni radi praktinosti (# prikazi informacija su stvoreni radi praktinosti
+# radi praktinosti rukovanja njima, informacije esto prelaze iz oblika doga;aja ili +# radi praktinosti rukovanja njima, informacije esto prelaze iz oblika doga;aja ili
objekta u tekstualni ili podatkovni oblik objekta u tekstualni ili podatkovni oblik
/# prikazima informacija se mogu pridruiti neke druge informacije vezane uz predmet /# prikazima informacija se mogu pridruiti neke druge informacije vezane uz predmet
0# prikazi informacija se mogu nastaviti u beskonanost> 0# prikazi informacija se mogu nastaviti u beskonanost>
9# -adi lakeg rukovanja prikazi infomracija su esto manjeg opsega od originalnog 9# -adi lakeg rukovanja prikazi infomracija su esto manjeg opsega od originalnog
predloka> predloka>
MUZEJI, ARHIVI I KNJINICE: OTUENI SRODNICI
H
4uzeji, arhivi i knjinice 4uzeji, arhivi i knjinice
)anas su knjinice, arhivi i muzeji kao kulturne institucije dio jedne znanstvene )anas su knjinice, arhivi i muzeji kao kulturne institucije dio jedne znanstvene
discipline: tri podruja s jednom svrhom% sakupljanje i uvanje naeg kulturnog discipline: tri podruja s jednom svrhom% sakupljanje i uvanje naeg kulturnog
naslije;a informacija s ciljem edukacije javnosti> naslije;a informacija s ciljem edukacije javnosti>
'ajedniki cilj muzeja( ar)iva i knjinica 'ajedniki cilj muzeja( ar)iva i knjinica
4uzeji, arhivi i knjinice dijele mnoge ciljeve 4uzeji, arhivi i knjinice dijele mnoge ciljeve* *
4uzeji, arhivi i knjinice brinu za zbirke i organiziraju ih: to su institucije koje katalogiziraju, 4uzeji, arhivi i knjinice brinu za zbirke i organiziraju ih: to su institucije koje katalogiziraju,
uvaju i interpretiraju nau povijest kao i zabiljeenu povijest drugih kultura i vremena> uvaju i interpretiraju nau povijest kao i zabiljeenu povijest drugih kultura i vremena>
,line svakodnevne obaveze ,line svakodnevne obaveze
8 8ehnologija i digitalizacija ehnologija i digitalizacija
4uzeji, arhivi i knjinice imaju sline tehnoloke potrebe% upotrebljavaju kompjutere, 4uzeji, arhivi i knjinice imaju sline tehnoloke potrebe% upotrebljavaju kompjutere,
katalogiziraju, oznaavaju, indeksiraju materijale te upotrebljavaju iste baze podataka> katalogiziraju, oznaavaju, indeksiraju materijale te upotrebljavaju iste baze podataka>
!ako se poveava upotreba kompjutorske tehnologije u muzejima, arhivima i !ako se poveava upotreba kompjutorske tehnologije u muzejima, arhivima i
knjinicama, razlike izme;u tih triju institucija se smanjuju> knjinicama, razlike izme;u tih triju institucija se smanjuju>
Oni postaju lokalno dostupni jedinstvenim pristupom preko *nterneta> Oni postaju lokalno dostupni jedinstvenim pristupom preko *nterneta>
1I
STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA
(1. DIO) (1. DIO)
8emeljno pitanje kompjuterizacije je 8emeljno pitanje kompjuterizacije je svrsis)odnost svrsis)odnost & zato se neto radi pomou & zato se neto radi pomou
raunala, a tek onda kako neto ostvariti raunala, a tek onda kako neto ostvariti
1> *$3O-412*5,!* ,7,81@ 1> *$3O-412*5,!* ,7,81@
*nformacijski sustav "*,# je organizirana cjelina informacijskih djelatnosti i odnosa *nformacijski sustav "*,# je organizirana cjelina informacijskih djelatnosti i odnosa
"informacijsko?dokumentacijsko?komunikacijskih# organizacija, slubi, institucija i "informacijsko?dokumentacijsko?komunikacijskih# organizacija, slubi, institucija i
informacijske kulture < informacijske kulture < mrea informac* djelatnosti (ar)ivske( muzejske( mrea informac* djelatnosti (ar)ivske( muzejske(
bibliotene i dokumentacijske)( slubi i odnosa bibliotene i dokumentacijske)( slubi i odnosa
*nformacijska djelatnost je *nformacijska djelatnost je sastavni dio sastavni dio cjelokupne drutvene djelatnosti, a od drugih cjelokupne drutvene djelatnosti, a od drugih
djelatnosti se razlikuje svojim funkcijama, organizacijom i korisnicima djelatnosti se razlikuje svojim funkcijama, organizacijom i korisnicima
(> ,8-7!87-1 *$3O-412*5,!OE ,7,81@1 (> ,8-7!87-1 *$3O-412*5,!OE ,7,81@1
,truktura informacijskog sustava < unutranji raspored elemenata, njihov sastav, ,truktura informacijskog sustava < unutranji raspored elemenata, njihov sastav,
poredak i odnosi u informacijskom sustavu poredak i odnosi u informacijskom sustavu
/ initelja informac> sustava / initelja informac> sustava( tj* strukture I+% ( tj* strukture I+%
INF!M"#I$+,I +-.$/,0I INF!M"#I$+,I +-.$/,0I
organizacije koje se bave inform>, dokument> i komunikac> djelatnou organizacije koje se bave inform>, dokument> i komunikac> djelatnou
"muzeji,biblioteke,arhivi>>>#, informatika drutva, znanstvene jedinice, instituti, fakulteti, "muzeji,biblioteke,arhivi>>>#, informatika drutva, znanstvene jedinice, instituti, fakulteti,
pojedinci pojedinci
INF!M"#I$+," ,-10-!" INF!M"#I$+," ,-10-!" & sklop drutveih vrijednosti, ponaanje korisnika i & sklop drutveih vrijednosti, ponaanje korisnika i
pravila ponaanja *, pravila ponaanja *,
2!/M" 3 2!/M" 3 materijalna osnova *,, tehnika pomagala i medij materijalna osnova *,, tehnika pomagala i medij
+!/4IN" INF!M"#I$+,5 +-+0"6" +!/4IN" INF!M"#I$+,5 +-+0"6"
+> *$3O-412*5,!1 )56G18$O,8 * ,-6)*$1 +> *$3O-412*5,!1 )56G18$O,8 * ,-6)*$1
$a informacijski sustav djeluju i uvjetuju ga vanjski faktori "politiki, ekonomski, $a informacijski sustav djeluju i uvjetuju ga vanjski faktori "politiki, ekonomski,
kulturni itd># koji ine kulturni itd># koji ine sredinu informacijskog sustava sredinu informacijskog sustava
STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA STRUKTURA I GENEZA INFORMACIJSKIH SUSTAVA
. DIO . DIO
11
? *nformacijski subjekti & konstituiraju se kao specifine i samostalne organizacije i slube ne ? *nformacijski subjekti & konstituiraju se kao specifine i samostalne organizacije i slube ne
samo u funkciji kulture kao dijela drutva ve drutva u cjelini samo u funkciji kulture kao dijela drutva ve drutva u cjelini
? *nformacijska kultura & nije podkultura neke specifine djelatnosti, ve postaje dio ope ? *nformacijska kultura & nije podkultura neke specifine djelatnosti, ve postaje dio ope
drutvene kulture drutvene kulture
,redstva ili oprema su oru;e za obradu, uvanje, pretraivanje i koritenje dokumenata ,redstva ili oprema su oru;e za obradu, uvanje, pretraivanje i koritenje dokumenata
Ona se oblikuju spoznajama, vrijednostima i pravilima informacijske kulture Ona se oblikuju spoznajama, vrijednostima i pravilima informacijske kulture
*nformacijska kultura je kriterij za izbor sredstava da bi se zadovoljili opi drutveni ciljevi i *nformacijska kultura je kriterij za izbor sredstava da bi se zadovoljili opi drutveni ciljevi i
interesi interesi
8ri pristupa informacijskom sustavu 8ri pristupa informacijskom sustavu
8eite pri stvaranju i razvijanju *, moe biti na% 8eite pri stvaranju i razvijanju *, moe biti na%
1>O-E1$*Z12*5* 1>O-E1$*Z12*5*
(>*$,8*872*O$1G*Z12*5* (>*$,8*872*O$1G*Z12*5*
+> ,7,81@7 @-*56)$O,8* +> ,7,81@7 @-*56)$O,8*
PRETRAIVANJE INFORMACIJA U ZNANSTVENOJ !ITERATURI PRETRAIVANJE INFORMACIJA U ZNANSTVENOJ !ITERATURI
,lasifikacija znanstvene literature ,lasifikacija znanstvene literature
o o Znanstvena literatura openito se dijeli na primarne, sekundarne i tercijarne izvore Znanstvena literatura openito se dijeli na primarne, sekundarne i tercijarne izvore
informacija koje treba znati razlikovati informacija koje treba znati razlikovati
o o .ojedini asopisi mogu obuhvaati vie ovakvih kategorija, dok u nekima, ovisno o .ojedini asopisi mogu obuhvaati vie ovakvih kategorija, dok u nekima, ovisno o
ciljanoj publici, nalazimo samo jednu ciljanoj publici, nalazimo samo jednu
2rimarna literatura 2rimarna literatura
7kljuuje svu znanstvenu literaturu koja predstavlja nove znanstvene injenice i ideje 7kljuuje svu znanstvenu literaturu koja predstavlja nove znanstvene injenice i ideje
kao i rezultate novih znanstvenih istraivanja kao i rezultate novih znanstvenih istraivanja
Giteraturu toga tipa piu znanstvenici koji su sami napravili istraivanje, no ona moe Giteraturu toga tipa piu znanstvenici koji su sami napravili istraivanje, no ona moe
sadravati i kritike te analize koje unapre;uju nove koncepte i stajalita o podacima sadravati i kritike te analize koje unapre;uju nove koncepte i stajalita o podacima
dobivenima od drugih dobivenima od drugih
1(
8akva literatura objavljuje se u asopisima na akademskoj razini, a u najire 8akva literatura objavljuje se u asopisima na akademskoj razini, a u najire
cijenjenim asopisima lanci su kritiki ocijenjeni od drugih znanstvenika prije cijenjenim asopisima lanci su kritiki ocijenjeni od drugih znanstvenika prije
publikacije publikacije
+ekundarna literatura +ekundarna literatura
? 7kljuuje saetke rezultata i ideja preuzetih iz primarne literature ? 7kljuuje saetke rezultata i ideja preuzetih iz primarne literature
? $amijenjena znanstvenicima koji posjeduju znanje o odre;enoj temi ? $amijenjena znanstvenicima koji posjeduju znanje o odre;enoj temi
? *zvori informacija uvijek citirani & takvi lanci su dobra mjesta za poetak pretraivanja ? *zvori informacija uvijek citirani & takvi lanci su dobra mjesta za poetak pretraivanja
informacija o temi koja nas zanima informacija o temi koja nas zanima
0ercijarna literatura 0ercijarna literatura
Openito namijenjena potrebama neznanstvene publike Openito namijenjena potrebama neznanstvene publike
*zvori informacija ovdje nisu citirani, moe biti ukljuena jedino bibliografija o tematski *zvori informacija ovdje nisu citirani, moe biti ukljuena jedino bibliografija o tematski
povezanim tekstovima povezanim tekstovima
7* 7* .rirunici & mogu posluiti kao izvori poetnih informacija o odre;enoj temi, no esto sadre .rirunici & mogu posluiti kao izvori poetnih informacija o odre;enoj temi, no esto sadre
netonosti i previe pojednostavljena objanjenja te su stoga neprihvatljivi kao izvori informacija u netonosti i previe pojednostavljena objanjenja te su stoga neprihvatljivi kao izvori informacija u
istraivakom radu istraivakom radu
8* 8* 6nciklopedije & kao i prirunici, mogu pomoi u upoznavanju s temom, no tako;er neprihvatljive 6nciklopedije & kao i prirunici, mogu pomoi u upoznavanju s temom, no tako;er neprihvatljive
kao izvor informacija u istraivakom radu kao izvor informacija u istraivakom radu
9+iva: literatura 9+iva: literatura
o o .ostoji mnogo materijala koji nije lako klasificirati & neki od njih pripadaju onome to .ostoji mnogo materijala koji nije lako klasificirati & neki od njih pripadaju onome to
znanstvenici nazivaju JsivomK literaturom znanstvenici nazivaju JsivomK literaturom
o o 7kljuuje mnoge publikacije vezane uz @ladu & materijal moe varirati od raznih broura 7kljuuje mnoge publikacije vezane uz @ladu & materijal moe varirati od raznih broura
do detaljnih znanstvenih studija @ladinih znanstvenika "ili sveuilinih istraivanja pod do detaljnih znanstvenih studija @ladinih znanstvenika "ili sveuilinih istraivanja pod
nadzorom @lade# nadzorom @lade#
o o 8a istraivanja mogu imati sve osobine primarnih izvora informacija, osim to ne 8a istraivanja mogu imati sve osobine primarnih izvora informacija, osim to ne
podlijeu kritikom ocjenjivanju "postoje iznimke# podlijeu kritikom ocjenjivanju "postoje iznimke#
.-68-1L*@1$56 *$3O-412*51 7 Z$1$,8@6$O5 G*86-187-* .-68-1L*@1$56 *$3O-412*51 7 Z$1$,8@6$O5 G*86-187-*
1+
osnovni koraci u pretraivanju znanstvene literature % osnovni koraci u pretraivanju znanstvene literature %
o o koritenje tercijarne literature radi dobivanja osnovnih podataka i referenci koritenje tercijarne literature radi dobivanja osnovnih podataka i referenci
o o dobar popis kljunih rijei dobar popis kljunih rijei
o o pretraga raunalog kataloga pretraga raunalog kataloga
o o upotreba raunalno vezanih indeksa upotreba raunalno vezanih indeksa
o o koritenje citirane literature koritenje citirane literature
I'6!I 4+0-2NI N" !";-N"1- % I'6!I 4+0-2NI N" !";-N"1- %
1G18* Z1 .-68-1L*@1$56 % 1G18* Z1 .-68-1L*@1$56 %
o o godinji indeks pojedinanih asopisa godinji indeks pojedinanih asopisa
o o znanstveni indeks citata znanstveni indeks citata
o o elektroniki centar asopisa elektroniki centar asopisa
1/
"I"!IOMETRIJA "I"!IOMETRIJA
.ibliometrija
o o to je podruje koje razvija istraivake metode koje se koriste u bibliotekarstvu i to je podruje koje razvija istraivake metode koje se koriste u bibliotekarstvu i
informacijskoj znanosti informacijskoj znanosti
o o bibliometrijske metode vrednovanja se koriste u istraivanjima kako bi se odredio utjecaj bibliometrijske metode vrednovanja se koriste u istraivanjima kako bi se odredio utjecaj
jednog autora ili da se opiu odnos izme;u dva autora ili djela jednog autora ili da se opiu odnos izme;u dva autora ili djela
'akoni bibliometrije% 'akoni bibliometrije%
o o Gotkin zakon znanstvene produktivnosti Gotkin zakon znanstvene produktivnosti
o o Aradfordov zakon distribucije lanaka Aradfordov zakon distribucije lanaka
o o Zipfov zakon uestalosti rijei Zipfov zakon uestalosti rijei
1otkin zakon 1otkin zakon
o o Opisuje uestalost publiciranja odre;enog autora u zadanom polju Opisuje uestalost publiciranja odre;enog autora u zadanom polju
o o On glasi% On glasi% OA-$78O OA-$78O .-O.O-2*O$1G1$ .-O.O-2*O$1G1$ !@1)-187 !@1)-187 8OE 8OE A-O51 A-O51 M MG1$1!1 G1$1!1> >
broj autora koji napiu n lanaka obrnuto je proporcionalan kvadratu tog broja lanaka broj autora koji napiu n lanaka obrnuto je proporcionalan kvadratu tog broja lanaka
"1Nn "1Nn
( (
# #
.radfordov zakon .radfordov zakon
o o slui bibliotekarima kao vodi u odluivanju broja kljunih asopisa u nekom polju slui bibliotekarima kao vodi u odluivanju broja kljunih asopisa u nekom polju
o o prema njemu se asopisi u jednom polju mogu podijeliti u + grupe s istim brojem lanaka% prema njemu se asopisi u jednom polju mogu podijeliti u + grupe s istim brojem lanaka%
o o 1> zona% prva se razina sastoji od manjeg broja temeljnih asopisa o odre;enoj temi, koji 1> zona% prva se razina sastoji od manjeg broja temeljnih asopisa o odre;enoj temi, koji
sadre 1N+ svih lanaka o temi ? druga razina sadri isti broj lanaka kao i prva, ali vei sadre 1N+ svih lanaka o temi ? druga razina sadri isti broj lanaka kao i prva, ali vei
broj asopisa "oko 0 puta vie#> 4atematika veza izme;u broja asopisa u prvoj zoni je broj asopisa "oko 0 puta vie#> 4atematika veza izme;u broja asopisa u prvoj zoni je
konstanta n a u drugoj n konstanta n a u drugoj n
( (
trea razina sadri tako;er isti broj lanaka, ali i jo vei broj asopisa nego u drugoj zoni trea razina sadri tako;er isti broj lanaka, ali i jo vei broj asopisa nego u drugoj zoni
'ipfov zakon 'ipfov zakon
o o !oristi se za predvi;anje uestalosti pojavljivanja rijei unutar nekog teksta !oristi se za predvi;anje uestalosti pojavljivanja rijei unutar nekog teksta
r O f < k r O f < k
10
o o r &redni broj rijei r &redni broj rijei
o o f &frekvencija ili uestalost pojavljivanja u tekstu f &frekvencija ili uestalost pojavljivanja u tekstu
o o k &konstanta k &konstanta
"naliza citata "naliza citata
o o koristi razliite metode analize citata radi uspostavljanja odnosa izme;u autora i koristi razliite metode analize citata radi uspostavljanja odnosa izme;u autora i
njihovih djela njihovih djela
o o !ada jedan autor citira drugog, odnos me;u njima je uspostavljen !ada jedan autor citira drugog, odnos me;u njima je uspostavljen
o o 1naliza citata koristi se i da bi se ustvrdilo koliko je puta neki autor citiran 1naliza citata koristi se i da bi se ustvrdilo koliko je puta neki autor citiran
7parivanje citatima 7parivanje citatima
o o 8o je metoda koja se koristi za uspostavu tematske slinosti izme;u ( dokumenta 8o je metoda koja se koristi za uspostavu tematske slinosti izme;u ( dokumenta
o o 1ko su dokumenti 1 i A citirani u 2, tad se moe rei da su oni me;usobno povezani, 1ko su dokumenti 1 i A citirani u 2, tad se moe rei da su oni me;usobno povezani,
iako direktno ne citiraju jedan drugog iako direktno ne citiraju jedan drugog
Aibliografsko uparivanje Aibliografsko uparivanje
o o 8o je zrcalna slika sparivanja citatima 8o je zrcalna slika sparivanja citatima
o o .ovezuje ( dokumenta koji citiraju isti lanak " 1 i A citiraju 2# .ovezuje ( dokumenta koji citiraju isti lanak " 1 i A citiraju 2#
o o 8a dva dokumenta su tada povezana iako ne citiraju jedan drugog 8a dva dokumenta su tada povezana iako ne citiraju jedan drugog
)olazi do razvoja bibliometrije na *nternetu? 'ebometrija )olazi do razvoja bibliometrije na *nternetu? 'ebometrija
Pebometrija se koristi kako bi se prouile veze izme;u razliitih stranica na *nternetu Pebometrija se koristi kako bi se prouile veze izme;u razliitih stranica na *nternetu
"I"!IOGRAFIJA "I"!IOGRAFIJA
o 8iskani popis dokumenata koji sadri formalni opis tih dokumenata, tj> popis
dokumenata s njihovim bibliografskim opisom
o 8o je abecedni popis svih materijala koritenih u izradi nekog rada
.o svom obliku moe biti%
$ajee tiskane forme%
o !njige i asopisi
o ,astavni dijelovi knjiga
o .rilozi u asopisima
Aibliografije se mogu razlikovati%
19
o .o sadraju, predmetu, opsegu, vremenu i metodama obrade, svrsi, obliku i nainu
rasporeda gra;e
Aibliografije mogu biti%
o Ope ili specijalne
o *nternacionalne, nacionalne, pokrajinske ili lokalne
o .osebne "strune, predmetne#
o -etrospektivne, tekue ili kumulativne
o .opisne, opisne, analitike ili kritike
o *scrpne ili selektivne
o .rimarne ili sekundarne
o 1becedne, kronoloke ili tematske
o Bto ukljuuje bibliografijaC
1. 1utora
2. $aslov
3. 4jesto izdavanja
4. *zdavaa
5. )atum izdavanja
6. .aginaciju "za lanke iz magazina, asopisa, novina, enciklopedija ili antologija#
<to je anotirana bibliografija= <to je anotirana bibliografija=
o -aspraviti autorov povod pisanja bibliografije
o -aspraviti sve zakljuke koje je autor donio
o Opisati vlastitu reakciju na jedinicu & kritiki osvrt
,oja je namjera anotirane bibliografije= ,oja je namjera anotirane bibliografije=
o .regled literature na pojedinom predmetu
o *lustrirati kvalitetu istraivanja koje smo proveli
o Opisati druge jedinice na istu temu koje bi mogle zanimati itatelja
o .roiriti predmet za daljnje istraivanje
"notacija "notacija
o o !ratak komentar, objanjenje dokumenta ili njegova sadraja !ratak komentar, objanjenje dokumenta ili njegova sadraja
o $e sadri podatke koji su u naslovu ili se mogu iz njega zakljuiti
o ,lui za bolje razumijevanje naslova bez obzira na odre;ene potrebe korisnika
o Opisna je, ne sadri potpune reenice
o Obino je pisana u odlomku do 10I rijei
1notacije i saetci "abstract#
o ,aetci su u potpunosti deskriptivni i esto ih moemo pronai na poetku znanstvenih
lanaka ili u periodikim indeksima
o 1notacije su deskriptivne i kritike, izraavaju autorovo stajalite, jasnou i
prikladnost izraza, te autoritet
1=
CITIRANI RADOVI, REFERENCE I BIBLIOGRAFIJA - U EMU JE
RAZLIKA!
!/F/!/N#/ & #I0I!"NI !"46I !/F/!/N#/ & #I0I!"NI !"46I
#I0I!"NI !"46I > .I.1I5!"FI$" #I0I!"NI !"46I > .I.1I5!"FI$"
o o 2itirani radovi ? lista citata 2itirani radovi ? lista citata
o o Aibliografija ? popis cjelokupnog materijala koritenog u pripremi eseja, bez obzira Aibliografija ? popis cjelokupnog materijala koritenog u pripremi eseja, bez obzira
jesu li citati uope koriteni jesu li citati uope koriteni
!od *nternet stranica koristi se 7-G adresa kao referenca za unos imena u abecedni popis !od *nternet stranica koristi se 7-G adresa kao referenca za unos imena u abecedni popis
npr>% npr>% www*t)e?ellowpages*com www*t)e?ellowpages*com
'"2"M0I '"2"M0I
o o $e numeriraj unose> $e numeriraj unose>
o o $e radi odvojeni popis citata po kategorijama> ,ve reference su unesene u 56)1$ $e radi odvojeni popis citata po kategorijama> ,ve reference su unesene u 56)1$
1A626)$* .O.*, po prvim rijeima citata, bez obzira od kuda citati potjeu> 1A626)$* .O.*, po prvim rijeima citata, bez obzira od kuda citati potjeu>
.*,1$56 A*AG*OE-13*56
1D
C#$#%&'() * I'$)%')$& C#$#%&'() * I'$)%')$&
? ? Internet Internet
? ? autor autor
? ? Qnaslov lanka, Peb stranice ili site?aJ Qnaslov lanka, Peb stranice ili site?aJ
? ? naslov publikacije naslov publikacije
? ? urednik ili projekt ako nije oito urednik ili projekt ako nije oito
? ? oznaiti tip materijala "slika, oglas, intervju, fotografija# oznaiti tip materijala "slika, oglas, intervju, fotografija#
? ? datum lanka i datum posljednje promjene 'eb stranice "ili datum slanja za datum lanka i datum posljednje promjene 'eb stranice "ili datum slanja za
email# email#
? ? sponzor 'eb stranice ili 'eb sjedita sponzor 'eb stranice ili 'eb sjedita
? ? datum pristupa 'eb stranici datum pristupa 'eb stranici
? ? .otpuni 7-G "7niform -esource Gocator# u uglatoj zagradi .otpuni 7-G "7niform -esource Gocator# u uglatoj zagradi
!O$8-OG*-1$* -56M$*!
B8O 56 !O$8-OG*-1$* -56M$*!C
!ontrolirani rjenik je organizirana lista rijei, fraza i sustava biljeenja koja se koristi
za poetno oznaavanje sadraja a zatim i za njegovo pronalaenje putem navigacije
ili pretraivanja
R8o znai da je kontrolirani rjenik tip metabaze koji funkcionira kao Spodskup
prirodnoga jezikaS, ali koji nije jednak svakodnevnome govoruT "1mU Parner#
$6!O$8-OG*-1$* -56M$*!
!oristi se prirodnim jezikom u dokumentu i jednak je prirodnom jeziku korisnika
7potrebom nekontroliranoga rjenika "Runcontrolled vocabularUT: 7@# bit e
ukljueni samo oni termini koje je uveo korisnik
6!@*@1G6$8$6 @6Z6
Odre;ene kategorije ili lanci na stranici mogu imati viestruka imena
Rpreferirani terminT "Rpreffered termT# ? automobil
Rvarijantni terminT ? kola
7 mnogim situacijama jedan termin zamjenjuje drugi alternativni termin%
,*$O$*4*< razliite rijei sa istim znaenjem "npr> glazba i muzika#
VO4O$*4*< rijei koje zvue isto ali imaju razliito znaenje "npr>luk i luk#
,.151$56 ,!-1W6$*21 sa cijelom rijei "npr> $X i $e' Xork#
)va tipa sinonimske ekvivalencije%
,*$O$*4,!* .-,86$
1H
178O-*868$* )O!746$8*
,inonimski prsten je put prema spajanju varijantnih termina za pojam
V*56-1-V*5,!* O)$O,*
prikazuju hijerarhijsku postavu me;usobno povezanih pojmova
Oni su u 2@?u prikazani pomou $8?a "uih pojmovima# i A8?a "irih pojmovima#,te
varijantnih termina "R7,6T i R7,6 3O-T# vezanima uz primarni pojam naega
pretraivanja
8aksonomija je postala standardni pojam za opis hijerarhijskih odnosa, kao to je
prikazano na slici%
1,O2*518*@$* O)$O,*
.ojmovi me;usobno ili zasebno stvaraju veze "asocijacije# na druge pojmove
7 tezaurusima se nalazi prikaz odnosa izme;u $8?a i A8?a, ali i prikaz njima srodnih
pojmova "-8?a#
,8@1-1$56 !O$8-OG*-1$OE -56M$*!1
,tvaranje kontroliranog rjenika
Mimbenici o kojima ovisimo
sadraj
? to su termini sliniji, treba biti paljiv ciljan pri odabiru ? paziti na uskla;enost termina
tehnologija
? alati ? koji emo program upotrijebiti za obradu termina
? integracija ? kako e !>-> biti integriran sa ostalim dijelovima sustava
korisnici
?!>-> je usmjeren prema korisnicima ? moramo razumjeti korisnike prije odre;ivanja termina
odravanje ? potrebna je struna osoba

2 ,akupljanje termina
? cilj je pronai odgovarajui termin koji e imati najvie uspjeha kod
korisnikaNpretraivanja
? "#$%& '&t("&
.ogled prema unutra
? alternativni termini koje moemo upotrijebiti za svaki predmet
.ogled prema van
? uiti od drugih
? iskoristiti mogunost posu;ivanja
7$*@6-Z1G$1 )62*41G$1 !G1,*3*!12*51
)okumetacijski jezici za obradu dokumenata
Za indeksiranje, pohranjivanje i pretraivanje koristimo se dokumentacijskim jezicima
)O!746$812*5,!* 56Z*2*? umjetni jezici koji se koriste u informacijskim
sustavima i slubama, i to za indeksiranje, pohranjivanje i pretraivanje
*$)6!,*-1$56?"engl> $)"&*$)+?izrada indeksa, kazala#
pod indeksiranjem se podrazumjeva skup naela, metoda, postupaka i njihovih primjena u
(I
informacijskom procesu kojima se dokumentu dodjeljuju termini"kjune rijei#, radi
opisivanja njihova sadraja i njihovog kasnijeg ponovnog pronalaenja
.-68-1L*@1$56?"engl> r&tr$&#a,- pronalaenje#?djelatnost ili metode i postupci za
pronalaenje informacija iz zbirki ili datoteka pomou danih deskriptora "kljueva ili
oznaka#, a prema postavljenom zahtjevu korisnika
8ri su glavna tipa dokumentacijskih jezika%
Vijerarhijski iNili facentni klasifikacijski sustavi
"!ontrolirane# Giste termina
8ezaurusi
!G1,*3*!12*5,!* ,7,81@*? dijele se na univerzalne, specijalizirane i orijentirane prema
zadatku
?najpoznatija je 7niverzalna decimalna klasifikacija "7)!#, )e'eUeva decimalna
klasifikacija, A,O "sistem irokog razvrstavanja#
)62*41G$1 !G1,*3*!12*51 "))!#
6ngl> D&c$'a, c,ass$-$cat$()
!oristi se decimalnom notacijom
.ronaao ga ameriki bibliotekar 4elvil )e'eU,a 1D=9> ga je prvi put publicirao pod
tim naslovom
)e'eU je podijelio znanje na deset grupa, a onda jo svaku grupu na deset podgrupa
itd>
1DH0> preuzeo je 4e;unarodni bibliografski institut iz AruOellesa, obogatio ga
pomonim tablicama za oznaavanje jezika,oblika,mjesta,rase i naroda,vremena te ga
nazvao 7$*@6-Z1G$1 )62*41G$1 !G1,*3*!12*51
)anas je ))! uveden u mnoge knjinice ,1)?a i @elike Aritanije
.reveden je na H europskih jezika,te kineski i japanski
7$*@6-Z1G$1 )62*41G$1 !G1,*3*!12*51"7)!#
6ngl> U)$#&rsa, "&c$'a, c,ass$-$cat$()
$ajraireniji i najpoznatiji biblioteni klasifikacijski sustav,primjenjuje se svugdje u
svijetu, izradila ju je grupa strunjaka pod vodstvom .aula Otleta
!ao podloga za izradu 7)! posluila je prera;ena )e'eUeva decimalna klasifikacija
-azlog pojave 7)! bila je potreba novoosnovanog 4e;unarodnog bibliografskog
instituta "1DH0# za klasifikacijskim sustavom koji e obuhvaati sva podruja znanosti
i biti uporabljiv na me;unarodnoj razini
7)! obuhvaa%
EG1@$6 81AG*26 ? sadre brojeve kojima se dokumenti klasificiraju prema
sadraju? svaki 7)! broj se nalazi u glavnim tablicama
.O4OW$6 81AG*26 & donose popis opih pomonih znakova koji oznaavaju
karakteristike to se ponavljaju "opi pomoni znakovi mogu se odnositi na jezik,
oblik, mjesto, vrijeme, rase i nacionalnosti #
1A626)$* .-6)468$* *$)6!, & omoguuje laku uporabu i pronalaenje
potrebnih 7)! brojeva za klasificiranje
O,OA*8O,8* 7)!%
Zastupljenost svih podruja znanosti"vie od 1II III strunih oznaka#
(1
$aelo decimalne podjele, koje omoguuje neogranienu podjelu na podskupove
7porabu iskljuivo numerikih oznaka koje se lako pamte, a nisu barijera u raznim
jezinim podrujima
.ostojanje razgra;enog sustava pomonih brojeva
.rimjena naela sintetskih oznaka
4ogunost uvrtavanja neogranienog broja dokumenata na svakoj razini podjela
.-6)$O,8* 7)!%
7niverzalnost
4ogunost me;unarodne uporabe
)ecimalni sustav oznaka
)obro funkcioniranje nacionalnih i internacionalnih ustanova odgovornih za njezino
odravanje
Zato je 7)! jo glavni me;unarodno prihvaeni sustav klasifikacije dokumenata u
knjinicama i specijalnim knjinicama
7 Vrvatskoj se sve ili veina javnih, narodnih, kolskih knjinica te $acionalna i sveuilina
knjinica najee koriste sustavom 7)! ? za odlaganje i pretraivanje
*$3O-418*O$ A-O!6-,
)efinicija pojma
-elativno nov pojam
Odnosi se na pojedince ili organizacije plaene za obavljanje informacijskih usluga,
izme;u ostalog nabavu informacija i njihovu prodaju klijentima> "*nformatian
broking< trgovanje informacijama#>
)efinicija inf> brokinga koju je razvila 6*-6$6?a% J *nf> broking je opi pojam za
osobu ili organizaciju koja ugovorno osigurava korisniku informacijske uslugeK>
Zanimanje je nastalo iz potrebe da pojedinci ili tvrtke do;u do potrebnnih inf> na to
bri i efikasniji nain>
*nf> brokere zovu jo i% inf> consultant "inf> savjetnik#, freelance librarian "neovisni
knjiniar#, inf> retailer "trgovac informacijama#, cUbrarian "cUber?librarian#>>>
.ostoje ( kategorije slubi za inf> broking%
1# slube koje vode neovisni brokeri "tvrtke ili pojedinci# & esto su specijalizirani za
odre;ena podruja
(# slube u sklopu veih institucija ili organizacija "npr> knjinica ili neprofitnih org># &
trokovi nabave inf> se pokrivaju iz lanarina
$isu tako usko specijalizirane kao neovisne slube
7sluge koje pruaju inf> brokeri
Zavise od tvrtke ili pojedinca i od potreba klijenata
7kljuuju praenje razvoja trita, nadziranje konkurenata i pronalaenje potencijalnih
poslovnih partnera "$ajee traene inf> su one o pojedinim tvrtkama i o
istraivanjima trita#>
7sluge koje brokeri pruaju mogu se podijeliti u ( kategorije%
a# pretraivanje inf> " information retrievaling#
b# organizacija inf> "information organisation#
((
a# pretraivanje informacija
,kup aktivnosti iji je cilj pronai klijentu eljenu inf>
7kljuuje pretragu online baza podataka, intervjue "slue da bi se eljene inf> dobile
izravno# i istraivanja trita "provodi se pomou intervjua ili pretrage baza podataka#>
b# organizacija informacija
7kljuuje tipino knjiniarske zadatke " npr> prikupljanje i organizacija bibliografija,
indeksiranje knjiga, katalogizacija knjiga i drugih materijala# koji se ne obavljaju u
kontekstu knjinice
.otraga za informacijama i njihovo prikupljanje odvija se u 1I koraka
Obrazovanje inf> brokera
@eina ljudi u ,1)?u koji se bave inf> brokingom imaju diplomu knjiniara, ali u
zadnje vrijeme sve je vie brokera koji uz to imaju zavrene i druge teajeve "npr>
menadmentsko savjetovanje# ili imaju diplome drugih struka>
!arakteristike uspjenog inf >brokera%
dobro poznavanje inf> pretraivanja ili diploma iz tog podruja,
redovita nadopuna svojih znanja
preciznost, brzina i uinkovitost u pronalaenju inf>
dobro poznavanje trita i znanje stranih jezika
predanost poslu, dobra informiranost i postizanje dobrih odnosa s klijentima
fleksibilnost,otvorenost za nove ideje i mogunosti
4ora uvjeriti klijenta da je upravo on osoba za taj zadatak ak i ako nije strunjak na
tom podruju
4ora znati svoje granice
Organizacije inf> profesionalaca
1# 1ssociation Of *ndependent *nformation .rofessionals "1**.#
Osnovala ju je 1HD9> u 1merici skupina inf> profesionalaca
)anas u (I zemalja ima oko 9II lanova koji imaju odre;ene povlastice "pristup
privatnim online forumima, popusti na inf> usluge i produkte>>>#
Organizacija ima detaljno razra;en i razvijen pravilnik o etinom poslovanju koji
klijentima jami profesionalnu uslugu i povjerljivost
1**. inf> brokere smatra posrednicima izme;u klijenata i informacija>
(# 8he 6uropean 1ssociation Of *nf> ,ervicies "67,*)*2#
)anas pokriva preko 1II organizacija u 19 europskih zemalja
$astoje okupiti inf> profesionalce i njihove org> oko ideja razmjene znanja, iskustava i
ideja
Omoguuju komunikaciju izme;u profesionalaca s podruja inf> industrije
+# 6uropean *nformation -esearchers $et'ork "6*-6$6#
6uropski odgovor na 1**.
Okuplja oko 90 brokera s podruja zemalja 67, 6381?e i zemalja *stone 6urope
Osnovni cilj im je poveati pristup inf> i razviti inf> posrednitvo kao komercijalnu
aktivnost
* oni imaju razvijen pravilnik o etinom poslovanju
/# )ocere *nteligence
@odea skandinavska tvrtka na podruju inf>brokinga
(+
,pecijalizirani za pruanje usluga na podruju energetike, financija, informatike,
komunikacija, elektronikog poslovanja, politikih i globalnih trendova
7sluge koje pruaju% analitika izvjea, konzultacije i informacijski menadment,
indeksiranje, ispitivanje trita, online pretraivanje, predavanja i seminari iz
usavravanja u poslovanju
Zakljuak
)anas ivimo u informacijskom drutvu u kojem i pojedinci i vee organizacije imaju
ogromnu potrebu to prije doi do tonih i vanih informacija na najbolji i najefikasniji nain>
Ovdje dolazi do izraaja uloga informacijskog posrednika kao osobe koja je plaena da
korisniku JnabaviK traenu informaciju, upravo u onom obliku i sadraju u kojem ju korisnik
treba>
-6G6@1$8$O,8
1H0I?ih uvodi se pojam relevantne informacije
*- & sustavi ?Y sustavi za pronalaenje relevantnih informacija
informacija opisana svojom relevantnou postaje glavni pojam informacijske
znanosti
relevantnost izraava kriterij za postizanje uinkovitosti u pronalaenju informacija
relevantnost je postala najistraivanija tema informacijske znanosti
!arakteristike relevantnosti
.riroda & okvir u kojem definiramo relevantnost "kao pojam#
4anifestacija & razlikujemo kontekste i tipove relevantnosti
.onaanje & kakav je odnos me;u traenjem, pronalaenjem i koritenjem informacija
7inci & kako iskoristiti relevantnost u teoriji i praksi, u razvoju *-?sistema, procesa,
algoritama i njihovoj procjeni
.riroda relevantnosti
osim u informacijskoj znanosti, relevantnost je esto prouavana i u mnogim drugim
znanostima kao to su filozofija, komunikacija, logika i psihologija
ima iroko podruje primjene
relevantnost zahtijeva intuitivno shvaanje
*ntuitivno shvaanje relevantnosti
osnovno ljudsko kognitivno zapaanje
!arakteristike%
temelji se na spoznaji
ukljuuje interakciju i stalnu komunikaciju
dinamina je
bavi se prikladnou i uinkovitou
*zraava se u kontekstu
u informacijskoj znanosti potrebno je slijediti intuitivnu upotrebu relevantnosti
-elevantnost u filozofiji
u filozofiji se relevantnost definira kao svojstvo koje odre;uje veze i relacije u naemu
kompleksnom socijalnom svijetu ",chutz & 1H=I>#
u trenutku osoba ima%
?temu koncentracije
?pozadinu "osobna iskustva, psiholoki prostor koji je mogue povezati s
temom#
(/
+ osnovna i nezavisna tipa relevantnosti%
t&'ats.a r&,&#at)(st & percepcija problematinog da bi se osnovala tema, odvojena je od
pozadine
$)t&r/r&tac$%s.a r&,&#a)t)(st & ukljuuje pozadinu i na njoj se temelji
'(t$#ac$%s.a r&,&#a)t)(st & ukljuuje selekciju interpretacije i odnosi se na smjer radnje koja
e biti prihvaena
-elevantnost u komunikaciji
,perber Z Pilson & novi pristup u prouavanju ljudske komunikacije
posebno su se koncentrirali na verbalnu komunikaciju
razliiti komunikacijski modeli
!O)$* 4O)6G & tumaenje komunikacije u uvjetima kodiranja i dekodiranja
poruke od izvora do odredita
$1456-6 & $)-(r'at$#)&, .('0)$.at$#)&
& ine ljudsko ponaanje predvidivim
za vo;enje ljudske komunikacije
& objanjavaju razliitost i povezanost
izme;u onoga to osobe ocjenjuju kao
relevantnost i onoga to poboljava sustav
,chutz, ,perber i Pilson & interpretiraju relevantnost kao sustav mnogostruke
vanosti
Osnovna svojstva
@eza & relevantnost ukljuuje vezu
$amjera & veza u izraavanju relevantnosti ukljuuje namjere i motivaciju
!ontekst & relevantnost ne moe biti bez konteksta
Zakljuak ? relevantnost ukljuuje procjenjivanje veze, esto visoko procjenjivanje stvarnosti
ili stupnja poveanja dane veze
7zajamno djelovanje ? zakljuak je izveden kao dinamian, uzajaman proces, gdje se
objanjenje drugih svojstava smije
promijeniti
r&,&#a)t)(st & kriterij uinkovitosti razmjene informacija me;u ljudima u komunikacijskom
procesu
.riroda relevantnosti
rane 1H9I & relevantnost postala sve traenija tema prouavanja u inf> znanosti
rezultat istraivanja relevantnosti & (/1$r)a ,$t&rat0ra
veina istraivanja o relevantnosti se bavila ponaanjem i uincima
/ okosnice prirode relevantnosti% sustavna, komunikacijska, poloajna i psiholoka
Okosnica sustava
poslije 1H0I>god & prva okosnica se razvila u [tradicionalni *- model[
model predstavlja *- kao dva skupa elemenata, sustava i korisnika koji si odgovaraju
/r&tra2$#a)%& & uspore;ivanje dvaju prikaza: tekstova i upita
sustav & jednostavan, jasno definira *- sustave
(0
? odre;uje ure;ivanje i uspore;ivanje ostalih procesa u kontroli sustava
r&,&#a)t)(st & vlasnitvo sustava
Okosnica komunikacije
razmatranje komunikacije u okvirima razmjene poruka izme;u izvora i odredita, s
moguom pojavom uma i povratne informacije & to je osnovni model ,hannon?ove
teorije informacije
r&,&#a)t)(st & kriterij za uspostavljanje uinkovitosti izme;u izvora i odredita
relevantnost predstavlja vezu
Okosnica poloaja
kola ,Uracuse & istraivanje relevantnosti i nove generacije njenih istraivaa
+,a#)$ &,&'&)t$ .(%$ .ara.t&r$3$ra%0 /r$r("0 r&,&#a)t)(st$ ? poloaj, drutveni kontekst,
vremenska ovisnost i dinaminost
relevantnost & dinamini koncept koji ovisi korisnikovoj procjeni kvalitete veze
izme;u informacije i informacijske potrebe u odre;enom vremenu
.siholoka okosnica
Varter je naziva Rpsiholoka relevantnostT
psiholoka relevantnost & dinamina, promijenjiva interpretacija informacijske potrebe
u vezi s predstavljenim tekstom
temelji se na pretpostavci da se kognitivno stanje korisnika stalno mijenja i raste
svakim novim otkriem relevantne informacije
slabost joj je to se odnosi samo na relevantne informacije & najograniavajui oblik
relevantnosti u informacijskoj znanosti
*nterakcijski okvir
pojavom online sustava, *- se razvio u iznimno interaktivan proces, kakav je i danas
*- interakcija je postala subjektom mnogih istraivanja
4 '("&,a IR $)t&ra.c$%a su se istaknula% kognitivni model i epizodni model
1> !ognitivni model "*ng'ersen#
*- interakcija & skup procesa kognitivnih opisa i modela koji se pojavljuju unutar i
izme;u elemenata
tekst & kognitivne strukture koje se smatraju informacijskim prostorom
interakcijski procesi su dinamini te su bazirani na relevantnosti
(> 6pizodni model "Aelkin#
IR s0sta# & slijed razliitih epizoda
centralni proces & korisnikova interakcija s informacijama
razliite vrste interakcija podravaju procese kao to su sudovi, interpretacije,
modifikacije, pretraivanje, itd>
1c\uistition & 2ognition & 1pplication
",araevi i !antor#
model zasnovan na pretpostavci da korisnik trai informacije da bi ih upotrijebio,
upotreba je povezana sa spoznajom te kasnije sa zakljukom
proces je dinamian u svim smjerovima
*- interakcija tada postaje dijalog izme;u sudionika "elemenata# & korisnika i
raunala, a glavna namjera je utjecati na kognitivno stanje korisnika za efektivnu
(9
upotrebu informacija
*- interakciju moemo promatrati kao pojavu koja se sastoji od nekoliko povezanih
razina%
? kognitivna razina
? situacijska razina
? razina uinkovitosti
kognitivna razina & korisnik se koristi tekstom, smatrajui ga kognitivnom strukturom
situacijska razina & korisnik je u me;udjelovanju sa problemom zbog informacijske
potrebe
razina uinkovitosti & korisnik djeluje s namjerom i motivacijom
Oitovanja relevantnosti
razotkrivanje, opis, klasifikacija i oblikovanje razliitih oitovanja relevantnosti &
tema brojnih teorijskih, praktinih i promatrakih istraivanja u informacijskoj
znanosti
istraivanja oitovanja rezultiraju najee u nekoj klasifikaciji i modelu & (" #&,$.&
s0 #a2)(st$ $3 4 ra3,(+a%
promatranje relevantnih oitovanja mora vrednovati ili odbaciti dane teorije i okosnice
o prirodi relevantnosti
mogu upravljati istraivanja o ponaanju i uincima relevantnosti
8ri linije ispitivanja oitovanja relevantnosti%
1> predloena su ili ispitana razliita svojstva od vanosti za korisnike u vezi s uinkovitom
upotrebom informacija> $eka istraivanja predlau zamjenu relevantnosti "npr> s koritenjem#,
a neka dovode relevantnost u vezu s drugim svojstvima kao to je zadovoljstvo & i koritenje i
zadovoljstvo utvr;eni su kao razliita i vana oitovanja ili vrste relevantnosti
(> promatranje i postupno oblikovanje razliitih tipova zakljuivanja korisnika
?tipini model je .arkov ? u kojem je korisnikova procjena relevantnosti ocrtana u
mnogostrukim slojevima koji su interpretirani unutar + konteksta%
korisnikov unutarnji kontekst "znanje o predmetu, iskustvo pretraivanja]#
vanjski kontekst "stupanj istraivanja, cilj istraivanja]#
problemi konteksta
+> tzv> Jklju istraivanjaK ? otkrivanje i kvalificiranje i klasificiranje svojstva ili kriterije na
koje su korisnici usredotoeni kad dolaze do relevantnih zakljuaka, te pruanje kljua ili
traga svemu to se razmatra kad zakljuujemo o relevantosti>
relevantnost ukazuje na odnos>
razliita oitovanja relevantnosti ukljuuju razliite odnose
7nutar konteksta relevantnosti informacije "*-?a# i informacijske znanosti,
razlikujemo slijedea oitovanja relevantnosti%
sustav ili algoritamska relevantnost & odnos izme;u upita i teksta informacije u
datoteci sustava kao povratni ili neuspjeno povratni od procedure ili algoritma
tematska ili predmetna relevantnost & odnos izme;u predmeta ili teme izraene u
upitu, te tema ili predmet koji ga opisuje od povratnih tekstova ili tekstova datoteka
sustava, ili ak u postojanju>
kognitivnaNspoznajna relevantnost ili spoznajna ispravnost & odnos izme;u stanja
znanja i spoznaje informacije koja je potrebna korisniku i povratni tekstovi, ili u
datoteci sustava, ili ak u postojanju>
(=
relevantnost prema situaciji ili korisnost & odnos izme;u situacije, zadatka ili
trenutanog problema i povratnih tekstova, ili u datoteku sustava ili u postojanju>
motivacijska ili spontana relevantnost & odnos izme;u napetosti, ciljeva i motivacije
korisnika i povratnih tekstova od sustava ili datoteke sustava ili u postojanju> 8a
oitovanja dinamino utjeu jadna na drugo
Zakljuak
me;udjelovanje relevantnosti je ugra;eno u *- sustave
korisnicima *- sustava nije potrebno objasniti to je relevantnost, jer e je ljudi
intuitivno razumjeti, to i objanjava uspjeh *-?a>
dva primarna cilja ovog rada su%
1> objanjenje relevantnosti u informacijskoj znanosti
(> kratka sinteza studije vezane uz oitovanje relevantnosti
poboljanja *- sustava ovise o boljem razumijevanju relevantnosti
7inkovitost *-?a ovisi o uinkovitosti me;udjelovanja i prilagodbe razliitih
oitovanja relevantnosti koje su organizirane u sustavu relevantnosti
glavni problem -Z)?a u informacijskoj znanosti trebao bi biti usmjeren prema
poveanju uinkovitosti relevantnosti me;udjelovanja & to bi trebao biti osnovni cilj
istraivanja relevantnosti u informacijskoj znanosti
4O)6-$O .-68-1L*@1$56 *$3O-412*51
1>1> 4O8*@12*51
pretraivanje informacija "information retrieval, *-# se bavi prikazom, pohranom,
organizacijom i pristupanjem eljenim informacijama
prikaz i organizacija informacija bi korisniku trebali pruiti jednostavan pristup
informaciji za koju je zainteresiran
problem & odre;ivanje Skorisnike potrebe za informacijamaS "user information need#
korisnik mora prevesti potrebu za informacijom u upit kojega e pretraiva ili *-
sustav moi obraditi
prevo;enje rezultira nizom kljunih rijei "ili natuknica# koje odre;uju potrebu
korisnika za informacijom
na temelju upita korisnika, *- sustav nastoji pronai informaciju korisnu ili relevantnu
za korisnika
$aglaena je razlika izme;u pretraivanja informacija i pretraivanja podataka
1.1.1. .-68-1L*@1$56 *$3O-412*51 @,> .-68-1L*@1$56 .O)181!1
.retraivanje podataka & odre;ivanje dokumenata iz zbirke, koji sadre kljune rijei
korisnikova upita
cilj je pronalaenje objekata koji zadovoljavaju jasno definirane uvjete
raspolaganje podacima s jasno definiranom strukturom i semantikom
jedan pogrean, od tisuu prona;enih objekata, je promaaj
nezadovoljavajue, jer se korisnik oslanja na pronalaenje informacija o objektu, a ne
na pronalaenje podataka koji odgovaraju na upit
.retraivanje informacija ? koriste se prirodni jezici koji nisu uvijek jasno strukturirani i mogu
biti dvosmisleni, odnosno semantiki zbunjujui
(D
.rona;eni objekti mogu biti netoni i mogue je da manje greke pro;u neprimijeene
pretraivanje podataka ne rjeava problem pretraivanja informacija prema subjektu ili
temi & zato *- sustav mora nekako SinterpretiratiS sadraj podataka u zbirci i poredati
ih prema stupnju relevantnosti u upitu korisnika
SinterpretacijaS sadraja dokumenta ? izvlaenje semantikih i sintaktikih informacija
iz teksta dokumenta i koritenje tih informacija za uskla;enje s korisnikom potrebom
za informacijom
osnovni, primarni cilj *- sustava jest pronalaenje ,@*V relevantnih dokumenata za
upit korisnika, a istovremeno pronalaenje to je manje mogue irelevantnih
dokumenata
1>1>(> .-68-1L*@1$56 *$3O-412*51 7 ,-6)*B87 .1L$56
*- podruje neprestano raste, no ee se tumai kao usko podruje indeksiranja teksta
i pronalaenja korisnih dokumenata u kolekciji
istraivanje unutar *- zapravo ukljuuje modeliranje, klasifikaciju, kategorizaciju,
suelje korisnika, vizualne podatke, itd> & zahvaljujui Peb?u
Porld Pide Peb "PPP# je univerzalno skladite znanja i kulture dananjice
Peb je koncipiran kao standardno suelje koje se ne mijenja u raunalnoj okolini koja ga
pokree
pozitivne strane
medij dostupan svima i cijenom i svojom konstrukcijom
koritenjem raunala izvravaju se dnevni zadaci "revolucija#
negativne strane
odsutnost dobro definiranog pozadinskog modela podataka "loa kvaliteta definicije i
strukture informacije#
hUperspace "svemir bez granica# uzrokuje teak odabir relevantnih informacija
1>(>1> Z1)181! !O-*,$*!1
prevesti svoju potrebu za informacijom u upit na jeziku kojim se slui sustav
"odre;ivanje niza rijei sa semantikom traene informacije#
upit specificira skup rijei koje prenose znaenje informacijske potrebe
upit prenosi ogranienja koja odgovori moraju zadovoljiti
u oba sluaja korisniko pretraivanje izvrava zadatak pretraivanja "retrieval task#
zadaci korisnika "upueni *- sustavu#
pretraivanje "retrieval#
pregledavanje "bro'sing# podataka iNili informacija
pregledavanje dokumenata "bro'sing# je tako;er proces pronalaenja informacija, ali
onih koje nisu dovoljno dobro definirane "odre;ene# u poetku, i ija bi se svrha
mogla promijeniti u vrijeme interakcije sa sustavom
iako kombiniranje pretraivanja informacija "retrieval# i pregledavanja jo nije
uobiajena praksa, mogla bi postati u budunosti
suvremene digitalne knjinice i 4rena suelja mogli bi pokuati kombiniranjem ovih
zadataka pruiti poboljane znaajke pretraivanja informacijaNpodataka
SretrievalS i Sbro'singS su u jeziku PPP?a akcije /(#,a5&)%a & korisnik zahtijeva
(H
informacije interaktivnim putem
drugi, staromodniji nain pretraivanja je automatsko i stalno koritenje softvera koji
+0ra%0 informaciju prema korisniku "npr> izvlaenje korisnih informacija periodino iz
novinskih agencija# & tada kaemo da *- sustav djelomino izvrava zadatak
pretraivanja koji se sastoji od filtriranja relevantnih informacija za kasnije
pregledavanje
1>(>(> GOE*M!* .-*!1Z )O!746$181
iz povijesnih izvora dokumenti su esto prikazivani preko indeksa ili kljunih rijei
!ljune rijei se mogu izvui izravno iz teksta "automatski# ili ih odre;uje neki subjekt
"izdvaja ih specijalist#, a u svakom sluaju su logiki prikaz dokumenta>
full teOt & cjelokupni popis rijei iz dokumenta, najkompletniji logiki prikaz
dokumenta, no zahtijeva jako puno raunanja
"potreba za smanjenjem skupa reprezentativnih kljunih rijei#
reduciranje skupa reprezentativnih kljunih rijei
eliminacijom stop rijei "stop'ords & veznici i lanovi#
svo;enjem razliitih oblika rijei na njihov zajedniki korijen
identifikacijom imenikih skupina "eliminiranjem pridjeva, priloga, glagola#
tekstualne operacije "transformacije#
smanjuju sloenost prikaza dokumenta
dozvoljavaju logiki prikaz od razine cijelog teksta do razine indeksa "prepoznavanje i
unutarnje strukture dokumenta#
1>+> .-OBGO,8, ,1)1B$5O,8 * A7)7W$O,8
i prije /III godina ovjek je organizirao informacije za kasnije pretraivanje i
upotrebu
prvi primjeri su bili sadraji
poveavanjem SvolumenaS nastajali su indeksi ? skupovi izabranih rijei koje su
"pokazivaima# pridruene srodnim informacijama ili dokumentima, omoguuju bri
pristup i snalaenje
runa izrada
razvojem tehnologije automatska izrada
)va su gledita *- problema%
problem 7,456-6$ $1 -1M7$1G1
izgradnja djelotvornih indeksa
djelotvorna obrada upita
razvoj algoritama koji poboljavaju kvalitetu odgovora
problem 7,456-6$ $1 MO@56!1
.rouavanje navika korisnika
-azumijevanje njegovih potreba
Odre;ivanje kako to razumijevanje utjee na organizaciju i rad *-?a
".rema drugome gleditu, upit baziran na kljunim rijeima moe biti prikazan kao nain
rjeavanja problema pronalaenja informacija#
+I
1>+>(> .-68-1L*@1$56 *$3O-412*51 7 !$5*L$*2*
knjinice kao prve institucije s usvojenim *- sustavom za pronalaenje informacija
prva generacija tih sustava se sastojala od automatizacije prijanjih tehnologija
"katalozi#, dok se pretraga vrila prema autoru i naslovu
druga generacija ima poveanu funkcionalnost pretrage time to dozvoljava pretragu
po naslovima, kljunim rijeima>>
trea generacija, trenutno u razvoju, fokus je na poboljanim sueljima, elektronskim
formama, hipertekstualnim karakteristikama
1>+>+> P6A * )*E*81G$6 !$5*L$*26
Peb jo koristi indekse, potekle od prologa stoljea
tri dramatine promjene u skladu s razvojem moderne kompjutorske tehnologije i
nastanka mree%
jeftin pristup informacijama & velik raspon korisnika
vei pristup mreama & dokida se problem udaljenosti, poveanje komunikacijski
mogunosti
slobodan pristup informacijama
Peb kao medij za visoku interakciju & poboljana komunikacija
tri pitanja budunosti
kojim tehnikama pronai kvalitetneNrelevantne informacije "koje zadovoljavaju
potrebe korisnika#C
"poveanje raspona pristupa informacijama, smanjenje ansi za brz odgovor#
kojim tehnikama nainiti bre indekse uz mali utroak vremenaC
"na kvalitetu pronalaenja informacija utjee interakcija korisnika sa sustavom#
kako e bolje razumijevanje korisnikovih navika utjecati na razvoj novih strategija *-
sustavaC
1>+>/> .-1!8*M$* .-OAG64*
sigurnost
problemi se javljaju pri online transakciji novcem, jer moe biti otkriven broj kreditne
kartice
rjeenje je u off?line proceduri ili kodiranju podataka
privatnost informacija
ljudi izmjenjuju informacije samo uz uvjet da ne postanu javne
pravo na patent i publikacijsko pravo
razliiti zakoni zatite tih prava
1>/> .-O26, .-68-1L*@1$51
prije nego proces pretraivanja zapone, potrebno je definirati tekstualnu bazu
podataka "teOt database#
to ini "database manager# prema sljedeem%
Odre;uju se dokumenti koji e biti koriteni
+1
Odre;uju se operacije na tekstu "original to logical vie'#
Odre;uje se model teksta
"database manager# izgra;uje indeks "indeO#
jedna od najvanijih struktura je invertna datoteka "inverted file#
brzo pretraivanje velike koliine podataka
baza podataka dokumenta je indeksirana, te moe zapoeti pretraivanje "retrieval#
korisnik definira svoje potrebe "user need# na kojima se izvravaju tekstualne
operacije
operacije upita "\uerU operations# mogu biti izvrene prije samog upita "\uerU#, da bi
ostvarile prikaz potreba korisnika
upit "\uerU# se obra;uje da bi dobili traene dokumente "retrieved documents#
prije nego to su poslani korisniku, traeni dokumenti su rangirani "ranking#
korisnik pregledava dokument da bi naao relevantne informacije, te zatim pokree
ciklus povratnih informacija "user feedback#, pri kojemu sustav stvara novi upit koji
daje kvalitetnijeNrelevantnije rezultate
O.*, * .O)56G1 4O)6G1 Z1 .-68-1L*@1$56 *$3O-412*51
*ndeksiranje
*ndeks je .,%05)a r$%&5 $,$ s.0/$)a r$%&5$ .(%a $'a s#(%& #,ast$t( 3)a5&)%& $ .(%a s&
/(%a#,%0%& 0 t&.st0 "(.0'&)ta
.roblem
,ustavi pretraivanja koji se baziraju na indeksima mogu biti jako neprecizni jer se
tekst dokumenta reducira na skupinu rijei koji ne moraju dosljedno opisivati
dokument
mnogi Peb korisnici se bune da kod pretraivanja nailaze na previe irelevantnih
informacija
!oji su dokumenti relevantni a koji ne C
*- modeli
1lgoritam za odre;ivanje indeksa je temelj sustava za pretraivanje < *- model
+ klasina *- modela
Aooleov, @ektorski i .robabilistiki
Aooleov model & dokumenti i upiti su formulirani kao skupovi indeksnih termina "set?
theoretic model#
@ektorski model ? dokumenti i upiti su izraeni kao vektori u t?dimenzionalnom
vektorskom prostoru "algebaric model#
.robabilistiki model & temelji se na teoriji vjerojatnosti i tako tretira dokumente i
upite "probabilistic model#
7z klasine razvili su se i alternativni modeli za svaku od navedenih klasa
( naina rada *- sustava
1d hoc & )okumenti u kolekciji su vrlo statini dok se sustav nadopunjuje upitima
? najee se koristi
3iltriranje & 7piti su veinom statini dok dokumenti prolaze kroz sustav "npr>
financijska burza#
3iltriranje
+(
.rilikom filtriranja stvara se korisnikov profil koji opisuje korisnikove postavke
8akav korisniki profil se tada uspore;uje sa pristiglim dokumentima u namjeri da se
odredi to bi korisnika moglo zanimati, a to ne "primjer% kod pretraivanja novina na
'ebu prvo se stvara korisniki profil u kojemu su odre;eni upiti korisnika koji se onda
koriste u pronalaenju odgovarajuih lanaka koji dnevno izlaze ili koji su pohranjeni
u bazi podataka#
!od filtriranja sustav korisniku uzvraa ono to bi ga moglo zanimati, a na korisniku
samome je da odredi da li je to za njega doista relevantno ili nije
,ustav ak ne mora nuditi ni rangiranje filtriranih dokumenata
7koliko sustav ipak nudi rangiranje filtriranih dokumenata cilj je da korisnik moe
pregledati manji broj dokumenata ako pretpostavi da su oni na vrhu rang liste
relevantniji
Ovakvo filtriranje naziva se r(0t$)+, ali nije jako popularno
3iltriranje
!od filtriranja kljuno nije rangiranje dokumenata samo po sebi, ve stvaranje
korisnikog profila koji doista reflektira korisnikove postavke
.ostoji mnogo pristupa stvaranju korisnikih profila
.ristupi stvaranju dobrog korisnikog profila
najjednostavniji pristup & kada je na korisniku da navede kljune rijei "najee
nefunkcionalan jer korisnik ne poznaje sustav i vokabular#
dinamini pristup & interesi korisnika se odre;uju i direktno i posredno "prvo se stvara
primitivni jednostavni model u kojemu korisnik navede kljune rijei po kojima mu
sustav pronalazi potencionalno relevantne dokumente koje korisnik potom ocjenjuje
kao korisne ili beskorisne a sustav prema tim novim informacijama mijenja korisniki
profil koji se nakon nekoliko takvih ciklusa stabilizira#
3ormalna karakterizacija *- modela
Bto je zaista *- modelC
)efinicija
IR model %& 5&t#&r(str0. 6), ^, F, R7 gdje
87 ) %& s&t sasta#,%&) (" ,(+$5.$9 r&/r&3&)tac$%a "(.0'&)ata 0 .(,&.c$%$
(# ^ %& s&t sasta#,%&) (" ,(+$5.$9 r&/r&3&)tac$%a .(r$s)$.(#$9 $)-(r'ac$%s.$9
/(tr&ba
+# F %& (.(s)$ca 3a '("&,$ra)%& r&/r&3&)tac$%a "(.0'&)ata, .(r$s)$5.$9 0/$ta $
)%$9(#$9 #&3a
/# R6:$, "%7 %& -0).c$%a ra)+$ra)%a .(%a upitima :$ ^ i prikazima dokumenata "%
) pridruuje realne brojeve> Ova funkcija definira redoslijed uzvraanja dokumenata s
obzirom na upit
)a bi se izradio model
*zradi se reprezentacija dokumenta
-azradi se okosnica po kojoj e biti modelirano
*zabere se sustav za vrednovanje
Aooleov? skupovi dokumenata i standardne operacije na skupovima
!lasini vektorski model? osnove su sastavljene od t?dimenzionalnog vektorskog
prostora i standardnih linearnih operacija na vektorima
!lasini probabilistiki model, okosnica je sastavljena
od skupova, standardnih operacija vjerojatnosti i AaUesovog teorema
++
.-68-1L*@1$56 *$3O-412*51
!lasino pretraivanje informacija
Osnovni koncept
Aooleov model
@ektorski model
!lasino pretraivanje informacija
Osnovni koncept
,vaki je dokument opisan skupom reprezentativnih kljunih rijei, koje se nazivaju
*$)6!,$* 86-4*$*
*ndeksni termin je rije ija semantika pomae u opisu glavnih tema dokumenta>
*ndeksni termini stoga slue indeksiranju i saimanju sadraja dokumenta>
*ndeksni termini veinom su imenice jer one nose znaenje same po sebi, te je njihovu
semantiku jednostavnije identificirati i shvatiti>
7 skupu indeksnih termina dokumenta primjetno je, da svi termini nisu jednako
korisni u opisivanju sadraja dokumenta & neki indeksni termini nejasniji su od drugih>
Odluivanje o vanosti termina za saimanje sadraja dokumenta nije beznaajno
pitanje_
*ndeksni termini imaju svojstva koja se lako mogu izmjeriti i koja su korisna za
procjenjivanje potencijala takvog termina>
$pr> u zbirci od 1II III dokumenata, rije koja se pojavljuje u svakom od tih
dokumenata potpuno je beskorisna kao indeksni termin jer ne govori nita o
dokumentu za koji je korisnik zainteresiran> , druge strane, rije, koja se pojavljuje u
samo pet dokumenata korisna je, jer suava izbor dokumenata za koje bi korisnik
mogao biti zainteresiran>
,toga, jasno je da razliiti indeksni termini nisu od jednake vanosti pri opisivanju
sadraja dokumenta>
8o je vidljivo u dodjeljivanju tzv> brojanih vrijednosti svim indeksnim terminima
dokumenta>
$eka je k
i
? indeksni termin, d
j
& dokument, a
'
i>j Y I
vrijednost vezana uz par "k
i
, d
j
#> Ova vrijednost kvantitativno odre;uje vanost
indeksnog termina za opisivanje semantikog sadraja dokumenta>
)efinicija% $eka je t broj indeksnih termina u sustavu, a k
i
generiki indeksni termin>
! < `k
1
,>>>,k
t
aje skup svih indeksnih termina>
@rijednost '
i
,
j
Y I vezana je za svaki indeksni termin k
i
dokumenta d
j
>
Za indeksni termin kojega nema u tekstu dokumenta
'
i,j
< I
, dokumentom d
j
povezan je vektor indeksnog termina d
j
prikazan kroz d
j
< "'
1,j
, '
(,j
, >>> ,
'
t,j
#> $adalje, g
i
je funkcija koja vraa vrijednost povezanu s indeksnim terminom k
i
u svakom
t?dimenzialnom vektoru
"i>e>, g
i
"d
j
# < '
ij
#>
@rijednosti indeksnih termina obino se smatraju me;usobno neovisnima> 8o znai
ako znamo vrijednost '
i,j
povezanu uz par "k
i
, d
j
#, to nam ne govori nita o vrijednosti
'
ib1,j
vezanoj uz par "k
ib1,
d
j
# ovo je pojednostavljeno jer pojavljivanja indeksnih
termina u dokumentu nisu nepovezana >
$pr> 8ermini JraunaloK i JmreaK koriste se za indeksiranje nekog dokumenta koji
+/
pokriva podruje raunalnih mrea>
7 tom dokumentu uestalo pojavljivanje jedne od tih rijei povlai pojavljivanje
druge> ,toga, su te dvije rijei povezane i njihove vrijednosti bi mogle odraziti tu
povezanost>
4e;usobna neovisnost je pojednostavljenje te pojednostavljuje zadatak raunanja
vrijednosti indeksnih termina>
4oderne tehnike pronalaenja informacija baziraju se na povezanosti termina i
uspjeno su testirane na odre;enim zbirkama>
8i uspjesi polagano usmjeravaju razumijevanje prema pogodnijim gleditima
korisnosti veza termina u sustavima pretraivanja informacija
8ri su klasina modela pretraivanja informacija%
Aooleov model
@ektor
.robabilistiki model "model vjerojatnosti#
Aooleov model
Aooleov model je jednostavan model pretraivanja informacija, koji se temelji na
postavljenoj teoriji i Aooleovoj algebri>
!ako je koncept skupa prilino intuitivan, Aooleov model omoguava lako shvaanje
od strane korisnika *- sustava "information retrieval < informatiko pretraivanje#>
7piti su predstavljeni kao Aooleovi izrazi sa tono odre;enom semantikom>
Aooleov model zapaen je prethodnih godina i preuzeli su ga mnogi raniji
komercijalni bibliografski sustavi>
Aooleov model, naalost, ima velike nedostatke%
$jegova strategija pretraivanja temelji se na kriteriju binarne odluke "predvi;a se
relevantnost ili nerelevantnost dokumenta# bez rangiranja to spreava dobru izvedbu
pronalaenja>
,toga je Aooleov model vie model pretraivanja podataka nego informacija>
dok Aooleovi izrazi imaju tono odre;enu semantiku, esto nije jednostavno prevesti
informacijsku potrebu u Aooleov izraz>
@eina korisnika teko izraava zahtjeve upita u sklopu Aooleovih izraza>
7sprkos tim nedostacima, Aooleov model jo je uvijek dominantan u sustavima baza
podataka i prua dobru poetnu toku novima na tom podruju>
Aooleov model uzima u obzir prisutnost, odnosno, odsutnost indeksnih termina u
dokumentu> !ao rezultat toga sve vrijednosti indeksnih termina smatraju se binarnima
"'
i,j
c `I,1a#> 7pit ^ sastoji se od indeksnih termina povezanih trima veznicima% JnotK,
JandK i JorK> 7pit je konvencionalni Aooleov izraz koji se moe prikazati kao rastavni ili
povezni vektor>
Aooleov model predvi;a da je svaki dokument ili relevantan ili nerelevantan> $e
postoji mogunost djelominog odgovaranja uvjetima upita>
Elavne prednosti Aooleovog modela su isti formalizam i jednostavnost>
Elavni nedostaci su to tona preklapanja mogu dovesti do pronalaska premalo ili
previe dokumenata>
@ektorski model
@ektorski model d9H=, 9H0e prepoznaje da je upotreba binarnih vrijednosti previe
ograniavajua i predlae mogunost upotrebe djelominog preklapanja>
+0
8o se postie dodjeljivanjem ne?binarnih vrijednosti indeksnim terminima u upitima i
dokumentima> 8e vrijednosti na kraju se koriste za raunanje st0/)%a s,$5)(st$ izme;u
svih dokumenata pohranjenih u sustavu i upitu>
,ortiranjem prona;enih dokumenata padajuim redoslijedom st0/)%a s,$5)(st$ -
vektorski model uzima u obzir dokumente, koji djelomino odgovaraju terminima
upita>
Elavni rezultirajui uinak je: vea preciznost u pronalaenju informacija potrebnih
korisniku od onog u Aooleovom modelu>
@ektorski model procjenjuje stupanj slinosti dokumenta d
j
s obzirom na upit ^ kao
veze izme;u vektora < d
j
i ^> )okument moe biti prona;en ak i ako samo
djelomino odgovara upitu>
@rijednosti indeksnih termina mogu se izraunati na puno razliitih naina%
-ad ,altona i 4cEilla d9HDe obra;uje razliite tehnike odre;ivanja vrijednosti
termina>
Elavna ideja najuinkovitijeg odre;ivanja vrijednosti termina vezana je uz osnovne
principe koji podupiru tehnike grupiranja>
1ko imamo zbirku objekata 2 i nejasan opis skupa 1, cilj jednostavnog algoritma
grupiranja mogao bi biti razdvajanje objekata zbirke 2 u dva skupa% prvog: koji se
sastoji od objekata vezanih uz skup 1 i drugog koji se sastoji od objekata koji nisu
vezani uz skup 1 >
,ofisticiraniji algoritmi grupiranja pokuali bi razdvojiti objekte zbirke u vie grupa
"klasa# ovisno o njihovim svojstvima>
.ogled na *- problem kao problem grupiranja ",alton#%
)okumente smatramo zbirkom objekata 2, a korisniki upit "nejasnom#
specifikacijom skupa objekata 1 ? u tom sluaju *- problem moe se svesti na
problem odre;ivanja koji su dokumenti u skupu 1, a koji nisu
7 problemu grupiranja moraju se rijeiti dva glavna pitanja%
8reba se odrediti koje su karakteristike koje najbolje opisuju objekte u skupu 1 >
8rebaju se odrediti karakteristike koje najbolje odre;uju razlike izme;u objekata
skupa 1 i preostalih objekata zbirke 2 >
.rva skupina karakteristika omoguava kvantitativno odre;ivanje unutar?grupnih
slinosti, a druga unutar?grupnih razlika>
$ajuspjeniji algoritmi grupiranja pokuavaju uravnoteiti ta dva uinka>
7 vektorskom modelu, unutar?grupne slinosti se kvantitativno odre;uju mjerenjem
frekvencije termina k
i
unutar dokumenta d
j
> 8a frekvencija termina je tf faktor i
prikazuje mjeru kako dobro taj termin opisuje sadraj dokumenta "unutar &
dokumentna karakterizacija#> 7nutar grupne razlike se kvantitativno odre;uju
mjerenjem inverzne frekvencije termina k
i
me;u dokumentima zbirke> 8aj se faktor
zove idf faktor "inverse document fre\uencU < inverzna frekvencija dokumenta#>
4otivacija za upotrebu idf faktora je to to termini koji se pojavljuju u mnogim
dokumentima nisu korisni za razlikovanje relevantnih od nerelevantnih dokumenata>
!od dobrih algoritama grupiranja, najuinkovitije sheme odre;ivanja vrijednosti
termina pokuavaju uravnoteiti ta dva uinka>
Elavne prednosti vektorskog modela
$jegova shema odre;ivanja vrijednosti termina unapre;uje izvedbu potranje>
,trategija djelominog odgovaranja omoguava pronalaenja dokumenta koji
priblino odgovaraju uvjetima upita>
-angiranjem se sortiraju dokumenti prema stupnju slinosti u upitu>
+9
$edostatak vektorskog modela
*ndeksni termini smatraju se me;usobno neovisnima>
7sprkos svojoj jednostavnosti, vektorski model je fleksibilna strategija rangiranja
opih zbirki>
,uperioran je ili gotovo dobar kao poznate alternative>
Arz je i jednostavan>
Zbog tih razloga danas je popularan model pretraivanja informacija>
O256$5*@1$56 ,7,81@1 Z1 .-68-1L*@1$56 *$3O-412*51
7@O)
- .rije zavrne implementacije sustava za pretraivanje informacija, radi se ocjenjivanje
tog sustava
- .rvi tip ocjenjivanja je funkcionalna analiza u kojoj se jedna po jedna ispituju funkcije
sustava
- 3unkcionalna analiza trebala bi sadravati i analizu greaka gdje se namjerno
pokuava JsruitiK sustav nastojei pronai greke u programiranju
- $akon to sustav pro;e funkcionalnu analizu, procjenjuje se izvedba samog sustava
- $ajee mjere izvedbe sistema su @-*5646 i .-O,8O-
- Bto je vrijeme odgovora krae i to je manje prostora koriteno, to je sustav bolji
- Osim vremena i prostora, postoje jo neke mjere koje se koriste u sustavu za
pretraivanje informacija
- .oto je korisnikov upit relativno nejasan, prona;eni dokumenti nisu toni odgovori i
stoga moraju biti rangirani prema relevantnosti
- -angiranje po relevantnosti predstavlja centralnu ulogu u pretraivanju informacija
- ,ustavima za pretraivanje informacija potrebna je procjena preciznosti odgovora, a
nju zovemo .-O256$1 7M*$!O@*8O,8* ,7,81@1 Z1 .-68-1L*@1$56
"r&tr$&#a, /&r-(r'a)c& &#a,0at$()#
- 8akva je procjena obino bazirana na referentnoj testnoj zbirci i na mjeri procjene>
- -eferentna testna zbirka se sastoji od zbirke dokumenata, seta primjera informacijskih
upita i seta relevantnih dokumenata "koje prua informacijski strunjak# za svaki od
tih upita
- 456-1 .-O256$6 0s/(r&;0%& set prona;enih dokumenata sa setom dokumenata
koje je priskrbio informacijski strunjak
- $a taj nain dobije se procjena #a,%a)(st$ strategije pretraivanja
.-O256$1 7M*$!O@*8O,8* ,7,81@1 Z1 .-68-1L*@1$56
- !od ocjenjivanja uinkovitosti sustava za pretraivanje nuno je uzeti u obzir tip
zadatka koji se ocjenjuje
- .ostoje ( tipa zadataka, a to su%
1> A182V 4O)6 "serijski obra;en upit#
? korisnik postavlja upit i dobiva natrag konkretan odgovor
? mjeri se iskljuivo kvaliteta generiranog seta odgovora
(> *$86-1!8*@$* $1M*$ ? korisnik specificira
+=
svoju potrebu za informacijom kroz seriju interaktivnih koraka sa sustavom
? mjeri se korisnikov trud, karakteristike dizajna suelja,
pomo sustava i duljina trajanja samog pretraivanja
- Osim tipa zadatka, poeljno je uzeti u obzir i okolinu u kojoj se ocjenjivanje odvijalo
"laboratorij ili stvaran ivot#
.rilikom ovakvog definiranja odziva i preciznosti pretpostavlja se da su svi dokumenti u
skupu odgovora pregledani>
4e;utim korisnik ne pregledava sve dokumente nego su oni prvo sortirani po stupnju
relevantnosti> !orisnik pregledava listu poevi od najrelevantnijih>
Odziv i preciznost informacija se mijenjaju kako korisnik pregledava listu>
Za ispravno procjenjivanje potrebno je izraditi krivulje i grafikon preciznostiNodziva>
.rimjer% -\ su relevantni dokumenti za na upit " u ovom primjeru ima 1I relevantnih
dokumenata #
-\< d+, d0, dH, d(0, d+H, d//, d09, d=1, dDH, d1(+

falgoritam pretraivanjag "retrieval algorithm# vrati, za upit ^, poredak dokumenata u
sljedeem rangu %
d1(+
dD/
d09
d9
dD
dH
d011
d1(H
d1D=
d(0
d+D
d/D
d(0I
d11+
d+
dokumenti relevantni za upit ^ oznaeni su crvenom tokom
!orisnik pone od dokumenta na rangu broj 1 "d1(+#>
)a li je d1(+ relevantanC )1>
)akle, odgovara postotku od 1Ih svih relevantnih dokumenata "1N1I# u setu -\ i
kaemo da ima tonost od 1IIh u 1Ih odziva
!orisnik pregledava sljedei dokument dD/>
)a li je dD/ relevantanC $6>
!orisnik pregledava sljedei dokument d09>
)a li je d09 relevantanC )1>
d09 je na rangu broj +
)akle, ima tonost od 99h "( od + dosad pregledana dokumenta su relevantna# u (Ih
odziva "( od 1I relevantnih dokumenata je pregledano#
1ko nastavimo, vidjet emo da tonost na razinama odziva iznad 0Ih pada na Ih jer
nisu prona;eni svi relevantni dokumenti
!ada se postavlja vie razliitih upita za svaki se od njih radi posebna krivulja> )a bi
se ocijenila cjelokupna izvedba algoritama za pretraivanje informacija izraunava se
+D
prosjena preciznost na nivou odziva>
@rijednosti odziva za svaki upit mogu biti razliite od 11 standardnih vrijednosti
odziva , pa je esto potrebno koristiti postupak interpolacije "umetanja#>
*nterpolacija
Audui da razine odziva za razliite upite ne moraju biti uvijek na svih 11 standardnih
razina odziva, koristi se interpolacija kako bi se mogla nacrtati cijela krivulja
.risjetimo se rang liste%
d1(+
dD/
d09
d9
dD
dH
d011
d1(H
d1D=
d(0
d+D
d/D
d(0I
d11+
d+
,kup relevantnih dokumenata za upit se promijenio i glasi -\ < `d+, d09, d1(Ha
prvi relevantni dok> "d09# je na rangu + i ima odziv ++,+h "1 od + relevantna
dokumenta je pregledan# te preciznost ++,+h "1 od + dosad pregledana dokumenta su
relevantna#
drugi relevantni dok> "d1(H# je na rangu D i ima odziv 99,9h "( od + relevantna
dokumenta su pregledana# te preciznost (0h "( od D dosad pregledanih dokumenata
su relevantna#
trei relevantni dok> "d+# je na rangu 10 i ima odziv 1IIh "+ od + relevantna
dokumenta su pregledana# te preciznost (Ih "+ od 10 pregledanih dokumenata su
relevantna#
)akle, iz gornjeg primjera, imamo izraunatu tonost za odziv na razinama% ++>+h,
99>9h i 1IIh>
*nterpolacija za svih 11 standardnih razina odziva se rauna na sljedei nain%
)akle, u naem primjeru na standardnim razinama odziva od Ih, 1Ih, (Ih i +Ih,
interpolirana razina tonosti je ++>+h "izraunata tonost na razini odziva ++,+h#
$a standardnim razinama odziva od /Ih, 0Ih, i 9Ih, interpolirana razina odziva je
(0h "izraunata tonost na razini odziva 99,9h#
$a standardnim razinama odziva od =Ih, DIh, HIh i 1IIh "interpolirana razina
odziva je (Ih izraunata tonost na razini odziva 1IIh#
*nterpolacija je korisna za usporedbu i vrednovanje pretraivanja novih algoritama s
npr> klasinim vektorskim algoritmima koji rade iskljuivo sa standardnih 11 razina
odziva
8ako;er je korisna i za usporedbu uspjeha pretraivanja razliitih novih algoritama
.-6EG6) .O56)*$1M$*V 456-6$51
+H
- .rosjek preciznosti i odziva je koristan za usporedbu izvedbe odre;enih algoritama za
pretraivanje koji imaju odre;en set upita
- 1li ipak postoje situacije u kojima bi sami htjeli usporediti izvedbe svojih algoritama
za pretraivanje u individualnim upitima
- ( su razloga za to%
1> *zraunavanje prosjeka preciznosti za vie upita moe prikriti anomalije u algoritmima za
pretraivanje
(> 7sporedbom dva algoritma na pojedinanom upitu moemo ispitati postie li jedan od njih
bolje rezultate za svaki upit u danom setu testnih upita "to se inae moe prikriti kod
raunanja prosjeka tonosti#
- 7 takvim situacijama koristi se%
- pojedinana vrijednost preciznosti i oitava se kao povrina ispod krivulje preciznosti i
odziva na koju se odnosi
- preciznost na odre;enom nivou odziva "11 nivoa odziva#
- 1li, to nije i najbolji pristup: postoje i mnogo zanimljiviji naini, a neki od njih su%
1> /r&c$3)(st #$;&)$9 r&,&#a)t)$9 "(.0'&)ata,
(> R-/r&c$3)(st $
+> histogrami preciznosti
8< Pr&c$3)(st #$;&)$9 r&,&#a)t)$9 "(.0'&)ata
- .reciznost se izraunava za svaki upit iza svakog relevantnog dokumenta na rang listi
- *zraunava se prosjek nad tokama preciznosti za svaki upit, a nakon toga izraunava
se prosjek nad svim upitima
- Ovakav nain mjerenja favorizira sustave koji brzo pretrauju dokumente i daje dobar
uvid u prosjenu preciznost vi;enih relevantnih dokumenata, ali daje slab uvid to se
tie ukupnog odziva
4< R-/r&c$3)(st
- *zraunava se tonost na -?toj poziciji na rang listi, gdje je - ukupan broj relevantnih
dokumenata za odre;eni upit
- 1ko je - < 1I "imamo 1I relevantnih dokumenata za upit# i ako su na rang?listi
izme;u prvih 1I dokumenata / relevantna, -?tonost za deseti dokument na listi < I>/
- Ovakav nain mjerenja koristan je u promatranju ponaanja algoritma za svaki
individualni upit u eksperimentu
=< >$st(+ra'$ /r&c$3)(st$
- -?preciznost za vie upita moe se koristiti i za usporedbu povijesti pretraivanja (
algoritma%
RPA?B6$7 @ RPA6$7 A RPB6$7
- .ozitivan rezultat znai bolju izvedbu algoritma 1, dok negativan rezultat znai bolju
izvedbu algoritma A%
PRIMJERENOST PRECIZNOSTI I ODZIVA
- .reciznost i odziv esto se koriste za ocjenu izvedbe algoritama za pretraivanje, ali
detaljniji uvid otkriva odre;ene nedostatke u gore navedenim nainima mjerenja%
1> Za pravilnu procjenu maksimalnog odziva za upit potrebno je detaljno
znanje o svim dokumentima u zbirci
(> .reciznost i odziv me;usobno su povezani naini mjerenja, ali obuhvaaju
razliite aspekte seta pretraenih dokumenata
+> *sto tako, oni mjere uinkovitost za skup upita u batch modu "serijski
odgovor na upit#, a u modernim sustavima vanija je interaktivnost
/> Gako ih je definirati tek kada imamo linearni poredak
/I
prona;enih dokumenata
8-6$)O@* * .-OAG64* .-68-1L*@1$51
2124, *,* i 23 !OG6!2*56
7@O)
8-62 kolekcije & problemi pri koritenju%
? velike kolekcije
? zahtijevaju puno pripreme prije aktivnog
koritenja
? testiranje zahtjeva puno vremena i truda
-jeenje% koritenje manjih kolekcija
? vrijeme instaliranja i eksperimentiranja je znatno
!rae
2124 kolekcija
2alifornia 1ssociation of 2omunitU 4enagers
)okumenti u 2124 kolekciji se sastoje od svih +(I/ lanka publiciranih u
2ommunications of the 124 od 1H0D> do 1H=H>g>
8i dokumenti pokrivaju veliko podruje znanstvene literature o raunalima "asopis je
godinama bio najrelevantniji u svom podruju#
!olekcija uz tekstove dokumenta sadri i informacije o pojedinim podpodrujima%
? autorovo ime
? datum publikacije
? korijen rijei iz naslova i saetka
? kategorije izvedene iz hijerarhijske klasifikac> sheme
? direktne reference izme;u lanaka
? bibliografske veze
? broj ko?citata za svaki par lanak
2124 kolekcije osiguravaju jedinstvenu okolinu za testiranje algoritama koji su
bazirani na informaciji izvedenoj iz me;u?citiranih uzoraka
Osim tekstova i podpodruja 2124 kolekcija sadri i 0( informacijska upita
npr> !oji lanci se bave sa 8,, "8ime ,haring ,Ustem#, operativnim sustavom za *A4
raunalaC
Za svaki takav upit kolekcija ima ( Aoolova upita i skup relevantnih dokumenata
$iska preciznost i odziv, jer su informacijski upiti jako specifini pa je i prosjean
broj prona;enih relevantnih dokumenata malen"oko 10#
*,* kolekcija
Mesto se naziva i 2*,*
$astala je na temelju ranije kolekcije koju je sastavio ,mall s *nstitute of ,cientific
*nformation "*,*#
,astoji se od 1/9I dokumenata sa podruja informacijskih znanosti
Odabrani su oni dokumenti koji su najee citirani u ,mallovoj studiji o
me;ucitatnim uzorcima
Elavna svrha *,* kolekcije je podravanje istraivanja slinosti na temelju uvjeta i
me;ucitatnih uzoraka
)okumenti u *,* kolekciji ukljuuje + podruja%
/1
? autorovo ime
? korijen rijei naslova i saetke
? broj ko?citata za svaki par lanaka
*,* kolekcija sadri i%
? +0 test informacijskih upita sa Aoolovim upitima
? /1 dodatan bez Aoolovih upita
*nformacijski upiti su openiti i to rezultira velikim
brojem uzvraenih relevantnih dokumenata "oko 0I#
.ostotak relevantnih dokumenata dobivenih
upitom je puno vei kod *,* kolekcije "+>/ h# nego
kod 2124 kolekcije "I>0 h#
23 "2Ustic 3ibrosis# kolekcija
,astoji se od 1(+H dokumenata indeksiranih terminom JcUstic fibriosisK u bazi
46)G*$6 $ational GibrarU of 4edicine
,vaki dokument sadri podruja%
? 46)G*$6 pristupni broj ? reference
? autor ? citate
? naslov
? izvor
? glavni predmeti
? sporedni predmeti
? saetak ili izvadak
!olekcija sadri i%
1II informacijskih upita
dokumente relevantne za svaki upit
Aitne karakteristike%
1> ocjene relevantnosti% svaki dokument dobiva / ocjene
.rimjer%
1> ocjena% I "nerelevantan#, 1 "granino relevantan#, ( "visoko
relevantan#
(> ocjena% generalna ocjena "u odnosu na upit# dokument moe dobiti
ocjenu izme;u I i D
*td]
.rosjean broj relevantnih dokumenata po upitu je izme;u 1I i +I
*ako je mala, 23 kolekcija ima ( vane
karakteristike%
? skup relevantnih rezultata su napravili eksperti
na temelju paljive procjene
? ukljuuje velik broj informacijskih upita to
rezultira preklapanjima vektora pretraivanja
8rendovi i problemi pretraivanja
Elavni trend danas je interaktivno pretraivanje
4otiviran je uvjerenjem da uspjeno pretraivanje uvelike ovisi o dobivanju povratne
informacije od korisnika
7 budunosti e studije koje procjenjuju interaktivno pretraivanje biti sve
uobiajenije
.-O256$1 .-68-1L*@1$51
/(
ALTERNATIVNE MJERE
6ALTERNATIVE MEASURES7
Audui da odziv i preciznost usprkos svojoj popularnosti nisu uvijek najprikladnija
mjerila za procjenu procesa pretraivanja inf>, tijekom godina predloene su
alternativne mjere%
1# V1-4O$*5,!1 ,-6)*$1 "8he Varmonic 4ean#
r"j# < odziv dok> 5 na rang listi dokumenata
."j#< preciznost dok> 5 na rang listi dokumenata
3"j#< harmonijska sredina izme;u r i .
3unkcija 3 poprima vrijednosti samo u intervalu d I, 1 e
3<I% nije prona;en niti jedan relevantan dokument
3<1% svi prona;eni dok> su relevantni
@rijednost funkcije 3 je visoka jedino ako su i vrijednosti za r i . visoke
8enja ka maksimalnoj vrijednosti funkcije 3 moe se objasniti kao pokuaj pronala?
ska idealnog kompromisa izme;u odziva i preciznosti>

(# 6 456-1 " 8he 6 4easure#
5o jedna od mjera koja kombinira odziv i preciznost>
.redloio ju je -ijsbergen>
Ova mjera omoguuje korisniku da sam odredi zanima li ga vie odziv ili preciznost>
r< odziv za dok> 5 na rang listi dokumenata
.< preciznost za dok> 5 na rang listi dokumenata
6 "j#< mjera procjene za r i .
b<parametar koji odre;uje korisnik
"izraava relativnu vanost r i . za korisnika#
b<1 ,funkcija djeluje po naelu harmonijske sredine
bY1 , korisnika vie zanima preciznost nego odziv
bi1 , korisnika vie zanima odziv nego preciznost
+# 456-6 O-*56$8*-1$6 .-641 !O-*,$*!7
Odziv i preciznost bazirani su na pretpostavci da je skup relativnih dok> za svaki upit
jednak, te da ne zavisi o korisniku>
-azliiti korisnici razliito definiraju koji su dok> relevantni, a koji nisu>
,toga su predloene mjere orijentirane prema korisniku%
1# stupanj pokrivenosti " coverage ratio#
.okrivenost < j -kj N j7j
-k< prona;eni relevantni dokumenti koji su korisniku poznati
7< relevantni dok> u cijeloj zbirci koji su korisniku poznati
@isok stupanj pokrivenosti upuuje na to da je sustav pronaao
veinu relevantnih dok> koje je korisnik oekivao pronai
(# ,tupanj novosti "noveltU ratio#
$ovost < j-uj N " j-ujb j-kj #
/+
-u< prona;eni rel>dok> prethodno nepoznati korisniku
-k< prona;eni rel>dok> prethodno poznati korisniku
@isoka vrijednost stupnja novosti sugerira da je sustav pronaao mnogo rel>dok>
prethodno nepoznatih korisniku>
+# -elativni odziv "relative recall#
-elativni odziv < Ar> prona;enih rel>dok> N br> rel> dok> koje je korisnik oekivao prona
7 sluaju kad korisnik prona;e sve rel>dok> koje je oekivao pronai, prekida potragu i
iznos relativnog odziva je 1
/# 8rud uloen u odziv " recall effort#
Ar> rel> dok koje je korisnik oekivao pronai N br>dok> koje je korisnik pregledao u
nastojanju da prona;e oekivane rel>dok>
Ostale mjere %
1# oekivana duljina traenja "eOpected search length#
(# zadovoljstvo "satisfaction#, uzima u obzir samo rel>dok
+# frustracija "frustration#, uzima u obzir samo nerel>dok>
.-*456-* -636-6$8$*V 86,8$*V ZA*-!*%
.ostoji vie zbirki referenci koje su se tijekom godina koristile za procjenu sustava za
dobavljanje inf>
1# 8*.,86-N 8-62 zbirka
zbog svoje veliine i visoke zastupljenosti eksperimentiranja, danas se smatra test?
zbirkom
(# 2124 i *,8 zbirka
ima povijesnu vanost na podruju dobavljanja inf>
+# 2X,8*2 3*A-O,*, zbirka
.rimjeri zahtjeva za informacijama iz ove zbirke bili su intenzivno prouavani prije
nego to su stvoreni skupovi relevantnih dok>
TREC 3b$r.a
eng> 8eOt -6trieval 2onference
godinja konferencija posveena eksperimentiranju s velikim referentnim test?
zbirkama koje sadre milijune dokumenata
istraivake grupe na konferenciji koriste te zbirke radi uspore;ivanja s vlastitim sustavima p
CILJ KONFERENCIJEB
poticanje istraivanja u pretraivanju informacija u velikim test?zbirkama
uniformiranje naina obiljeavanja
stvaranje foruma za organizacije koje ele usporediti svoje rezultate
grupe koje sudjeluju u konferenciji koriste istu test?zbirku koja sadri vie od milijun
dokumenata "oko ( EA teksta# i unaprijed zadane teme pretraivanja
rezultati se zatim uspore;uju radi evaluacije razliitih tehnika pretraivanja i grupa
prva konferencija odrana je u studenom 1HH(> u $acionalnom institutu za standarde i
tehnologiju u 4arUlandu
//
DIJELOVI TREC ZBIRKEB
dokumenti
primjeri informacijskih zahtjeva "tema#
set relevantnih dokumenata za svaki primjer informacijskog zahtjeva
ZBIRKA DOKUMENATA
poveava se svake godine
od 1HHD> ukinut je copUright i omoguen slobodan pristup dokumentima koritenima
na konferencijama
8-62 zbirka nalazi se na 9 2)?-O4 diskova od otprilike 1 EA komprimiranog
teksta po disku
u svakom dokumentu nastoji se sauvati to vie originalne strukture dokumenta
istovremeno pruajui jedinstveni okvir koji omoguava jednostavnije dekodiranje
podataka
manje se strukture mogu razlikovati u podzbirkama radi ouvanja dijelova strukture
originalnog dokumenta
PRIMJERI INFORMACIJSKI> ZA>TJEVA 6t&'a7
proces transformiranja zahtjeva u upit "Aooleovi izrazi, fuzzU izrazi i sl># mora izvriti
sam sustav to je kljuno pri evaluaciji
za prvih 9 8-62 konferencija pripremljeno je oko +0I tema od strane iskusnih
korisnika stvarnih sustava pretraivanja, na temelju najuestalijih zahtjeva
RELEVANTNI DOKUMENTI ZA SVAKU TEMU
sustav odabire odre;eni broj relevantnih dokumenata "najee 1II#, a potom se
odluuje o relevantnosti svakog pojedinog dokumenta
metoda "Jpooling methodK# se zasniva na ( pretpostavke%
& veina relevantnih dokumenata nalazi se u odabranoj kolekciji
(> preostali dokumenti ne smatraju se relevantnima
ZADACI NA TREC KONFERENCIJAMA
( osnovna zadatka u pretraivanju informacija%
1) VO2
set novih zahtjeva testira se na prethodno utvr;enoj bazi dokumenata "npr> knjinice#
usmjeravanje "J-O78*$E 81,!K#
set utvr;enih zahtjeva testira se na bazi dokumenata koja se neprestano mijenja, a
rezultati se rangiraju
sustavi primaju teme pretraivanja i ( razliita seta dokumenata "prvi za uskla;ivanje
algoritma za pretraivanje, a drugi za finalno testiranje#
DODATNI ZADACI
60#&"&)$ )a C< .()-&r&)c$%$7
ZADATAK NA KINESKOM JEZIKU
ad hoc zadatak u kojem su dokumenti i zahtjevi postavljeni na kineskom jeziku
FILTRIRANJE
odluuje se o relevantnosti dokumenta bez naknadnog rangiranja
INTERAKTIVNI ZADATAK
ovjek JkomuniciraK sa sustavom prilikom odabira relevantnog dokumenta
VIDEJEZINI ZADATAK
/0
zahtjevi su postavljeni na jeziku razliitom od jezika dokumenata
60#&"&)$ )a C< .()-&r&)c$%$7
NLP ZADATAK
usporedba algoritama za pretraivanje informacija baziranih na prirodnom jeziku i onih
baziranih na indeksnim oznakama
ZADATAK VISOKE PRECIZNOSTI
u periodu od 0 minuta treba izvriti pretraivanje na odre;enu temu "prethodno nepoznatu#
i prezentirati 1I relevantnih dokumenata
PRETRAIVANJE TRANSKRIPATA
pretrauju se transkripti radio emisija
ZADATAK IZRAZITO VELIKOG KORPUSA
pretrauju se kolekcije podataka veliine (I EA "=>0 milijuna dokumenata#

DOPUDTENE METODE PRETRAIVANJA
AUTOMATSKE METODE
upiti se deriviraju automatski iz postavljenog zahtjeva
RUNE METODE
upiti se deriviraju bilo kojim drugim nainom "osim potpuno automatskim#
METODE EVALUACIJE
TABLICE SUMARNE STATISTIKE
ukljuuju statistike%
broj tema koritenih u zadatku
ukupan broj prona;enih dokumenata po svakoj temi
broj prona;enih relevantnih dokumenata po temi
ukupan broj relevantnih dokumenata koji su se mogli pronai
PROSJEK TONOSTI
tablica ili graf s prosjekom tonosti pretraivanja "po svim temama# na svakoj od 11
standardnih razina odaziva
PROSJEK TONOSTI NA RAZINI DOKUMENTA
prosjena tonost "po svim temama# rauna se na tono odre;enim graninim vrijednostima
dokumenata
>ISTOGRAM PROSJENE TONOSTI
graf koji ukljuuje pojedinano mjerenje s prikazom statistika za svaku pojedinu temu
,8-7!87-1G$* 7.*8*
7@O)
k 7 ovoj prezentaciji obra;ujemo razliite vrste upita postavljene sustavima za pretraivanje
teksta
k 5ezici za upit uglavnom koristite sadraj "semantiku# i strukturu teksta "sintaksu# za
pronalazak relevantnog dokumenta
k @rsta upita ovisi o modelu pretraivanja
,emantika i sintaksa nisu uvijek dovoljne
/9
7pit je ponekad potrebno proiriti%
& upotrebom tezaurusa za proirenje upita
& upotrebom korjenovanja "svi oblici jedne rijei se grupiraju#
& rijei se dodaje skup sinonima
& ignoriranjem stop rijei kod upita
"stop rijei < rijei koje nemaju znaenja a pojavljuju se esto#
7.*8* 8646G56$* $1 !G57M$*4 -*56M*41
7pit je formulacija korisnikove informacijske potrebe
$ajjednostavniji upit je sastavljen od%
l kljunih rijei
l dokumenata koji sadre te kljune rijei
7piti u kojima se koriste kljune rijei omoguuju brzo rangiranje i lako ih je
formulirati
7.*8* 8646G56$* $1 -*56M*
-ije <najosnovniji element upita u *- sustavu
)okument se smatra nizom rijei
-ije se definira kao niz slova okruenih razmacima
4nogi modeli "npr> vektorski# su strukturirani oko koncepta rijei
-ijei su jedine jedinice upita koje su doputene u takvom modelu sustava
-ezultat upita temeljenog na rijei je skup dokumenata koji sadri barem jednu rije iz
upita
7.*8* 8646G56$* $1 !O$86!,87
4nogi sustavi osim upita u obliku rijei uzimaju u obzir i mogunost pronalaska
odre;ene rijei u danom kontekstu, dakle, supojavljivanje uz druge rijei
3-1Z1 je upit u obliku niza rijei
.rimjerice, upiti iskljuivo u obliku rijei trait e odvojeno rijei% JpretraivanjeK i
JinformacijaK
7piti u obliku fraza trait e pojam Jpretraivanje informacijaK
*46$,!1 ,!7.*$1 je upit temeljen na sklopu imenica ija sintaktika udaljenost
"mjerena brojem rijei izme;u dvije imenice# ne prelazi prije definirani prag
& .rimjerice, ako imamo niz rijei% J>>pretraivanje u svrhu dobivanja informacija]>K,
moemo rei da se ( rijei JpretraivanjeK i JinformacijaK pojavljuju u okviru od 0
rijei i proglasiti ih *46$,!O4 ,!7.*$O4
AOOG6O@* 7.*8*
najstarija forma kombiniranja upita pomou Aooleovih operatora koja se jo uvijek
esto koristi
,astoji se od% ? atoma
? Aooleovih operatora
atomi & osnovni upiti
Aooleovi operatori & rade na setovima dokumenata i isporuuju setove dokumenata
najee koriteni operatori "na bazi dva izraza# su%
O- "izraz1 O- izraz(# & svi dokumenti koji zadovoljavaju izraz1 ili izraz(, a duplikati
su uklonjeni
1$) "izraz1 1$) izraz(# & svi dokumenti koji zadovoljavaju i izraz1 i izraz(
$O8 "izraz1 A78 izraz(# & svi dokumenti koji zadovoljavaju izraz1, ali ne i izraz(
"klasina Aooleova logika koristi operator $O8 gdje je izraz1 valjan svaki put kad
/=
izraz( nije#
informacijski sustavi za pretraivanje "*- sUstems# & odabiru prikladne dokumente i
sortiraju ih po raznim kriterijima, izdvajaju prona;ene rijei iz upita u prona;enom
dokumentu, mogua reformulacija upita sa prethodno dobivenim odgovorima na
traeni upit
kod klasinih Aooleovih sustava rezultat ili zadovoljava ili ne zadovoljava dani upit &
ogranienje kod pretraivanja% nema djelominog podudaranja izme;u dokumenta i
korisnikovog upita
laici tee barataju Aooleovim opeatorima & predloen RfuzzU AooleanT
RfuzzU AooleanT & proireno znaenje operatora 1$) i O- pa se traeni element ne
mora pojavljivati u svim dokumentima "1$)# ili u barem jednom "O-# nego samo u
nekima "pri tom 1$) trai da se element pojavi u vie dokumenata nego O-#
.-*-O)$* 56Z*!
pretrauju se svi dokumenti koji odgovaraju korisnikovom upitu
moe se smatrati da su Aooleovi upiti pojednostavljena apstrakcija upita postavljenih
prirodnim jezikom
razlika izme;u 1$) i O- postaje neodre;ena & upit postaje nabrajanje rijei i
kontekstualnih upita
kriteriji za pretragu mogu biti izraeni pomou drugih modela "npr> vektorski#
upit moe biti pretvoren u vektor teine znaenja & cilj je pretraiti sve vektore
"dokumente# koji su slini upitu
.O)7)1-1$56 7ZO-1!1
specifine formulacije upita bazirane na konceptu uzorka
omoguuju pretraivanje dijelova teksta s istim svojstvima
7ZO-1!& grupa sintaktikih karakteristika koja se mora pojavljivati u odre;enom
dijelu teksta
kada tekst ili dio teksta posjeduje te karakteristike, on se podudara s uzorkom
svaki sustav doputa specifikaciju nekih tipova uzoraka koji mogu biti% jednostavni
"rije# ili kompleksni "izrazi#
najee koriteni tipovi uzoraka%
& -*56M "'ord# & niz znakova, a nalazi se u tekstu
& .-63*!, "prefiO# & niz koji formira poetak rijei u tekstu> ,a prefiksom
JinformacijK, svi dokumenti koji sadre nizove JinformacijaK, JinformacijskiK, itd e
biti prona;eni
& ,73*!, "sufiO# & niz koji formira kraj rijei u tekstu "npr> *nformacija, policija,
garancija, itd>>#
& .O)$*Z "substring# & niz koji se moe pojaviti unutar rijei u tekstu "informacija,
formulirati, oformiti #
& )O.7B81$56 E-6B!6 "alo'ing errors# & pretraivanje svih rijei koje su sline
rijei danoj u upitu "npr> 1ko je prona;en tipfeler, rije proputanje e biti prona;ena
kao poroputanje#
& -1,.O$ "rang# & par nizova koji se podudaraju s bilo kojom rijei koja postoji
izme;u njih u leksikografskom poretku> .rimjerice, ako imamo rang izme;u
JpreputanjeK i JproputanjeK, i rije JpriputanjeK e biti prona;ena
,8-7!87-1G$* 7.*8
)anas novija obiljeja teksta, primjerice, strukture teksta "npr> V84G struktura#ne
mogu koristiti starije modele upita
!od pretraivanja vano je razlikovati%
/D
& strukturu koju tekst sadrava i
& to se moe ispitati o strukturi teksta
$6.-O456$5*@1 ,8-7!87-1
8ekstovi su strukturalno bili ogranieni parametrima
)okumenti su imali stalni skup polja, a svako je polje imalo svoj tekst
Ovaj model je primijenjiv za kolekciju teksta sa stalnom strukturom
.rimjer%1rhiv emaila se moe smatrati skupom emailova gdje svaki email ima
poiljatelja, primatelja, subject, datum i tekst poruke> !orisnik moe traiti emailove
koje je poslao odre;enoj osobi koji imaju termin JispitK u subjectu>
& $o, ovaj model ne moe prikazati hijerarhijsku strukturu V84G dokumenta
V*.6-86!,8
Eraf na kojem vorovi "nodes# sadre neki tekst, a linkovi "links# predstavljaju veze
me;u vorovima
.rogramski sustav za pregledavanje dokumenata u kojem su posebno oznaeni
dijelovi teksta hiperveze prema drugom dijelu dokumenta>
)aje maksimalnu slobodu za strukturu
V*56-1-V*5,!1 ,8-7!87-1
4odel koji se nalazi izme;u nepromjenjive strukture i hiperteksta
.redstavlja rekurzivno ralanjivanje teksta i koristi se u mnogim zbirkama tekstova
"knjige, lanci, itd#
.rimjer% .oglavlje ima podpoglavlja, podpoglavlja imaju naslove, naslovi podnaslove,
itd]>
Eleda se od vrha &poglavlje? prema najmanjoj strukturnoj jedinici teksta "recimo,
paragraf#
86!,871G$6 O.6-12*56
7@O)
,ve rijei u tekstu nisu jednako znaajne
*menice najbolje prezentiraju sadraj dokumenta
.otrebno je odrediti indeksne izraze u tekstu dokumenta
8ekstualne operacije koje se vre za vrijeme obrade teksta su%
6liminacija stop?rijei
-edukcija na njen gramatiki korijen "stemming#
*zgradnja tezaurusa
saimanje
!oritenje svih rijei za indeksiranje dokumenata moe dovesti do pomutnje prilikom
pretraivanja
.omutnja se smanjuje smanjenjem koliine rijei koje opisuju dokument &
kontroliranje vokabulara
!ontroliranje veliine vokabulara je uobiajeni postupak, no predstavlja napredni
korak u procesu indeksiranja koji korisnici esto ne zamijete> .osljedica smanjenja
veliine vokabulara jest da se korisnicima uzvraaju dokumenti koje nisu traili, a ne
pronalaze se oni dokumente koje su traili
$a Pebu se zbog toga vri indeksiranje svih rijei u tekstu jer je unato pomutnji,
zadatak pretraivanja jednostavniji
/H
$ormalizacija i izgradnja tezaurusa se koriste za poveanje preciznosti pronalaska
dokumenata
$o danas se vie nastoji smanjiti vrijeme odgovora na upit, a jedna mogunost za to je
upotreba saimanja teksta
8ekst je mogue saeti na +I?+0h njegove prvotne veliine, takav tekst treba manje
mjesta za pohranu i manje vremena za proslijediti u nekoj komunikaciji
7z saimanje, sve vanija tekstualna operacija je kodiranje
(> .-6)OA-1)1 )O!746$181
8o je procedura koja se moe podijeliti u 0 tekstualnih operacija%
Geksika analiza teksta
6liminacija stop?rijei s ciljem izdvajanja rijei nevanih za svrhu pretraivanja
!orjenovanje% svo;enje preostalih rijei na njihov korijen uklanjanjem sufiksa i
prefiksa, te omoguavanje sintaktikih varijacija u definiranju upita
Odabir indeksnih izraza radi odluivanja koje e rijeiNkorijen biti koriten kao
element indeksiranja
!onstrukcija tezaurusa
+> G6!,*M!1 1$1G*Z1 86!,81
Geksika analiza teksta je proces pretvaranja niza znakova u niz rijei
Elavni cilj leksike analize & identificiranje rijei u tekstu
Osim prepoznavanja razmaka kao granica me;u rijeima, vani su postupci
prepoznavanja% brojeva, crtica, interpunkcijskih znakova te velikih i malih slova u
tekstu
A-O56@* & loi indeksni termini jer su izvan konteksta nejasni & u praksi ih je
najbolje izbjegavati
$ajkompliciraniji izrazi su oni koji kombiniraju brojke i slova "npr> 0IInpe# jer za njih
ne postoje jasna pravila
2-8*26 & rijei spojene crticom najkorisnije je odvajati zbog nedosljednosti u
koritenju crtice "tako se rijei Rstate?of?the?artT i Rstate of the artT tretiraju jednako,
dok je pak u nekim sluajevima crtica sastavni dio rijei, npr>TA?/HT#
!ako se mnoge rijei moraju pisati crticom, najprikladnije je prihvatiti jedno ope
pravilo, a iznimke odrediti od sluaja do sluaja#
*$86-.7$!2*5,!* Z$1!O@* & nisu ukljueni u proces leksike analize
.remda su sastavni dio nekih rijei, moemo ih potpuno ukloniti jer su anse za krivu
interpretaciju prilikom pretraivanja vrlo male "greke se mogu dogoditi u nekim
specifinim sluajevima, npr> kod pretraivanja programskog koda & razlika je me;u
varijablama RO>idT i ROidT#
@6G*!1 * 41G1 ,GO@1 & prilikom identificiranja indeksnih termina u veini
sluajeva nije vano je li termin pisan malim ili velikim slovima
.rilikom leksike analize, cijeli tekst se pretvara u iskljuivo mala ili velika slova
.roblemi koji proizlaze iz ovog su uglavnom semantike prirode "npr> 2rkva i crkva#
,ve ove tekstualne operacije mogu se vrlo lako implementirati, ali o njihovoj
implementaciji se mora dobro promisliti jer mogu imati veliki utjecaj na trajanje
pretraivanja, a i kompliciraju korisnikovu interpretaciju rezultata pretraivanja
/> 6G*4*$12*51 ,8O.?-*56M*
,top?rije "st(/E(r"#? rije koja je toliko uestala u dokumentima neke zbirke da ne
moe sluiti kao dobar diskriminator & ako se rije pojavljuje u DIh dokumenata
0I
potpuno je beskorisna za svrhe pretraivanja
$e koriste se kao indeksni termini
,top?rijei su uglavnom lanovi, prijedlozi i veznici, a osim njih esto i neki glagoli,
prilozi i pridjevi
6liminacijom stop?rijei poboljavaju se rezultati pretraivanja i smanjuje se indeksna
struktura za /Ih i vie
7nato svim prednostima eliminacija stop?rijei moe smanjiti odziv & npr> fraza Jbiti
ili ne bitiK & sve su to stop rijei, koju uklonitiC
0> !O-56$O@1$56 ",8644*$E#
8ijekom pretraivanja, korisnik esto definira rije koja postoji u dokumentu u nekom
drugom obliku & npr> mnoini, to onemoguava kvalitetno pretraivanje
)jelomino rjeenje ovog problema je zamjena rijei s njihovim gramatikim
korijenom "stem#
Eramatika osnova rijei, ili korijen, se dobiva uklanjanjem prefiksa i sufiksa, a
smatra se korisnom prilikom pretraivanja jer smanjuje broj oblika iste rijei
0>1> @-,86 !O-56$O@1$51
7klanjanje afiksa ""AFFIF REMOVAL#& jednostavan i efektivan tip korjenovanja
8emelji se na uklanjanju prefiksa i sufiksa
$ajpopularniji algoritam za uklanjanje sufiksa je onaj .orterov, koji koristi listu
moguih sufiksa s idejom da se na sufiksima primjeni niz pravila
.regledavanje tabele osnova "TABLE LOOKUP7& jednostavan postupak koji trai
osnovni oblik rijei u tablici
$epraktinost mu je u tome to tablica mora sadravati osnovne oblike svih rijei
nekog jezika da bi bila korisna "npr> Za hrvatski bi za rije majka trebala sadravati +
korijena% majk, majc, maj#
*zbor nasljednika "SUCCESOR VARIETG#& temelji se na odre;ivanju granica
morfema, a koristi se znanjem strukturalne lingvistike
$?E-14, & temelji se na identifikaciji bigrama i trigrama
@ie se smatra procedurom grupiranja termina, nego procedurom korjenovanja
9> O)1A*- *$)6!,$*V 86-4*$1
Odabir moe obavljati strunjak ili se indeksni termini odabiru automatski "npr>
identifikacijom skupine imenica#
-eenica u prirodnom jeziku najee je sastavljena od imenica, zamjenica, lanova,
glagola, pridjeva, priloga, veznika
$ajbolji nain odabira indeksnih termina je koritenje imenica u tekstu, to je mogue
napraviti sistematskom eliminacijom glagola, pridjeva, zamjenica, veznika, lanova i
priloga
7obiajeno je spajanje dvije ili tri imenice u jedan indeksni termin "npr> ra50)a,)a
3)a)(st#, i to imenice koje su blizu jedna drugoj u tekstu
4ogue je umjesto upotrebe imenica kao indeksnih termina preuzimanje imenskih
skupina
*menska skupina je sklop imenica ija sintaktika udaljenost "mjerena brojem rijei
izme;u dvije imenice# ne prelazi prije definirani prag
=> 86Z17-7,*
-ije t9&sa0r(s grkog je i latinskog porijekla i koristi se u znaenju Jriznica rijeiK,
Jbogatstvo rijeiK
7 svojem najjednostavnijem obliku sastoji se od%
01
7naprijed sastavljene liste relevantnih rijei u odre;enom podruju znanja
Za svaku rije na listi, daje se niz srodnih, sinonimski povezanih rijei
tezaurusi mogu obuhvaati odre;eno podruje znanja "npr> T9&sa0r0s (- E)+$)&&r$)+
a)" Sc$&)t$-$c T&r's#
.rema 3oskettu glavne svrhe tezaurusa su%
.ruiti standardizirani vokabular "ili sustav biljeki# za indeksiranje i pretragu
.omoi korisnicima pri pronalaenju termina za ispravno formuliranje upita
.ruiti klasificirane hijerarhije koje omoguavaju proirivanje ili suavanje trenutnog
upita prema potrebama korisnika
Elavne sastavnice tezaurusa su% njegovi indeksirani termini, veze izme;u termina,
izgled tih veza "design laUout#
.rimjer primjene tezaurusa je Peb pretraiva Xahoo, koji prua hijerarhijsku
klasifikaciju termina i time smanjuje podruje pretraivanja
=>1> .O.*, 86-4*$1 7 86Z17-7,7
8ermini mogu biti pojedinane rijei, skupine rijei ili fraze, no veinom su to
pojedinane rijei i to imenice
!ada se koncept ne moe izraziti pojedinanom rijeju koristi se skupina rijei
"kombinacije imenica i pridjeva# s time da na prvo mjesto uvijek stavljamo imenicu
unosimo li sloeni termin izravno, dobiti emo zapis pod (/r&'a, ali ne pod
ra50)a,)a zato na prvo mjesto dolazi imenica
Osim samih termina, esto je potrebno pojmove u tezaurusu nadopuniti definicijama
ili objanjenjima & razlog tomu je potreba za preciznou u tezaurusu "npr> luk & vrsta
povra , luk &oruje#
=>(> @6Z6 86-4*$1 7 86Z17-7,7
@eze termina unutar dokumenta mogu se uspostaviti prema uzorcima uestalosti
8akve veze su obino hijerarhijske i vrlo esto pruaju ire "br(a"&r# ili ue
")arr(E&r# povezane termine
@eze tako;er mogu biti i nehijerarhijske, te za takve termine kaemo da su povezani,
srodni "r&,at&" t&r's#
=>+> 7.O8-6A1 86Z17-7,1 7 *- "pretraivanju informacija#
.rema .eteru -ogetu tezaurus je klasifikacijska shema sastavljena od rijei i fraza ija
organizacija omoguava lake izraavanje ideja u pisanom dokumentu
!ada korisnik eli pretraiti skup dokumenata, on prvo stvara koncept onoga to trai
"$)-(r'at$() )&&"#, nakon toga korisnik jo mora to preformulirati u upit na nain koji
e biti razumljiv pretraivau tj> odabrati skup indeksnih termina
Audui da kolekcija moe biti ogromna, a korisnik neiskusan, odabir temeljnih
termina moe biti pogrean ili neprimjeren, u tom sluaju ono to se predlae je
preformuliranje upita
8akvo preformuliranje obino obuhvaa proirenje prvotnog upita srodnim terminima,
stoga je nuno koristiti tezaurus kao pomo pri traenju srodnih termina
D>E-7.*-1$56 )O!746$181 "2G7,86-*$E#
operacija grupiranja slinih "ili srodnih# dokumenata u razrede ili grupe
.ostoje ( vrste grupiranja%
Elobalni klasteri & dokumenti se grupiraju prema uestalosti njihovog pojavljivanja u
cijeloj zbirci dokumenata
Gokalni klasteri & grupiranje dokumenata je odre;eno kontekstom koji je definiran
trenutnim upitom i njegovom lokalnom skupinom pretraenih dokumenata
4etode grupiranja se obino koriste u pretraivanju informacija za transformiranje
0(
osnovnog upita s ciljem da bolje prezentiraju korisnikovu potrebu za informacijama
Erupiranje je operacija koja se vie odnosi na transformaciju korisnikovog upita nego
na transformaciju teksta dokumenta
,$OPA1GG
56Z*! Z1 1GEO-*846 !O-56$O@1$51
7@O)
dva glavna razloga za kreiranje ,no'balla %
1> nedostatak algoritama za veinu jezika "osim engleskog#
(> mogue pogreke u implementaciji postojeih algoritama, npr> .orterovog algortima
iz 1HDI> godine
nejednakost izme;u .orterove definicije algoritma za korjenovanje i brojnih
implementacija tog algoritma je mnogo vea nego to je to openito shvaeno, tj>
javljaju se barem tri problema %
1# nerazumijevanje originalnog algoritma
(# greke ili JbugoviK u prepisivanju i implementiranju koda
+# elja i potreba programera za dodavanjem poboljanja, koja je nemogue dodati u
postojei algoritam
Audui da mnoge rijei u engleskom jeziku imaju vrlo jednostavne zavretke, to esto
dovodi do olakog shvaanja sloenosti algoritma za korjenovanje
.rimjerice, na *nternetu moemo pronai niz primjera loe implementacije .orterovog
algoritma, pa tako za rije a+r&&'&)t moemo nai a+r&&' kao rezultat korjenovanja,
no bez sufiksa A&)t ta rije ne znai nita "dakle, rezultat korjenovanja moe biti samo
a+r&&'&)t#
,no'ball je razvijen kao odgovor na sve ranije navedene probleme>
,no'ball je programski jezik u kojemu pravila za korijenske algoritme mogu biti
izraena na prirodni nain>
,no'ball je jednostavan i programeri ga brzo ue>
,no'ball
,no'ball se sastoji od%
brojnih stemmera za strane jezike za koje su dani neformalni komentari na engleskom
jeziku
kompajlera koji prevodi svaku definiciju ,no'balla u ekvivalentni program u 2?u ili
5avi
vokabulara rijei na svim tim stranim jezicima i korijena tih rijei
,matra se da e ,no'ball postati koristan izvor za stvaranje stemmera za mnoge
jezike za koje oni jo ne postoje "npr> hrvatski#
!orjenovanje
programi za korjenovanje su bazirani na pisanom, a ne govornom jeziku, iako se
naglasci i interpunkcija tako;er mogu koristiti u indeksiranju
cilj je poboljati rad *- sustava svodei razne oblike rijei koje dijele isto znaenje na
osnovni oblik "korijen#
u *- sustavima vidljivi su bolji rezultati kada se primjenjuje korjenovanje
*ndoeuropski jezici su pogodni za korjenovanje jer im se struktura rijei sastoji od
korijena rijei, sufiksa iNili prefiksa
Ereke pri korjenovanju i upotreba rjenika
odnos izme;u termina i dokumenta u *- sustavu je takav da dokumenti nose znaenje,
0+
a termini su rijei koje opisuju to znaenje
jedna rije moe imati vie znaenja<homonim
npr>luk "povre# i luk "oruje#
vie rijei moe imati isto znaenje<sinonim
npr>informacija, obavijest,>>>
korjenovanje je proces koji pretvara ove pojave u prednost, smanjivanjem broja
sinonima i povremenim stvaranjem novih homonima
rijei kao to su t9&, a)" i slino nemaju znaenja , te se u *- sustavima nazivaju stop?
rijei

+r&1.& 0 .(r%&)(#a)%0%
1>under?stemming "podkorjenovanje# & oduzimanje premalog dijela sufiksa tj>
nastavka
(>over?stemming "prekorjenovanje# & oduzimanje prevelikog dijela nastavka>8o
dovodi do stapanja rijei razliitog znaenja
+>mis?stemming "pogreno korjenovanje# & oduzimanje dijela rijei koji izgleda kao
nastavak, ali je u biti dio korijena
.rimjer podkorjenovanja%
8elefonirati & telefonir "podkorjenovanje#
8elefonirati & telefon "tono korjenovanje#
1ko u gornjem primjeru glagol telefonirati svedemo samo na telefonir, moi emo ga
povezati samo s imenicom telefoniranje, ali ne i s imenicom telefon ili pridjevom telefonski>
,tvarni nastavak je &irati, a ne &ati> Ovo je skupina glagola "informirati, kopirati# koji potjeu
od stranih imenica "telefon, informacija, kopija#, za razliku od glagola na ?ati "sluati, itati,
itd># kojima osnova nije imenica% slu, it, itd]
.rimjer prekorjenovanja%
$ovosti ? nov
7 novosti nastavak je &i, a ne &osti "osti je dio korijena#
dakle kad oduzimamo nastavak moramo imenicu svesti na korijen% novost
1ko ostavimo nov umjesto novost od ovog korijena moemo izvesti pridjev novi te
oblike pridjeva nov?og, nov?om, itd>,
.rimjer pogrenog korjenovanja
Elagol pei% pe "pogreno korjenovanje#
.e "pravilno#
.ek "pravilno#
.ec "pravilno#
7koliko glagolu oduzmemo nastavak &i, on gubi znaenje>
Od pe? se moe izvesti pei, ali isto tako i peti>
Od pek se moe izvesti peku, od pec? peci, a od pe?peem>
? u pei je nastalo od pekbti i zato se mora paziti da se oduzimanjem nastavka ne
oduzme i dio korijena
upotrebom rjenika trebali bismo moi smanjiti greke uinjene pri pogrenom
korjenovanju ili prekorjenovanju, ali to ovisi o kvaliteti samog rjenika
da bi rjenik pruio najbolje rezultate, trebao bi biti%
1>iscrpan
(>moderan tj> u toku s trendovima unutar samog jezika
+>sadravati dobra objanjenja rijei
0/
,no'ball je algoritamski jezik za korjenovanje
algoritamski programi za korjenovanje su korisni iz vie razloga%
1> brzi su
(>mogu pokrivati vrlo velike *- sustave
+> usprkos ponekim pogrekama, u praksi daju vrlo dobre rezultate
/> programi na bazi rjenika zahtijevaju podrku rjenika da bi mogli pratiti promjene
u jeziku
7potreba korijena u *- sustavu
Govinsov stemmer%
razvijen za indeksiranje kljunih pojmova vezanih uz tekst: nije namijenjen
indeksiranju dokumenata>
-ijsbergen ? radi analizu teksta pri emu uklanja stop?rijei, a sve ostale rijei korjenuje tako
da ti korijeni sainjavaju indeks *-?a>
7potreba korijena u *- sustavu
vie fleksibilnosti postie se indeksiranjem svih rijei u nekorjenovanom obliku i
stvaranjem dvaju stupaca koji povezuju rijei sa svojim korjenovanim ekvivalentima>
odnos moe biti obiljeen relacijom%
-"s,'# m s "korijen# je korijen od rijei ' "rije#
relacija daje za svaku rije ' njen jedinstveni korijen s, a za svaki korijen s niz rijei
' izvedenih iz tog korijena>
korisnik u pretraivanju ne vidi s formu, ve kao rezultat dobiva jednu od ' rijei>
$epravilni gramatiki oblici
svi jezici sadre nepravilnosti, ali je pitanje do kojeg stupnja algoritmi za korjenovanje
trebaju uvaavati te nepravilnosti>
primjer% engleski program korjenovanja moe pretvoriti pravilni oblik mnoine u oblik
jednine bez ikakvih potekoa "b(Hs, +$r,s, 9a)"s u b(H, +$r,, 9a)" odbijanjem
nastavka &s# no situacija je sloenija ako se radi o nepravilnim oblicima "men,
children i sl>#>
.ostoje sluajevi koje Govins naziva $3)$'.a'a 0 /ra#(/$s0 "Rspelling eOceptionsT#
poput izraza absorbNabsorption ili conceiveN conception>
Zanimljivo je to unato tome to ne poznajemo etimologiju odre;ene rijei,
prepoznajemo povezanost me;u rijeima>
Govins pokuava rijeiti iznimke u pravopisu formuliranjem opih pravila pravopisa
"npr> apsorbirati & apsorpcija#, no mnogo bi jednostavnije bilo sastaviti listu iznimaka
korijena rijei>
.orterov program korjenovanja%
uope se ne bavi prouavanjem nepravilnosti jer na njih nikad nije bilo pritubi od strane
korisnika>
5edine pritube vezane su za pogreno korjenovanje "npr> ne' i ne's#>
,8O.?-*56M*
!orjenovanje stop?rijei nije korisno>
npr> rijei b$t$ i b$#at$ su gramatiki povezane, ali usporedba tih rijei nema smisla,
budui da te rijei ne nose znaenje pa stoga ni ne moemo razmiljati o njima kao o
00
sinonimima>
B$t$ $ b$#at$ tako;er su povezane i morfoloki, ali to ne moemo rei za oblike sa' i
0, iako su ti oblici gramatiki povezani
7 hrvatskom za glagol b$t$ imamo barem (I oblika "sam, si, je, u, e, e, bih, bi,
budem, bude>, itd#, a korjenovanje svih oblika rijei b$t$ je nemogue
)akle, flektivni oblici stop rijei su jako nepravilni, tako da njihovo korjenovanje ne
samo da nije korisno, nego nije ni mogue
,toga je potrebno prepoznati grupu oblika jedne rijei "i ostalih rijei, npr> oblike
glagola 9t%&t$#, pridruiti te oblike osnovnom obliku te ih zajedno s osnovnim oblikom
izbaciti iz procesa korjenovanja
)rugi nain je napraviti posebnu listu iznimaka "stop?rijei# bez procesa pridruivanja
te onda cijelu listu izbaciti iz procesa korjenovanja
7metnuti takvu listu u ,no'ball je vrlo lako
-*568!6 3O-46
kreirani algoritmi se ne bave rijetkim lingvistikim sluajevima, "primjer takvog
sluaja bio bi aorist u hrvatskom jeziku koji se u govornom jeziku vie gotovo i ne
upotrebljava, no unato tome se nalazi u svim gramatikim prirunicima, te starijim
tekstovima
OA-1)1 .-*-O)$OE1 56Z*!1 * .-68-1L*@1$56 *$3O-412*51
!ako se mogu koristiti tehnike za obradu
prirodnoga jezika za poboljanje djelotvornosti
pretraivanja%
Aolji indeksni termini%
&4orfologija% !orjenovanje "stemming# &uklanjanje
sufiksa
&,intaksa% *ndeksiranje "imeninim# svezama rijei
&,emantika% -azrjeavanje vieznanosti rijei
)vije glavne metode za sastavljanje
indeksa%
&-uno, uobiajeno na temelju kontroliranog
skupa indeksnih termina
&1utomatski, uobiajeno na temelju rijei iz
dokumenta, i to najee uklanjanjem stoprijei i mjerenjem frekvencije termina u
dokumentu i zbirci
.rimjena tehnika za obradu prirodnoga
jezika omoguuje%
&.retraivanje oblika rijei
&.retraivanje sveza rijei
&-azrjeavanje vieznanosti &vieznanost
oblika, homonimija, sinonimija
Bto je rijeC
8okenizacija"tokenization#% prepoznavanje
09
granica rijei "to je rije, je li to bilo koji niz
znakova odvojen razmacima ili
interpunkcijama#%
&je li R$ova godinan jedna ili dvije rijei
&sloenice s crtom i bez crte "strojobravar,
leksiko?semantika analiza#
&velikai mala slova"$ova godinapostajenova
godina#
&kratice "prof>dr>#, je li toka uvijek oznaka za kraj
reeniceC
4orfoloka normalizacija
!ako osigurati da se podataki podacipodudarajuC
.odudaranje morfolokih varijacija
poveava odziv
)vije glavne tehnike%
&!orjenovanje "stemming#
&Gematizacija"lematization#
!orjenovanje
@rste korjenovanja%
&7klanjanje afiksa"affiOremoval#
&.regledavanje tabele osnova "table lookup#
&*zbor nasljednika "succesorvarietU#
&$?grami
7klanjanje afiksa
7poraba skupa pravila za uklanjanje sufiksa s ciljem normalizacije
slinih rijei
.itanje% koje sufikse uklanjati da bi pretraivanje bilo optimalno%
obline"inflectional# ili tvorbene "derivational#C
Vrvatski jezik%
&7klanjanje oblinihnastavaka "padeni nastavci za imenice i
nastavci glagola za razliita glagolska vremena#
!uhar, kuhari
.leem, plee, plee, itd]
&7klanjanje tvorbenihnastavaka"iz jedne vrste rijei se tvori
druga, npr> iz imenice se tvori pridjev#
ku&a, ku?ni:
predsjednik, predsjedavati:
sud?I, sud?ski
7klanjanje afiksa
7klanjanje sufiksa moe se odvijati na ( naina
&!orjenovanje uz konzultiranje rjenika
&!orjenovanje bez uporabe rjenika
&Aez rjenika%
0=
)obiveni normalizirani oblici ne moraju postojati u jeziku
"junaci, junaki: podaci, podac#
-azliite rijei mogu biti svedene na isti korijen, odnosno
osnovni oblik "prekorjenovanje#
&.rimjer% prekorjenovanje, ako svedemo na osnovni oblik
rad ove rijei% radio &"glagol raditi u +>l>jd# i radio &
"$>jd> imenice io#
&6ngleski primjer% police, policU&polic
>>Organization, organ &organ
>>1rm, armU?arm
.regledavanje tabele osnova "table lookup#
.rimjer tabele osnova%
matrice>>matrica$om mn>
riba>>riba$omjd
ribati "+>l> jd>#
!orjenovanje
-azliiti oblici iste rijei su obino
problematini u analizi teksta, zato to
se piu razliito, a imaju isto znaenje
"npr> ui, uila, uenje,]#
!orjenovanje je proces transformiranja
rijei u njen korijen "normaliziranioblik#
,temming"korjenovanje#?
uklanjanje sufiksa
6ngleski jezik%
&.orterTs stemmer
&GovinTs stemmer
&,no'ball
!orjenovanje &uklanjanje sufiksa
Za engleskijezik korjenovanje ne
predstavlja velikiproblem &javno dostupni
algoritmi daju dobrerezultate
&$ajvie se koristi.orterovstemmerhttp%NN'''>tartarus>orgNomartinN.orter,temmerN
.rimjerice, u hrvatskom jeziku 1I?(I
razliitih oblika odgovara jednoj jedinoj
rijei%
&.rimjer"Jsmijati seK#%smijem se, smijao sam se, smijalase,
smijalesu se, smijalismo se, smijalose, smijatise, smijese,
smijahuse, smijui se, smijavise, itd>
.rimjer pravila koje .orterov stemmer koristi za engleski jezik
18*O$1G ?Y 186 relational?Y relate
8*O$1G ?Y 8*O$ conditional?Y condition
0D
6$2* ?Y 6$26valenci ?Y valence
1$2* ?Y 1$26 hesitanci?Y hesitance
*Z6- ?Y *Z6 digitizer?Y digitize
1AG* ?Y 1AG6 conformabli?Y conformable
1GG* ?Y 1G radicalli?Y radical
6$8G* ?Y 6$8 differentli?Y different
6G* ?Y 6 vileli?Y vile
O7,G* ?Y O7, analogousli?Y analogous
.ravila dobivena automatski
za hrvatski jezik
)va primjera pravila%
1>Odbacuje se nastavakJO4Kakosu posljednja +
znaka nizovi VO4, $O4, )O4, ,O4, .O4, AO4, 3O4>
&.rimjer%E-*56VO4, Z1E-6.M1$*$O4, A6$514*$O4,
A6-G*$O4, 1G3-6)O4, A6OE-1)O4, 178OA7,O4, 5O,*.O4,
OG*4.O4,>>> ali ne1G6!,1$)-O4 "-O4 ?Y 1-#
(>Zamjena264 s12, ako se ispred 264 nalazi
suglasnik>
.rimjer%,81-264, .1G264, A1@1-264, M14264>>>ali ne41,G1264 "kod imenica
koje ispred 264 imaju samoglasnik
dovoljno je odstraniti64#
4orfoloka analiza i generiranje
rijei u hrvatskome jeziku
4> !rak&poeci i doeci rijei: rjenika
baza
@> Gopina&dvorazinskiopis: rjenik
)> Gauc&robusni pristup &bez rjenika
)vije stavke%
&.opis nastavaka
&4orfonoloke alternacije
Gematizacija"Gemmatization#
Gematizator reducira rijei "oblike# na
njihov sintaktiki korijen "osnovni oblik je
imenica u nominativu jednine ili glagol u
infinitivu#
Ovo je raunalno skuplja aplikacija jer
zahtijeva rjenik
Gematizacijase esto kombinira s
oznaivanjem vrstama rijei "part?of?
speechtaggers#
,top rijei
8o su rijei koje znaenjski nisu zanimljive
$a primjer% zamjenice, veznici, i sl>
0H
*maju iskljuivo funkcionalnu ulogu
8e se rijei jednostavno zanemaruju na temelju popisa
koji ih sadri
,vaki jezik sadri popis stop rijei%
&engleski% 1, 1AO78, 1AO@6, 12-O,,, 1386-, 1E1*$, 1E1*$,8,
1GG, 1G4O,8, 1GO$6, 1GO$E, 1G-61)X, 1G,O, >>>
&slovenski% 1, 1V, 1V1, 1G*, 14.1!, A156, AO)*,*, AO5)1,
A-L!O$6, A-LM1,, A-6Z, 26GO, )1, )O, >>>
&hrvatski% 1, 1V, 1V1, 1G*, 1!O, A6Z, )1, *.1!, $6, $6EO, >>>
Zato uklanjati stop rijeiC
&7poraba stop rijei ne poboljava pretraivanje
&,manjuje se veliina invertnog indeksa i vrijeme
pretraivanja
4otivacija lei u djelotvornosti sustava za
pretraivanje "brzini#
.okazalo se da uklanjanje stop rijei ne
pridonosi znaajno kvaliteti sustava za
pretraivanje
Bto e ui u popis stop rijei ovisi o zbirci
koja se pretrauje
Openito, na primjer zakoni raunalonisu
stop rijei
]ali to ako zbirka sadri pravne propise
ili tekstove iz raunarstva
Bto se stvarno koristiC
@eina sustava za pretraivanje koristi neku
vrstu korjenovanjaNlematizacijei popis stop rijei
@eina trailica na internetu ne koristi
korjenovanjeNlematizacijujer%
&Zbirke su ekstremno velike pa su anse za morfoloko
podudaranje visoke
&Odziv nije zanimljiv
&Audui da korjenovanje nije precizno, anse za krivo
podudaranje su visoke zbog raznolikosti i veliine
dokumenata na internetu "junac?i, junak#
@eina trailica na internetu koristi popis
stop rijei
!orjenovanje i lematizacijasu jezino
ovisne
&-aspoloivi su samo za nekoliko jezika, pa ih
stoga trailice u pravilu ne koriste
Openito%
5ednostavne "shallo'# tehnike primjenjuju
se za analizu dokumenata
&1li ak se i te tehnike ne primjenjuju uvijek u
9I
praksi
Bto je sa sloenijim analizama, na primjerC
&-azrjeavanje vieznanosti
&*ndeksiranje svezama rijei
-azrjeavanje vieznanosti rijei
.rimjer%
&4arko je radiodo jutra>
&4arko je sluao radio>
&4arko je kupio luk>
$ekoliko eksperimentalnih sustava koristi
statistiki pristup u razrjeavanju vieznanosti i
indeksiranju rijei pripadnim znaenjima
1li, pokazalo se da to u dostatnoj mjeri ne
poboljava djelotvornost pretraivanja>
*menine sveze
1ko elimo indeksirati dokument svezama rijei
postoji vie naina
&*mati sve te sveze u rjeniku "zahtijeva prethodnu
runu analizu sveza po vanosti za sadraj#
&Obaviti djelominu analizu "parsing# dokumenta da bi
se identificirale imenine sveze> One koje se
ponavljaju razmatraju se kao kandidati za indeksne
jedinice "lingvistiki pristup#
&1utomatski indeksirati nizove rijei kao i pojedinane
rijei "statistiki pristup#>
,astavljanje imeninih sveza
Elava sveze je termin koji se pojavljuje u veini
dokumenata zbirke "informacija#
8ermin koji se pojavljuje s glavom sveze na
zadanoj udaljenosti je manje frekventan u zbirci
"pretraivanje#
,top rijei se uklanjaju iz dokumenta
-ijei iz dokumenta mogu se dodatno oznaiti
oznakama za vrstu rijei "imenica,glagol,>>#
,intaktiki analizator moe se koristiti za
prepoznavanje jednostavnijih sveza unutar
reenice
7sporedba termina upita i dokumenata
1G*% Mak i kada su dokumenti dobro indeksirani,
jednostavno izraunavanje slinosti izme;u upita
i dokumenata ne mora biti uspjeno
-azlog% termini upita i dokumenta moraju biti
identini da bi se izraunala odgovarajua
slinost &problem% isti sadraj moe biti
prikazan razliitim terminima "kompjutor,
91
raunalo#
$a primjer% *straivanjei prouavanjesu
semantiki puno sliniji termini nego istraivanjei spavanje "potrebno je uzeti u obzir slinosti
izme;u termina#
!ako omoguiti uspore;ivanje
termina upita i dokumenta
.roirenje upita "\uerUeOpansion#%
&uporaba povratne veze
&uporaba tezaurusa radi pronalaenja srodnih
rijei i njihovog dodavanja upitu
*nteraktivno pretraivanje
*nterakcija se moe odvijati putem%
.ovratne sprege "relevancefeedback#
&*z popisa uzvraenih dokumenata korisnik bira
relevantne dokumente
,ugestije termina
&,ustav za pretraivanje sugerira termine radi
proirenja upita
.ojanjavanjem "na to ste misliliC#%
&zbog vieznanosti, greaka u pisanju rijei
.ovratna sprega "relevance feedback#
!orisnik procjenjuje u skupu uzvraenih
dokumenata relevantne odnosno
nerelevantne
7spore;uje se broj pojavljivanja danog
termina iz upita u relevantnim odnosno
nerelevantnim dokumentima
-ezultati se primjenjuju za ponovno
mjerenje termina u upitu
8o ukljuuje prilago;avanje teina termina
iz upita, na primjer ako svi dokumenti
oznaeni kao relevantni ukljuuju termin
8, tada se poveava teina termina 8 iz
upita>
.ostoje razliite "matematike# metode
koje se mogu primijeniti za prilagodbu
teina termina iz upita>
.roirenje upita
.roirenje upita bez intervencije korisnikaC
)vije glavne metode%
Elobalna metoda "primjenjuju se na cijelu
zbirku#
&8ezaurus " pojmovno strukturirani rjenik#
9(
&,upojavljivanjetermina "termini na danoj udaljenosti#
Gokalna metoda "primjenjuju se na ndokumenata#
&.ovratna veza Jna slijepoK
8ezaurusi
8ezaurus moe sadravati sljedee
informacije o odnosima izme;u rijei%
$pr> za rije violina
&,inonim% "slina rije# gusle
&$adre;eni pojam% instrument
&.odre;eni pojam% ,tradivari
&.artitivni pojam% struna "dio#
.opularni strojno itljivi tezaurus je Pord$et>
.roblemi s tezaurusima
,trojno itljivi tezaurusi raspoloivi su
samo za nekolicinu jezika
$ije lako sastaviti dobar tezaurus u strojno
itljivom formatu
Za veinu tezaurusa teko je procijeniti do
kojeg opsega su primjenjivi na neku
odre;enu zbirku "kako je strukturirano
znanje u tezaurusu, a kako u zbirci#
1lternativa% supojavljivanje termina "automatsko
sastavljanje tezaurusa#
7obiajeno, sinonimi se ne supojavljujuali
semantiki ili sintaktiki bliski termini da
,upojavljivanje vs> tezaurus
b lake ih je sastaviti kako obzirom na jezik, tako i na
podruje znanja
b pokrivaju odnose koji nisu izraeni u standardnim
tezaurusima
?nisu pouzdani kao runo sastavljeni tezaurusi
?mogu prouzroiti svojevrsne smetnje s obzirom na
robusni pristup u izradi
.roirenje upita putem supojavljivanja termina
-azliiti su rezultati s obzirom na
djelotvornost uporabe termina koji se
supojavljuju
@aan je kriterij po kojemu se odabiru
termini koji se supojavljuju%
&7poraba razliitih matematikih postupaka
Gokalne metode proirenja upita
Elobalne metode primjenjuju se prilikom
prethodne obrade svih dokumenata zbirke
Gokalne metode primjenjuju se Ju letuK
9+
tako da se umjesto cijele zbirke razmatra
ndokumenta iz poetnog koraka
pretraivanja
.rimjeri:
&.ovratna veza Jna slijepoK
&Gokalna analiza konteksta
.ovratna veza Jna slijepoK
Za razliku od standardne povratne veze%
&$ema ljudske procjene relevantnosti
&Za prvih ndokumenata se pretpostavlja da su
relevantni "npr> n<1I#
8ermini koji se u tim dokumentima
pojavljuju znaajno ee nego to se
oekivalo dodaju se upitu radi njegova
proirenja
Gokalna analiza konteksta
Zbog obrade manje koliine teksta ukljuuje i
identificiranje slinih fraza "npr> automatsko
pretraivanje informacija, automatsko
ivanje dokumenata#
7mjesto da se promatra prvih ndokumenata,
promatra se nodlomaka
&@ano za dugake dokumente u kojima dolazi do
promjene teme
&-azliiti naini za podjelu dokumenata na odlomke
"paragrafi, stranice>>#
1G18* * 86V$*!6 .-68-1L*@1M1 *$86-$681
7@O)
Peb nudi mnogo razliitih alata za pretraivanje
potrebno je upoznati se s razliitim alatima za pretraivanje i otkriti efektivne tehnike
pretraivanja
.retraivai i predmetni direktoriji
)va naina Peb pretraivanja%
p pretraivai
p predmetni direktoriji
k.retraivai doputaju korisnicima da pomou kljunih rijei postave upit na bazu podataka
.retraivai dobivaju ''' dokumente iz baze podataka koji odgovaraju upitu koji je
zadao korisnik
.retraivai i predmetni direktoriji
.retraivai uvijek pretrauju fiksnu bazu podataka
.retraivati se mogu dokumenti, slike, zvuni zapisi, itd>
3aktori koji utjeu na rezultat ukljuuju%
p veliinu baze
9/
p uestalost obnavljanja
p mogunost pretraivanja
.retraivai se razlikuju po%
p brzini pretraivanja
p dizajnu suelja pretraivanja
p nainu na koji prikazuju rezultat
p koliini pomoi koju nude
k primjeri pretraivaa % 1ltavista "http%NN'''>altavista>com#, 6Ocite
"http%NN'''>eOcite>com#,allthe'eb "http%NN'''>allthe'eb>com#, Eoogle
"http%NN'''>google>com#, VotAot "http%NN'''>hotbot>lUcos>com#
.retraivai i predmetni direktoriji
.oveanjem broja razliitih pretraivaa dolazi do nastajanja JmetaK pretraivaa,
nazvanih meta & trailicama
Oni doputaju korisniku da uz pomo jednog suelja pretrauje simultano vie baza i
vrlo su brzi
!orisne osobine meta?pretraivaa%
p sortiranje rezultata% po 'eb mjestu "Peb site#, tipu izvora ili domeni
p odabir koje pretraivae ukljuiti u pretragu, modificiranje rezultata
k primjeri% 4etacra'ler "http%NN'''>metacra'ler>com#, *O\uick "http%NN'''>iO\uick>com#,
,urf'aO "http%NN'''>surf'aO>com#,)ogpile "http%NN'''>dogpile>com#, .ro3usion
"http%NN'''>profusion>com#
.retraivai i predmetni direktoriji
,pecijalizirani predmetni pretraivai%
? usredotoeni na pretraivanje 'eb stranica ili mjesta s definiranim tematskim
podrujem, geografskom regijom ili tipom izvora
prednost ? duboko pokrivaju odre;eno polje pa imaju indeksirane dokumente koji nisu
ukljueni u baze velikih pretraivaa
? primjeri% Aeaucoup_ "http%NN'''>beaucoup>com#, ,erach 6ngines 2olossus
"http%NN'''>searchenginescolossus>com#, ,earchengines>com
"http%NN'''>searchengines>com#
.retraivai i predmetni direktoriji
k .redmetni direktoriji%
- hijerarhijsko organizirani indeksi tematskih kategorija koji doputaju korisniku da
izabere iz liste 'eb mjesta po temama relevantnu informaciju
- odravaju ih ljudi i i mnogi pretraivai za pretraivanje vlastitih baza podataka
? nabavljaju link s poetnom stranicom 'eb mjesta i reduciraju vjerojatnost dobivanja
rezultata izvan konteksta
? bolji su u traenju openite informacije o predmetu jer su ure;eni po kategorijama i
zato to vraaju linkove k najviem nivou mrenog mjesta
.rimjeri%Gooksmart "http%NN'''>looksmart>com#, Open directorU "http%NNdmoz>org#, Xahoo
"http%NN'''>Uahoo>com#
,pecijalizirani predmetni direktoriji
vodii koje su sloili strunjaci u svom uskom polju struke, lake dolaze do
relevantnih informacija neko openiti vodii
? unutar svojih granica esto opseniji od openitih predmetnih direktorija
? takvi vodii postoje za skoro svaku temu
primjer% internet movie database
90
2learinghouses
kolekcije specijaliziranih predmetnih direktorija
nude kritike i dopunske informacije o predmetnim direktorijima te omoguuju
predmetnim strunjacima da odravaju pojedinane predmetne direktorije
? neki informacijski centri "clearinghouses# odravaju specijalizirane vodie na svojim
vlastitim 'eb mjestima, dok se ostali povezuju s vodiima lociranim na razliitim
udaljenim mrenim mjestima
? primjeri% 1rgus 2learinghouse "http%NN'''>clearinghouse>net#, 1bout>com
"http%NNabout>com#, PPP @irtual GibrarU "http%NN'''>vlib>org#
strategija pretraivanja
.ojednostavljena generalna strategija%
1> formulirat upit i njegov doseg
(> identificirati vane koncepte unutar upita
+> identificirati termine pretraivanja kako bi se opisali ti koncepti
/> uzeti u obzir sinonime i varijacije izabranih termina
0> pripremiti logiku pretraivanje
strategija mora imati primjenu na bilo koju vrstu pretraivanja "ukljuujui bibliotene
kataloge, te baze podataka na 2)?-O4u#
vanost strategije raste ako se pretraivanje vri na velikoj i kompleksnoj bazi
.roblem%
veina mehanizama za pretraivanje indeksira svaku rije dokumenta>
-ezultat%
uveanje broja dobivenih rezultata, te smanjenju relevantnosti istih "zbog poveane
vjerojatnosti da e prona;ene rijei biti izvan konteksta#>
Odabir trailice%
.ri odabiru, vaan je faktor koji treba uzeti u obzir%
da li trailica dozvoljava korisniku "onome koji pretrauje# detaljno specificiranje
dijelovaNdijela dokumenta koji eli pretraiti "npr> 7-G, naslov, prva reenica#
logika pretraivanja
Odnosi se na korisnika i trailicu & na koji se nain uspostavljaju termini u upitu
.retraivai & imaju defaultnu logiku "termini se povezuju operatorima iz padajueg
menija
7 veini sluajeva mogue promjene & korisnik koristi specijalne operatore "b,?#
$ain na koji se kombiniraju termini &preopsena dokumentacija & rjeenje% online
help i eksperimentiranje kombinacija
AOOG6O@1 GOE*!1
logike operacije koje se koriste pri kombinaciji termina u pretraivanju veine baza podataka
1>osnovni operatori & 1$), O-, $O8
bliski operatori & 1)5126$8, $61-, 3OGGOP6) AX "varijacija osnovnih operatora#
primjer na ploi 1$) O- $O8
savjeti
7sporedbe mehanizma pretraivanja
@eliina datoteke
99
,uelje pretraivaa
Znaajke pretrage
-ezultati i prikaz
Ostale znaajke
1lta@ista
7-G%http%NN'''>altavista>com
@eliina datoteke% 00I milijuna stranica
?,uelje%
5ednostavna pretraga? jedana kuica i padajui meni, koji ograniava pretragu na (0
jezika
$apredna pretraga? ukljuuje i J search boOK, ogranienje po jezicima i opcije koje
ograniavaju pretragu po datumu, rangiranje rezultata po kljunim rijeima vaeg
izbora, te ograniavanje rezultata po jednoj stranici>
Znaajke pretrage%
Gogika%
1lta@ista se zasniva na Aooleovom O-, takoder podrava b i ? >!od naprednog
pretraivanja podrava booleove operatore 1$), O-, 1$) $O8 te blizinski operator
$61->
Opcije ogranienja% po datumu, jeziku, odre;enom polju ili odjeljku unutar
dokumenta te po tipu dokumenta% npr> naslov , 7-G, slika, linkovi odre;ene stranice>
Znaajke pretrage%
?,kraivanje "truncation#%
1lta@ista koristi znak q koji slui za desno "psichologq# i sredinje "coloqr# kraenje
?2ase sensitive%
1ko upisete rije s velikim slovom, vraa se samo rije napisana velikim slovom
1ko upisete rije malim slovom, vraaju se rijei s malim i velikim slovom
-ezultati
B to je prikazano% rezultati prikazuju naslov dokumenta, 7-G i prva dva retka teksta
dokumenta> ,vakim ulaskom, slijede linkovi koji% prevode dokument, trae drugu
stranicu na istom 'eb mjestu, trae srodne stranice>
-edosl ijed rezultata% od relevantnih prema manje relevantnim> 7 naprednoj pretrazi
moete odrediti Jrangiranje kljunih rijeiK, time se te rijei pojavljuju na vrhu liste
rezultata>8ako;er moete ograniiti rezultate na jedan po 'eb mjestu>
)otjerivanje rezultata% stavljanjem kvaice u kuicu Jpretraga unutar ovih rezultataK,
dozvoljena nam je uska pretraga>
Ostalo
5ednostavna preglednost kategorija odre;ene tematike
.retraga po slikama, audio i video
.rijevod dokumenata iz i u vee europske jezike
J3amilU filterK koji blokira odre;ene sajtove, ovisno o sadraju
Aesplatan e?mail
J2ustomize ,ettingsK? navodi 1lta@istu da se sjeti vaeg prvog izbora pri pretrazi
4nogobrojni linkovi trgovakih usluga "eAaU#
6Ocite
7-G%http%NN'''>eOcite>comNsearchN
@eliina datoteke% (0I milijuna stranica
?,uelje%
5ednostavno pretraivanje? sastoji se od jedne kuice s opcijom ograniavanja ovisno
o tipu medija ili sajta "npr> @ijesti, .roizvodi, ,like, 1udio, @ideo#
9=
$apredno pretraivanje? predstavlja korisniku mnogobrojne kuice koje doputaju
upisivanja rijei ili fraze, te Jtumaenje 6OciteuK koje rijei ili fraze dokument 21$,
47,8 ili 47,8 $O8 sadravati>
Znaajke pretrage%
Gogika% 6Ocite se zasniva na booleovom O-, podrava i koritenje booleovih
operatora% 1$), O-, $O8 "svi moraju biti pisani velikim slovom#, znakovi b i ? ,
pretraivanje fraza unutar navodnika, JZoom *nK? dozvoljava dotjerivanje vaeg
predmeta prije pretrage>
Opcije ograni avanja% jednostavna pretraga ograniena je po mediju, to nam u
naprednoj pretrazi nije dozvoljeno, ali doputa ogranienja s obzirom na jezik, zemlju
i domenu>
,kra ivanje i 2ase sensitivitU% nema
-ezultati
B to je prikazano% 6Ocite prikazuje naslov, 7-G, prva dva retka teksta u dokumentu,
link na vrhu liste rezultata dozvoljava nam da Jprikae samo nasloveK ili Jprikae
prema 7-G?uK> !asnije, rezultati su poredani prema 7-G?u, te je ispod prikazan
nalov sajta kojem pripada>
-edosl ijed rezultata% rezultati su prikazani od relevantnih prema manje relevantnim>
Gink J.rikai prema 7-G?uK dozvoljava sortiranje prema Peb sajtu>
)otjerivanje rezultata% ne postoji nain dotjerivanja rezultata
Ostalo
5ednostavna preglednost direktorija odre;ene problematike
JonlineK kupovina
,pecijalizirane pretrage? dionica, ljudi, karta, vremena, putovanja
Aesplatan e?mail
.rilagodba portala J4U 6OciteK
allthe'eb
7-G%htpp%NN'''>allthe'eb>com
@eliina datoteke% 0=0 milijuna stranica
?,uelje%
5ednostavno pretraivanje? sastoji se od jedne kuice s padajuim menijem
$apredno pretraivanje? ukljuuje sve znaajke jednostavnog pretraivanja i
mogunost ograniavanja prema jeziku, domeni, lokaciji termina u dokumentu kojeg
traimo, i J'ord filtersK "moe ukljuiti, mora ukljuiti, ne mora ukljuiti#>
Znaajke pretrage%
Gogika% Odabir Jsve rijeiK po default?u, Jneke rijeiK ili Jodre;ena frazaK, koriste
Jfiltere rijeiK "napredna pretraga#, b da ukljui ili & da iskljui, uporabom dvostrukih
navodnika pretrauje s odre;ena fraza
Opcije ograni enja% jezik, domena, lokacija traenog termina u dokumentu " samo kod
naprednog pretraivanja#>
,kra ivanje i 2ase ,ensitivitU% nema
-ezultati%
B to je prikazano% 1llthe'eb prikazuje naslov, kratki sadraj i 7-G svakog na;enog
dokumenta
-edosl ijed rezultata% rezultati su prikazani 1I po stranici, rangirani po relevantnosti
)otjerivanje rezultata% nije dostupno
Ostalo
.retraga% 4.+?a, 38.?a, 4ultimedije, 4obilnih aparata
Eoogle
9D
7-G%htpp%NN'''>google>com
@eliina% =I0 milijuna stranica
?,uelje%
5ednostavno pretraivanje? jedna kuica s dvije opcije za pretraivanje% JEoogle
searchK i J*Tm feeling luckUK
$apredno pretraivanje? sadri kuice za Jsve rijeiK, Jodre;ene frazeK, Jneku od
rijeiK i Jbez rijeiK, padajue menije za ograniavanje poloaja na stranici, jezik i
domenu, radio gumbe za filtriranje rezultata preko J,igurne pretrageK i kuice za
pretraivanje koje ti omoguuju pretraivanje stranica koje su sline ili link na
ponudeni 7-G>
Znaajke pretrage%
Gogika% Eoogle se zasniva na booleovom 1$)> Eoogle tako;er podrava koritenje
booleovog O->
Opcije ograni enja% ogranienje jezika, domene, Peb stranica " samo kod naprednog
pretraivanja#>
,kra ivanje i 2ase ,ensitivitU% nema
-ezultati
B to je prikazano% rezultati ukljuuju naslov dokumenta, prvih pet rijei teksta, 7-G,
veliinu i link na stranicu>
-edosl ijed rezultata% .age-ank algoritam rangira stranice bazirano na broju stranica
koje se odnose na dani dokument> !ad je rezultata vie od jedne stranice, Eoogle
grupira rezultate po stranicama>
)otjerivanje rezultata% klikanjem na J,imilar .agesK link vraa stranice koje su
povezane s aktualnima rezultatima>
Ostalo
pokazuje 1dobe 1crobat "pdf># datoteke, Eoogle Peb direktorij, Eoogle 8oolbar
VotAot
7-G%htpp%NN'''>hotbot>lUcos>com
@eliina% 0II milijuna stranica
?,uelje% VotAot nudi ( suelja%
Osnovno pretraivanje
$apredno pretraivanje
Oba suelja sadre padajue menije za modificiranje kriterija pretraivanja i za
pretraivanje po datumu, zemljopisnom poloaju, jeziku i imenu domene> !uice za
provjeru se koriste da ogranie pretraivanje na pojedinane tipove medija>
Znaajke pretrage%
Gogika% .adajui meniji u osnovnom i naprednom suelju omoguuju ti odabir izmedu Jsvih
rijeiK, Jneke od rijeiK, Jodre;ene frazeK, JosobeK, Jlink na 7-GK, i Jbooleove frazeK>
VotAot podrava booleove operatore 1$), O- i $O8, znakove b i ? ,tj> ukljuivanje ili
iskljuivanje termina za pretraivanje>
Znaajke pretrage%
Opcije ograni avanja% osnovno suelje za pretraivanje doputa ograniavanje po
datumu, jeziku i vrsti medija> $apredno suelje omoguuje iste opcije plus velik broj
vrsta medija , ograniavanje internet domene, zemljopisne regije i dubinu stranice>
,kra ivanje% $udi najsofisticiranije kraenje> Znak q se moe koristiti da zamijeni
bilo koji broj znakova, dok znak C zamjenjuje samo jedan znak> 4ogu se koristiti na
kraju, u sredini ili na poetku rijei>
2ase sensitivitU% razlikuje mala i velika slova
-ezultati
B to je prikazano% VotAot nudi + opcije% puni opis, kratki opis i samo 7-G>
9H
-edosl ijed rezultata% istovjetne kategorije direktorija, ako postoje, popraene su
istovjetnim 'eb stranicama naelom rastue relevantnosti
)otjerivanje rezultata% kutija za provjeru doputa ti pretraivanje unutar rezultata
trenutne pretrage, koritenjem bilo koje rijei koje specificira u upitu
Ostalo
.regledni predmetni direktorij, pretraivanje po tvrtkama, ljudima, soft'eru, robi,
mapama, besplatni e?mail
)ogpile
7-G% http%NN'''>dogpile>com
,uelje% jedna kuica za pretraivanje s vrlo komercijalnim sueljem> Omoguuje suavanje
pretrage na sljedee kategorije% Peb, *mages, 1udioN4.+N 1ctionN $e's, 38., )iscussion,
,mall Aiz, i ,treaming 4edia
)ogpile
!oristi trailice% 1lta@ista, AaUH, )irect Vit, )ogpile Peb 2atalog, 3indPhat,
Eoogle, Eo8o>com, !anoodle, Gook,mart, GUcos, Open )irectorU, -eal$ames,
,prinks bU 1bout i Xahoo, ali pretrauje samo + odjednom
Gogika pretraivanja % koristi booleovo 1$) pretraivanje> 3raze smjeta u navodne znakove>
!oristi b i & za ukljuivanjeNiskljuivanje termina pretraivanja>
)ogpile
)ogpile korisniku omoguuje da izabere 0 trailica koje eli koristiti, i zapisuje izbor putem
cookieja za budue pretrage
,kraivanje % nema
2ase sensitive% nije
-ezultati% prikazuje trailicu koju je koristio i broj rezultata> -ezultati ukljuuju naziv
dokumenta, prvih nekoliko rijei teksta i 7-G
)ogpile
.oredak rezultata ovisi o koritenim trailicama i njihovim specifikacijama rangiranja
Ostale mogunosti% nudi razne komercijalne usluge
*O\uick
7-G% http%NN'''>iO\uick>com
,uelje% jedna kuica za pretraivanje>
Omoguuje suavanje na kategorije% JPebK, J$e'sK, J4.+K, i J.icturesK>
!oristi trailice% 1OG, 1lta@ista, 6uro ,eek, 6Ocite, 1llthe'eb, Eo8o>com, VotAot,
Gook,mart, 4,$, $A2i, Pebcra'ler, Xahoo>
*O\uick
Gogika pretraivanja% jedan je od rijetkih meta?pretraivaa koji doputaju uporabu prirodnog
jezika, jednostavne pretrage i Aooleove pretrage>
!oristi Aooleov 1$) pretraivanje>
skraivanje% prepoznaje koje trailice koriste 'ildcardove
*O\uick
2ase sensitive% da, ali kod uporabe malih slova nalazi i rezultate s velikim slovom "obrnuto
ne#
-ezultati% ukljuuju naziv dokumenta, prvih nekoliko rijei teksta, 7-G, trailicu koja je nala
taj dokument, broj trailica koje su nale isti dokument
*O\uick
!oristi zvjezdice kojima ocjenjuje rangiranost dokumenta u 0 trailica
Omoguuje da se do;e do stranica koje su povezane sa trenutnom klikom na Jmore like thisK
Ostale mogunosti% pretraga stranica koje su povezane sa zadanom
=I
4etacra'ler
7-G% http%NN'''>metacra'ler>com
,uelje% 5edna kuica za pretraivanje> !orisnik moe pretraivati svaku rije, sve
rijei ili unesenu frazu> !omercijalno orijentirano>
.ostoji i mogunost .o'er searcha> !orisnik tada moe birati koje trailice eli
koristiti, kako e biti rangirani rezultati i jo neke napredne opcije>
4etacra'ler
!oristi trailice% 1lta@ista, )irectVit, 6Ocite, 3indPhat>com, Eoogle, Eo8o>com,
*nternet !eU'ords, !anoodle, Gook,mart, GUcos, 4eta2atalog, ,prinks bU 1bout,
Pebcra'ler
Gogika pretraivanja% koristi Aooleovo 1$) pretraivanje>
skraivanje% nema
2ase sensitive% nije
4etacra'ler
-ezultati% prikazuje naziv dokumenta, prvih nekoliko rijei teksta, 7-G, trailicu i sline
stranice
-ezultate rangira po broju pristupa
!likom na Jmore like thisK doziva stranice sline trenutnom rezultatu
Ostale mogunosti% prikaz popularnih stranica, komercijalne usluge
.rofusion
7-G% http%NN'''>profusion>com
,uelje% 5edna kuica za pretraivanje, opcije za pretragu po polju
!oristi trailice% 1lta@ista, Xahoo_, EO, Gook,mart, Aritannica, GUcos, 1bout, 6Ocite,
)irectVit>
Gogika pretraivnja% koristi Aooleovo 1$) pretraivanje>
skraivanje% nema
2ase sensitive% nije
.rofusion
-ezultati% prikazuje naziv dokumenta, prvih nekoliko rijei teksta, 7-G, trailicu i sline
stranice
Ostale mogunosti% nudi vezu za stranice koje su povezane sa trenutanom
,urfPaO
7-G% http%NN'''>surf'aO>com
,uelje% 5edna kuica za pretraivanje, sa samo jednom dodatnom opcijom "izbor broja
rezultata#
!oristi trailice% 1ll 8he Peb, 1lta@ista, 6Ocite, VotAot, *nfo,eek, Open)irectorU,
,earch6du, Pebcra'ler, Xahoo, Xahoo $e's, )itto
Gogika pretraivanja% koristi Aooleovo 1$) pretraivanje>
,urfPaO
skraivanje% nema
2ase sensitive% nije
-ezultati% prikaz rezultata je u dva dijela% desni dio prikazuje rezultate pretrage, dok lijevi daje
prikaz koritenih trailica> !likom na lijevu stranu korisnik moe doi do snapshota stranice,
saetka i ostalih informacija bez da je otvara
.oredak rezultata je nepoznat
P6A ,61-2V*$E, ,G678V*$E 1$) ,*38*$E
=1
".-68-1L*@1$56, *,8-1L*@1$56 * 3*G8-*-1$56 P6A1#
8-1L*G*26 * P6A indeksi
Bto su to trailice i kako radeC
8railica se sastoji od + JlanaK %
mehanizma koji identificira Peb stranice ukljuene u bazu podataka
mehanizma koji indeksira Peb stranice
mehanizma za pretraivanje koji skenira kljune rijei u indeksu
!orisnik pretrauje bazu podataka ili Peb dokumente preko kuice za upit "\uerU
boO# ili predloka "template#
)okumenti u kojima se pojavljuju traeni termini korisniku su prikazani kao JhitsK ili
JmatchesK
8railicu je potrebno uputiti na prepoznavanje mnoine termina i drugih oblika
termina
$pr> 1ko elimo pronai u dokumentu rije JpasK i elimo da trailica pretrai sve
oblike te rijei, posluit emo se zvjezdicom "'ildcard#
Znak zvjezdica zamjenjuje bilo koji znak ili vie znakova u rijei
8railice koje koriste korjenovanje mogue je uputiti u pretraivanje svih oblika rijei
pomou znaka Z
$pr> computZ % computer, computers, computing, computation>>> "Eoogle tvrdi da
koristi korjenovanje, ali nije ba dosljedan#
znak Z < simbol korjenovanja, znai% stavi bilo koji nastavak na ovom mjestu
Bto je nbotC
*ntelligent agent, spider, cra'ler, robot, 'o
nbot je automatski softver koji je programiran za pretraivanje termina koji
zadovoljavaju odre;eni kriteri
Memu slue indeksiC
.omou indeksa trailica locira 7-G koji odgovara naem zahtjevu
Peb dokumenti koji odgovaraju naem upitu sadre kljune rijei i prikazani su kao
lista koja moe sadravati kratak opis Peb stranice
7kratko, indeksi su raunalno kazalo
da otkrijemo gdje se u knjizi pojavljuje neka tema, pogledamo u kazalo i ono nas
upuuje na odre;enu stranicu
1ko zamislimo da je svaka rije u knjizi indeksirana "ukljuena u kazalo# dobili bismo
knjini indeks%
Zapaanja
da se rije Japple Jesto spominje u bazi podataka
rije JappleK nalazi se i u naslovu
rijei JappleK i JorangeK se pojavljuju u tabeli sadraja
rije JgrapesK se ne pojavljuje u naslovu ili u tabeli sadraja
8railice koriste svoje indekse da pretrauju Peb dokumente u kojima se
pojavljuju odre;eni termini>
*ndeks prikazuje sve termine i podatke o tome gdje se pojavljuju "7-G ili Peb adresa#>
=(
@ano je upamtiti%
8railica vraa ,14O O$6 dokumente koje pronalazi u vlastitoj bazi podataka koju
ine Peb stranice koje je ,141 indeksirala
Znai, ako Peb stranica koju traimo nije indeksirana, nee biti na naem popisu
rezultata bez obzira na nau strategiju pretraivanja
!ako trailica odluuje kako prikazati Peb stranice koje odgovaraju naim upitimaC
,vaka trailica koristi drugaiji algoritam ili metodu kako bi procijenila relevantnost s
njihovim rangom
-elevantnost znai vjerojatnost da se prikazana stranica slae s upitom
!reatori trailica mijenjaju nain procjenjivanja relevantnosti i ne odaju metodologiju
korisnicima
.onekad vlasnici Peb stranica pokuavaju silom postii pojavljivanje svoje Peb
stranice me;u prvima na listi rezultata za odre;eni upit
Aiti na prvoj stranici ili me;u prvim rezultatima poveava vjerojatnost da e Peb
stranica biti vi;ena i da e je korisnik odabrati
$eki ljudi zavaravaju trailice pokuavajui poboljati svoj rang "a time i svoje 'eb
poslove# razliitim metodama, ukljuujui upotrebu Jnevidljivog tekstaK "gdje je tekst
obojen jednako kao i pozadine# ili viestrukom uporabom kljunih rijei u meta?
oznakama "opisne informacije u s(0rc&-0 'eb stranica koje obino korisnici ne vide
osim ako gledaju fpage sourceg#
!ako se tono izraunava relevantnost zatiena je informacija, ali je vano znati da
pruatelji usluga za pretraivanje mogu imati dogovore ili ugovore s drugom stranom
"reciprone iNili financijske# koji mogu utjecati na rezultate pretraivanja
Openito, relevantnost se izraunava tako da se biljei gdje se pojam pojavljuje unutar
teksta i toj se poziciji dodjeljuje JteinaK ili razina vanosti
$eke trailice u izraunavanje relevantnosti ukljuuju i element popularnosti: Peb
stranica se rangira vie, to je vie linkova na to mjesto ili to je ono vie posjeeno
8ermini koji se pojavljuju u naslovu, saetku, kljunim mjestima unutar paragrafa ili
koji se pojavljuju nekoliko puta unutar paragrafa, obino nose veu JteinuK jer je
vea vjerojatnost da termini na tim pozicijama oznaavaju neto relevantno za temu
8o je vrlo slino primjeru knjinog indeksa kojeg smo naveli ranije
8ermin jabuka"JappleK# pojavljuje se vie puta na kljunim pozicijama "naslov,
sadraj, poetak odlomka# pa je velika vjerojatnost da dokument sadri relevantne
informacije o jabuci
Ailjeka da se narana "JorangeK# tako;er pojavljuje u sadraju, pokazatelj je relativne
vanosti termina "to je znaajna tema, ali ne toliko vana kao jabuka#
$eke trailice, kako bi indeksirale dokumente, trae samo u odre;enim poljima kao
to su naziv polja, prvi odlomak ili meta?oznake
4eta?oznake omoguuju kreatoru Peb stranice da doda opisne kljune rijei koje nisu
prikazane u aktualnom Peb dokumentu: one su dodane kako bi poboljale
pretraivanje dokumenta
$o, kako ljudi JzavaravajuK trailice "npr> viestrukim ponavljanjem termina u meta?
oznakama#, smanjuje se vanost sadraja meta?oznaka da bi se ignoriralo ponavljanje
ili neke druge indikacije koje upuuju na to da su rezultati pretjerani
,vaka trailica drugaije izraunava rang relevantnosti i ako izvrimo potpuno isti upit
na nekoliko razliitih trailica , dobit emo razliite rezultate "kako su i gdje termini
raspore;eni#, ak i ako su sadraji baze podataka identini
!oja je trailica najboljaC
=+
.ri odabiru najboljih trailica "onih koje zadovoljavaju nae potrebe# potrebno je
iskustvo pri njihovoj upotrebi
$eke od najupotrebljivijih trailica su%
Eoogle>com m koristimo ga za brzo pretraivanje pri emu se trai preciznost kod
dobivenih rezultata
1ltavista m koristi se za opu uporabu u brzom i preciznom pretraivanju, a prednost
joj je velika baza podataka
Votbot m koristi se u pretraivanjima po podrujima i domenama
1sk 5eeves m njegova baza znanja omoguava brzi pronalazak eljene literature i
nekih najvanijih definicija u podruju koje nas zanima
$orthernGight & za akademske, znanstvene pretrage
6Ocite & za traenje po pojmu "konceptno pretraivanje#
meta?trailice m su korisne u opim pretragama bez uporabe naprednih pretraivakih
metoda, a koriste se i pri uspore;ivanju rezultata pretrage drugih trailica
.ostoje dva naina poboljavanja uinkovitosti naih pretraga%
.retraivanje fraza m koristimo se tehnikom odre;ivanja blizine "proOimitU#, kod koje
definiramo traenje JfizikiK bliskih pojmova
$e traimo samo 1 pojam, nego frazu & npr> plava kapa, traimo kao Jplava kapaK
"dakle, trailica ne pretrauje vezu pojmova% plava 1$) kapa, nego trai niz Jplava
kapaK#
pojmovi koji se pojavljuju jedan do drugog u tekstu smatraju se relevantnijima od onih
koji su razdvojeni ostalim pojmovima>
)okument u kojem se rijei plava i kapa pojavljuju jedna do druge je sigurno
relevantniji za upit od dokumenta koji rije plava sadri u naslovu, a kapa u drugom
paragrafu teksta
,pecificiranje upitam biti to je mogue precizniji prilikom definiranja upita i koristiti
to vie sinonima pri definiranju traenog pojma
7mjesto% 'omen and computers upotrijebiti% "'oman or 'omen# and "technologU or
computer# and "training or professional development# and "barriers or problems#
,pecijalizirani predmetni direktoriji
.omou njih pronalazimo sve pohranjene dokumente na mrei koji su vezani uz neku
odre;enu temu ili podruje "npr> glazba, znanost, povijest, itd>#
,ve te teme i podruja mogu se dalje specificirati "podijeliti#
Zbog nemogunosti nabrajanja svih pretraivakih alata postoje stranice koje sadre
nekoliko takvih alata%
*nternet kolekcija trailica "J*nternet ,earch 6ngine 2ollectionsK#
Aeaucoup m sadri oko 1III trailica i direktorija iz cijeloga svijeta koji su
kategorizirani "npr> umjetnost, politika, obrazovanje i dr>#

!1!O -1)6 8-1L*G*26
7vod
8railica "search engine# je popularan izraz za *- sustav pretraivanja>
)ok istraivai *- sustav promatraju u najirem smislu, korisnici na njega gledaju
=/
samo u smislu to on radi: pretrauje 'eb, intranet ili bazu podataka>
!orisnici bi zapravo preferirali sustav za pronalaenje "informacija, dokumenata# za
razliku od sustava za pretraivanje
8railica uspore;uje upite s indeksima koje same stvaraju
*ndeks se sastoji od%
a# rijei svakog dokumenta
b# pokazivaa koji pokazuje lokaciju rijei u
dokumentu
8akav indeks naziva se invertna datoteka
8railica obuhvaa / modula%
.rocesor dokumenta
.rocesor upita
3unkciju traenja i uspore;ivanja
,posobnost stupnjevanja
,vaki od modula moe dati oekivane ili neoekivane rezultate koje korisnici dobiju
putem trailice
.rocesor dokumenata
On priprema, procesira i unosi dokumente, stranice i site?ove koje korisnik pretrauje
.rovodi neke ili sve od sljedeih koraka%
-azbija dokument na jedinice pretraivanja
$ormalizira dokumente i svodi ih na unaprijed definirani format
*zolira poddokumente i dodjeljuje im meta?oznake
*dentificira mogue indeksne termine u dokumentu
Arie stop rijei
!orjenuje termine
*zluuje indeksne termine
*zraunava teine
,tvara i aurira glavnu invertnu datoteku prema kojoj trailica pretrauje da bi
usporedila upit s dokumentima
!oraci obrade dokumenta
"1 & + .redprocesiranje#
.rva tri koraka standardiziraju viestruke formate dokumenata koji se pojavljuju pri
koritenju razliitih 'eb siterova
,lue za spajanje svih podataka u jednu strukturu kojom ostali procesi mogu baratati
)rugi je korak vaan jer pokazivai iz invertne datoteke omoguavaju da sustav
prona;e razliite jedinice & site, stranicu, dokument, odlomak ili reenicu
*dentificiranje elemenata indeksa
"!orak /#
5ako utjee na prirodu i kvalitetu reprezentacije dokumenta
.ri uspostavljanju sustava mora se definirati rije J86-4*$K
)a li je J86-4*$K skup znakova izme;u ( praznine ili praznine i interpunkcijskog
znaka
=0
.roblem% pojmovi koji se sastoje od vie rijei "npr> Vot dog#
,vaka trailica ovisi o skupu pravila koja procesor dokumenata mora izvravati da bi
odredio to ide u JtokenizerK & softver za definiranje termina prikladnih za
indeksiranje
Arisanje ,top & rijei
"!orak 0#
.omae pri ouvanju izvora sustava eliminirajui daljnje procesiranje termina koji ne
koriste pri pronalaenju korisnih dokumenata
St(/ rijei mogu obuhvaati i do /Ih rijei teksta dokumenta
Gista st(/ rijei sastoji se od vrste rijei koje ne nose znaenje & lanovi, veznici,
zamjenice, prijedlozi
.ri brisanju st(/ rijei, algoritam uspore;uje potencijalne indeksne termine s listom
st(/ rijei
!orjenovanje termina "stemming#
"!orak 9#
7klanja sufikse rijei
.roces ima dva cilja%
a# smanjivanje broja istoznanica u indeksu
"za ubrzavanje pretraivanja#
b# poboljavanje odaziva & svo;enje svih
oblika rijei na korjenski oblik
Goe strane%
4oe negativno utjecati na preciznost
( vrste algoritama za uklanjanje sufiksa
1# uklanja i flektivne i derivacijske sufikse "strong stemming#
(# uklanja samo flektivne sufikse "'eak stemming#
*zluivanje indeksnih termina
"!orak =#
$akon zavretka koraka 1 & 9 , procesor dokumenata izluuje preostale rijei iz
originalnog dokumenta
-ezultat =rog koraka se pohranjuje u invertnu datoteku koja sadri indeksne termine i
njihovu poziciju i uestalost pojavljivanja u dokumentu
.rimjer predobrade
,ljedeci paragraf pokazuje odlomak punog teksta prije ovih 9 koraka obrade%
& 4ilosevicns comments, carried bU the official ne's agencU 8anjug, cast doubt over the
governments at the talks, 'hich the international communitU has called to trU to
prevent an all?out 'ar in the ,erbian province> Q.resident 4ilosevic said it 'as 'ell
kno'n that ,erbia and Xugoslavia 'ere firmlU committed to resolving problems in
!osovo, 'hich is an integral part of ,erbia, peacefullU in ,erbia 'ith the participation
of the representatives of all ethnic communities,Q 8anjug said> 4ilosevic 'as speaking
during a meeting 'ith Aritish 3oreign ,ecretarU -obin 2ook, 'ho delivered an
ultimatum to attend negotiations in a 'eekns time on an autonomU proposal for
!osovo 'ith ethnic 1lbanian leaders from the province> 2ook earlier told a conference
that 4ilosevic had agreed to studU the proposal<
.rimjer predobrade
& -ezultat dobiven nakon prvih 9 koraka
=9
4ilosevic comm carri offic ne' agen 8anjug cast doubt govern talk interna commun
call trU prevent all?out 'ar ,erb province .resident 4ilosevic said 'ell kno'n ,erbia
Xugoslavia firm commit resolv problem !osovo integr part ,erbia peace ,erbia
particip representa ethnic commun 8anjug said 4ilosevic speak meeti Aritish 3oreign
,ecretarU -obin 2ook deliver ultimat attend negoti 'eek time autonomU propos
!osovo ethnic 1lban lead province 2ook earl told conference 4ilosevic agree studU
propos>
$amed 6ntitU recognition
softiciraniji procesori dokumenata imaju pretraivae fraza "$amed 6ntitU
-ecognition#, koji prepoznaju da je indeksni termin M$,(s&#$c oznaen kao .erson, a
termini poputG0+(s,a#$a i S&rb$a kao 2ountries>
)odjeljivanje teine terminima
"!orak D#
: 8eina dodijeljena terminima u indeksu
5ednostavne trailice dodjeljuju binarnu teinu
"1< prisutnost: I < odsutnost#
Bto je trailica sofisticiranija, shema dodjeljivanja teine je kompleksnija
1GEO-*814 J83N*)3K za optimalno mjerenje teine
4jeri uestalost pojavljivanja termina u dokumentu i tu uestalost uspore;uje s
uestalou pojavljivanja u cijeloj bazi podataka
$isu svi termini dobri )*,!-*4*$18O-* me;u dokumentima tj> ne odvajaju dobro
dokumente jedne od drugih
83N*)3 dodjeljuje vee teine terminima koji stvarno razlikuju dokumente jedne od
drugih
.rimjer dobrog i loeg diskriminatora%
& 7 sportskoj bazi termin QantibiotikQ bi vjerojatno bio dobar diskriminator dokumenata
i dodijelila bi mu se vea teina>
& $asuprot tome, u bazi koja je posveena zdravlju i medicini, QantibiotikQ bi bio lo
diskriminator, budui da se pojavljuje jako esto
,tvaranje indeksa
"!orak H#
*ndeks ili invertna datoteka je unutarnja struktura podataka koja pohranjuje indeksne
informacije i koja se pretrauje kod svakog upita
*ndeksi mogu biti jednostavne alfa?numerike liste, kao i kompleksnije lingvistike
liste s tfNidf mjerenjem teina i pokazivaima gdje se termini pojavljuju u dokumentu
Bto su kompletnije informacije u indeksu, bolji su rezultati pretraivanja
.rocesor upita
*ma = moguih koraka, iako ih sustav moe skratiti i usporediti upit s invertnom
datotekom na bilo kojem od mnogih mjesta tijekom procesiranja
Bto je vie koraka o skuplje procesiranje
Bto se due ekaju rezultati o vea kvaliteta rezultata
Odre;ivanje vanosti za korisnika% .#a,$t&ta ili #r$%&'&
8railice dostupne javnosti obino izabiru vrijeme kao vaniji faktor zbog previe
dokumenata koji se trebaju pretraivati
8okeniziranje
"1> !orak#
-azbijanje dokumenata u razumljive dijelove
==
8O!6$ & alfa?numeriki niz izme;u razmaka iNili interpunkcije
.arsing
(> !orak
Audui da korisnici mogu koristiti posebne operatore u upitima, sustav prvo mora
ralaniti upit na upitne termine i operatore
Operatori se mogu pojaviti u obliku rezervirane interpunkcije "navodnici# ili
rezerviranih termina u specijalnom formatu
"1$), O-#
8railica moe usporediti listu termina "upita# i invertnu datoteku
Ovdje veina javno dostupnih trailica zavrava pretraivanje
,top lista i korjenovanje
"+> i /> !orak#
$eke trailice stvaraju listu stop rijei i korjenuju upit
,top lista moe sadravati rijei "fraze# upita
"npr> J*Td like information aboutK#
$o, s obzirom kako veina javno dostupnih trailica potiu kratke upite, trailica e
vjerojatno zanemariti ova dva koraka
,tvaranje upita
"0> !orak#
!ako pojedina trailica predstavlja upit ovisi o tome kako sustav uspore;uje
dokumente i upite
!od statistiki utemeljenog uspore;ivanja upit se uspore;uje sa statistikim prikazom
dokumenata
)obri statistiki upiti moraju sadravati mnotvo sinonima i drugih termina da bi se
stvorila potpuna reprezentacija
.roirivanje upita
"9> !orak#
!ako korisnici trailica obino u upitu ukljuuju samo jednu izjavu, vezanu uz svoju
informacijsku potrebu, velika je mogunost da e se informacija koju trebaju prikazati
& u obliku sinonima, a ne tonih termina iz upita
,ofisticiraniji sustavi mogu proiriti upit u sve mogue sinonime, pa i ire i ue
termine "za ovo se koristi Pord$et?rjenik koji sadri popis sinonima, homonima,
hipernima, itd>#
)odjeljivanje teine termina iz upita
"=> !orak#
.retpostavlja se da ima vie od jednog termina u upitu
Zavrni korak u procesiranju upita ukljuuje izraunavanje teine termina iz upita
.onekad korisnik kontrolira ovaj korak, odre;ujui, koji je termin upita vaniji i mora
se pojaviti u svakom prona;enom dokumentu zbog osiguravanja relevantnosti
: 8o nije est sluaj, korisnik ne zna sto sve postoji u bazi podataka, a terminima u
dokumentu se dodjeljuje teina s obzirom na sve dokumente u bazi
: $adalje,veina korisnika nije upoznata sa temom, pa ne znaju pravilnu terminologiju
: $eke trailice implementiraju sustavno utemeljeno dodjeljivanje teine terminima,
dok neke to rade tretirajui prvi termin u upitu kao najvaniji
3unkcija traenja i uparivanja
!ako sustavi izvravaju funkciju traenja i uparivanja razlikuje se ovisno o teoretskom
=D
modelu pretraivanja informacija
$ajjednostavnija funkcija% b$)ar)( /r&tra2$#a)%& 6da li se termin iz upita pojavljuje ili
ne pojavljuje u dokumentu#
.retraivanje invertne datoteke dokumenta
matching < uparivanje
Bto je jednostavnije pretraivanje dokumenata, rezultati su manje relevantni za upit, ali
je i izrada trailice jeftinija
-auna se stupanj uparivosti upita i svakog prona;enog dokumenta, te se prema tome
vri rangiranje pomou algoritma stupnjevanja
3unkcija traenja i uparivanja
,tupnjevanje se bazira na% prisutnostiNodsutnosti termina upita, frekvenciji termina,
tfNidf, Aooleovoj algebri, teini termina upita
$akon izraunavanja slinosti dokumenata, sustav korisniku predstavlja listu
rangiranih rezultata
$apredniji sustavi na temelju povratne informacije "nadopunjeni upit na temelju
vi;enih rezultata# daju korisniku novu rang?listu relevantnih dokumenata
!oje znaajke dokumenta odgovaraju upitu
3rekvencija termina
7estalost pojavljivanja termina u dokumentu jedan je od najoitijih naina
ustanovljivanja vanosti dokumenta za upit
.roblemi% ? rijei s viestrukim znaenjima 6,0. A ,0., /as A /as#
uzrokuju pronalaenje nerelevantnih dokumenata
? rijei odre;enog podruja s velikom frekvencijom
.rimjer% a# $)-(r'ac$%a u podruju $)-(r'ac$%s.$9 3)a)(st$#
b# ako je podruje &"0.ac$%a, termini iz upita kao &"0.ac$%a ili /("05a#a)%& su toliko
frekventni i uobiajeni da sposobnost trailice da razlikuje relevantne od nerelevantnih
dokumenata nije velika
Gokacija termina
4noge trailice pridaju veu vanost rijeima koje se nalaze u naslovu ili prvom
odlomku ili u meta?oznakama dokumenta
1naliza linkova
1naliza linkova funkcionira slino principu koritenja citata u bibliografskoj praksi
8emelji se na tome koliko je dobro povezana svaka stranica
)okumenti se dijele na%
a# V7Arovi "sabirni#
b# 178*8O-*8*6, "autoritativni#
,abirni "V7A# dokumenti & oni koji upuuju na veliki broj drugih stranica
1utoritativni dokumenti & oni na koje upuuje mnoge druge stranice
.opularnost
7estalost posjeenosti stranice prema kojoj se odre;uje relevantnost
)atum objave
8railice pretpostavljaju da su noviji dokumenti relevantniji od stariji
)uljina
)ok duljina sama po sebi ne predvi;a nuno relevantnost, ona je vaan faktor pri
odre;ivanju relevantnosti izme;u dva dokumenta koji sadre iste termine iz upita
)okument s veom frekvencijom termina u odnosu na duinu dokumenta smatra se
relevantnijim
Alizina termina upita
!ada se termini upita pojavljuju blizu jedni drugima u dokumentu, vjerovatnije je da je
=H
dokument relevantan za upit nego kad su termini udaljeni jedni od drugih
@lastita imena
Mesto imaju vee teine jer se mnoga pretraivanja baziraju na ljudima, mjestima i stvarima
.roblem se javlja ako se upit ne odnosi na vlastito ime "7pitom JkovaK traimo kovanicu, a
dobijemo dokumente o osobi koja se tako preziva>#
1$18O4*51 B*-O!OOA7V@18$OE V*.6-86!,871G$OE P6A
.-68-1L*@1M1
7vod
!oliina podataka na Peb?u i broj novih korisnika neprestano rastu
.retraivanje pomou predmetnih direktorija "npr> Xahoo# je pogodno za popularne
teme, ali je njihova izgradnja i odravanje preskupo
1utomatske trailice koje se oslanjaju na kljune rijei vraaju previe nerelevantnih
rezultata
5avlja se potreba za efikasnijom trailicom & Ga'rence .age Z ,ergeU Arin
projektiraju Eoogle "od broja 1I
1II
& googol#
Eoogle
)izajniran da se dobro nosi sa ekstremno velikom koliinom podataka
6fikasno iskoritava prostor na kojem se uva indeks
Optimiziran je za brz i uinkovit pristup podatcima?ini pretraivanje lakim
Eoogle?dizajnerski ciljevi
1HH=>? samo 1 od / najbolje komercijalne trailice ispisuje vlastitu 'eb stranicu u
prvih 1I rezultata pretraivanja
Elavni cilj? poboljati kvalitetu 'eb pretraivaa i poveati preciznost pretraivanja
5avljaju se novi alati za pretraivanje koji rezultate pretraivanja sortiraju prema
stupnju relevantnosti
,ukladno sa rastom 'eba poveava se i njegova komercijalizacija? trailice migriraju
sa akademskih domena na komercijalne? Eoogle vraa pretraivae u akademsku
domenu
@aan cilj 'eb dizajna% izgradnja sustava kojeg veliki broj ljudi moe koristiti
5edan od glavnih ciljeva Eoogle?a% napraviti okruje u kojem se mogu brzo
pretraivati veliki dijelovi 'eba a da rezultati pretraivanja budu zanimljivi
Obiljeja sustava
( bitna obiljeja pomau Eoogle?u da dobije precizne rezultate%
1> koristi strukturu linkova na Pebu za izraunavanje kvalitete za svaku 'eb stranicu?
.age-ank
(> koristi linkove za poboljanje rezultata pretraivanja
Erafikon 'eb linkova? vaan resurs koji se ne koristi dovoljno u postojeim
trailicama
Eoogle je stvorio mape koje sadre oko 01D milijuna linkova? omoguuju brzo
raunanje .age-anka odre;ene 'eb stranice
.age-ank? odlian nain slaganja rezultata pretraivanja 'eb stranica po vanosti
.age-ank 'eb stranice? objektivna mjera vanosti citiranja te stranice koja odgovara
korisnikovoj ideji vanosti
DI
.age-ank odlino pronalazi tekstove prema naslovima za najpopularnije teme
)efinicija .age-anka
.retpostavimo da stranica 1 ima 81, 8(>>>8n stranica koje upuuju na nju
.-"81, 8(>>>8n# je suma .age-anka stranica koje upuuju na stranicu 1
2"81, 8(>>>8n# je broj linkova koji izlaze iz stranice 1
.arametar d je faktor normalizacije ? moe biti izme;u I i 1 "obino je I>D0#
3ormula .age-anka
.-"1# < "1?d# b d ".-"81#N2"81# b >>> b .-"8n#N2"8n##
,tranica ima visoki .age-ank ako postoji velik broj stranica koje upuuju na nju, ili
ako nekoliko stranica koje imaju visoki .age-ank upuuju na nju
,idreni tekst
8ekst linka pridruuje se stranici na kojoj se nalazi ili stranici na koju link upuuje
.rednosti%
1> sidra daju toniji opis 'eb stranica od njih samih
(> sidra postoje i za dokumente koji ne mogu biti indeksirani "slike, programi i baze podataka#
Ostale karakteristike Eoogle?a
Muva informacije o lokacijama za sve rezultate pa zbog toga dosta koristi priblino
pretraivanje
.rati detalje kao to su veliina slova, npr> vea ili masno otisnuta slova tretiraju se
kao vanija od ostalih
,ve V84G stranice su pohranjene i mogu se koristiti
.retraivanje podataka
8eOt -etrieval 2onference "8-62 H9# koristi malu, dobro kontroliranu, kolekciju za
pretraivanje> 1li ono to je efikasno na 8-62u, ne rezultira dobro na Pebu>
,tandardni vektorski model trai dokumente najslinije upitu: na 'ebu se oni esto
vraaju kao kratki, nerelevantni dokumenti uz jo nekoliko rijei> $pr> upit QAill
2lintonQ esto vraa stranicu na kojoj pie samo QAill 2linton sucksQ>
-azlike izme;u Peba i dobro kontroliranih kolekcija
Peb & ogromna kolekcija nekontroliranih heterogenih dokumenata
7nutar sebe dokumenti se razlikuju jezikom "ljudski, programski#, rjenikom "e?mail
adrese, linkovi, telefonski broj, zip kodovi#, tipom formata "tekst, V84G, .)3, slike,
zvukovi#
4eta?informacija je informacija o dokumentu koju ovaj ne sadri unutar sebe, npr>
reputacija izvora, kvaliteta, popularnost i citati
Peb ne kontrolira to ljudi piu u meta?informaciju
.roblem nastaje kad kompanije ponu manipulirati trailicama preko meta informacija
.regled Eoogle?ove arhitekture
@eim dijelom Eoogle je sastavljen u 2 ili 2bb programu zbog bolje uinkovitosti i
mogunosti rada u operativnim sustavima ,olaris i GinuO
D1
Eoogle?'eb cra'ling "prikupljanje 'eb stranica# izvrava se s nekoliko modula%
7-G?server alje listu 7-G?ova koje cra'ler hvata
,tranice koje su uhvaene alju se u skladini server koji saima i pohranjuje stranice
,vakoj 'eb stranici pridruuje se *) broj?doc*)
*ndekser i sorter izvravaju indeksiranje
*ndekser ita iz spremita, dekompresira dokumente i razvrstava ih
,vaki dokument se pretvara u listu termina, njihovih frekvencija, njihovih pozicija u
dokumentu, veliine fonta
8a lista se naziva lista pogodaka "hitlist#

*ndekser distribuira termine u barele i stvara djelomino sortiran indeks unaprijed
"for'ard indeks#
*ndekser razvrstava sve linkove na svakoj 'eb stranici i sprema relevantne informacije
o njima u sidrenu datoteku "anchors file#
,idrena datoteka sadri dovoljno informacija da bi mogla odrediti gdje koji link
pokazuje i odakle je koji link, kao i tekst samog linka
7-G odrednica ita sidrenu datoteku i pretvara relativne 7-G?ove u apsolutne 7-G?
ove te ih pretvara u doc*)?je "*) dokumenta#
,tavlja sidreni tekst u indeks unaprijed, koji je povezan s doc*) na koji pokazuje
sidrenu datoteku
,tvara bazu linkova koja se sastoji od parova doc*)?ja> Aaza se koristi za
izraunavanje .age-anka za sve dokumente
,orter uzima barele, koji su sortirani prema doc*)?ju i slae ih prema 'ord*)?ju te
stvara invertni indeks> ,tvara listu 'ord*)?ova i slae ih u invertni indeks
-jenik ")umpGeOicon# uzima listu termina zajedno s rjenikom koji je stvorio
indekser i stvara novi leksikon koji koristi searcher
Peb server pokree searcher i koristi rjenik koji je stvorio )umpGeOicon zajedno s
invertnim indeksom i .age-ankom da bi odgovorio na upit
Osnovne strukture podataka
,trukture podataka na Eoogle?u su organizirane tako da velika skupina dokumenata
moe biti uhvaena, indeksirana i pretraivana sa malim trokovima
*ako se snaga procesora i koliina memorije poboljala s godinama, za pretraivanje
diska jo uvijek je potrebno barem 1I ms
Eoogle je dizajniran da izbjegne pretraivanje diska kad god je to mogue i to je imalo
znaajan utjecaj na oblik strukture podataka
Aig3iles
@irtualne datoteke koje se koriste u viestrukim sustavima dokumenata
)odjela Aig3ile?ova viestrukim sustavima dokumenata se doga;a automatski
.odravaju osnovne opcije za komprimiranje
,premite
,adri potpuni V84G svake 'eb?stranice
,vaka stranica je saeta koristei zlib
*zbor tehnike saimanja bio je izme;u brzine i postotka saimanja
*zabrana je zlibova brzina umjesto znaajnog poboljanja saimanja koju nudi bzip>
D(
Omjer saimanja bzipa je priblino /%1 u usporedbi sa zlibovim od +%1
7 skladitu, dokumenti su pohranjeni jedan za drugim, zajedno s doc*)?jem, duljinom
i 7-G?om
,kladite ne zahtijeva nikakve druge strukture podataka da bi se moglo koristiti
*ndeks
,adri informacije o svakom dokumentu
3iksni *,14 "*ndeO se\uential access mode# indeks, posloen prema doc*)?ju
*nformacija pohranjena za svaki zapis ukljuuje trenutni status dokumenta, pokazatelj
na skladite,provjeru samog dokumenta i razliite statistike
1ko je dokument prikupljen cra'lingom tako;er sadri pokaziva razliite duljine
file?ova koji se zovu doc*$3O koji sadri njegov 7-G i naslov
*nae pokazatelj oznaava na 7-G listu koja sadri samo 7-G
-jenik
*ma nekoliko razliitih oblika> Aitna promjena u odnosu na ranije sustave jest da se
rjenik moe ugraditi u memoriju za razumnu cijenu
Zasada ga moemo ugraditi u memoriju sa (09 4A glavne memorije
,adanji rjenik sadri 1/ milijuna rijei>
.odijeljen je u dva dijela & lista rijei i tablica pokazatelja
Vit Giste "Giste pogodaka#
Vit lista odgovara popisu pojavljivanja odre;enih rijei u odre;enom dokumentu
ukljuujui poziciju, font i informaciju o velikom i malom slovu
7 obzir uzimamo nekoliko naina za kodiranje pozicije, fonta i velikogNmalog slova ?
jednostavno dekodiranje, saeto dekodiranje i Vuffmanovo kodiranje
,aeto dekodiranje koristi ( bita za svaki pogodak
-azlikujemo ( vrste pogodaka% sloeni pogotci i jednostavni pogotci
,loeni pogotci ukljuuju pogotke u 7-G?u, naslov, sidreni tekst i meta oznaku, a
jednostavni pogotci ukljuuju sve ostalo
)uina hit liste je pohranjena prije samih pogodaka
)a bi se sauvao prostor, duina hit liste je kombinirana sa 'ord*) u indeksu naprijed
"for'ard indeks# i sa doc*) u invertnom indeksu
3or'ard *ndeO "*ndeks naprijed#
@e je djelimino sortiran
,vaki barel sadri odre;eni raspon 'ord*)?a>
1ko dokument sadri rijei koje su sadrane u pojedinim barelima, doc*) je
zabiljeen u barel, a iza njega slijedi lista 'ord*) sa hit listom koja odgovara tim
rijeima>
Ova shema zahtijeva malo vie prostora pohrane zbog duplih doc*)?jeva, ali razlika je
vrlo mala
7mjesto spremanja pravog 'ord*)?a, sprema se svaki 'ord*) kao relativna razlika od
najmanjeg 'ord*)j?a koji je u istom barelu
*nvertni *ndeksi
,astoje se od istih barela kao i indeksi naprijed
Za svaki valjan 'ord*), rjenik sadri pokazatelj na barel koji sadri 'ord*)
.okazatelj pokazuje na listu doc*)?ja zajedno s odgovarajuom listom pogodaka
D+
Ova doclista predstavlja sva pojavljivanja te rijei u svim dokumentima
,porna toka je kojim redom e se doc*) pojaviti u doclisti
5edan od naina je pohraniti ih razvrstane po doc*)
)rugi nain je pohraniti ih razvrstane po rangu pojavljivanja rijei u svakom
dokumentu
Eoogle je napravio kompromis izme;u ove ( opcije% zadrao je ( skupa invertnih
barela & jedan za one liste pogodaka koje ukljuuju naslov ili sidreni tekst, a drugi za
sve liste pogodaka
Peb cra'ling
7potreba cra'linga je vrlo osjetljiva jer ukljuuje interakciju sa stotinama tisua 'eb
posluitelja i razliitih imenskih posluitelja koji nisu svi pod kontrolom sistema
Ocjenjujui stotine tisua 'eb stranica, Eoogle brzo provodi cra'ling
,am 7-Gserver alje listu 7-G?ova drugim cra'lerima
,vaki cra'ler dri oko +II veza odjednom otvorenih,to je potrebno za povratak 'eb
stranica u dovoljno brzom tempu
$a vrhuncu brzine sustav moe spuzatiK preko 1II 'eb stranica po sekundi koristei /
cra'lera
,vaki cra'ler sadri svoj vlastiti )$,
,vaka od stotine veza moe biti u razliitim stanjima% potraga za )$,?om, spajanje na
host, slanje zahtjeva i primanje odgovora
Ovi faktori ine cra'ler kompleksnim dijelom sustava
Zbog velikog broja promjena kod 'eb stranica i servera, potrebno je testirati cra'ler
na velikom dijelu interneta
.ostoji mnogo nejasnih problema koji se mogu pojaviti na jednoj stranici izvan 'eba i
uzrokovati pad cra'lera ili neko nepredvidljivo ponaanje, zato sustavi koji pruaju
pristup velikim dijelovima interneta moraju biti robustno izgra;eni i paljivo testirani
*ndeksiranje Peba
.arsiranje%
svaki parser koji je dizajniran da radi na cijelom 'ebu mora se znati nositi sa cijelim
nizom moguih problema
.roblemi se kreu od tipfelera u V84G tagovima, preko kilobajta nula u sredini taga
pa do ne?1,2** znakova?indeksiranje dokumenata u barele
$akon to je svaki dokument parsiran,dekodira se u odre;eni broj barela?svaka rije je
pretvorena u 'ord*) koritenjem leksikona
!ada se rijei jednom pretvore u 'ord*), njihova pojavljivanja u tekuem dokumentu
su prevedena u listu pogodaka i zapisana u barelima naprijed
,ortiranje%
da bi se generirao invertni indeks, sorter uzima svaki od barela naprijed i sortira ih
prema 'ord*)?ju da bi se stvorio invertni barel za naslov i listu sidra te invertni barel
za puni tekst
.retraivanje
2ilj &djelotvorno pruiti kvalitetne rezultate
4nogi od velikih, komercijalnih pretraivaa napreduju u djelotvornosti
)a bi se ograniilo vrijeme pronalaska odgovora, im je odre;eni broj dokumenata
prona;en, pretraiva automatski sortira dokumente po vanosti
D/
$aela rangiranja
Eoogle odrava vie informacija o dokumentima na 'ebu nego tipini pretraivai
,vaka hit lista ukljuuje poziciju, font i kapitalizaciju slova>
-angiranje svih ovih informacija prilino je teko>
-ang funkcija je napravljena tako da nijedan pojedinani faktor ne moe previe
utjecati na konani rezultat>
$ajjednostavniji sluaj ? pretraga po jednoj rijei
Eoogle trai tu rije u hit listi dokumenta za tu rije
Eoogle uzima u obzir da svaki hit bude jedan od nekoliko tipova pogodaka "naslov,
7-G, sidro, font>># od kojih svaki tip ima vlastitu teinu "tUpe & 'eight#> 8eina tipa se
pohranjuje kao vektor
Zatim broji pogotke za svaki tip na hitlisti i pretvara ih u novu teinu% count ? 'eight>
8o se tako;er pohranjuje kao vektor
7zima se produkt vektora count ? 'eighta i tUpe ? 'eighta i izraunava *- pogodak
dokumenta>
*- pogodak se kombinira sa .age-ank?om da se odredi krajnji rang dokumenta
.retraga po vie rijei & puno kompliciranija
-ezultati i uinak
$ajvanija karakteristika trailice & kvaliteta rezultata traenja
Eoogle & me;u najuinkovitijim trailicamamrezultate organizira u klastere
"skupove# s obzirom na server s kojeg dolazemolakava pregledavanje rezultata
7 kombinaciji koristi rangiranje stranice, sidreni tekst i priblinost" proOimitU#
2ra'ling < prikupljanje dokumenata s mree za stvaranje pretraivog indeksa
$eke od rezultata nije mogue prikupiti kao dokumente za stvaranje pretraivog
indeksa
7 tom sluaju Eoogle se oslanja na sidreni tekst kao dobar odgovor na upit
-ang stranice".age -ank#? postotak u kojem neki rezultat traenja odgovara upitu
-ezultati i uinak
$ajvanija mjera
uspjenosti je kvaliteta
rezultata
7pit Jbill clintonK & koristi se sidreni tekst, vjerojatnost supojavljivanja rijei iz upita i
.age-ank
-ezultati se prikazani prema domeni
@eina rezultata s domene 'hitehouse>gov koju druge trailice ni ne prikazuju za ovaj
upit "zbog sidrenog teksta koji je pronaao prvi dokument iako nema naslova te peti
dokument iako je to email#
!omercijalne trailice ne mogu pronai prvi i peti rezultat jer ne koriste sidreni tekst
4e;u prvih 1I rezultata nema neispravnih linkova
$ema rezultata koji sadre samo JbillK, bez JclintonK i obrnuto "zato to je velika
teina pridodana vjerojatnosti supojavljivanja rijei
,vi rezultati su visoke kvalitete, nema polomljenih linkova, veinom zbog .age-ank?a
.age-ank je prikazan postotcima u crvenoj boji
.ohranjivanje
D0
Eoogle uinkovito pohranjuje podatke?nakon kompresiranja, skladite podataka ima
0+ EA, to je treina od ukupne koliine podataka koju sadri
!valiteta pretraivanja
Eoogle upotrebljava%
Vipertekstualne informacije? struktura linka b link "sidreni# tekst "link tekst opisuje na
to link usmjerava#
.riblinost "proOimitU#? pomae u odre;ivanju relevantnosti rezultata potrage
)izajniran je da premosti prepreke u pretrazi i pokae uinkovitost prostorno i
vremenski
.rikupljanje "cra'ling#, oznaavanje "indeOing# i sortiranje "sorting#? zajedno velika
uinkovitost
.onovimo_
2ra'ler "puzavac#
-obot koji prikuplja 7-G adrese s 7-G servera
)o'nload?a stranice
.roslje;uje ih u ,tore ,erver "server pohrane#
,tore ,erver pohranjuje stranice u saetom repozitoriju
*ndeOer "indekser#
,tvara liste rezultata za svaku pojedinu rije, stavlja ih u barele na temelju
identifikatora "Pord*)#
,mjeta 7-G?ove u sidrenu datoteku "1nchor 3ile#
1urira indeks dokumenta
$ove rijei dodaje u leksikon
7-G resolver"rjeava 7-G?ova#
.retvara relativne 7-G?ove u apsolutne
1urira bazu linkova
)odaje sidrene rijei iz teksta "anchor teOt 'ords# u barele koji su spojeni su
dokumentima na koje pokazuju
Aareli "indeks unaprijedNinvertni indeks
*ndeks unaprijed "3or'ard indeO#%
Odrava indeks dokumenta N 'ord*) N red rezultata "hitlist tuples#
)jelomino sortiran prema indeksu dokumenta
*ndeks unatrag "-everse indeO#
Odrava indeks dokumenta N red pogodaka "hitlist tuples#
Geksikon upuuje na njega
4ali bareli sadre samo rezultate pogodaka naslova ili sidra "title N anchor hits#
GeOicon "-jenik#
Odrava listu svake rijei
Za svaku rije odrava listu pokazivaa na invertni indeks za svaki dokument koji
sadri rije
,earcher ".retraiva#
8rai rije u leksikonu da bi pronaao listu dokumenata koji sadre tu rije
D9
8rai dokumente u invertnim barelima da bi pronaao liste pogodaka
,ortira rezultate prema .agerank?u i informaciji s liste pogodaka broj pogodaka u
dokumentu, lokacija u dokumentu, veliina fonta, itd#
,ortiranu listu prikazuje korisniku
D=

You might also like