You are on page 1of 5



Mario Sajko, Fakultet organizacije i informatike Varadin, travanj, 2001.



PRETRAIVANJE INTERNETA I VREDNOVANJE


PRONAENIH INFORMACIJA




Vie se godina Internet koristi kao izvor velikog broja veinom hipertekstualnih sadraja
sumnjivog porijekla, kvalitete i tonosti. Sadraji na Interentu su osim toga neorganizirani i
nestrukturirani, tj. ne postoji standardna forma njihova prikazivanja. Usprkos relativno lakom
pristupu podacima, njihova koliina oteava pronalazak odreenih sadraja. Uz to, Internet korisnici
su razliiti po interesima, znanju, starosti, obrazovanju, a kvalitetno koritenje Internet-sadraja i
snalaenje u Internet-izvorima zahtijeva odreenu razinu sposobnosti i znanja.
Usprkos tomu danas je Internet iroko prihvaen medij na to su utjecale sljedee njegove osobine :
mali trokovi objavljivanja podataka i pregledavanja izvora
stalna dostupnost, prostorna neogranienost koritenja
jednostavnost koritenja
aktualnosti i privlanost multimedijskih sadraja

nekontrolirani porast sadraja


loa organiziranost
oteano snalaenje
potekoe u pronalaenju sadraja
oteana provjera i vrednovanje sadraja






No, negativna strana tog porasta je to velika koliina sadraja koja se svakodnevno objavljuje
oteava njihovu organizaciju i prezentaciju. Posljedice su :

Uz gore navedene osobine Interneta, na potekoe pretraivanja utiu i slaba ili nikakva
kontrola objavljenih podataka i nepostojanje standardne forme prikazivanja. Kao pomo za
prevladavanje tih problema nastaju Internet-servisi koji organiziraju hipertekstualne multimedijske
sadraje u smislene hijerarhijske cjeline ili pak pretraujui sadraje Interneta stvaraju baze
podataka koje korisnik moe pretraivati. Takvi i slini Internet-servisi nazivaju se pretraivai,
metapretraivai, tematski katalozi, rjenici, imeniki servisi, viestruka suelja, bijele i ute
stranice, inteligentni agenti i posebne baze podataka.

Unato poznavanju usluga pretraivanja i dalje je ponekad teko pronai odgovarajui


sadraj. Za potrebe optimalnog pretraivanja velike mnoine sadraja razvijeno je vie strategija
pretraivanja. Njima su polazna toka stariji radovi kao npr. [Harter, 1986.] ili [Vickery, 1987.] u
kojima se opisuje problematika pretraivanja i mjerenje uinkovitosti pretraivanja on-line izvora.
Veliki broj strategija koje nalazimo u novijoj literaturi upuuju na razliite pristupe koji veinom
ovise o autorovom iskustvu ili sklonosti. Odreene se smjernice ipak mogu izdvojiti, pa uspjenost
pretraivanja moe ovisiti o sljdeem:
sposobnosti izrade izraza za pretraivanje koji e korespondirati s izrazima koji se
koriste u dokumentu kojeg se eli pronai
osobine baze koja se koristi

mogunostima softvera kojim provodimo istraivanje [Turin, 2001.],

kako traiti, odnosno kako zapoeti


kako odrediti to traimo
gdje traiti, odnosno na kojem mjestu moemo pronai najbolju informaciju
pomou ega traiti, koje usluge Interneta izabrati (pretraivae, tematske kataloge,
inteligentne agente, metapretraivae)






Jednako tako pretraivanje ovisi i o uinjenoj analizi koja prethodi samom poetku
pretraivanja:

poeti s odreivanjem cilja, granica pretraivanja te odrediti podruje


provjeriti raspoloive informacije i potraiti dodatne
definirati to se tono eli nai, izdvojiti kljune rijei i napraviti njihovu listu, odrediti
sinonime i varijacije teme ili izriaja, eljenu formu informacije itd.
odluiti kako e se pretraivati kombinacijom sinonima ili varijacija
provjeriti da li imamo laku mogunost nalaenja informacija




Pretraivanje se preporua zapoeti s definiranjem sadraja koji elimo pronai. Toga se


korisnici esto ne pridravaju, jer sigurni u sebe, potaknuti brzinom i dostupnou Interneta
zapoinju pretraivanje s nerazraenim ciljem i podrujem pretraivanja elei to prije pronai
potreban sadraj. U praktinom koritenju takav nain ne daje uvijek pravovremene informacije.
Zato u veem broju radova nalazimo ralambe koje predoene u sljedee odrednice predstavljaju
prvu fazu strategije pretraivanja :






Daljnji koraci u pretraivanju u velikoj mjeri ovise o koliini prikupljenih informacija o temi i
njihovoj kvaliteti. Potrebno je naglasiti da neki autori poetnu fazu analize zahtjeva i mogunosti
stavljaju na drugo mjesto, a za poetak se oslanjaju na mogunost pogaanja nalazita podataka
[Lazewski, 2001.] i [Notess, 2000.]. Na osnovi razmiljanja veeg broja autora tijek pretraivanja se
moe podijeliti u sljedee faze :

otvaranje URL-a (ako znamo ili pretpostavljamo adresu)

USPJEH



ne uspijeva




- provjeri upisivanje adrese


- traenje na vioj hijerarhiji adrese (do prijanjeg znaka "slash")
- provjeri url-adresu pomou pretraivaa
- kontaktirati web-mastera
- koritisti "find" opciju u browseru
- definiraj temu, koristiti opciju traenja unutar Web-mjesta

ne uspijeva

Odaberi pravo mjesto za traenje :


- koristiti pretraivae
- koristiti tematske kataloge
- koristiti posebne baze podataka, ute stranice i sl.
- koristiti baze objavljene literature, bibliografskih podataka itd.




Analiziraj temu koju pretrauje da bi znao gdje poeti (kontakt s expertom, upit diskusijskoj
skupini) :
- odrediti koje vrste informacija se trai (znanstvene, strune, popularne, prirunici, vrsta
publikacije itd.
- definirati temu i kljune rijei to je blie mogue, koristiti sinonime
- odrediti asocijacije za kljune rijei i proiriti pretraivanje na podruja koja mogu
sadravati podatke o temi
- odrediti organizacije koje su povezane s temom te ih kontaktirati na web-u, kontaktirati
webmastera, diskusijske skupine

ustraj i pokuaj ponovo koristei


nove informacije o temi

ne uspijeva






Slika 1. Strategija pretraivanja podataka


Openito, nema najboljeg naina pretraivanja, a ni najboljeg Web-servisa koji pretraivanje
prua. U stvarnoj situaciji treba koristiti njihovu kombinaciju, odnosno vie pristupa ne bi li se
dobili to bolji rezultati. Korisnici se pri tom oslanjaju na iskustvo, popularnost i naviku koritenja
pojedine strategije i Web-servisa. Uspjenost pretraivanja posebno poveava i poznavanje
mogunosti pojedinog servisa. Najvanije osobine pojedinih servisa kojim ih opisujemo su :
pretraivai (Altavista, Excite, Google, Northern Light, Yahoo i dr.)
nain zadavanja upita (po temi ili subjektu, frazi, kljunim rijeima, Boolean simbolima
and, or, and not, simbolima "+, -", zamjenskim simbolima, naslovu, domeni, url adresi ,
poveznicama)
nainu prikupljanja podataka - osobine programa "robota"
kriteriji po kojima vrednuju podatke (poloaj kljunih rijei u dokumentu, frekvencija
kljunih rijei u dokumentu, izbjegavanje viestrukog uzastopnog navoenja istih
kljunih rijei, popularnost Web dokumenata na drugim pretraivaima i katalozima,
uvrtenje Web dokumenata u tematske kataloge, meta oznake)
tematski katalozi (Infomine, Librarians, Open Directory, Yahoo, Looksmart, Argus
Clearinghouse, About.com, i dr.)
podruje koje pokrivaju
tko ih odrava
struktura i organizacija podataka
nain kategorizacije, "dubina" podjele
posebne baze podataka






cijena podataka
podruje
razina i kategorija (referentne baze, bibliografske baze, vijesti, znanstvene informacije,
doktorati, lanci, softver itd.)
metapretraivai (Ixquick, MetaCrawler, Search.com, ProFusion, C4, Dogpile)
koje pretraivae koriste
kriteriji po kojima vrednuju podatke
inteligentni agenti
razina inteligencije
samostalnost itd.




Koristi li se bilo koji on navedenih izvora, korisniku su prilikom pronalaenja sadraja vane
mogunosti besplatnog koritenja, dostupnosti (mogunost kopiranja) i upotrebljivosti sadraja
(format zapisa i potrebni programsko-raunalni zahtjevi). Te osobine oznauju vrijednost sadraja,
odnosno kvalitetu podataka, informacija i izvora Interneta.

Nepostojanje ustanove koja kontrolira sadraje na Internetu i Web-u, pojava zastarjelih,


neauriranih i ne referenciranih sadraja bez porijekla razlozi su kritikog gledanja na Websadraje. Kritina procjena se esto izostavlja, emu je razlog zadovoljstvo korisnika nastalo pri
pronalaenju traenog sadraja. Objektivna vrijednost sadraja se za pojedinca teko moe mjeriti,
no radi potrebe vrednovanja utvreno je niz kriterija koje pri koritenju Web-izvora treba provjeriti.
Oni se mogu svrstati u dvije osnovne kategorije:
vrednovanje izvora sadraja (provjera kvalitete Web-mjesta, u ime koga djeluje, koju
skupinu sadraje prikazuje, odravanost Web-mjesta, slobodan pristup, jednostavnost rada,
mogunost pretraivanja unutar Web-mjesta, broj mrtvih poveznica, uestalost navoenja
na drugim mjestima i dr.)

vrednovanje sadraja (tonost, potpunost, svjeina, upotrebljivost s obzirom na


upotrijebljeni format informacija, originalnost, mogunosti pregledavanja i kopiranja,
vrijednost prema drugim slinim sadrajima, vrijednost prema drugim tiskanim i netiskanim
izdanjima, autorstvo odnosno porijeklo informacije, vrijednost poveznica koji vode iz
dokumenta i njihov broj, strukturiranost i ureenost, gramatika i leksika ispravnost,
ogranienja u pogledu programsko-raunalnih zahtjeva, interaktivnost, pripadnost stranice grupi, pojedincu ili organizaciji, broj mrtvih poveznica, prijateljsko suelje, mogunost
raunalne obrade, recenzija i tko ju je izdao, toka gledita i pristranost, trokovi i dr.)






Iako je sve kriterije ponekad teko i dugotrajno procjenjivati (pogotovo ako ih dokument i
izvor ne posjeduje) njima se moe odrediti odreena vrijednost sadraja. Openito vrijedi da e
sadraj trebati provjeravati to vie koliko je predvieno primateljstvo, svrha i mjesto koritenja
zahtjevnije. Tada je nuno prikupiti to tonije podatke o autoru ili organizaciji koja stoji iza
sadraja Internet-dokumenta. Potrebna temeljitost nije pri tome bitno drugaija nego pri koritenju
drugih oblika izvora podataka.
U Hrvatskom Web prostoru nain pristupanja domaim Web-izvorima jednak je opisanom.
Pretraivanje se preporua zapoeti nekim od nabrojanih servisa, a uz koritenje svjetski poznatih
pretraivaa i kataloga nudi se i nekoliko domaih. Tu se prije svega misli na koritenje
pretraivaa CROSS (Croatia Search Service) koji pretrauje sadraje objavljene u hrvatskoj
domeni (.hr). Mogunosti su mu sline drugim pretraivaima. Ovaj pretraiva podrava
pretraivanje svih hrvatskih znakova. Vei nedostatak je to ne pretrauje multimedijske sadraje,
kao to su slike, filmovi, zvuni zapisi itd. CARnet mrea omoguava i druge usluge, kao na

primjer pretraivanje mrenih imenikih servisa koji se koriste za pronalaenje elektronikih adresa
i osnovnih podataka o osobama i ustanovama korisnicima.














U ostale izvore informacija u hrvatskoj se preporua koritenje nekih od sustava za


pretraivanje knjinica. Najpoznatiji takav sustav je sigurno CROLIST koji je meu ostalima
postavljen i na Nacionalnoj sveuilinoj knjinici. Mogunost pretraivanja bibliotenog fonda na
Web-u ini CROLIST dobrim polazitem u traganju za tiskanim i drugim oblicima zapisa u
hrvatskoj. Osim CROLIST-a i druge knjinice u zemlji raspolau programsko-raunalnim
rjeenjima za pretraivanje, naravno manjeg bibliotenog fonda.

You might also like