Professional Documents
Culture Documents
SOP - Sustavi Za Označivanje I Pretraživanje SKRIPTA
SOP - Sustavi Za Označivanje I Pretraživanje SKRIPTA
Literatura: upravljanje
1. Dizdar, S. Od podataka do metapodataka. Sarajevo: Nacionalna i univerzitetska biblioteka Bosne i
Hercegovine, 2011. (poglavlje Pretraživanje; str. 223 – 246)
2. Svenonius, E. Intelektualne osnove organizacije informacija. Lokve: Benja, 2005. (poglavlje 8 i 9)
3. Chowdhury, G.G. Introduction to modern information retrieval. London: LAP, 1999. (o kontroli jezika,
evaluaciji, pretraživanju informacija)
Članci:
OPĆA baza jer pokriva sva područja znanosti (agronomiju, biologiju, medicinu, matematiku, fiziku,
kemiju, astronomiju, povijest, pravo, politiku, književnost, umjetnost, religiju i dr.).
Proizvođač je Thomson Reuters.
Citatne baze podataka su u svojoj osnovi bibliografske, ali je njihova posebnost što PORED SAMIH
RADOVA obrađuju i popise korištene literature/referenci, koje autori navode na kraju svojih radova.
Citatne baze odgovaraju na pitanja koji su radovi najpopularniji, najčitaniji ili najviše citirani unutar
nekog znanstvenog područja.
UČINKOVITOST
RAZINA ostvarivanja cilja
DJELOTVORNOST
EKONOMIČNOST postizanja cilja
11. Rezultat predmetne obrade iskazan je poretkom predmeta prema pravilima za predmetno
označivanje:
a. točno
b. netočno.
kontrolirani
polukontrolirani i
nekontrolirani.
23. Pomoću kojeg alata korisnici mogu pristupiti KONTROLIRANOM RJEČNIKU u strukturiranim
informacijskim okruženjima (bazama podataka)?
a. operatera približnosti (Nx)
b. tezaurusa.
28. Tezaurus koji uključuje opće pojmove i pokriva široko područje znanja naziva se:
a. makrotezaurus
b. višejezični tezaurus
c. mikrotezaurus
d. izvorni tezaurus.
30. Tezaurus kao kontrolirani popis pojmova ne sadrži sljedeće vrste riječi:
a) osobne imenice
b) članove, glagole i prijedloge
c) složenice
d) imenice u množini.
31. Sintetička ili globalna metoda u izradi tezaurusa jest prikupljanje pojmova iz:
a) primarnih dokumenata
b) eksperimentalnog postupka označivanja i pretraživanja
c) sekundarnih izvora.
32. Koju vrstu odnosa naznačujemo kraticom RT (Related term; relacijski pojam) u tezaurusima:
a. nadređeni pojam
b. podređeni pojam
c. srodni pojam
d. istoznačni pojam.
SN (Srodni naziv)
33. Prednost kontroliranih rječnika jest da rješavaju mnoge semantičke probleme:
a. točno
b. netočno.
Kontrolirani rječnici rješavaju mnoge semantičke probleme jer se olakšavaju pretraživanje i odabiru
se termini koji će se uvijek koristiti i tako se kontrolira raznolikost i DOKIDA VIŠEZNAČNOST.
Različite varijante (riječi/odrednice) se tako svode na samo jedan DESKRIPTOR!
34. Između ortografskih varijanti nekog pojma, u kontroliranom rječniku se uspostavlja koji
odnos?
a. višeznačnost
b. istoznačnost.
37. Pri kontroliranom indeksiranju/označivanju, sam izvor ne mora sadržavati indeksni pojam:
a. točno
b. netočno.
39. Ukoliko u KONTROLIRANOM RJEČNIKU želimo naznačiti odnos između različitih ortografskih
inačica koristimo sljedeće metajezične oznake:
a. USE – USE FOR
40. Pri kontroliranom indeksiranju/označivanje, sam izvor ne mora sadržavati indeksni pojam:
a. točno
b. netočno.
JAMSTVO PREDLOŠKA nalaže da se rječnik PREDMETNOG JEZIKA empirijski izvodi iz literature koju
namjerava opisati.
44. Jamstvo koje osigurava uvođenje naziva koji se mogu upotrebljavati kao nadomjestak za
manjkave veze u hijerarhiji naziva se:
a. korisničko jamstvo
b. jamstvo predloška
c. strukturno jamstvo.
45. Korištenje postupnika kojim se uklanjaju sufiksi i traži osnovni oblik riječi u okviru
automatskog predmetnog označivanja naziva se:
a. stemming
b. lematizacija
c. korijenovanje.
48. ISO smjernice 5963, 5964 i 2788 su alati koji se odnose na:
a. razvoj stvarnih kataloga i automatsko predmetno indeksiranje
b. uspostavu sustava za označivanje i pretraživanje izvora u mrežnoj okolini
c. sadržajnu analizu i razvoj višejezičnih i jednojezičnih tezaurusa.
51. Deskriptori u tezaurusima (riječi u rječniku kontroliranih izraza) primjer su sustava indeksiranja
s prethodnim povezivanjem (prekoordinantnim povezivanje/indeksiranje).
a) točno
b) netočno.
1
Definicija preuzeta iz Dizdar, S. Od podataka do metapodataka.
citate
automatsko indeksiranje.
DRUGA GRUPA INDESKNIH SUSTAVA
o naziva ih KOORDINANTNI SUSTAVI i dijeli ih na:
prekoordinantne sustave
tradicionalni sustavi i
novi indeksni sustavi POPSI i PRECIS
postkoordinantne sustave
uniterm sustav zatocoding
Batten cards ili optical coincidence (sustav optičke podudarnosti).
1. SUSTAVI za
označavanje
2. NEkontrolirani
zasnovani na
SUSTAVI ZA
NEtekstualnoj
OZNAČAVANJE
osnovi i INDEKSI
CITATA
4. SUSTAVI
3. kontrolirani PREMA
SUSTAVI ZA PRETHODNOM I
OZNAČAVANJE NAKNADNOM
POVEZIVANJU.
53. Kakve su veze među pojmovima u prekoordiniranom sustavu?
a. pojmovi se slažu prema definiranoj sintaksi, a veze su gramatičke
54. Pohranjeni dokumenti ne vezuju se za kombinaciju pojmova već za svaki pojam posebno kod:
a. postkoordiniranih jezika
= PRIRODNI u ovom sustavu za
b. prekoordiniranih jezika.
SUSTAVI svaki pojam
pretraživanje po postoji samo 1
55. Koji od INDEKSNIH
slikama, kem. JEZIKA ne spada u sustave s naknadnim
terminpovezivanjem
ili oznaka (postkordinacija)?
a. ključne
formulama i dr. riječi/tagovi
SUSTAVI za
b. tezaurusi
SUSTAVI
označavanje
c. predmetni sustavi. PREKOordinantni
NEkontrolirani
temelje se na kontrolirani PREMA
zasnovani na u ove sustave se
SUSTAVI
56. U kojoj je vrsti sustava lakše riječima
odrediti ZA i međusobne
kontekst SUSTAVIodnoseZA PRETHODNO
između pojmova:
NEtekstualnoj preuzetim iz
a. u sustavima s prethodnim povezivanjem
ubrajaju:
OZNAČAVANJ
dokumenata OZNAČAVANJ
abecedni sustavi MI
osnovi i
b. u sustavima s naknadnim povezivanjem.
E E
klasifikacijski NAKNADNOM
INDEKSI !!!! u skriptama je naznačen i 1 i 2 kao sustavi
točan odgovor!! POVEZIVANJU
CITATA
za takvu vrstu
57. pretraživanja
U postkoordiniranim
još sustavima (sustavima s naknadnim povezivanjem) veze među
pojmovima su: počeli su se
ne postoji
a. razvijena
logičke koristiti 1950-ih
dovoljno
b. gramatičke.
tehnologija tu spadaju i
"obogaćeni" KWIC
i KWOC sustavi
58. Vrijeme procvata u pretraživanju informacija 1960-ih karakteriziraju:
(obogaćeni
a. eksperimenti vrednovanja i stvaranje sustava poput baza podataka
imenima i dr.
b. početak implementacije dosega izlnpodručja pretraživanja
KWIC (Keyword informacija u tražilice
terminima)
c. definiranje ključnog pojma ključna
Context; „pretraživanje informacija“ i početak investicija u područje.
riječ u kontekstu)
59. Sustavi za indeksiranje koji NE indeksiraju sadržaj dijele se na:
tu spadaju i POSTordinantni
a. verbalne i neverbalne sustave.
u 1. grupu SINTAKTIČKI
ubrajaju se i SUSTAVI:
60. citatni
Područje unutar
indeksi (u kojeg se razvijaju sustavi za automatsko
PRECISpredmetno označivanje je:
a. još
upotrebi globalna KWOCstruktura
od informacijska (Keyword POPSI
19.b. st.) Out
objektno programiranje of Context; i hrv. SSZOP
ključna
c. umjetna inteligencija riječ izvan
(obrada prirodnih jezika(Sintaktički
i znalačkisustav za
sustavi).
konteksta) označavanje
predmeta)
61. Automatsko predmetno označivanje kojim se značenje teksta određuje prema frekvenciji
pojavljivanja pojedinih riječi u tekstu naziva se:
a. probabilistički model
b. model klaster analize
c. statistički model
d. model domene znanja.
62. Prema statističkoj metodi pojmovi koji se učestalije pojavljuju u tekstu signifikantniji su za
određivanje sadržaja od pojmova koji se rjeđe pojavljuju:
a. točno
b. netočno.
66. Doznačivanje pojmova, koji sam dokument ne mora sadržavati, vrši se u postupku:
a. automatskog predmetnog označivanja
b. tradicionalnog predmetnog označivanja.
67. Skupo pravila i postupaka za organiziranje dokumenata prema njihovu sadržaju u svrhu
pronalaženja i diseminacije znanja nazivamo:
a. automatsko označivanje
b. sustav za označivanje
c. smjernice za izradu tezaurusa
d. pravila za predmetni katalog
e. obrada prirodnog jezika.
73. Konkordacije – svako pojavljivanje svake riječi – i dalje se koriste za tekstove manjeg opsega
(opstale u komercijalnim sustavima)
4) BOOLEOVI OPERATORI
Booleovi operateri
najpoznatiji i najčešće korišteni operatori su Booleovi operatori
oni koriste operacije:
o logičke sume (OR)
o logičkog produkta (AND)
o logičke razlike (NOT)
negativna strana: problem pretraživanja s Booleovim operatorima jesu lažne veze, tj. neočekivani i
nerelevantni rezultati koji se dobivaju kada se riječi iz upita nalaze u dokumentu, ali pripadaju
drugačijem kontekstu nego Što je korisnik želio
o to se može riješiti tzv. operatorima blizine (proximity operators, positional operators)
oni smanjuju broj NERELEVANTNIH REZULTATA
najčešći operatori blizine su:
operator ADJ, koji pronalazi riječi koje nisu međusobno udaljene više od
određenog broja riječi
operator SAME koji pronalazi riječi koje se nalaze u istom odlomku (riječX
SAME riječY)
a operator NEAR nalazi riječi u istoj rečenici (riječX NEAR riječY)
postavljanje operatora:
o eksplicitno = korisnici ih unose sami
o implicitno = uvelo se u sustave kada se vidjelo da se korisnici ne znaju služiti Booleovim
operatorima
80. Koja je tvrdnja u odnosu operatora, odziva i preciznosti točna (odaberite jedan odgovor):
r. operator AND povećava odziv i točnost
s. operator AND ne utječe na odziv i točnost
t. operator OR povećava točnost, a smanjuje odziv
u. operator AND povećava točnost, a smanjuje odziv
v. operator OR ne utječe na odziv i točnost.
83. Prokomentirajte razlike u rezultatima pretraživanja koji se mogu dobiti postavljanjem sljedeća
3 upita, koji upit je najlogičniji:
a. plaće OR „osobni dohotci“ NOT Zagreb
b. plaće OR („osobni dohotci“) NOT Zagreb
c. (plaće OR „osobni dohotci“) NOT Zagreb.
86. Za definiranje SEMANTIČKE BLIZINE među pojmovima, preko parametra fizičke udaljenosti,
koristimo operator – OPERATOR PRIBLIŽNOSTI.
89. Tijekom pretraživanja fraze ili složenih izraza, za razliku od pojedinačnih ključnih riječi:
dd. stavljamo među navodnike
ee. stavljamo među zagrade
ff. kratimo ih zvjezdicom.
90. Za definiranje semantičke blizine među pojmovima, preko parametra fizičke udaljenosti
koristimo operator:
gg. približnosti
hh. semantičke bliskosti
ii. učestalosti.
91. Ukoliko u pretraživanju želimo definirati međusobnu udaljenost između pojmova READING i
HABITS, upit ćemo izraziti na sljedeći način:
jj. Reading freq3 habits
kk. (Reading freq3 habits)
ll. Reading ADJ3 habits
mm. Reading + habits
nn. (Reading ADJ3 habits)
92. Kada tražimo dvije riječi koje se nalaze u istoj rečenici koristimo operator blizine:
a. ADJ
b. same
c. near.
93. Koji indeksni jezici zahtijevaju primjenu Booleovih operatora u strategiji pretraživanja:
a. prekoordinirani jezici
b. polukontrolirani rječnici
c. kontrolirani rječnici
d. postkoordinirani rječnici.
94. Koje ćemo od navedenih dokumenata pronaći upitom (jagoda OR malina) NOT (kruška AND
jabuka):
oo. jagoda, šljiva, kruška, trešnja, malina
pp. jabuka, jagoda, šljiva, trešnja, kruška
qq. jagoda, malina, trešnja, banana, šljiva.
i. dokument c
ii. dokument a,c
iii. dokument a
iv. dokument b, c.
5) SEMANTIČKI ODNOSI
95. Koju vrstu semantičkih odnosa uspostavljamo u KONTROLIRANIM RJEČNICIMA između
akronima (složene kratice)?
a. objasnidbene
b. srodne
c. istoznačne.
99. Ukoliko u pretraživanju želimo pokriti sinonime i kvazi-sinonime pojmova koje pretražujemo
koristimo operator:
a) AND
b) OR.
Npr. Merkur (bog) i Merkur (planet) će nam dati više rezultata jer će nam dati rezultate koji se tiču i
boga i planete, ali rezultati neće biti precizni!
Npr. Noć i tama su sinonimi. Zajedno će nam dati manje rezultata, od homonima Merkur (bog) i
Merkur (planet) jer se „noć“ i „tama“ odnose na isti pojam.
---------------------------------------------------------------------------------------------------------------------------
Kod kontrole (normiranja) jezika:
bira se naziv
razrješuju se dvosmislenosti
USPOSTAVLJAJU SE MEĐUSOBNI ODNOSI ZNAČENJA (RELACIJE):
1) odnosi ISTOZNAČNOSTI (SINONIMI)
2) HIJERARHIJSKI odnosi (podređeno-nadređeno) i
3) odnosi SRODNOSTI (asocijativni pojmovi).
---------------------------------------------------------------------------------------------------------------------------
104. Odnosi među pojmovima koji su povezani nekom smislenom ili kontekstualnom vezom, a
koja nije hijerarhijske ili ekvivalentne prirode, nazivaju se?
odnosi SRODNOSTI – ASOCIJATIVNI ODNOSI.
106. U gradnji kontroliranog rječnika, koji je odnos najneodređeniji i samim time najteže
uspostaviti između pojmova?
a. odnos srodnosti ili asocijativni pojam
b. hijerarhijski odnos
c. odnos istoznačnosti.
110. Koji jezični fenomen u pretraživanju smanjuje odziv u odnosu na informacijsku potrebu:
a. istoznačnost
b. hijerarhija
c. srodnost.
113. Riječi odabrane iz prirodnog jezika (po određenim pravilima), kod kojih su pomoću uputnica
otklonjene sinonimija, polisemija i homonimija jesu:
a. ključne riječi
b. pojmovi i označitelji
c. udarne riječi (njem. Schlagwort).
115. Načelo izrade predmetnih sustava, kojim se uspostavlja odnos između složenih predmeta i
pododrednica kako bi se uspostavila gramatika predmetnog sustava naziva se:
a. načelo dosljednosti
b. načelo jedinstvene odrednice
c. semantičko načelo
d. sintaktičko načelo.
116. Semantičko načelo izrade predmetnih kataloga odnosi se na ujednačenost korištenja imena,
naziva i kratica:
a. točno
b. netočno.
118. U predmetnu obradu ulaze isključivo stručni i znanstveni sadržaji, monografske publikacije,
prilozi u zbornicima, članci u časopisima, predgovori i pogovori:
a. točno
b. netočno.
119. Predmetna odrednica sastoji se od jednoga INDEKSNOG IZRAZA (ako se predmet može
iskazati jednim pojmom) ili od nekoliko izraza (ako predmet dokumenta treba iskazati s više
pojmova) povezanim u niz bez sintaktičkih pravila:
a. točno
b. netočno.
123. Objasni na koji način hipertekst okolina utječe na određenje relevantnosti pretraživanja izvora!
Ako u nekom dokumentu koji je nerelevantan pronađemo link na dokument koji je za naš predmet
relevantan, postavlja se pitanje je li ovaj prvotni dokument relevantan ili nije. Iako sam sadržaj toga
dokumenta nije relevantan on nas je odveo do relevantnog dokumenta. Relevantnost je subjektivna.
125. Konceptualni model koji omogućava zajedničko korištenje i ponovnu uporabu podataka bez
ograničenja u odnosu na programe, poslovni kontekst i zajednice korisnika naziva se:
a. ontologija
b. folksonomija
c. RDF
d. model metapodataka.
126. Kojem je tipu jezika bliža definicija „Semantička mreža pojmova, uz iskazane formalne odnose među
pojmovima“:
a. ontologije
b. tezaurusi
c. predmetni sustavi.
127. G. Hodge definira 3 tipa sustava za organizaciju znanja. Koju od navedenih skupina NE navodi?
a. folksonomije i korisnički generirani označitelji
b. relacijski propisi
c. klasifikacije i kategorizacije.
6) METAJEZIK
132. Kojim su tipom metapodataka zahvaćena pitanja vlasništva, prava, reprodukcije, pohrane,
fizičkog stanja itd.:
a. strukturnim metapodacima
b. deskriptivnim
c. administrativnim.
139. U kojim se godinama događaju veliki eksperimenti koji su znatno povećali spoznaje u
području pretraživanja informacija?
a. 50-ih i 60-ih god. 20. st.
b. 50-ih godina 20. st.
c. 80-ih godina 20. st.
143. U WEB okruženju odziv i preciznost teško su mjerljivi zbog: (ili a ili c – provjeriti)
a. široko postavljenih upita i opsega pretraživanja)
b. zbog nekontroliranih termina u indeksiranju sadržaja
c. potrebnog uvida u ukupan broj relevantnih rezultata pretraživanja.
154. Koji kriteriji vrednovanja interaktivnih sustava za pretraživanje informacija autori poput ???
predlažu umjesto relevantnosti:
a. informativnosti (informativness)
b. učinkovitosti (effectivity)
c. djelotvornost (efficiancy)
d. korisnost (usefullness).
155. Povećanje broja dokumenata koje je potrebno indeksirati ili povećanje broja dokumenata
dostupnih u punom tekstu argumenti su za uvođenje:
a. sustava temeljenih na prirodnom jeziku
b. kontroliranih rječnika.
156. Doznačivanje pojmova, koji sam dokument ne mora sadržavati, vrši se postupkom:
a. automatskog označivanja
b. tradicionalnog/ručnog označivanja.
160. Za što služi HOST? ili Glavna prednost posrednika (engl. host) je:
a. omogućava pretraživanje različitih baza podataka
b. nudi bazu podataka s kontroliranim rječnikom (tezaurusom)
c. nudi napredne operatore (npr. operator približnosti ili učestalosti).
Tefko Saračević
u dr. pol. 90-ih godina prošlog stoljeća T. Saračević predložio je sofisticirani (slojeviti) model
interakcije pretraživanja informacija
tradicionalni model temeljio se na interakciji između čovjeka i sustava
Saračević promatra interakciju kao dijalog između računala i osobe, pri čemu se komunikacija
odvija na 3 razine
o čovjek percipira informaciju na:
kognitivnoj
afektivnoj i
situacijskoj razini.
o računalo to čini na:
tehničkoj
razini obrade
sadržajnoj razini.
Saračevićev model obuhvaća pojam RELEVANTNOSTI, korisničko modeliranje, odabir pojmova
za pretraživanje te vrste povratnih informacija, tj. fenomene koji su bitni za IR interakciju.
o IR interakcija se odvija kao dijalog između korisnika i računala čija je svrha učinkovita
upotreba informacije, tj. utjecanje na kognitivno stanje korisnika.
SARAČEVIĆ predlaže 3 razine:
o površinsku (razinu interakcije korisnika i korisničkog sučelja)
o kognitivnu (razinu interakcije s tekstovima ili njihovim prikazima) i
o situacijska (utjecanje na kognitivno stanje korisnika).
170. Page Rank tehnologija se po prvi put pojavljuje na pretraživaču ALTA VISTA 1995. godine:
a. točno
b. netočno.
174. 60-e godine 20. st. u periodizaciji razdoblja u području INDEKSNIH JEZIKA odnose se na:
a. korisničke studije
b. napredak prema sustavima okrenutim korisnicima
c. usporedbu između slobodnog i kontroliranog označivanja.
179. Izvođenju svih glavnih koncepata u izvoru, uključujući i podređene teme, teži:
a. dubinsko indeksiranje
b. semiautomatsko
c. sažimanje.
181. Wilson metoda brojanja referenci u svrhu utvrđivanja predmeta dokumenta naziva se:
a. metoda figure
b. metoda svrhe
c. metoda kohezije
d. objektivna metoda.
182. Problemi implicitnog sadržaja, parafraza ili metafora optimalno se rješavaju u postupku:
a. semiautomatskog označivanja
b. manualnog označivanja
c. automatskog označivanja.