Professional Documents
Culture Documents
Sustavi Za Označivanje I Pretraživanje II Skripta
Sustavi Za Označivanje I Pretraživanje II Skripta
Indeksni jezici
Abecedni Sistematski
Predmetni
Tezaurusi Klasifikacije
sustavi
1
INDEKSNI JEZICI mogu biti:
kontrolirani
polukontrolirani i
nekontrolirani.
Indeksni jezici:
a) ABECEDNI - tezaurusi > postkoord.
predmetni sust. > prekoord.
INDEKSER je autor, korisnik ili profesionalni indekser. Svaki indekser drugačije postupa i ističe različite karakteristike izvora.
Autor ukoliko samostalno indeksira koristi ključne riječi, statističku obradu teksta i citatno pretraživanje. Korisnik koristi
autorove i korisnikove pojmovi, a stručnjaci /profesionalci koriste sustave za organizaciju znanja (tezauruse i klasifikaccije).
Ono što informacijskog stručnjaka razlikuje od krajnjeg korisnika jest osvještenost o jezičnim fenomenima i njihovom
utjecaju na pretraživanje. Oni moraju voditi računa o korekciji pogrešaka u pisanju, razrješenju dvoznačnosti, uspostavi
istoznačnosti kod sinonima, leksikalizaciji, istaknuti važno, a nevažno zanemariti
2
PREkoordinirani sustavi su sustavi s PRETHODNIM
POVEZIVANJEM.
Vrste:
bibliotečno-bibliografske KLASIFIKACIJE i
PREDMETNI sustavi (knjižnični katalozi).
1
Definicija preuzeta iz Dizdar, S. Od podataka do metapodataka.
3
PREkoordinirani sustavi su sustavi s PRETHODNIM POVEZIVANJEM.
- Booleovi operateri ne mogu sve riješiti (npr. krivi logički spojevi) – potrebna
KOMBINACIJA
Pojavom GOOGLE-a i tražilica ljudi su se počeli služiti ključnim riječima i tagovima za pretraživanje, više ne pretražuju po
AUTORU i NASLOVU, a time se promijenio način pretraživanja.
Fokus je došao na PREDMETNO PRETRAŽIVANJE preko ključnih riječi, ne više prema autoru i naslovu.
Može li dodatna informacija povećati odziv/preciznost? (npr. ŽIDOVI – dokument o ŽIDOVIMA čiji autor
zastupa nacistička gledišta nije dovoljno indeksirati kao dokument o Židovima – VAŽNO istaknuti
-------------------------------------------------------------------------------------------------------------------------------------------------------------
4
6. Kako se KLASIFICIRAJU PREDMETNE PRISTUPNICE?
naslov
sažetak
S dodanom vrijednošću:
a) verbalne (ključne riječi, predmetnice, deskripori) /neverbalne (klasifikacijske oznake ne temelje na prirodnom
jeziku)
e) prekordinirani /postkordinirani
INDEKSIRANJE (označivanje) = dodjeljivanje oznaka (indeksa) dokumentu, kojima se omogućuje njegovo pronalaženje u
skupu drugih dokumenata.
Te su oznake najčešće vezane uz sadržaj dokumenta, a dodjeljuju se ručno ili automatski. Ručnim se indeksiranjem
dokumenata najčešće odabiru pojedine riječi znakovite za njegov sadržaj, a one mogu biti ključne riječi (ako su slobodno
izabrane) ili deskriptori (ako su odabrane iz tezaurusa).
1) ANALIZU DOKUMENTA u cilju selekcije pojmova koji prema mišljenju indeksera mogu biti od interesa za korisnike
indeksa (kazala)
2) "PREVOĐENJE" ODABRANIH POJMOVA, sadržaja ili riječi u neki kontrolirani ili standardizirani dokumentacijski jezik
a) slobodno (kada se neposredno iz teksta dokumenta biraju ključne riječi bez obzira na njihovu formu i semantičke
odnose), i
b) kontrolirano (kada se za pretraživanje koriste samo oni termini koji su unaprijed određeni dokumentacijskim jezikom).
Najbolje rezultate pretraživanja daje metoda koordiniranog indeksiranja (metoda koja u fazi indeksiranja koristi indeksne
termine na istoj razini, tako da se u fazi pretraživanja može koristiti bilo koja kombinacija termina). Ova metoda dobiva
široku primjenu 1950-tih godina, uvođenjem Uniterm sistema, ali i sistema za automatsko pretraživanje (v. automatsko
indeksiranje).
klasifikacije
predmetni sustavi
tezaurusi
ontologije (u zadnje
6
vrijeme)
9. Navedi metode sadržajnog označivanja:
a) Sažimanje i indeksiranje/označivanje:
- prema količini proizvedenog konteksta, obje metode su subjektivne u razlikovanju važnog od nevažnog,
odabiru pojmova i broja pojmova
- obje se metode nadopunjuju
- funkcija filtriranja
a) Automatska vs. intelektualna obrada (automatska obrada: korištenje orginalnog dokumenta za osnovu sadržajnog
označivanja, a analiza se vrši pomoću računalnih programa; intelektualna obrada: predmetni stručnjak pojmove
sam (ručno) doznačuje dokumentu.)
b) Verbalna i stručna/sistemska obrada (informacijski će stručnjak nastojati predstaviti dokument jezgrovitim
pojmovima kako bi omogućio pronalaženje dokumenata.)
Sadržajno označivanje je omogućavanje pristupa dokumentu preko predmeta o kojima se u dokumentu govori, tj. njegova
sadržaja.
(odgovor iz maila)
KRITIKA tradicionalnih pristupa sadržajnom označivanju… proizlazi iz predstavljanja sadržaja dokumenata uz interpretaciju
sadržaja dokumenata koja je subjektivna, a indeksiranje mora biti objektivno i tu dolazi do raskoraka jer indeksiranje u sebi
sadrži neodređenosti pojma SADRŽAJ koji je okosnica postupka označivanja i nepreciznosti opisivanja postupka označivanja
koji u sebi sadrži interpretaciju.
1) ANALIZU sadržaja DOKUMENTA u cilju selekcije pojmova koji prema mišljenju indeksera mogu biti od interesa za
korisnike indeksa (kazala) = o čemu je dokument (aboutness/očemnost, tema i predmet)??
2) "PREVOĐENJE" ODABRANIH POJMOVA, sadržaja ili riječi u neki kontrolirani ili standardizirani dokumentacijski jezik =
nakon što vidimo o čemu govori dokument, provjerimo je li pojedini izraz, srodni izraz ili sl. zastupljen u rječniku!
II. U novije vrijeme nastoje se izgraditi sustavi u kojima analizu teksta i označivanje provodi računalo
7
Standardizacija
- želi se standardizirati praksa indeksiranja kako bi ustanove koje indeksiraju mogle razmijeniti zapise
- praksa indeksiranja ne može se do kraja standardizirati, tj. možemo standardizirani način na koji ćemo izraziti
analizirano, ali ne i samu analizu
- ALI - teško je predvidjeti kako će se dokument koristiti u budućnosti te ga je bolje indeksirati s obzirom na to što on
stvarno predstavlja
Kritika standardizacije
- kritika standardizacije zalaže se za to da odluka o indeksnoj oznaci bude utemeljena na promišljanju o tome kako
će korisnici tražiti knjigu
DOKUMENT (za razliku od sadržaja) sadrži određene elemente (npr. naslov, sažetak, sadržaj) – oni su objektivni i
jednoznačni jer će ih različiti informacijski stručnjaci prepoznati na isti način
- drže da je dio očemnosti urođen dokumentu i ZATO OBJEKTIVAN, no da je dio očemnosti određen svrhom korištenja
dokumenta, PA SAMIM TIME SUBJEKTIVAN
8
14. KOJA JE RAZLIKA IZMEĐU TEORIJSKIH POJMOVA SADRŽAJ
I OČEMNOST?
Dokument, naime, za razliku od sadržaja, sadrži određene elemente (npr. naslov, sažetak), koji su objektivni i jednoznačni
jer će ih različiti informacijski stručnjaci prepoznati na isti način.
Kod očemnosti se uklanjaju epistemološki problemi u definiranju pojmova sadržaj/predmet. Očemnost uzima dokument
kao polazište za analizu.
Razlikujemo dvije razine: pokrivenost u dubinu(vertikalna očemnost) i pokrivenost u širinu (horizontalna očemnost).
TREBA ODABRATI PRIKLADNE OZNAČITELJE (ključne riječi, deskriptore) – razvijeni brojni alati kontrole rječnika s tim ciljem
(tezaurusi, popisi predmetnih odrednica…)
9
PROBLEMI PREDMETNE ANALIZE:
Vodilja za indeksera pri donošenju odluke o odzivu i preciznosti trebaju biti dimenzije očemnosti, odnosno iscrpnost
(horizontalna) i specifičnost (vertikalna). Odziv i preciznost su obrnuto proporcionalne vrijednosti. Specifičnost, odnosno
vertikalna očemnost znači da indekser bira specifičnije pojmove. Time se povećava preciznost, ali smanjuje odziv pri
pretraživanju. Iscrpnost, tj. horizontalna očemnost označava stupanj pokrivenosti dokumenta pojmovima za označivanje.
Ukoliko indekser iscrpnije analizira dokument, povećava se odziv, ali smanjuje preciznost, te će se pojaviti nerelevantni
dokumenti.
10
18. KONCEPCIJE U PREDMETNOJ ANALIZI (TRI PRISTUPA)
1) TOČNOST = sposobnost osobe koja provodi označivanje da identificira pojmove i prevede ih na termine
kontroliranih rječnika.
2) ISCRPNOST
3) SPECIFIČNOST (OČEMNOST) = pojam očemnosti (engl. aboutness) odnosi se na pojmovnu pokrivenost – postoje
dvije dimenzije očemnosti:
a. iscrpnost (pokrivenost u širinu)
b. specifičnost (pokrivenost u dubinu)
i. ŠTO JE POJAM SPECIFIČNIJI, TO JE DOKUMENT BOLJE ISKAZAN OZNAČITELJEM
4) KONZISTENTNOST = isti predmeti bi se trebali označiti istim TERMINIMA kako bi u katalogu bili okupljeni slični
predmeti, što se u praksi pokazalo teško izvedivo
BIRATI POJMOVE KOJI SU „NA SREDINI“ / tj. sredinu u pojmovnom rasponu (da uhvatimo i odziv i preciznost), tj. potrebno
uspostaviti kompromis između jednog i drugog jer oboje nije moguće
Npr. SUĐE, ČAŠE (nekoliko rezultata je precizno, a ostalo – druge čaše), VINSKE ČAŠE (mali odziv, precizan pojam)
LANCESTER kaže kako je za korisnika prihvatljivo da odziv i preciznost variraju između 50% i 60%.
11
taj postotak treba biti vodilja za indeksera u odluci iscrpnosti i specifičnosti (iscrpnost/povećava odziv i
specifičnost/povećava preciznost) – one utječu na točnost i odaziv
time se postiže ekonomičnost
autor: ukoliko samostalno indeksira - ključne riječi, statistička obrada teksta, citatno pretraživanje
korisnik: autorovi + korisnički pojmovi
predmetni/informacijski stručnjak: sustavi za organizaciju znanja (tezaurusi, klasifikacije)
indekser bira specifičnije pojmove - time se povećava preciznost, ali smanjuje odziv pri pretraživanju
- ukoliko indekser iscrpnije analizira dokument, povećava se odziv, ali smanjuje preciznost, te će se pojaviti
nerelevantni dokumenti
Konzistentnost (DOSLJEDNOST)
- pojedinci neće isto odrediti predmet (iste sadržaje u različitim dokumentima različite osobe moraju jednako obraditi –
ako ga i jednako definiraju, imenovat će ga različitim pojmovima iz prirodnog jezika)
INTRAKONZISTENTNOST: na razini jedne osobe - dosljednost indeksera tijekom vremena kroz koje označuje (pr. razlike na
početku/kraju radnog vremena, početku/kraju karijere) – NISMO DOSLJEDNI
FAKTORI UTJECAJA:
veličina vokabulara (veći vokabular – manja konzistentnost; visoka specifičnost – manja konzistentnost)
broj označitelja (veća iscrpnost, manja konzistentnost) (iscrpnost – broj označitelja koje dodijelimo dokumentu)
OČEMNOST
Sažimanje
knjižnice (knjižnična katalogizacija)
pretraživanje dokumenata/knjiga
identifikacija prevladavajućeg predmeta, visoka razina poopćavanja, navodi samo koncepte
zastupljene u glavnoj temi
cijeli sadržaj ćemo probati upisati uz nekoliko predmetnica
oovećava odziv/potpunost zbog općenitijih pojmova
- povećava preciznost
- pokrivenost u dubinu, vertikala = specifičnost odabranih pojmova
- što je pojam specifičniji, tim je predmet bolje iskazan označiteljem (stupanj preciznosti)
- ukupnost predmeta eksplicitno ili implicitno sadržanih u tekstu dokumenta
- odnosi se na tekst, naslov, izražene i neizražene autorove intencije, moguća gledišta čitatelja
13
- Nastaju složene predmetne odrednice:
setovi predmetnih odrednica nude iste ili slične sadržaje koji su okupljeni unutar predmetnog kataloga
B) odabir koncepta
- prevođenje pojmova na kontrolirani rječnik (čime se oblikuju pristupnice)
- odredimo radimo li u prekoord./postkoord. sustavu (prekoord. – odredimo sintaksu itd.)
Automatizacija
- pojavom prvih automatiziranih sustava pomak prema prirodnom jeziku kao metodi indeksiranja (ključne riječi,
tezurusi) u elektroničkim zbirkama gdje fizički pristup ili pregledavanje (browsing) nisu važne
postaju li dodatne informacije suvišne i može li dodatna informacija povećati odziv ili preciznost – odgovor na to
pitanje može se povezati s problemom sadržaja i/ili predmeta (koliko je dokument transparentan i sadržaj očit te
funkcionira li tekst kao optimalna reprezentacija samog sebe?)
PREDMETNO PRETRAŽIVANJE
- jedan od načina na koji možemo u KATALOGU pristupiti jedinici građe na temelju sadržajnih obilježja
14
automatsko pretraživanje se koristi originalnim dokumentom, a analiza tekst izvodi se pomoću specijalnih računalni
programa
temelji se na statističkoj obradi teksta i lingvističkim metodama
sustavi za automatsko predmetno označivanje su na putu da postanu uobičajena pomagala u knjižnicama
27. TEZAURUSI
Godine 1950. pojavljuje se u okviru SUSTAVA ZA OZNAČIVANJE, kao alat za predmetno označivanje.
- razvoj motiviran željom za odmakom od nefleksibilnog principa ladica (prekoordinacija) i okretanju prirodnom
jeziku
Tezaurus čini strukturirani popis termina koji stručnjak koristi pri opisu dokumenata (obično 1 predmetno područje).
19. st. – ROGET – pod imenom „tezaurus“ izdao rječnik sinonima engleskog jezika – tj. kako jednu riječ možemo izraziti na
više načina (jezično bogatstvo nastoji se proširiti)
1974. godine objavljen je prvi međunarodni standard za konstrukciju jednojezičnih tezaurusa, a potom počinje
standardizacija.
70-e
15
29. Objasni razliku između deskriptora i nedeskriptora!
A) Deskriptori
- opisnici
- jezične jedinice oko kojih je organiziran pojmovni rječnik
- normirani i terminološki kontrolirani naziv
- aktivni dio tezaurusa – koristimo ih u označivanju/pretraživanju
B) Nedeskriptori
- služe za ulaz u tezaurus
- upućuju nas dalje na drugi termin (označava se oznakom „USE“ - upotrijebi)
- pasivni dio tezaurusa - ne koristimo ih u označivanju/pretraživanju
C) Semantički odnosi
- zasnovani na značenju (ponajprije između deskriptora i nedeskriptora, a zatim i između desktriptora)
(odnosi: hijerarhijski, srodnosti, asocijativnosti, semantičko značenje)
(hijerarhijski odnos)
NT podređeni/uži pojam
(odnos srodnosti)
(odnos ekvivalencije)
USE rabi/uporabi
Pr. NAPOLIČARENJE
SN dogovor prema kojem vlasnik ustupa svoju zemlju u zamjenu za dio uroda
Odnos između deskriptora može biti hijerarhijski i odnos srodnosti, a između deskriptora i nedeskriptora odnos
ekvivalnecije.
USE FOR RT NT
16
BT gnojidba (BT nadređeni pojam; mogli smo staviti i MT – ako ih je jako puno!; BT – za one do 5)
organska gn.
MT voće (potpojmovnik)
bobičasto v. DESKR.
NT1 kupine
NT1 maline
v. sa sjemenkama DESKR.
NT1 dunje
NT1 kruške
celer DESKR.
cvjetača
sociologija DESKR.
MT umjetnost (potpojmovnik)
kazalište DESKR.
NT1 lutkarstvo
17
30. Što je to tezaurus i vrste tezaurusa:
TEZAURUSI, rječnici kontroliranih izraza/odrednica, koriste se za predmetno označivanje. Tako je terminologija
KONZISTENTNA (POSTOJANA) i uvijek se koriste isti termini, bez obzira na to kakvu terminologiju koriste autori!
VRSTE TEZAURUSA:
jednojezični
višejezični
mikrotezaurus
makrotezaurus…
KLASIFIKACIJE
TEZAURUS ne odnose na jednopredmetno područje
TEZAURUSI (npr. LCHS)
PREKOORDINIRANI
umjetni jezik prirodni jezik s kontrolom
PREDMETNI SUSTAV/sadrži
širina (područje, pokrivenost) dubina
PREDMETNE
visoka razina apstrakcije ODREDNICE
niska razina apstrakcije
klasa (elementi) deskriptori
osiguravaju terminologiju koja je dosljedna,
sistematski poredak elemenata SLIČNOSTI:
a ne nekontrolirana
abecedni ili nepredvidiva
poredak elemenata
hijerarhijski odnosi srodnost, istoznačnost, hijerarhija sustavima
služe se upitnim i hijerarhijskim
(semantički odnosi)
prekoordinirani postkoordinirani
sličnost među dokumentima razlika među dokumentima
(naglasak) – sve knjige iz jednog (naglasak) – razlikuju okupljeno
područja trpa u 1 vreću (okuplja)
odziv preciznost
18
Dok se TEZAURUS odnosi samo na jedno predmetno područje, sustav PREDMETNIH ODREDNICA sastoji se od rječnika,
odnosno popisa dozvoljenih riječi te sintakse === i ne odnose se na samo jedno predmetno područje.
TEZAURUSI su POSTKOORDINIRAI (koristi prirodan jezik, pojmovi se uzimaju iz teksta dokumenta, a kompleksni pojmovi se
označuju s više deskriptora).
tezaurus sadrži samo pojmove na prirodnom jeziku i njihove sinonime, a semantički odnosi nisu izraženi. Služi za
pronalaženje odgovarajućeg izraza.
Semantički su odnosi:
PREDNOST:
19
- nudi brzu i pouzdanu informaciju
- velika sposobnost širenja i prihvaćanja novih znanstvenih i stručnih termina
- sastoji se od:
a) jednog indeksnog izraza (ako se predmet može iskazati jednim pojmom – implicitni)
ILI
b) nekoliko izraza (ako se treba iskazati s više pojmova) povezanih u niz prema utvrđenim sintaktičkim pravilima
predmetnog sustava koji je u uporabi
4) model za razvoj sustava predmetnih odrednica u mnogim zemljama (standard u zemljama engleskog govornog
područja)
Cilj sustava predmetnih odrednica jest sažeti čitav sadržaj dokumenta uz pomoć jednog ili više dozvoljenih termina, koji
su jednako specifični kao i predmet koji označuju.
Neke je predmete nemoguće prikazati jednom odrednicom, pa se u tim slučajevima dodaje nekoliko odrednica radi
potpunijeg opisa sadržaja.
NEDOSTACI
- NEMA KOHEZIVNE STRUKTURE SUSTAVA – stalno se nadodaju novi pojmovi – sustav koji stalno raste (unutarnja
struktura nedostaje)
(zbog korisnika su sastavljači postepeno počeli dodavati uputnice, ali opet ad hoc – temeljeno na procjeni; po strukturi plitki
sustav – ograničena hijerarhijska struktura)
1) najvažnije je da čuvaju kontekst značenja analiziranog sadržaja dokumenta (ZBOG izrađivanja predmetnih nizova),
dok se kod postkoordiniranih sustava to značenje više-manje raspada
2) mogućnost prebiranja (browsing), relacije, intelektualno značenje
3) olakšava se pretraživanje, precizira pronalaženje, s lakoćom se izražavaju višestruki predmeti
4) od velike važnosti u organizaciji znanja
5) važno u znanosti i kod sofisticiranih potreba – pr. Children Diseasses – da smo s operaterima pretraživali, dobili
bismo sve zbrčkano, ovako imamo pregled
6) setovi predmetnih odrednica nude iste ili slične sadržaje koji su okupljeni unutar predmetnog kataloga
PREDNOSTI:
NEDOSTATCI:
21
39. KATEGORIJE I REDOSLIJED PREDMETNIH ODREDNICA
KORPORATIVNA
1) OSOBNE
2) KORPORATIVNE
3) STVARNE
4) geografsko/etnografske
STVARNA
5) opći pojam
6) vremenske
7) oznake za oblik
22
40. DEVET OPĆIH NAČELA ZA IZRADU PREDMETNOG SUSTAVA
(PREMA IFLI) + DVA NAČELA PRIMJENE
(izrada pravilnika za predmetnu obradu / načelo specifične odrednice; načela oblikovanja)
(dakle, ne postoji neki opći standard jer se temelji na prirodnom jeziku – p. jezici su vrlo različiti)
načelo jedinstvene odrednice – JEDNO OD OSNOVNIH NAČELA: isti sadržaj dokumenta uvijek treba stajati pod istom predmetnom
odrednicom i uvijek u istom obliku!
načelo sinonimije – načelo nadzora sinonima (spolnost vs. seksualnost) - svi podaci o određenom predmetu okupljaju se na
jednom mjestu i kontroliraju jezikom za predmetno označivanje
načelo homonimije – (Antigona – mitološki / književni lik) - sprječava se ulaz irelevantnih podataka i povećava preciznost jezika za
predmetno označivanje, tj. homonimija se kontrolira tim jezikom
semantičko načelo – predmetne odrednice trebaju biti povezane prema odnosima jednakosti, hijerarhije i srodnosti
(paradigmatski odnosi)
sintaktičko načelo – upotrebljava se da bi se izrazile složene predmetne odrednice; sintaksa jezika za predmetno označivanje
treba povezivati elemente predmetne odrednice sintagmatskim, a ne semantičkim (paradigmatskim) odnosima
načelo dosljednosti – osigurava da svaka nova predmetna odrednica prihvaćena u jeziku za predmetno označivanje oblikom i
strukturom bude slična s usporedivim odrednicama koje već postoje u tom jeziku (velika i mala slova, zagrade, kratice)
načelo imenovanja – imena i nazivi mjesta moraju biti usuglašeni s kataložnim pravilima
načelo jamstva predloška – služi da bi se izrazio predmetni sadržaj dokumenta, rječnik jezika za predmetno označivanje treba se
dinamično razvijati na temelju jezične potvrđenosti, odnosno na osnovi predloška te sustavno integrirati unutar postojećeg
rječnika
načelo uvažavanja korisnika – služi da bi se izašlo u susret potrebama korisnika, rječnik jezika za predmetno označivanje treba biti
izabran tako da odražava trenutnu upotrebu jezika određene vrste korisnika, bilo općih ili specijalnih knjižnica
Oblikovanje PREDMETNE ODREDNICE na načelu jezične strukture prema sintaksi hrvatskog jezika
Oblikovanje PREDMETNE ODREDNICE slaganjem utvrđenih kategorija predmetnih oznaka prema propisanom
redoslijedu.
Od 1951. izrađuje se predmetni katalog u Hrvatskoj. 1. (interna) pravila za upotrebu složenih predmetnih odrednica
napisana su 1980.
- oblikovanje predmetne odrednice na načelu jezične strukture prema sintaksi hrvatskog jezika
- oblikovanje predmetne odrednice slaganjem utvrđenih kategorija predmetnih oznaka prema propisanom redoslijedu
Kod predmetnog označivanja u Hrvatskoj postoji problem slavenskih naroda, zbog neusuglašenosti naziva i problema s
dijakritičkim znakovima.
Folksonomija
Primjer bi bio coolinarika gdje uz oznake koje označavaju vrstu jela tipa gulaš, juha ili namirnice koje se koriste za to jelo,
imaju i oznake poput fino, rođendan, Božić, Anin recept, koji zapravo ne koriste nikome osim osobi koja je osmislila tu
oznaku
- ekspresivnost - mjeri se brojem i specifičnošću paradigmatskih relacija (ako se pojavljuje više paradigmatskih veza
između pojmova – veća ekspresivnost)
Folksonomije ne sadrže paradigmatske veze između pojmova te je stoga njihova ekspresivnost NISKA, a protežnost
VELIKA (obuhvaćaju široku domenu znanja).
Paradigmatske veze su načini na koje su neki pojmovi povezani, dakle, radi li se o sinonimima, homonimima, jesu li
podređeni i nadređeni pojam, ili su to suprotni pojmovi
Tekst je o kolaču od jagoda, ali korisniku sad nije bitna činjenica da je jagoda voće, jer je to razumljivo samo po sebi, pa će
vjerojatnije staviti oznake tipa šlag, jaje koje nije moguće generalizirati i koje su vezane uz sam tekst (sintagmatske veze)
Ontologija
A) Popisi pojmova:
naglasak na zastupljenom pojmovlju te se uz popise pojmova obično javljaju definicije (RJEČNICI)
B) Klasifikacije i kategorizacije:
stavljaju naglasak na stvaranje predmetnih skupina (KLASIFIKACIJE)
C) Relacijski popisi:
naglasak na vezama između pojmova i koncepata (TEZAURUSI)
25
46. PREDMETNA OBRADA / PREDMETNI PRISTUP U
INTERNETSKOM OKRUŽENJU
- u internetskom okruženju nestaje problem prostornih ograničenja te svaki pojam odnosno kombinacija pojmova može
postati predmetna pristupnica
- dolazi do teorijske dvojbe postaje li bilo koja vrsta dodane informacije suvišna te može li dodatna informacija povećati
odziv ili preciznost (pojavljuje se problem transparentnosti sadržaja)
b) istraživanja o korisničkim oznakama (istraživanja na korpusu tagova; distribucije, frekvencije, kategorije oznaka itd.)
- odabir termina putem izbornika iz pojedinih polja = predlaže se kada korisnik ne zna točno što traži ili ne postoji
točan odgovor na njegov upit
POZITIVNE STRANE:
korisnici ne trebaju znati kako se točno koja riječ piše, a slijeđenjem veza može se naići na nešto zanimljivo ili korisno
- uporaba prirodnog jezika povećava odziv, ali smanjuje preciznost, dok je s kontroliranim jezicima obrnuto
(PUNO nerelevantnih rezultata)
- U sustavima prirodnih jezika koriste se različite metode i tehnike pretraživanja – ključne riječi, kraćenje, Booleovi i
drugi operatori, rangiranja po relevantnosti itd. – no sve to može samo djelomično zamijeniti kontrolirane jezike
- Danas je najbolje rješenje KOMBINACIJA pretraživanja po prirodnim i kontroliranim sustavima (istodobno korištenje
tih sustava omogućeno je tek razvojem online sustava)
1. Promatra sadržaj kao objektivni entitet, koji može biti izveden kao izravni lingvistički izvodi iz dokumenta ili
sumirani poput matematičkih znakova
2. Prema ovoj koncepciji indeksiranje može biti u potpunosti automatsko
3. informacije koje se indeksiraju u predmetu su EKSPLICITNE INFORMACIJE
4. metoda indeksiranja je ekstrakcija.
Sadržajno-orijentirana koncepcija:
1. dokumenti se stvaraju da bi priopćili znanje, a informacijski stručnjak analizira dokument s namjerom predviđanja
potencijalnih upita, potreba korisnika
2. zahtjevima orijentirana koncepcija se razvija komplementarno s razvojem sustava okrenutih krajnjim korisnicima
3. metoda indeksiranja koju koristi je metoda dodjeljivanja.
27