You are on page 1of 55

Szövegfeldolgozás

Készítette:

Benediktsson Dániel és Balogh Erika

Debrecen, 2009.
A rögzített ismerethez vagy tudáshoz való hozzáférés (jelenjen meg az
könyv vagy akár elektronikus dokumentum formájában) három szinten
valósulhat meg:

1. Fizikai hozzáférési szint, ami azt jelenti, hogy osztályozás során egy
dokumentumról eldöntjük, hogy milyen témakörhöz tartozik, amely
egyben meghatározza azt is, hogy a könyvtárban melyik polcról kell
majd leemelnem;

2. Bibliográfiai hozzáférési szint, ami azt jelenti, hogy másodlagos


reprezentáció, azaz az adott dokumentumról készült leírás által jutok
el a szükséges információhoz;

3. Intellektuális hozzáférési szint, ami nem más, mint az indexelés,


mely által egy adott dokumentum tartalmát részletesen vissza
tudjuk keresni;

Mivel egy információ keresésekor általában nem elégszünk meg a


dokumentum megtalálásával, hanem az adott dokumentumban keresni is
szeretnénk, nem állhatunk meg a fizikai hozzáférés szintjén. Az információ
keresés szempontjából a dokumentum egyes részeinek a megragadása a
lényeges. Más szóval, mivel a dokumentum nemcsak egy fizikai entitás,
hanem egy több dimenziós intellektuális produktum, mely nehezen
illeszthető be egy monodimenzionális térbe, szükség van egy
multidimenzionális rendszerre (indexelés), mely pontosan ehhez a belső
tartalomhoz biztosít hozzáférést. Így válik az egész dokumentumhoz való
hozzáférés kisebb értékűvé, mint az adott tárgykör egy specifikus
témájához való hozzáférés. Indexelés során a természetes nyelv
alapegységein, vagyis fogalmakon keresztül illetve az azokkal végzett
műveletek által írjuk le az adott dokumentumot. Ahhoz azonban, hogy
mindezt megtehessük, vessünk egy pillantást az Ogden - Richards féle
szemantikai háromszögre.

Ogden - Richards- féle szemantikai háromszög:

Objektum

Fogalom Kifejezés

2
Objektum: bármi, amiről jelentéssel bíró kijelentést lehet tenni. Két
csoportját különböztetjük meg:

• konkrét, pl.: tábla, papír, toll

• absztrakt, pl.: szabadság, szerelem, igazság

Fogalom: azon lényeges állítások vagy tulajdonságok összessége, amit


egy objektummal kapcsolatban tehetünk. Három csoportja a következő:

• általános: legalább 1 fogalmi jegy kapcsolható hozzá;

• egyéni vagy egyedi: olyan fogalom, amihez nem adható hozzá


további fogalmi jegy, pl.: Budapest, Hollandia;

• kategória: olyan általános fogalom, melynek nincs jelentéssel bíró


hierarchikusan fentebbálló kapcsolata, vagyis további fogalom nem
helyezhető fölé, pl.: élőlény, élet, halál, pesszimizmus, optimizmus;

Kifejezés: karakterek lineáris szekvenciája, melybe a szóköz is


beleértendő. Két csoportja van:

• lexikai: kifejezések, melyek megegyezésen alapulnak, pl.: asztal—


konszenzuson alapuló kifejezés

• nem lexika kifejezések: parafrázissal leírt, tehát több szóból álló,


természetes nyelvi kifejezés, melynek több formája lehetséges,
tehát többértelműséget, sokrétűséget kell, hogy mutasson, pl.:
evés olyan tevékenység…

A fogalomalkotás lexikai lehetőségei:

Kifejezések
Fogalmak
Lexikai Nem lexikai
személyek Albert Einstein
Egyéni

intézmények DE
anyag ezüst, réz gyakorlatilag
tér Hollandia nem létező
2006.09.20
idő
15:03
folyamat korrózió tartályok
Általá

A károsodása
B megfelelő
C katódvédelem
hiányában

3
autók gyors
szétesése sós
rozsdásodás
tengeri levegő
hatására
nos

rovarok:
• legyek
élő entitások
• levéltetű
• moly

Természetesen a kifejezés módja nem meghatározható és előre nem


rekonstruálható a szöveg ismerete nélkül, a keresőnek előre ismernie kell
azt a kifejezésmódot, mely szerint a keresett tárgykör a kereső file-ban
reprezentálva van. Az ITVR egy olyan információtároló és visszakereső
rendszer, melyben csak azok a dokumentumok lesznek visszakereshetőek,
melyek passzolnak a query (kereső kérdés) keresési paramétereivel. Mivel
természetes nyelvről van szó, a kifejezések száma végtelen. Ebből pedig
az következik, hogy minden query, melyet egy olyan fájl számára hozunk
létre, mely nem kontrollált nyelvi kifejezéseket tartalmaz, hiányos lesz és
az arra adott válaszok is hiányosak lesznek, ami pedig
információveszteséggel jár. Bár a reprezentációs kiszámíthatóság
hiányának áthidalására semmilyen technológia nem képes, minden
visszakereső nyelvnek törekednie kell az információveszteség
kiküszöbölésére.

Indexelés során egyfajta nyelvi feldolgozást végzünk, melynek 6


szintjét kell megkülönböztetnünk:

1. fonetikai szint: hangzás (indexelésre, információ visszakeresésre


nem használható)

2. morfológiai: szóalkotórészeket tartalmaz (prefixumok, szuffixumok,


összetett szavak)

Ilyen művelet a csonkolás.

3. lexikai szint: a lexikográfiával (szótárkészítés) hozható


összefüggésbe, ugyanis teljes szavakon végzett műveletet jelent.
Ide tartozik a helyesírási hibák kiküszöbölése illetve a rövidítések
kezelése;

4. szintaktikai szint: egyes strukturális elemek behasonlítását jelenti. A


konkrét információkereső nyelvek közül a PRECIS az egyetlen olyan
indexelési nyelv, mely szintaktikai módszer is;

5. szemantikai szint: környezeti vagy kontextuális tudás használatát


jelenti, p.: Tezaurusz-módszer;

4
6. pragmatikai szint: információ összekapcsolása hivatkozásokkal,
klaszterekkel, melyhez dinamikus terminológiai asszociáció
szükséges, tehát géppel nem végezhető el;

Információ visszakereső folyamat

Indexelendő
anyag, pl.: információs
tárolási fájl
dokumentum igény
1. szelekció
ill. primer
index 3.szelekció:
„durva”
terminológia queryt kifejező
leíró
és query „durva” primer
terminológi
terminológia terminológia
a
behasonlítása alkalmazása
alkalmazás
a
kialakul az kialakul egy
index query
terminológia terminológia
2.leíró 4. query nyelv
terminológi standardizálás
a a valamilyen
standardizá rendszernyelvv
lása é
válasz a
queryre

Az információ visszakereső rendszer komponensei, összetevői:

Dokumentum Szelekció, fogalmi


populáció beszerzés analízis
leírás és
indexelés

fordítás

index,
dokumentum
szótár
dokumentum tár reprezentációk
adatbázisa

fordítás

5
felhasználói igények, fogalmi
populáció kérdések analízis

Swanson-féle posztulátumok:

1. Az információs igény índetermináns (nem meghatározható), vagyis


nem lehet teljes egészében olyan keresési kérdésként kifejezni,
mely független lesz a számos kontextuális elágazástól, legyen szó
bármilyen témáról. Maga a kontextus leírhatatlan, hiszen olyan
információkat is tartalmaz, melyek a kérdező háttértudását képezik.
Másrészt nem tudunk egy kérdést addig megfogalmazni, míg meg
nem találtuk rá a választ, tehát minden kérdés csupán hipotézis.

2. Tisztán algoritmikus keresési kérdés vagy kérdésfeltevés nem


létezik, a csupán hipotézisekként működő keresési terminológusokra
nem tudunk algoritmikus szabályokat húzni.

3. A relevanciadöntések, vagyis annak eldöntése, hogy egy


dokumentum megfelelő-e, releváns-e a számomra, kölcsönösen
összefüggenek. Más szóval egy dokumentumot nem lehet
relevánsnak tekinteni a hozzá kapcsolódó dokumentumok
figyelembe vétele nélkül, így azonban egy állandóan változó
asszociációs hálóval, összefüggésrendszerrel találjuk szemben
magunkat. Pl.: a Coca Cola és a Pepsi két különböző fogalom, de ha
bevezetünk egy új fogalmat (Fanta), az új kontextusban a két
fogalom közelebb kerül egymáshoz. Fontos megjegyeznünk azt is,
hogy a relevancia nem összetévesztendő a hasznossággal, ugyanis
attól, hogy egy dokumentum vagy információ releváns a számomra,
nem biztos, hogy hasznos is.

4. Egy keresési kérdésről sosem jelenthetjük ki, hogy teljesen


befejezett. Ez csupán a relevancia vizsgálat után valósulhatna meg,
ha lehetőség lenne minden releváns dokumentum megvizsgálására.

5. Algoritmikus jelentés felismerés nem lehetséges, egy gép ugyanis


nem ismerhet fel jelentést, nem tudja az emberi ítélőképességet
megsokszorozni, mely az indexeléshez és osztályozáshoz
elengedhetetlen kellék.

6. Az ún. szó előfordulási statisztikák (vagyis annak a vizsgálata, hogy


egy bizonyos szó hányszor fordul elő egy dokumentumban)
használata széleskörű, ám korlátozott jelentőségű, ugyanis nem

6
képesek reprezentálni magát a jelentést. Éppen ezért csak
kiegészítő technikaként alkalmazandóak.

7. Korlátozottak az egyszeri humán relevanciaítéletek is. Az ítélet vagy


döntés megismételhetetlen, mivel minden esetben újabb
lehetőségek, jellemzők merülhetnek fel.

8. Az ún. finom relevancia ítéletek és a hatékony mechanikus


folyamatok kölcsönösen kizárják egymást.

9. Hatékony és automatizált indexelés és visszakeresés nem létezik,


magát a gondolkodási folyamatot ugyanis nem lehet algoritmizálni.
Ezt bizonyítja az előző nyolc posztulátum is.

Az indexelés és információellátás 5 axiómája:

1. Meghatározhatóság: egy témához kapcsolódó releváns információk


gyűjtése csak annyiban képzelhető el, amennyiben a kérdező meg
tudja határozni, vagyis definiálni tudja a témát fogalmak illetve
fogalomkapcsolatok formájában.

2. Rend és rendezettség: egy témára vonatkozó releváns információk


gyűjtése mindig rendalkotó vagy rendet létrehozó folyamat.

3. Rend és rendezettség kielégítő szintje: a rendezettség vagy rend


színvonalára vonatkozó követelmények úgy nőnek, ahogy egy adott
gyűjtemény nagysága, a keresések gyakorisága, és a keresések
specifikussága nő.

4. Reprezentációs megjósolhatóság: a releváns információra irányuló


keresés pontossága a keresési file-ban a fogalmak és kijelentések
leírására használt kifejezési módok megjósolhatóságától függ.

5. Reprezentációs hűség vagy megfelelés: a releváns információra


irányuló keresés pontossága a keresési file-ban a fogalmak és
kijelentések leírásában meglévő hűségtől vagy megfeleléstől függ.

Az axiómák áttekintése ábrák segítségével:

Az A metszet esetében tehát felmerül egy információs igény, melyet


követően el kell döntenünk, hogy fennáll-e az 1. axióma, vagyis,
hogy a kérdező meg tudja-e határozni a témát fogalmak és
fogalomkapcsolatok formájában.

7
A metszet:

SZ

A válasz kétféle lehet:

NEM
IGEN

Nem irányított információellátásról van szó: Irányított


információellátásról van szó:

8
B metszet: Az irányított információellátás előre
SZ meghatározott a 2. és 3. axiómák
segítségével. Ennek következtében
kétféle eset lehetséges:

A B metszet esetében nem C metszet: D metszet:


fókuszolt információkeresésről SZ SZ
beszélünk, ami magával vonja az
információs veszteség, ill. a zaj
lehetőségét. Ugyanakkor fennáll a
szerendipitás lehetősége is, ami Egy Egy zajt
azt jelenti, hogy a kereső ugyan veszteséget kiküszöbölő
nem találja meg azt, amit keresett, kiküszöbölő rend jön létre
de talál valamit, ami az eredetinél rend jön létre a az 5. axióma
fontosabb, értékesebb információ. 4. axióma segítségével
VAGY segítségével
H metszet:
SZ
E metszet:
SZ

A H metszet a bibliográfiai
hivatkozások hálózatát ábrázolja, Az E metszet egy veszteséget és
mely esetében nem szükséges zajt egyaránt kiküszöbölő ideális
előzetes téma meghatározás. állapotot ábrázol.

Az ideális állapot kialakítása után nincs más hátra, mint az F és G metszet


által ábrázoltak megvalósítása:

F metszet: G metszet:

vagyis kötelező és pontos vagyis kiegyenlített, harmonizált


indexelés kooperáció szótár és nyelvtan
között
(szótár= az egyes kifejezések,
amivel indexelünk
nyelvtan= kifejezések közötti
kapcsolat)

9
Magyarázat:

• SZ= szett, pontosabban egy olyan méretű dokumentum szett,


melyet az egyén képes áttekinteni, ha megvan hozzá a
rendelkezésre álló ideje, memóriája és koncentrációs készsége
(humán keresési kapacitás);

• pont= hasznos dokumentum;

o üres hely= a kérdés szempontjából nem érdekes, további


dokumentumok;

Az egyes axiómák részletes vizsgálata:

1.Meghatározhatóság:

Ebben az esetben az A metszetet vesszük alapul, mely találomra való


elrendezést mutat. Találatot itt csak akkor érhetnénk el, ha elejétől végéig
átvizsgálnánk a file-t. Ez azonban csak kis gyűjtemények esetében
lehetséges, mégpedig további alcsoportok bevezetésével, melyek humán
keresési kapacitással áttekinthetőek. A keresési kapacitást a szettek
fejezik ki. Fontos megjegyeznünk azt is, hogy ha a humán keresési
kapacitást túlfeszítjük, nem tudunk eredményesen keresni.

Nagy gyűjtemények esetében a keresés delegálására van szükség


megfelelő számítógépes programmal vagy közvetítővel (specialistával).
Amennyiben delegálásra kerül sor, meg kell határoznunk a témát, tehát fel
kell tennünk a kérdést, hogy fókuszolt vagy nem fókuszolt keresésről van-
e szó. Az A, B, D és a H metszet esetében a dokumentumok egy része
kívül esik a keresési kapacitáson, mert nincs megfelelő rendezettség. Ha
nincs rendezettség és jól meghatározott keresési paraméterek, siker csak
szerendipitás útján érhető el, mint ahogy azt a B metszetnél már
említettük. Célunk az optimális rendezettség elérése kell, hogy legyen,
10
mely az E metszet esetében teljesen, a C és D metszeteknél részlegesen
figyelhető meg.

Mint ahogy az az 1. axiómában megfogalmazódik, információkeresést egy


témában csak akkor lehet delegálni, ha a kereső előre meghatározza a
témát fogalmak, ill. fogalomkapcsolatok formájában. Ezzel kapcsolatban
két fontos fogalmat kell megemlítenünk:

Relevancia Pertinencia
(= megfelelés) (= hasznosság)
visszahívás pontosság/precízió

Ha a két fogalmat lingvisztikai szempontból vizsgáljuk és hasonlítjuk


össze, akkor láthatjuk, hogy a relevancia egy szemantikai fogalom, ahol a
szemantika nem más, mint jelentéstan. A relevancia egyfajta közös tudást
jelöl, egy olyan információra utal, mely mindenki számára ugyanazt jelenti.
Pl. az esőt mindenki egy fizikai jelenségként értelmezi. Ezzel szemben a
pertinencia egy pragmatikai fogalom, ahol a pragmatika a jelentésnek a
beszédhelyzetből, a beszélők korábbi ismereteiből, a közöttük lévő
kapcsolatokból folyó összetevőivel foglalkozik, tehát egyfajta egyéni
tudást jelöl, mely különböző összefüggésekben más és más lehet. Így
nyerhet az eső különböző jelentést pl. Angliában vagy a sivatagban, egy
péntek vagy egy szombat reggelen.

Ha tehát egy bizonyos témában keresünk információt, el kell döntenünk,


hogy az oda vonatkozó, vagyis releváns információk közül melyek azok,
amelyek számunkra hasznosak, melyek tudnak számunkra újat mondani
vagy melyek vannak olyan nyelven, melyet ismerünk. Tehát minden
információt hasznosság szempontjából is értelmeznünk kell.

Mint ahogy az alábbi ábra is mutatja, az a dokumentum szett, melyet a


kereső érdekesnek vagy hasznosnak talál, különbözhet attól, melyet
valójában keresett. Ha az adott dokumentum szettet válasz szettként
értelmezzük, a következő ábrát kapjuk:

A dokumentumok az x-ik válasz szettben:

érdekesek? kértek?
Dokumentum visszakeresette
hasznosak? keresettek? magyarázat
szett k?
pertinensek? relevánsak?
releváns és pertinens
1 igen igen igen
találatok
hiány a nem teljes
2 igen igen nem
visszakeresés miatt
hasznos találatok, de
3 igen nem igen nem tökéletes
visszakeresés útján

11
a találatok helyesen
4 nem igen igen visszakeresettek, de
nem érdekesek
érdekesek, de csak
5 igen nem nem böngészés útján érhetők
el
nem érdekesek, de ez
6 nem igen nem hiba,mert a
visszakeresés hibás volt
zaj a nem tökéletes
7 nem nem igen
visszakeresés miatt
helyesen
visszautasított, mert
8 nem nem nem
kívül esik a keresési
kérdésen
A táblázatban foglaltakat a Venn-diagram segítségével a következőképp
ábrázolhatjuk:

Venn-diagram:

8 (kívül esik a keresési kérdésen)

5
(érdekes)

6 (kért) 2

4 1 3

7 (visszaker.)

A minimális rendezettségtől a rendezettség felé haladva térjünk át a H


ábrán látható hivatkozási index rendszerére. Ennek kiindulópontja egy
számunkra érdekes és hasznos dokumentum, melynek segítségével
létrehozunk egy bibliográfiai hivatkozási hálót, összekötve az adott
Előző szöveg Következő
szöveg
E Kiinduló szöveg
K
hivatkozik A hivatkozik

Témái:

E1 a E1 a K1
K1 a A
E2 b E2 b K2
K2 b A
E3 c E3 c K3
K3 c A

K4 a E10
E10 a 12
dokumentumot az azt megelőző és követő dokumentummal. Így létrejön
egy asszociációs háló, melynek milyensége attól függ majd, hogy a
kiinduló dokumentum mennyire homogén és specifikus a témára nézve,
illetve hogy a hivatkozó mennyire pontos és precíz. Mindezt szemléltetve
az alábbi ábra egy választott hasznos szöveg „A” relációs hálózatát
mutatja hivatkozások alapján:

Magyarázat:

K1: foglalkozik „a” témával és hivatkozik A szövegre;

K2: foglalkozik „b” témával és hivatkozik A szövegre;

K3: foglalkozik „c” témával és hivatkozik A szövegre;

K4: foglalkozik „a” témával és hivatkozik E10 szövegre;

E1: foglalkozik „a”;

E2: foglalkozik „b”;

E3: foglalkozik „c”;

E10: foglalkozik „a” témával és hivatkozik E1 szövegre (mely szintén „a”


témával foglalkozik) és majd K4 fog hivatkozni;

A és K kapcsolatát tehát hivatkozási indexek tartják számon. Ez a


kapcsolat azonban nem „felhőtlen”, ugyanis ha „a” téma hivatkozási
indexében megtaláltuk K szöveget, mely tartalmazza az adott témával
kapcsolatos K1 szövegrészt, egyúttal eljutottunk K2-höz és K3-hoz is, mely
az „a” témára nem releváns, tehát potenciális zajtényező. Továbbá A és K
szövegek hivatkozási hálózata töredékes, mivel szerzőik nem tudnak olyan
szövegre hivatkozni, mely megfelelő közelséggel kapcsolódik az adott
témához. Mindez információveszteséghez vezet, mely az ilyesfajta
rendszerek esetében elkerülhetetlen.

Ha ezt a hivatkozási ösvényt követjük, közepes fokozatú rendet tudunk


elérni, mivel a kereső nem határozza meg a keresési célt. Ezt a fajta
rendezettséget a H metszet ábrázolja.

2.Rend és rendezettség:

Ahogy az indexelés és információellátás 2. axiómája kimondja, egy témára


vonatkozó releváns információk gyűjtése mindig rendalkotó vagy rendet
létrehozó folyamat. Ez a rend úgy fogalmazható meg, mint egy egész

13
részeinek jelentéssel bíró közelsége egy előre látható és megjelölhető
helyen. Ez a közelség a kereső számára jelentéssel kell, hogy bírjon, mert
különben nincs meg a meghatározható rend. Továbbá nem elegendő az,
ha a rendezettség csupán logikai vagy mechanikus úton érhető el (pl. a
KWIC indexelési módszer, mely szavak előfordulásán alapuló
rendezettséget, tehát egy eléggé alacsony rendezettségi szintet biztosít,
mivel nagy a szóródás és a zaj lehetősége).

Egy kereső, aki nagyjából meg tudja határozni keresésének célját, akkor
van jó helyzetben, ha az adott file az E ábrán látható „ideális” állapotban
van, tehát egy veszteséget és zajt kiküszöbölő rendezettségi szinten, ahol
az összes releváns elem egy helyen található.

3.Rend és rendezettség kielégítő szintje:

Mivel a humán keresési kapacitás limitált, túlfeszíthető, mely magával


vonja annak lehetőségét, hogy a keresés nem lesz elég sikeres, egyfajta
rendezettséget kell bevezetnünk, legalább olyan szinten, mint ahogy az a
C metszeten is látható. Ez a fajta rend iránti igény az idő múlásával egyre
nő, vagyis ahogy nő a gyűjtemény, úgy nő a kérdések gyakorisága és a
keresések specifikussága. Más szóval, mint ahogy azt a 3. axióma is
megfogalmazza, a rendezettség vagy rend színvonalára vonatkozó
követelmények úgy nőnek, ahogy egy adott gyűjtemény nagysága és a
keresések gyakorisága nő. Azt, hogy az információs rendszer mérete és
rendezettsége összefügg, az alábbi ábra is jól mutatja:

Rendezettsé
Metszetek
gi szintek

α A1 A2

β B

γ C

14
δ D

ε E

Magyarázat:

A1 metszet: egy adott gyűjtemény a kezdeti „rendezetlen” szakaszban is


jól működik, mert akkora, hogy áttekintésére elegendő a humán keresési
kapacitás.

B metszet—E metszet: ugyanazt a gyűjteményt reprezentáló metszetek,


melyekben a rendezettség egyre nő, csakúgy, mint az információellátási
kapacitás.

Az a rendezettség a kielégítő tehát, amelynél a rendezettség irányába


mutató követelmények a gyűjteménnyel együtt nőnek. A nagyságváltozás
így változtatja meg a gyűjtemény jellegét, hasznosságát.

Miközben azonban az ideális állapotot reprezentáló E metszet felé


haladunk, a rendezettségnek két formájával kell találkoznunk, mégpedig a
veszteséget elkerülő (C metszet), ill. a zajt elkerülő (D metszet) renddel. A
veszteséget elkerülő rendre jellemző, hogy az egy keresésre releváns
összes válasz a keresési kapacitásban még levezethető szettben tárolódik
és a megjósolhatóság axiómáján keresztül lesz majd elérhető. A zajt
elkerülő rend esetében viszont a pontosság lesz a lényeges, tehát az, amit
találunk, pontosan fedje le azt, amit keresünk, még ha ez információs
veszteséggel is jár. Ez a fajta rend a reprezentációs hűség axiómáján
keresztül valósul majd meg. Fontos megjegyeznünk, hogy tisztán egyik
fajta rend sem jelentkezik, csak vegyesen.

4.Reprezentációs megjósolhatóság

A 4. axióma szerint a releváns információra irányuló keresés pontossága a


keresési file-ban a fogalmak és kijelentések leírására használt kifejezési
módok megjósolhatóságától függ. Mindez tulajdonképpen lefedi az
információkeresés lényegét, vagyis azt, hogy egy mechanikusan működő
fájlban egy keresési célt bizonyos keresési paraméterekkel keresünk meg.

15
Mindehhez a megfelelő keresési paraméterek meghatározása és
megadása szükséges, melyeket a későbbiekben behasonlítok majd a
fájlban található reprezentációkkal. Ahhoz azonban, hogy a behasonlítás
lépéséig eljussunk, a keresési kérdés kifejezése érdekében tudnunk kell,
hogy a keresőkapcsolatok az adott file-ban hogyan vannak kifejezve,
rekonstruálnunk kell, hogy az adott fogalom milyen formában szerepel a
file-ban.

Mivel a természetes nyelvi kifejezések ritkán esnek egybe egy fogalmi


kereső kérdés (query) kifejezéseivel, ezért egy, a nem kontrollált
természetes nyelvtől különböző, indexelési nyelv szükséges a kereséshez.
Ilyen indexelési nyelv pl. a kivonatolt indexelési nyelv, mely során az
eredeti szövegből emelünk ki részeket, tehát elmarad a kifejezések
lefordítása, az eredeti szöveg ás a szinonimák összehangolása, ill. nem
tartalmazza a célzott, de nem említett fogalmakat.

5.Reprezentációs hűség vagy megfelelés:

Az 5. axióma szerint a releváns információra irányuló keresés pontossága


a keresési file-ban a fogalmak és kijelentések leírásában meglévő hűségtől
vagy megfeleléstől függ, tehát egy zajelkerülő rendre van szükség, melyet
a D metszet ábrázol. Más szóval, ha a keresési kérdés nincs pontosan
megfogalmazva, a keresés eredménye sem lesz pontos. pl. ha a rovarirtó
szerekkel kapcsolatos információk keresésekor „rovarirtó szerek”
deszkriptor hiányában csak egy magasabb szintű „féregirtó szerek” nevű
deszkriptorral tudunk keresni, sok felesleges dolgot találunk. A
reprezentációs hűség kategóriájában tehát hiányossággal kell
szembenéznünk.

Van azonban lehetőség a hiányok korrigálására, mégpedig egy megfelelő


indexelési nyelv bevezetésével.

Az indexelés, mint lényegfelismerő folyamat

Az indexelés nem más, mint fordítás, pontosabban a szöveg lényegének


másik kifejezési módra (indexelési nyelvre) történő lefordítása. Mint eljárás
egy kétlépéses folyamat:

1. a dokumentum vagy szöveg lényegének a megértése

2. a megértett lényeg reprezentálása kielégítő megjósolhatósággal

16
Ehhez rendelkezésre áll egy indexelési nyelv, melynek van szótári és
nyelvtani része. A szótár a terminológiákat tartalmazza, tehát lexikai,
szemantikai jellegű, míg a nyelvtani rész a szintaxis szabályaira építve az
egyes indexelési részek közötti kapcsolatok, összefüggések leírására
szolgál. Egy index létrehozásakor, azon kívül, hogy ismernünk kell az
indexelendő téma terminológiáját, egy fő- és altárgyszavakból álló
hierarchikus struktúrát is létre kell hoznunk.

A lényegfelismerő indexelés reprezentációs formái:

• Kivonatoló indexelés: az effajta indexelés során kiemeljük a


szövegből azokat a terminológiai kifejezéseket, amiket használni
szeretnénk. Ilyenkor figyelembe kell vennünk, hogy minden
szövegnek más a deszkriptor készlete, éppen ezért lehetőség van a
változtatásra (pl. egyes/többes számok használata). Jó indexelést
főleg egyedi szavak esetén tudunk elérni.

• Kijelölő indexelés: ami azt jelenti, hogy kijelöljük a deszkriptorokat és


alkalmazzuk őket, de azok nem feltétlenül fordulnak elő a
szövegben. Ilyenkor a használt nyelvtől elvárható a specifikusság és
az alkalmazható szinonima kontroll. Éppen ezért a kijelölő indexelés
kétféleképpen végezhető:

 kontrollált szótárral, melynek


jellegzetességei:

♦ helyesírási kontroll

♦ egyes/többes szám kontroll

♦ szinonima/homonima kontroll

♦ hierarchikus kapcsolatok

♦ rendszerhatékonyság a visszakeresésre
vonatkozóan

 Cutter-szabállyal, vagyis a legszűkebb


fogalom elvével, ami azt jelenti, hogy mindig
a legspecifikusabb deszkriptor használata a
kötelező

• Szabad indexelés: összeköthető a szabadszöveges kereséssel

17
Visszahívás és precízió

Már korábban, a meghatározhatóság axiómájánál említettük, hogy


mennyire fontos annak a vizsgálata, hogy az adott dokumentum mennyire
releváns és egyben hasznos, vagyis pertinens a számomra. A vizsgálatnak
ezt a folyamatát a visszahívás és precízió fogalmainak használatával is
elvégezhetjük, ahol a visszahívást a relevanciával tesszük rokon értelművé
(releváns dokumentumok visszahívása), a precíziót pedig a pertinenciával
(hiszen azt vizsgálom, hogy a számomra releváns dokumentumok
mennyire felelnek meg pontosan, „precízen” annak, amit keresek,
mennyire tudnak újat mondani, mennyire hasznosak). Mindezen fogalmak
jobb megértéséhez azok részletesebb vizsgálata szükséges:

Visszahívás

Mivel az információkereső nyelvek sajátossága, hogy nem minden


információkereső mechanizmus működik megfelelően a különböző
szakterületeken, szükség van annak ellenőrzésére, hogy az adott
információkereső nyelv az adott szférában mennyire hatékony.

A visszahívást segítik a már korábban tárgyalt kontrollált szótárak, melyek


a helyesírási kontrollal, az egyes/többes szám kontrollal, ill. a
szinonima/homonima kontrollal segítik a rendszerhatékonyság vizsgálatát.

A visszahívás kiszámítása teszteléssel lehetséges. Ez a tesztelés úgy


történik, hogy az általunk megfogalmazott kérdésre már tudjuk a választ,
de leellenőrizzük, hogy az adott információkereső nyelv segítségével
megtaláljuk-e a helyes választ. A visszahívás kiszámításának képlete:

a keresés során megtalált


visszahívás % = releváns tételek

a fájlban lévő összes releváns tétel

Precízió

A precízió tulajdonképpen a visszahívás folytatásaként is értelmezhető,


hiszen általa azt vizsgáljuk, hogy a megtalált releváns dokumentumok
között hány olyan van, mely számunkra hasznos. Ebből következik a
precízió kiszámításának képlete:

megtalált hasznos tételek


precízió % =
összes megtalált releváns tétel

18
Megtalált hasznos tételek alatt a keresés során megtalált releváns
tételekből hasznosnak bizonyult tételeket értjük.

pl. Ha a 35 megtalált releváns tételből 7 a hasznos, a precízió 20 % -os


lesz.

A két fogalom ugyanakkor egymással fordítottan arányos is, hiszen a


visszahívás javításával egyre több releváns dokumentumot találhatok,
szélesedik a terminus technicus definíciója, csökken az alkalmazott
szókészlet nagysága, viszont a találatok számának növekedésével
növekszik azon dokumentumok száma is, mely számomra nem feltétlenül
hasznos, tehát romlik a precízió. Pl. ha a bútorokra keresek rá, ami egy
eléggé átfogó fogalom, sok dokumentumot kapok majd, viszont nem
biztos, hogy az asztalokon és székeken kívül más is érdekel. A precízió
javításával csökken a megtalált releváns dokumentumok száma, mivel egy
specifikusabb fogalmat használtam kereséskor (pl. asztal), tehát szűkül a
terminus technikus definíciója, ill. nő a szótár nagysága, nagyobb lesz a
használt szókészlet (szám szerint).

Minden indexelő nyelvnek tartalmaznia kell olyan módszereket, amelyek


valamelyik tényezőt elősegítik, és a célkitűzéstől függ majd, hogy melyik
tényező a fontosabb. Pl. egy szerző összes művének keresésekor a
visszahívás, vagyis a lehető legtöbb releváns dokumentum megtalálása
lesz a lényegesebb.

A visszahívás javítására használatos módszerek:

• Szinonima kontroll: utal egy el nem fogadott terminusról egy


elfogadottra vagy fordítva. Indexelési és keresési szinten történő
alkalmazása is elképzelhető. Pl.:

ingoványok

lápok lásd mocsarak

mocsarak
(alfabetikus
elrendezés)
vagy

napilap lásd sajtó

nyomtatott
média

sajtó

19
• Kifejezés kapcsolás: a hierarchikus kapcsolás legismertebb formája,
fogalmak alá- és fölérendeltségét fejezi ki. Pl.:

lisztből készült ételek

pékáruk

kenyérfélesége
k

• Szóformák kontrollja: minden szóforma elismerését jelenti. Ilyenkor a


visszahívás nő, de a precízió drasztikusan csökken. Pl.:

információ
atikus
atika
álás

• Klaszterezés: vagyis statisztikai asszociáció alapján történő


csoportosítás, a klaszter analízis pedig nem más, mint a hasonló
ismérvű dokumentumok összehasonlítása. Pl.:

digitális központok, kábelfektetés

távbeszélő hálózat, telefonközpont

telekommunikáció távközlés

A precízió javítására használatos módszerek:

• Koordináció: két fajtáját különböztetjük meg:

 prekoordináció: indexelési szinten történő egymás mellé


rendelést jelent, pl. ilyen az ETO. Általa csökken a hamis
asszociációk száma, ill. a szótárnagyság, a precízió viszont
nő;

 posztkoordináció: egymástól független fogalmak keresési


szinten történő összekapcsolását jelenti, mely azonban
lehetőséget nyújt a hamis asszociációk előfordulására

• Kapcsolatok: a posztkoordinált szókészletben megjelenő hamis


asszociációk kiküszöbölésére szolgál azáltal, hogy még indexelési
szinten megmutatja a dokumentumok kapcsolódási viszonyait. Főleg

20
az unitermes módszernél gyakori. Pl.: az Amerika, hatás, Európa és
űrprogram kulcsszavak esetében a köztük lévő kapcsolat kétféle
lehet, mégpedig: a) európai hatások az amerikai űrprogramra vagy
b) amerikai hatások az európai űrprogramra. Ha viszont valahogyan
jelöljük az egyes kulcsszavak közötti összetartozást, akkor az összes
kulcsszó közötti kapcsolat egyértelműbbé válik: Európa (1), hatás
(1), Amerika (2), űrprogram (2) Európai hatások az amerikai
űrprogramra.

• Szerepjelölők: a kapcsolatok jelölésének folytatása bizonyos


szerepek meghatározásával. Pl.: méreg hatása tengeri kígyókra

tengeri kígyó (G) tengeri kígyó (F)

méreg (P) méreg (A)

ahol G: gyártó
P: produktum
F: fogadó
A: ágens
• Fontossági súlyozás: nem más, mint az indexelési szakaszban
bizonyos fogalmak fontossági elemmel való felruházása;

Osztályozás és indexelés közötti terminológiai, stb. különbségek

Mint ahogyan azt már korábban említettük, az osztályozás a dokumentum


egészét megragadva besorolja azt egy bizonyos témakörbe. Ezzel
szemben az indexelés egy intellektuális hozzáférést biztosít, vagyis az
adott dokumentumot részleteiben ragadja meg, általa a dokumentum a
témakör fogalmain keresztül lesz visszakereshető. Az osztályozás és
indexelés közötti különbségeket az alábbi ábra foglalja össze:

Osztályozás Indexelés

analitikus: elszigetelt
átfogó: egy szöveg fogalmak alapján írja
Módszer
egészét ragadja meg le az adott
dokumentumot

lehet szisztematikus
szisztematikus és
Struktúra és hierarchikus, de
hierarchikus
nem feltétlenül

Jelölés vagy előre megtervezett és természetes nyelvet


jelzetalkotás mesterséges kódokat használ

21
használ (mikro szintet
(makroszintet képvisel) képvisel)

Az indexelési folyamat jellemzői:

Hogy mitől is függ a jó indexelés? Nem mástól, mint az indexelési folyamat


módjától. Ez alapján 4 egymással összefüggő tényezőt különböztetünk
meg:

1. Indexelési pontosság, mely több tényezőtől függ:

• téma megértésétől: vagyis az indexeléshez meg kell


értenünk a témát, le kell fordítanunk azt fogalmakra,
amelyeket a későbbiekben átültetünk a megfelelő
indexelési nyelv deszkriptoraira, tehát a
szakterminológia alapján állítjuk fel a deszkriptorokat;

• előfordulhatnak hibák, melyek rontják az indexelési


pontosságot, pl.: rossz terminológiai kifejezést
használunk (ezért fontos a téma ismerete), nem
indexelünk egy fogalmat, amit kellene vagy indexelünk
egy olyan fogalmat, amit nem kellene;

2. Konzisztencia vagyis „ellentmondás mentesség”, melynek két


fajtáját különböztetjük meg:

• indexelők közötti konzisztencia, vagyis annak a


vizsgálata, hogy két indexelő azonos időpontban, azonos
segédeszközökkel, különböző helyen hogyan indexeli
ugyanazt a dokumentumot;

• egyes indexelőn belüli konzisztencia, vagyis annak a


vizsgálata, hogy ugyanaz az indexelő ugyanazt a
dokumentumot hogyan indexeli más és más alkalommal;

A konzisztencia több tényezőtől függ:

 indexelő képzettségétől
 indexelő tapasztalatától
 terminológia típusától
 indexelési segédeszközöktől
 dokumentum terjedelmétől
 indexelés mélységétől
 ráfordított időtől

22
 indexelés revíziójától
3. Teljesség, ami tulajdonképpen attól függ, hogy hány indexelési
egységet (jelzetet, tárgyszót, deszkriptort) használtunk egy tétel
indexelésére. Minél több egységet használtunk, annál teljesebb lesz
az indexünk, ami nem feltétlenül célravezető, hiszen ha túlságosan
törekszünk a teljességre, megnő a fájl és nehézkesebb lesz a
kezelése;

4. Specifikusság, ami a teljességhez kapcsolódik, mivel az azonosított


fogalmakat az oda vonatkozó megfelelő azonosítóval látjuk el.
Mindez függ:
• gyűjtemény természetétől
• felhasználók típusától
• szótár nagyságától (de a szótárválasztás nem
befolyásolja az indexelés minőségét)

Az információ visszakereső rendszerek csoportosítása kontrolfok


szerint:

Félig kontrollált
Kontrollált szótárak Nem kontrollált szótárak
szótárak

osztályozás alfabetikus láncindexel „bővített” uniterm


i rendszere és rendszerek rendszere kulcsszavak
rendszerek k k

fels szinteti tárg deszk címre abstr


orol kus ysza riptor (pl. alapozott actra,
ó vas os KWIC/KWOC) tömö
(ma már
(fazettá (csak nem rítvén
s) szavakat használatos yr a.
használ) ak)
(fő (egye
tarta s
lmi aspe
jegy ktuso
et ír kat
le) ind.)

Műszerek, melyek szabályoznak egyes kontrollált indexelő rendszereket

tárg
tábl
tábláza ysz tezau online rendszerekben gyakran együtt
ázat tezaurusz
tok ólist rusz használatosak
ok
a

A tárgyszavas rendszerek, a deszkriptoros rendszerek, a címre alapozott


rendszerek és az abstract-re, tömörítvényre vagy referátumra alapozott
rendszerek online rendszerekben gyakran együtt használatosak

23
Az egyes rendszereket aszerint is csoportosíthatjuk, hogy az indexelőtől
megkívánják-e az indexelési terminológia prekoordinálását (1), vagy,
hogy megengedik-e vagy sem a visszakeresett terminológia kereső
általi posztkoordinálását (2). Mindezek szerint a csoportosítás a
következőképp történik:

1 2

korlátozottan
prekoordinált nem prekoordinált
prekoordinált
rendszerek rendszerek
rendszerek
az indexelő esetenként
az egyes elemeket az esetenként használhat
használhat prekoordinált
indexelőnek az input prekoordinált terminológiát, a
terminológiát vagy
szakaszban mindig számítógép az összes kulcsszót
prekoordinálhat egyes
prekoordinálni kell külön elemként kezeli, de az
egységeket a
egyes kulcsszavak lehetnek
rendszerszabályoktól és
prekoordináltak
terminológiától függően

láncinde szintetiku felsoroló o. r. nem kontrollált szabad szöveges,


xelés s oszt. r. alfabetikus kulcsszavas szövegek

Nem tárgyszavas (vannak olyan programok,


posztkoo deszkript. melyek megengedik a
rdinálhat posztkoordinációt a kulcsszavas
ók a (a kereső rendszerekben)
kereső posztkoordinálhat
által bármilyen terminológiát,
ha ezt a szg lehetővé
teszi)

A konkrét információkereső nyelvek:

Összesen 6 indexelési módszert tárgyalunk részletesebben:

1. láncindexelés
2. PRECIS
3. tezaurusz
4. KWIC/KWOC
5. referátum
6. könyv, folyóirat és újságindexelés

Vannak bizonyos megszorítások, melyeknek mindegyik indexelési


módszerre teljesülniük kell, ezek a következők:

24
1. a láncindexelés valamilyen osztályozási rendszerrel hozható
kapcsolatba, vagyis rendszer specifikus/függő, a mi esetünkben ETO
függő;
2. a PRECIS szövegfüggő;
3. a tezaurusz szakterminológiai speciális szókészlet vagy szótár, tehát
témafüggő, tárgykörfüggő, szakterületfüggő;
4. a KWIC/KWOC címre alapozott megközelítésű, tárgykör és
felhasználófüggő;
5. a könyv, folyóirat és újságindexelés, KWIC/KWOC, referátum
tárgykör és felhasználófüggő;
6. a referátum terminológia és felhasználó függő;

Láncindexelés
Ezt az indexelési módszert Ranganathan indiai professzor hozta létre. Ő
fedezte fel azt a tényt, miszerint a dokumentum egészét jelzetekkel leíró
osztályozás mellett szükség van egy specifikus, a szöveg egyes részeit
speciális kifejezésekkel leíró indexelési módszerre is. Ez az indexelési
módszer azonban nem független az osztályozási rendszertől, csak azzal
együtt használható, vagyis rendszer specifikus (pl. ETO, Dewey Decimal
Classification).
Láncindexelés során az adott osztályozási rendszer jelzetét természetes
nyelvre fordítjuk le, majd az egyes fogalmakat a specifikustól az általános
felé haladva visszakereshetővé tesszük.
Mindezt a későbbiekben először elméletben, majd gyakorlatban lépésről
lépésre tárgyaljuk.
Egy szöveget indexkifejezések sorozatával írunk le, így jön létre ABCD
indexelési szett, ahol minden betű valamely indexelési fogalomnak
indexeléssel kifejezett jele, és ahol az egyes fogalmak között logikai
sorrendiség van.

Permutáció:

A B C
D

B C D

C D

Itt az A a legáltalánosabb fogalom és utána kerülnek besorolásra az egyre


specifikusabb fogalmak (B C D), melyek így a visszakeresésnél rejtve
maradnak. A gyakorlatban szükség van a sorrend megfordítására, hogy

25
minden tag visszakereshetővé váljon, persze csökkenő specifikussággal. A
konkrét lánc esetében a képlet a következő:

a b c
d

d c b
a

c b a

b a

Gyakorlati példán keresztül:

A kiindulási pont: a jelzet /ETO jelzet/

551. 577. 7 megnézzük ennek jelentését, hogy a témát meg tudjuk


határozni

Ezután következik az indexelés első fázisa, mégpedig az elemzés vagy


analízis, amikoris az ETO alapján feloldom az egyes jelzeteket és leírok
mindent, amit az ETO-ban találok, mert nem tudhatom, hogy mire lesz
majd szükségem a későbbiekben. A jelzettől visszafelé haladok a
főtáblázat irányába.

551.577.7

551.577.7 Csapadék radioaktivitása

551.577 Csapadék általában

551.57 Vízgőz és csapadékjelenségek

551.5 Meteorológia. Klimatológia.

551 Általános földtan. Meteorológia. klimatológia. Földtörténet. Rétegtan.


Ősföldrajz

55 Földtudományok: geológia, geofizika, geizmológia, meteorológia,


hidrológia

5 Matematika és természettudományok

A következő lépés a láncalkotás, melyet soronként végzünk fentről lefelé


haladva:

1. lánc:

26
radioaktivitás : csapadék : meteorológia : rétegtan : geofizika : természettudomány
551.577.7

Mivel a csapadék a második sorban már ott van, ezért a radioaktivitással


kell kezdenem, a lánc többi tagjánál pedig el kell döntenem, hogy mi az,
amivel nem ismétlem az előző tagot, illetve mi az a fogalom, amely az
adott témában releváns. Hogy valódi index jöjjön létre a lánc után kell
írnom valamilyen hivatkozást vagy lokátort, ami ebben az esetben a jelzet
vonatkozó része.

2. lánc:

csapadék : meteorológia : rétegtan : geofizika : természettudomány


551.577

3. hivatkozás ( = lásd)

vízgőz  csapadék

csapadékjelenségek  csapadék

A további láncok és hivatkozások:

meteorológia : rétegtan : geofizika : természettudomány


551.5

klimatológia  meteorológia

rétegtan : geofizika : természettudomány


551

geofizika : természettudomány
55

hidrológia : természettudományok 55

geológia  geofizika

geizmológia  geofizika

természettudományok 5

Természetesen azt is meg kell jegyeznünk, hogy mindez önmagában még


nem kezelhető indexként, mivel csak egy dokumentumot ír le láncok és
utalók segítségével.

Az ETO használatából fakadó és a láncindexeléssel kapcsolatos problémák:

Itt 6 problémakört kell megemlítenünk:

27
1. Az ETO sokszor ugyanazzal a jelzettel jelöli az egymással ellentétes
fogalmakat. Pl.: ugyanaz a szám jelöli a házasságot és a válást vagy
az állatvédelmet és állatkínzást. A jelzet alkotásnál persze nyílván
azt vesszük figyelembe, ami az adott dokumentumra nézve
releváns.

2. Hamis kapcsolatok témaköre: ezen belül két fontosabb problémáról


kell beszélnünk, mégpedig a redundáns vagyis felesleges számok
kérdéséről (mint pl. a 0), ill. a 6-os főosztályban jelentkező hamis
kapcsolatról a 6 és 61 között, ahol a 6-os főosztály az alkalmazott
tudományokra vonatkozik, míg a 61-es az orvostudományra. Ebben
az esetben az elemzést a 61-es alosztálynál kell befejezni az
elemzést.

3. Rejtett kapcsolatok: vigyázni kell, mert hajlamosak vagyunk


figyelmen kívül hagyni az összefoglalót („/” jelet) tartalmazó
blokkszámot (pl. 616/619), de ha relevánsak, azok is szükségesek.

4. Szinonimák bevezetése: a láncalkotás szakaszában lehetőség van


gyakran használt szavak, kifejezések bevezetésére szinonimaként,
melyekkel természetesen láncot nem indíthatunk, de utalhatunk
rájuk.

5. Verbális kiterjesztés: arra utal, hogy betehetek a jelzetbe olyan


szavakat, amelyek nincsenek benn az ETO-ban, de azokat fel is kell
oldanom. Pl.: az ETO-ban az egyetemi évkönyveknek külön jelzete
van, ha az adott évkönyv a KLTE évkönyve, a KLTE-t beletehetem a
jelzetbe, de mindenképpen fel kell oldanom egy utalóval: KLTE 
Kossuth Lajos Tudomány Egyetem

6. Kettőspontos viszonyítás: az ETO-ban vannak olyan jelzetek, melyek


két, „:”- al elválasztott számot tartalmaznak, melyek egyenrangúak,
tehát felcserélhetőek. Ilyenkor el kell döntenünk, hogy melyik téma
a dominánsabb és az annak megfelelő számot kell elemeznünk, ill.
előre írnunk elemzéskor. Pl.:

636.92 : 025.43 = 20

636.92 : 025.43 = 20 Angol nyelvű tezaurusz a


nyúltenyésztésről.

636.92 : 025.43 = 20 Angol nyelvű

636.92 : 025.43 Tezauruszok. Deszkriptor jegyzékek.

636.92 Házinyúl.

28
636.9 Egyéb tartott állatok

636 Állattenyésztés

636/639 Állattenyésztés. Állati termékek.


Vadászat. Halászat.

63 Mezőgazdaság. Erdőgazdaság.
állattenyésztés. Vadászat.
Halászat.

6 Alkalmazott tudományok.

PRECIS (PREserved Context Indexing System)

Mint ahogy a neve is mutatja, a PRECIS egy kontextust megőrző indexelési


rendszer, mivel nincs „szótára”, nem tartozik hozzá az osztályozási
kifejezések eleve meghatározott gyűjteménye, hanem szabályokból áll,
tehát grammatikát nyújt ahhoz, ahogyan a kifejezéseket értelmes
indextételekké kell összekapcsolni. Talán ide kapcsolódik a PRECIS-nek
ama jellegzetessége is, miszerint minden elképzelhető nyelven működik,
melynek magyarázata az, hogy a Chomsky-féle transformational
grammar-t veszi alapjául. További jellegzetessége még, hogy az egyetlen
komplex számítógépes rendszer.

Kifejlesztése Derek Austin nevéhez fűződik, aki 1968-1969 óta a FID


Classification Research Group (osztályozási kutatócsoport) keretében
kizárólagos felelősséggel foglalkozott az angol nemzeti bibliográfia
számára kidolgozandó indexelési eljárással. De ahhoz, hogy igazán
megértsük azt, hogy a PRECIS miben különbözik a többi indexelő nyelvtől
és milyen elvárásoknak tett eleget vagy milyen kérdésekre adott választ
létrejöttével, tekintsük át röviden kialakulásának történetét.

A PRECIS történeti áttekintése:

A PRECIS eredete az 1950-es évekre nyúlik vissza, amikor is elindult a


British National Bibliography (BNB), mely, mint minden nemzeti
bibliográfia, a dokumentumokhoz való hozzáférést kétféle módon
biztosította:

• alfabetikus rész, pl. szerző szerinti visszakeresés

• szakbeosztásos rész, amely Dewey jelzet szerinti, hozzáférést


biztosít és amelyet egy tárgyszó szerinti megközelítés egészít ki a

29
láncindexelés segítségével. A BNB a Dewey sajátos változatát
használta, mely az eredetinél egyszerűbb és egyben hiányosabb
volt.

Szintén a ’60-as években különböző változások történtek a nemzeti


és nemzetközi könyvtári világban, mégpedig 1967-ben megjelenik
az AACR 1, vagyis az Angol-Amerikai katalogizálási szabályok első
változata, majd annak javított változata 1978-ban (AACR 2), illetve
elkezdték használni a gépi katalogizálás módszerét, vagyis a MARC
projectet. Mindezek a fejlesztések nem tették tovább lehetővé a
láncindexelést, mivel a Dewey számok megváltoztak. Ezekből a
feltételekből kiindulva a BNB megbízást adott a Derek Austin által
vezetett CRG-nek egy olyan indexelési módszer kifejlesztésére, ami
a láncindexelés helyébe léphet. A PRECIS megrendelésekor a BNB 4
feltételt fogalmazott meg, amelynek az új rendszernek meg kell
majd felelnie:

1. a rendszónak ki kell terjednie a tárgykör egészére minden belépési


pontnál csökkenő specifikusság nélkül;

2. ne kapcsolódjon semmilyen osztályozási rendszerhez;

3. minden indexelési tétel jelentéssel bírjon a felhasználó számára, ne


legyen szükség magyarázatra;

4. az eredeti indexelés továbbra is intellektuális módon történjen, de


minden további műveletet számítógép kell, hogy végezzen;

Így készült el a PRECIS első változata 1971-ben, majd annak végleges


változata 1974-ben és a további végleges változat az 1980-as években. A
megrendelő BNB 1990 körül abbahagyta a PRECIS használatát, mivel
túlságosan komplikált rendszernek bizonyult, magas költségeket és
magasan kvalifikált szakemberek alkalmazását igényelve. Ekkora azonban
már az egész világon elterjedt kihasználva azt a tulajdonságát, hogy
bármilyen nyelven használható. Magyarországon 1986-ban kísérletileg,
majd 1987-ben a gyakorlatába is bevezette az Országos Pedagógiai
Információs Rendszer, melynek fejlesztő intézménye az Országos
Pedagógiai Könyvtár és Múzeum.

A PRECIS indexelés lépései:

1. dokumentum tanulmányozása;

2. tárgykör azonosítása, azon belül a fogalmak, fogalomcsoportok,


témakörök meghatározása;

30
3. egy téma a tartalmat, valamint a relevánsnak ítélt egyéb tényezőket
tartalmazó természetes nyelvű, címszerű megfogalmazása, pl.:
Management of Canadian Libraries

4. a tárgykör terminológiai lánc formájában történő leírása, melynek


során a tartalmat reprezentáló állítást szintaktikai-logikai
elemzésnek vetjük alá. Ennek során operátorok állnak
rendelkezésünkre, melyeket az egyes tárgyszavak elé írunk, majd a
helyes sorrendben felírt tárgyszavakhoz hozzárendeljük a
tételszerkesztési és tipográfiai utasításokat hordozó jeleket, kódokat,
vagyis a kiegészítő operátorokat.

5. megjelöljük azokat a terminológiai kifejezéseket, melyeket vezető


pozícióban szeretnénk látni (pipával);

6. hozzáadjuk a szükséges szemantikai kifejezéseket (lásd, lásd még);

7. hozzáadjuk a számítógépes manipulációs kódokat;

Célunk az, hogy a tételt több helyen is visszakereshetővé tegyük, de úgy,


hogy mindig a téma teljes tartalmát lehessen elolvasni. Ezért a PRECIS az
adott bemeneti szóláncból több indextételt is elő fog állítani. Az egyes
tárgyszavak megjelenhetnek a besorolást és elérést meghatározó
vezetőként (lead), módosító pozícióban (qualifier) és az ún. kiegészítésben
(display). Sematikusan:

Lead Qualifier

(vezető) (módosít
ó)

Display

(kiegészí

Mindezek elméleti hátteréül az ún. shunting technika szolgál:

A B C
D
A

B C
D
B A
C
D
C B A
31
D
D C B
A
Ebből is láthatjuk, hogy a PRECIS az egyetlen kétsoros indexelési eljárás,
mely a láncindexelés (chain indexing) horizontális láncával ellentétben
vertikális láncot képez (string indexing).

Mindezeket egy egyszerű példán szemléltetve:


Először is meghatározzuk a témát egy címszerű megfogalmazás
formájában: Management of Canadian Libraries. Ezután meghatározzuk az
egyes tárgyszavakat, illetve azok szerepét:

Szerep (PRECIS
Kérdés Válasz
szempontjából)
mi történik?/ miről van
management cselekvés
szó?
mivel?/kivel? libraries egység, entitás
hol? Canada hely

Miután meghatároztuk az egyes tárgyszavak szerepét, hozzájuk rendeljük


a későbbiekben tárgyalt szerepoperátorokat és létrehozunk egy vertikális
láncot, majd megjelöljük egy pipa segítségével azokat a tárgyszavakat,
melyeket visszakereshetővé szeretnénk tenni:

(0)Canada

(1)libraries

(2)management

Végezetül a shunting technikát alkalmazva a következőket kapjuk:

1. Canada
Libraries. Management.
2. Libraries. Canada.
Management
3. Management. Libraries. Canada.
Mint ahogy az alábbi példa is mutatja, léteznek olyan kódok is, melyek az
indextételben a bemeneti lánchoz képest történő változást mutatják. Ilyen
pl. az NU (Not Up) vagy az ND (Not Down) illetve az LO (Lead Only). Az NU
azt jelenti, hogy ha az ezzel ellátott kifejezés alatt lévő kifejezés kerül
vezető pozícióba, akkor ez a tárgyszó kimarad az indextételből az ismétlés
elkerülése végett. Hasonlóan működik a ND utasítás is. Amelyik tárgyszó
mögött áll, az kimarad abból a tételből, melyben a felette álló kerül vezető

32
pozícióba. Az LO utasítás azt jelenti, hogy az általa jelölt tárgyszó csak
vezető pozícióban szerepel.
pl:
Sporttevékenység a budapesti Árpád Gimnáziumban

(0) Budapest
(1) gimnáziumok LO
(q) Árpád Gimnázium
(2) sportolás

A shunting során teljesen felesleges, hogy többször is leírjuk a gimnázium


szót, mert tudjuk, hogy az Árpád Gimnázium egy gimnázium. Tehát a
gimnázium tárgyszónak csak akkor kell szerepelnie, ha az vezető
pozícióban van:
1. Budapest.
Árpád Gimnázium. Sportolás.
2. Gimnáziumok. Budapest.
Árpád Gimnázium. Sportolás.
3. Árpád Gimnázium. Budapest.
Sportolás.
4. Sportolás. Árpád Gimnázium. Budapest.

Operátorok

Az operátorok a tárgyszó, kifejezés funkcióját, szerepét határozzák meg,


hogy a dokumentum tartalmának leírása tárgykörének megjelölése
pontosan benne legyen az indextételben, hogy a szavak a természetes
nyelvéhez közelálló sorrendben jelenjenek meg. Továbbá lehetővé teszik a
számítógépi kezelést. Az operátorok között meg kell különböztetnünk
elsődleges és másodlagos operátorokat:

A. Elsődleges operátorok:

1. magfogalmak kifejezésére használt 0,1,2 ill. 3-as


operátorok, ahol

0: helyet jelöl

1: kulcsrendszert vagy entitást jelöl, ami lehet


konkrét vagy absztrakt. Egyes és többes számú
használata egyaránt megengedett

2: cselekvést jelöl, de névszó használata kötelező

33
3: ágens, vagyis valami, ami csinál valamit. Amit
kifejez, annak hatása van a előtte álló 2-esre és az
afölött álló 1-esre.

Minden vertikális lánc 1-el, 2-el vagy 0-val kell, hogy


kezdődjön, és minden láncnak tartalmaznia kell 1-est
és 2-est, melyek akár többször is előfordulhatnak
összetett tárgykörök esetén.

2. magon kívüli fogalmak kifejezésére használt 4, 5 és 6-os


operátorok, melyek formai operátorok, mivel formai
kapcsolatok kifejezésére szolgálnak:

4: szempont vagy megközelítési mód;

5: vizsgált terület (láthatjuk tehát, hogy a hely


kifejezésére három operátor is rendelkezésünkre áll:
0, 1, 5);

6: dokumentum típus, felhasználói célcsoport;

Ha e három operátor megjelenik a láncban, a


továbbiakban 1-es, 2-es és 3-as operátor már nem
használható.
Ha nem használjuk őket vezető pozícióban, akkor egy
kötőjel kerül eléjük és az operátorok által jelölt
fogalmakat dőlt betűvel írjuk.
Ha viszont vezető pozícióban jelennek meg, nem kell
kötőjelet használnunk, sem dőlt betűt, viszont belép
az invertált formátum, ami a PRECISben felülről lefelé
történő olvasást jelent, szemben a standard
formátummal, ami pedig lentről felfelé olvasást
jelent.

Mindezeket a gyakorlatban szemléltetve nézzük meg az alábbi


példát:
A sociological study of the role of consultants in industries

(1) industries
(s) role $v of $w in

(3) consultants
(4) sociological perspectives

34
Az (s) operátor azt mutatja, hogy az adott cselekvés vagy
tárgy összekapcsolása a hagyományostól eltérő módon
történik. Azokat az instrukciókat, melyek arra adnak utasítást,
hogy az egyes operátorok hogyan kapcsolják össze az egyes
kifejezéseket, kapcsoló kódoknak nevezzük és $v, ill. $w-vel
jelöljük. Használatuk a következőképp történik:
$v: lefelé olvasást jelent, tehát ha egy, az $v kóddal
ellátott tárgyszó előtti tárgyszó van vezető pozícióban
(pl. industries), a további tárgyszavak összeolvasása a
sorrend megváltoztatása nélkül fentről lefelé történik:
1. az (s) operátorral ellátott tárgyszó, pl.: role
2. az $v-t követő prepozíció, pl.: of
3. a vertikális láncban a következő tárgyszó pl.:
consultants
$w: felfelé olvasást jelent, tehát ha az $w kóddal ellátott
tárgyszó utáni tárgyszó jelenik meg vezető pozícióban
(pl. consultants), a tárgyszavak összeolvasása a
következőképp történik:
1. az (s) operátorral ellátott tárgyszó, pl.: role
2. az $w-t követő prepozíció, pl.: in
3. a vertikális láncban az $w-vel ellátott tárgyszót
megelőző tárgyszó, pl.: industries

1. Industries.
Role of consultants – sociological perspectives
2. Consultants.
Role in industries – sociologiocal perspectives
3. Sociological perspectives.
Industries. Role of consultants.

B. Másodlagos operátorok:
Az elsődleges operátoroknak amolyan „bővítményei”: p, q, s,
ahol
(p): részt vagy tulajdonságot jelöl. Példákkal szemléltetve:
1. (1) cameras konkrét
(p) lenses (lencse)

2. (1) Christianity absztrakt


(p) mysticism

3. (2) dentistry (fogászat) cselekvés


(p) anesthesia (érzéstelenítés)

35
4. (1) newspapers (újságok)
(2) publishing (kiadás)
(p) costs (költségek)

5. (1) aircraft (repülőgép)


(p) engines (motor)
(p) bolts (csavar)
(p) strength (erősség)

(q): fajta, féleség:


1. (0) Észak. Magyarország
(1) várak
(q) Eger vára
(6) turistakalauz

2. (1) supermarkets
(p) marchendise (árukészlet)
(q) soap

4. (1) universities
(p) curriculum subjects (tantervi tárgyak)
(q) architecture
(2) teaching

Tezaurusz

Maga a tezaurusz egy görög eredetű szó, „kincsestár”-at jelent. A


későbbiekben látni fogjuk, hogy miért is olyan találó ez a kifejezés,
amikor is rájövünk, hogy egy információs tezaurusz egy- egy szakterület
„színe javát” foglalja magába, hiszen az adott szakterület természetes
nyelven kifejezett fogalmainak szabályozott szótára, pontosabban a
kontrollált szótárak legfejlettebb formája, vagyis szavak, kifejezések és
kapcsolódásaik tárháza.
Az első tezaurusz jellegű műszer kidolgozása Hans Peter Luhn nevéhez
fűződik az 1950-es években. Magának a tezaurusznak, mint műfajnak a
gyökerei azonban még messzebbre, az 1850-es évekre nyúlnak vissza,
amikor is Roget skót ideggyógyász létrehoz egy olyan tezauruszt,
melyben az angol nyelv szavait osztályozza oly módon, hogy a nyelv
alapszókincsét osztályokra bontja, kiválasztja az azt leginkább
reprezentáló szavakat és azok között bizonyos kapcsolatokat jelöl.
Felismerte tehát a tezaurusz által nyújtotta azon lehetőséget, miszerint
egy fogalomtól, melyet ismerünk, eljuthatunk egy olyan fogalomhoz,
amit kevésbé.

36
A tezaurusz tehát szókészlet, szótár. De hogy világosabbá váljon,
pontosan milyen szótárról is van szó, vessünk egy pillantást az alábbi
táblázatra, mely a szótár különböző fajtáit vizsgálja:

Szótárak
Kontrollált szótárak
Szólisták
Nyelvi szótárak (információval való manipulációt
(szógyűjtemény)
segíti elő)
Egyes nyelvi Egy épp Subject headings
egységek kialakulóban lévő Tezaurusz
(list)
magyarázatát, speciális Legismertebb a kontrollált
jelentését szakterület általános szótárak
tartalmazza a szakszavait sorolja tárgyszólista az
köztük lévő fel, esetleges legfejlettebb
LCSH (Library of
kapcsolatok magyarázattal, Congress Subject formája
segítségével kapcsolatok jelölése Headings)
nélkül és a
szókiválasztás
irányítása nélkül.
Általában
ideiglenesek, amíg
szakszótárt nem
hoznak létre
belőlük.

Ezek között a szótárfajták között a tárgyszólisták (subject headings) és a


tezaurusz áll egymáshoz a legközelebb, a kettő közötti különbségeket
azonban hangsúlyoznunk kell:
• a subject heading list-ek, mint pl. az LCSH is, tárgykörüket
tekintve univerzálisak, míg a tezauruszok mindig nagyon speciális,
specifikus tárgykörökre vonatkoznak, bár történtek már kísérletek
általános tezaurusz létrehozására, pl.: Ungvári Rudolf köztaurusza;
• messzemenő strukturális különbségek vannak a kettő között;
• rendeltetésük célja különböző, mivel a tezaurusz egy szűk terület
annak terminológiájával való leírására használható, míg a subject
headig list-eket tárgyszavazásra használják, csakúgy, mint egy
egyetemes osztályozási rendszert (pl. ETO);

Az információs tezaurusz legjobb, legteljesebb definícióját annak


komponensei és ezek összeadódása adja:
1. Nyelvi komponens: azt jelenti, hogy a szókiválasztás az adott
nyelv nyelvtani szabályainak megfelelően történik;
2. Szakmai komponens: a szókiválasztás a választott téma vagy
szakterület fogalmi hierarchiájának megfelelően történik;

37
3. Könyvtár-informatikai komponens: ami azt jelenti, hogy
információs tezauruszról csak akkor beszélhetünk, ha az
információ feldolgozásra és információ visszakeresésre
használható;

De mire is jó, mire is használható a tezaurusz? Kérdésünkre a következő


hét pont alapján kaphatunk választ: a tezaurusz tehát
1. az ismeretekhez készített térkép egy adott szakterületen;
2. szabványszókészlet, melyet az indexelők tértől és időtől függetlenül,
egységesen használnak;
3. hivatkozási rendszer a fogalmak tekintetében. Pl.: több szinonima
közül kiválasztjuk azt, amit használni szeretnénk, és tőle utaló vezet
majd a többi szinonimához;
4. biztosítja azt, hogy a felhasználók a helyes kifejezést használják
majd;
5. egy általunk ismert fogalomból kiindulva eljutunk egy újonnan
bevezetett fogalomhoz;
6. flexibilis és hierarchikus rendszer, mely tágabb és szűkebb
fogalmakat egyaránt tartalmaz;
7. van egy olyan jövőbeni elképzelés, miszerint a fogalmak használata
egy, a tezauruszhoz hasonló vagy azzal megegyező szabvány szerint
történik majd helytől függetlenül mindenütt.

A tezaurusz esetében tehát fogalmakról, fogalomkapcsolatokról


beszélünk. De hogy ezeknek a kapcsolatoknak a lényegét megértsük,
először is meg kell ismerkednünk a deszkriptor és non-deszkriptor
fogalmával, vagyis a tezaurusz alapegységeivel:
• deszkriptor: olyan természetes nyelvű lexikai egység, mely egy
adott tudományterület, szakterület fogalmának tükrözésére
szolgál, - az információk szabványos leírására, ill. keresésére
közvetlenül alkalmazható.
• non-deszkriptor: az a lexikai forma, mely ugyanazt a fogalmat
tükrözi, mint a deszkriptor, de az információk szabványos leírására
és keresésére csak közvetve alkalmazhatók.

A deszkriptorok és non-deszkriptorok tehát az egyes fogalmakat


reprezentálják, a köztük lévő kapcsolatok pedig a következőek
lehetnek:
• hierarchikus kapcsolatok: amik a szűkebb és tágabb fogalmak
egymáshoz való viszonyát jelölik. Egyes fogalomcsoportokon belül
lehetnek polihierarchikus, azaz többszintű struktúrák is;
• asszociatív vagyis rokonkapcsolatok: ami azt jelenti, hogy egyes
deszkriptorokról mentálisan asszociálni tudunk;

38
• szemantikai ekvivalencia kapcsolatok: a deszkriptorokat és non-
deszkriptorokat mint szinonimákat- kvázi szinonimákat-
antonímákat kötik össze;
• alkalmazási kapcsolatok: összekapcsolják a deszkriptort a
potenciális alkalmazási lehetőséggel;
• nyelvi ekvivalencia kapcsolatok: összekapcsolják azokat a
deszkriptorokat, melyek ugyanazokat a fogalmakat fejezik ki
különböző nyelveken;

Miután tisztáztuk a deszkriptorok és non-deszkriptorok fogalmát


illetve az azok közötti kapcsolatot, könnyebben megértjük majd a
tezaurusz részeinek felépítését. A tezaurusz részei ugyanis a
következők:
• alfabetikus rész: tezaurusz fő része, szócikkekből áll, melyet
deszkriptorok és non-deszkriptorok építenek fel alfabetikus
besorolással;
• hierarchikus lista: csak deszkriptorokat és azok
alárendeltjeit tartalmazza, a fölé-alárendeltség megértése
szempontjából elengedhetetlen;
• gráfok: a facettás rész alapján alakítjuk ki;
• permutált lista: abban az esetben hozzuk létre, ha olyan
témával foglalkozunk, melyben a deszkriptorok nagy része
két vagy több szóból áll, pl.: didaktikai háromszög
tervezése, és az ezekhez való hozzáférhetőséget egy KWIC-
szerű rendszerrel biztosítjuk

Alfabetikus rész:

Ez a rész a részletes deszkriptor cikkeket tartalmazza


betűrendben. A deszkriptor cikk olyan szótári egység, mely
tartalmazza az adott fogalom jelölésére szolgáló deszkriptort
(vezér deszkriptor) illetve a használatával kapcsolatos
magyarázatokat, a deszkriptor szinonimáit, annak hierarchikus és
asszociatív kapcsolatait. Pl.:

DIAGRAM
UF grafikus ábrázolás
SN két vagy több tényező kölcsönös összefüggését
grafikusan szemléltető ábra
BT ábrázolás technika
NT adatfolyam diagram
dialógusvázlat
döntési fa

39
egyed-történeti diagram
elérési út diagram
eseményhatás diagram
hálódiagram
ISAC gráf
Jackson szerkezet
logikai adatstruktúra
RT struktúrált szervezés módszertan
táblázat
Mint ahogy a példában is láthattuk, különböző relációk jelölésére
különböző rövidítések használatosak:
SN(scope note): megjegyzés a fogalom kiterjedéséről, más szóval
szöveges definíció;

Szinonima relációk jelölése:


UF (USE FOR): egy kifejezés helyett egy másikat használunk;
U (USE)
a szinonima szó itt olyan kifejezésekre utal, melyek jelentése
teljesen vagy csaknem teljesen megegyezik a
deszkriptoréval, de nem használhatjuk sem indexelésre, sem
keresésre. Az U-val (USE) jelölt kifejezések a nem használatos
kifejezések, tehát elutalunk róluk. Az effajta utalást többféle
esetben alkalmazhatjuk:
• két szinonima esetén, pl.: eb U kutya
• speciálisról általánosra vagy általánosról speciálisra való
utalás esetén;
• bizonyos rövidítések esetén, pl.: EGK U EU
• kvázi szinonima esetén, ami nem azonos jelentésű szóra
utal, hanem olyan szóra, melyet csak az indexelés
szempontjából tekintünk szinonimának, pl.:
dokumentumok U szövegek
• invertált kapcsolatoknál, pl.: irodalom, magyar U
magyar irodalom
• beszélt nyelvről vagy szlengről hivatalos nyelvre;
• idegen nyelvű szavak esetén, pl.: byte, giga;

Az UF és az SN sorrendje felcserélhető, de a többi reláció


sorrendje kötött.

Hierarchia relációk és jelölésük:


BT (Broader Term): az általa jelölt fogalom az adott deszkriptorhoz
képest magasabb rendű, átfogóbb jelentésű, tágabb fogalom;

40
NT (Narrower Term): az adott deszkriptorhoz képest alacsonyabb
rendű, szűkebb jelentésű fogalmat jelöli;

A kettő egymással fordított kapcsolatban áll. Ez bizonyos fordítási


szabályok bevezetését vonja maga után, melynek alapja az a
megkötés, hogy mindennek, ami egy facettán belül megjelenik,
deszkriptorként is szerepelnie kell (az UF-et és az SN-t kivéve):
• ha a BT megjelenik deszkriptorként, akkor annak az eredeti
deszkriptor az NT-je lesz;
• ha az NT deszkriptorként jelenik meg, akkor annak az
eredeti deszkriptor a BT-je lesz;
Mivel mind a BT-ből, mind az NT-ből lehet több is, ezért
felmerülhet a polihierarchia lehetősége, mely mindig csak az
egyiknél valósulhat meg:

BT NT
BT1 NT1
BT2 NT2
BT3 NT
3

RT (Related Term): ezek a fogalmak nincsenek alá-fölérendeltségi


viszonyban a vezérdeszkriptorral, ugyanakkor jelentésük köre
érintkezik vele, vagy részben fedi azt, esetleg ellentétpárja annak.
Az RT vagy asszociatív kapcsolatok különbözőek lehetnek:

1. különböző objektumok és azok használata közötti kapcsolat,


pl.:
Katalóguscédula RT besorolás
2. ok-okozat összefüggés, pl.: síkosság RT lábtörés
3. valamilyen tárgy vagy objektum, ill. annak tulajdonsága, pl.:
gumi RT elaszticitás
4. nyersanyag vagy gyártott termék, ill. gyártásának helye, pl.:
gördülő csapágy RT Göcs
5. kölcsönös összefüggések esete, pl.: tanítás RT egyetemi
előadás
6. ellentétes fogalmak elve, pl.: élet RT halál
7. valamely cselekvés és ami azt okozza, pl.: dohányzás RT
cigaretta
8. valamely cselekvés és annak egy tulajdonsága, pl.: dohányzás
RT dohányfüst

41
9. valamely cselekvés és annak eredménye, pl.: horgolás RT
pulóver
10. valamely objektum és annak része, pl.: repülőgépek RT
propeller

Az RT kapcsolatok megállapítására három módszert használhatunk:


1. megnézzük azokat a lehetőségeket, melyek alapján az RT-t
megállapítjuk, pl.: ok-okozati viszonyról van-e szó, stb.;
2. a deszkriptor és az RT között szintén inverz (szimmetria)
kapcsolat van, tehát az esetek 80 %- ában ha az RT-ből
deszkriptor lesz, az eredeti deszkriptorból RT. Persze ez nem
mindig van így, ellenőrzésére minőségi összevetést kell
végeznünk;
3. sok esetben több NT is előfordul egy szócikken belül, amikor
ezek közül egyet deszkriptor helyzetbe teszünk, akkor
megvizsgálhatjuk, hogy a többi NT közül melyik lehet az új
facettában RT;

Mivel manapság a tezauruszokat számítógépes szoftverekkel állítják


elő, szükség van deszkriptor kapcsolatok algebrai leírására is. Mint
ahogy azt már korábban tárgyaltuk, öt féle kapcsolatot
különböztetünk meg az egyes terminológiák között:
1. preferenciakapcsolatok
2. hierarchikus kapcsotok
3. asszociációs kapcsolatok
az 1. és 2. kapcsolattípusnak reciprokai
4.
5.

Ha ezt ábrával szeretnénk kifejezni, a következőket kapjuk:

1. USE recip 4.
UF
2. BT recip 5.
NT
3. RT

Mindezeket kissé bővebben kifejtve a tezauruszban lévő kapcsolatok


a következőképp alakulnak, beleértve a szimmetria, reflexivitás és
tranzitivitást is.
1. Preferenciakapcsolatok:
T1 USE T2, ahol T a terminológiát jelenti, T1 nem elfogadott
terminológia, a felhasználót a T2-re irányítja. Ez a

42
kapcsolat nem reflexív (mert nincs olyan, hogy T USE T);
aszimmetrikus (mert T1 USE T2 = T2USE T1); intranzitív
(mert T1 USE T2, T2 USE T3 = T1 USE T3);
T2 UF T1, mely az előzőnek reciproka és ahol T1 szintén nem
elfogadott terminológia, helyette a T2-t kell használni,
tehát
T2 UF T1 T1 USE T2

2. Hierarchia kapcsolatok:
T1 BT T2, ahol T1 hierarchikusan magasabb kapcsolata a T2 lesz.
Ez a kapcsolat nem reflexív, aszimmetrikus és intranzitív;
T2 NT T1, mely az előzőnek reciproka, és ahol T2 terminológia
hierarchikusan alacsonyabb kapcsolata a T1, tehát
T2 NT T1 T1 BT T2

3. Asszociatív kapcsolatok:
T1 RT T2, ahol T1 asszociatív lesz T2-vel. Ez a kapcsolat nem
reflexív, szimmetrikus (mert T1 RT T2 = T2 RT T1) és
tranzitív (mert ha T1 RT T2 és T2 RT T3 , akkor T1 RT T3);
A kontrollált nyelvek esetében mindenképp beszélnünk kell az
egyes- és többes szám, valamint a szinonimák és polysemia okozta
nehézségekről.
Egyes- és többes szám problémája:

Szófajta Egyes szám Többes szám


ha nagyon speciális ha generikus, átfogó,
anyagnevek (fizika,
terület pl. pl.:
kémia
szénmonoxid fémek, nemesfémek
speciális esetekben,
tulajdonságok, ritkán, csak ha
pl.: hőmérséklet,
sajátosságok generikus
hőfok
mindig, pl.:
technikai eszközök, nem lehet egyes
számítógépek,
készülékek, részek számot használni
röntgenkészülékek
folyamatokat jelölő pl.: építkezés,
nincs
sz. gyártás
nevek mindig sosem használatos
eseményeket, mindig,
nem lehet egyes
történéseket jelölő pl.: háborúk,
számot használni
szavak tüntetések

Szinonimák:
A szinonimák szerkesztésekor fellépő esetek:

43
1. U, UF két oldala között a kifejezések értelme szerint teljes
megegyezés van:
• helyesírási különbség van a két írásmód között, pl.:
Debrecen -- Dereczen
• vagy rövidítésről vagy „becenévről” van szó, pl.: zsaru –
rendőr vagy EU – Európai Unió
2. a jelentés azonos, a forma különböző
• hivatalos és beszélt nyelv közötti különbség
• tájnyelv vagy dialektus
3. ugyanazt a használatot tételezi fel a két forma, pl.: Amerika
– USA, Észak-Amerika
4. hasonló jelentése van a két kifejezésnek, pl.: köztársaság –
népköztársaság
5. ellentmondásos kifejezések, pl.: fémek – nem fémek
6. előfordulhat, hogy az egyes szinonimák között hierarchikus
kapcsolat van, pl.: lexikonok, kézikönyvek
Polysemia („többjelentésűség”) problémája:

Paripa Ló

állat
torn
aszer

Homályosság problémája:
Hírek

Hír
Híranya ek 19:30-as TV
g híradó

44
KWIC és KWOC indexelés
Mint ahogy azt már korábban is említettük, a KWIC és KWOC indexelési
technikák címre alapozott megközelítésűek, ami azt jelenti, hogy
vannak kifejező címek.

KWIC (Key Word In Context):


Ebben az indexben, mint ahogy a neve is mutatja, a kulcsszavak a
címbeli környezetükben jelennek meg. Az első lépés a releváns
kulcsszavak kiválasztása. Természetesen itt egy olyan címre van
szükség, mely kifejezi az adott dokumentum lényegét, vagyis
tartalmazza az adott terület terminológiáját. Ilyen dokumentumok
általában a természet- és alkalmazott- valamint a
társadalomtudományok területén jelennek meg, a humán
tudományterületeken sok a metaforikus cím.
A kulcsszavak kiválasztásánál segítségünkre van egy ún. stoplista, mely
a keresésre alkalmatlan (vagyis elöljárók, kötőszavak, nem releváns)
kifejezéseket a számítógép segítségével kiszűri és csak a többi,
megmaradt szót tekinti kulcsszónak.
Következő lépésként a számítógép rotálja a címet. Minden egyes
kulcsszó, a rotáció elvét követve, egyszer az élre kerül a vezérkifejezés
pozíciójába. Végül a gép a rotált sorokat kifejezéseik betűrendjébe
sorolja:

Rotáció A B C D E
A B C D E
A B C D E
A B C D E
A B C D E

Mindezeket egy konkrét példán szemléltetve a következő indexet


kapjuk:
A cím, amit rotálni fogunk: Cost and planning as factors in
automating the catalog (Költség és tervezés, mint tényező a
katalógus automatizálásában)

planning as factors in automating the catalog / Cost and


AC 2002
automating the catalog cost and planning as factors in
AC 2002

45
in automating the catalog / cost and planning as factors
AC 2002
the catalog / cost and planning as factors in automating
AC 2002

Ebben az esetben nincs jelentősége az alfabetikus rendezésnek, hiszen


csak egy címről van szó. A sorok végén a dokumentum azonosításához
szükséges alfanumerikus vagy egyéb kódok találhatóak.
Ebből a példából is láthatjuk, hogy a KWIC egy egysoros index, az egy
címhez tartozó kifejezések nem kerülhetnek különböző sorokba.

KWOC (KeyWord Out of Context):


Mint ahogy a neve is mutatja, ez az indexelési módszer a kulcsszót a
szövegkörnyezeten kívülre helyezi. Az indexben a tételek a kiemelt
kulcsszavak betűrendjében találhatóak. pl.:
automatin Cost and planning as factors in automating the
g catalog AC 2002
catalog Cost and planning as factors in automating the
catalog AC 2002
cost Cost and planning as factors in automating the
catalog AC 2002
planning Cost and planning as factors in automating the
catalog AC 2002

A KWOC hátránya, hogy sok esetben egyes többtagú szakkifejezéseket,


melyeknek csak együtt van értelmük, szétválasztja, szétszórja.

Mindkét indexelési módszer eredetileg angol nyelvre lett kitalálva, de a


KWIC bármely nyelven használható, ugyanis nem zavarja a ragozott
alak a keresőoszlopban, ami az erősen ragozott magyar nyelv esetében
nem elhanyagolandó szempont. A KWOC használata a magyar nyelvben
további erőfeszítéseket igényelne a ragozás áthidalásához, ami pedig
elrontaná az automatizált jelleget.
A KWIC módszert többnyelvű indexek esetében is alkalmazzák.

Referátum

A referátum szó „valamely kérdés lényegének kifejtését” jelenti. És


valóban, a referátum, bár mint módszer az indexeléshez tartozik,
nemcsak kifejezéseket tartalmaz és az azok közötti kapcsolatot, hanem
az adott szakterület terminológiáját szöveges formában. Természetesen
nem mindegy, hogy az adott terminológiát hogyan közli, készítésének
vannak bizonyos szabályai, melyeket a későbbiekben tárgyalunk.

46
Bár az információ visszakeresés problémáját az információs quantum
állandó növelése nem oldja meg, állandóan törekszünk az információ
visszakeresés megkönnyítésére, hiszen kognitív szempontból meg
kell különböztetnünk azokat a felhasználókat, akik jobban képesek
absztrakt gondolkodásra, és akiknek nem jelent gondot a
terminológia megtalálása és értelmezése egy indexben azoktól, akik
kevésbé alkalmasak absztrakt gondolkodásra. Hosszuktól és
fajtájuktól függően a referátumok különbözőek lehetnek:

• annotáció: rövid tartalmi ismertető vagy ajánló, formája:


abstract/ summary /Zusammenfassung.

• szinopszis: hosszabb terjedelmű annotáció;


• szurrogátum: helyettesítő funkciót lát el, az eredeti
dokumentumot pótló produktum. Jelenthet annotációt,
rendezhető adatbázisba, katalógusba;
Típusuk szerint az annotációk kétfélék lehetnek:

 indikatív: röviden utal, pl. kibővített cím;


 informatív: tartalmi, de nem kritikai;

A referátumokat orientáltságuk szerint is csoportosíthatjuk.


• diszciplinára (tudományterületre) orientált
• probléma orientált, pl: building science abstract
• sarkított, ami a probléma orientált abstract egyik formája

A referátumok szerepe igen nagy, mindig összekapcsolódnak (pl.


bibliográfiai adatokkal), így felhasználhatók témafigyelésnél,
megspórolja a felhasználó idejét, bizonyos nyelvi nehézségek
hidalhatók át segítségükkel, egyszóval megkönnyítik az információ
keresést. Éppen ezért nem mindegy, hogy hogyan készül el egy
referátum, annak bizonyos formai és tartalmi feltételeknek kell
megfelelnie:

Tartalmi feltételek Formai feltételek


1. meg kell néznünk, hogy miről 1. rövid, pontos, világos
készül a referátum, megfogalmazás
informatívnak vagy
indikatívnak kell-e lennie
2. célok, okok, módszerek, 2. szerzői terminológia
eredmények, konklúziók használata, az eredeti írói
szerepeltetése információs sorrend megtartása

47
3. vannak speciális 3. a szerzői mondanivalót kell
szakterületek, melyek sajátos tükrözni, de nem
felépítésre tartanak igényt szerepelhetnek benne a szerző
spekulációi, sem ismert tények
4.nem tartalmazhatja az egyes
részek részletesebb leírását más
részek rovására
5.nyelvtani, szintaktikai
szabályok:
• indikatív. cselekvő mód,
múlt idő
• informatív: szenvedő
szerkezet, jelen idő

Persze az sem utolsó szempont, hogy ki készíti a referátumot:


• maga a szerző
• a szakterület specialistája (minőségi szakfolyóiratoknál
ez a legjobb megoldás)
• olyan személy, akinek kifejezetten ez a szakmája
• kiadó, melynek elképzelései szintén meghatározhatják a
referátum milyenségét

A referátum készítés folyamata:


Ezt a folyamatot leginkább az alábbi táblázatban foglalt humán
absztraktáló folyamattal tudnánk leírni a legjobban, melynek
természetesen előfeltétele az adott témakör legalább minimális
szinten való ismerete:

fázisok, lépések technikák eredmények


1. fókuszolás anyag formájának, abstract típusának,
tartalmának relatív hosszának,
osztályozása nehézségi fokának
(ez többszöri átolvasást meghatározása
igényel)
2. releváns információ nyomjelző, reprezentatív
azonosítása funkciószavak mennyiségű releváns
meghatározása, információ kivonatolva
kiterjesztése az eredetiből
3. releváns információ megszervezzük, tömör, de még nem
kivonatolása, abstractba sűrítjük, végleges formájú
szervezése, standard formára abstract
méretre igazítása hozzuk a releváns létrejötte
információkat
(kerülnünk kell a
frázisokat,

48
töltelékszavakat és
saját véleményünk
kinyilvánítását(ha van
saját vélemény: review),
az eredeti szöveg saját
véleményünk szerinti
megváltoztatását)
4. releváns információ revízió (az író vagy egy jó informatív vagy
finomítása szakértő leellenőrzi) indikatív abstract
létrejötte

A referálás minőségi kritériumai pedig a következők:


• teljesség: minden lényeges tartalmi elemet tartalmaznia kell a
műből
• pontosság
• objektivitás: az informatív referátum ne értékeljen
• rövidség: kerülni kell a felesleges szófordulatokat, egyértelmű és
a szakterületen belüli általános rövidítéseket kell használni.
Grafikus ábrázolásokat is lehet alkalmazni
• érthetőség: általánosan ismert szakkifejezéseket, nemzetközileg
elfogadott jelöléseket, szimbólumokat, rövidítéseket kell
használni
• stílusát tekintve: kerülni kell a „távirati” stílust

Könyv-, folyóirat- és újság indexelés

Először is azt kell tisztáznunk, hogy mit értünk könyv, folyóirat és újság
alatt:
• könyv: monográfia, egyszeri, egyedi munka, ami lehet akár egy
kutatási jelentés is;
• folyóirat: szakfolyóiratot értünk alatta, pl.: Könyvtári Figyelő,
TMT;
• újság: ez alatt a kiemelkedő színvonalú országos napilapokat
értjük (legyen szó bármely országról), pl.: Népszabadság, Magyar
Nemzet;

Közülük mindegyiket hasonló gondolkodásmóddal kell indexelni, hiszen


mindhárom esetében az index funkciója és célja ugyanaz, mégpedig a
felhasználó szempontjából potenciálisan releváns információk
azonosítása és lokalizálása. Mindezek feltétele:
• különbségtétel az egy témára vonatkozó tényleges információ és
a téma futólagos említése, érintése között;

49
• az egy témához tartozó információk csoportosítása, pl.: utalók
segítségével;
• mindezekből egy szisztematikus, áttekinthető rendszer kiépítése;

Ez a struktúra az egyes indextételek esetében hasonló. Különbség ott


jelentkezik, hogy a folyóirat- és újságindexelés esetében vannak
bizonyos kötöttségek, pl: folyóirat számozás, hasábok.
De mi is az, amit indexelünk az egyes dokumentumtípusok
esetében? Vegyük csak őket sorjában:
Könyv: ebben az esetben minden lehetséges dolgot indexelünk, pl.:
függelék, előszó, szöveg közti ábra, jegyzetek, lábjegyzetek,
irodalomjegyzék, tartalomjegyzék, fényképek, stb.;
Folyóiratok: itt már történik némi válogatás:
• amit nem indexelünk: reklám, közlemény (pl.: kongresszusokról);
• amit indexelünk: szerkesztői vélemények, olvasói levelek,
szakpublikációk, nekrológok, recenziók;
Napilapok: erős válogatás történik:
• amit nem indexelünk: hirdetés, keresztrejtvény, sport, színes
mellékletek;
• amit indexelünk: kül- és belpolitikai, gazdasági és kultúrára
vonatkozó részeket, ill. ezeken belül is történnek válogatások;

A létrejövő indexek típusai a következők lehetnek:


1. Egy bizonyos könyv indexe: ez nem más, mint egy szakkönyv
tematikai szempontból történő feldolgozása, ahol természetesen a
főszöveg lesz majd lényeges. A létrejövő index egy önálló, zárt
egységhez tartozó index lesz, melynek hűnek kell lennie a szerzői
terminológiához. Hosszát általában a kiadók határozzák meg.
2. Egy bizonyos folyóirat indexelése: pl. a Könyvtári Figyelő 1.
évfolyamának indexe. Ebben az esetben miután megállapítunk egy
tárgyszót, azt kiegészítjük hivatkozásokkal, lokátorokkal, amik
lehetnek oldalszámok, évfolyamjelölések. A cikkek nyelvezetére
különös figyelmet kell szentelnünk, terminológiát be lehet ugyan
hozni, de csak utalásként.
3. Egy bizonyos területre vonatkozó folyóiratok indexe: ebben az
esetben minden lokátorban szerepelnie kell az adott folyóirat
megnevezésének, évfolyamának és az oldalszámnak.
4. Egy bizonyos újság indexe: ebben az esetben egy teljes évfolyam
minden számát indexeljük. Néhol a hasábokat és a mellékleteket is
jelölni kell a lokátorokban.
5. Több újság indexe: ilyenkor nem használunk szakterminológiát, a
nyelvezetet az általános beszélt nyelvhez igazítjuk. Magyarországon

50
ez nem igazán jellemző, főleg a Skandináv országokban képezik
különböző újságadatbázisok részét.

Az indexelési munka menete:


Könyv indexelés:
1. létrehozzuk annak a struktúrának a vázát, melyben az indexelési
tétel megjelenik majd. Ehhez meghatározzuk az egyes fő
tárgyszavakat és altárgyszavakat, majd azokat egy egységes,
tematikus majd alfabetikus rendbe soroljuk.
Először azonban tisztáznunk kell az egyszerű- és összetett rendszó
közötti különbségeket:
• egyszerű rendszó: egy szóból áll
• összetett rendszó: különböző szóösszetételeket jelenít meg,
ami állhat két vagy több részből. A két részből álló összetett
rendszó is többféle lehet:
 a két rész közös asszociációt fejez ki, pl: Magyarország és
az EU;
 az első tag fogalomkörének kiterjesztésével fejez ki
valamit, pl.: nyelvészet és informatika;
 az egész tétel az első rész véleményét fejezi ki a
másodikról, pl.: Habsburg Ottó és az OMM;

Azt sem árt tisztázni, hogy mik lehetnek fő tárgyszavak és milyen


az egyes rendszavak besorolása:

• személynevek, pl.: Shakespeare, William


• pápák, szentek uralkodók nevei, pl.: Benedek, XVI., pápa
invertált f.
• földrajzi nevek, pl.: Vietnam, Dél
• intézmények
Ha a nevek megegyeznek, de a hosszuk különböző, a besorolás a
következőképp történik:
Smith, K.
Smith, H. K.
Smith, Hugh Jack
Ha ugyanaz a karaktersorozat különböző dolgokra vonatkozik,
sorrendet kell felállítani aszerint, hogy személynévről, földrajzi
névről, tárgyszóról vagy címről van-e szó:
1. Személy: London, Jack
2. Földrajzi név: London (Anglia)
3. Tárgyszó: London népessége
4. Cím: London, History of

51
A használt írésjelek pedig a következők:
,  invertálás
;  az egyes tételek elválasztása
!  figyelem felhívás, pl: sic!
:
. használatuk nem jellemző
?
!
A személynevek esetében fontos megjegyeznünk, hogy csak akkor
szerepelhet fő tárgyszóként, ha róla szól a mű, altárgyszóként,
másodlagos altárgyszóként, harmadlagos altárgyszóként viszont
felhasználható.

Miután meghatároztuk az egyes tárgyszavak, létrehozunk egy


struktúrát, melyet az egyes fő- és altárgyszavak alkotnak majd. Az
altárgyszavak a főtárgyszavak alá lesznek besorolva, a kettő
sorrendjét nem lehet felcserélni. Ha az egyes altárgyszó kiemelt
jelentőségű, utalót kell készítenünk. Maguknak a tárgyszavaknak a
megadása a szemantikai szintet képviseli, az azok közötti kapcsolat
pedig a szintaktikai szintet, amikor is összeolvassuk ezeket a
kifejezéseket. A kettős indexelés szerint van egy főtárgyszavunk és
egy altárgyszavunk, amihez hozzárendeljük a lokátorokat:

kiállítások
iparfejlesztés
25

Létezik azonban hármas indexelés is:

kiállítások 148, 109


ipari ~ 25,
41

képzőművészeti~ 119

2. a használt kifejezéseket megállapítjuk, szervezzük a szókészletet


3. hivatkozási rendszert hozunk a létre az utalók hozzáadásával, ahol:
lásd  szinonimák csoportosítására használható
lásd még => indextételek összekapcsolására használható, pl.:

kiállítások
mezőgazdasági~
25

52
mezőgazdasági kiállítások  kiállítások

Folyóirat indexelés:
A folyóiratok esetében három lehetőség közül választhatunk:
1. formális indexelés:
2. tematikus indexelés: itt nem érdekes a forma, a megfelelő tárgyszó
alá sorolunk be
3. a kettő kombinációja, amikor is egy egységes tárgyi indexet hozunk
létre:
N = nekrológ
R= recenzió
Sz= szerzői pl.:
L= levelek szénhidrátok 25,44,205,224
(L)
Újság indexelés:
Itt kiemelt jelentőségük van a napilapokban szereplő képeknek,
fotóknak. Az olyan cikkek esetén, amelyekhez valamilyen illusztráció
tartozik, mindenképpen fel kell tüntetni az illusztráltságot. Pl.:
szépségápolás 224 (i)
Az olyan illusztrációk esetén, amelyek nem tartoznak egyetlen cikkhez
sem, nekünk kell tárgyszót párosítani hozzá és indexelni.

Végül, de nem utolsó sorban tekintsük át a nem kontrollált


természetes nyelveket és a kontrollált nyelveket azok előnyeinek és
hátrányainak felsorolásával:

Természetes nyelvek
Előnyei:
• magas specifikusságot ad, nagyon jó egyedi terminológia (nevek,
személynevek) visszakeresésénél;
• magas a visszahívási arány
• kurrens, tehát az új terminológiák azonnal hozzáférhetőek
• szerzői terminológia esetén nincs félreértés az indexelő részéről
• az indexelő vagy kereső természetes nyelvi szavakat használhat
• alacsonyak az input költségek
• adatbázisok közti könnyű adatcsere biztosítva van, nem áll fenn
a nyelvi inkompatibilitás lehetősége
Hátrányai:
• az intellektuális erőfeszítés terhe a keresőre nehezedik

53
• szintaktikai problémák keletkezhetnek, a helytelen terminológiai
asszociációk miatt a hamis találatok veszélye megnő
• az alaposság pontossági veszteséghez vezethet

Kontrollált nyelvek
Előnyei:
• megkönnyíti a keresést azáltal, hogy kontrollálja a szinonimákat,
magyarázza a homográfokat, SN-ek formájában magyarázatot ad
• szélesebb- szűkebb és asszociatív fogalmakat ad
• képes kifejezni szabad szövegben nehezen kifejezhető
terminológiákat
• szintaktikai problémákat old meg, pl.: hierarchikus rendezéssel
• normál indexelési szinten elkerüli a precíziós veszteséget, pl.
azzal, hogy túlteljesíti az alaposságot
• numerikus, multilingvális rendszerekben ezek használata előny
Hátrányai:
• specifikusság hiánya
• alaposság hiánya
• nem azonnal kurrens
• szerzői terminológia ki van téve hibás interpretációknak, ami
információ veszteséget eredményez
• a keresőnek meg kell tanulnia egy mesterséges nyelvet
• magasabbak az input költségek
• egyes rendszerek között inkompatibilitás keletkezhet, nem
egyszerű az adatbázisok közötti adatcsere

54
55