1

CAP.7. BAZA DE DATE -
RESURSA ELECTRONICA DE INFORMARE
Curs:
Tehnologia informatiei
în cercetare
Mat. Gabriela MAILAT
Prof.dr.ing. Elena HELEREA
2
CUPRINS
Baze de date. Definitie. Clasificare
Modalitäti de acces în bazele de date çtiintifice
Sisteme de regäsire a informatiei
Exemple de sisteme de regäsire a informatiei
Sistemul de regäsire a informatiei: Operatiile de stocare çi
regäsire
Indexarea documentelor
Standardizare çi sisteme
Afiçarea rezultatelor
Linii directoare pentru afiçaj
3
Baze de date. Definiie. Clasificare
Baza de date este unul dintre instrumentele
fundamentale utilizat pentru organizarea
informatiei. Baza de date reprezintä o
colectie de date organizate pentru a facilita
cäutarea çi regäsirea rapidä prin intermediul
calculatorului.
4
Reprezintä structuri pe care sunt construite
majoritatea sistemelor informatice.
Bazele de date sunt structurate astfel încât
sä faciliteze stocarea, regäsirea, modificarea
çi çtergerea datelor în concordantä cu diferite
operatii de procesare a datelor.
Baze de date. Definiie. Clasificare
5
O baz de date reprezintä o serie de înregisträri,
fiecare dintre acestea fiind o entitate specificä, toate
construite în acelaçi mod (cu atribute comune) çi
interconectate.
Înregistrrile sunt componentele elementare ale
unei baze de date çi pot contine informatii numerice,
text sau reprezentäri grafice.
O înregistrare cuprinde câmpuri de date sau
elemente de date (numele autorului, titlu etc.) care
descriu principalele atribute ale unei entitäti.
Baze de date. Definiie. Clasificare
6
Bazele de date pot fi stocate pe diferite suporturi,
offline sau online çi pot fi accesate prin intermediul
retelelor de informare locale, la distantä sau prin
Internet.
Patru criterii importante caracterizeazä calitatea
unei baze de date:
– volumul informatiei çi acoperirea domeniilor de interes
çtiintific,
– facilitätile de interogare,
– timpii de acces,
– grafica ecranului.
Baze de date. Definiie. Clasificare
7
În procesul de prelucrare çi de regäsire a
informatiilor o bazä de date poate fi folositä pentru:
– generarea de indexuri tipärite;
– realizarea de cercetäri retrospective;
– realizarea bibliografiilor;
– diseminarea selectivä a informatiei.
Baze de date. Definiie. Clasificare
8
O cercetare retrospectiv (cercetare la comandä)
se realizeazä într-un corp de literaturä retrospectivä
pentru a gäsi titluri privind un subiect general sau
specific, la cererea utilizatorului.
Un serviciu curent de diseminare selectiv a
informaiei are în vedere numai literatura publicatä
recent.
Baze de date. Definiie. Clasificare
9
În serviciul de diseminare selectivä a
informatiei, interesul utilizatorului pentru un
subiect este convertit în strategie de cäutare,
numitä în mod frecvent profilul utilizatorului.
Acest profil se pästreazä într-un fiçier care se
completeazä pe mäsurä ce apar date
suplimentare.
Baze de date. Definiie. Clasificare
10
Pornind de la structura lor, bazele de date pot fi
clasificate în:
– baze de date ierarhizate çi
– baze de date relaionale.
Baze de date. Definiie. Clasificare
11
Bazele de date ierarhizate utilizeazä în mod
traditional structura arborescentä pentru retinerea
informatiei. Ele constau dintr-un fiçier format din mai
multe înregisträri, care la rândul lor sunt constituite
din numeroase câmpuri de date. Aceste baze de
date sunt mai degrabä inflexibile çi folosesc mult
spatiu întrucât datele sunt adesea repetitive.
Baze de date. Definiie. Clasificare
12
Baze de date relaionale permit divizarea
înregisträrilor în mai multe pärti care sunt pästrate în
diferite fiçiere. Aceste pärti sunt legate între ele
pentru a forma înregisträri individuale. Fiecare
informatie individualä este stocatä într-un singur loc
dar ea poate fi utilizatä în mai multe înregisträri. De
ex. numele unui autor poate fi stocat într-un fiçier
pentru nume, dar fiecare înregistrare a fiecärei
lucräri a respectivului autor este afiçatä împreunä cu
numele autorului pe ecran.
Baze de date. Definiie. Clasificare
13
Bazele de date îndeplinesc numeroase functiuni:
pot pästra date administrative, colectii de imagini sau
date numerice brute;
pot fi depozite de articole cu text integral;
pot tine evidenta inventarului çi a împrumuturilor.
Dupä funcia îndeplinitä, bazele de date çtiintifice
pot fi împärtite în douä categorii:
1. Baze de date bibliografice (de referintä)
2. Baze de date tip sursä.
Baze de date. Definiie. Clasificare
14
1. Primele (bibliografice) contin:
• informatii despre literatura originalä,
adicä date bibliografice çi suplimentare
referitoare la cärti, articole din periodice,
documente guvernamentale, rapoarte,
lucräri de la conferinte, dizertatii, brevete.
Baze de date. Definiie. Clasificare
15
• date bibliografice (autor, titlu etc.),
clasificäri, cuvinte cheie, precum çi alte
informatii suplimentare pertinente çi o
scurtä descriere a continutului publicatiilor.
Baze de date. Definiie. Clasificare
16
În cadrul acestor baze de date bibliografice existä
legäturi (link-uri) sau trimiteri (pointer) spre surse
care se aflä în afara respectivei baze de date. De
exemplu, indexul unei reviste (periodic) contine
informatii despre locatia çi continutul unor articole
(lucräri çtiintifice) care sunt stocate în altä parte.
Baze de date. Definiie. Clasificare
17
Una dintre cele mai cunoscute baze de date de
acest tip este METADEX, pentru domeniul çtiintei
materialelor, care poate fi accesatä prin Internet la
pagina WEB a retelelor DIALOG sau STN, cele mai
mari retele de informare online din domeniul çtiintific.
Baze de date. Definiie. Clasificare
18
2. Bazele de date tip sursä pot fi:
a. full-text – care contin textul integral sau
fragmente din documente, ca: articole, cärti,
poeme, eseuri;
b. numerice – care furnizeazä statistici, date
financiare, rezultate ale diverselor studii,
proprietäti fizice sau chimice ale substantelor.
Baze de date. Definiie. Clasificare
19
Exemplu de bazä de date numericä în domeniul
atomic çi molecular
i. AMDIS (Atomic and Molecular Data Interactive
System) http://dpc.nifs.ac.jp/amdata/amdis.html
În cadrul bazei de date AMDIS, sectiunile
transversale teoretice çi experimentale (obtinute cu
tehnici de fascicul) pentru procesele de excitare çi
ionizare ale atomilor, ionilor çi a unor molecule prin
impact electronic sunt stocate împreunä cu
referintele.
Baze de date. Definiie. Clasificare
20
ii. CHART (Charge Transfer between Atoms and Ions)
http://dpc.nifs.ac.jp/amdata/chartlist.html
Sectiunea transversalä experimentalä pentru transferul
de sarcinä al ionilor în coliziune cu tinte de hidrogen
atomic çi molecular sunt stocate împreunä cu
referintele.
Baze de date. Definiie. Clasificare
21
c. hibride (mixte) – furnizeazä diverse tipuri de
înregisträri reprezentând o combinatie între bazele de
date full-text çi cele numerice;
d. faptice – spre deosebire de cele bibliografice contin
informatia primarä.
În Germania, GENESIS-Online este o valoroasä bazä
de date care oferä date statistice.
https://www-genesis.destatis.de/genesis/online/logon
Baze de date. Definiie. Clasificare
22
Alt exemplu îl constituie EUROSTAT, care oferä date
statistice privind Comunitatea Europeanä.
http://www.esds.ac.uk/international/support/user_gui
des/eurostat/cronos.asp
http://epp.eurostat.ec.europa.eu/portal/page/portal/e
urostat/home/
Baze de date. Definiie. Clasificare
23
e. pentru brevete
Aproape jumätate din cererile de brevetare din
lume sunt respinse de cätre birourile de brevetare
deoarece conceptul presupusei inventii nu mai este
nou.
Pentru a evita riscul unei investitii de milioane în
cercetare çi dezvoltare, trebuie mai întâi consultatä
o astfel de bazä de date care contine brevetele
existente pânä la acea datä.
Baze de date. Definiie. Clasificare
24
f. pentru rapoarte i proiecte de cercetare etc. –
furnizeazä informatii asupra proiectelor de
cercetare çi dezvoltare. Un exemplu este NTIS
(National Technical Information Service)
http://www.ntis.gov/.
Cäutarea se efectueazä în baza de date NTIS
http://www.ntis.gov/products/ntrl.aspx.
Baze de date. Definiie. Clasificare
25
Modaliti de acces în
bazele de date tiinifice
Accesul la informatiile continute se poate face prin
intermediul producätorului bazei de date sau prin
distribuitorii de servicii online. Pentru fiecare
calculator conectat, distribuitorul de servicii online
atribuie un cont, identificat prin nume çi o parolä
care asigurä confidentialitatea accesului la cont.
26
Modaliti de acces în bazele de date tiinifice
Contul se aflä localizat pe un calculator host
(gazdä) situat în Centrul Informatic çi se gäseçte
la operator. Calculatorul host asigurä (prin
produsele soft implementate çi canalele de
comunicatie la care este conectat) toate
activitätile în retea ale utilizatorului, inclusiv
protocoalele Internet.
27
Accesul la bazele de date prin reele automatizate
Figura reprezintä schema de principiu a modului de acces la
baze de date prin retele de informare online.
28
Sisteme de regsire a informaiei
În cele ce urmeazä se vor defini acele elemente care
sä-i familiarizeze pe potentialii utilizatori cu
terminologia çi conceptele de bazä ale procesului de
regäsire a informatiei. Din cele prezentate în
continuare va rezulta cä regsirea informaiei nu
implicä numai procese specifice sistemului ci, mai
mult, procese care includ chiar utilizatorul.
29
Sistem de regsire a informaiei
Fiecare sistem de regäsire a informatiei asigurä
accesul la un set de documente. Un document
reprezintä un obiect care este regäsit de un sistem
de regäsire a informatiei. Acesta poate consta din
continutul complet al informatiei cerute, în care caz
este considerat un document full-text, de exemplu o
paginä WEB sau un articol din revistä.
30
Sistem de regsire a informaiei
În cadrul sistemelor de regäsire a informatiei
bibliografice, adeseori documentul full-text nu
este disponibil, astfel încât se utilizeazä un
rezumat numit document surogat (condensat)
care este stocat în locul documentului full-text.
Acesta cuprinde date cu rol de identificare cum
ar fi informatii asupra citärilor bibliografice çi
rezumate care ajutä la identificarea
documentului.
31
Sistem de regsire a informaiei
Documentele pot fi de lungimi diferite, de
exemplu de la scurte pasaje de text pânä la
opere monografice complete, sau pot avea alte
formate media cum ar fi imagini video sau
sunete.
32
Sistem de regsire a informaiei
Existä douä metode de cäutare:
i. interogarea çi
ii. baleierea informatiei, ambele putând fi în
continuare subdivizate.
i. Interogarea poate fi:
a. identificarea (punerea în corespondentä) pe
bazä de frazä sau
b. identificarea prin cuvinte cheie.
33
Sistem de regsire a informaiei
Identificarea pe bazä de frazä constä în potrivirea
unui çir format din caractere de cäutare cu textul
exact din înregisträrile aflate în sistem (sau, mai
precis, cu indecçii generati de sistem). Acest tip de
interogare solicitä cuvintelor din çir sä se regäseascä
în aceeaçi ordine ca în interogarea de cäutare. Nu
permite termenilor sau çirurilor sä se regäseascä în
câmpuri diferite.
34
Sistem de regsire a informaiei
Identificarea prin cuvinte cheie permite termenilor sä
fie dispersati. Cäutarea pe bazä de cuvinte cheie
implicä punerea în corespondentä a unor cuvinte
separate cu indecçii sistemului, recurgând adesea la
operatori booleeni sau la formuläri de proximitate
pentru a-i combina. Cuvintele cheie pot fi potrivite
unor termeni care apar în mai mult de un singur
câmp sau index.
35
Sistem de regsire a informaiei
ii. Baleierea informaiei, la rândul ei, poate fi
divizatä în douä categorii:
a. Baleierea linearä pre-secventialä permite
utilizatorilor sä scaneze liste de termeni,
antete/titluri sau scurte titluri pentru a regäsi
teme sau articole de interes. Aceasta este o
abordare structuratä, recurgând la organizarea
internä a datelor de cätre sistem.
36
Sistem de regsire a informaiei
b. Cel de-al doilea tip de baleiere propus de
Hildreth este neliniar çi multidirectional. Acesta
este tipul de baleiere nestructuratä. Permite
utilizarea legäturilor/ link-urilor hypertext pentru
a naviga între diferite articole.
37
Sistem de regsire a informaiei
Interogarea este preferabilä în cazul în care utilizatorii
çtiu exact ceea ce-çi doresc, în timp ce baleierea
constituie o alternativä în cazul regäsirii a sute de
înregisträri ca räspuns la o interogare.
38
Sistem de regsire a informaiei
De exemplu, dacä un utilizator cautä un document
dupä criteriul autor, numele fiind „Popescu”, însä nu
cunoaçte decât initiala „R.” a prenumelui, o
interogare bazatä pe baleiere îl va plasa pe cel care
cautä într-un index al tuturor numelor de persoane
cu numele de familie „Popescu”, în punctul din care
vor începe prenumele cu initiala „R”. De la acel
punct, utilizatorul poate scana nume fie înainte, fie
dupä numele introdus.
39
Sistem de regsire a informaiei
Dacä aceastä listä contine, aditional numelui, date
çi înregisträri asociate cu numele respectiv, atunci
utilizatorul poate determina mai uçor care nume îl
reprezintä pe „R. Popescu cäutat”. O optiune de
baleiere pe subiect va oferi utilizatorului o listä de
subiecte apropiate cuvântului care a fost introdus în
scopul cäutärii.
40
Sistem de regsire a informaiei
În cazul în care utilizatorul nu este sigur asupra a
ceea ce doreçte sau atunci când utilizatorul nu
cunoaçte çirul exact utilizat în sistem pentru a
descrie ceea ce cautä, baleierea poate fi o metodä
mai adecvatä pentru a satisface nevoia
informationalä a utilizatorului.
41
Sistem de regsire a informaiei
Procesul de interogare a bazelor de date çi
limbajele de comandä utilizate includ:
• Alegerea bazei de date potrivite. Dacä
serviciul online oferä acces la mai multe
baze de date este necesarä alegerea bazei
de date dorite pentru interogare;
• Selectarea termenilor de cäutare, fie
individual, fie în combinatii cu altii, utilizând
operatori booleeni;
42
Sistem de regsire a informaiei
• Cäutarea pe câmpuri specifice ale
înregisträrii (autor, titlu etc.);
• Utilizarea trunchierii termenilor de cäutare;
• Cäutarea pe bazä de frazä sau expresie;
Cäutarea termenilor care apar în aceeaçi
propozitie sau acelaçi câmp;
Cäutarea termenilor utilizând un sistem de
clasificare sau un tezaur;
43
Sistem de regsire a informaiei
Generarea seturilor de cäutare çi utilizarea
ulterioarä a informatiilor regäsite;
Salvarea listelor generate în procesul de
cäutare;
Printarea referintelor gäsite;
Încärcarea referintelor pe sistemul propriu;
Abandonarea sesiunii de cäutare.
44
Sistem de regsire a informaiei
O bazä de date este interogatä prin
instructiuni sau comenzi concepute pentru a
localiza toate înregisträrile care contin
anumiti termeni, combinatii de termeni sau
diferite valori.
45
Sistem de regsire a informaiei
De exemplu la cäutarea termenului wood
sistemul de regäsire va afiça numärul de
înregisträri în care este prezent cuvântul wood.
Dacä ne gândim la o înregistrare bibliograficä
termenul cäutat poate apärea în titlu, în rezumat,
în titlul publicatiei etc. Dacä se preferä,
cercetarea poate fi fäcutä numai pe un singur
câmp, cum ar fi titlul, crescând astfel gradul de
relevantä al rezultatelor.
46
Sistem de regsire a informaiei
Termenii pot fi asociati cu indecçi pentru
documente sau pentru interogäri. În timpul
procesärii interogärii, termenii din cäutare
(interogare) sunt asociati cu termenii indecçilor,
care se mai numesc çi cuvinte cheie care
definesc termenii cäutabili din baza de date.
47
Sistem de regsire a informaiei
Interogärile pot avea diferite forme:
Interogrile de tip boolean combinä termenii cu
operatorii care definesc contextul termenilor.
Când se impune cäutarea printr-o combinatie de
termeni, criteriile de cäutare sunt stabilite cu ajutorul
operatorilor booleni AND (ÇI), OR (SAU), NOT
(FARA), care se folosesc pentru a pune într-o
legäturä logicä diferiti termeni. Logica booleanä
rezultä din aplicarea algebrei lui G. Boole çi permite
operarea/ stabilirea a trei tipuri de relatii între
descriptori.
48
Sistem de regsire a informaiei
Relaia de intersecie (produs logic): se utilizeazä
operatorul ÇI (AND) pentru a lega doi descriptori; se
impune ca ambii termeni sä existe în înregisträrile
regäsite. Cei doi descriptori trebuie sä fie prezenti la
indexarea documentului, pentru ca documentul
respectiv sä fie considerat pertinent.
49
Sistem de regsire a informaiei
AND
composite
boards
wooden
fibres
Cu alte cuvinte, va restrânge cäutarea la un numär mai
mic de înregisträri decât dacä s-ar cäuta pentru fiecare
termen separat.
50
Sistem de regsire a informaiei
Relaia de uniune (sum logic): folosirea SAU
(OR) presupune ca fie primul, fie al doilea, fie ambii
descriptori sä fie prezenti în înregisträrile regäsite,
märind astfel numärul documentelor pertinente
regäsite.
composites
wood
OR
51
Sistem de regsire a informaiei
Relaia de excludere (diferena logic): folosirea
operatorului FARA (NOT) implicä excluderea din setul de
rezultate a tuturor înregisträrilor care contin termenul
cäruia i se aplicä operatorul, dacä dorim ca documentul
sä fie pertinent.
52
Sistem de regsire a informaiei
NO
PAL PAP
Rezultatul acestor operatii de coordonare a
descriptorilor este ecuaia de cercetare. Existä alte
câteva proceduri care permit sä se formuleze sau sä
se completeze ecuatia de cercetare.
53
Sistem de regsire a informaiei
Interogrile în limbaj natural se bazeazä pe
structura lingvisticä çi pozitia cuvintelor pentru
identificarea contextului.
Anumite sisteme permit introducerea de çiruri de
termeni, caz în care distanta dintre termeni deteminä
relatia dintre aceçtia. În cazul utilizärii interogärilor în
limbaj natural, utilizatorii nu trebuie sä fie familiarizati
cu limbajele artificiale de interogare care definesc
operatiuni de interogare valide.
54
Sistem de regsire a informaiei
Sistemele de regäsire a informatiilor pot contine
functiunea de cäutare liberä a textului sau pot sä se
bazeze pe un vocabular controlat.
Cäutarea tip text liber nu limiteazä termenii cäutabili
la un set predefinit de termeni. Vocabularul controlat
care este implementat de regulä ca subject heading
sau descriptori, limiteazä cäutarea la un set de
termeni necunoscuti care au fost indexati.
55
Sistem de regsire a informaiei
Indicatorul de proximitate (alturare).
Folosirea lui impune ca primul descriptor sä
fie în imediata apropiere a celui de-al doilea.
Prin acest indicator se defineçte apropierea
descriptorilor în textul documentului; se
utilizeazä foarte mult în cäutarea tip text liber
(sau se aplicä rezumatelor care încorporeazä
descriptori).
56
Sistem de regsire a informaiei
Cel care interogheazä baza indicä dacä cei
doi descriptori trebuie sä fie succesivi (1), sä
se gäseascä în aceeaçi frazä (2) sau sä nu
fie despärtiti între ei în text decât de un
numär determinat de cuvinte (3).
57
Sistem de regsire a informaiei
Indicatorul de ponderare: se alocä, atât la
indexarea documentelor, cât çi la cäutare,
fiecärui descriptor, în functie de importanta
conceptului reflectat în document sau în
cerere (3,2,1).
58
Sistem de regsire a informaiei
Trunchierea: permite cäutarea unui cuvânt sau
descriptor, datoritä unui grup de litere (rädäcinä
sau radical), färä sä tinem seama de prefixe sau
sufixe (de exemplu: document, documentare,
documentarist); dacä cercetarea se face cu
descriptorul-document, se vor gäsi toate
documentele care au fost indexate cu descriptori
care au acelaçi radical.
59
Sistem de regsire a informaiei
Extensia/expandarea: permite completarea ecuatiei
de cäutare printr-o comandä de adäugare a unui
termen generic (TG), specific (TS) sau asociat (TA),
iar calculatorul va conduce la termenii
corespunzätori din tezaur pentru descriptorul în
cauzä.
Comparatia numericä: permite desfäçurarea unor
cercetäri în functie de criterii cantitative.
Exemplu: > 1976 (literatura publicatä dupä 1976).
60
Exemple de sisteme de regsire
a informaiei
Sistemele de regäsire a informatiei pot fi
clasificate dupä:
coninut sau
prin modelele utilizate pentru reprezenta-
rea çi extragerea continutului.
61
Exemple de sisteme de regsire a informaiei
Datoritä creçterii capacitätii de stocare precum çi
a reducerii costurilor se tinde din ce în ce mai
mult spre reprezentarea çi stocarea
documentelor, full-text (complet) inclusiv ale
componentelor non-textuale cum ar fi graficele.
Printre aplicatiile sistemelor de regäsire a
informatiei se numärä i bazele de date
bibliografice.
62
Exemple de sisteme de regsire a informaiei
Multe sisteme de asistentä (help) on-line
asociate cu aplicatii software permit de
asemenea cäutäri simple, bazate pe
continutul help-ului.
Internetul a contribuit la îmbunätätirea
sistemelor de regäsire a informatiilor.
63
Exemple de sisteme de regsire a informaiei
Motoarele de cutare sunt de fapt sisteme
de regäsire a informatiei care pot fi folosite
pentru indexarea continutului distribuit al
WEB-ului çi altor pärti ale internetului, sau
pot fi folosite numai pentru indexarea
continutului local.
64
Exemple de sisteme de regsire a informaiei
Aceste servicii de cäutare asigurä accesul la
un mare volum de documente full-text.
Sistemele de regäsire a informatiei sunt
sisteme „read-only” în care utilizatorii
efectueazä o simplä cäutare, neputând
modifica continutul bazei de date.
65
Exemple de sisteme de regsire a informaiei
Procesul de regäsire a informatiei implicä un dialog
între utilizator çi sistemul de regäsire a informatiei.
Caracteristicile principale ale stocärii informatiei çi
ale procesului de regäsire sunt prezentate în
schema de mai jos :
Apelarea la serviciile unui sistem de regäsire a
informatiei este determinatä de nevoia de informare
a utilizatorului.
66
Exemple de sisteme de regsire a informaiei
Utilizatorul çtie cä baza de date la care
sistemul de regäsire asigurä accesul poate
contine resursele care îl intereseazä.
Deoarece utilizatorul cunoaçte atât domeniul
asupra cäruia vrea sä se informeze cât çi
modul de utilizare a sistemului de regäsire a
informatiei, el formuleazä o primä interogare
pe care o transmite sistemului.
67
Exemple de sisteme de regsire a informaiei
Caracteristicile principale ale stocärii
informatiei çi ale procesului de regäsire sunt
prezentate în schema de mai jos :
68
Procesul de stocare i regsire a informaiei
69
Exemple de sisteme de regsire a informaiei
Interactiunea cu sistemul de regäsire a
informatiei este asiguratä prin intermediul
interfetei cu utilizatorul. În urma parcurgerii
unor articole eligibile, utilizatorul îçi poate
rafina (detalia) cererea de informatii precum
çi modul de interogare a sistemului
70
Exemple de sisteme de regsire a informaiei
Aceasta este cunoscutä sub denumirea de
“relevance feedback”. Procesul se repetä
pânä când necesarul de informatie a fost
satisfäcut într-o mäsurä suficientä sau pânä
când utilizatorul realizeazä cä sistemul nu îi
poate îndeplini cerintele, moment în care
procesul de cäutare înceteazä.
71
Exemple de sisteme de regsire a informaiei
Functiunile sistemului sunt invizibile pentru utilizator,
dar sunt importante întrucât de ele depinde
capacitatea sistemului de a îndeplini cererea de
informatie.
Nu este posibilä includerea într-un singur sistem a
întregului volum de resurse existent în lume.
Sistemul procedeazä la includere selectivä, adicä sunt
atrase informatiile care sunt de cea mai mare
importantä pentru scopul sistemului de regäsire.
Sistemul trebuie sä gäseascä o modalitate de
reprezentare eficientä a continutului informatiei.
72
Sistemul de regsire a informaiei:
Operaiile de stocare i regsire
Subiectele discutate au examinat sistemul
de regäsire a informatiei dintr-o perspectivä
descriptivä, de ansamblu, färä a analiza
detaliile procesului de regäsire propriu-zis.
Procesul fizic de cäutare çi regäsire poate
genera o sarcinä de calcul semnificativä în
functie de modelul de regäsire a informatiei
implementat.
73
Sistemul de regsire a informaiei:
Operaiile de stocare i regsire
Stocarea çi regäsirea eficientä a
documentelor ca çi mecanismele asociate
prezintä interes pentru cercetare.
Pot fi folosite diferite tehnici în procesele de
stocare çi regäsire.
Procesele discutate în cele ce urmeazä tin
de sisteme de tip Boolean, ce folosesc
termeni scriçi între ghilimele çi constituie
metoda de bazä utilizatä de majoritatea
sistemelor.
74
Stocarea i indexarea documentelor
Documentele stocate într-un sistem trebuie mai întâi
procesate pentru a se asigura suficiente puncte de
acces în vederea simplificärii regäsirii.
Într-un mediu de fiçiere inversate termenii sunt
folositi pentru regäsirea documentelor în
conformitate cu parametrii interogärii.
Termenii care pot fi utilizati la cäutarea într-un sistem
se gäsesc pe o listä, într-un fiçier de termeni sau de
indecçi, care contorizeazä numärul documentelor din
cadrul setului de documente indexate ce contin un
anumit termen.
75
Stocarea i indexarea documentelor
La introducerea termenului se stabileçte o legäturä
cätre o locatie dintr-un fiçier de postäri. O postare
reprezintä un termen indexat într-un document.
Dupä ce s-a stabilit cä un document contine un
anumit termen, documentul respectiv poate fi
regäsit. Relatiile între termeni, postäri çi documente
sunt prezentate în figura de mai jos.
76
Stocarea i indexarea documentelor
Reprezentarea fiierelor unui sistem de regsire a informaiei
77
Stocarea i indexarea documentelor
La integrarea unor noi documente într-un
sistem de regäsire a informatiei trebuie mai
întâi identificati prin analizä sintacticä
termenii de cäutare din ele. Procesul de
analizä sintacticä va identifica notiunea
“termen” prin caractere de delimitare valide.
78
Stocarea i indexarea documentelor
De exemplu, un termen valid poate începe cu un
caracter alfanumeric çi va fi delimitat de caractere
nonalfanumerice.
Termenii propuçi pentru cäutare sunt mai întâi
comparati cu o listä de cuvinte „omise” (stopwords),
care identificä acele cuvinte care nu trebuie
indexate.
Cuvintele „omise” pot fi „the”, „to”, „a”, „for” sau alte
cuvinte frecvent utilizate çi care apar pe mai multe
documente dintr-un domeniu.
79
Stocarea i indexarea documentelor
În numeroase sisteme, existä instructiuni pentru
omiterea articolelor initiale la introducerea unui
çir pentru cäutare. Utilizatorii manifestä tendinta
de a urma aceastä recomandare dacä
instructiunea se observä uçor çi dacä poate fi
väzutä din cäsuta de cäutare.
Dacä o cäutare include totuçi articolul initial,
poate rezulta una din urmätoarele situatii:
80
Stocarea i indexarea documentelor
Sistemul returneazä un mesaj cä utilizatorul nu a
primit rezultate çi nu mai sunt incluse deloc alte
informatii.
Sistemul avanseazä utilizatorului un mesaj de a
îndepärta articolul initial çi de a încerca din nou.
Sistemul trateazä un articol initial de o manierä
diferitä, depinzând de tipul de cäutare, pe bazä de
cuvânt cheie, baleiere sau echivalentä/potrivire
exactä.
Sistemul pur çi simplu eliminä articolul, färä
înçtiintarea utilizatorului çi efectueazä cäutarea.
81
Stocarea i indexarea documentelor
Ultima posibilitate din listä poate fi bunä pentru
anumiti utilizatori, însä existä, bineînteles, momente
când articolul (sau ceea ce pare a fi un articol – un
cuvânt sträin, poate) este necesar pentru o cäutare
de succes (ex. o carte intitulatä A is for Apple).
Existä anumiti algoritmi pentru identificarea
variantelor morfologice ale termenilor indexati.
82
Stocarea i indexarea documentelor
Variantele acestea pot fi apoi condensate într-o
rädäcinä comunä. Excluderea cuvintelor „omise”
din indexul de termeni poate reduce
dimensiunea fiçierului de postäri, în timp ce
anumiti algoritmi pot reduce fiçierul de termeni.
Termenul ales este apoi cäutat în fiçierul de
termeni.
83
Stocarea i indexarea documentelor
Dacä el nu existä în fiçier, se creeazä o nouä
înregistrare, numärul de aparitii sau numärul de
rezultate este setat la cifra 1 çi se adaugä o nouä
înregistrare în fiçierul de postäri, legându-se
termenul de documentul aflat în fiçierul de
documente.
Dacä termenul existä deja în fiçierul de termeni,
numärul de aparitii este incrementat çi noua intrare
este adäugatä la fiçierul de postäri.
84
Stocarea i indexarea documentelor
Dacä este posibilä cäutarea dupä câmpuri, se poate
adäuga un identificator de câmp la fiçierul de
termeni.
Dacä termenul apare în mai multe câmpuri pot fi
adäugate inträri suplimentare pentru acelaçi termen,
fiecärui câmp corespunzându-i o unicä aparitie.
Dacä existä posibilitatea cäutärii prin proximitate
(aläturare) trebuie de asemenea reprezentate
locatiile multiple ale unui anumit termen în interiorul
unui câmp.
85
Stocarea i indexarea documentelor
În acest caz se vor efectua mai multe inträri de
postare pentru fiecare aparitie a termenului.
Valoarea offset-ului (decalajului) de la începutul
câmpului stabileçte locatia în care termenul este
pozitionat în interiorul câmpului, de ex. un termen
aflat la începutul câmpului va avea un offset egal cu
„0”. Termenul urmätor va avea un offset egal cu „1”
ç.a.m.d. Aceasta poate conduce la creçterea
semnificativä a dimensiunii fiçierului de postäri din
câmpurile de indexare ale sistemelor datoritä unor
çiruri lungi de texte.
86
Stocarea i indexarea documentelor
Frecventa aparitiei unui termen într-un câmp sau
într-un document serveçte la calculul ponderii
termenului, oferind indicatii asupra importantei sale
în cuprinsul documentului.
Strategia de indexare a unui document poate fi
extrem de simplä prin includerea tuturor termenilor
posibili care se identificä cu uçurintä la procesarea
initialä a documentului.
Proiectantii de sisteme de regäsire a informatiei au
creat rutine de indexare automatä care identificä
termenii adecvati.
87
Standardizare i sisteme
Nu existä standarde reale, numai linii directoare
generale çi sugestii.
Din cauza naturii competitive a comerciantilor de pe
pietele OPAC-urilor, o interfatä standard nu este
susceptibilä de a apärea curând.
Sunt dezvoltate noi träsäturi çi fiecare comerciant
plaseazä diferite niveluri de importantä pe diferite
aspecte ale propriului design de sistem.
Unele au diferite scheme de organizare internä;
altele au diferite capacitäti de cäutare.
88
Standardizare i sisteme
Comerciantii încearcä sä dezvolte cea mai
aträgätoare interfatä, caracteristici de cäutare çi
module, în scopul de a câçtiga un procent cât mai
mare de piatä.
Aceastä competitie contribuie la lipsa de
standardizare din proiectul sistemului însä, încä o
datä, poate contribui la inovatiile çi progresul pe
termen lung.
89
Standardizare i sisteme
Aceasta ar putea reprezenta o chestiune de gäsire a
echilibrului potrivit între standardizare çi fortele de pe
piatä.
Indexurile online, de asemenea, sunt caracterizate
de o mare varietate çi de putinä standardizare.
Aceasta este o continuare a unei lungi istorii de lipsä
a standardäzärii în indexurile tipärite.
90
Standardizare i sisteme
Câteva arii în care a fost recomandatä
standardizarea includ:
Afiarea rezultatelor
interogärile de cäutare fundamentale
tratamentul articolelor initiale
utilizarea operatorilor Booleni, proximitatea çi
trunchierea
punctuatia
91
Standardizare i sisteme
Afiarea
Una dintre ariile cheie în care standardizarea este
cea mai evidentä este în afiçärile sistemului.
Afiçärile pot fi divizate în douä categorii:
1) afiçarea seturilor de rezultate regäsite çi
2) afiçarea metadatelor din înregisträrile surogat,
ambele încorporând probleme legate de formatul de
ieçire a informatieie pe ecran çi de design.
92
Afiarea rezultatelor
1) Afiarea rezultatelor regsite
Prima preocupare în problema afiçärii este dacä
rezultatele cäutärii apar ca
listä de înregisträri individuale
sau
listä antete/titluri afiçate mai întâi, înainte de
prezentarea pentru vizualizare a înregisträrilor
propriu-zise.
93
Afiarea rezultatelor
Exemplu
Unele sisteme, ca räspuns la o cäutare pentru un
autor cu numele de familie „Benson”, afiçeazä toti
Benson-ii din sistem, grupati dupä initialele
prenumelui.
Se poate naviga prin aceastä listä çi se poate regäsi
titlul/antetul adecvat înainte de a avea lista cu lucräri
de cercetat amänuntit.
Alte sisteme returneazä rezultate care sunt liste de
lucräri legate de fiecare Benson înainte de a çti câti
Benson existä. Se solicitä paginarea prin lista atât a
autorilor cât çi a titlurilor înainte de a baleia lista de
nume.
94
Afiarea rezultatelor
Cea de-a doua preocupare în afiçarea rezultatelor
este ordinea în care sunt prezentate acestea.
Pe mäsurä ce sistemele deveneau mai sofisticate, a
fost acordat utilizatorului mai mult control asupra
afiçärii.
În anumite sisteme, utilizatorii pot specifica un câmp
(cel mai adesea dintr-o listä scurtä, predefinitä de
optiuni) care sä fie utilizat pentru aranjarea
rezultatelor afiçate ale cäutärii.
95
Afiarea rezultatelor
De exemplu, dacä se alege sortarea
rezultatelor dupä autor, atunci intrarea
principalä este afiçatä în lista sortatä, însä
este posibil ca intrarea principalä sä nu fie
autorul de care este interesat utilizatorul (ex.
nu acel Benson care este un al doilea sau alt
autor al unui pachet informational).
96
Afiarea rezultatelor
Existä adesea trei niveluri de afiçare într-un catalog
online:
o versiune de una sau douä linii
o afiçare scurtä
çi o afiçare integralä/ completä.
Deçi „complet” rareori înseamnä cä toate informatiile
dintr-o înregistrare codatä sunt afiçate, anumite
sisteme permit afiçarea întregii înregisträri MARC.
97
Afiarea rezultatelor
Afiçarea implicitä, atunci când o singurä
înregistrare este regäsitä ca räspuns la o
interogare sau dupä ce un utilizator a selectat o
înregistrare dintr-o listä pentru a fi vizualizatä,
este de obicei vizualizarea scurt.
Cantitatea çi tipurile de informatii omise dintr-o
înregistrare integralä pentru a crea un afiçaj
scurt diferä de la sistem la sistem.
98
Afiarea rezultatelor
Allyson Carlyle çi Traci Timmons au examinat atent
122 de cataloage bazate pe Web çi au concluzionat
cä urmätoarele câmpuri: autor personal, titlu çi
publicatie sunt întotdeauna afiçate în înregisträri
singulare implicite, însä alte câmpuri sunt afiçate mai
putin frecvent, iar cele care sunt afiçate sunt tratate
inconsistent (ex. câmpuri de titlu includeau uneori
declaratii de responsabilitate sau nu).
99
Afiarea rezultatelor
Thomas remarcä faptul cä utilizatorii gäsesc
numai câteva câmpuri utile; astfel cä ar
trebui sä existe linii directoare pentru
selectarea câmpurilor cele mai necesare de
afiçat.
10
0
Afiarea rezultatelor
2) Etichetarea metadatelor în înregisträri variazä
de asemenea de la sistem la sistem, çi existä
diferente în terminologia utilizatä pentru
etichetare.
Înregisträrile pentru (publicatii) seriale suferä
de probleme de etichetare mai mult decât
înregisträrile pentru monografii. Informatiile
referitoare la fond(uri) pot crea confuzie
utilizatorului, chiar çi cu cele mai explicite
etichete disponibile.
10
1
Afiarea rezultatelor
Este pusä în discutie însäçi nevoia de metadate de
etichetare. Etichetele pot crea confuzie çi nu
acoperä în mod necesar totul într-un câmp.
Dacä, în loc de etichetarea fiecärui câmp, afiçajele
ar recurge la formatul ISBD (cu punctuatia sa
standardizatä çi ordinea stabilitä a informatiilor),
etichetele care creeazä confuzie ar putea fi
eliminate.
Aditional, formatul ISBD ar permite mai multor
informatii referitor la un pachet informational sä fie
afiçate pe un ecran.
10
2
Afiarea rezultatelor
Când este utilizat un format ISBD, numai 30% din
înregisträri au nevoie de un al doilea ecran pentru
afiçarea întregii înregisträri. Cu etichetele, 80% din
înregisträri au nevoie de un al doilea ecran pentru
afiçarea întregii înregisträri. (Aceasta se întâmpla
înainte de WebPAC-uri, în care înregisträri lungi
necesitä mai degrabä derularea/ defilarea decât
deplasarea la un al doilea ecran.
Utilizatorii tind sä priveascä la ceea ce li se oferä „la
prima vedere”, înainte de derulare/defilare sau de
trecerea la cel de-al doilea ecran).
10
3
Linii directoare pentru afiaj
Aceste abordäri diferite la ambele tipuri de afiçaj
(i.e. afiçarea rezultatelor regäsite çi afiçarea
înregisträrilor) au determinat crearea de linii
directoare pentru standardizarea afiçajelor.
O sarcinä de fortä a Federatiei Internationale a
Asociatiilor çi Institutiilor Biblioteconomice (IFLA) din
1999 a emis linii directoare pentru a sprijini
bibliotecile în proiectarea sau reproiectarea OPAC-
urilor.
10
4
Linii directoare pentru afiaj
Aceste linii directoare constau din 37 principii
bazate pe obiectivele catalogului i pe tipurile de
cutri pe care le deruleaz utilizatorii.
Principiile directoare recomandä un set standard de
afiçaje implicite, definite ca çi caracteristici care ar
trebui oferite utilizatorilor care nu au selectat alte
optiuni, incluzând utilizatorii care doresc sä
demareze cäutarea imediat, färä prea multä
instruire.
10
5
Linii directoare pentru afiaj
Dacä asemenea afiçaje implicite ar fi implementate
pe scarä largä, utilizatorii ar obtine beneficii prin
posibilitatea de a transfera abilitätile de utilizare a
catalogului dobândite într-o bibliotecä la numeroase
alte biblioteci.
Strädaniile IFLA çi ale numeroçi cercetätori au fost
concentrate pe nevoia utilizatorilor pentru
instrumente puternice, însä uçor de utilizat.

Sign up to vote on this title
UsefulNot useful