• Embed Doc
  • Readcast
  • Collections
  • CommentGo Back
Download
 
TauRo: un innovativo motore di ricercaper documenti XML
Paolo Ferragina, Alida Isolani, Tommaso Schiavinotto11 luglio 2008
La lunga esperienza del CRIBeCu prima e di Signum poi nell’ambito dell’analisi testua-le informatizzata ci ha spinto a partecipare con un contributo originale, e auspichiamosignificativo, alla sfida recente della digitalizzazione e analisi informatica dei testi let-terari. La definitiva affermazione del formato XML da un lato, e dei motori di ricercaalla Google dall’altro, offrono una stimolante opportunit`a tecnologica per la fruizionedi grandi quantit`a di dati su normali PC o anche su dispositivi portatili quali
smart-phone
e palmari; ma pongono anche numerose difficolt`a algoritmiche e sistemistiche ilcui superamento costituir`a la nuova sfida intrapresa con il progetto
TauRo
descrittoin questo articolo.La descrizione delle caratteristiche algoritmiche di TauRo e delle motivazioni sot-tostanti il suo progetto, non possono prescindere dall’esperienza maturata dal gruppotesti di Signum nel corso di questi ultimi 10 anni. I nostri primi esperimenti di co-difica testuale erano stati effettuati su SGML, e avevano portato alla definizione dialcuni primordiali algoritmi per l’
Information Retrieval 
su testi marcati citiamo LeVite di Giorgio Vasari
1
online
. Questa esperienza pionieristica ci aveva permesso dicomprendere quali fossero i limiti di un “normale” motore di ricerca testuale appli-cato a tali documenti, e quali fossero le effettive necessit`a di chi operava nel difficilecontesto della digitalizzazione di fonti letterarie delle pi`u svariate tipologie, forme ecaratteristiche. Il risultato di questa esperienza era stata la realizzazione di un motoredi ricerca, denominato
TReSy 
2
, che risultava sufficientemente efficiente ed efficace dagestire i problemi tipici dellanalisi testuale XML. TReSy stato applicato con successosu varie collezioni di testi marcati XML-TEI
3
, quali per esempio
Le Vite
vasariane eil pi complesso
Vocabolario della Crusca 
in edizione elettronica.
1
http://vasari.signum.sns.it
2
TReSy
Text Retrieval System 
, motore di ricerca per documenti XML sviluppato dal CRIBeCu apartire dal 1998.
3
TEI Text Encoding Iniziative
http://tei-c.org/
1
 
Il progetto TauRo intende proporsi non come una evoluzione tecnologica del purglorioso TReSy, ma come uno strumento software innovativo, modulare e sofisticato checonsenta la memorizzazione compressa, e l’analisi/ricerca efficiente di pattern arbitrariin grandi collezioni di documenti XML disponibili su un unico PC, o distribuite incluster di PC possibilmente dislocati in varie parti della rete Internet. Rispetto aglistrumenti attualmente disponibili nel panorama internazionale, TauRo offre ulteriorie pi`u sofisticate funzionalit`a di ricerca e analisi dei testi letterari. Queste funzionalit`a sono state progettate al fine di tenere profondamente conto delle caratteristiche attualidella codifica di testi letterari intesa non tanto come formato per l’interscambio dei datima come complesso sistema di rappresentazione, interpretazione e studio dei testi. Inquesto modo, TauRo supporta la realizzazione di nuove e pi`u sofisticate funzionalit`adi ricerca
strutturale
e per
contenuto
, completamente assenti nei motori di ricercamoderni per XML.
1 Lo scenario e le esigenze
Vista la crescente esigenza da parte degli umanisti di strumenti che agevolino l’analisidei testi, la ricerca informatica si sta impegnando nello sviluppo di motori di ricercadalle caratteristiche sempre pi`u sofisticate ed evolute.Un
motore di ricerca 
ha lo scopo di recuperare da una collezione di testi le in-formazioni che soddisfano l’interrogazione posta da un utente. I motori di ricercatradizionali, come Google per il Web, considerano principalmente la parte testuale deidocumenti permettendo la ricerca di parole al suo interno. I motori di ricerca XMLoffrono invece la possibilit`a di ricercare sia nel contenuto testuale del documento chenella sua
struttura 
codificata, appunto, tramite il formato XML. Ci`o inevitabilmenteconsente all’utente di progettare interrogazioni pi`u sofisticate e selettive, cos`ı da ren-dere il suo processo di analisi dei testi potenzialmente pi`u efficiente ed efficace, a pattodi avere motori di ricerca progettati
ad hoc
. Attualmente, il panorama scientifico eindustriale offre diversi motori di ricerca per l’indicizzazione di documenti XML: lamaggior parte di essi sono orientati all’utilizzo in modalit`a
“data centric”
, ovvero con-sentono di gestire documenti strutturati in campi e con forte regolarit`a quali i dati ditipo tabellare ordini di vendita, dati scientifici e simili. Poche sono invece le soluzioniper la gestione di XML in modalit`a
“document centric”
(ad esempio
eXist 
4
e
Gala-TeX 
5
), ovvero per trattare documenti con struttura irregolare, pochi campi e moltotesto, quali appunto le fonti letterarie. Il nostro studio si `e concentrato dunque suquesta ultima tipologia di documenti e motori di ricerca, e per essi abbiamo studiato eindividuato i requisiti fondamentali che un motore di ricerca moderno dovrebbe offrireper essere considerato utile agli occhi di un umanista.
4
W. Meier,
eXist: An Open Source Native XML Database, in Lecture Notes In Computer Science
,London 2002.
http://www.exist-db.org/
5
E. Curtmola, S. Amer-Yahia, P. Brown, M. Fernandez,
GalaTex: A Conformant Implementation of the XQuery Full-Text Language
, AT&T Technical Report, 2004.
http://www.galaxquery.com/galatex/
2
 
1.1 I motori di ricerca XML
Per poter usufruire appieno delle funzionalit`a di un motore di ricerca `e necessarioutilizzare il suo linguaggio di interrogazione. Entrambi i motori di ricerca eXist eGalaTeX, citati in precedenza, utilizzano un’estensione di
XQuery 
, linguaggio definitodal W3C e considerato oramai lo standard per l’interrogazione di collezioni documentaliXML.XQuery (
XML Query Language
) consente di formulare interrogazioni
elementari 
sul contenuto testuale dei documenti, di rintracciare elementi – tag e attributi – cherispettino determinati vincoli, o di combinare questi due tipi di ricerche cos`ı da ottenereinterrogazioni pi`u selettive. Recentemente il W3C ha esteso le funzionalit`a di XQueryverso ricerche per contenuto pi`u sofisticate, dette
full-text 
, ma sono pochissimi i motoridi ricerca che hanno gi`a recepito e realizzato queste funzionalit`a:1. ricerca di parole singole;2. ricerca di frasi;3. gestione di
stopwords
(eliminazione di parole frequenti);4. ricerca per suffissi, prefissi, infissi;5. ricerca per
proximity 
(le parole ricercate devono comparire, al massimo, ad unadistanza prefissata l’una dall’altra);6. ricerca per
proximity 
con ordinamento (viene specificato l’ordine in cui le paroledevono comparire);7. utilizzo di operatore di congiunzione (AND);8. utilizzo di operatore di disgiunzione (OR);9. utilizzo di operatore di negazione (NOT);10. normalizzazione delle parole e di entit`a;11.
ranking 
(ordinamento secondo un qualche criterio di rilevanza).Sia eXist che GalaTeX implementano una propria estensione per ricerche full-text diXQuery. In particolare, GalaTeX offre la prima realizzazione conforme alle direttive delW3C, detta TeXQuery, ma ottiene tale primato a scapito delle prestazioni in tempo(efficienza) e spazio (grosse dimensioni per l’indice). Diversamente eXist offre unarealizzazione ridotta di XQuery, che manca del supporto al ranking, ma risulta pi`uefficiente in tempo e spazio rispetto a GalaTeX. Attualmente eXist `e il motore di ricercaper XML “di riferimento internazionale” grazie al suo elevato numero di funzionalit`ain ricerca e alla sua efficienza. La valutazione dell’utilizzo di eXist nel nostro ambito diinteresse ci ha portato per`o ad identificare numerose sue limitazioni, che descriveremodiffusamente nel seguito, e che quindi hanno motivato lo sviluppo di TauRo.3
of 00

Leave a Comment

You must be to leave a comment.
Submit
Characters: ...
You must be to leave a comment.
Submit
Characters: ...