You are on page 1of 11

Anexo A. Metadatos y uso de nuevas tecnologas para mejorar el acceso a documentos electrnicos en texto completo.

70

La gran cantidad de informacin en formato digital que hoy se nos ofrece, crece exponencialmente cada da. Textos, imgenes, sonidos, etc. son colocados a disposicin de usuarios como grandes acervos de informacin distribuida en Internet, aumentando con ello la problemtica de gestionar, mantener y recuperar informacin, es por esto que para minimizar tal problemtica se han impulsado distintas iniciativas, entre ellas el uso de metadatos que unido al uso de nuevas tecnologas aumentan nuestras posibilidades de mejorar nuestros servicios. Es por esta razn que el tratamiento del tema de metadatos debe abordarse de manera inevitable y al menos en un nivel bsico dentro de la temtica de la digitalizacin de documentos, como respuesta a la necesidad de describir estos recursos de informacin en funcin de su localizacin y posterior recuperacin. Qu es un metadato? El trmino metadato no tiene una definicin nica, pero para efectos prcticos podramos referirnos a l como la descripcin de los atributos de un recurso u objeto de informacin, llmese: texto, imagen, audio, vdeo entre o otros, dotndolos de significado, contexto y organizacin. Uno de los ejemplos ms ilustrativos para comprender el significado del trmino metadatos son precisamente las conocidas fichas bibliogrficas usadas en las bibliotecas, sin embargo el trmino de metadatos es mucho ms amplio que una simple ficha bibliogrfica. Ejemplos de metadatos:

Figura 1. Ejemplo de un metadato: El resumen de un documento. Documento electrnico. CRID

71

Figura 2. Ejemplo de un metadato: Trminos asignados a un documento haciendo uso del vocabulario normalizado utilizado en el CRID.

Tipos y clasificaciones de metadatos: Aunque son mltiples los tipos y clasificaciones de metadatos, generalmente se diferencian tres categoras que responden a las funciones que desempean y a la informacin que se desea ofrecer (ver figura 3): Metadatos descriptivos: como su nombre lo indica tienen como objetivo la descripcin e identificacin de la informacin contenida en el recurso. Ejemplos de preguntas que estos metadatos ayudan a responder: Cul es el tema de este documento? Quines son sus autores?

Metadatos estructurales: Facilitan la navegacin y presentacin de los recursos electrnicos proporcionando informacin sobre la estructura interna de los mismos. Ejemplos de preguntas que estos metadatos ayudan a responder: Es un informe o un libro? Cuntos captulos o secciones tiene?

Metadatos administrativos: Facilitan la gestin y procesamiento tecnolgico y fsico de las colecciones digitales tanto a corto como a largo plazo, refirindose a caractersticas y propiedades de la imagen. Ejemplos de preguntas que estos metadatos ayudan a responder: Cul es el formato del archivo? (PDF, JPG, etc.) 72

Cun grande es el archivo digital? Cul es la resolucin de la imagen?

Metadatos descriptivos Metadatos estructurales Metadatos administrativos


Figura 3. Ejemplo de metadatos: Descriptivos, Estructurales y Administrativos. Documento electrnico. CRID

Es importante que la definicin de un esquema de metadatos para cada tipo de recurso sea definido con antelacin, tomando siempre muy en cuenta el uso que se le dar a esta informacin en trminos localizacin y recuperacin.

73

METODOLOGA GENERAL Como ya es bien sabido, el CRID ha definido una metodologa de trabajo bsica para el proceso de la digitalizacin de documentos (que es parte integral de este documento) y aunque el tema de los metadatos no es un tema totalmente nuevo dentro del desarrollo de este proceso, el uso de nuevas herramientas tecnolgicas BASADAS EN EL ESTANDAR XML, descritas en este documento, nos permitir aumentar la disponibilidad de stos y as ayudar a mejorar la accesibilidad y utilidad de los documentos electrnicos. De manera esquemtica podemos visualizar en la figura 4 la metodologa general propuesta para el tratamiento de documentos electrnicos en nuestro centro de documentacin:

1. Seleccin de recursos de informacin (Formato fsico o electrnico.

2. Ingreso del documento a la base de datos bibliogrfica.

3. Estantera

4. Digitalizacin.

Archivos en formato TIF y PDF.

ID + Informacin bibliogrfica

Informacin de estructuracin del documento.

5. Integracin de metadatos XML

Metadatos descriptivos + estructurales

6. Generacin de contenido visible

Web HTML.

OTROS

Figura 4. Esquema de la metodologa propuesta para el tratamiento de documentos electrnicos. CRID

74

ACTIVIDADES (METADATOS)

DEL

PROCESO

QUE

GENERAN

INFORMACION

META

En el proceso de descripcin bibliogrfica y anlisis de contenido se generan los primeros metadatos asociados a nuestro recurso de informacin. Ver figura 5.

Figura 5. Imagen de metadatos asignados en la actividad de descripcin bibliogrfica y anlisis de contenido a una publicacin contenida en la base de datos del CRID.

La normalizacin en el proceso para la asignacin de metadatos a travs de la descripcin bibliogrfica es fundamental, ya que posibilita, mediante el uso de de tesauros y vocabularios controlados, la bsqueda de informacin pertinente y hace que el proceso de recuperacin de la informacin sea ms eficiente. Para conocer ms sobre la actividad de descripcin y anlisis de documentos ver: I Manual de Capacitacin: Gestin de Unidades de Informacin sobre Desastres en: http://www.crid.or.cr/crid/esp/informacion_desastres.html Posteriormente en la etapa de la digitalizacin del documento, se genera adems del archivo grfico (TIF y PDF) una serie de datos que enriquecen an ms la informacin descriptiva del documento, aportando nuevos metadatos de tipo administrativo y estructural. Ejemplos de metadatos administrativos introducidos en esta etapa del proceso: La fecha de digitalizacin, el tipo de formato del archivo, la cantidad de archivos que contiene el documento entre otros. Ver Figura 6.

75

Figura 6. Metadatos de tipo administrativo asignado a un documento electrnico en el proceso de digitalizacin. CRID

Ejemplos de metadatos estructurales introducidos en esta etapa del proceso: En el caso de que el documento sea seccionado en varios archivos, el contenido de cada uno de sus archivos es descrito como se muestra en el siguiente ejemplo:

Figura 7. Metadatos de tipo estructural asignado a un documento electrnico. CRID

COMO INTEGRAR LA INFORMACIN DE METADATOS. La integracin de toda la informacin (metadatos) en un mismo recurso se ha desarrollado a travs de una serie de aplicaciones de software que nos permitirn almacenar toda esta informacin bajo la metodologa de XML (ms informacin sobre XML visite: http://www.w3.org/XML). 76

El proceso est integrado por las siguientes actividades:

Informacin bibliogrfica PDFs

Aplicacin 1

Aplicacin 2

Archivo XML

Figura 8. Transformacin e integracin de la informacin contenida de varias fuentes a un archivo comn (estndar XML). CRID

A partir de los archivos en formato PDF y los metadatos bibliogrficos, se genera el archivo XML. En este proceso se utilizan las siguientes aplicaciones: Aplicacin 1: Se utiliza para la edicin de metadatos de documentos digitalizados. Ver figura 9.

Figura 9. Interfase de la aplicacin para la edicin de metadatos en un archivo XML. CRID

77

El diseo de esta interfase amigable permite definir la estructura que contendr el archivo XML, para esto se selecciona cada archivo que conforma el documento asignndoles la descripcin de su contenido. Aplicacin 2: Utilizada para la transformacin de datos bibliogrficos a un archivo XML.

Figura 10. Interfase de la aplicacin de la transformacin de datos bibliogrficos a XML. CRID

78

GENERACION DE CONTENIDO VISIBLE. Una vez finalizada la integracin de metadatos y almacenada toda la informacin en el archivo XML, se hace uso de una aplicacin adicional de software que mediante un archivo XSL (Extensible Stylesheet Language) permite especificar el formato visual con el cual se quiere presentar un documento XML, en este caso la pgina ndice del documento electrnico en formato HTML. En este paso se incorpora toda la informacin de metadatos tanto visibles al usuario en las pginas Web, como invisibles pero tiles a las herramientas automatizadas para buscar y procesar informacin. Ver figura 11
<xsl:stylesheet>
<HTML>

</HTML> <FONT> </FONT>

</xsl:stylesheet>

Archivo XML

Archivo XSL

HTML

Figura 11. Proceso de generacin de contenido visible de los documentos electrnicos en formato HTML. (Tomado de: Publicaciones digitales UNAM).

El Uso de XML abre la posibilidad de presentar el mismo contenido de mltiples formas (RSS, PDAs, Web services, etc.) al independizar el contenido digital del formato visible en la Web. Ver figura 12.

XSL 1

Documento HTML

XSL 2

Documento de texto

XSL 3

Lenguaje para PDAs

Archivo XML
Figura 12. Proceso de generacin de contenido visible de los documentos electrnicos distintos formatos. XSL 4 Otros tipos de documentos (Tomado de: Publicaciones digitales UNAM).

79

CONCLUSIONES:

Entre los beneficios que podemos citar al implementar esta metodologa propuesta tenemos que: Mejora la accesibilidad y recuperacin: Los documentos sern muchos ms visibles y ms relevantes para motores de bsqueda externos como Google. Normaliza el proceso del tratamiento de documentos electrnicos mejorando el intercambio y distribucin de informacin. Permite mayor disponibilidad del contenido en diferentes medios y formatos: Discos compactos, WEB, PDAs, RSS. Favorece la preservacin de la informacin al almacenar el contenido de los documentos en formatos basados en estndares.

80