XVIII Congreso de La Asociación Española para El P... - (PG 2 - 41)

Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Col·lecció
«e-Treballs d’Informàtica i
Tecnologia» Núm. 12
XVIII CONGRESO DE LA
SOCIEDAD ESPAÑOLA PARA
EL PROCESAMIENTO DEL
LENGUAJE NATURAL
Castellón de la Plana, 5, 6 y 7 de septiembre de 2012

http://krono.act.uji.es/sepln2012/
Rafael
Berlanga
Ismael
Sanz
y María Pérez
(ed.)
BIBLIoTeCA De LA UNIVeRSITAT JAUMe I. Dades catalogràfiques
Asociación Española para el Procesamiento del Lenguaje Natural. Congrès

(18è. 2012. Castelló de la Plana)
XVIII Congreso de la Asociación española para el procesamiento del lenguaje na-

tural [Recurs electrònic] : Castellón de la Plana, 5, 6 y 7 de septiembre de 2012 /
Rafael Berlanga, Ismael Sanz y María Pérez (editores). — Castelló de la Plana :
Publicacions de la Universitat Jaume I, D.L. 2012
1 recurs electrònic — (e-Treballs d’informàtica i tecnologia ; 12)
Bibliografia.
ISBN 978-84-8021-889-4
1. Tractament del llenguatge natural (Informàtica) – Congressos. I. Berlanga Lla-
vorí, Rafael, ed. II. Sanz Blasco, Ismael, ed. III. Pérez Catalán, María, ed. IV. Univer-
sitat Jaume I. Publicacions. V. Títol. VI. Sèrie
81’322.2(063)
CFX
Qualsevol forma de reproducció, distribució, comunicació pública o

transformació d’aquesta obra només pot ser realitzada amb l’autorització dels
seus titulars, llevat d’excepció prevista per la llei. Dirigiu-vos a cedro
(Centro español de Derechos Reprográficos, www.cedro.org) si necessiteu
fotocopiar o escanejar fragments d’aquesta obra.
Publicacions de la Universitat Jaume I és una editorial membre de l’une, cosa
que en garanteix la difusió i comercialització de les obres en els àmbits nacional
www.une.es
i internacional. www.une.es.
© Del text: les autores i els autors, 2012
© D’aquesta edició: Publicacions de la Universitat Jaume I, 2012
edita: Publicacions de la Universitat Jaume I. Servei de Comunicació i Publicacions

Campus del Riu Sec. edifici Rectorat i Serveis Centrals. 12071 Castelló de la Plana
Fax: 964 72 88 32
www.tenda.uji.es e-mail: publicacions@uji.es
ISBN: 978-84-8021-889-4
DoI: http://dx.doi.org/10.6035/e-TIiT.2012.12
Presentación
La XXVIII edición del Congreso Anual de la Sociedad Española para el Procesamiento
del Lenguaje Natural (SEPLN) se celebró los días 5, 6 y 7 de septiembre de 2012 en la
Universitat Jaume I de Castellón. Junto al congreso, se organizaron varios talleres
temáticos durante el día 7 de septiembre de 2012.
La ingente cantidad de información disponible en formato digital y en las distintas

lenguas que hablamos hace imprescindible disponer de sistemas que permitan acceder a
esa enorme biblioteca que es Internet de manera cada vez más estructurada.
En este mismo escenario, hay un interés renovado por la solución de los problemas de
accesibilidad a la información y de mejora de explotación de la misma en entornos
multilingües. Muchas de las bases formales para abordar adecuadamente estas
necesidades han sido y siguen siendo establecidas en el marco del procesamiento del
lenguaje natural y de sus múltiples vertientes: Extracción y recuperación de
información, Sistemas de búsqueda de respuestas, Traducción automática, Análisis
automático del contenido textual, Resumen automático, Generación textual y
Reconocimiento y síntesis de voz.
El objetivo principal del congreso es ofrecer un foro para presentar las últimas
investigaciones y desarrollos en el ámbito de trabajo del Procesamiento del Lenguaje
Natural (PLN) tanto a la comunidad científica como a las empresas del sector. También
se pretende mostrar las posibilidades reales de aplicación y conocer nuevos proyectos
I+D en este campo.
Además, como en anteriores ediciones, se desea identificar las futuras directrices de la

investigación básica y de las aplicaciones previstas por los profesionales, con el fin de
contrastarlas con las necesidades reales del mercado. Finalmente, el congreso pretende
ser un marco propicio para introducir a otras personas interesadas en esta área de
conocimiento.
Presentation
The 27th edition of the Annual Conference of the Spanish Society for Natural Language
Processing (SEPLN) was held from September 5 to September 7, 2012 at the Escuela
Superior de Tecnología y Ciencias Experimentales, Universitat Jaume I in Castellón,
Spain. Two co-located workshops were organized on September 7.
The enormous amount of multilingual information available in digital format makes it

essential to be able to access the Internet, the world’s largest library, in an ever more
structured way. In this scenario, there is a renewed interest in solutions for information
access problems, and for the exploitation of information in multilingual environments.
Many of the formal foundations that allow adequately addressing these needs have
been, and are being, established within the framework of Natural Language Processing
(NLP) and its many aspects: information extraction and retrieval, query answering
systems, automatic translation, automatic content analysis, automatic summarization,
text generation, and voice recognition and synthesis.
The main goal of the conference is to be a forum for the presentation of the latest
research and development in Natural Language Processing by the scientific community
and the industry. It also aims to showcase actual applications and to introduce new R+D
projects in the field.
As in previous editions, the conference intends to identify future trends for basic
research and applications as foreseen by professionals, in order to contrast them with
actual market needs. Finally, the conference expects to be an enabling framework to
introduce new people with an interest in this area of knowledge.
Acto de
bienvenida
Presiden el acto de bienvenida:
• Andrés Marzal Varó, Catedrático de Universidad en Lenguajes y Sistemas

Informáticos, actual Gerente de la Universitat Jaume I.
• Alfonso Ureña López, Presidente de la Sociedad Española para el Procesamiento
del Lenguaje Natural (SEPLN).
• Rafael Berlanga Llavori, Presidente de los Comités de Programa y Organización
del SEPLN 2012.
Bienvenidos a la vigésimo octava edición del Congreso Anual de la Sociedad Española

para el Procesamiento del Lenguaje Natural.
Como presidente del comité de programa quiero agradecer a la junta directiva de la

SEPLN la confianza depositada en nosotros, así como los medios provistos para poder
realizar todo el proceso de envío, revisión y publicación de las contribuciones del
congreso. También quiero agradecer a todos los ponentes por el interés mostrado, y su
participación en la conferencia. Por último, agradecer a los investigadores Ido Dagan
(Universidad Bar-Ilan, Israel) y David Losada (Universidad de Santiago de Compostela)
por aceptar nuestra invitación a impartir las conferencias científicas del congreso.
Como presidente del comité organizador, he de agradecer el gran esfuerzo realizado por
la Universitat Jaume I (UJI), especialmente los departamentos de informática, la
Escuela Superior de Tecnología y Ciencias Experimentales, así como el Vicerrectorado
de Investigación y Postgrado. Todos ello han aportado tanto infraestructura como
recursos económicos necesarios para organizar este congreso.
En cuanto a las cifras del congreso, en esta edición se recibieron 53 trabajos enviados,
de los cuales 38 eran artículos científicos regulares, 5 correspondían a propuestas de
proyectos, y 4 a demostraciones. De entre los 38 artículos regulares, 27 fueron
seleccionados para su presentación en el congreso (8 de los cuales en formato póster).
Para esta edición se han invitado a dos investigadores de prestigio en dos áreas de gran
auge en el PLN: la inferencia textual y el análisis de sentimientos. Ido Dagan de la
Universidad de Bar-Ilan (Israel) imparte la charla “Natural Language Inference in
Natural Language Terms”. David Losada de la Universidad de Santiago de Compostela
imparte la charla “El potencial de la Tecnología Lingüística para estimar polaridad en la
Web Social”. También se incluye en el programa un tutorial a cargo de Parth Gupta de
la Universitat Politècnica de València sobre “Learning-to-rank”.
En paralelo al SEPLN 2012 se han propuesto tres talleres satélites: 2nd Workshop on
Exploiting Large Knowledge Resources (E-LKR), Automatic Text Summarization for
the Future (ATSF) y el Taller de Análisis de Sentimientos en la SEPLN (TASS). Los
dos primeros talleres se fusionaron a nivel organizativo para dar más entidad a los
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 7
mismos. Cabe destacar el notable grado de internacionalización de estos talleres, con

ponentes provenientes de Portugal, Canadá, México, Reino Unido, Indonesia, y Cuba.
Rafael Berlanga Llavori
Presidente del Comité de Programa de SEPLN 2012
Ismael Sanz Blasco
Presidente del Comité de Organización de talleres SEPLN 2012

Comité de Programa
Presidente: Rafael Berlanga Llavori, Universidad Jaume I de Castelló.
María José Aramburu, Universitat Jaume I.
José Gabriel Amores, Universidad de Sevilla.
Toni Badía, Universitat Pompeu Fabra.
Manuel de Buenaga, Universidad Europea de Madrid.
Sylviane Cardey-Greenfield, Centre de recherche en liguistique et traitement automatique des
langues, Lucien Tesnière. Besançon, France.
Irene Castellón, Universitat de Barcelona.
Arantza Díaz de Ilarraza, Euskal Herriko Unibertsitatea.
Victor J. Díaz Madrigal, Universidad de Sevilla.
Florentino Fernández Riverola, Universidade de Vigo.
Mikel Forcada, Universitat d'Alacant.
Ana García-Serrano, UNED.
Alexander Gelbukh, Instituto Politécnico Nacional. México.
Koldo Gojenola, Euskal Herriko Unibertsitatea.
Xavier Gómez Guinovart, Universidade de Vigo.
José María Gómez Hidalgo, Optenet.
Julio Gonzalo, UNED.
Antonio Jimeno Yepes, National Library of Medicine. USA.
Ramón López-Cózar Delgado, Universidad de Granada.
José Miguel Goñi, Universidad Politécnica de Madrid.
Bernardo Magnini, Fondazione Bruno Kessler. Italia.
Nuno J. Mamede, Instituto de Engenharia de Sistemas e Computadores Investigação e

Desenvolvimento em Lisboa. Portugal.
Manuel J. Maña López, Universidad de Huelva.
José Mariño, Universitat Politècnica de Catalunya.
M. Antonia Martí, Universitat de Barcelona.
María Teresa Martín, Universidad de Jaén.
Patricio Martínez-Barco, Universitat d'Alacant.
Raquel Martínez, UNED.
Paloma Martínez Fernández, Universidad Carlos III de Madrid.
Jacinto Mata Vázquez, Universidad de Huelva.
Ruslan Mitkov, Universidad de Wolverhampton.
Manuel Montes y Gómez, Instituto Nacional de Astrofísica, Óptica y Electrónica. México.
Roser Morante, University of Antwerp, Bélgica.
Lidia Moreno, Universitat Politècnica de València.
Lluís Padró, Universitat Politècnica de Catalunya.
Manuel Palomar, Universitat d'Alacant.
Ferrán Pla, Universitat Politècnica de València.
German Rigau, Euskal Herriko Unibertsitatea.
Horacio Rodríguez, Universitat Politècnica de Catalunya.
Paolo Rosso, Universitat Politècnica de València.
Leonel Ruiz Miyares, Centro de Lingüística Aplicada de Santiago de Cuba.
Emilio Sanchís, Universitat Politècnica de València.
Kepa Sarasola, Euskal Herriko Unibertsitatea.
Isabel Segura Bedmar, Universidad Carlos III de Madrid.
Ismael Sanz, Universitat Jaume I.
Mariona Taulé, Universitat de Barcelona.
José Antonio Troyano, Universidad de Sevilla.
L. Alfonso Ureña, Universidad de Jaén.
Felisa Verdejo Maillo, UNED.
Manuel Vilares Ferro, Universidad de A Coruña.
Luis Villaseñor-Pineda, INAOE, México.
Revisores adicionales
Henry Anaya, Universitat Jaume I.

Victoria Nebot, Universitat Jaume I.
Comité de Organización
Talleres: Ismael Sanz Blasco, Universitat Jaume I.

Shahad Kudama, Universitat Jaume I.
Victoria Nebot, Universitat Jaume I.
Dolores M. Llidó, Universitat Jaume I.
María Pérez, Universitat Jaume I.
Lisette García-Moya, Universitat Jaume I.
María José Aramburu, Universitat Jaume I.
Henry Anaya-Sánchez, Universitat Jaume I.
Lledó Museros, Universitat Jaume I.
Patrocinadores del Congreso
Sociedad Española para el Procesamiento Ministerio de Economía y Competitividad

del Lenguaje Natural
ón
ver
me
tell
Jau
Cas
Uni
sita
I de
X
RE
CO
l
i
t
r
s
Ciencias
x
E
e
e
e
n
p
m
Tecnol ogía y
I
L
P
B
O
Escuela Superior de
PROGRAMA SEPLN 2012
Ponencias Invitadas
Natural Language Inference in Natural Language Terms

Ido Dagan (Bar Ilan University, Israel) ...................................................................................... 15
The potential of Linguistic Technology to drive polarity estimation in Web Social Media
David Losada (Universidad de Santiago de Compostela) ......................................................... 15
Tutorial
Learning-to-Rank
Parth Gupta (Universitat Politècnica de València) ................................................................... 16
Sesión 1: Análisis automático del contenido textual
Miércoles 5 de septiembre, de 11:30 a 12:45. Salón de Actos.

Moderador: Patricio Fernandez Barco. Universitat d'Alacant.
Reducing Text Complexity through Automatic Lexical Simplifcation: an Empirical

Study for Spanish
Biljana Drndarevic, Horacio Saggion ........................................................................................ 17
A Framework for Obtaining Structurally Complex Condensed Representations

of Document Sets in the Biomedical Domain
Yunior Ramírez-Cruz, Rafael Berlanga-Llavori, Reynaldo Gil-García ........................................ 17
Sistema de Acceso a la Información basado en conceptos utilizando Freebase

en Español-Inglés sobre el dominio Médico y Turístico
Rafael Muñoz Gil, Fernando Aparicio, Manuel de Buenaga .................................................... 17
Sesión 2: Extracción y Recuperación de la Información

Moderadora: Elena Lloret Pastor. Universitat d'Alacant.
Análisis de técnicas PLN de expansión de consulta aplicadas a la tarea de la recuperación

de información geográfca
José M. Perea-Ortega, Miguel Á. García-Cumbreras, L. Alfonso Ureña-López,
Arturo Montejo-Ráez ............................................................................................................... 18
A clustering-based Approach for Unsupervised Word Sense Disambiguation

Tamara Martín Wanton, Rafael Berlanga LLavori .................................................................... 18
Representación Gráfca de Documentos para Extracción Automática de Relaciones

Bernardo Cabaleiro Barciela, Anselmo Peñas Padilla .............................................................. 18
Sesión 3: Lexicografía y terminología computacionales

Moderador: Paolo Rosso. Universitat Politècnica de València.
Co-occurrence Graphs Applied to Taxonomy Extraction in Scientifc and Technical Corpora

Rogelio Nazar, Jorge Vivaldi, Leo Wanner ................................................................................ 19
Análisis del uso de métodos de similitud léxica con conocimiento semántico superfcial
para mapear la información de enfermería en español
Jorge Cruanes, M. Teresa Romá-Ferri, Elena Lloret Pastor ...................................................... 19
Hypernymy relations from defniens-defniendum co-occurrence in multiple dictionary

defnitions
Irene Renau, Rogelio Nazar ..................................................................................................... 19
Sesión 4: Reconocimiento y síntesis del habla
Jueves 6 de septiembre, de 10:00 a 11:15. Salón de Actos.

Moderadora: Raquel Martínez Unanue. UNED.
A Simple Approach to Use Bilingual Information Sources for Word Alignment

Miquel Esplà Gomis, Felipe Sánchez Martínez, Mikel L. Forcada ............................................ 20
Diseño y desarrollo de un sistema de evaluación automática de la pronunciación

para el euskara
Igor Odriozola, Oliver Jokisch, Inma Hernáez, Rüdiger Hoffmann ........................................... 20
Técnicas de post-procesado de resultados en un sistema de diarización de locutores

David Tavarez, Eva Navas, Daniel Erro, Ibon Saratxaga, Inma Hernaez .................................... 20
Sesión 5: Desarrollo de recursos y herramientas lingüísticas

Moderadora: Mariona Taulé Delor. Universitat de
Barcelona.
Revisión de técnicas para la construcción de WordNets mediante la estrategia de expansión

Antoni Oliver, Salvador Climent, Marta Contreras ................................................................... 20
Labeling Semantically Motivated Clusters of Verbal Relations

Gabriela Ferraro, Leo Wanner ................................................................................................. 21
A Hybrid Approach to Treebank Construction

Montserrat Marimon, Lluís Padró ........................................................................................... 21
Sesión 6: Aprendizaje automático para el PLN
Viernes 7 de septiembre, de 11:30 a 13:00. Salón de Actos.

Moderador: Jose Antonio Troyano Jimenez. Universidad de Sevilla.
Detección de la polaridad en citas periodísticas: una solución no supervisada

A. Montejo-Ráez, E. Martínez-Cámara, M. T. Martín-Valdivia, L. A. Ureña-López ................... 21
Learning a Statistical Model of Product Aspects for Sentiment Analysis

Lisette García-Moya, Rafael Berlanga Llavori, Henry Anaya-Sánchez ...................................... 21
A First Approach to the Automatic Detection of Zero Subjects, Impersonal Constructions

in Portuguese
Luz Rello, Gabriela Ferraro, Iria Gayo ...................................................................................... 22
Optimizing Planar, 2-Planar Parsers with MaltOptimizer

Miguel Ballesteros, Carlos Gómez-Rodríguez, Joakim Nivre ................................................... 22
Proyectos

Moderadora: Ana García Serrano. UNED.
IARG-AnCora: Anotación de los corpus AnCora con argumentos implícitos

Mariona Taulé, M. Antònia Martí, Aina Peris, Horacio Rodríguez, Lidia Moreno,
Paloma Moreda ....................................................................................................................... 22
METANET4U: Aumentar la Infraestructura Lingüística Europea

Núria Bel y Asunción Moreno .................................................................................................. 22
Mejorando el acceso, el análisis y la visibilidad de la Información y los contenidos

Multilingues y Multimedia en Red para la Comunidad de Madrid

F.Verdejo, R.Martínez, P. Castell, A. Moreno, D.Torre, P.Martínez, A. Duarte, J.M. Pardo, M. De
Buenaga, J. Cigarran, V Fresno, A. García Serrano, I. Cantador, D. Vallet, A. Martínez ............ 23
Tratamiento de la dimensión espacial en el texto y su aplicación a la recuperación

de información
David Tomás, Fernando S. Peregrino, Fernando Llopis, Sonia Vázquez, Paloma Moreda, Estela
Saquete, José M. Gómez, Rubén Izquierdo y Óscar Ferrández ................................................ 23
MILES (Modelos de Interacción centrados en Lenguaje, Espacio y Semántica computacional)

Pablo Gervás, Angélica de Antonio, Gabriel Amores ............................................................... 23
Demostraciones
Jueves 6 de septiembre, de 16:00 a 17:30. Sala de Juntas.
InLéctor: Sistema de lectura bilingüe interactiva

Antoni Oliver, Marta Coll-Florit, Salvador Climent ................................................................... 23
Prototipo buscador de información médica en corpus multilingües y extractor

de información sobre fármacos.
Daniel Sánchez Cisneros, Isabel Segura Bedmar, Paloma Martínez Fernández ....................... 23
Búsqueda multimedia en el proyecto Buscamedia

David Hernández-Aranda, Rubén Granados, A. García Serrano .............................................. 24
Sistema SAGAS: herramienta de soporte al subtitulado para sordos

Julio Villena, Lourdes Moreno, Paloma Martínez, José Carlos González ................................. 24
Pósters
Jueves 6 de septiembre, de 16:00 a 17:30. Sala de Juntas.
Método de extracción de información semántica en ontologías

Héctor Dávila, Antonio Fernández, Yoan Gutiérrez, Rafael Muñoz, Andrés Montoyo ............. 26
Anotación para la recuperación de información multimedia: el corpus Deportes20

R. Granados, D. Hernandez-Aranda, V. Fresno, J. Cigarran ...................................................... 34
Influencia de las entidades nombradas en la traducción de preguntas

Daniel Castro, Daylín González, María Pelaez, Yunior Ramírez ................................................ 42
Spanish JavaSimLib: una herramienta para el cálculo de la similitud semántica

entre palabras en castellano
Isaac Lozano, Alexandre Trilla, Francesc Alías .......................................................................... 48
Three-class Sentiment Analysis adapted to short texts

Alexandre Trilla, Francesc Alías.................................................................................................. 56
A Question Classifcation Study Based on machine learning

Helena Gómez Adorno, David Pinto, Nahun Loya, Yuridiana Alemán ....................................... 64
Una propuesta de análisis comparativo de traducciones humanas y automáticas de textos

especializados: implicaciones para la evaluación
Marina Fomicheva, Iria da Cunha, Gerardo Sierra..................................................................... 72
Comparación de dos enfoques para la extracción de hipónimos relevantes derivados

de hiperónimos
Olga Acosta, César Aguilar, Gerardo Sierra ................................................................................ 80
TALLER E-LKR ............................................................................................................................. 89
TALLER TASS ............................................................................................................................... 92
Lista de asistentes ................................................................................................................... 166

PONENCIAS INVITADAS
Natural Language Inference in Natural Language Terms
Ido Dagan (Bar Ilan University, Israel)
Reasoning requires a framework for meaning representation, over which inferences

would be applied. Traditionally, logic was perceived as the mathematical vehicle for
inference, and a plethora of logic languages were invented as meaning representations.
As for inference over textual expressions, the classic NLP approach followed the logic-
based paradigm: first translate natural language into logic and then conduct logical
inference. However, a more feasible alternative evolved in common practice: apply
inferences directly over linguistic representations, such as parse trees and lexical co-
reference chains, even though these were originally invented to capture language
structure rather than as meaning representations for inference. In this talk I will describe
recent learning-based approaches that perform broad textual inference over common
linguistic representations, under the textual entailment paradigm. I will suggest that we
should invest substantially in developing generic inference mechanisms over human-
language representations, while possibly interfacing with "extra-linguistic" inferences
where needed. Time permitting, a short demo of the open-source BIUTEE inference
system will be presented.
The potential of Linguistic Technology to drive polarity estimation in Web Social

Media
David Losada (Universidad de Santiago de Compostela)
With the dramatic rise of web-based social media, millions of people broadcast their
thoughts and opinions on a great variety of topics. This leads to a growing need to
automatically extract and successfully exploit these opinions. In recent years, several
research advances have been done in Web Information Retrieval (IR) and in the field of
Opinion Mining and Sentiment Analysis. Analyzing and exploiting opinions from the
web presents new challenges and needs techniques radically different from those of
relevance-based retrieval. In this talk, I will review the most recent research advances in
polarity classification of social media documents (e.g. blog posts) and I will argue that
understanding the flow of sentiments in a text is a major challenge for effectively
predicting the document's orientation towards a given topic. To meet this aim, we need
not only effective retrieval algorithms based on state of the art statistical approaches, but
we also require advanced Computational Linguistics methods to deal with the subtleties
of the language.
TUTORIAL
Learning‐to‐Rank
Parth Gupta (Universitat Politècnica de València)
Learning to Rank has emerged as an interesting incorporation of Machine Learning for

the ranking problem. Learning to Rank has successfully been applied to many problems
like document retrieval, collaborative filtering and key-phrase extraction. In general,
information processing which demands ordering among the information entities could
be a potential application of Learning-to-Rank. The goal of the tutorial would be to
introduce the problem of learning to rank and present the state-of-the-art approaches for
learning-to-rank, current advances and its applications. Another aim would also be to
organise hands-on session with current datasets, evaluation framework and freely
available APIs. Attendees will also exercise to set up the learning to rank environment
and to produce the baselines for the freely available algorithms. A code walk-through of
learning to rank API in Xapian1 (an open source search engine library) will also be
given so that attendees are able to incorporate learning to rank in their own applications.
Most of the open datasets come from the mainstream search engines like Yahoo,
Microsoft and Yandex and this clearly exhibit the industrial interest and application of
learning to rank.
Sesión 1: Análisis automático del contenido textual
Reducing Text Complexity through Automatic Lexical Simplification: an Empirical Study for
Spanish
Biljana Drndarevic, Horacio Saggion
En este artículo presentamos los resultados de un estudio cuyo objetivo es sentar las bases para
el desarrollo de un módulo de simplificación léxica para el español. Basándonos en estudios
para otras lenguas analizamos, en primer lugar, la distribución de la frecuencia y la longitud de
palabra en textos originales y sus simplificaciones manuales. En segundo lugar nos centramos
en los casos de clarificación de información a través de la introducción de definiciones en textos
simplificados. Finalmente estudiamos la reducción del contenido informativo del texto y
proponemos un sistema para su tratamiento basado en técnicas de resumen. Nuestro estudio
empírico sienta las bases para el desarrollo de un componente de tratamiento léxico en un
sistema de simplificación de textos en desarrollo.
A Framework for Obtaining Structurally Complex Condensed Representations of Document

Sets in the Biomedical Domain
Yunior Ramírez‐Cruz, Rafael Berlanga‐Llavori, Reynaldo Gil‐García
En este artículo presentamos un marco para la obtención de representaciones condensadas

estructuralmente complejas de conjuntos de documentos, el cual servirá de base para la
construcción de resúmenes, la obtención de respuestas para preguntas complejas, etc. Este
marco incluye un método para extraer una lista ordenada de hechos, triplas de la forma entidad -
relación - entidad, el cual usa patrones de extracción basados en análisis de dependencias y
modelos de lenguajes; y métodos para construir un grafo bipartito que codifique la información
contenida en el conjunto de hechos y determinar un orden de recorrido apropiado sobre dicha
estructura. Evaluamos los componentes de nuestro marco sobre una sub-colección extraída de
MEDLINE. Los resultados obtenidos son prometedores.
Sistema de Acceso a la Información basado en conceptos utilizando Freebase en Español‐

Inglés sobre el dominio Médico y Turístico
Rafael Muñoz Gil, Fernando Aparicio, Manuel de Buenaga
En este artículo presentamos una herramienta de acceso a la información, basado en los

conceptos, enfocada tanto a textos médicos como turísticos. Usando técnicas para el marcado de
entidades reconocidas, el sistema permite extraer conceptos relevantes para aportar más
información sobre ellos utilizando bases de conocimiento colaborativas y ontologías.
Componentes especialmente interesantes para el desarrollo del sistema son Freebase, una gran
base de conocimiento colaborativa, además de recursos formales como MedlinePlus y PubMed.
La arquitectura del sistema ha sido construida pensando en términos de escalabilidad, para
constituir una gran plataforma de integración de información, con los siguientes objetivos:
permitir la integración de diferentes técnicas de procesamiento de lenguaje natural y ampliar las
fuentes desde las que se extrae información, así como facilitar la integración de nuevas
interfaces de usuario.
Sesión 2: Extracción y Recuperación de la Información
Análisis de técnicas PLN de expansión de consulta aplicadas a la tarea de la recuperación de

información geográfica
José M. Perea‐Ortega, Miguel Á. García‐Cumbreras, L. Alfonso Ureña‐López, Arturo Montejo‐
Ráez
En este trabajo, proponemos diferentes técnicas relacionadas con el Procesamiento del Lenguaje
Natural (PLN) para reformular las consultas geográficas lanzadas a un sistema GIR. Estas
técnicas consistirán en la modificación y/o expansión de las dos partes normalmente
reconocidas en una consulta geográfica: la parte temática y la parte geográfica. Hemos evaluado
cada una de las reformulaciones propuestas utilizando un marco de experimentación para
evaluar sistemas GIR como GeoCLEF. Los resultados obtenidos demuestran que todas las
reformulaciones de consulta propuestas recuperaron documentos relevantes que no fueron
recuperados utilizando la consulta original, por lo que estas estrategias se pueden considerar de
utilidad a la hora de trabajar con sistemas GIR.
A clustering‐based Approach for Unsupervised Word Sense Disambiguation

Tamara Martín Wanton, Rafael Berlanga LLavori
Los métodos de agrupamiento han sido ampliamente usados en muchas tareas de Procesamiento
de la Información con el fin de capturar categorías de objetos desconocidos. Sin embargo, el
agrupamiento ha sido poco utilizado como método para etiquetar sentidos en la
Desambiguación del Sentido de las Palabras (WSD), es decir, como una forma de identificar
grupos formados por sentidos de palabras semánticamente relacionados que pueden ser
utilizados con éxito en el proceso de desambiguación. En este artículo presentamos un método
de desambiguación no supervisado basado en el agrupamiento de sentidos de palabras que
además es capaz de encontrar relaciones implícitas (no presentes en WordNet) entre los sentidos
de las palabras de la oración. Investigamos en profundidad el rol del agrupamiento y su
contribución al WSD. En los resultados experimentales se demuestra la utilidad del
agrupamiento para la desambiguación no supervisada.
Representación Gráfica de Documentos para Extracción Automática de Relaciones

Bernardo Cabaleiro Barciela, Anselmo Peñas Padilla
Este artículo presenta un sistema de representación de documentos orientado a la compactación,

integración y simplificación de información. El sistema genera grafos a nivel de documento a
partir de árboles de dependencias sintácticas haciendo explícita la semántica de algunas aristas.
El objetivo es crear una representación útil para múltiples tareas de procesamiento de lenguaje
natural, entre ellas la extracción automática de relaciones, para la que realizamos una evaluación
extrínseca cuantitativa.
Sesión 3: Lexicografía y terminología computacionales
Co‐occurrence Graphs Applied to Taxonomy Extraction in Scientific and Technical Corpora

Rogelio Nazar, Jorge Vivaldi, Leo Wanner
Los grafos de coocurrencia léxica han sido utilizados en lingüística computacional en

experimentos de desambiguación de sentidos pero hasta ahora no para la extracción de
relaciones de hiperonimia, donde la metodología más usual ha sido la aplicación de patrones
léxico-sintácticos. En este artículo mostramos que es posible extraer relaciones de hiperonimia
entre términos utilizando estadísticas de coocurrencia. La clave del método reside en que las
relaciones de coocurrencia no suelen ser simétricas en el caso de las relaciones de hiperonimia
y, en consecuencia, es posible generar grafos dirigidos de coocurrencia que guardan una
apariencia similar a la de una taxonomía. En el presente artículo presentamos experimentos con
textos de la Wikipedia en castellano ordenados aleatoriamente, pero los resultados sugieren que
la coocurrencia asimétrica entre términos es una propiedad intrínseca y macroscópica del
discurso argumentativo en general.
Análisis del uso de métodos de similitud léxica con conocimiento semántico superficial para
mapear la información de enfermería en español
Jorge Cruañes, M. Teresa Romá‐Ferri, Elena Lloret Pastor
Uno de los problemas actuales en el dominio de la salud es reutilizar y compartir la información

clínica entre profesionales, ya que ésta se encuentra escrita usando terminologías específicas.
Una posible solución es usar un recurso de conocimiento común sobre el que mapear la
información existente. Nuestro objetivo es comprobar si la adición de conocimiento semántico
superficial puede mejorar los mapeados establecidos. Para ello experimentamos con un conjunto
de etiquetas de NANDA-I y con un conjunto de descripciones de SNOMED-CT en castellano.
Los resultados obtenidos en los experimentos muestran que la inclusión de conocimiento
semántico superficial mejora significativamente el mapeado léxico entre los dos recursos
estudiados.
Hypernymy relations from definiens‐definiendum co‐occurrence in multiple dictionary

definitions
Irene Renau, Rogelio Nazar
Presentamos una metodología basada en estadísticas de coocurrencia entre definiens y

definiendum con el fin de extraer relaciones hiperonímicas de un corpus lexicográfico, como
parte de un proyecto más extenso dedicado a la creación de una ontología general de nombres
aplicada al estudio de las relaciones predicado-argumento. La idea de la presente propuesta es
hacer emerger las relaciones de hiperonimia mediante la combinación de distintas fuentes
lexicográficas. Encontramos que los hiperónimos de una palabra son los que aparecen con más
frecuencia en las definiciones de esa palabra en diccionarios y que, del mismo modo, sus
hipónimos suelen ser los que contienen frecuentes menciones a esta palabra en sus definiciones.
Esto crea una asociación estadística entre palabras y permite estructurar un vocabulario en
forma de taxonomía. Resultados preliminares muestran una precisión de 71,57% en
hiperónimos y de 67,97% en hipónimos.
Sesión 4: Reconocimiento y síntesis del habla
A Simple Approach to Use Bilingual Information Sources for Word Alignment

Miquel Esplà Gomis, Felipe Sánchez Martínez, Mikel L. Forcada
En este artículo se describe un método nuevo y sencillo para utilizar fuentes de información
bilingüe para el alineamiento de palabras en segmentos de texto paralelos. Este método puede
ser utilizado al vuelo, ya que no requiere de entrenamiento. Además, puede ser utilizado con
corpus comparables. Hemos comparado los resultados de nuestro método con los obtenidos por
la herramienta GIZA++, ampliamente utilizada para el alineamiento de palabras, obteniendo
unos resultados bastante similares.
Diseño y desarrollo de un sistema de evaluación automática de la pronunciación para el

euskara
Igor Odriozola, Oliver Jokisch, Inma Hernáez, Rüdiger Hoffmann
En este artículo, se presentan los primeros pasos en el desarrollo de un sistema de enseñanza de

la pronunciación asistida por ordenador (CAPT, Computer-Assisted Pronunciation Teaching)
para el euskara. El punto de partida es un sistema estándar de reconocimiento automático del
habla (ASR) basado en modelos ocultos de Markov (HMM) que maneja parámetros de
confianza GOP (Goodness of Pronunciation) para la verificación de fonemas. Dicho ASR se
integrará en AzAR, el software de entrenamiento de la pronunciación desarrollado para el
alemán y varias lenguas eslavas. En este artículo se presentan los primeros pasos del diseño del
currículum para el euskara, los problemas generados en la verificación por el uso de HMMs
creados a partir de una base de datos de ASR, y algunos resultados iniciales.
Técnicas de post‐procesado de resultados en un sistema de diarización de locutores

David Tavarez, Eva Navas, Daniel Erro, Ibon Saratxaga, Inma Hernaez
Este artículo presenta las técnicas de post-procesado diseñadas para mejorar los resultados de un
sistema de diarización de locutores. Se han propuesto tres técnicas de mejora: el refinado de la
segmentación voz/no voz, la asimilación de los segmentos cortos y la fusión de los clusters del
mismo locutor. Las técnicas se han implementado en un módulo que se aplica como etapa de
post-procesado y que ha mejorado un 22.3% el resultado del sistema base. El módulo se ha
aplicado sin realizar ningún ajuste sobre otro sistema de diarización de arquitectura similar al
sistema base con una mejora del 21% y sobre uno con arquitectura muy diferente sin
conseguirse mejoras. Asimismo se ha utilizado con otra base de datos y se ha conseguido
mejorar el DER un 17 %. Esto demuestra la validez de las técnicas desarrolladas para la mejora
de los resultados de la diarización.
Sesión 5: Desarrollo de recursos y herramientas lingüísticas
Revisión de técnicas para la construcción de WordNets mediante la estrategia de expansión

Antoni Oliver, Salvador Climent, Marta Contreras
Este artículo ofrece una revisión de métodos para la construcción de WordNets siguiendo la
estrategia de expansión, es decir, mediante la traducción de las variants inglesas del Princeton
WordNet. En el proceso de construcción se han utilizado recursos libres disponibles en Internet.
El artículo presenta también los resultados de la evaluación de las técnicas en la construcción de
los WordNets 3.0 para el castellano y catalán. Estas técnicas se pueden utilizar para la
construcción de WordNets para otras lenguas.
Labeling Semantically Motivated Clusters of Verbal Relations
Gabriela Ferraro, Leo Wanner
El clustering de documentos es un campo de investigación popular en los ámbitos del

Procesamiento del Lenguaje Natural, la Minería de Datos y la Recuperación de Información
(RI). El problema de agrupar unidades léxicas mediante clustering ha sido menos estudiado y
menos aún, el problema de etiquetar los clusters. Sin embargo, en nuestra aplicación, que trata
sobre la extracción de tuplas de relaciones para ser usadas como entrada a programas para
dibujar diagramas de bloques o mapas conceptuales, este problema es fundamental. La
valoración de varias estrategias de etiquetado de clústers de documentos nos revela que algunas
de estas técnicas pueden ser también aplicadas para etiquetar nuestros clusters, compuestos por
verbos semánticamente similares. Para confirmar esta suposición, llevamos a cabo una serie de
experimentos y evaluamos su rendimiento contra baselines y un gold-standard de clusters
etiquetados.
A Hybrid Approach to Treebank Construction

Montserrat Marimon, Lluís Padró
Este artículo describe investigación sobre los efectos de la desambiguación morfosintáctica

usada como un pre-proceso de un analizador sintáctico profundo basado en HPSG, en el
contexto del desarrollo de un treebank del español de código abierto, en el entorno de DELPH-
IN. La anotación treebank se realiza manualmente tomando las decisiones apropiadas entre las
opciones propuestas por el sistema y ordenadas por un módulo estadístico. Los experimentos
presentados muestran que el uso de un etiquetador reduce la ambigüedad de las frases, y
contribuye a limitar la cantidad de frases cuyo análisis sobrepasa el límite de tiempo, y ayuda a
al módulo estadístico a clasificar el árbol correcto entre los n mejores. Por un lado, nuestros
resultados validan los beneficios ya reportados en la literatura de tal pre-proceso de análisis
profundo con respecto a la velocidad, cobertura y precisión. Por otro lado, proponemos una
estrategia basada en existentes herramientas de código abierto y recursos para desarrollar con
alta consistencia treebanks de sintaxis profunda para idiomas con limitada disponibilidad de
recursos lingüísticos.
Sesión 6: Aprendizaje automático para el PLN

Detección de la polaridad en citas periodísticas: una solución no supervisada

A. Montejo‐Ráez, E. Martínez‐Cámara, M. T. Martín‐Valdivia, L. A. Ureña‐López
El presente trabajo expone los resultados alcanzados mediante un método no supervisado para la
detección de la polaridad en textos relativos a citas aparecidas en noticias en inglés,
correspondientes al corpus 2010 JRC 1590 quotes. Este método, basado en la obtención de un
sub-grafo de WordNet obtenido mediante el algoritmo Page Rank y su ponderación mediante
los valores correspondientes en SentiWordNet, propone una solución no supervisada que ofrece
unos resultados competitivos sobre algunas técnicas actuales.
Learning a Statistical Model of Product Aspects for Sentiment Analysis

Lisette García‐Moya, Rafael Berlanga Llavori, Henry Anaya‐Sánchez
En este artículo se introduce una nueva metodología para modelar características de productos a
partir de una colección de opiniones de usuarios. La metodología propuesta se basa en modelos
estadísticos de lenguajes y es aplicable a productos de dominio arbitrario. La metodología
combina un kernel de palabras de opinión con un modelo de traducción de palabras para estimar
el modelo de características. Se presenta además un método para modelar las opiniones vertidas
sobre las características. Los experimentos realizados sobre diferentes colecciones de opiniones
muestran resultados alentadores en el modelado tanto de características como de opiniones
vertidas sobre éstas.
A First Approach to the Automatic Detection of Zero Subjects, Impersonal Constructions in

Portuguese
Luz Rello, Gabriela Ferraro, Iria Gayo
Este trabajo constituye un primer intento de abordar la detección automática de sujetos elididos
y de construcciones impersonales en portugués de Brasil, una tarea que no nos consta que se
haya llevado a cabo previamente en esta lengua. Para ello, creamos un corpus que contiene más
de 5.600 casos anotados con las clases que deben identificarse: sujetos explícitos, sujetos o
pronombres omitidos y construcciones impersonales. Estos casos se clasificaron mediante
aprendizaje automático basado en rasgos lingüísticamente motivados. Los resultados obtenidos
son modestos, aunque prometedores, y proporcionan una orientación para futuros trabajos en
este ámbito.
Optimizing Planar, 2‐Planar Parsers with MaltOptimizer

Miguel Ballesteros, Carlos Gómez‐Rodríguez, Joakim Nivre
MaltOptimizer es una herramienta capaz de proporcionar una optimización para modelos

generados mediante MaltParser. Los analizadores de dependencias actuales requieren una
completa configuración para obtener resultados a la altura del estado del arte, y para ello es
necesario un conocimiento especializado. Los analizadores Planar y 2-Planar son dos algoritmos
diferentes y de reciente incorporación en MaltParser. En el presente artículo presentamos cómo
estos dos analizadores pueden incluirse en MaltOptimizer comparándolos con el resto de
familias de algoritmos incluidas en MaltParser, y cómo se puede definir una búsqueda y
selección de atributos (o features) usando el propio sistema para estos dos parsers. Los
experimentos muestran que usando estos métodos podemos mejorar la precisión obtenida hasta
un porcentaje absoluto del 8 por ciento (labeled attachment score) si lo comparamos con una
configuración básica de estos 2 parsers.
Proyectos
IARG‐AnCora: Anotación de los corpus AnCora con argumentos implícitos

Mariona Taulé, M. Antònia Martí, Aina Peris, Horacio Rodríguez, Lidia Moreno, Paloma
Moreda
IARG-AnCora tiene como objetivo la anotación con papeles temáticos de los argumentos
implícitos de las nominalizaciones deverbales en el corpus AnCora. Estos corpus servirán de
base para los sistemas de etiquetado automático de roles semánticos basados en técnicas de
aprendizaje automático. Los analizadores semánticos son componentes básicos en las
aplicaciones actuales de las tecnologías del lenguaje, en las que se quiere potenciar una
comprensión más profunda del texto para realizar inferencias de más alto nivel y obtener así
mejoras cualitativas en los resultados.
METANET4U: Aumentar la Infraestructura Lingüística Europea

Núria Bel y Asunción Moreno
El proyecto METANET4U está contribuyendo a la creación de una plataforma digital pan-

europea que sustentará la distribución y el intercambio de recursos y servicios lingüísticos con
el objetivo último de apoyar el desarrollo de aplicaciones basadas en tecnologías lingüísticas.
Mejorando el acceso, el análisis y la visibilidad de la Información y los contenidos
Multilingues y Multimedia en Red para la Comunidad de Madrid
F.Verdejo, R.Martínez, P. Castell, A. Moreno, D.Torre, P.Martínez, A. Duarte, J.M. Pardo, M. De
Buenaga, J. Cigarran, V Fresno, A. García Serrano, I. Cantador, D. Vallet, A. Martínez
Presentación de las actividades del segundo programa de la red de investigación MAVIR de la

Comunidad de Madrid.
Tratamiento de la dimensión espacial en el texto y su aplicación a la recuperación de

información
David Tomás, Fernando S. Peregrino, Fernando Llopis, Sonia Vázquez, Paloma Moreda, Estela
Saquete, José M. Gómez, Rubén Izquierdo y Óscar Ferrández
Proyecto emergente centrado en la desambiguación de topónimos y la detección del foco

geográfico en el texto. La finalidad es mejorar el rendimiento de los sistemas de recuperación de
información geográfica. Se describen los problemas abordados, la hipótesis de trabajo, las tareas
a realizar y los objetivos parciales alcanzados.
MILES (Modelos de Interacción centrados en Lenguaje, Espacio y Semántica computacional)

Pablo Gervás, Angélica de Antonio, Gabriel Amores
La finalidad principal del proyecto es desarrollar una arquitectura para sistemas de interacción
que conjugue un motor de diálogo, un generador de lenguaje natural, y una representación
semántica basada en ontologías que abarque tanto el espacio (real o virtual) como el usuario que
en él se ubica.
Demostraciones
InLéctor: Sistema de lectura bilingüe interactiva

Antoni Oliver, Marta Coll‐Florit, Salvador Climent
Este proyecto pretende desarrollar un sistema que genere libros bilingües, con audio e
interactivos. El sistema ofrecerá diversos formatos de salida que permitan leer y escuchar los
libros en diferentes dispositivos, como libros electrónicos, tabletas y ordenadores. Asimismo,
ofrecerá la posibilidad de obtener libros paralelos impresos.
Prototipo buscador de información médica en corpus multilingües y extractor de

información sobre fármacos.
Daniel Sánchez Cisneros, Isabel Segura Bedmar, Paloma Martínez Fernández
La investigación y desarrollo de nuevos fármacos ha provocado un crecimiento exponencial de

la documentación relacionada con el dominio farmacológico y en la industria farmacéutica. Esto
ha supuesto un problema para los profesionales del sector, debido a que tienen que invertir una
gran cantidad de tiempo y esfuerzo en la revisión de esta documentación para mantener
actualizados sus conocimientos. Este trabajo presenta un prototipo que busca información sobre
términos médicos en colecciones divulgativas de medicina multilingües (en inglés, español,
árabe y japonés) indexadas según conceptos de UMLS. El prototipo también detecta los
fármacos y sus interacciones presentes en los textos.
Búsqueda multimedia en el proyecto Buscamedia

David Hernández‐Aranda, Rubén Granados, A. García Serrano
En este artículo corto se muestra la funcionalidad tanto del servicio anotador de textos desarrollado
en el marco del proyecto Buscamedia (http://www.cenitbuscamedia.es/), como del buscador sobre
recursos o documentos multimedia anotados.
Sistema SAGAS: herramienta de soporte al subtitulado para sordos

Julio Villena, Lourdes Moreno, Paloma Martínez, José Carlos González
Siguiendo legislación en España, en televisión se deben alcanzar unas cuotas en el servicio de

subtitulado para personas sordas, además, los subtítulos deben elaborarse siguiendo normativa.
Este marco regulador conlleva una demanda de tecnología que facilite a los radiodifusores y
productores de contenido la generación de subtitulado, como es la generación automática de
subtitulado a partir de reconocimiento de audio. En este trabajo se presenta “SAGAS, Sistema
Avanzado de Generación Automática de Subtítulos”, que proporciona subtítulos adecuados a la
norma española para contenido vídeo que vaya acompañado de un guión o transcripción.
Pósters
Método de extracción de información semántica en ontologías

Héctor Dávila, Antonio Fernández, Yoan Gutiérrez, Rafael Muñoz, Andrés Montoyo
Anotación para la recuperación de información multimedia: el corpus Deportes20

R. Granados, D. Hernandez‐Aranda, V. Fresno, J. Cigarran
Influencia de las entidades nombradas en la traducción de preguntas

Daniel Castro, Daylín González, María Pelaez, Yunior Ramírez
Spanish JavaSimLib: una herramienta para el cálculo de la similitud semántica entre palabras
en castellano
Isaac Lozano, Alexandre Trilla, Francesc Alías
Three‐class Sentiment Analysis adapted to short texts

Alexandre Trilla, Francesc Alías
A Question Classification Study Based on machine learning

Helena Gómez Adorno, David Pinto, Nahun Loya, Yuridiana Alemán
Una propuesta de análisis comparativo de traducciones humanas y automáticas de textos

especializados: implicaciones para la evaluación
Marina Fomicheva, Iria da Cunha, Gerardo Sierra
Comparación de dos enfoques para la extracción de hipónimos relevantes derivados de

hiperónimos
Olga Acosta, César Aguilar, Gerardo Sierra
Pósters
Método de Extracción de Información Semántica en ontologías
Semantic Information Extraction method on ontologies
Héctor Dávila Díaz Antonio Fernández Orquín Yoan Gutiérrez Vázquez

Universidad de Matanzas. Universidad de Matanzas. Universidad de Matanzas.
Cuba Cuba Cuba
hector.davila@umcc.cu antonio.fer nandez@umcc.cu yoan.gutierrez@umcc.cu
Rafael Muñoz Guillena Andrés Montoyo Guijarro Sonia Vázquez Pérez

Universidad de Alicante. Universidad de Alicante. Universidad de Alicante.
España. España. España.
rafael@dlsi.ua.es montoyo@dlsi.ua.es svazquez@dlsi.ua.es
Resumen: El método de Extracción de Información Semántica en ontologías propone la

inferencia de ontologías creadas en formato RDF, mediante un conjunto de transformaciones e
identificación de cada término dependiendo de su contexto. Como consecuencia de ello se
forma como modelo final un grafo de contenido. Una vez terminado el proceso de lectura se
realiza la inferencia en el conjunto de ontologías existentes, dando como resultado un sub-
grafo (sub- ontología) sugerido como respuesta. Dicho sub-grafo se crea mediante la
localización de instancias relacionadas con la frase y los nodos conectados directamente a cada
una de ellas. El método desarrollado; evaluado sobre pequeñas bases de conocimiento,
pobladas en la fase de experimentación, obtiene resultados significativos en su mayoría con una
F-medida promedio de
0.70.
Palabras Clave: Ontología, Extracción de Conocimiento Semántico, Recuperación
de
Conocimiento.
Abstract: The Semantic Information Extraction method on ontologies proposes to accomplish

inference into ontologies created in RDF format, by means of a set of transformations and the
identification of every term depending of its context. This method creates a graph of content as
final model. Once the reading process was finished, the inference in the set of existing
ontologies comes true, giving as a result a small sub-graph (sub-ontology) with the proposed
answer. Said sub-graph is created by locating instances that are related to the sentence and the
nodes connected directly to each one of them. The developed method; evaluated on little
bases of knowledge, populated in the experimentation phase, obtains significant results in the
majority of cases with an average F-Measure of 0.70.
Keywords: Ontology, Semantic Knowledge Extraction, Knowledge
retrieval.
denomina Procesamiento del Lenguaje Natural

1. Introducción (PLN).
En la actualidad existen inmensos Una de las propuestas de la Inteligencia
volúmenes de información en forma de Artificial es la representación del conocimiento
lenguaje natural (o lenguaje humano), por esta (información) en estructuras que faciliten su
razón ha surgido como necesidad el estudio procesamiento, destacándose entre ellas las
técnicas para procesar dichos volúmenes. Ontologías. Esto, sin embargo no es suficiente.
Esta tarea se lleva a cabo mediante el uso de Es necesaria la existencia de algún
equipos de cómputo, el único problema es que procedimiento que permita la recuperación de
las máquinas no comprenden el lenguaje los datos almacenados. Actualmente los
humano con facilidad. Con el fin de dar recuperadores de información en ontologías
solución a esta problemática surge una requieren de un previo análisis de su
disciplina que relaciona directamente la estructura, así como los metadatos asociados a
informática y la lingüística, esta se ella y la recuperación implica el
conocimiento
de un lenguaje de consulta. Después de un Muchas de estas herramientas han estado

estudio de esta temática hemos constatado la sometidas a profundas investigaciones, pues su
inexistencia de un procedimiento de consulta éxito recae en la exactitud en el instante de
basado en la ampliación de ontologías en una recuperar la información. Dentro de estas
red semántica, a nivel de relaciones entre herramientas se encuentran los navegadores y
valores y axiomas, donde las inferencias se los motores de búsqueda. En este trabajo solo
puedan realizar en lenguaje natural. se describen los segundos debido a ser los más
Por lo que en esta investigación se propone cercanos a la propuesta en cuestión.
un método de extracción de información
semántica en ontologías, basado en su 1.3. Los Motores de Búsqueda
manipulación en lenguaje RDF (Resource
Description Framework) (Brickley and Guha, Un motor de búsqueda de Bases de
2004; Klyne and Carroll, 2004). Como Conocimiento se centra en responder a las
objetivo central se plantea el desarrollo de un preguntas formuladas por el usuario. Ellos
procedimiento de consulta, basado en la pueden ser mucho más expresivos que los
ampliación de ontologías en una red semántica, buscadores tradicionales como Google, Yahoo,
a nivel de relaciones entre valores y axiomas, altavista, EasySearch, Ask, etc.
que permita las inferencias desde lenguaje A continuación se listan los principales
natural. Motores de Búsqueda que utilizan Linked
Data
como Base de Conocimiento:
2 3
1.1. Las Bases de Conocimiento  SigMa : Es un Mashup Search Engine.
1
Una base de conocimiento es un tipo especial http://www.w3.org/standards/tec

de base de datos destinada a la gestión del hs/owl#w3c_all
conocimiento. Proporciona herramientas para
la recolección, organización y recuperación de
información computarizada. Las bases de
conocimiento se pueden clasificar en dos
grupos:
 Leíbles por humanos: Están diseñadas para
permitir el acceso al conocimiento,
principalmente para propósitos de
aprendizaje.
 Leíbles por máquinas: Diseñadas para

almacenar el conocimiento (en RDF,
1
OWL , etc) con el objetivo de obtener
razonamientos deductivos automáticos.
Estos grupos pueden utilizar ontologías para
especificar su estructura. Una ontología, junto
con instancias de sus clases, constituye una
base de conocimiento. Las bases de
conocimiento leíbles por máquinas son
utilizadas por la Web semántica.
Actualmente la mayor base de conocimientos
existente es LinkedData (Heath and
Bizer,
2011), con más de 395 millones de enlaces a
documentos en formato RDF .
1.2. Herramientas para el consumo

de bases de conocimiento
Las bases de conocimientos no cumplirían su
objetivo sin la existencia de herramientas que
permitan el consumo de la información.
Visualiza información interactiva

proveniente de cientos de orígenes a la misma vez.
4
Puede ser embebido en páginas web. Utiliza Sindice
como motor de
búsqueda. Posee una versión que permite crear
proveedores de datos personalizados (Tummarello et al.,
2010).
 Sindice (The Semantic web Index): Plataforma
para construir aplicaciones para a búsqueda de datos en
la web. Colecciona datos mediante muchas vías
siguiendo los estándares de la web. Ofrece búsquedas y
consultas a estos datos, actualizándose cada pocos
minutos (Tummarello et al.,
2007).
5
 VisiNav : Sistema para buscar y navegar datos en la
web (Harth, 2010).
6
 SWSE (Semantic Web Search Engine) :
Prototipo que combina experiencias y resultados que
miembros individuales han adquirido y continúan
adquiriendo en otros proyectos (Harth et al., 2008).
2
http://sig.ma/
3
Página web o aplicación que usa y combina datos, presentaciones
y funcionalidad procedentes de una o más.
4
http://sindice.com
5
http://visinav.deri.org/
6
http://www.swse.org/
7 serie proporci pri
 Swogle :
limitada ones mer
Es un (porcent a
de
motor de pregunta ajes). fas
búsqueda s que e)
de cumplan 2. rela
ontologías, con un Méto cio
documentos patrón. do de nad
La Extra os
, términos y
respuesta a la
datos cción
es fras
publicados Semá e
puntual,
en la Web. puesto
ntica pro
Swoogle que solo La pue
emplea un retorna propuest sta.
un a Par
sistema de
término principal a
crawlers cad
y no un de este
para contexto, a
trabajo
descubrir no se uno
documentos contesta denomin de
RDF pregunta a ello
(Klyne and s que Método s
requieran de bus
J.Carroll,
un Extracci ca
2006) y un
razonami ón
documentos sub
ento Semánti
HTML con -
temporal ca. Éste
contenido gra
(reciente se divide
RDF. mente, el en dos fo
Algunos más último fases. La (su
avanzados año, etc.) primera b-
8 o casual se ont
como Watson olo
(por especiali
presentan APIs gía

qué…). za en
(Application )
Los convertir
Program con
títulos o cada
Interface) como los
9 nombres ontologí
PowerAqua , separado a en un tér
sistema basado s por grafo min
en preguntas y preposici ampliad os
respuestas, ones o de má
donde el deben conocim s
usuario escribirs ientos. rele
introduce una e entre La van
interrogante y comillas. segunda tes.
el sistema es No puede explora En
capaz de contestar todos otr
encontrar las pregunta los as
ontologías s que grafos pal
vinculadas y contenga de abr
responder con n conocim as,
los términos negación, iento (de el
implicados. compara los pro
Aún así ciones, creados ces
PowerAqua superlati en la o
contesta una vos o de
búsqueda u h
OWL): Rango,
localiza, para m t
t Dominio y
cada ontología b
c p Subclase_de. La
relacionada, : conversión de la
.
una porción e / representación
donde se d
/ RDF en un
encuentra el p
u
r grafo de
contexto / conocimiento
8 o
vinculado con t pasa por los
la frase h e siguientes
propuesta. t g pasos:
t e
p .
1.
2.1. Fase : Representac
s
1: / t ión de
Proceso / a elementos
de k n del
m f esquema de
Conversió i o
n r
Clases.
-
w d 2.
Este proceso . Representac
e
consiste en e ión de
b
representar 0 d elementos
cada valor de 5
u
del
las etiquetas de /
. esquema de
10 r
RDF y RDFS o
d Instancias.
(Clases, p
f 3.
Propiedades e e
n Representac
Instancias) en ión de los
.
una red valores
a
semántica c literales del
respetando las . esquema de
relaciones entre u Instancias.
ellas. Dichas k
4.
relaciones se /
Representac
encuentran O
definidas v ión de los
mediante e valores no
propiedades r literales del
RDFS (sin v esquema de
i Instancias.
considerar las e
de Es importante
w
destacar que
.
7
h
se ha
h t decidido
t m desarrollar el
t l Método de
9
p http: Extracción
: //pow Semántica
/ eraqu soportado sobre
/ a.ope
n.ac.
RDF-RDFS, el
s
uk:8 cual sustenta a
w
o 080/ la herramienta
powe 12
o Protege . Esta
raqua decisión se
g
linke
l
d
concentra en
e 1 reducir la
. 0
complejidad
semántica que presenta :
RDF/OWL (Mcguinness and C
Harmelen, 2004), para l
concentrar los resultados en a
el uso de las s
s
representaciones básicas del
>
conocimiento. Por lo tanto,
se descartan las restricciones <rdf:
Prop
de clases y propiedades
erty
específicas. Este tipo de rdfs:
representación almacena la label
información en dos ficheros ="na
diferentes: me"
 “nombre del rdf:a
fichero”.rdfs: se bout
="na
almacena toda la
me"
información <rdfs:range
correspondiente al rdfrdf:reso
esquema de clases (SC). urce="Liter
al"/>
 “nombre del <rdfs:do
fichero”.rdf: se almacena main
toda la información rdf:resour
ce="Bank
correspondiente al " />
esquema de instancias <
(SI). /
r
2.1.1.Representació d
n de elementos f
del esquema de :
Clases P
r
Este primer paso consiste en o
localizar todas las etiquetas p
<rdfs:class> y e
<rdfs:property> en SC y r
para cada uno de los t
valores asociados a ellas, se y
crea un nodo identificado >
con dicha información de El grafo a
valor dentro del Grafo de representar contiene
Conocimiento (GK). La la siguiente
representación del lenguaje
estructura: ��
de etiquetado puede ser
de la siguiente forma:
<rdfs:Class (��, ��ó�),
rdf:about="Bank"rdfs:label=
"Bank">
<rdfs:subClassOf donde un
rdf:resource="Resource"
12
/> Herramienta para la
< edición de bases de
conocimiento.
/
r
d
f
s
nodo representa los términos de una ontología. 2.1.3.Representación de los valores literales
Una relación entre nodos se define como: del esquema de Instancias
𝑅 (��1, ��_��ó�, ��2). Con lo cual el
En documentos RDF los valores de los
ejemplo anterior quedaría como
sigue: términos pueden ser literales (valores
 ��1 (��, ��_��, ��) atómicos, textos números) o URIs13
 ��2 (��, ��, ��). (representando a otros términos). En este paso
Una vez creados todos los nodos, se prosigue se procede a crear, por cada valor literal, un
a enlazarlos teniendo en cuenta las siguientes nodo en el GK y relacionarlo mediante las
relaciones definidas como propiedades de siguientes etiquetas:
RDF (o inversas de direccionalidad de las  Instance_of: Para establecer de qué
propiedades): propiedad del modelo se deriva.
1. Domain: Para establecer las clases a la  Have_Instance: Para establecer, dado una
que pertenece una propiedad. propiedad, todas las instancias derivadas.
2. Have_a: Para establecer que una  Have_a: Para establecer la relación entre
clase tiene una propiedad (inversa de una instancia y un literal, o sea los valores
Domain). atómicos que posee una determinada
3. Range: Para establecer el valor que instancia.
tiene una propiedad, si son valores  Domain: Para establecer a qué instancia
atómicos como texto y números esta pertenece el literal.
relación apunta a Literal. Ejemplo de código RDF:
4. Relation: Para establecer, dado un nodo v, <rdf_:Bank rdf:about="KB_Instance01"
las propiedades cuyo Range es v rdfs:label="KB_Instance01">
(Inversa de Range). <rdf_:name rdf:resource="BCC"/>
5. SubClassOff: Para representar que una </rdf_:Bank>
clase hereda de otra, en caso de no existir Como se observa en el fragmento de código
hereda de Recurso. anterior, la instancia KB_Instance01 (ya
6. SuperClassOff: Para establecer que una existe un nodo en el GK que la identifica)
clase es superclase de otra (Inversa de posee un atributo name con valor BCC. Esto
SubClassOff). equivale a crear un nodo con valor BCC,
2.1.2.Representación de elementos del conectarlo al nodo name mediante la relación
esquema de Instancias Instance_of (viceversa con Have_Instance) y
al nodo KB_Instance01 mediante la relación
En este segundo paso se procede a crear un Domain (viceversa con Have_a).

nodo por cada instancia localizada en el
documento RDF. Una vez creados los nodos se 2.1.4.Representación de los valores no
prosigue a vincularlos con las clases que los literales del esquema de Instancias
definen (Esquema) mediante las siguientes En este paso se procede a crear las relaciones
relaciones: de tipo no literal (se enlazan con otras
 Instance_of: Para establecer que un nodo instancias) que contiene cada instancia. En
es instancia de una clase. lugar de relacionar la instancia directamente
 Have_Instance: Para establecer las con el valor no literal (otra instancia), se crea
instancias que tiene una clase. Inversa de un nodo intermedio (Temp1) y se relacionan
Instance_of. respectivamente mediante las siguientes
Ejemplo de código RDF: etiquetas:
<rdf_:Bank rdf:about="KB_Instance01"  Instance_of: Para establecer a qué
rdfs:label=" KB_Instance01"> propiedad hace referencia el nodo
… intermedio.
</rdf_:Bank>  Have_Instance: Inversa de Instance_of.
Con este fragmento de código se crea una  Have_a: Para establecer que un instancia
Instancia (KB_Instance01) y se conecta con el tiene una determinada propiedad. Esta
nodo Bank mediante la relación Instance_of, propiedad puede ser un nodo temporal.
también se conectan en sentido contrario a
través de la relación Have_Instance.
13
Uniform Resource Identifier, una cadena corta de
caracteres que identifica inequívocamente un recurso.
 Domain: Para establecer a qué instancia los siguientes pasos:
pertenece un nodo intermedio. 1. Creación de posibles palabras compuestas.
 Range: Para establecer la instancia que 2. Búsqueda de coincidencias textuales.
asume como valor. 3. Lemas, sinónimos.
 Relation: Inverso a la relación Range. 4. Búsqueda de respuesta en los grafos de
Al finalizar este paso queda conocimiento.
completamente conformado el GK. Es
2.2.1.Creación de posibles palabras
importante destacar que en cada nodo se
compuestas
almacena el valor (cadena de caracteres que
identifica el valor) adquirido de SC y SI, Cuando se introduce la frase de búsqueda, el
14 15
además de su correspondiente lema . La primer paso es eliminar todas las Stop Words .
Figura 1 muestra cómo quedaría el grafo de Una vez realizado este paso es necesario
conocimiento después de finalizada la primera detectar las palabras compuestas o multi-
fase. palabras (ej. stand up, seat down, etc.). Esto se
Los pentágonos representan las clases, los realiza creando temporalmente todas las
rombos las propiedades, los valores posibles combinaciones entre duplas de
literales son representados por triángulos, las palabras consecutivas y buscándolas en
16
instancias
por elipses, mientras que los nodos temporales
(instancias de una propiedad cuyo rango no es WordNet (Miller et al., 1990). Al culminar
un literal) son representados a través de
14
rectángulos. Como se pudo apreciar el objetivo Primitiva de la palabra. En este caso
se utilizan dos diccionarios (inglés y
es convertir tanto clases como propiedades, en
español).
nodos del grafo; permitiendo así una búsqueda
más especializada. Esto se logra gracias a la
inclusión de las relaciones como nuevos
términos dentro del grafo de conocimiento.
También se logra el relacionamiento entre
dichos términos mediante etiquetas
preestablecidas, conociendo previamente los
nodos asociados a través de una etiqueta
específica.
Figura 1. Grafo de conocimiento ampliado.
2.2. Fase 2: Proceso de Búsqueda

Luego de haber analizado los beneficios que
presenta para la extracción de información
semántica, el modelo de grafo de conocimiento
propuesto, a continuación se describe cómo
obtener el contexto de la ontología
relacionado a una frase o pregunta. Esta fase
se divide en
este proceso se obtiene una colección de
palabras con significado semántico. Es importante destacar
que este proceso está diseñado para palabras en inglés,
puesto que WordNet no contiene otro idioma. Para
extender la búsqueda a otros idiomas sería necesario incluir
los diccionarios correspondientes o utilizar otro recurso
como Multi-WorNet (Pianta et al., 2002) o EuroWordNet
(Vossen, 1998).
2.2.2.Búsqueda de coincidencias textuales
En este paso se realiza una búsqueda de las palabras
adquiridas en el paso anterior, dentro de los grafos de
conocimiento obtenidos en la primera fase. De esta manera
se desea conocer qué ontologías están relacionadas con la
frase de entrada. Sin embargo, con esto no se garantiza que
se haya encontrado la mayor cantidad de palabras
posibles. Puede ocurrir que los verbos estén conjugados o
simplemente que cambie su número (plural o singular).
2.2.3.Distancia Léxica, sinónimos
El objetivo de este paso es lograr encontrar la mayor
cantidad de palabras involucradas dentro de los grafos
de conocimientos. Como se explicó anteriormente, en cada
nodo se almacena un valor correspondiente al lema. Éste,
en muchas ocasiones, es el valor más encontrado. Por lo
que es de interés buscar el lema de las palabras no halladas
y ejecutar nuevamente el paso uno.
15
Artículos, preposiciones, conjunciones u otras palabras que carecen de
información semántica.
16
Diccionario léxico de la lengua inglesa.
Puede ocurrir normas a un d
que muchos seguir trata i
vocablos no se para mie c
encuentren buscar la nto h
debido a que no respuest más o
aparecen a en un esp c
literalmente. grafo de ecia o
Por ejemplo, lo conocim liza n
que aparece es iento: do a j
un sinónimo. 1. los u
Esto se Divi nod n
soluciona dir os. t
utilizando las 2. o
nuevamente pre Buscar s
WordNet, misa las e
quien nos s en clases i
permite obtener tres relacion n
una colección conj adas a i
de sinónimos unto los c
por cada s eleme i
palabra no disju a
ntos r
encontrada. ntos
Con esta en de ��, á
colección se corr c
espo a o
procede a
nden n
realizar través
cia l
nuevamente el
con de la a
paso uno.
su s
Al finalizar, etique
tipo; i
tendremos una
� ta n
lista con todas
las ontologías Do st
para a
relacionadas a mai
n
la búsqueda, las ny
representadas se c
clase i
por sus grafos adic
de a
s, � ion
conocimiento. an s
para al r
2.2.4.Búsqued e
a de los con
l
respuest junt
litera a
a en los o �.
c
grafos de les y 3.
i
conocimi Crear
� o
ento un
para n
las conjunt
A partir de este prop a
ieda o 𝑋 con
momento se des. d
Divi las
llamará dir a
así instanci
premisas a los las s
prem as
nodos a
isas impl l
encontrados en icad
perm as o
los pasos hast
a el
anteriores. La ite mo s
men
siguiente lista reali to. e
Inici
zar alm l
muestra las ente
ementos de directam con el contexto de la
� mediante ontología da
ente a
la etiqueta respuesta a la frase o
cada una pregunta propuesta.
Domain. Por ser este
de las
último proceso
Con esto el más
instancia
se están importante, en la
buscando
los nodos s de ��, Figura 2 se muestra
que tienen
algún valor sin tener un grafo de contenido
en
literal cuenta que se utiliza para
los
implicado nodos demostrar
temporal
es; a no
en la frase. prácticamente lo Figura 3.
ser que
4. Si queda antes expuesto, Pseudocódigo del
apunten
resaltándose el sub- proceso de
algún elemento a otra búsqueda para la
grafo final como
instancia frase: “What
de � que no resultado. Debe
incluida subject are taught
tenerse en cuenta que by Hector”.
ha en X,
esta es una muestra,
sido junto
representad con el los grafos normales 3.
o por son mucho más
ninguna nodo Evaluación
instancia en grandes.
��, incluir que la En este
define. A continuación se
en � desea recuperar apartado se
El presentan las
información
todas las resultado bases de
sobre la siguiente
de conocimiento
instancias pregunta: “What
aplicar que se
relacionada subjects are taugth by
s a dicho este utilizaron en la
elemento. Hector?”.
conjunto evaluación del
Incluir en 𝑋
5. todo La Figura 3
de pasos, método
elemento de muestra el
� que esté es un propuesto. Se
relacionado pseudocódigo del
con cualquier sub- ofrecen las
elemento de proceso de búsqueda
𝑋 a través de grafo de medidas para
un elemento de respuesta para la
instancia de conocim conocer el
��. Si � está frase propuesta. Cada
vacío, incluir iento grado de
en 𝑋 paso en la Figura 3
cualquier que fiabilidad de los
elemento de está numerado
� que esté correspondientement resultados. Y se
relacionado
con 𝑋 a e con la descripción analizan los
través
de propuesta anterior. resultados
cualquier obtenidos.
propiedad.
Al terminar,
se tiene en 𝑋
un conjunto
de
instancias que
representan
parte de la
solución
propuesta. Para
garantizar la
consistencia, se
incluyen en
ella todos los Figura 2. Grafo de
contenido utilizado para
nodos recuperar información.
relacionados
D
3.1. Bases por c o
de especiali n
stas i
Conocimi d
ento humanos s e
, �
Para el dándose i
�
desarrollo de la
los ó c
cantidad
experimentos o
exacta n
se tomaron de nodos r
como bases de necesari r
conocimiento os e
dos ontologías: e ( s
 Pizza: n p
P o
Ontología
que forma l ) n
parte del a d
repositorio : e
de r a
ejemplos e l
de Protege. s � a
Esta p c
Ontología u � a
se ha sido e n
expandida s ti
y poblada t = d
para la a a
experiment . d
ación. Está d
en idioma �
3.2. e
inglés. Me � no
 Escuela: did do
Una as � s
Ontología
ret
relacionada Para la
or
con evaluaci
/ na
definicione ón de las
do
s de una pregunta � s
universidad s se
� cor
. Está en tomaron
en rec
idioma �
cuenta ta
español. 
las me
Conociendo Co
siguiente nte
el tópico de las ber
s ,
bases de tur
variables ��
conocimiento,
: a al
se tomaron 10
 (C) tot
personas para
: � al
la
= de
confección de
�� no
30 frases como P / do
preguntas en
r (�� s
idioma inglés
+� de
y español.
e �� vu
Estas fueron
�) elt
contestadas
os y �� a la
cantidad de informac que toda referida al
nodos ión a la contexto
buscar informa descrito por
que deberían
estar incluidos se ción a dicha frase.
en la respuesta
y encontra buscar Por otra
n ba en el se parte, en
o sub- encuentr preguntas muy
grafo a dentro puntuales como
s devuelto de la “Cuba
e . respuest extension”,
La a donde solo
i precisió propuest será necesario
n n a. Esto responder un
c significa se debe valor asociado
l el nivel a que al a la extensión,
u de localizar la precisión
y exactitu las disminuye dado
e d en la instanci que se está
r respuest as incluyendo en
o a. Las relacion la respuesta
n respuest adas a todo un
. as más cada conjunto de
Para exactas palabra nodos que
relacionar cada son las de la describen al
una de estas que su frase, se país, Cuba. Si
medidas se precisió está la frase se
tomó en cuenta n está garantiz encuentra bien
una tercera más ando la redactada
ecuación: cercana inclusió semánticamente
 �- a uno. n de , la cantidad de
La F- toda la palabras en ella
medida informa no influye
medida se ción demasiado en
utiliza semánti la dimensión
para ca de la respuesta.
(F): � = 2
estable Esto se debe a
cer un que como se
∗ � ∗ �/(� equilibri están
o entre localizando las
la instancias y
+ �) precisió las propiedades
n y la que la
4. cobertur
Resultados describen, en
a. este ámbito se
Como se Analizan
observa en la encuentra la
do los mayor
Tabla 1, para resultad cantidad (por
todas las frases
os y no decir
propuestas la
teniendo todas) de
cobertura es
en p
uno. Esto
cuenta lo a
significa que
antes l
para todas las
mencion a
frases en la
ado se b
respuesta no
puede r
faltó ningún
destacar a
nodo, o sea, la
s teniendo en cuenta y
d destacando el valor
e que aportan las
la instancias dentro de
fr una ontología. De
a esta forma, se
s
e.
Pregunta P
Profesores que imparten Cálculo1 0.6875
Estudiantes que estudian Mecánica 0.8095
Quién es Héctor Dávila 0.9167
What pizza are eaten in Cuba 0.7778
what pizzas has Annalie eaten up 0.9
How old is Arturo 0.2667
Client that have 25 years old 0.2683
Country Brasil 1
Cuba extension 0.2593
Topping of Prince Carlo Pizza 0.2069
Pizza that have Red Onion Topping 0.7059
Asignaturas de la Disciplina
0.6250
Programación
Disciplinas del Departamento de
0.26667
Matemática
Departamento de la carrera
0.1905
industrial
Clients that eat up Veneziana Pizza 0.60
How many Pizzas there is 0.9412
Countries with extension 25413 Km 1
How many Topping there is 0.2745
Tabla 1.
Resultados.
Del total de 18 frases
desarrolladas, 12 están en
idioma inglés con un
promedio de precisión de
0.6001, mientras que el resto
(6 frases) se encuentran en
español con un promedio de
precisión de 0.5826.
5. Conclusiones y
trabajos futuros
El método de extracción de
información semántica en
ontologías, utilizando la
representación en un grafo
de contenido ampliado, logra
reducir la búsqueda de
información a un sub-grafo
(o sub-ontología) donde se
encuentran solamente los
términos relacionados a la
frase o pregunta propuesta.
Esto se debe a que al
solicitar información, se
buscan los objetos
relacionados dentro de un
grafo de conocimiento
garantiza una localizar de c
recuperación los WordN i
más exacta y nodos et, pero m
reducida. A implicad ahora i
diferencia del os en establec e
resto de las una iendo
n
herramientas de búsqued para el
alineam t
consulta a a.
bases de Como iento, o
conocimiento, trabajo similitu s
las retornan las futuro des
ontologías se contextu Es
íntegramente y pretende ales te
no el fragmento utilizar entre las art
implicado. como represen ícu
No obstante, taciones lo
base de
se destacan resultant ha
conocim
como es de sid
iento
mejores la Fase o
Linked
resultados las 1 co
Data,
frases donde (Proces fin
con el
o de an
el contenido a objetivo
Convers cia
buscar no está de hacer
ión) y do
dirigido a una más
las po
simple amplio
multidi r
propiedad de el el
una instancia, o espectro mension
Mi
sea, donde se de alidades
nis
intenta búsqued de
ter
recuperar la a y los concept
io
información dominio os
de
completa de un s ofrecido
Ci
determinado implicad s por el
en
objeto y su os. Otra recurso

cia
relación con propuest ISR-
e
otros. a a WN
In
Si se tienen realizar (Gutiérr no
en cuenta las pudiera ez et. va
limitaciones de ser el al., ció
RDF como alineami 2010) n
recurso para ento (Gutiérr (pr
almacenar y automáti ez et. oy
describir co al., ect
ontologías entre la 2 o
frente a OWL, nueva 0 TI
la conversión concepci 1 N2
de ontologías ón de 1 00
desarrolladas lectura ) 9-
en OWL, de . 13
enriquecería el ontologí 39
grafo de as A 1-
conocimiento y defendid g C0
a su vez a en este r 4-
aportaría trabajo y a 01
nuevas formas los d ),
de restringir y synsets e y
la Conselleria R. V. Schema Tummarello,
d'Educación de Guha. In w3c Richard
la Generalitat 2004. recom Cyganiak,
Valenciana RDF mendat Michele
(proyectos Vocab ion. Catasta,
PROMETEO/2 ulary Deborah L. Szymon
009/119 y Descri Mcguinness and Danielczyk,
ACOMP/2010/ ption Frank Van Renaud
288). Langu Harmelen. 2004. Delbru and
age OWL Web Stefan
R 1.0: Ontology Language Decker. 2010.
e RDF Overview En w3c Sig.ma: Live
f recommendation. views on the
e Emanuele Pianta, web of data.
r Luisa Bentivogli In Web
and Semantics:
e
Christian Girardi. Science,
n Services and
2002.
c Agents on the
MultiWordNet.
i Developing an World Wide
a aligned Web.
s multilingual Giovanni
database. In Tummarello,
Andreas Harth.
Proceedings of the Renaud
2010.
1st International Delbru and
Visinav: A
WordNet Eyal Oren.
system for
Conference: 293- 2007.
visual search
302. Mysore, Sindice.com:
and
India. Weaving the
navigation on
George A. Miller, Open Linked
web data. In
Richard Beckwith, Data. In
Web
Christiane Proceedings
Semantics: of the 6th
Science, Fellbaum, Derek
Gross and International
Services and Semantic Web
Agents on the Katherine Miller.
1990. Introduction Conference.
World Wide Graham Klyne
Web. to WordNet: An
On-line Lexical and Jeremy
Andreas J. Carroll.
Harth, Aidan Database.
International 2004.
Hogan,
Journal of Resource
Juergen
Lexicography, Description
Umbrich and
3 Framework
Stefan
( (RDF):
Decker.
4 Concepts and
2008. Swse:
) Abstract
Objects
: Syntax w3c
before
2 recommendati
documents.
3 on.
In
5 Graham Klyne
Proceedings
- and Jeremy
of the
2 J.Carroll.
Semantic
4 2006.
Web
4 Resource
Challenge
. Description
2008.
Giovanni Framework
D. Brickley and
(RDF): Concepts and
Abstract Syntax.
Piek Vossen. 1998.
EuroWordNet: A
Multilingual Database with
Lexical Semantic
Networks. Kluwer
Academic Publishers.
Tom Heath and Christian
Bizer. 2011. Linked Data:
Evolving the Web into a
Global Data Space.
Yoan Gutiérrez, Antonio
Fernández, Andrés
Montoyo and Sonia
Vázquez. 2010. Integration
of semantic resources
based on WordNet. En
XXVI Congreso de la
Sociedad Española para
el Procesamiento del
Lenguaje Natural, 45:161-
168
Yoan Gutiérrez, Antonio
Fernández, Andrés
Montoyo and Sonia
Vázquez. 2011. Enriching
the Integration of Semantic
Resources based on
WordNet. En XXVII
Congreso de la Sociedad
Española para el
Procesamiento del
Lenguaje Natural,
4
7
:
2
4
9
-
2
5
7
.
Evaluando de la recuperación de información multimedia y
multilingüe: el corpus Deportes20
Evaluating Multimedia an Multilingual Information Retrieval:
Corpus Deportes20
Ana García Serrano Rubén Granados David Hernández-Aranda
NLP&IR Research Group NLP&IR Research Group NLP&IR Research Group
ETSI Informática, UNED, ETSI Informática, UNED, ETSI Informática, UNED,
Madrid, Spain Madrid, Spain Madrid, Spain
agarcia@lsi.uned.es rgranados@lsi.uned.es daherar@lsi.uned.es
Víctor Fresno NLP&IR Juan Cigarrán NLP&IR

Research Group ETSI Research Group ETSI
Informática, UNED, Informática, UNED,
Madrid, Spain Madrid, Spain
vfresno@lsi.uned.es juanci@lsi.uned.es
Resumen: En este artículo, tras presentar brevemente un sistema de recuperación de

información multimedia desarrollado en el marco del proyecto español Buscamedia1, se describe
el corpus multimedia denominado Deportes20, construido para la prueba de concepto del
sistema. Este corpus está formado por vídeos de deportes, noticias digitales de diferentes
periódicos y reseñas en páginas web (más de 120 recursos o documentos multimedia anotados).
Tras describir brevemente los metadatos utilizados, se ofrecen algunos resultados de
anotaciones provenientes de los diferentes análisis multimedia (objetos en las imágenes, texto
sobreimpreso, logos y moscas) o desde las transcripciones, los subtítulos (de los programas de
televisión) y otros metadatos de los videos. A continuación se muestra un caso práctico de
utilización del corpus, con un conjunto de consultas de prueba y sus juicios de relevancia en el
sub-sistema de recuperación textual desarrollado, para comprobar los beneficios alcanzados con
la combinación de anotaciones.
Palabras clave: Recuperación de información multimedia, Anotación multimedia,
Recuperación de información textual, Fusión multimedia, Corpus.
Abstract: In this paper it is briefly presented a multimedia information retrieval system

developed at the Buscamedia project. The intended main contribution is the development of a
multimedia corpus, so-called Deportes20, with annotated information resulting from different
multimedia analysis processes. The multimedia resources can be annotated with different types
of information that range from the complete transcriptions or subtitles in case of television
videos to logos, TV channel identifiers, overlaid text, etc. The corpus is formed by some
television videos (sports), digital news and texts from web pages. In the paper it is shown how
to annotate and use this corpus, as well as the relevance judgments of a set of test queries in the
practice using the textual subsystem developed.
Keywords: Multimedia information retrieval, Multimedia Annotation, Text-based Information
Retrieval, Multimedia Fusion, Corpus.
1
http://www.cenitbuscamedia.es/
s, m
1 as in s
pe o i
I ct s s
n os d t
qu e e
t
e e m
r s
se a
o m p
d id a d
u en ci e
c , o s
c al re a
i m q r
ó en u r
n os er o
, id l
La co o l
experimentació n y a
n y evaluación la c d
de técnicas s o o
relacionadas m m
con la e pl p
recuperación di ej a
de información d id r
multimedia as a a
(texto, d d.
imágenes, e 3. l
audio, vídeo) es p U a
uno de los r s s
mayores retos e a
actuales, tanto ci b n
para si il e
colecciones de
ó i c
objetos n d e
multimedia y a s
(audio, video, r d, i
imágenes y e q d
textos) como c u a
directamente en a e d
la web. ll. in e
En general, 2. di s
este tipo de Ef c
evaluaciones ici a d
deben estar en c e
sujetas a tres ci u l
criterios a, á u
fundamentales q nt s
[Verdejo, ue o u
García-Serrano, se d a
2008]: m e r
1. Eficacia id út i
o e il o
correcció en e .
n de los té s E
resultado r el x
isten siguiente b e
diferentes s a
foros de element l
evaluación os: p o
(como TREC2, 1. Un er s
ImageCLEF3 o co ti
MediaEval ) 4
r n r
que permiten p e e
evaluar (en us nt s
relación a los o e u
aspectos co s, l
descritos en los nj ll t
apartados 1 y 2 u a a
anteriores) nt m d
diferentes o a o
métodos, de d s
técnicas o te a
aproximaciones xt s p
incorporadas os ta a
en un sistema. /i m r
Por tanto, es m bi a
necesario un ág é
primer paso en n c
para es ll a
seleccionar, de /o a d
entre las tr m a
diferentes os a
colecciones d d
oc c
disponibles, o o
aquella que u s
m n
resulte más t s
adecuada para en o
to u
la tarea p l
concreta que va s ic
m t
a resolver el s, a
sistema a ul
y ;
evaluar. ti
3.
Algunos m
L e
metodología
ejemplos de evaluación en el foro ed
o s
ImageCLEF,
donde se ha como ejemplo del caso deia,
s
aplicado esta 2.
j d
U
u e
n
ic c
combinación de co
io i
anotaciones, nj
s r
pueden un
d ,
encontrarse en to
e
[Benavent de
r
2010, Garcia- co u
el
Serrano 2008]. ns n
e
Por otro ul a
v
lado, toda ta
a
colección de s a
n
evaluación de n
ci
tiene que pr o
a
incluir los ue t
d
ació / Estas colecciones en el corpus,

n /
i
de evaluación son o/ni en las
acer m muy difíciles de consultas.
ca a construir, por lo que Entonces,
de si g la mayoría se crean ¿cómo se puede
un e
en modo evaluar que una
c
recur l “laboratorio” y determinada
so e normalmente aproximación
(audi f provienen de los mejora el
o, . foros de evaluación resultado
vide o
r
internacionales que esperado de un
o, g suelen utilizar una sistema de
imág / metodología TREC- recuperación
enes 2 style5 para asegurar con respecto a
y 0 la representatividad, las necesidades
1
texto 2 la significancia de información
s) es 4 estadística (cantidad), de los usuarios?
o no la calidad (de los Llegados a este
es h textos, las imágenes, punto, se
relev t el vídeo, etc.) y la necesita una
ante t
riqueza semántica de respuesta para
p
resp : las anotaciones. el tercer tipo de
ecto / El problema de criterio, la
de / estas colecciones es usabilidad. En
una w que dependen mucho general, se trata
w
deter de la tarea para la de un tipo
w
mina . que fueron creadas y prueba que se
da m es difícil su uso en afronta teniendo
cons u tareas diferentes. Por en cuenta lo
ulta. l
t
ejemplo, una siguiente:
i colección pensada 1. El tipo y
2 m para probar técnicas objetivo
e que aporten s del
h d diversidad a los sistema
t i
a resultados, evaluaría desarrol
t
p e a la baja resultados lado.
: v muy relevantes en 2. El tipo
/ a primeras posiciones de
/ l
pero muy similares usuarios
t .
o entre sí, y evaluaría para los
r
e r muy alto subgrupos que se
c g de resultados ha
. / diferentes en desarrol
n primeras posiciones. lado el
i
s
Otro ejemplo es sistema
t intentar evaluar (hay
. entidades nombradas que
g (NE en inglés) en hacer
o una colección que no
v
las
/ hubiese sido creada pruebas
3 para ello, y que, por o
tanto, no dispondrá experim
h de un conjunto de entos
t anotaciones con
t suficientemente ellos).
p
: representativas de NE 3. Que la
evaluación necesita:
a. Elaborar un
conjunto de
consultas para
realizar
experimentos
suficientemente
representativos.
b. Recolectar y
observar el
comportamient
o y las
variaciones c. Revisar los experimentos,
realizadas/suger respecto a los documentos
idas, tanto por
el usuario como
del sistema.
multimedia
visitados por
el usuario de
los ofrecidos
por el sistema y
compararlos
con los de los
juicios de
relevancia.
http://trec.nist.gov/presentations/TR
EC2004/04intro.pdf
2 recursos ntas y te
multime sistemas xt
C dia tal y existent ua
como se es en l y
o
presente recuper la
n ación de re
n. Por
t informa cu
ejemplo,
e identific ción pe
x an los multime ra
t personaj dia ci
o es a los abordan ón
que se el ,
B hace problem sur
u referenci a ge
s a, aplicand in
c identific o ev
an enfoque ita
a
objetos s bl
m textuale e
fijos en
e los s, m
d keyfram usando en
i es o estas te
a instantán anotacio la
eas nes y ne
En este
relevant metadat ce
trabajo se
es etc. os sid
presentan los
Cuando asociad ad
primeros pasos
el os a las de
hacia la
resultad imágene est
creación de una
o del s, al ab
colección de
análisis audio o lec
evaluación para
de estos a los er
sistemas de
subsiste videos có
recuperación de
mas son (o una m

información
anotacio parte de o
multimedia y
nes en ellos, va
multilingüe, y
forma como lid
se enmarca
de texto, son los ar
dentro del
éstas se segment y
proyecto
integran os, las ev
español
en el instantá al
Buscamedia.
subsiste neas o ua
En este
proyecto se ma de keyfram r
afronta el anotació es, etc.). los
problema con n textual De be
una desarroll este ne
aproximación ado modo, fic
netamente dentro una vez ios
multimedia, del se de
para lo que se proyecto dispone l
han . En de un sis
desarrollado general, prototip te
subsistemas la o para m
que mayoría la a
”entienden” y de las anotació de
procesan los herramie n sar
rollado, y en multime w VRA8, debido

concreto de la dia) y w
w
que estos
disponibilidad no se ha . vocabularios de
de las múltiples centrado d anotación son
anotaciones en en el uso u difíciles de
un escenario de b entender, de
l
cuasi-real. ningún i generar y de
Como vocabula n usar [Geurts
primer paso en rio c 2005, Stamou
el proyecto existente o 2006].
Buscamedia r También se
y
e
se realiza la estándar . ha descartado
validación del como o en este trabajo
sistema con una pueden r la anotación con
prueba de ser g una ontología
/
concepto. Para MPEG- d
predefinida
ello se ha 7 [ISO, o [Pareja-Lora
desarrollado, 2002], c 2010, Aguado
entre algunos MPEG- u de Cea 2003],
de los 216, m por una parte
e
miembros del Dublin n porque las
consorcio, un Core7, t ontologías
corpus s realmente
multimedia 6 / disponibles
d
orientado a este c
(distribuidas
tipo de h como open
e
validación t source) en el
s
t
denominado p área de deportes
Deportes20. : no ofrecían una
El primer / cobertura
problema que / suficiente y
w
surge es la w
porque la
disponibilidad w ontología que se
de vídeos, . debería utilizar
imágenes y m se desarrollaba,
u en el marco del
noticias
l
relacionadas t proyecto, con la
temáticamente. i colaboración de
Pero el m los proveedores
segundo tiene e de recursos
d
que ver con la i
multimedia,
anotación de a paralelamente a
los mismos. - los subsistemas
La m de anotación y
e búsqueda que se
anotación t
semántica del a presentan.
corpus ha d Además, se
seguido el a pretendía que la
principio de t anotación se
a
utilizar la .
centrara en una
anotación i aproximación
más útil para el n basada en texto
objetivo el f libre (utilizando
o recursos
sistema (la
/
recuperación de 7 lingüísticos
información externos) y
aprovechar al máximo la vídeos. En

información disponible en este caso,
cada media (video, audio, se han
texto e imágenes). Esto definido
además permite obtener unos
respuestas en aquellos casos procesos
en los que la ontología no automáticos
pudiera responder, bien para
porque no tuviera la extracción de
información necesaria en las etiquetas
forma de instancias y seleccionadas
relaciones, bien porque el y
coste de construcción de una
ontología de amplia 8
cobertura en determinadas http://www.vraweb.org/r
colecciones para esources/datastandards/v
racore3/
determinadas consultas
podría hacerlo inviable. Será
interesante, como trabajo
futuro, comparar los
resultados de la anotación
con la ontología finalmente
desarrollada, y los de la
aproximación que se presenta
en este artículo.
Por lo tanto, para anotar
los recursos multimedia para
su acceso posterior con el
sistema que se quiere probar,
se seleccionó un conjunto de
etiquetas para cada recurso o
documento multimedia:
(a) algunas de las que
usan los dos
proveedores de los
videos (anotan
información
complementaria y en
distintas lenguas),
(b) las que son el
resultado de procesos
de anotación
multimedia
(identificación de
logos, objetos físicos
en los videos u
imágenes y otros); y
(c) las seleccionadas
entre las que
contienen la
información textual
en las noticias de los
16 periódicos o de
las páginas web
relacionadas con
el contenido de los
normali términos anotacio Fi

zadas de nes na
(por caracterí multime lm
ejempl sticas de dia, por en
o, bajo ejemplo te
título, nivel; de un se
entradil por vídeo, ap
la etc). ejemplo, de su ort
Con este en el transcri an
corpus anotado caso de pción, a
ya se pueden una de sus l
abordar las imagen, subtítul g
tareas de ésta se os etc., u
prueba de represen y éstas n
concepto del ta con se a
sistema, valores utilizan s
orientadas, en numéric durante
nuestro caso, a os de el c
probar la textura o proceso o
usabilidad del cantidad de n
sistema y si el de color, búsqued c
sistema e a. l
desarrollado interpret En la u
ayuda a ar la sección s
avanzar en el informac siguient i
problema ión e se o
d correcta presenta n
e mente brevem e
en ente el s
l correspo sistema .
a ndencia desarrol
con el lado. A 3
b contenid continu D
r o de la ación se e
e imagen describe s
c (jugador el c
h tirando a corpus r
a puerta) desarrol
i
supone lado y
s sus
p
esta
e brecha anotacio c
m semántic nes. Se i
á a. En muestra ó
n concreto n n
t es algunos
i necesari ejemplo d
c o probar s con e
a el el l
. benefici corpus
El problema s
o Deporte i
de la brecha obtenido s20 y
semántica se s
si se los
refiere a la combina benefici t
dificultad de n las os e
percibir la diferente alcanza m
información en s dos. a
de búsqueda informac Dependiendo

ión del idioma se
El prototipo aplica una
concreta
desarrollado herramienta
o textos
consta de distinta: para el
multilin
una interfaz castellano e
gües,
web que inglés, Stilus
porque
permite la (licencia para
los
búsqueda y la investigación
docume
visualización proporcionada
ntos
de resultados a por Daedalus9),
multime
partir de una y para el catalán
dia
consulta dada, se aplica
tienen su
siguiendo las Freeling10.
informa
pautas de un Para el caso
ción
buscador de los videos en
textual
común, pero catalán, se hace
escrita Figura 1: Interfaz
que además uso además de
en del sistema de
permite mostrar un recurso
castellan búsqueda
todas las externo
o,
funcionalidades propietario, el
catalán, En la figura 1 se
desarrolladas denominado
euskera muestra el interfaz
mediante los Thesaure (con
o inglés. correspondiente al
“botones” del licencia de uso
interfaz que sistema de búsqueda
textual en el que se restringida de la
representan corporación
también los han realizado los
siguientes pasos: catalana de
parámetros del televisión), con
servicio web el objetivo de
correspondiente Pre-proceso
textual (extracción y enriquecer la
, y que podrá anotación en la
ser usado por anotación): Los
componentes que aparezcan
otros procesos términos del
en el sistema textuales de
anotación de un Thesaure. En
global. concreto, para
La recurso multimedia
pueden ser: el texto cada término
visualización encontrado en el
de los original (noticias o
reseñas en páginas Thesaure, se
resultados se añaden
realiza a partir web), las
transcripciones, los sinónimos,
de snipets términos
creados subtítulos, algunos
objetos físicos en relacionados,
(manualmente) detalles e
desde los imágenes, el texto
sobreimpreso, los información
archivos jerárquica del
multimedia de logos y las moscas,
así como otros término
los videos o (término padre,
textos (noticias metadatos originales.
Pueden encontrarse hermanos,
o páginas web) hijos).
del corpus en castellano, inglés,
catalán o euskera. Estas
Deportes20, funcionalidades
como pueden Con toda la
información textual se encuentran
ser imágenes o en el servicio
keyframes, así multilingüe extraída
se realiza un análisis web que se
como describe
segmentos de de detección de las
entidades nombradas. brevemente en
visión con
el
9
www.daedalus.es
10
http://nlp.lsi.upc.edu/freeling/
apartado 4 de este artículo, y con el que única lista de resultados ordenados por
finalmente se crea un documento único para relevancia de la consulta con los documentos
cada recurso multimedia, unificando la multimedia recuperados. La función de
información anterior. Además se añaden el ranking utilizada es BM25F, que extiende a
idioma, el nombre del documento original y las Okapi-BM25 para documentos estructurados
entidades nombradas detectadas, o los campos (formados por campos) [Robertson 1994].
relacionados con la información semántica del En este prototipo se permite la selección del
tesauro utilizado. operador lógico con el que se desea hacer la
Un ejemplo de documento XML único es: búsqueda: OR o AND. Además se pueden
<out>
<idioma>es</idioma> seleccionar los tipos de metadatos,
<titulo> Valencia - Mallorca, Liga BBVA correspondientes a los tipos de anotaciones del
- Primera División en Marca.com </titulo>
<seccion>Fútbol * Liga BBVA </seccion>
fichero único por los que se quiera buscar, y se
<titulo_noticia>El Mallorca siembra pueden filtrar los resultados recuperados por el
dudas en el Valencia </titulo_noticia> tipo de documento y así recuperar solo videos,
<subtitulo>JUSTA VICTORIA DEL EQUIPO DE
LAUDRUP</subtitulo> solo noticias/páginas web o ambos.
<entradilla> El Mallorca dio la sorpresa El servicio de búsqueda está disponible
en Mestalla al derrotar al Valencia (1-2)
y continúa con su racha de buenos
para otros investigadores, y previa solicitud de
resultados ante los grandes, después de login y password, pueden acceder al prototipo
empatar en el Nou Camp y en casa ante el desplegado en la dirección siguiente:
Real Madrid. El Valencia no estuvo nunca
metido en el partido y el planteamiento de http://albali.lsi.uned.es/deportes20-1.0.0/.
Emery, sin Mata y Aduriz de inicio y con
Banega, Fernándes y Albelda en el centro
del campo, fue definitivo.</entradilla>
4 El corpus Deportes20
<cuerpo>… … … … … </cuerpo>
<fecha>24/10/2010</fecha> La colección está compuesta por 4 tipos de
<autor>PABLO DÍAZ</autor> recursos o documentos multimedia:
<foto></foto> Videos en catalán (proporcionados por
<nes>Valencia Albelda Mallorca Banega
Liga_BBVA Valencia Primera_División CCMA11, miembro del consorcio): 21
Alvarez_Izquierdo Mestalla Nou_Camp documentos multimedia en catalán, de los
PABLO_DÍAZ Mallorca Real_Madrid
Valencia_JUSTA_VICTORIA </nes>
cuales, solo 10 tienen asociado un documento
</out> XML con su descripción, una carpeta con
keyframes asociados y los objetos detectados
A partir de estos documentos únicos el pre- que aparecen en ellos.
procesamiento sigue con los analizadores De los 11 recursos restantes sí que se
SnowBall implementados para cada idioma en dispone de sus videos correspondientes, así
el framework Lucene para la eliminación de como de sus transcripciones y keyframes

stopwords y efectuar la fase de stemming. asociados. Sin embargo, en este caso, no se
dispone de los objetos que aparecen en ellos.
Indexación. En los experimentos que se Videos en castellano (proporcionados por
presentan en este artículo, el modelo de ISID12, miembro del consorcio). 10 videos en
indexación elegido para este prototipo consiste castellano, de los cuales, 6 tienen asociado un
en la creación de un único índice para indexar video, la transcripción y los subtítulos de dicho
en diferentes campos toda la información de video. Los 4 vídeos restantes, además de la
los cuatro idiomas considerados. información anterior, contienen el texto
En este prototipo el pre-procesamiento del sobreimpreso y los logos y moscas aparecidos
texto se ha realizado para los diferentes en cada video.
idiomas. Dado que la indexación con Lucene A continuación se muestran los diferentes
exige hacer análisis de texto, se elige un tipos de información sobreimpresa extraída
analizador (concretamente SimpleAnalyzer) automáticamente (por otro de los componentes
inocuo. Además, se almacena el texto original de anotación desarrollados en el proyecto)
en algunos campos para su uso posterior y desde uno de los videos, a modo de ejemplo:
visualización. TEXTO NO LOCALIZADO: ronaldo 7 - P.LEÓN -
LA NOCHE DE CR7 – Audi – RONALDO
TEXTO LOCALIZADO: CON EL REAL IRÚN ELIMINÓ
Búsqueda. Con este modelo de indexación, EN DIECISEISAVOS AL MADRID EN LA
y una vez indexado el corpus Deportes20, en la
búsqueda de cada consulta se obtendrá una 11
http://www.ccma.cat/pccrtv/ccrtvSeccio.jsp
12
www.isid.es
TEMPORAD Web castellan e
A x
08/09 (Proporci o, 30 en t
- EL onadas catalán y e
BARCELON
por 2 en n
A s
ENTRENA Daedalu euskera.
i
CON 13 s, Se ó
JUGADORE
S DEL miembro extrajero n
FILIAL del n con ,
i
TEXTO
consorci consulta d
NATURAL:
KOREAN o). Son s i
PETRONAS 34 relaciona o
Formula1 m
- The páginas das con
a
next big web en los ,
Audi -
formato documen d
¿Te
llevo? – HTML, tos del i
g
LOGOS: Bwin cuya corpus i
– Audi
– Mahou temática de t
21.632 o
– está n
Adidas
relaciona noticias -
–
RealMadr da con de 16 v
id C.F. los periódic í
–LFP –
RNE – videos de os con d
e
ONDACERO los formatos o
M
grupos diferente s
O
S anteriore s. :
C s, y de Con
A
S las todo lo t
: cuales 30 anterior í
se t
están en u
L idioma construy l
a
castellan e una o
S o, 3 en colecció ,
e catalán y n
x anotada
t
1 en s
a inglés de 127 u
b
(selecció recursos
t
Esta n o í
información manual). documen t
puede ser Notici tos u
relevante en el as multime l
o
contexto (Proporci dia ,
general del onadas correspo
fútbol, si se por ndientes
t
conoce que Daedalu a videos, r
bwin.com y s). páginas a
Audi son los Conjunto web y n
patrocinadores de 62 noticias s
c
del Real noticias textuales r
Madrid y en , anotada i
Mahou es la formato con los p
marca HTML, siguiente c
patrocinadora i
de las s
o
de la Liga cuales 30 campos: n
española (en el están - e
gener
2011). escritas s
ales:
Páginas en file,
,
ello
s)
5 catalán) y
- realizar su
págin A análisis
as
n morfosintáctico,
web
resumen,
y o de forma que
transcrip
notic t se obtengan
ciones_se ias: los términos
gmentos, títul a
que pertenecen
o, c a una categoría
desc
ripc
i morfosintáctica
notas,
texto_age ión, o específica, y las
ncia, keyw n entidades
ords
,
nombradas, que
auto a son las que se
r, u almacenan en el
texto_pro secc t documento
ión,
pio,
o único de
descripci epíg
rafe m anotación de un
ón,
fecha, , á recurso
ámbito ante multimedia.
t
geográfic títu Para ello, esta
o, lo, i herramienta
descripci titu c utiliza módulos
ón lo_n
otic a intermedios que
de
ia,
La sirven de
subt wrapper para
keyframes
itul herramie
,
o, nta de herramientas
texto_sob
entr anotació conocidas
re_impres
o,
adil n textual como:
la,
desarroll FreeLing,
cuer
logos, po, ada en TreeTagger13,
palabras fech el Stanford
reservada a_no proyecto NER14 y Stilus
s. tici
- Thesaure:
permite de Daedalus.
a,
sinónimos, luga analizar Las
relacionado r, textos herramientas
s, foto en que se deben
d
e
- diferente utilizar en cada
Entid
t
ades
s caso deberán
a
l nombr idiomas ser pasadas
l adas: (español, como
e nes inglés,
s parámetros a
, este servicio.
Este
En la figura
j corpus
2 puede
e anotado
r observarse la
está
a salida del
r disponibl
interfaz para la
q e para la
u consulta:
í comunid <soapenv:En
a ad de velope
xmlns:soapenv="h
- objetos: investiga ttp://schemas.xm
Identific dores, lsoap.org/soap/e
ador de n velope/"
objeto
previa xmlns:ws="http:/
(de una solicitud. /ws.annotation.l
si.uned.es/">
lista de <soapenv:Head
er/>
<soapenv:Body> 13
<ws:anotaTexto> http://www.ims.uni-
<texto>Será stuttgart.de/projekte/corple
un mal menor, pero no x/TreeTagger/
14
deja de ser negativo
para el Real Madrid que http://nlp.stanf
Xabi Alonso no esté el ord.edu/softwa
próximo sábado en , El re/CRF-
Molinón. Según los
NER.shtml
antecedentes, el equipo
blanco tiene todas las
papeletas para echarle
de menos.</texto>
<tipoAnotacion>POSTAGG
ING</tipoAnotacion>
<idioma>SPANISH
</idioma>
<tipoHerramienta>FREELIN
G</tipoHerramienta>
</ws:anotaTexto>
</soapenv:Body>
<
/
s
o
a
p
e
n
v
:
E
n
v
e
l
o
p
e
>
Figura 2: Interfaz del

anotador
El servicio web de
esta herramienta de
anotación se encuentra
desplegado en:
http://albali.lsi.un n scri s
ed.es/DemoAnot t pció (
adorWS/ y o n c
puede utilizarse s (ca a
para i mpo m
investigación, n tran p
previa petición te scri o
de login y r pcio
password. m nes) o
e 3. i
6 Pruebas d subt d
con la i itulo
colección o s d
Deportes20 s (ca e
i mpo
El corpus n subt i
Deportes20 se d itulo d
complementa e s) e
con un x 4. n
conjunto de a texto t
consultas d _sob i
pertinentes o re_i f
(respecto al s mpre i
objetivo del q so c
prototipo a u (cam a
evaluar) y sus e po d
juicios de n texto o
relevancia junto o _ r
con una e s d
descripción a st o e
muy alto nivel á b
de los n r
resultados u
d e
obtenidos. n
if
_ a
El prototipo e i
de búsqueda r m
(Figura 1) u
e p
permite n n
r
configurar las ci e
siguientes a o
s b
opciones de d o
búsqueda sobre o j
) e
el corpus s 5.
Deportes20: e t
logo o
1. n s
metadat l (cam
os. Los o )
po 7
campos q logo
asociado u .
s) n
s a esta e 6.
si e
o s
búsqued g b (
a son u
j c
los de e.
e a
los 2.
t m
docume tran
o p
o nes) , pinchan keyframe (los 3
Así como metadat do primeros son
cuatro opciones os. sobre buenos
relacionadas Resu cualquie ejemplos)
con el ltados: r aparecerá una
Thesaure: Con el imagen de
8. operador Fernando Torres
sinónimos AND se en ese partido
(campo recupera (la
sinonimos) un único segmentación y
9. resultad anotación de los
relacionado o que sí vídeos e
s (campo trata el imágenes o
relacionado hat trick keyframes es un
s) de resultado de la
10. detalles Fernand construcción del
(campo o Torres, corpus).
detalles) y con el
11. OR se
jerarquía recupera
(campo n 13
jerarquia) (entre
noticias
A y
continuación se vídeos)
incluyen en los
algunos que
ejemplos de también
prueba, se
indicando en referenci
cada uno de a a otros
ellos las Fernado nterfaz del buscador
opciones s para la respuesta
utilizadas para (Alonso) a la consulta 2
configurar la y otros
búsqueda, y las Hat Consulta 2:
ventajas Tricks “Iker
alcanzadas con (de Casillas”.
la combinación Saviola). Opciones de
de anotaciones búsqueda:
provenientes Visua catalán,
de diferentes lizando AND/OR,
medias: el vídeo Metadatos.
del Resultados:
Consulta primer Se recuperan 6
1: “Hat trick resultad vídeos
de Fernando o se relacionados
Torres”. (hat muestra con Iker
trick: cuando el Casillas. Todos
un jugador correspo ellos se puede
mete 3 goles en ndiente a visualizar. En
un partido) un hat el primero,
Opciones trick de además, al
de búsqueda: Fernand disponer de
AND/OR, o Torres, keyframes,
Vídeos/Noticias y también se
podrá pinchar sobre alguno
de ellos y ver a Casillas.
Consulta 3: "Fernando
Alonso en el GP de
Corea”. (GP:
gran premio,
carrera).
Opciones de búsqueda:
castellano, OR,
Vídeos/Noticias,
metadatos+subtítulos
Resultados: Al
seleccionar “subtítulos” se
recupera un vídeo que no se
obtendría en otro caso. El
vídeo recuperado es
exactamente el asociado a la
primera noticia del resultado.
Además, al pinchar sobre el
segmento 0 (o 15) de dicho
vídeo, se reproducirá la
parte en la que habla de la
victoria de Alonso.
Consulta 4: “bwin”.
Opciones de búsqueda:
metadatos, con y sin logos.
Resultados: Se obtienen
3 vídeos con la información
textual en el campo “logos”
(uno de ellos también en
“texto sobreimpreso”). Si
solo se seleccionara para la
búsqueda el campo
“metadatos” no se
recuperarían estos 3 vídeos.

XVIII Congreso de La Asociación Española para El P... - (PG 2 - 41)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

XVIII Congreso de La Asociación Española para El P... - (PG 2 - 41)

Uploaded by

Copyright:

Available Formats

Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.

Castellón de la Plana, 5, 6 y 7 de septiembre de 2012

Asociación Española para el Procesamiento del Lenguaje Natural. Congrès

XVIII Congreso de la Asociación española para el procesamiento del lenguaje na-

Qualsevol forma de reproducció, distribució, comunicació pública o

© Del text: les autores i els autors, 2012

© D’aquesta edició: Publicacions de la Universitat Jaume I, 2012

edita: Publicacions de la Universitat Jaume I. Servei de Comunicació i Publicacions

La ingente cantidad de información disponible en formato digital y en las distintas

Además, como en anteriores ediciones, se desea identificar las futuras directrices de la

The enormous amount of multilingual information available in digital format makes it

• Andrés Marzal Varó, Catedrático de Universidad en Lenguajes y Sistemas

Bienvenidos a la vigésimo octava edición del Congreso Anual de la Sociedad Española

Como presidente del comité de programa quiero agradecer a la junta directiva de la

mismos. Cabe destacar el notable grado de internacionalización de estos talleres, con

Rafael Berlanga Llavori

Presidente del Comité de Programa de SEPLN 2012

Ismael Sanz Blasco

Presidente del Comité de Organización de talleres SEPLN 2012

Nuno J. Mamede, Instituto de Engenharia de Sistemas e Computadores Investigação e

Henry Anaya, Universitat Jaume I.

Talleres: Ismael Sanz Blasco, Universitat Jaume I.

Sociedad Española para el Procesamiento Ministerio de Economía y Competitividad

Natural Language Inference in Natural Language Terms

Sesión 1: Análisis automático del contenido textual

Miércoles 5 de septiembre, de 11:30 a 12:45. Salón de Actos.

Reducing Text Complexity through Automatic Lexical Simplifcation: an Empirical

A Framework for Obtaining Structurally Complex Condensed Representations

Sistema de Acceso a la Información basado en conceptos utilizando Freebase

Sesión 2: Extracción y Recuperación de la Información

Miércoles 5 de septiembre, de 12:45 a 14:00. Salón de Actos.

Análisis de técnicas PLN de expansión de consulta aplicadas a la tarea de la recuperación

A clustering-based Approach for Unsupervised Word Sense Disambiguation

Representación Gráfca de Documentos para Extracción Automática de Relaciones

Sesión 3: Lexicografía y terminología computacionales

Miércoles 5 de septiembre, de 18:00 a 19:30. Salón de Actos.

Co-occurrence Graphs Applied to Taxonomy Extraction in Scientifc and Technical Corpora

Hypernymy relations from defniens-defniendum co-occurrence in multiple dictionary

Sesión 4: Reconocimiento y síntesis del habla

Jueves 6 de septiembre, de 10:00 a 11:15. Salón de Actos.

A Simple Approach to Use Bilingual Information Sources for Word Alignment

Diseño y desarrollo de un sistema de evaluación automática de la pronunciación

Técnicas de post-procesado de resultados en un sistema de diarización de locutores

Sesión 5: Desarrollo de recursos y herramientas lingüísticas

Jueves 6 de septiembre, de 11:40 a 13:00. Salón de Actos.

Revisión de técnicas para la construcción de WordNets mediante la estrategia de expansión

Labeling Semantically Motivated Clusters of Verbal Relations

A Hybrid Approach to Treebank Construction

Sesión 6: Aprendizaje automático para el PLN

Viernes 7 de septiembre, de 11:30 a 13:00. Salón de Actos.

Detección de la polaridad en citas periodísticas: una solución no supervisada

Learning a Statistical Model of Product Aspects for Sentiment Analysis

A First Approach to the Automatic Detection of Zero Subjects, Impersonal Constructions

Optimizing Planar, 2-Planar Parsers with MaltOptimizer

Jueves 6 de septiembre, de 13:00 a 14:00. Salón de Actos.

IARG-AnCora: Anotación de los corpus AnCora con argumentos implícitos

METANET4U: Aumentar la Infraestructura Lingüística Europea

Mejorando el acceso, el análisis y la visibilidad de la Información y los contenidos

Multilingues y Multimedia en Red para la Comunidad de Madrid

Tratamiento de la dimensión espacial en el texto y su aplicación a la recuperación

MILES (Modelos de Interacción centrados en Lenguaje, Espacio y Semántica computacional)

Jueves 6 de septiembre, de 16:00 a 17:30. Sala de Juntas.

InLéctor: Sistema de lectura bilingüe interactiva