Professional Documents
Culture Documents
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Col·lecció
«e-Treballs d’Informàtica i
Tecnologia» Núm. 12
XVIII CONGRESO DE LA
SOCIEDAD ESPAÑOLA PARA
EL PROCESAMIENTO DEL
LENGUAJE NATURAL
Rafael
Berlanga
Ismael
Sanz
y María Pérez
(ed.)
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
BIBLIoTeCA De LA UNIVeRSITAT JAUMe I. Dades catalogràfiques
CFX
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Publicacions de la Universitat Jaume I és una editorial membre de l’une, cosa
que en garanteix la difusió i comercialització de les obres en els àmbits nacional
www.une.es
i internacional. www.une.es.
ISBN: 978-84-8021-889-4
DoI: http://dx.doi.org/10.6035/e-TIiT.2012.12
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Presentación
La XXVIII edición del Congreso Anual de la Sociedad Española para el Procesamiento
del Lenguaje Natural (SEPLN) se celebró los días 5, 6 y 7 de septiembre de 2012 en la
Universitat Jaume I de Castellón. Junto al congreso, se organizaron varios talleres
temáticos durante el día 7 de septiembre de 2012.
En este mismo escenario, hay un interés renovado por la solución de los problemas de
accesibilidad a la información y de mejora de explotación de la misma en entornos
multilingües. Muchas de las bases formales para abordar adecuadamente estas
necesidades han sido y siguen siendo establecidas en el marco del procesamiento del
lenguaje natural y de sus múltiples vertientes: Extracción y recuperación de
información, Sistemas de búsqueda de respuestas, Traducción automática, Análisis
automático del contenido textual, Resumen automático, Generación textual y
Reconocimiento y síntesis de voz.
El objetivo principal del congreso es ofrecer un foro para presentar las últimas
investigaciones y desarrollos en el ámbito de trabajo del Procesamiento del Lenguaje
Natural (PLN) tanto a la comunidad científica como a las empresas del sector. También
se pretende mostrar las posibilidades reales de aplicación y conocer nuevos proyectos
I+D en este campo.
ser un marco propicio para introducir a otras personas interesadas en esta área de
conocimiento.
Presentation
The 27th edition of the Annual Conference of the Spanish Society for Natural Language
Processing (SEPLN) was held from September 5 to September 7, 2012 at the Escuela
Superior de Tecnología y Ciencias Experimentales, Universitat Jaume I in Castellón,
Spain. Two co-located workshops were organized on September 7.
The main goal of the conference is to be a forum for the presentation of the latest
research and development in Natural Language Processing by the scientific community
and the industry. It also aims to showcase actual applications and to introduce new R+D
projects in the field.
As in previous editions, the conference intends to identify future trends for basic
research and applications as foreseen by professionals, in order to contrast them with
actual market needs. Finally, the conference expects to be an enabling framework to
introduce new people with an interest in this area of knowledge.
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
Acto de
bienvenida
Presiden el acto de bienvenida:
Como presidente del comité organizador, he de agradecer el gran esfuerzo realizado por
la Universitat Jaume I (UJI), especialmente los departamentos de informática, la
Escuela Superior de Tecnología y Ciencias Experimentales, así como el Vicerrectorado
de Investigación y Postgrado. Todos ello han aportado tanto infraestructura como
recursos económicos necesarios para organizar este congreso.
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
En cuanto a las cifras del congreso, en esta edición se recibieron 53 trabajos enviados,
de los cuales 38 eran artículos científicos regulares, 5 correspondían a propuestas de
proyectos, y 4 a demostraciones. De entre los 38 artículos regulares, 27 fueron
seleccionados para su presentación en el congreso (8 de los cuales en formato póster).
Para esta edición se han invitado a dos investigadores de prestigio en dos áreas de gran
auge en el PLN: la inferencia textual y el análisis de sentimientos. Ido Dagan de la
Universidad de Bar-Ilan (Israel) imparte la charla “Natural Language Inference in
Natural Language Terms”. David Losada de la Universidad de Santiago de Compostela
imparte la charla “El potencial de la Tecnología Lingüística para estimar polaridad en la
Web Social”. También se incluye en el programa un tutorial a cargo de Parth Gupta de
la Universitat Politècnica de València sobre “Learning-to-rank”.
En paralelo al SEPLN 2012 se han propuesto tres talleres satélites: 2nd Workshop on
Exploiting Large Knowledge Resources (E-LKR), Automatic Text Summarization for
the Future (ATSF) y el Taller de Análisis de Sentimientos en la SEPLN (TASS). Los
dos primeros talleres se fusionaron a nivel organizativo para dar más entidad a los
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 7
Revisores adicionales
Comité de Organización
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
ón
ver
me
tell
Jau
Cas
Uni
sita
I de
X
RE
CO
l
i
t
r
s
Ciencias
x
E
e
e
e
n
p
m
Tecnol ogía y
I
L
P
B
O
Escuela Superior de
PROGRAMA SEPLN 2012
Ponencias Invitadas
The potential of Linguistic Technology to drive polarity estimation in Web Social Media
David Losada (Universidad de Santiago de Compostela) ......................................................... 15
Tutorial
Learning-to-Rank
Parth Gupta (Universitat Politècnica de València) ................................................................... 16
Análisis del uso de métodos de similitud léxica con conocimiento semántico superfcial
para mapear la información de enfermería en español
Jorge Cruanes, M. Teresa Romá-Ferri, Elena Lloret Pastor ...................................................... 19
Proyectos
Demostraciones
Pósters
Helena Gómez Adorno, David Pinto, Nahun Loya, Yuridiana Alemán ....................................... 64
With the dramatic rise of web-based social media, millions of people broadcast their
thoughts and opinions on a great variety of topics. This leads to a growing need to
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
automatically extract and successfully exploit these opinions. In recent years, several
research advances have been done in Web Information Retrieval (IR) and in the field of
Opinion Mining and Sentiment Analysis. Analyzing and exploiting opinions from the
web presents new challenges and needs techniques radically different from those of
relevance-based retrieval. In this talk, I will review the most recent research advances in
polarity classification of social media documents (e.g. blog posts) and I will argue that
understanding the flow of sentiments in a text is a major challenge for effectively
predicting the document's orientation towards a given topic. To meet this aim, we need
not only effective retrieval algorithms based on state of the art statistical approaches, but
we also require advanced Computational Linguistics methods to deal with the subtleties
of the language.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
TUTORIAL
Learning‐to‐Rank
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Sesión 1: Análisis automático del contenido textual
Reducing Text Complexity through Automatic Lexical Simplification: an Empirical Study for
Spanish
Biljana Drndarevic, Horacio Saggion
En este artículo presentamos los resultados de un estudio cuyo objetivo es sentar las bases para
el desarrollo de un módulo de simplificación léxica para el español. Basándonos en estudios
para otras lenguas analizamos, en primer lugar, la distribución de la frecuencia y la longitud de
palabra en textos originales y sus simplificaciones manuales. En segundo lugar nos centramos
en los casos de clarificación de información a través de la introducción de definiciones en textos
simplificados. Finalmente estudiamos la reducción del contenido informativo del texto y
proponemos un sistema para su tratamiento basado en técnicas de resumen. Nuestro estudio
empírico sienta las bases para el desarrollo de un componente de tratamiento léxico en un
sistema de simplificación de textos en desarrollo.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Sesión 2: Extracción y Recuperación de la Información
En este trabajo, proponemos diferentes técnicas relacionadas con el Procesamiento del Lenguaje
Natural (PLN) para reformular las consultas geográficas lanzadas a un sistema GIR. Estas
técnicas consistirán en la modificación y/o expansión de las dos partes normalmente
reconocidas en una consulta geográfica: la parte temática y la parte geográfica. Hemos evaluado
cada una de las reformulaciones propuestas utilizando un marco de experimentación para
evaluar sistemas GIR como GeoCLEF. Los resultados obtenidos demuestran que todas las
reformulaciones de consulta propuestas recuperaron documentos relevantes que no fueron
recuperados utilizando la consulta original, por lo que estas estrategias se pueden considerar de
utilidad a la hora de trabajar con sistemas GIR.
Los métodos de agrupamiento han sido ampliamente usados en muchas tareas de Procesamiento
de la Información con el fin de capturar categorías de objetos desconocidos. Sin embargo, el
agrupamiento ha sido poco utilizado como método para etiquetar sentidos en la
Desambiguación del Sentido de las Palabras (WSD), es decir, como una forma de identificar
grupos formados por sentidos de palabras semánticamente relacionados que pueden ser
utilizados con éxito en el proceso de desambiguación. En este artículo presentamos un método
de desambiguación no supervisado basado en el agrupamiento de sentidos de palabras que
además es capaz de encontrar relaciones implícitas (no presentes en WordNet) entre los sentidos
de las palabras de la oración. Investigamos en profundidad el rol del agrupamiento y su
contribución al WSD. En los resultados experimentales se demuestra la utilidad del
agrupamiento para la desambiguación no supervisada.
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Sesión 3: Lexicografía y terminología computacionales
Análisis del uso de métodos de similitud léxica con conocimiento semántico superficial para
mapear la información de enfermería en español
Jorge Cruañes, M. Teresa Romá‐Ferri, Elena Lloret Pastor
definitions
Irene Renau, Rogelio Nazar
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Sesión 4: Reconocimiento y síntesis del habla
En este artículo se describe un método nuevo y sencillo para utilizar fuentes de información
bilingüe para el alineamiento de palabras en segmentos de texto paralelos. Este método puede
ser utilizado al vuelo, ya que no requiere de entrenamiento. Además, puede ser utilizado con
corpus comparables. Hemos comparado los resultados de nuestro método con los obtenidos por
la herramienta GIZA++, ampliamente utilizada para el alineamiento de palabras, obteniendo
unos resultados bastante similares.
Este artículo presenta las técnicas de post-procesado diseñadas para mejorar los resultados de un
sistema de diarización de locutores. Se han propuesto tres técnicas de mejora: el refinado de la
segmentación voz/no voz, la asimilación de los segmentos cortos y la fusión de los clusters del
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
mismo locutor. Las técnicas se han implementado en un módulo que se aplica como etapa de
post-procesado y que ha mejorado un 22.3% el resultado del sistema base. El módulo se ha
aplicado sin realizar ningún ajuste sobre otro sistema de diarización de arquitectura similar al
sistema base con una mejora del 21% y sobre uno con arquitectura muy diferente sin
conseguirse mejoras. Asimismo se ha utilizado con otra base de datos y se ha conseguido
mejorar el DER un 17 %. Esto demuestra la validez de las técnicas desarrolladas para la mejora
de los resultados de la diarización.
Este artículo ofrece una revisión de métodos para la construcción de WordNets siguiendo la
estrategia de expansión, es decir, mediante la traducción de las variants inglesas del Princeton
WordNet. En el proceso de construcción se han utilizado recursos libres disponibles en Internet.
El artículo presenta también los resultados de la evaluación de las técnicas en la construcción de
los WordNets 3.0 para el castellano y catalán. Estas técnicas se pueden utilizar para la
construcción de WordNets para otras lenguas.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Labeling Semantically Motivated Clusters of Verbal Relations
Gabriela Ferraro, Leo Wanner
El presente trabajo expone los resultados alcanzados mediante un método no supervisado para la
detección de la polaridad en textos relativos a citas aparecidas en noticias en inglés,
correspondientes al corpus 2010 JRC 1590 quotes. Este método, basado en la obtención de un
sub-grafo de WordNet obtenido mediante el algoritmo Page Rank y su ponderación mediante
los valores correspondientes en SentiWordNet, propone una solución no supervisada que ofrece
unos resultados competitivos sobre algunas técnicas actuales.
En este artículo se introduce una nueva metodología para modelar características de productos a
partir de una colección de opiniones de usuarios. La metodología propuesta se basa en modelos
estadísticos de lenguajes y es aplicable a productos de dominio arbitrario. La metodología
combina un kernel de palabras de opinión con un modelo de traducción de palabras para estimar
el modelo de características. Se presenta además un método para modelar las opiniones vertidas
sobre las características. Los experimentos realizados sobre diferentes colecciones de opiniones
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
muestran resultados alentadores en el modelado tanto de características como de opiniones
vertidas sobre éstas.
Este trabajo constituye un primer intento de abordar la detección automática de sujetos elididos
y de construcciones impersonales en portugués de Brasil, una tarea que no nos consta que se
haya llevado a cabo previamente en esta lengua. Para ello, creamos un corpus que contiene más
de 5.600 casos anotados con las clases que deben identificarse: sujetos explícitos, sujetos o
pronombres omitidos y construcciones impersonales. Estos casos se clasificaron mediante
aprendizaje automático basado en rasgos lingüísticamente motivados. Los resultados obtenidos
son modestos, aunque prometedores, y proporcionan una orientación para futuros trabajos en
este ámbito.
Proyectos
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
IARG-AnCora tiene como objetivo la anotación con papeles temáticos de los argumentos
implícitos de las nominalizaciones deverbales en el corpus AnCora. Estos corpus servirán de
base para los sistemas de etiquetado automático de roles semánticos basados en técnicas de
aprendizaje automático. Los analizadores semánticos son componentes básicos en las
aplicaciones actuales de las tecnologías del lenguaje, en las que se quiere potenciar una
comprensión más profunda del texto para realizar inferencias de más alto nivel y obtener así
mejoras cualitativas en los resultados.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Mejorando el acceso, el análisis y la visibilidad de la Información y los contenidos
Multilingues y Multimedia en Red para la Comunidad de Madrid
F.Verdejo, R.Martínez, P. Castell, A. Moreno, D.Torre, P.Martínez, A. Duarte, J.M. Pardo, M. De
Buenaga, J. Cigarran, V Fresno, A. García Serrano, I. Cantador, D. Vallet, A. Martínez
La finalidad principal del proyecto es desarrollar una arquitectura para sistemas de interacción
que conjugue un motor de diálogo, un generador de lenguaje natural, y una representación
semántica basada en ontologías que abarque tanto el espacio (real o virtual) como el usuario que
en él se ubica.
Demostraciones
Este proyecto pretende desarrollar un sistema que genere libros bilingües, con audio e
interactivos. El sistema ofrecerá diversos formatos de salida que permitan leer y escuchar los
libros en diferentes dispositivos, como libros electrónicos, tabletas y ordenadores. Asimismo,
ofrecerá la posibilidad de obtener libros paralelos impresos.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 24
En este artículo corto se muestra la funcionalidad tanto del servicio anotador de textos desarrollado
en el marco del proyecto Buscamedia (http://www.cenitbuscamedia.es/), como del buscador sobre
recursos o documentos multimedia anotados.
Pósters
Spanish JavaSimLib: una herramienta para el cálculo de la similitud semántica entre palabras
en castellano
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Pósters
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Método de Extracción de Información Semántica en ontologías
Semantic Information Extraction method on ontologies
identification of every term depending of its context. This method creates a graph of content as
final model. Once the reading process was finished, the inference in the set of existing
ontologies comes true, giving as a result a small sub-graph (sub-ontology) with the proposed
answer. Said sub-graph is created by locating instances that are related to the sentence and the
nodes connected directly to each one of them. The developed method; evaluated on little
bases of knowledge, populated in the experimentation phase, obtains significant results in the
majority of cases with an average F-Measure of 0.70.
Keywords: Ontology, Semantic Knowledge Extraction, Knowledge
retrieval.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 28
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 29
2
http://sig.ma/
3
Página web o aplicación que usa y combina datos, presentaciones
y funcionalidad procedentes de una o más.
4
http://sindice.com
5
http://visinav.deri.org/
6
http://www.swse.org/
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
7 serie proporci pri
Swogle :
limitada ones mer
Es un (porcent a
de
motor de pregunta ajes). fas
búsqueda s que e)
de cumplan 2. rela
ontologías, con un Méto cio
documentos patrón. do de nad
La Extra os
, términos y
respuesta a la
datos cción
es fras
publicados Semá e
puntual,
en la Web. puesto
ntica pro
Swoogle que solo La pue
emplea un retorna propuest sta.
un a Par
sistema de
término principal a
crawlers cad
y no un de este
para contexto, a
trabajo
descubrir no se uno
documentos contesta denomin de
RDF pregunta a ello
(Klyne and s que Método s
requieran de bus
J.Carroll,
un Extracci ca
2006) y un
razonami ón
documentos sub
ento Semánti
HTML con -
temporal ca. Éste
contenido gra
(reciente se divide
RDF. mente, el en dos fo
Algunos más último fases. La (su
avanzados año, etc.) primera b-
8 o casual se ont
como Watson olo
(por especiali
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
15
Artículos, preposiciones, conjunciones u otras palabras que carecen de
información semántica.
16
Diccionario léxico de la lengua inglesa.
Puede ocurrir normas a un d
que muchos seguir trata i
vocablos no se para mie c
encuentren buscar la nto h
debido a que no respuest más o
aparecen a en un esp c
literalmente. grafo de ecia o
Por ejemplo, lo conocim liza n
que aparece es iento: do a j
un sinónimo. 1. los u
Esto se Divi nod n
soluciona dir os. t
utilizando las 2. o
nuevamente pre Buscar s
WordNet, misa las e
quien nos s en clases i
permite obtener tres relacion n
una colección conj adas a i
de sinónimos unto los c
por cada s eleme i
palabra no disju a
ntos r
encontrada. ntos
Con esta en de ��, á
colección se corr c
espo a o
procede a
nden n
realizar través
cia l
nuevamente el
con de la a
paso uno.
su s
Al finalizar, etique
tipo; i
tendremos una
� ta n
lista con todas
las ontologías Do st
para a
relacionadas a mai
n
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
la búsqueda, las ny
representadas se c
clase i
por sus grafos adic
de a
s, � ion
conocimiento. an s
para al r
2.2.4.Búsqued e
a de los con
l
respuest junt
litera a
a en los o �.
c
grafos de les y 3.
i
conocimi Crear
� o
ento un
para n
las conjunt
A partir de este prop a
ieda o 𝑋 con
momento se des. d
Divi las
llamará dir a
así instanci
premisas a los las s
prem as
nodos a
isas impl l
encontrados en icad
perm as o
los pasos hast
a el
anteriores. La ite mo s
men
siguiente lista reali to. e
Inici
zar alm l
muestra las ente
ementos de directam con el contexto de la
� mediante ontología da
ente a
la etiqueta respuesta a la frase o
cada una pregunta propuesta.
Domain. Por ser este
de las
último proceso
Con esto el más
instancia
se están importante, en la
buscando
los nodos s de ��, Figura 2 se muestra
que tienen
algún valor sin tener un grafo de contenido
en
literal cuenta que se utiliza para
los
implicado nodos demostrar
temporal
es; a no
en la frase. prácticamente lo Figura 3.
ser que
4. Si queda antes expuesto, Pseudocódigo del
apunten
resaltándose el sub- proceso de
algún elemento a otra búsqueda para la
grafo final como
instancia frase: “What
de � que no resultado. Debe
incluida subject are taught
tenerse en cuenta que by Hector”.
ha en X,
esta es una muestra,
sido junto
representad con el los grafos normales 3.
o por son mucho más
ninguna nodo Evaluación
instancia en grandes.
��, incluir que la En este
define. A continuación se
en � desea recuperar apartado se
El presentan las
información
todas las resultado bases de
sobre la siguiente
de conocimiento
instancias pregunta: “What
aplicar que se
relacionada subjects are taugth by
s a dicho este utilizaron en la
elemento. Hector?”.
conjunto evaluación del
Incluir en 𝑋
5. todo La Figura 3
de pasos, método
elemento de muestra el
� que esté es un propuesto. Se
relacionado pseudocódigo del
con cualquier sub- ofrecen las
elemento de proceso de búsqueda
𝑋 a través de grafo de medidas para
un elemento de respuesta para la
instancia de conocim conocer el
��. Si � está frase propuesta. Cada
vacío, incluir iento grado de
en 𝑋 paso en la Figura 3
cualquier que fiabilidad de los
elemento de está numerado
� que esté correspondientement resultados. Y se
relacionado
con 𝑋 a e con la descripción analizan los
través
de propuesta anterior. resultados
cualquier obtenidos.
propiedad.
Al terminar,
se tiene en 𝑋
un conjunto
de
instancias que
representan
parte de la
solución
propuesta. Para
garantizar la
consistencia, se
incluyen en
ella todos los Figura 2. Grafo de
contenido utilizado para
nodos recuperar información.
relacionados
D
3.1. Bases por c o
de especiali n
stas i
Conocimi d
ento humanos s e
, �
Para el dándose i
�
desarrollo de la
los ó c
cantidad
experimentos o
exacta n
se tomaron de nodos r
como bases de necesari r
conocimiento os e
dos ontologías: e ( s
Pizza: n p
P o
Ontología
que forma l ) n
parte del a d
repositorio : e
de r a
ejemplos e l
de Protege. s � a
Esta p c
Ontología u � a
se ha sido e n
expandida s ti
y poblada t = d
para la a a
experiment . d
ación. Está d
en idioma �
3.2. e
inglés. Me � no
Escuela: did do
Una as � s
Ontología
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
ret
relacionada Para la
or
con evaluaci
/ na
definicione ón de las
do
s de una pregunta � s
universidad s se
� cor
. Está en tomaron
en rec
idioma �
cuenta ta
español.
las me
Conociendo Co
siguiente nte
el tópico de las ber
s ,
bases de tur
variables ��
conocimiento,
: a al
se tomaron 10
(C) tot
personas para
: � al
la
= de
confección de
��� no
30 frases como P / do
preguntas en
r (�� s
idioma inglés
+� de
y español.
e ���� vu
Estas fueron
�) elt
contestadas
os y ����� a la
cantidad de informac que toda referida al
nodos ión a la contexto
buscar informa descrito por
que deberían
estar incluidos se ción a dicha frase.
en la respuesta
y encontra buscar Por otra
n ba en el se parte, en
o sub- encuentr preguntas muy
grafo a dentro puntuales como
s devuelto de la “Cuba
e . respuest extension”,
La a donde solo
i precisió propuest será necesario
n n a. Esto responder un
c significa se debe valor asociado
l el nivel a que al a la extensión,
u de localizar la precisión
y exactitu las disminuye dado
e d en la instanci que se está
r respuest as incluyendo en
o a. Las relacion la respuesta
n respuest adas a todo un
. as más cada conjunto de
Para exactas palabra nodos que
relacionar cada son las de la describen al
una de estas que su frase, se país, Cuba. Si
medidas se precisió está la frase se
tomó en cuenta n está garantiz encuentra bien
una tercera más ando la redactada
ecuación: cercana inclusió semánticamente
�- a uno. n de , la cantidad de
La F- toda la palabras en ella
medida informa no influye
medida se ción demasiado en
utiliza semánti la dimensión
para ca de la respuesta.
(F): � = 2
estable Esto se debe a
cer un que como se
∗ � ∗ �/(� equilibri están
o entre localizando las
la instancias y
+ �) precisió las propiedades
n y la que la
4. cobertur
Resultados describen, en
a. este ámbito se
Como se Analizan
observa en la encuentra la
do los mayor
Tabla 1, para resultad cantidad (por
todas las frases
os y no decir
propuestas la
teniendo todas) de
cobertura es
en p
uno. Esto
cuenta lo a
significa que
antes l
para todas las
mencion a
frases en la
ado se b
respuesta no
puede r
faltó ningún
destacar a
nodo, o sea, la
s teniendo en cuenta y
d destacando el valor
e que aportan las
la instancias dentro de
fr una ontología. De
a esta forma, se
s
e.
Pregunta P
Profesores que imparten Cálculo1 0.6875
Estudiantes que estudian Mecánica 0.8095
Quién es Héctor Dávila 0.9167
What pizza are eaten in Cuba 0.7778
what pizzas has Annalie eaten up 0.9
How old is Arturo 0.2667
Client that have 25 years old 0.2683
Country Brasil 1
Cuba extension 0.2593
Topping of Prince Carlo Pizza 0.2069
Pizza that have Red Onion Topping 0.7059
Asignaturas de la Disciplina
0.6250
Programación
Disciplinas del Departamento de
0.26667
Matemática
Departamento de la carrera
0.1905
industrial
Clients that eat up Veneziana Pizza 0.60
How many Pizzas there is 0.9412
Countries with extension 25413 Km 1
How many Topping there is 0.2745
Tabla 1.
Resultados.
Del total de 18 frases
desarrolladas, 12 están en
idioma inglés con un
promedio de precisión de
0.6001, mientras que el resto
(6 frases) se encuentran en
español con un promedio de
precisión de 0.5826.
5. Conclusiones y
trabajos futuros
El método de extracción de
información semántica en
ontologías, utilizando la
representación en un grafo
de contenido ampliado, logra
reducir la búsqueda de
información a un sub-grafo
(o sub-ontología) donde se
encuentran solamente los
términos relacionados a la
frase o pregunta propuesta.
Esto se debe a que al
solicitar información, se
buscan los objetos
relacionados dentro de un
grafo de conocimiento
garantiza una localizar de c
recuperación los WordN i
más exacta y nodos et, pero m
reducida. A implicad ahora i
diferencia del os en establec e
resto de las una iendo
n
herramientas de búsqued para el
alineam t
consulta a a.
bases de Como iento, o
conocimiento, trabajo similitu s
las retornan las futuro des
ontologías se contextu Es
íntegramente y pretende ales te
no el fragmento utilizar entre las art
implicado. como represen ícu
No obstante, taciones lo
base de
se destacan resultant ha
conocim
como es de sid
iento
mejores la Fase o
Linked
resultados las 1 co
Data,
frases donde (Proces fin
con el
o de an
el contenido a objetivo
Convers cia
buscar no está de hacer
ión) y do
dirigido a una más
las po
simple amplio
multidi r
propiedad de el el
una instancia, o espectro mension
Mi
sea, donde se de alidades
nis
intenta búsqued de
ter
recuperar la a y los concept
io
información dominio os
de
completa de un s ofrecido
Ci
determinado implicad s por el
en
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
Ana García Serrano Rubén Granados David Hernández-Aranda
NLP&IR Research Group NLP&IR Research Group NLP&IR Research Group
ETSI Informática, UNED, ETSI Informática, UNED, ETSI Informática, UNED,
Madrid, Spain Madrid, Spain Madrid, Spain
agarcia@lsi.uned.es rgranados@lsi.uned.es daherar@lsi.uned.es
of information that range from the complete transcriptions or subtitles in case of television
videos to logos, TV channel identifiers, overlaid text, etc. The corpus is formed by some
television videos (sports), digital news and texts from web pages. In the paper it is shown how
to annotate and use this corpus, as well as the relevance judgments of a set of test queries in the
practice using the textual subsystem developed.
Keywords: Multimedia information retrieval, Multimedia Annotation, Text-based Information
Retrieval, Multimedia Fusion, Corpus.
1
http://www.cenitbuscamedia.es/
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 35
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 36
s, m
1 as in s
pe o i
I ct s s
n os d t
qu e e
t
e e m
r s
se a
o m p
d id a d
u en ci e
c , o s
c al re a
i m q r
ó en u r
n os er o
, id l
La co o l
experimentació n y a
n y evaluación la c d
de técnicas s o o
relacionadas m m
con la e pl p
recuperación di ej a
de información d id r
multimedia as a a
(texto, d d.
imágenes, e 3. l
audio, vídeo) es p U a
uno de los r s s
mayores retos e a
actuales, tanto ci b n
para si il e
colecciones de
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
ó i c
objetos n d e
multimedia y a s
(audio, video, r d, i
imágenes y e q d
textos) como c u a
directamente en a e d
la web. ll. in e
En general, 2. di s
este tipo de Ef c
evaluaciones ici a d
deben estar en c e
sujetas a tres ci u l
criterios a, á u
fundamentales q nt s
[Verdejo, ue o u
García-Serrano, se d a
2008]: m e r
1. Eficacia id út i
o e il o
correcció en e .
n de los té s E
resultado r el x
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 37
isten siguiente b e
diferentes s a
foros de element l
evaluación os: p o
(como TREC2, 1. Un er s
ImageCLEF3 o co ti
MediaEval ) 4
r n r
que permiten p e e
evaluar (en us nt s
relación a los o e u
aspectos co s, l
descritos en los nj ll t
apartados 1 y 2 u a a
anteriores) nt m d
diferentes o a o
métodos, de d s
técnicas o te a
aproximaciones xt s p
incorporadas os ta a
en un sistema. /i m r
Por tanto, es m bi a
necesario un ág é
primer paso en n c
para es ll a
seleccionar, de /o a d
entre las tr m a
diferentes os a
colecciones d d
oc c
disponibles, o o
aquella que u s
m n
resulte más t s
adecuada para en o
to u
la tarea p l
concreta que va s ic
m t
a resolver el s, a
sistema a ul
y ;
evaluar. ti
3.
Algunos m
L e
metodología
ejemplos de evaluación en el foro ed
o s
ImageCLEF,
donde se ha como ejemplo del caso deia,
s
aplicado esta 2.
j d
U
u e
n
ic c
combinación de co
io i
anotaciones, nj
s r
pueden un
d ,
encontrarse en to
e
[Benavent de
r
2010, Garcia- co u
el
Serrano 2008]. ns n
e
Por otro ul a
v
lado, toda ta
a
colección de s a
n
evaluación de n
ci
tiene que pr o
a
incluir los ue t
d
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 38
evaluación necesita:
a. Elaborar un
conjunto de
consultas para
realizar
experimentos
suficientemente
representativos.
b. Recolectar y
observar el
comportamient
o y las
variaciones c. Revisar los experimentos,
realizadas/suger respecto a los documentos
idas, tanto por
el usuario como
del sistema.
multimedia
visitados por
el usuario de
los ofrecidos
por el sistema y
compararlos
con los de los
juicios de
relevancia.
http://trec.nist.gov/presentations/TR
EC2004/04intro.pdf
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 40
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 41
2 recursos ntas y te
multime sistemas xt
C dia tal y existent ua
como se es en l y
o
presente recuper la
n ación de re
n. Por
t informa cu
ejemplo,
e identific ción pe
x an los multime ra
t personaj dia ci
o es a los abordan ón
que se el ,
B hace problem sur
u referenci a ge
s a, aplicand in
c identific o ev
an enfoque ita
a
objetos s bl
m textuale e
fijos en
e los s, m
d keyfram usando en
i es o estas te
a instantán anotacio la
eas nes y ne
En este
relevant metadat ce
trabajo se
es etc. os sid
presentan los
Cuando asociad ad
primeros pasos
el os a las de
hacia la
resultad imágene est
creación de una
o del s, al ab
colección de
análisis audio o lec
evaluación para
de estos a los er
sistemas de
subsiste videos có
recuperación de
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 42
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 43
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 44
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 45
r o de la ación se e
e imagen describe s
c (jugador el c
h tirando a corpus r
a puerta) desarrol
i
supone lado y
s sus
p
esta
e brecha anotacio c
m semántic nes. Se i
á a. En muestra ó
n concreto n n
t es algunos
i necesari ejemplo d
c o probar s con e
a el el l
. benefici corpus
El problema s
o Deporte i
de la brecha obtenido s20 y
semántica se s
si se los
refiere a la combina benefici t
dificultad de n las os e
percibir la diferente alcanza m
información en s dos. a
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 46
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 47
el
9
www.daedalus.es
10
http://nlp.lsi.upc.edu/freeling/
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 48
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
XVIII CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL 49
apartado 4 de este artículo, y con el que única lista de resultados ordenados por
finalmente se crea un documento único para relevancia de la consulta con los documentos
cada recurso multimedia, unificando la multimedia recuperados. La función de
información anterior. Además se añaden el ranking utilizada es BM25F, que extiende a
idioma, el nombre del documento original y las Okapi-BM25 para documentos estructurados
entidades nombradas detectadas, o los campos (formados por campos) [Robertson 1994].
relacionados con la información semántica del En este prototipo se permite la selección del
tesauro utilizado. operador lógico con el que se desea hacer la
Un ejemplo de documento XML único es: búsqueda: OR o AND. Además se pueden
<out>
<idioma>es</idioma> seleccionar los tipos de metadatos,
<titulo> Valencia - Mallorca, Liga BBVA correspondientes a los tipos de anotaciones del
- Primera División en Marca.com </titulo>
<seccion>Fútbol * Liga BBVA </seccion>
fichero único por los que se quiera buscar, y se
<titulo_noticia>El Mallorca siembra pueden filtrar los resultados recuperados por el
dudas en el Valencia </titulo_noticia> tipo de documento y así recuperar solo videos,
<subtitulo>JUSTA VICTORIA DEL EQUIPO DE
LAUDRUP</subtitulo> solo noticias/páginas web o ambos.
<entradilla> El Mallorca dio la sorpresa El servicio de búsqueda está disponible
en Mestalla al derrotar al Valencia (1-2)
y continúa con su racha de buenos
para otros investigadores, y previa solicitud de
resultados ante los grandes, después de login y password, pueden acceder al prototipo
empatar en el Nou Camp y en casa ante el desplegado en la dirección siguiente:
Real Madrid. El Valencia no estuvo nunca
metido en el partido y el planteamiento de http://albali.lsi.uned.es/deportes20-1.0.0/.
Emery, sin Mata y Aduriz de inicio y con
Banega, Fernándes y Albelda en el centro
del campo, fue definitivo.</entradilla>
4 El corpus Deportes20
<cuerpo>… … … … … </cuerpo>
<fecha>24/10/2010</fecha> La colección está compuesta por 4 tipos de
<autor>PABLO DÍAZ</autor> recursos o documentos multimedia:
<foto></foto> Videos en catalán (proporcionados por
<nes>Valencia Albelda Mallorca Banega
Liga_BBVA Valencia Primera_División CCMA11, miembro del consorcio): 21
Alvarez_Izquierdo Mestalla Nou_Camp documentos multimedia en catalán, de los
PABLO_DÍAZ Mallorca Real_Madrid
Valencia_JUSTA_VICTORIA </nes>
cuales, solo 10 tienen asociado un documento
</out> XML con su descripción, una carpeta con
keyframes asociados y los objetos detectados
A partir de estos documentos únicos el pre- que aparecen en ellos.
procesamiento sigue con los analizadores De los 11 recursos restantes sí que se
SnowBall implementados para cada idioma en dispone de sus videos correspondientes, así
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
<i>XVIII Congreso de la Asociación Española para el Procesamiento del Lenguaje Natural</i>, edited by Llavorí, Rafael Berlanga, et al., Universitat Jaume I. Servei de
Comunicació i Publicacions, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliotecauptsp/detail.action?docID=4184256.
Created from bibliotecauptsp on 2019-09-28 09:33:54.
TEMPORAD Web castellan e
A x
08/09 (Proporci o, 30 en t
- EL onadas catalán y e
BARCELON
por 2 en n
A s
ENTRENA Daedalu euskera.
i
CON 13 s, Se ó
JUGADORE
S DEL miembro extrajero n
FILIAL del n con ,
i
TEXTO
consorci consulta d
NATURAL:
KOREAN o). Son s i
PETRONAS 34 relaciona o
Formula1 m
- The páginas das con
a
next big web en los ,
Audi -
formato documen d
¿Te
llevo? – HTML, tos del i
g
LOGOS: Bwin cuya corpus i
– Audi
– Mahou temática de t
21.632 o
– está n
Adidas
relaciona noticias -
–
RealMadr da con de 16 v
id C.F. los periódic í
–LFP –
RNE – videos de os con d
e
ONDACERO los formatos o
M
grupos diferente s
O
S anteriore s. :
C s, y de Con
A
S las todo lo t
: cuales 30 anterior í
se t
están en u
L idioma construy l
a
castellan e una o
S o, 3 en colecció ,
e catalán y n
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
x anotada
t
1 en s
a inglés de 127 u
b
(selecció recursos
t
Esta n o í
información manual). documen t
puede ser Notici tos u
relevante en el as multime l
o
contexto (Proporci dia ,
general del onadas correspo
fútbol, si se por ndientes
t
conoce que Daedalu a videos, r
bwin.com y s). páginas a
Audi son los Conjunto web y n
patrocinadores de 62 noticias s
c
del Real noticias textuales r
Madrid y en , anotada i
Mahou es la formato con los p
marca HTML, siguiente c
patrocinadora i
de las s
o
de la Liga cuales 30 campos: n
española (en el están - e
gener
2011). escritas s
ales:
Páginas en file,
,
ello
s)
5 catalán) y
- realizar su
págin A análisis
as
n morfosintáctico,
web
resumen,
y o de forma que
transcrip
notic t se obtengan
ciones_se ias: los términos
gmentos, títul a
que pertenecen
o, c a una categoría
desc
ripc
i morfosintáctica
notas,
texto_age ión, o específica, y las
ncia, keyw n entidades
ords
,
nombradas, que
auto a son las que se
r, u almacenan en el
texto_pro secc t documento
ión,
pio,
o único de
descripci epíg
rafe m anotación de un
ón,
fecha, , á recurso
ámbito ante multimedia.
t
geográfic títu Para ello, esta
o, lo, i herramienta
descripci titu c utiliza módulos
ón lo_n
otic a intermedios que
de
ia,
La sirven de
subt wrapper para
keyframes
itul herramie
,
o, nta de herramientas
texto_sob
entr anotació conocidas
re_impres
o,
adil n textual como:
la,
desarroll FreeLing,
cuer
logos, po, ada en TreeTagger13,
palabras fech el Stanford
reservada a_no proyecto NER14 y Stilus
s. tici
- Thesaure:
permite de Daedalus.
a,
sinónimos, luga analizar Las
relacionado r, textos herramientas
s, foto en que se deben
d
e
- diferente utilizar en cada
Entid
t
ades
s caso deberán
a
l nombr idiomas ser pasadas
l adas: (español, como
e nes inglés,
s parámetros a
, este servicio.
Este
En la figura
j corpus
2 puede
e anotado
r observarse la
está
a salida del
r disponibl
interfaz para la
q e para la
u consulta:
í comunid <soapenv:En
a ad de velope
xmlns:soapenv="h
- objetos: investiga ttp://schemas.xm
Identific dores, lsoap.org/soap/e
ador de n velope/"
objeto
previa xmlns:ws="http:/
(de una solicitud. /ws.annotation.l
si.uned.es/">
lista de <soapenv:Head
er/>
<soapenv:Body> 13
<ws:anotaTexto> http://www.ims.uni-
<texto>Será stuttgart.de/projekte/corple
un mal menor, pero no x/TreeTagger/
14
deja de ser negativo
para el Real Madrid que http://nlp.stanf
Xabi Alonso no esté el ord.edu/softwa
próximo sábado en , El re/CRF-
Molinón. Según los
NER.shtml
antecedentes, el equipo
blanco tiene todas las
papeletas para echarle
de menos.</texto>
<tipoAnotacion>POSTAGG
ING</tipoAnotacion>
<idioma>SPANISH
</idioma>
<tipoHerramienta>FREELIN
G</tipoHerramienta>
</ws:anotaTexto>
</soapenv:Body>
<
/
s
o
a
p
e
n
v
:
E
n
v
e
l
o
p
e
>
El servicio web de
esta herramienta de
anotación se encuentra
desplegado en:
http://albali.lsi.un n scri s
ed.es/DemoAnot t pció (
adorWS/ y o n c
puede utilizarse s (ca a
para i mpo m
investigación, n tran p
previa petición te scri o
de login y r pcio
password. m nes) o
e 3. i
6 Pruebas d subt d
con la i itulo
colección o s d
Deportes20 s (ca e
i mpo
El corpus n subt i
Deportes20 se d itulo d
complementa e s) e
con un x 4. n
conjunto de a texto t
consultas d _sob i
pertinentes o re_i f
(respecto al s mpre i
objetivo del q so c
prototipo a u (cam a
evaluar) y sus e po d
juicios de n texto o
relevancia junto o _ r
con una e s d
descripción a st o e
muy alto nivel á b
de los n r
resultados u
d e
obtenidos. n
if
Copyright © 2012. Universitat Jaume I. Servei de Comunicació i Publicacions. All rights reserved.
_ a
El prototipo e i
de búsqueda r m
(Figura 1) u
e p
permite n n
r
configurar las ci e
siguientes a o
s b
opciones de d o
búsqueda sobre o j
) e
el corpus s 5.
Deportes20: e t
logo o
1. n s
metadat l (cam
os. Los o )
po 7
campos q logo
asociado u .
s) n
s a esta e 6.
si e
o s
búsqued g b (
a son u
j c
los de e.
e a
los 2.
t m
docume tran
o p
o nes) , pinchan keyframe (los 3
Así como metadat do primeros son
cuatro opciones os. sobre buenos
relacionadas Resu cualquie ejemplos)
con el ltados: r aparecerá una
Thesaure: Con el imagen de
8. operador Fernando Torres
sinónimos AND se en ese partido
(campo recupera (la
sinonimos) un único segmentación y
9. resultad anotación de los
relacionado o que sí vídeos e
s (campo trata el imágenes o
relacionado hat trick keyframes es un
s) de resultado de la
10. detalles Fernand construcción del
(campo o Torres, corpus).
detalles) y con el
11. OR se
jerarquía recupera
(campo n 13
jerarquia) (entre
noticias
A y
continuación se vídeos)
incluyen en los
algunos que
ejemplos de también
prueba, se
indicando en referenci
cada uno de a a otros
ellos las Fernado nterfaz del buscador
opciones s para la respuesta
utilizadas para (Alonso) a la consulta 2
configurar la y otros
búsqueda, y las Hat Consulta 2:
ventajas Tricks “Iker
alcanzadas con (de Casillas”.
la combinación Saviola). Opciones de
de anotaciones búsqueda:
provenientes Visua catalán,
de diferentes lizando AND/OR,
medias: el vídeo Metadatos.
del Resultados:
Consulta primer Se recuperan 6
1: “Hat trick resultad vídeos
de Fernando o se relacionados
Torres”. (hat muestra con Iker
trick: cuando el Casillas. Todos
un jugador correspo ellos se puede
mete 3 goles en ndiente a visualizar. En
un partido) un hat el primero,
Opciones trick de además, al
de búsqueda: Fernand disponer de
AND/OR, o Torres, keyframes,
Vídeos/Noticias y también se
podrá pinchar sobre alguno
de ellos y ver a Casillas.
Consulta 3: "Fernando
Alonso en el GP de
Corea”. (GP:
gran premio,
carrera).
Opciones de búsqueda:
castellano, OR,
Vídeos/Noticias,
metadatos+subtítulos
Resultados: Al
seleccionar “subtítulos” se
recupera un vídeo que no se
obtendría en otro caso. El
vídeo recuperado es
exactamente el asociado a la
primera noticia del resultado.
Además, al pinchar sobre el
segmento 0 (o 15) de dicho
vídeo, se reproducirá la
parte en la que habla de la
victoria de Alonso.
Consulta 4: “bwin”.
Opciones de búsqueda:
metadatos, con y sin logos.
Resultados: Se obtienen
3 vídeos con la información
textual en el campo “logos”
(uno de ellos también en
“texto sobreimpreso”). Si
solo se seleccionara para la
búsqueda el campo
“metadatos” no se
recuperarían estos 3 vídeos.