Professional Documents
Culture Documents
CARLOS ZAPATA
Grupo de Ingeniera de Software, Escuela de Sistemas, Universidad Nacional de Colombia, czapata@unal.edu.co
KARLA PALOMINO
Grupo de Ingeniera de Software, Escuela de Sistemas, Facultad de Minas, Universidad Nacional de Colombia, Sede Medelln
ROBERTO ROSERO
Grupo de Ingeniera de Software, Escuela de Sistemas, Facultad de Minas, Universidad Nacional de Colombia, Sede Medelln
Recibido para revisar Febrero 17 de 2007, aceptado Mayo 18 de 2007, versin final Mayo 28 de 2007
RESUMEN: El procesamiento del lenguaje Natural (PLN) investiga y formula mecanismos computacionales que
permiten la comunicacin hombre-mquina. Conceptualmente, un sistema de PLN se divide en tres procesos
principales: anlisis morfolgico, sintctico y semntico. En cada uno de estos procesos es factible que se presenten
mltiples interpretaciones de una misma palabra o frase, segn sea el proceso que se est llevando a cabo; estas
interpretaciones dan origen al concepto de ambigedad. Para resolver la ambigedad se han propuesto mtodos
basados en estadstica, inteligencia artificial y mtodos hbridos, los cuales an presentan dificultades como el alto
consumo de recursos lxicos y computacionales y el uso de elementos pertenecientes a dominios restringidos. En
este artculo se propone un mtodo que incluye la definicin de un conjunto de reglas heursticas para desambiguar
frases que poseen ambigedad sintctica de tipo coordinativo y preposicional. Adems, se muestra la
implementacin del mtodo en el lenguaje python y, combinada con herramientas del paquete NLTK, y se presentan
dos casos de estudio para ejemplificar el mtodo.
PALABRAS CLAVE: Procesamiento del Lenguaje Natural, Anlisis sintctico, Informacin sintctica y semntica,
Ambigedad sintctica Coordinativa, Ambigedad sintctica preposicional, Desambiguacin.
ABSTRACT: Natural Language Processing (NLP) have researched and formulated computational mechanisms to
ease Human-Computer Interaction (HCI). From the conceptual point of view, a NLP system can be divided into three
main processes: morphology, syntax and semantics. Every process has to deal with multiple interpretations for the
same word or phrase; as a result, ambiguity is originated. To solve ambiguity, statistics-based, artificial-intelligence-
based, and hybrid methods have been proposed; however, there are still difficulties to be solved, for example wasting
of lexical and computational resources and using of restricted-domain elements. Here in this paper we propose a
method for solving coordinative and prepositional syntactic ambiguity; this method includes the definition of a set of
heuristic rules. Also, we show the implementation of the method using the python language in conjunction with the
Natural Language Tool Kit (NLTK), and we exemplify disambiguation of two case studies.
KEYWORDS: Natural Language Processing, Syntactic Analysis, Syntactic and Semantic Information, Coordinative
and Preposition Syntactic Ambiguity, Disambiguation.
Dyna, Ao 75, Nro. 156, pp. 29-42. Medelln, Noviembre de 2008. ISSN 0012-7353
30 Zapata et al
este artculo, los tipos de ambigedad sintctica 4.1 Alcance del mtodo
pueden ser:
Las preposiciones y conjunciones en el espaol, se
- Ambigedad Sintctica Coordinativa: se puede clasifican en diferentes grupos. Las preposiciones
presentar cuando una oracin contiene ms de una se clasifican en separables e inseparables y las
palabra de tipo conjuncin. Esta ambigedad puede conjunciones, segn la funcin de correlacin que
ser copulativa, disyuntiva o mixta. cumplen en la oracin, se dividen en coordinantes
y subordinantes; dentro del grupo de las
- Ambigedad Sintctica Preposicional: se puede
conjunciones subordinantes se encuentran otros
presentar, cuando una oracin contiene una palabra
subgrupos que son: copulativas, disyuntivas,
de tipo preposicin.
adversativas y alternativas. Finalmente en el grupo
Cuando se identifica el tipo de ambigedad, se de las conjunciones subordinantes se encuentran
muestran los rboles sintcticos correspondientes a los subgrupos de conjunciones: causales,
las estructuras sintcticas que representan la frase y comparativas, condicionales, continuativas, ilativas
el tipo de ambigedad que presenta. Sin embargo, y finales.
es posible que la frase no presente ambigedad El mtodo que aqu se propone identifica las
sintctica; en este caso se despliega una sola preposiciones separables para realizar el anlisis
representacin sintctica y se notifica que la frase sintctico de la frase, pero se define un nuevo
no presenta ambigedad. subconjunto de preposiciones separables
posiblemente ambiguas, que permitirn determinar
la ambigedad sintctica preposicional presente en
Desambiguacin una frase dada. En la Tabla 1 se muestran las
Luego de identificar el tipo de ambigedad que preposiciones separables, y cules de ellas son
presenta la frase, se procede a aplicar las reglas consideradas como posibles preposiciones
correspondientes a la desambiguacin; si la ambiguas segn las reglas definidas por el mtodo.
ambigedad sintctica es de tipo coordinativo, la Sin embargo, la informacin sintctica de las
aplicacin se encarga de identificar el tipo de las palabras que conforman una frase, no es suficiente
conjunciones que hacen parte de la frase, y calcular para llevar a cabo la desambiguacin preposicional
el nivel de profundidad al que se encuentran dentro de la misma; es por ello que se hace necesaria la
de la representacin grfica o rbol sintctico. introduccin de informacin semntica de la
Dado el caso de que la ambigedad identificada sea preposicin que genera ambigedad y de las
de tipo preposicional, el sistema se encarga de palabras que la acompaan en la frase [21].
identificar las preposiciones que conforman la frase
y luego procede a consultar en un archivo los En la Tabla 1 tambin se pueden observar los
sentidos asociados a cada preposicin y las sentidos que representan las diferentes
palabras con sus roles semnticos asociados. preposiciones y que son aceptados por el mtodo.
Ambas estrategias de desambiguacin se Para llevar a cabo la tarea de desambiguacin
encuentran definidas por ciertas reglas heursticas sintctica coordinativa, el sistema comienza
que han sido inferidas, implementadas y aplicadas reconociendo las conjunciones que hacen parte de
en diferentes casos de estudio (Vase Seccin 4.2) la frase, y que se han definido previamente como
por los integrantes del proyecto. conjunciones reconocidas por el sistema (Vanse
Tablas 2 y 3). Para la posterior desambiguacin, el
mtodo define un nuevo grupo de conjunciones
conformado por aqullas que posiblemente generen
Despliegue de resultados
ambigedad coordinativa dentro de la frase; estas
Luego de aplicar la estrategia de desambiguacin, conjunciones son: Y, O, E, U.
el sistema muestra grficamente el (los) rbol(es) Para llevar a cabo la desambiguacin de una frase
sintctico(s) que segn las reglas heursticas dada, el mtodo que se propone parte de ciertas
definidas no son ambiguos sintcticamente. suposiciones que son:
Dyna 156, 2008 35
En el caso: Mara o Pedro o David estudiarn sustantivo que acte o represente un punto en el
ingls se identifican dos conjunciones disyuntivas tiempo, entonces la preposicin es de tiempo.
consideradas posiblemente ambiguas, por lo tanto Regla 5.1.3 Si la preposicin se encuentra sucedida
segn la regla, la frase presenta ambigedad por un sintagma nominal cuyo ncleo sea un
coordinativa disyuntiva. sustantivo que acte o represente un medio o
instrumento, entonces la preposicin es de
Regla 3: Si una frase contiene ms de una Instrumento.
conjuncin sintcticamente ambigua y dichas
conjunciones pertenecen al grupo de conjunciones Regla 5.2 La preposicin es con:
coordinantes disyuntivas o al grupo de
Regla 5.2.1 Si la preposicin se encuentra sucedida
conjunciones coordinantes copulativas entonces la
por un sustantivo que puede representar
frase presenta ambigedad coordinativa mixta.
instrumento entonces la preposicin es de
instrumento
En la frase: Mara y Pedro o David estudiarn
Regla 5.2.2 Si la preposicin se encuentra sucedida
ingls se identifica una conjuncin disyuntiva y
por un sustantivo que acte o represente una
otra copulativa, que indican que la frase presenta
persona u objeto animado entonces la preposicin
una ambigedad coordinativa mixta.
es de compaa.
Regla 5.2.3 Si la preposicin se encuentra sucedida
Regla 4: Si una frase contiene al menos una
por un sustantivo que acte o represente una
preposicin separable, que sea sintcticamente
sustancia o material entonces la preposicin es de
ambigua entonces la frase presenta ambigedad
contenido.
preposicional.
Regla 5.3 La preposicin es de:
La frase: Juan va a la fiesta con la novia contiene
dos preposiciones: la primera de ellas es la Regla 5.3.1 Si la preposicin se encuentra sucedida
preposicin a y la segunda es la preposicin por un sustantivo que puede representar un tipo de
con; estas preposiciones son agrupadas por el material entonces la preposicin es de materia.
sistema como separables y posiblemente ambiguas. Regla 5.3.2 Si la preposicin se encuentra sucedida
por un sustantivo que acte o represente una
Reglas de extraccin de informacin persona o en general un objeto animado entonces la
semntica: preposicin es de pertenencia.
Regla 5.3.3 Si la preposicin se encuentra sucedida
Estas reglas permiten reunir la informacin por un sustantivo que acte o represente un lugar
semntica necesaria tanto de la(s) preposicin(es) entonces la preposicin es de origen.
que genera(n) ambigedad como de las palabras Regla 5.4 La preposicin es en:
que la(s) acompaan; esta informacin semntica Regla 5.4.1 Si la preposicin se encuentra sucedida
se conoce como roles semnticos de una palabra por un sustantivo que puede representar un lugar
[21]. entonces la preposicin es de lugar.
Si la Regla 4 se cumple, entonces: Regla 5.4.2 Si la preposicin se encuentra sucedida
por un sustantivo que represente un punto en el
Regla 5: Se identifica la preposicin que ha tiempo entonces la preposicin es de tiempo
generado la ambigedad sintctica.
Reglas de desambiguacin:
Regla 5.1 La preposicin es a:
Estas reglas permiten aplicar una estrategia de
Regla 5.1.1 Si la preposicin se encuentra sucedida desambiguacin posterior al cumplimiento de
por un sintagma nominal cuyo ncleo sea un alguna de las reglas de identificacin de la
sustantivo que puede representar locacin, ambigedad.
entonces el sentido de la preposicin es de Lugar. Si se cumple la Regla 1 entonces:
Regla 5.1.2 Si la preposicin se encuentra sucedida
por un sintagma nominal cuyo ncleo sea un Regla 6: Para cada uno de los rboles sintcticos
Dyna 156, 2008 37
La primera interfaz que presenta la aplicacin, presenta la frase (Vase Figura 3). Para entregar
permite ingresar una frase para ser posteriormente este mensaje, la aplicacin internamente se
analizada y desambiguada (Vase Figura 1). encuentra validando las Reglas 1 a 4 que hace parte
En esta interfaz, el usuario escribe la frase que de las reglas de identificacin de la ambigedad
desea desambiguar y da clic en el botn ingresar; (Vase Seccin 4.2).
internamente, el sistema lleva a cabo el anlisis Posteriormente, el sistema se encarga de aplicar las
sintctico de la frase y muestra los rboles reglas de desambiguacin y finalmente mostrar el
sintcticos correspondientes a la frase ingresada (los) rbol(es) sintctico(s) ya desambiguados
(Vase Figura 2). (Vase Figura 4). Adems, se despliega una
Luego, el sistema muestra un mensaje al usuario ventana que indica las reglas que fueron aplicadas
que le informa el tipo de ambigedad sintctica que en el proceso.
De igual forma, el sistema procede a mostrar un Sintagma nominal cuyo ncleo est representado
mensaje que seala cules reglas fueron utilizadas por el sustantivo novia que representa una persona,
para resolver la ambigedad de la frase ingresada que corresponde a la regla 5.2.2. (Vase Seccin
(Vase Figura 6) 4.2). Luego de identificados la preposicin y su
posible sentido, se procede a desambiguar la frase
mediante la Regla 10, en este caso se obtienen los
resultados que se muestran en la Tabla 6.
Tabla 6. Eleccin de la representacin sintctica
Table 6. Selection of the syntactic representation
Nmero Nivel de Representacin
Representacin Profundidad elegida
Figura 6 Informacin del Tipo de ambigedad
1 6 X
Figure 6. Information about the ambiguity type
2 4
Para realizar la desambiguacin correspondiente, el
sistema aplica la regla de desambiguacin 5.2, y De la Tabla 6 se infiere que la representacin
Verifica las reglas 5.2.1, 5.2.2 y 5.2.3. En este sintctica elegida segn las reglas heursticas es la
caso, los resultados obtenidos tras la aplicacin de representacin 1 ya que el nivel de profundidad de
dichas reglas fueron: la preposicin con calculado, es mayor que el
Para el caso de la preposicin con, indica nivel calculado para la representacin 2 (Vase
Compaa ya que se encuentra sucedida por el Figura 7).
Dyna 156, 2008 41
[4] MORENO, L., PALOMAR, M., MOLINA, [13] HALLER, J., DONOSO, A., RAMIREZ,
A., y FERRNDEZ, A. Introduccin al Y. MPRO un programa para el anlisis
Procesamiento del Lenguaje Natural. (Ed. Servicio morfolgico y sintctico de textos en espaol.
de Publicaciones Universidad de Alicante). Procesamiento del Lenguaje Natural, Revista n 29.
Universidad de Alicante. 1999. pp. 307-308. 2002.
[5] MOLINA, A. Desambiguacin en [14] Natural Language Toolkit.
procesamiento del lenguaje natural mediante http://nltk.sourceforge.net/ [Citado 22 de
tcnicas de aprendizaje automtico [PhD tesis]. Noviembre de 2006].
Universidad Politcnica de Valencia Valencia,
2004. [15] GALICIA, HARO S. Anlisis sintctico
conducido por un diccionario de patrones de
[6] ZAPATA, C., ARANGO, F. Los modelos manejo sintctico para lenguaje espaol [PhD].
verbales en lenguaje natural y su utilizacin en la Instituto Politcnico Nacional. Mexico D.F. 2000.
elaboracin de esquemas conceptuales para el
desarrollo de Software: Una revisin crtica. [16] JAYNES, E.T. (Notes on present status and
Revista Universidad EAFIT. Vol. 41. Pp 77-95. future prospects), en W.T. Grandy y L.H. Schick,
2005. editores, Maximum Entropy and Bayesian
Methods. Pp. 1-13. (1990).
[7] MIYAO, Y., TSUJII J. A model of syntactic
[17] MAGNINI, BERNARDO Y C. Strapparava
disambiguation based on lexicalized grammars.
(Experiments in Word Domain Disambiguation for
Memorias La sptima conferencia sobre
Parallel Texts), en Proceedings of the ACL
aprendizaje de Lenguaje natural. Edmonton,
Workshop on Word Senses and Multilinguality,
Canada. Mayo, 2003.
Hong Kong, China. 2000.
[8] SUREZ, CUETO A. Resolucin de la
[18] PEREZ M. PASCQA: Bsqueda de
ambigedad semntica de las palabras mediante
Respuestas con base en anotacin predictiva de
modelos de probabilidad de mxima entropa [PhD
contextos lxico-sintcticos [PhD tesis]. Instituto
Tesis]. Universidad de Alicante. Alicante, 2004.
Nacional de Astrofsica, ptica y Electrnica Sta.
[9] VZQUEZ S., MONTOYO A., RIGAU G. Ma. Tonantzintla, Pue. 2006.
Mtodo de desambiguacin lxica basada en el
[19] CARRERRO F., GOMEZ J., DE
recurso lxico Dominios Relevantes.
BUENAZA M., MATA J. y MAA M. Acceso a
Procesamiento del Lenguaje Natural, Revista n 31.
la informacin bilinge utilizando ontologas
Pp 141-149. 2003.
especficas del dominio biomdico. Revista de la
Sociedad Espaola para el Procesamiento del
[10] MARTN, VALDIVIA M. TERESA,
Lenguaje Natural, pendiente publicacin.
GARCA, VEGA M., UREA, LPEZ L.
ALFONSO. Resolucin de la ambigedad
[20] The Python Programming Language.
mediante redes neuronales. Procesamiento del
http://www.python.org/. [Citado 22 de Noviembre
Lenguaje Natural, Revista n 29. Pp 39-45. 2002.
de 2006].
[11] KNOTT, A. AND VLUGTER, P. Syntactic [21] NAVARRO B., MOREDA, P.,
disambiguation using presupposition resolution in FERNNDEZ, B. et al. Anotacin de roles
Proceedings of the 4th Australasian Language semnticos en el corpus 3LB. IX Ibero-American
Technology workshop. Melbourne. 2003. Conference on Artificial Intelligence. 2004.
[12] GALICIA-HARO, S., GELBUKH, A. y
Bolshakov, Igor A. Una aproximacin para
resolucin de ambigedad estructural empleando
tres mecanismos diferentes. Procesamiento del
Lenguaje Natural, Revista n 27. Pp 55-63. 2001.