Professional Documents
Culture Documents
Cusco-Peru
INTRODUCCION
El procesamiento del lenguaje natural (Natural Language Processing) es uno de los campos
relacionados con la inteligencia artificial y con los procesadores del lenguaje en los que ms se
ha trabajado e investigado a lo largo de los ltimos aos. El conocimiento humano, tal como lo
entendemos nosotros, sera incomprensible para una computadora, teniendo en cuenta que una
computadora puede almacenar un texto en archivos, con lo que poseera la misma informacin
que una persona, pero no podra extraer inferencias lgicas de ese texto, generalizarlo,
resumirlo, o responder a preguntas sobre dicho texto, porque no lo entiende, simplemente lo
conoce.
Una de las lenguas americanas nativas ms hablada es el quechua . Quechua tiene 37 variaciones
segn Torero ( Torero, 1964 ) , como consecuencia de ello no existe un estndar .Centramos
nuestra atencin en la gramtica del quechua que se ensea en Cusco - Per , el dialecto Qosqo
- Qollao que pertenece a la lengua quechua - I1C ( Ros, 2011 ) . Las reglas de la gramtica que
se presentan aqu son de acuerdo a la Academia del idioma quechua , que es la nica
organizacin que ensea este idioma. En esta demostracin , se mostrar el proceso de anlisis
en un analizador sintctico que utiliza una gramtica libre de contexto y anlisis morfolgico.
1. DESCRIPCION DEL PROBLEMA
En realidad, las computadoras son ms capaces de procesar la informacin que las personas.
Pueden procesar muchsimos ms grandes volmenes de informacin que una persona puede
leer en su vida. A base de sta, pueden hacer inferencias lgicas tomando en cuenta ms hechos
y ms fuentes.
Todo parece estar preparado para el uso de las computadoras para procesar volmenes grandes
de informacin: los mtodos lgicos ya son muy fuertes, los procesadores muy rpidos, muchos
textos ya estn disponibles en forma digital, tanto en las casas editoriales como en Internet. El
nico problema para la computadora al procesar los textos es que simplemente no los entiende!
Hasta ahora, los textos son para la computadora solamente cadenas de letras sin cualquier
sentido y no una informacin til para el razonamiento lgico.
Pero si es tan largo el camino, existe una razn prctica para trabajar en esta rea ahora? S,
existe, porque con cada paso obtenemos las herramientas que ya tienen gran valor prctico, que
ayudan en nuestras tareas cotidianas.
Uno podra pensar que para la generacin de texto slo es suficiente saber las reglas de
gramtica, es decir, saber palabras de cuales nmeros, tiempos y gneros hay que usar en la
oracin y en qu orden ponerlas. Sin embargo, hay algunos problemas en la generacin de texto.
Uno reside en la necesidad de elegir las palabras y expresiones que se usan en el contexto
dado.
Por ejemplo, hay que saber que para expresar la idea Chaypi, Chaqaypi, hay que usar palabras
diferentes: achkha runa, tawa allqu etc.
2. OBJETIVOS
El lenguaje se considera como un mecanismo que nos permite hablar y entender. Los lenguajes
naturales, es decir, el ingls, el francs, el espaol, el quechua etc. son una herramienta
genuina para la comunicacin entre los seres humanos, ya sea en forma oral o escrita.
Actualmente, el avance tecnolgico en los medios de comunicacin impresos y electrnicos
nos permite obtener grandes volmenes de informacin en forma escrita. La mayora de esta
informacin se presenta en forma de textos en lenguajes naturales. Toda esa informacin
contenida en los textos es muy importante ya que permite analizar, comparar, entender el
entorno en el que vive el ser humano.
Sin embargo, se presentan dificultades por la imposibilidad humana de manejar esa enorme
cantidad de textos. Entre las herramientas que ayudan en las tareas diarias, la computadora es,
hoy en da, una herramienta indispensable para el procesamiento de grandes volmenes de
datos. Pero todava no se logra que una mquina al capturar una coleccin de textos los
comprenda suficientemente bien; por ejemplo, para que pueda aconsejar qu hacer en
determinado momento basndose en toda la informacin proporcionada, para que pueda
responder a preguntas acerca de los temas contenidos en esa informacin pero no
explcitamente descritos, o para que pueda elaborar un resumen de la informacin.
Para lograr esta enorme tarea de procesamiento de lenguaje natural por computadora,
analizando oracin por oracin para obtener el sentido de los textos, es necesario conocer las
reglas y los principios bajo los cuales funciona el lenguaje, a fin de reproducirlos y adecuarlos
a la computadora, incluyendo posteriormente el procesamiento de lenguaje natural en el
proceso general del conocimiento y el razonamiento.
El estudio del lenguaje, est relacionado con diversas disciplinas. De entre ellas, la Lingstica
General es el estudio terico que se ocupa de los mtodos de investigacin y de las cuestiones
comunes a las diversas lenguas. Esta disciplina a su vez comprende una multitud de aspectos
(temporales, metodolgicos, sociales, culturales, de aprendizaje, etc.). Los aspectos
metodolgicos y de aplicacin brindan los principios y las reglas necesarios en el
procesamiento de textos.
Los principios y las reglas de la lingstica general, aunados a los mtodos de la computacin
forman la Lingstica Computacional. Esta es el rea dentro de la cual se han desarrollado y
discutido muchos formalismos adecuados para la computadora a fin de reproducir el
funcionamiento del lenguaje con la finalidad de extraer sentido a partir de textos y viceversa,
transformando los conceptos de sentidos especficos a los correspondientes textos correctos.
El proceso que se realiza con las herramientas proporcionadas por la Lingstica
Computacional para realizar las tareas necesarias para pasar del texto a la estructura
conceptual, y de sta a los textos, lo denominamos, de aqu en adelante, proceso lingstico
de textos.
Las normas o reglas para construir las oraciones se definen para los seres humanos en una
forma prescriptiva, indicando las formas de las frases correctas y condenando las formas
desviadas, es decir, indicando cules se prefieren en el lenguaje. En contraste, en el
procesamiento lingstico de textos, las reglas deben ser descriptivas, estableciendo mtodos
que definan las frases posibles e imposibles del lenguaje especfico de que se trate.
Las frases posibles son secuencias gramaticales, es decir, que obedecen leyes gramaticales,
sin conocimiento del mundo, y las no gramaticales deben postergarse a niveles que consideren
la nocin de contexto, en un sentido amplio, y el razonamiento. Establecer mtodos que
determinen nicamente las secuencias gramaticales en el procesamiento lingstico de textos
ha sido el objetivo de los formalismos gramaticales en la Lingstica Computacional. En ella
se han considerado dos enfoques para describir formalmente la gramaticalidad de las
oraciones: las dependencias y los constituyentes.
IDIOMA QUECHUA
Quechua es una lengua aglutinante ya que el proceso de derivacin se realiza por la posicin
puesto de sufijos a la raz. La estructura bsica de una oracin es Verbo Sujeto - Objeto El objeto
es identificado por los morfemas de posicin como -ta , -wan y -man . Un ejemplo se muestra
en la Tabla
En la identificacin de un verbo, se necesita morfemas especiales que se utilizan como
posposiciones verbales. El ejemplo en la Tabla 2 presenta la conjugacin del verbo mijuy (
comer).
Sujeto pay(el) churi(hijo) maki(mano)
6. CONCLUSIONES
Con el objeto de dar a conocer el estado actual del Procesamiento del Lenguaje Natural se han
definido, de forma muy concisa, los principales conceptos y tcnicas asociados a esta disciplina,
que adems se han ilustrado con sencillos ejemplos para facilitar su comprensin.
As mismo, se ha comprobado que, pese a su madurez, el NLP es una disciplina viva y en pleno
desarrollo, con multitud de retos que superar fruto de la ambigedad subyacente al lenguaje
natural.
De todo lo dicho, se deduce la necesidad de continuar trabajando con el fin de dilucidar nuevas
tcnicas o enfoques que contribuyan a superar las deficiencias de las existentes.
7. TRABAJOS FUTUROS
8. BIBLIOGRAFIA
3. http://programacionlogica.blogspot.com/2006_03_01_archive.html
4. http://www.elprofesionaldelainformacion.com/contenidos/1997/marzo/procesamiento
_del_lenguaje_natural_revisin_del_estado_actual_bases_tericas_y_aplicaciones_parte_ii.html
5. Rios, Anette, 2011. Spell checking an agglutinative lan- guage: Quechua. In 5th
Language and Technology Con- ference: Human Language Technologies as a Challenge
for Computer Science and Linguistics:51-55.
6. Rios, Anette, A. Gohring, and M. Volk, 2012. Parallel tree- banking spanish-
quechua: How and how well do they align? In The 10th International Workshop on
Tree- banks and Linguistic Theories(TLTlO).
7. Torero, A., 1964. Los dialectos quechuas. Anales Cientificos de la Universidad
Nacional Agraria, N