You are on page 1of 17

Instituto Tecnológico de Tuxtla Gutiérrez

Taller de Ética

Aguilar Gómez Darvin de Jesús

11270250

Procesamiento de Lenguaje Natural

Higinio García Mendoza

Tuxtla Gutiérrez, Chiapas. A 09 de Junio de 2011.

1-2 Niveles de Lenguaje Natural««««««««««««««««...12-13 El PLN en los Sistemas Multimedia y Expertos: Tutores Inteligentes (TI)«««««««««««««««««««««14 Conclusión..««««««««««««««««««««««««««...2-3 Arquitectura de un sistema de PLN«««««««««««««««..INDICE Introducción«««««««««««««««««««««««««..4-5 Procesamiento del Lenguaje Natural en la Recuperación de Información Textual««««««««««««««...16 .....5-8 Procesamiento Estadístico del Lenguaje Natural«««««««««8-12 Procesamiento Lingüístico del Lenguaje Natural ««««««««.15 Bibliografía«««««««««««««««««««««««««««..I Procesamiento del Lenguaje Natural««««««««««««««.

INTRODUCCION Las tecnologías de la información están alcanzando cotas cada vez más altasen la vertiente de análisis automático de los documentos. El PLN sigue siendo unadisciplina desconocida para profesionales. si bien escierto. del áreade la Biblioteconomía y la Documentación a pesar de que interviene directamenteen campos propios de este dominio como la Recuperación o Análisis de la Información. que no se han alcanzado soluciones finales. El análisis delcontenido documental (resumen e indización) ya se puede perpetrar de modoautomático gracias al procesamiento del lenguaje natural (PLN). I . e incluso investigadores.

El lenguaje natural se distingue de los lenguajes artificiales por su riqueza (en vocabulario y construcciones). El procesamiento del lenguaje es de manera general. El procesamiento del lenguaje natural es una subrama de la inteligencia artificial y de la lingüística. no simplemente las letras o los sonidos del lenguaje. que le permitirán comunicarse con un humano en su propio lenguaje. por medio de la voz o del texto. Procesamiento de lenguaje natural (PLN.). etc. de gran profundidad. el conjunto de instrucciones que una computadora recibe en un lenguaje de programación dado (formal). El procesamiento del lenguaje natural consiste en el estudio y análisis de los aspectos lingüísticos dc un texto a través de programas informáticos. francés. . flexibilidad (reglas con múltiples excepciones). ambigüedad (pudiendo darse diversos significados de una palabra o una frase según el contexto). se entiende la habilidad de la máquina para procesar la información comunicada. denominado también NLP por sus siglas en inglés). español. También se suele referir a esta rama de la informática de forma abreviada como PLN o NLP. Un sencillo ejemplo de PLN es un corrector ortográfico de un procesador de textos que todos hemos empleado alguna vez.Procesamiento del Lenguaje Natural Se trata de una disciplina tan antigua como el uso de las computadoras (años 50). y con aplicaciones tan importantes como la traducción automática o la búsqueda de información en Internet. (inglés. Una de las ramas más importantes de la Inteligencia Artificial es aquella orientada a facilitar la comunicación hombre-computadora por medio del lenguaje humano. o lenguaje natural. indeterminación (permitiendo referencias y elipsis) y posibles interpretaciones del sentido literal según la situación en que se produce. El Procesamiento del Lenguaje Natural (PLN) es la disciplina encargada de producir sistemas informáticos que posibiliten dicha comunicación. del inglés Natural Lenguaje Processing.

depende de la lingüística computacional. y pragmático. como: indización y traducción automática (empleando el lenguaje natural como punto de partida). Por ello.El procesamiento del lenguaje natural presenta múltiples aplicaciones:  Corrección de textos.  Extracción de Información y Resúmenes. los cuales serán utilizados para la explicación del siguiente tema que es la Arquitectura de un sistema de PLN. se le atribuyen numerosas aplicaciones. respuesta a preguntas (comunicación hombre máquina) o reconocimiento del habla (verificación del lenguaje natural) entre otras. Niveles de Lenguaje Natural Los niveles del lenguaje. . creación de resúmenes de textos. b) Nivel Morfológico: trata de cómo las palabras se construyen a partir de unas unidades de significado más pequeñas llamadas morfemas.  Traducción automática.  Búsqueda de documentos. morfológico. semántico. por ejemplo: Rápida + Mente == Rápidamente. c) Nivel Sintáctico: trata de cómo las palabras pueden unirse para formar oraciones. a) Nivel Fonológico: trata de cómo las palabras se relacionan con los sonidos que representan. Los niveles de lenguaje que daremos a conocer son los siguientes: fonológico.  Sistemas Inteligentes para la Educación y el Entrenamiento. Este Procesamiento del Lenguaje Natural. sintáctico. fijando el papel estructural que cada palabra juega en la oración y que sintagmas son parte de otros sintagmas.  Recuperación de la información.

es decir. cómo va la computadora a interpretar y analizar las oraciones que le sean proporcionadas. c) El siguiente paso. Se suele reconocer un subnivel recursivo: discursivo. es decir de la oración aislada. es decir saber cuál es el significado de cada oración. el siguiente paso es la elaboración de la arquitectura del sistema de procesamiento del lenguaje natural. ahora podemos hacer el análisis pragmático de la instrucción. es decir una vez analizadas las oraciones. que trata de cómo el significado de una oración se ve afectado por las oraciones inmediatamente anteriores. una vez realizado este paso. analizando las oraciones anteriores. si las frases contienen palabras compuestas por morfemas y si la estructura de las oraciones es correcta. e) Una vez obtenida la expresión final. tomando en cuenta la situación de cada oración. ya tiene la expresión final. es analizar las oraciones semánticamente. el siguiente paso es la ejecución de esta. d) Una vez realizado el paso anterior. Arquitectura de un sistema de PLN Ahora que ya conocemos los niveles del lenguaje.d) Nivel Semántico: trata del significado de las palabras y de cómo los significados se unen para dar significado a una oración. la computadora ya sabe que es lo que va a hacer. en el sentido morfológico y sintáctico. ahora se analizan todas juntas. también se refiere al significado independiente del contexto. b) La computadora analiza las oraciones proporcionadas. para obtener así el resultado y poder proporcionárselo al usuario. e) Nivel Pragmático: trata de cómo las oraciones se usan en distintas situaciones y de cómo el uso afecto al significado de las oraciones. es decir. es decir. . La explicación de este sistema. a continuación se muestra un esquema de cómo la computadora debe hacer el análisis de estas. es sencilla: a) El usuario le expresa a la computadora que es lo que desea hacer. y asignar el significado de estas a expresiones lógicas(cierto o falso).

que en el área de Recuperación de Información Textual las técnicas de NLP son muy utilizadastanto para facilitar la descripción del contenido de los documentos. un sistema de recuperación de información textual lleva a cabo las siguientes tareas para responder a las consultas de un usuario (imagen1).  Indexación de la colección de documentos: en esta fase. Es por ello. y si es necesario la transforma.  Cuando un usuario formula una consulta el sistema la analiza. . hipotéticamente. mediante la aplicación de técnicas de NLP. con el objetivo de comparar ambas descripciones y presentar al usuario aquellos documentos que satisfagan en mayor grado su necesidad de información. ordenados en función del grado de similitud entre las descripciones de los documentos y de la consulta. Normalmente. y presenta al usuario aquellos documentos cuyas descripciones más se asemejan a la descripción de su consulta. como para representar la consulta formulada por el usuario. se genera un índice que contiene las descripciones de los documentos. con el fin de representar la necesidad de información del usuario del mismo modo que el contenido de los documentos.  Los resultados suelen ser mostrados en función de su relevancia. es decir.El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual La complejidad asociada al lenguaje natural cobra especial relevancia cuando necesitamos recuperar información textual que satisfaga la necesidad de información de un usuario.  El sistema compara la descripción de cada documento con la descripción de la consulta. mejor representa su contenido. y ello. cada documento es descrito mediante el conjunto de términos que. Dicho de otro modo.

Imagen 1: Arquitectura de un sistema de recuperación de información. Ambas propuestas difieren considerablemente. aunque en la práctica los sistemas para el procesamiento del lenguaje natural suelen utilizar una aproximación mixta. De momento no existen técnicas de NLP que permitan extraer de forma inequívoca el significado de un documento o una consulta. de otro. el enfoque lingüístico. A continuación. Procesamiento Estadístico del Lenguaje Natural . la comunidad científica está dividida en cuanto a los procedimientos a seguir para alcanzar tal objetivo. De hecho. combinando técnicas propias de ambos enfoques. la aproximación estadística. detallamos el funcionamiento y las peculiaridades de las dos principales aproximaciones para el procesamiento del lenguaje natural: de un lado.

Su simplicidad y eficacia los han convertido hoy en los modelos más utilizados en los sistemas de recuperación de información textual. Estos modelos se limitan. determinada normalmente por su frecuencia de aparición en el documento. el significado. etc. de las palabras. por tanto. de los términos) de los documentos. En esta aproximación. El Preprocesado de los documentos consta de tres fases básicas: . y se caracteriza porque cada documento está descrito por un conjunto de palabras clave denominadas términos índice. En este modelo el procesamiento de los documentos consta de las siguientes etapas:  Pre procesado de los documentos: consiste fundamentalmente en preparar los documentos para su parametrización. y se basa en lo que se ha denominado como "bolsa de palabras" (o "bag of words"). no se toma en consideración el orden. eliminando aquellos elementos que se consideran superfluos. a emparejar las palabras en los documentos con las palabras en las consultas. Este enfoque es muy simple.  Parametrización: Es una etapa de complejidad mínima una vez se han identificado los términos relevantes. la estructura.El procesamiento estadístico del lenguaje natural representa el modelo clásico de los sistemas de recuperación de información. Consiste en realizar una cuantificación de las características (es decir. todas las palabras de un documento se tratan como términos índices para ese documento. Además se asigna un peso a cada término en función de su importancia. De este modo.

artículos. etc. como podrían ser ciertas etiquetas o cabeceras de los documentos. la identificación de N-Gramas (los términos compuestos. que es una parte del procesamiento lingüístico que trata de determinar el lema de cada palabra que aparece en un texto. y que afecta por ejemplo a la consideración de los términos en mayúscula o minúscula. Ejemplo:Documento normalizado.1.). eliminación de palabras vacías mediante la aplicación de listas de palabras función (preposiciones. Ejemplo: Documento sin cabeceras ni etiquetas. de modo que las . el control de determinados parámetros como cantidades numéricas o fechas. 3. Su objetivo es reducir una palabra a su raíz. etc. el control de abreviaturas y acrónimos. Lematización de los términos. subrayados en el ejemplo). Normalización de textos. 2. Eliminación de los elementos del documento que no son objeto de indexación (o stripping). que consiste en homogeneizar todo el texto de la colección de documentos sobre la que se trabajará.

e "informar". En cuanto a la parametrización de los documentos. estos algoritmos presentan el inconveniente de no agrupar en ocasiones palabras que deberían estarlo. la capacidad de almacenamiento de los sistemas y el tiempo de procesamiento de los documentos. que permiten representar de un mismo modo las distintas variantes de un término. El peso de un término se calcula normalmente en función de su frecuencia de aparición en el documento. El proceso de lematización se lleva a cabo utilizando algoritmos de radicación (o stemming). consiste en asignar un peso a cada uno de los términos relevantes asociados a un documento. mostrar como iguales palabras que realmente son distintas.palabras clave de una consulta o documento se representen por sus raíces en lugar de por las palabras originales. El lema de una palabra comprende su forma básica más sus formas declinadas. Por ejemplo. a la vez que reducen el tamaño del vocabulario y mejoran. "informaciones". Ejemplo: Documento con términos lematizados. "informa" podría ser el lema de "información". y viceversa. en consecuencia. e indica la importancia de dicho término como descriptor del contenido de ese documento. . No obstante.

con el fin de tratarlas como una sola unidad conceptual. Por último. pronombres. a saber: a) La detección de N-Gramas: consiste en la identificación de aquellas palabras que suelen aparecer juntas (palabras compuestas. nombres propios.) considerados de escaso valor semántico. Estas técnicas tratan de identificar términos compuestos tales como "accomodation service" o "European Union". etc.). ya que aunque se trata de un número relativamente reducido de elementos tienen una elevada tasa de frecuencia en los documentos. determinantes. . que cuando se identifican en un documento se eliminan. La supresión de todos estos términos evita los problemas de ruido documental y supone un considerable ahorro de recursos. etc. y aunque se han mencionado de pasada. es necesario describir dos técnicas muy utilizadas en el procesamiento estadístico del lenguaje natural.Ejemplo: Fragmento de un documento parametrizado (nótese que las frecuencias asociadas a cada término cambiarían a medida que se avanzara en la cuantificación de los restantes términos del documento). Suele hacerse estimando la probabilidad de que dos palabras que aparecen con ciertas frecuencias juntas constituyan realmente un solo término compuesto. b) Listas de palabras vacías o palabras función (stopwords lists): una lista de palabras vacías es un listado de términos (preposiciones. sin considerarse términos índices para la colección de textos a analizar.

citados ya anteriormente. En este punto se aplican gramáticas (parsers) que son formalismos descriptivos del lenguaje que tienen por objetivo fijar la estructura sintáctica del texto. donde se identifican únicamente las estructuras más significativas: frases nominales. Este nivel de análisis suele utilizarse para optimizar recursos y no ralentizar el tiempo de respuesta de los sistemas.Procesamiento Lingüístico del Lenguaje Natural Esta aproximación se basa en la aplicación de diferentes técnicas y reglas que codifican de forma explícita el conocimiento lingüístico. sintagmas verbales y preposicionales. por herramientas lingüísticas que incorporan al texto las anotaciones propias de cada nivel. etc. A continuación se muestran los diferentes pasos a realizar para llevar a cabo un análisis lingüístico de los documentos aunque ello no implica que se apliquen en todos los sistemas. En el caso de la recuperación de la información acostumbra a aplicarse un análisis superficial. el siguiente paso consiste en ver cómo éstas se relacionan y combinan entre sí para formar unidades superiores. se trata de realizar el análisis sintáctico del texto. .El análisis morfológico es ejecutado por los etiquetadores (taggers) que asignan a cada palabra su categoría gramatical a partir de los rasgos morfológicos identificados. Las técnicas empleadas para aplicar y construir las gramáticas son muy variadas y dependen del objetivo con el que se realiza el análisis sintáctico. Los documentos son analizados a partir de los diferentes niveles lingüísticos. entidades. los sintagmas y las frases. Después de identificar y analizar las palabras que forman un texto. Por tanto.

Una de las herramientas más utilizadas en el procesamiento semántico es la base de datos lexicográfica Word Net. formado por grupos de sinónimos llamados synsets de los que se facilitan definiciones cortas y se almacenan las distintas relaciones semánticas entre estos grupos de sinónimos. a partir de los elementos que la forman. Imagen 2: Ejemplo de información semántica facilitada por Word Net.A partir de la estructura sintáctica del texto. Se trata de conseguir la representación semántica de las frases. Se trata de un léxico semántico anotado en diferentes lenguas. el siguiente objetivo es obtener el significado de las frases que lo componen. .

4. o sea pasar a ser elementos de la estructura de conocimiento y no solo datos. Hipertexto. Entornos de iconos. Tutores Inteligentes(TI) en entornos multimedia. 3. Realidad Virtual. Antes de continuar con el estudio del PLN en los sistemas multimedia.El PLN en los Sistemas Multimedia y Expertos: Tutores Inteligentes(TI). Programación interactiva. estas uniones de imágenes. La pretensión de la informática de adaptarse al comportamiento natural de del usuario. enumeremos las partes que pueden contener estos: 1. es decir. Ratón. este problema. lo situamos en un contexto de enseñanza de conocimientos. Para deslindar. 2. al tiempo que éstos aumentan su capacidad. 5. Los TI son un tipo de sistemas expertos con módulos especiales( alumno y pedagógico) y una reestructuración de los existentes( conocimiento. explicaciones. Sonido. ha llevado la incorporación de texto. En si la multimedia es la unión de del hipertexto con el sonido. texto y sonidos necesitan una filosofía del conocimiento que fundamente su función interna dentro de la comunicación de conocimientos. imágenes y sonido(los llamados entornos multimedia") a las estaciones de trabajo y Pc actuales. Autopistas de información. interfaz) . 7. A esa filosofía la llamamos idea intuitiva de la comunicación sistema-usuario. 6.

Conclusión Con el objeto de dar a conocer el estado actual del Procesamiento del Lenguaje Natural se han definido. Así mismo. con multitud de retos que superar fruto de la ambigüedad subyacente al lenguaje natural. el NLP es una disciplina viva y en pleno desarrollo. se ha comprobado que. . pese a su madurez. los principales conceptos y técnicas asociados a esta disciplina. de forma muy concisa. que además se han ilustrado con sencillos ejemplos para facilitar su comprensión al lector.

google.com.ucm.ucm.mx/url?sa=t&source=web&cd=8&ved=0CFYQFjAH&url=htt p%3A%2F%2Frevistas.scribd.org/ http://www.htm http://revistas.PDF&rct=j&q=procesamiento%20de%20lenguaje%20natural%20intelige ncia%20artificial&ei=i5TtTe7yII25tgflxq3gBQ&usg=AFQjCNGJSpP7ncZ1JQkYFJhf 2rtWtNZfEg http://procesamientolenguajerecuperacion.weebly.net/web/pag277.hipertext.PDF http://procesamiento-lenguaje-natural.50webs.es/byd/11321873/articulos/RGID9696220205A.com/ http://es.BIBLIOGRAFIA http://www.com/doc/20368/procesamiento-del-lenguaje-natural .es%2Fbyd%2F11321873%2Farticulos%2FRGID9696 220205A.