You are on page 1of 43

Inteligencia en Redes de Comunicaciones

Tema 9

Procesamiento del Lenguaje Natural


Julio Villena Romn, Raquel M. Crespo Garca, Jos Jess Garca Rueda
{jvillena, rcrespo, rueda}@it.uc3m.es

Objetivo

Desarrollar sistemas informticos capaces de comprender


el lenguaje verbal humano (oral y escrito) y de utilizarlo
como medio de comunicacin con el usuario

Objetivo realista:
Desarrollar sistemas informticos capaces de trabajar con
el lenguaje verbal humano (oral y/o escrito) aportando
utilidad al usuario

IRC 2011/2012 2

ndice

Lenguaje natural
Ingeniera lingstica
Niveles de anlisis
Aplicaciones

IRC 2011/2012 3

Lenguaje natural y artificial

Lenguaje natural:

Lenguaje verbal que utilizamos los seres humanos para


comunicarnos unos con otros

Lengua: realizacin concreta del lenguaje natural

Lenguaje artificial:

Lenguaje creado y especificado detalladamente para ser


utilizado en entorno concreto

IRC 2011/2012 4

Ingeniera Lingstica

El lenguaje natural es de inters en mltiples disciplinas:

Lingstica, Filologa, Psicologa, Antropologa, Ingeniera

Generalmente los estudios se centran en lenguas concretas


La ingeniera lingstica se centra en el tratamiento
computacional del lenguaje natural y cmo aplicarlo para dar
solucin a problemas de ingeniera
Otros nombres:

procesamiento del lenguaje natural (PLN, en ingls NLP)


lingstica computacional (en ingls, CL)

IRC 2011/2012 5

Breve historia: Los orgenes

Final de la dcada de 1940 y dcada de 1950


(antes del nacimiento del trmino Inteligencia Artificial en 1956)

Dos campos de inters:

Traduccin automtica
Recuperacin de informacin

Muchas limitaciones:

Modelos morfolgicos y sintcticos poco evolucionados


Poco inters en comprensin de significado

IRC 2011/2012 6

Dcada de 1960

Cambio de enfoque:

Varios desarrollos:

Procesamiento de frases y comprensin


Interfaz amigable
Acceso a base de datos (BASEBALL, DEACON, )
Resolucin de problemas (STUDENT, CARPS, )
ELIZA

Desarrollo de formalismos

IRC 2011/2012 7

Dcada de 1970

Nuevos desarrollos basados en formalismos


Aumentan los campos de aplicacin:

Comprensin de lenguaje (SHRDLU, LUNAR, )


Interfaz a bases de datos (REQUEST, LADDER, )
Enseanza asistida por ordenador (SCHOLAR, )
Automatizacin de tareas de oficina (SCHED, )
Programacin automtica
Procesamiento de texto cientfico

IRC 2011/2012 8

Situacin actual

Las aplicaciones llegan a los usuarios finales


Busca soluciones a problemas parciales:

Revisin lingstica de textos


Recuperacin de informacin
Extraccin de informacin, resmenes y clasificacin
Reconocimiento y sntesis de voz
Traduccin automtica
Generacin automtica de texto

Como en toda la ingeniera, el mayor inters est en los aspectos prcticos:


utilidad y compromiso exactitudeficiencia
Objetivo actual: simplificar la comunicacin hombre-mquina (HumanComputer Interaction, HCI), desarrollando sistemas de realidad
virtual/aumentada

IRC 2011/2012 9

HCI: ELIZA

Chatbot creado por Joseph Weizenbaum en 1966 que representa el papel


de un psicoanalista e imita sus respuestas tpicas en una entrevista inicial

Este contexto es una de las pocas situaciones humanas donde un humano


puede responder con una pregunta sin dar ningn tipo de informacin al
interlocutor
http://www-ai.ijs.si/eliza/eliza.html
http://www.manifestation.com/neurotoys/eliza.php3

El concepto impuls el diseo de nuevos interfaces:

Dungeon (primer role playing game) (1974)

Adventure (primer juego de ficcin interactiva) (1975)


http://en.wikipedia.org/wiki/Interactive_fiction

IRC 2011/2012 10

Dilogo real con ELIZA


young woman: Men are all alike.
eliza: In what way?
young woman: They are always bugging us about something specific or other.
eliza: Can you think of a specific example?
young woman: Well, my boyfriend made me come here.
eliza: Your boyfriend made you come here?
young woman: He says I'm depressed much of the time.
eliza: I am sorry to hear you are depressed.
young woman: It's true. I'm unhappy.
eliza: Do you think coming here will help you not to be unhappy?
young woman: I need some help, that much seems certain.
eliza: What would it mean to you if you got some help?
young woman: Perhaps I could learn to get along with my mother.
eliza: Tell me more about your family.
young woman: My mother takes care of me.
eliza: Who else in your family takes care of you?
young woman: My father.
eliza: Your father.
young woman: You are like my father in some ways.
eliza: What resemblance do you see?
young woman: You are not very aggressive but I think you don't want me to notice that.
eliza: What makes you think I am not very aggressive?
young woman: You don't argue with me.
eliza: Why do you think I don't argue with you?
young woman: You are afraid of me.
eliza: Does it please you to believe I am afraid of you?
young woman: My father is afraid of everybody.
eliza: What else comes to mind when you think of your father?
young woman: Bullies.
eliza: Does that have anything to do with the fact that your boyfriend made you come here?

IRC 2011/2012 11

Dilogo ficticio con ELIZA


young woman: Green cows are all alike.
eliza: In what way?
young woman: Seven are always five plus two.
eliza: Can you think of a specific example?
young woman: Well, my teacher made me study a lot.

eliza: Your teacher made you study a lot?


young woman: He says I'm depressed and bla and bla and more bla bla.
eliza: I am sorry to hear you are depressed and bla and bla and more bla bla.
young woman: No se me ocurren ms tonteras que escribir. I'm unhappy.
eliza: Do you think coming here will help you not to be unhappy?

Realiza anlisis superficial y transformaciones bsicas

IRC 2011/2012 12

HCI: ALICE

Desarrollado por Dr. Richard Wallace (1999-) y ganador durante aos del
premio Loebner (ltimo en 2004)
Chatbot bastante ms evolucionado, que se basa en el paradigma estmulorespuesta escritos mediante patrones en el lenguaje AIML
<category>
<pattern>WHAT ARE YOU</pattern>
<template>
<think><set name="topic">Me</set></think>
I am the latest result in artificial intelligence.
</template>
</category>

<category>
<pattern>KNOCK KNOCK</pattern>
<template>Who is there?</template>
</category>
<category>
<pattern>*</pattern>
<that>WHO IS THERE</that>
<template><person/> who?</template>
</category>

Tiene memoria y estado mental, con lo que puede recordar sesiones


anteriores
Puede entrenarse de forma relativamente sencilla para diferentes mbitos
de conocimiento
http://alice.pandorabots.com/

IRC 2011/2012 13

HCI en la actualidad

Jabberwacky y Joan: desarrollados por Rollo Carpenter y


ganadores del premio Loebner (2005 y 2006)
Guarda todo lo que se va diciendo y proporciona la respuesta
ms apropiada que existe en su base de datos usando
bsqueda de patrones conceptuales APRENDE
En cierta forma modela la forma en que los humanos
aprendemos el idioma, los hechos y las reglas
http://www.jabberwacky.com

Ms sobre el premio Loebner:


http://www.loebner.net/Prizef/loebner-prize.html
http://loebner.net/Prizef/2007_Contest/Rules.html

IRC 2011/2012 14

Arquitectura de niveles
Nivel integracin del
discurso

Nivel semntico

Nivel sintctico

SNTESIS

ANLISIS

Nivel pragmtico

Nivel morfolgico

Nivel fonolgico
IRC 2011/2012 15

Nivel fonolgico

Conversin Voz Texto


Requisitos:

Conocimiento de fonemas
Algoritmo de reconocimiento

Es muy importante el tratamiento de la ambigedad:


/baca/, /ora/

Requiere conocimiento de niveles superiores (al menos,


morfolgico y sintctico)
Confusin del significado, prdida de informacin

IRC 2011/2012 16

Nivel morfolgico

Palabra Anlisis morfolgico (POS: part-of-speech)

Lema
Categora gramatical
Atributos propios de categora

Requisitos:

Conocimiento de los formantes

raz (cas-, com-) + desinencias (-a, -s, -o, -a, super-)

Gramtica de palabra

Ambigedad
casa, sobre, bajo

IRC 2011/2012 17

Recursos morfolgicos: Base lxica

Una lista de palabras no suele valer (en general)


Base lxica: almacn de informacin fundamentalmente
morfolgica, aprovechando las regularidades de la lengua y
escrita para linguistas
Para espaol:

Modelos de flexin nominal y verbal

Palabras formadas por uno o dos formantes


sobre

perr-o

perr-os

com-emos

Cada formante aporta parte de informacin

Derivacin de adverbios en -mente (adjfem-mente)


Generacin automtica de alomorfos

No sobregenerar ni sobreaceptar

IRC 2011/2012 18

Nivel sintctico

Anlisis morfolgico Anlisis sintctico

Requisitos:

Estructura en rbol de agrupaciones de palabras y relaciones


Informacin morfolgica de palabras (lxico)
Gramtica de frase

Una gramtica general es difcil (por no decir imposible)


Complejidad del lxico vs. complejidad de la gramtica
(directamente proporcional)
Ambigedad
Se comi el helado con cuchara
Se comi el helado con vainilla

IRC 2011/2012 19

Nivel semntico

Anlisis sintctico Semntica de frase

Requisitos:

Significado literal de la frase


Modelo del mundo
Reglas semnticas

Como es muy complicado, es totalmente dependiente de


la aplicacin concreta (dominio restringido)
Ambigedad
Pas delante del banco

IRC 2011/2012 20

Recursos semnticos: WordNet

Red semntica de conceptos o synsets (agrupaciones de sinnimos)


Guarda diferente informacin:

Nombres

Nombres relacionados
Participios verbales

Adverbios

Hipernimos:Y es un hipernimo de X si la actividad X es un tipo de Y (viajarmoverse)


Tropnimos:Y es un tropnimo de X si la actividad Y est haciendo X de alguna manera
(susurrarhablar)
Vinculacin: Y est vinculado a X si al hacer X tambin se est haciendo Y (dormirroncar)
Trminos coordinados: verbos que comparten un hipernimo comn

Adjetivos

Hipernimos:Y es un hipernimo de X si todo X es un tipo de Y


Hipnimos:Y es un hipnimo de X si cada Y es un tipo de X
Trminos coordinados:Y es un trmino coordinado de X si X y Y comparten un hipernimo
Holnimos:Y es un holnimo de X si X es parte de Y
Mernimos:Y es un mernimo de X si Y es parte de X

Verbos

http://wordnet.princeton.edu

Adjetivos origen

Pensado para uso por personas:

Significado de palabras en forma textual


Demasiada informacin

IRC 2011/2012 21

EuroWordnet

IRC 2011/2012 22

Niveles pragmtico y de integracin del


discurso

Nivel pragmtico:
Significado literal de frase Significado real de frase
Puedes pasarme la sal?

Nivel de integracin del discurso:


Significado de frase aislada Significado en contexto
Me dijo que se lo dara

Ambigedad intrnseca

IRC 2011/2012 23

Dificultades

Ambigedad

En la mayora de casos, para resolver la ambigedad en un nivel se


requiere de los anlisis de niveles superiores

Modelos lingsticos insuficientes


Sintaxis implica gramtica dependiente de contexto
Tratamiento de semntica
Niveles superiores a semntica an ms complejos
Abordable slo parcialmente con arquitectura de niveles
Aplicaciones muy variadas Solucin general difcil
Diferencias entre lenguas
Insercin de conocimiento manual

IRC 2011/2012 24

Caso del espaol (o castellano)

Problemas (nivel morfolgico):

Altamente flexivo: Mltiples procesos (flexin, derivacin,


composicin)
No existen modelos morfolgicos generales (muchas
excepciones)
Nmero de palabras inmenso (decenas de millones)
1,6-1,9 anlisis por palabra (media)

Problemas (nivel sintctico):

Carencia de estructura fija como en otros idiomas


(ambigedad)

IRC 2011/2012 25

Pero

Para resolver grandes problemas deben resolverse antes


subproblemas pequeos
Es posible desarrollar sistemas realmente tiles
El tiempo corre a nuestro favor

Ordenadores ms potentes
Formalismos ms desarrollados
Ms experiencias y desarrollos

IRC 2011/2012 26

Aplicacin: Anlisis y sntesis de voz

Primeros productos realmente tiles desde 1997


Tcnicas de procesado de seal de audio + clasificadores +
vocabulario (+ gramticas del lenguaje)
Actualmente mltiples motores:

IBM
Scansoft/Nuance
Microsoft (Speech API)

Integrado en Windows Vista

Loquendo
Desarrollos gratuitos

Interfaz para muchos entornos e idiomas


http://cepstral.com/demos/
http://www.loquendo.com/en/demo-center/interactive-tts-demo/

IRC 2011/2012 27

Aplicacin: Traduccin automtica

Desde los primeros tiempos del PLN


Caso de xito: TAUM-METEO (U. Montreal, 1975) para la
traduccin de partes meteorolgicos inglsfrancs
http://en.wikipedia.org/wiki/METEO_System

Vocabularios y memorias de traduccin + gramticas de


transformacin de estructuras
Corpus alineados
Muchos sistemas:

SYSTRAN
Altavista Babelfish
Google Translate
Apertium, OpenTrad (libres)

IRC 2011/2012 28

Aplicacin: Revisin lingstica

Gramtica de errores
Lenguaje declarativo compilado
Anlisis en niveles:
Nivel I: estructuras independientes
*me se ha olvidado, *cuanto tiempo sin verte!

Nivel II: errores intrasintagmticos


*los coches rojo

Nivel III: errores intersintagmticos


*los nios juega, *la pelcula es divertido

Compromiso precisin rendimiento:


Slo considera anlisis ms probable
Reglas particulares / generales
Mucho inters hoy en da para el aprendizaje de idiomas

IRC 2011/2012 29

Ejemplo de regla
/*
- est mucho loco
+ est muy loco
+ hay mucho loco por aqu
*/
REGLA("MuchoPorMuy")
FORMA_I_EXISTENCIAL(POS(N), "mucho") Y
(ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjetivoOParticipio) O
FORMA_I_EXISTENCIAL(POS(N+1), "bien|mal")) Y
!ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjComp"|"Eti_AdjSup) Y
GN(POS(N), POS(N+1)) Y
LEMA_EX_VERBO_PRINC(POS(N-1), "estar|ser")
ENTONCES
SUG_PALABRA(POS(N), "muy ");
SUG_PALABRA(POS(N+1),LETRAS(POS(N+1)));
DAR_ERROR(Error_Gramatical, POS(N), POS(N+1),
"Posible secuencia incorrecta de palabras));
FIN

IRC 2011/2012 30

Aplicacin: Recuperacin de informacin

Los sistemas de RI son aquellos que

Basndose en distintas tcnicas y modelos,


Permiten buscar de forma rpida y eficiente
En grandes colecciones de objetos que contienen
informacin
Aquellos resultados ms relevantes para la consulta de
usuario.

Los objetos pueden, en general, contener informacin en


una gran variedad de formatos, incluyendo texto escrito,
ficheros de audio, fotografas y otras imgenes, vdeo, etc.

IRC 2011/2012 31

Proceso de RI

Indexacin:

Extraer los atributos de cada uno de los objetos

Almacenarlos en una base de datos de acceso rpido

Bsqueda:

Texto: frecuencia de palabra


Imgenes: extraccin de caractersticas de la seal
Audio (hablado): conversin a texto + frecuencia de palabra
Audio (msica): partitura?

Comparar la consulta del usuario con todos los objetos indexados, obteniendo
una medida de parecido (relevancia)
Presentar los resultados ordenando por relevancia decreciente

Modelos:

Modelo booleano
Modelo probabilstico
Modelo de espacio de vectores
Latent Semantic Indexing
http://en.wikipedia.org/wiki/Information_retrieval

IRC 2011/2012 32

Modelo Booleano
INDEX TERM
0

...

...

...

...

...

Trminos de
indexacin
Coleccin de
documentos
010111010001011100101000 ...

010000010000011000001000 ...

Este documento est indexado por


las palabras 2, 4, 5, 6, 8...

Consulta
IRC 2011/2012 33

Ejemplo
(t1 AND t7) OR (t2 AND NOT(t9))
documents
retrieved

OR

EF
documents that
contain t1 and t7

AND

AND

E=AB

t1

docs. that contain


t2 and not t9

F=CD

t7

t2

NOT(t9)

documents that
contain t1

documents that
contain t7

documents that
contain t2

documents that
not contain t7

D
IRC 2011/2012 34

Modelo de Espacio de Vectores


INDEX TERM
0

...

...

...

...

...

Trminos de
indexacin
Coleccin de
documentos
w1,w2,w3,w4,w5,w6,w7,w8...

w1,w2,w3,w4,w5,w6,w7,w8...

Consulta
IRC 2011/2012 35

Modelo de Espacio de Vectores (2)

Modelo algebraico clsico de RI [Salton, 1968]


Representa los objetos (documentos y consulta) mediante un
vector de trminos en un espacio multidimensional:

El peso de cada trmino se calcula con el modelo TFIDF:

Para calcular la relevancia de cada documento se utiliza


habitualmente la frmula del coseno:

IRC 2011/2012 36

Ejemplo

IRC 2011/2012 37

Evaluacin de los sistemas de RI


No recuperados
Recuperados
A

Recall =

D+C
No relevantes

Relevantes

Precision =

Precision

B+C
0

1
Recall
IRC 2011/2012 38

Cross-lingual IR CLIR

IRC 2011/2012 39

Enfoques para CLIR


Query translation

Document translation

Mixed translation

IRC 2011/2012 40

RI multimedia (imgenes/vdeo/audio)

IRC 2011/2012 41

Aplicacin: Extraccin de informacin

Evolucin de la recuperacin de informacin


El sistema no slo presenta la lista de objetos que contienen la
informacin, sino que la extrae de ellos
Information Extraction
http://en.wikipedia.org/wiki/Information_extraction

Question answering
http://en.wikipedia.org/wiki/Question_answering
http://www.answers.com/bb/

Generacin de resmenes
Esteganografa (Cifrado)
http://en.wikipedia.org/wiki/Steganography
http://www.spammimic.com/

IRC 2011/2012 42

Aplicacin: Clasificacin de informacin

Clasificacin de texto en categoras

Clasificacin de noticias
Filtros antispam
Sistemas de diagnstico automtico

Extraccin del vector de caractersticas del texto +


segmentacin o clasificacin

IRC 2011/2012 43

You might also like