Professional Documents
Culture Documents
Tema 9
Objetivo
Objetivo realista:
Desarrollar sistemas informticos capaces de trabajar con
el lenguaje verbal humano (oral y/o escrito) aportando
utilidad al usuario
IRC 2011/2012 2
ndice
Lenguaje natural
Ingeniera lingstica
Niveles de anlisis
Aplicaciones
IRC 2011/2012 3
Lenguaje natural:
Lenguaje artificial:
IRC 2011/2012 4
Ingeniera Lingstica
IRC 2011/2012 5
Traduccin automtica
Recuperacin de informacin
Muchas limitaciones:
IRC 2011/2012 6
Dcada de 1960
Cambio de enfoque:
Varios desarrollos:
Desarrollo de formalismos
IRC 2011/2012 7
Dcada de 1970
IRC 2011/2012 8
Situacin actual
IRC 2011/2012 9
HCI: ELIZA
IRC 2011/2012 10
IRC 2011/2012 11
IRC 2011/2012 12
HCI: ALICE
Desarrollado por Dr. Richard Wallace (1999-) y ganador durante aos del
premio Loebner (ltimo en 2004)
Chatbot bastante ms evolucionado, que se basa en el paradigma estmulorespuesta escritos mediante patrones en el lenguaje AIML
<category>
<pattern>WHAT ARE YOU</pattern>
<template>
<think><set name="topic">Me</set></think>
I am the latest result in artificial intelligence.
</template>
</category>
<category>
<pattern>KNOCK KNOCK</pattern>
<template>Who is there?</template>
</category>
<category>
<pattern>*</pattern>
<that>WHO IS THERE</that>
<template><person/> who?</template>
</category>
IRC 2011/2012 13
HCI en la actualidad
IRC 2011/2012 14
Arquitectura de niveles
Nivel integracin del
discurso
Nivel semntico
Nivel sintctico
SNTESIS
ANLISIS
Nivel pragmtico
Nivel morfolgico
Nivel fonolgico
IRC 2011/2012 15
Nivel fonolgico
Conocimiento de fonemas
Algoritmo de reconocimiento
IRC 2011/2012 16
Nivel morfolgico
Lema
Categora gramatical
Atributos propios de categora
Requisitos:
Gramtica de palabra
Ambigedad
casa, sobre, bajo
IRC 2011/2012 17
perr-o
perr-os
com-emos
No sobregenerar ni sobreaceptar
IRC 2011/2012 18
Nivel sintctico
Requisitos:
IRC 2011/2012 19
Nivel semntico
Requisitos:
IRC 2011/2012 20
Nombres
Nombres relacionados
Participios verbales
Adverbios
Adjetivos
Verbos
http://wordnet.princeton.edu
Adjetivos origen
IRC 2011/2012 21
EuroWordnet
IRC 2011/2012 22
Nivel pragmtico:
Significado literal de frase Significado real de frase
Puedes pasarme la sal?
Ambigedad intrnseca
IRC 2011/2012 23
Dificultades
Ambigedad
IRC 2011/2012 24
IRC 2011/2012 25
Pero
Ordenadores ms potentes
Formalismos ms desarrollados
Ms experiencias y desarrollos
IRC 2011/2012 26
IBM
Scansoft/Nuance
Microsoft (Speech API)
Loquendo
Desarrollos gratuitos
IRC 2011/2012 27
SYSTRAN
Altavista Babelfish
Google Translate
Apertium, OpenTrad (libres)
IRC 2011/2012 28
Gramtica de errores
Lenguaje declarativo compilado
Anlisis en niveles:
Nivel I: estructuras independientes
*me se ha olvidado, *cuanto tiempo sin verte!
IRC 2011/2012 29
Ejemplo de regla
/*
- est mucho loco
+ est muy loco
+ hay mucho loco por aqu
*/
REGLA("MuchoPorMuy")
FORMA_I_EXISTENCIAL(POS(N), "mucho") Y
(ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjetivoOParticipio) O
FORMA_I_EXISTENCIAL(POS(N+1), "bien|mal")) Y
!ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjComp"|"Eti_AdjSup) Y
GN(POS(N), POS(N+1)) Y
LEMA_EX_VERBO_PRINC(POS(N-1), "estar|ser")
ENTONCES
SUG_PALABRA(POS(N), "muy ");
SUG_PALABRA(POS(N+1),LETRAS(POS(N+1)));
DAR_ERROR(Error_Gramatical, POS(N), POS(N+1),
"Posible secuencia incorrecta de palabras));
FIN
IRC 2011/2012 30
IRC 2011/2012 31
Proceso de RI
Indexacin:
Bsqueda:
Comparar la consulta del usuario con todos los objetos indexados, obteniendo
una medida de parecido (relevancia)
Presentar los resultados ordenando por relevancia decreciente
Modelos:
Modelo booleano
Modelo probabilstico
Modelo de espacio de vectores
Latent Semantic Indexing
http://en.wikipedia.org/wiki/Information_retrieval
IRC 2011/2012 32
Modelo Booleano
INDEX TERM
0
...
...
...
...
...
Trminos de
indexacin
Coleccin de
documentos
010111010001011100101000 ...
010000010000011000001000 ...
Consulta
IRC 2011/2012 33
Ejemplo
(t1 AND t7) OR (t2 AND NOT(t9))
documents
retrieved
OR
EF
documents that
contain t1 and t7
AND
AND
E=AB
t1
F=CD
t7
t2
NOT(t9)
documents that
contain t1
documents that
contain t7
documents that
contain t2
documents that
not contain t7
D
IRC 2011/2012 34
...
...
...
...
...
Trminos de
indexacin
Coleccin de
documentos
w1,w2,w3,w4,w5,w6,w7,w8...
w1,w2,w3,w4,w5,w6,w7,w8...
Consulta
IRC 2011/2012 35
IRC 2011/2012 36
Ejemplo
IRC 2011/2012 37
Recall =
D+C
No relevantes
Relevantes
Precision =
Precision
B+C
0
1
Recall
IRC 2011/2012 38
Cross-lingual IR CLIR
IRC 2011/2012 39
Document translation
Mixed translation
IRC 2011/2012 40
RI multimedia (imgenes/vdeo/audio)
IRC 2011/2012 41
Question answering
http://en.wikipedia.org/wiki/Question_answering
http://www.answers.com/bb/
Generacin de resmenes
Esteganografa (Cifrado)
http://en.wikipedia.org/wiki/Steganography
http://www.spammimic.com/
IRC 2011/2012 42
Clasificacin de noticias
Filtros antispam
Sistemas de diagnstico automtico
IRC 2011/2012 43