,1752'8&&,Ð1

La comunicación en lenguaje hablado con un ordenador es un tema que ha fascinado ingenieros y científicos desde hace décadas. Aparte del interés que el estudio de la comunicación persona-máquina pueda tener para el análisis y la comprensión de los procesos de producción y percepción involucrados en la comunicación hablada humana, la construcción de interfaces persona-máquina es un reto científico de indudable interés socio-económico. El grado de desarrollo de las tecnologías involucradas así como los avances realizados en las capacidades de cómputo de ordenadores ha propiciado la notable expansión que se aprecia en la utilización comercial de interfaces orales sencillos. Además, permite a la comunidad científica internacional abordar el desarrollo de tareas más complejas, bien mediante enfoques que permiten al usuario del sistema una mayor libertad en el uso del lenguaje. Los primeros sistemas de reconocimiento del habla, así como la mayoría de los sistemas comerciales actuales, fueron desarrollados para reconocer palabras aisladas. Con esa tecnología se han desarrollado sistemas no exentos de interés. Por ejemplo, para atender de forma automática peticiones de información o transacción vía telefónica se ha utilizado el reconocimiento de palabras aisladas, como vía alternativa a la utilización de teclados multifrecuencia, en aplicaciones donde el diálogo es dirigido en forma de menús. A pesar que el reconocimiento de voz es menos fiable que el teclado numérico, presenta las ventajas de su universalidad y de la naturalidad para el usuario de este modo de comunicación. Durante la última década se ha progresado enormemente en el reconocimiento del habla continua alcanzando tasas de reconocimiento de alrededor del 90-95% de palabras para tareas con vocabularios medios y grandes, o incluso superiores en algunas tareas que presentan estructuras sintácticas o semánticas restringidas [Mariño,97]. A pesar de que la tecnología no ofrece resultados perfectos, está probando su utilidad en tareas muy diversas, tales como el dictado automático (,%0 9RLFH7\SH), la preparación de documentos estructurados, como por ejemplo, informes médicos (3KLOLSV: informes radiológicos), etc. En estos sistemas es preciso la supervisión de una persona para corregir los errores producidos por el sistema de reconocimiento, pero aún así, están recibiendo una acogida favorable por parte de los usuarios. Sin embargo, para utilizar el reconocimiento del habla continua como interfaz de persona a máquina es preciso incorporar sistemas de comprensión del habla, sistemas que no eran necesarios al tratar con palabras aisladas. De esta forma, el desarrollo del reconocimiento del habla, que ya involucraba en la práctica disciplinas como la fonética acústica, el tratamiento de señal, el reconocimiento de formas, la teoría de la estimación y estadística, etc. requiere ahora aportaciones fundamentales de otras disciplinas, fundamentalmente el tratamiento del lenguaje natural, que tradicionalmente ya se ha involucrado en el estudio de temas como la representación semántica, la comprensión, los sistemas de diálogo, etc., pero habitualmente a partir de texto escrito. Se constituye así una nueva disciplina, la ingeniería del lenguaje, que engloba a las anteriores unificándolas. La comprensión del habla puede ser suficiente en algunas tareas concretas: un ejemplo de ello es la transcripción de noticias con objeto de realizar indexado de vídeo, tarea que últimamente está recibiendo gran atención. Sin embargo, respecto al objetivo de interfaces orales persona-máquina que pretende facilitar a las personas el control de una máquina o el acceso a un servicio (obtención de información, efectuar una transacción, etc.), salvo en tareas triviales, la comprensión no suele ser suficiente sino que es necesario que forme parte de un sistema de diálogo hablado. Muchas aplicaciones que comportan entrada hablada (como son las consultas telefónicas a un sistema con información sobre horarios de transportes, reservas de entradas, encargos o pedidos, etc.) son de hecho ejercicios de resolución interactiva de problemas. La solución se construye a menudo de forma incremental, jugando, tanto el usuario como el ordenador, papeles activos en la conversación. A menudo el usuario no expresa su requerimiento en una única frase, y espera la ayuda del sistema, de manera que la interacción ocurre de forma natural a lo largo de varios turnos de diálogo. En este tipo de escenarios, el propósito de un sistema de diálogo es hacer más fácil al usuario la obtención de su objetivo, cuando una única frase no sea adecuada. Por un lado, permite una interacción más natural, el usuario puede hacer referencia a información que ha aparecido anteriormente en el diálogo, y el requerimiento puede completarse con esa información. Por otra parte, al animar al usuario a formular frases más cortas, se reduce la tasa de error en el reconocimiento, y permite incluso la posibilidad de recuperar el mensaje a partir de errores en la comprensión del mismo. Esta situación exige la utilización de fuentes de conocimiento más allá de las puramente sintácticas y semánticas, es decir, la introducción de conocimiento pragmático, que puede

ser incorporado a través de un FRQWURODGRU GH GLiORJR. El creciente interés en diálogo hablado viene reflejado en las numerosas publicaciones que aparecen en los principales congresos sobre tecnologías del habla como son la (XURSHDQ &RQIHUHQFH RQ 6SHHFK &RPPXQLFDWLRQ DQG 7HFKQRORJ\ (EUROSPEECH), la ,QWHUQDWLRQDO &RQIHUHQFH RQ 6SRNHQ /DQJXDJH 3URFHVVLQJ (ICSLP) y la ,((( ,QWHUQDWLRQDO &RQIHUHQFH RQ $FRXVWLFV 6SHHFK DQG 6LJQDO 3URFHVVLQJ (ICASSP). Al hablar de interfaces orales persona-máquina deben distinguirse entre aquellos que utilizan la voz como único medio de comunicación y los interfaces PXOWLPRGDOHV Las interfaces multimodales integran varios modos de comunicación y permiten utilizar diferentes medios para expresar las intervenciones entrada y salida- de cada uno de los interlocutores, humanos o máquinas. El escenario ideal es aquél en el que el interlocutor humano selecciona libremente la forma más adecuada (voz, texto, menú, pantalla sensible, etc.) para emitir su mensaje y la máquina emite los suyos combinando también en la forma más adecuada los diferentes modos de comunicación de que dispone (voz, texto, gráficos, tablas, etc.). Es aquí donde ha de contemplarse por tanto tareas con ordenadores (con o sin acceso a servicios ofrecidos por red), puntos de información ofrecidos por instituciones o empresas, etc. En este contexto, urge ahondar en el conocimiento de interfaces orales para que puedan ser incorporados como un modo más de comunicación persona-máquina. Por otra parte, los interfaces únicamente orales, centro de atención de este proyecto, son necesarios en aplicaciones en las que no se tiene acceso a otros modos de comunicación. Podemos citar, por ejemplo, aplicaciones accesibles desde vehículos, donde el conductor no puede utilizar la vista para tareas ajenas a la conducción. La marcación de un número de teléfono, el control de los elementos accesorios del vehículo, la utilización de teleservicios tales como el encaminamiento en ruta, la información sobre tráfico o sobre zonas de aparcamiento, etc. son algunas de las aplicaciones que se espera disponer en un plazo medio. Otra aplicación de una gran transcendencia social es la de permitir el acceso a las máquinas (y mediante ellas a la información) a personas que sufren discapacidades visuales o motoras graves. Finalmente, una gran área de aplicación es la del acceso a servicios y control de máquinas vía telefónica, donde la voz es el modo fundamental, si no el único, de comunicación. La posibilidad de convertir cualquier abonado a la red telefónica en un punto de acceso a los servicios le proporciona un valor económico y social difícil de acotar. Un esquema típico de un sistema conversacional [Giachin,97] debería contener los componentes y las interrelaciones entre ellos que se detallan a continuación. La entrada hablada es primero procesada a través del componente de reconocimiento del habla. El componente de comprensión del lenguaje natural, trabajando coordinadamente con el reconocedor del habla, produce una representación del significado de la frase de entrada que pasa al controlador de diálogo. Para tareas de recuperación de información, la representación del significado puede usarse para obtener información de la base de datos en forma de texto, tablas o en forma de gráficos. Si la información de la frase de entrada es insuficiente o ambigua, el sistema puede decidir preguntar al usuario las aclaraciones necesarias. Un componente de generación de lenguaje natural, y opcionalmente un componente de síntesis de voz, pueden ser usados para producir respuestas que aclaran la información tabular. En todo el proceso se mantiene información del discurso que puede ser consultada por los componentes de reconocimiento y de lenguaje natural para que las frases sean comprendidas adecuadamente en su contexto. Los sistemas experimentales de diálogo han sido principalmente desarrollados como evoluciones de proyectos de Comprensión del Habla, que proporcionaban tasas satisfactorias de reconocimiento para tareas de discurso continuo independientes del locutor con léxicos del orden de 1000 palabras. Aparte de algunas experiencias puntuales, se puede considerar que los proyectos más representativos que fomentaron el desarrollo de sistemas de diálogo hablado son: el CEC SUNDIAL en Europa [Peckham,93], [Gerbino,93], [Giachin,97] y el ATIS fundado por ARPA, dentro del cual hay algunos grupos trabajando en sistemas de diálogo [Seneff,91], [Ward,94], [Pieraccini,97]. Actualmente se están realizando nuevos esfuerzos en proyectos europeos tales como los proyectos desarrollados en el ámbito del Programa 7HOHPDWLFV $SSOLFDWLRQV de la Unión Europea, ACCeSS ($XWRPDWHG &DOO &HQWUH WURXJK 6SHHFK 6\VWHPV), REWARD (5HDO :RUOG $SSOLFDWLRQV RI 5REXVW 'LDORJXH), cuyo objetivo es el desarrollo de herramientas que permitan el diseño de aplicaciones a personas no expertas en diálogo, y ARISE ($XWRPDWLF 5DLOZD\ ,QIRUPDWLRQ 6\VWHPV IRU (XURSH), en el que se desarrollan sistemas de información de horarios de trenes en holandés, francés e italiano. En España, algunos grupos de investigación han empezado a mostrar interés por el área de diálogo, como el Grupo de Tratamiento del Habla, del Departamento de Electrónica y Tecnología de Computadores, de la Universidad de Granada [López,97], o el Grupo de Tecnologías del Habla, de la empresa Telefónica, Investigación y Desarrollo [Álvarez,97].

95] sigue siendo un tema clave para el uso práctico del sistema de reconocimiento. canal desconocido y variante. tanto en lo que se refiere a los aspectos fonéticos. donde el ruido . En la primera se procura que las características que modelan la señal sean intrínsecamente más robustas a los cambios en las condiciones ambientales (incluyendo el canal) [Hanson. En terminales con la facilidad de manos libres.96].91]).96].97b]. ya sea operando en el espacio de las características o en el de los modelos acústicos. Una solución alternativa al control activo de ruido acústico es la utilización de una agrupación de micrófonos que están distribuidos espacialmente de forma que la salida de cada micrófono tiene unas diferencias de fase de acuerdo con la posición de las fuentes de sonido.97a]. como léxicos. Utilizando estas informaciones de fase se puede construir un micrófono superdirectivo de forma que permite mejorar la relación señal a ruido de forma efectiva para una gran variedad de ambientes ruidosos [Yamada. etc. el modelado acústico de tipo estadístico (HMM) requiere y facilita otro tipo de técnicas robustas que buscan la compensación de las desviaciones. etc.93].96] [Giuliani. 0RGHODGR UREXVWR GH OD VHxDO Anteriormente hemos identificado algunas aplicaciones que son indicadas para incorporar interfaces vocales.97] trata el ruido aditivo con mucha generalidad pero no el efecto convolutivo del canal. [Hernando. en un sistema de información por teléfono. [Nadeu. La robustez del sistema de reconocimiento en condiciones ambientales variantes y/o adversas [Gong.97]. la señal captada por el micrófono se encontrará contaminada por el ruido acústico circundante lo que hace aconsejable la incorporación de un sistema de control activo de ruido acústico que permite mejorar la relación señal a ruido en el micrófono realizando una burbuja de silencio alrededor del micrófono [Elliot. Aunque este enfoque es simple de cálculo y ha demostrado ser efectivo para reducir el efecto de las perturbaciones debidas al canal o al ruido en situaciones sencillas.93]. [Bonito.).96]. Por ejemplo. En esta área han aparecido recientemente un gran número de métodos [Lee. si es posible. De hecho. Si el servicio existe. [Hernando.97]. es aconsejable utilizar una combinación de corpus con objeto de obtener las mejores prestaciones del sistema. En estas aplicaciones se cuenta con situaciones acústicas severamente degradadas.96] [Kiyohara. las expectativas del usuario y una primera aproximación del vocabulario y del tipo de estructuras lingüísticas utilizadas. por ejemplo puntos de información o expendedoras de billetes y entradas. El objetivo es conocer la forma en la que se expresan las personas en esa tarea. el conocido método PMC [Gales.97]. cuando el sistema está produciendo un mensaje hablado. Una vez determinada la evolución temporal del espectro de la señal de voz. Debido a las imperfecciones en el paso de 2 a 4 hilos y a los ecos acústicos establecidos entre altavoz y micrófono. [Armbrüster. [Nadeu.&RUSXV GH GLiORJR Al emprender el desarrollo de un sistema de diálogo es fundamental disponer desde las primeras etapas de su desarrollo de un corpus de diálogos en habla espontánea con usuarios reales [Giachin. Un sistema de diálogo ha de incorporar la posibilidad de ser interrumpido por parte del usuario. el eco generado por la reverberación de la sala y el retorno del mensaje de salida pueden representar una seria perturbación en el sistema de reconocimiento.93]. expresiones.97]. En una segunda fase se han de recoger diálogos en situaciones que permitan modelar las situaciones para el caso concreto de la estrategia de diálogo diseñada. se hace necesaria la inclusión en el sistema de un cancelador de ecos para eliminar los ecos sin distorsionar la señal de voz del usuario [Artes. significativamente distintas a los entornos en los que habitualmente se han desarrollado prototipos de habla continua (ambiente ruidoso y variado. la mayoría de los cuales son específicos y sólo tratan un aspecto del problema: por ejemplo. también en el proceso de diseño y evaluación de sistemas de diálogos. una opción es adquirir conversaciones persona-persona que permitan conocer con exactitud el servicio. existen dos formas básicas de abordar el problema de la robustez. Tanto el control activo del ruido como las agrupaciones de micrófonos son propuestas de gran atractivo en interfaces persona-máquina en entornos WLSR YHVWtEXOR. Dos son las opciones para ello: L) desarrollar un prototipo del sistema y adquirir diálogos de forma incremental al tiempo que está operando o LL) utilizar una persona que simula a la máquina (técnica de 0DJR GH 2] [Fraser. el usuario ha de poder interrumpir al sistema para corregirle (en una estrategia de verificación implícita del mensaje que se ha reconocido) o porque ya sabe que opción desea. Las recomendaciones establecidas por ($*/(6 (([SHUW $GYLVRU\ *URXS RQ /DQJXDJH (QJLQHHULQJ 6WDQGDUV) constituyen una referencia no sólo a la hora de adquirir corpus y anotarlos. [Umari.93]. Esto supone que el sistema de reconocimiento esta activado incluso en los intervalos en los que el sistema contesta la usuario.92]. [Masgrau. Por otro lado. Por todo esto. en particular las que se ofrecen en el entorno de vehículos y los servicios ofrecidos por vía telefonía. se hace necesario la cancelación de estos caminos de retorno.97] [Navajas.

97b]. Otros tipos de aproximación al problema de verificación se encaminan hacia la utilización de ciertos parámetros del proceso de reconocimiento (hipótesis QPHMRUHV. etc. comporta un estilo de habla. Igualmente proyectos europeos cuyo objetivo es la traducción automática de lengua hablada contemplan esfuerzos específicamente dedicados al tratamiento de habla espontánea [Finke.97]. Las técnicas mas utilizadas en la actualidad asignan una medida de confianza a las palabras reconocidas por el sistema de reconocimiento mediante el cálculo de un ratio de probabilidades y son aceptadas o rechazadas comparando la medida de confianza con un umbral de decisión. 9HULILFDFLyQ GHO UHFRQRFLPLHQWR En la mayoría de aplicaciones de reconocimiento automático del habla es necesario disponer de un mecanismo que nos permita verificar las hipótesis generadas por el sistema de reconocimiento. de textos. [Schaaf.97].94] [OíShaughnessy.96] [Peskin.96b].96].95] [Finke. [Young.97a]. vacilaciones y coletillas. incluyen diálogos bien entre personas [Rosenfeld.94]. de tamaños diferentes. También se ha prestado especial interés a la adquisición a través del teléfono. etc.97] [çlvarez. la utilización de sistemas de reconocimiento del habla en sistemas de diálogo. que se suele denominar como habla espontánea.97]. Sobre estos corpora se ha comenzado ya a realizar estudios y caracterizaciones de las disfluencias ya mencionadas [Schriberg. [Sukkar.) como información para definir una medida de confianza [Cox. que introduce una complicación añadida en todos los niveles de conocimiento involucrados en el proceso de comprensión.96]. 7UDWDPLHQWR GHO +DEOD (VSRQWiQHD Por otra parte. en habla espontánea encontramos grandes variaciones en la velocidad de elocución. debido al inmenso potencial de aplicaciones relacionadas con este tipo de comunicación.97] de corpora que permitieran estudiar y caracterizar la lengua hablada. condiciones adversas de grabación. La mayoría de los sistemas de reconocimiento de habla continua han sido entrenados a partir de grandes corpora de textos leídos adquiridos en condiciones controladas.96a].96]. Una causa evidente de error es obviar que la lengua hablada contiene fenómenos que la caracterizan y la diferencian del habla obtenida a partir de la lectura. [Rahim. Mediante un proceso de entrenamiento de tipo discriminativo se aprende sobre una base de datos de entrenamiento las distribuciones del espacio de reconocimiento correctos y de falsas alarmas.95] [Schultz. con tasas de error a nivel de palabra que superan el 50% [Jeanrenaud.96] [Albesano.96]. en los últimos años se ha dedicado un gran esfuerzo a la adquisición y preparación [Greenberg. aunque fuera muy descuidada. Todos ellos. palabras repetidas. . el fracaso ha sido estrepitoso. [Weintraub.ambiente es dominante y el usuario no utiliza micrófonos direccionales próximos y la posición del usuario no puede determinarse con precisión con antelación. La verificación del reconocimiento asigna una medida de confianza a las hipótesis generadas por el reconocedor de forma que nos permita detectar la presencia de errores de reconocimiento (inserciones y sustituciones). [Rahim. Así. duración. [Rosenfeld. Esto ha obligado a la comunidad científica internacional a analizar las causas de error y replantearse objetivos y metodologías para tratar de abordar estos problemas [Rosenfeld. falsos comienzos de frase. Por este motivo. la finalidad es dar una medida robusta sobre la confianza del reconocimiento tanto a nivel acústico como de lenguaje.97] [Albesano. El ratio de probabilidades está definido como la relación entre la probabilidad de un modelo oculto de Markov que modela el espacio de reconocimiento correctos con respecto a la probabilidad de un modelo oculto de Markov que modela el espacio de falsas alarmas [Lleida.97].97] [Zeppenfeld. en especial si se dirige a usuarios no expertos en el servicio. tanto entre locutores como dentro de una misma frase dependiendo de la semántica.95].97]. Es imprescindible contar con un módulo específicamente dedicado al tratamiento del habla espontánea. omisión de fonemas y palabras. La inclusión de la información de falsas alarmas en el proceso de reconocimiento permite además de minimizar el número de falsas alarmas el aumentar las tasas de reconocimiento [Lleida. Sin embargo cuando se ha pretendido adaptar estos sistemas a condiciones más realistas: habla espontánea no leída. bien entre una persona y una máquina [Eckert. número estados activos. etc. LQFRUUHFFLRQHV sintácticas.95].97] [çlvarez.94]. Así lo entienden igualmente otros grupos europeos con objetivos similares [Eckert.97]. Cualquiera que sea el método utilizado.97]. [Weintraub. Este tipo de fenómenos se engloba bajo el término genérico de disfluencias [Schriberg. con pausas en las que se introducen sonidos ajenos al léxico.

En una primera aproximación al problema se trató de detectar y eliminar las disfluencias. Por ejemplo. Hay que destacar que.93] y el sistema de comprensión escoge aquella a la que le otorga mayor verosimilitud. en cuanto al funcionamiento del sistema de diálogo. Sin embargo. como la entonación.95].97].96].97]. por tanto. toma cierta relevancia en aplicaciones de diálogo [Longuet.95]. todas estas propuestas se limitan a paliar parcialmente los efectos negativos de la introducción de habla espontánea en las prestaciones de los sistemas de reconocimiento [Stolke. la mayoría de los sistema de síntesis utilizados en la práctica. en las que se aumenta el grado de complejidad de los modelos [Jeanrenaud. siendo el tema de muy reciente atención por parte de la comunidad científica. Uno de los factores fundamentales para obtener naturalidad en los sistemas de producción del habla es el de modelar apropiadamente las variaciones entonativas [Silverman.97] [Finke. generan contornos entonativos que no son sino sucesiones de rectas condicionados por la puntuación final y unos pocos heurísticos [Bonafonte.96] [Weintraub. recientemente planteado y que ha llegado incluso a cuestionar la validez de los paradigmas actuales [Rosenfeld. Los últimos años han aparecido sistema que representan las distintas frases candidatas de forma más compacta. en muchos sistemas el reconocedor proponer varias frases candidatas [Mariño.96]. nuevos conjuntos de unidades sub-léxicas [Monkowski. Sin embargo. segmentar las oraciones en grupos sintácticos [Veilleux. y de la estructura retórica que junto a otros componentes marcaría la entonación. .95] [Albesano. A nivel acústico se propone el modelado explícito de eventos no léxicos [Schultz. La información que proporciona la entonación.A cargo de esta última componente están los problemas de la selección léxica y sintáctica. muchos trabajos utilizan un sofisticadísimo análisis del texto a sintetizar.96] utilizar un modelo corrector de error [Rosenlfeld. El proceso de generación en LN supone la integración de diferentes módulos que utilizan varias fuentes de conocimiento. en el caso de que el interfaz de persona hacia máquina ofrezca una tasa aceptable de comprensión y de que la estrategia del diálogo haya sido bien diseñada. dados los posibles errores del sistema de reconocimiento. Para ello. refiriéndose la mayoría de los comentarios a la calidad de la voz escuchada [Aust.93] y para localizar fenómenos relacionados con habla espontánea. Es éste. *HQHUDFLyQ GH OD UHVSXHVWD RUDO En los sistemas de diálogo es también necesario un módulo generador de la respuesta oral. Desde el punto de vista del modelo de lenguaje se incluyen como nuevos elementos añadir al vocabulario [Schultz.QWHUID] HQWUH HO VLVWHPD GH UHFRQRFLPLHQWR \ HO VLVWHPD GH FRPSUHQVLyQ La forma más sencilla de enlazar un sistema de reconocimiento del habla y uno de comprensión es utilizar la representación ortográfica de la frase reconocida. bien sea mediante síntesis de voz o mediante concatenación de segmentos. La primera fase de la generación no se limita a la generación del texto sino que puede incluir ya información sobre rasgos suprasegmenales. Aproximaciones más recientes tratan de modelarlas aplicando metodologías ya contrastadas con éxito en sistemas de reconocimiento automático del habla. los usuarios percibían mayor dificultad en la salida de voz que en el reconocimiento y la comprensión. la respuesta oral no es crítica pues los sistemas de síntesis actuales ya ofrecen casi total inteligibilidad. sistema que utilizaba salida oral mediante concatenación de segmentos. . la respuesta que produce el interfaz de máquina a persona es la parte visible de todo el sistema de diálogo por lo que la calidad de la respuesta oral determina en muchos casos la calidad del sistema global. se convierte el texto en una señal de voz.85]. Respuestas orales de alta calidad son de gran importancia de cara a que los sistemas de diálogo sean aceptados. Suele incorporarse una componente estratégica. etc.95]. un interesante tema de investigación abierto. en la evaluación de 1994 de un sistema de información de horario de trenes desarrollado por 3KLOLSV. [Schwartz.91]. Esto se suele realizar en dos fases: en la primera se generan las frases en LN a partir del contenido a transmitir y.97b] capaces de modelar tanto los eventos ajenos al léxico como las dependencias contextuales más alejadas. en una segunda fase. en nuestro caso imbricada con el módulo de control del diálogo.92].97] [Garrido.93] y es allí donde se centra la mayoría de la investigación que se realiza en conversión de texto a voz. Sin embargo.89]. Un seguimiento de F0 puede ser de utilidad para identificar el nivel ilocutivo de la frase. que no se ha utilizado en los sistemas habituales de reconocimiento del habla. [Stolke.96]. que determina el contenido a transmitir (ZKDW WR VD\) y una componente táctica que se encarga de la expresión lingüística del mismo (KRZ WR VD\). [Marzal.94] con el consiguiente beneficio temporal en el procesador lingüístico [Giachin. Sin embargo. mediante grafos de palabras [Ney.

94]. debe incorporar un procedimiento de monitorización para detectar cuándo el diálogo no está funcionando y resolver la situación mediante modos alternativos de comunicación (activar un sistema de diálogo guiado por el sistema. etc. por ejemplo los proyectos ITEM y Acquilex II. El interés en conversores PHQVDMH a texto. Debe notarse que el estudio de dicho comportamiento prosódico es de utilidad también para concatenación de segmentos grabados.93]. En los sistemas de diálogo se dispone de información semántica por lo que la tarea de análisis queda notablemente simplificada. Habrá casos en los que no será capaz de realizar un análisis de la frase completa.La información semántica del discurso determina el comportamiento de la prosodia de una elocución. Diferentes estudios muestran que los picos de las curvas prosódicas se corresponden casi siempre con las palabras que son el foco del mensaje [Jackendoff.97]. &RPSUHQVLyQ GHO KDEOD \ JHVWLyQ GHO GLiORJR El módulo de comprensión debe proporcionar una representación del significado de la frase reconocida. para tener en cuenta los errores cometidos por el sistema de reconocimiento. el análisis sintáctico y la posterior interpretación semántica de las unidades analizadas.95] [Minker. permitiendo adquirir varias realizaciones de los segmentos y utilizar el más adecuado desde el punto de vista prosódico. por lo que tendrá que aplicar técnicas de análisis parciales [Baggia.97] en los que se aprende de forma automática la estructura del diálogo a partir de muestras de diálogos etiquetadas en unidades de diálogo.97] [Seide. Sin este control no sería posible la extracción del contenido ilocutivo de cada intervención ni la resolución de las formas complejas de referencia que pueden aparecer. En los últimos años.97] [Reithinger. debe mantener una historia del diálogo para resolver los problemas de elipsis y anáfora que pueden aparecer en las frases.97] [Flammia. utilizados en sistemas de diálogos. se han publicado varios trabajos [Woszcyna. cuando sea posible [Levin.). la desambiguación gramatical y semántica. En buena parte de estas tareas existen ya tecnologías adecuadas para el tratamiento de texto escrito.97]. Sitúa las exigencias de comprensión de las intervenciones del interlocutor humano a un nivel mucho más alto de lo que es habitual en los sistemas de tratamiento del habla.72] y también las que aportan nueva información para el oyente [Brown. aunque se debe estudiar su integración y su adaptación al tratamiento de la lengua hablada.97] [Kita. es creciente. . El controlador de diálogo es el núcleo de un sistema de diálogo hablado. debe disponer de una estrategia de verificación. Debe aportar el conocimiento pragmático del dominio de la tarea para facilitar la comprensión del mensaje [Popovici. debe detectar cuándo el requerimiento formulado por el usuario no es completo y activar el módulo generador de frases para elaborar una pregunta al usuario. derivar la petición a un operador humano. [Wang. explícita o implícita. La comprensión del texto implica la ejecución de una serie de procesos que implican tareas como el control del texto.83].

F. T. A. Tapias. H. 1971-1874. 1139-1142. M. Danielu. pp 12-35. Young.93] [Giachin. Computer Speech and Language. IEEE Transactions on Speech and Audio Processing. Junio-93. Febrer. In A. P. Wide context acoustic modelling in read vs. Gales. EUSIPCO-92. Rullent. 6LPXODWLQJ VSHHFK V\VWHPV. 3URVRG\ 0RGHOV DQG 0HVDXUHPHQWV Springer-Verlag. Giuliani. Berlin. Armbrüster.A. Nelson. gerbino.91] [Garrido. D. spontaneous speech.95] . “Requisitos Acústicos en el Servicio de Audioconferencia”. Rodríguez Fonollosa. Sept. (1997): Development and evaluation of the ATOS spontaneous speech conversational system. M. C. W.. 5. (1997): The Karlsruhe-Verbmobil Speech Recognition Engine.97] Albesano. Proc. W. 1147-1150. Svaizer. 478-481.J.).$6 %. “Confidence measures for the Switchboard database”. 1997 J. 3DUWLDO SDUVLQJ DV D UREXVW SDUVLQJ VWUDWHJ\ .96] [Brown..2*5È). 1983. IEEE Signal Processing Magazine. pp. [Álvarez.R. 352-9. S. 81-99. Gallwitz. Proc ICSLP-96. 6SRNHQ /DQJXDJH 'LDORJXH 6\VWHPV. Philadelphia. Prosodic structure and the given/new distinction. 1996. No. 1997. Rullent. F. Baggia. J. En Proceedings de EUROSPEECH 97 . ICSLP-96. M.M. 1993 Finke.Danieli 0DQDJLQJ GLDORJXH LQ D FRQWLQXRXV VSHHFK V\VWHP.4. E. Bonafonte.97] [Elliot. G. D.Gerbino.C.%/. P.. 1991. R.Giachin & S.97b] [Flammia. 3URFHHGLQJV RI . L. Garcia Bonito. European Conference on Speech Communication. Elliot.A. Informe para el proyecto TEMA-PLANBA. 1991 M. Garrido. C. Kemp. 261-291. 1997.. Hild.83] [Cox. 1996 G. 1661-1664.97a] [Finke.&$663 pp. 423-426. Boucher.. 'LDORJXH 0RGHOOLQJ.5()(5(1&. Rhodos.&$663 pp. “Experiments of Speech Recognition in a Noisy and Reverberant Environment using a Microphone Array and HMM Adaptation”. pp. Gemello. M.. pp 1115-1120.93] [Aust..96] [Baggia.97] [Fraser. Vol 5. “Active Noise Control”. C. N 1.Zue.. García Frías. 3URFHHGLQJV RI . A. Ries. Internoise-96. 17431746. P. ICASSP’93.Flammia. K. Universitat Autònoma de Barcelona.&$6 [Albesano. V. N.91] [Gales. çlvarez..96] [Gerbino. J.Bloothooft (eds.. Modelización de patrones melódicos del español para la síntesis y el reconocimiento del habla. “Wideband Acoustic Echo Canceller with a Two Filter Structure”. Budapest. 3URFHHGLQJV RI . Vol. S. Ladd. 1993. 3URFHHGLQJV RI . I. 1996. Crespo. M. Vol. F. Kluwer Academic Publishers. H.93] [Finke. Baggia. (1996): Combining Stochastic and Linguistic Language Models for Recognition of Spontaneous Speech. 81-84. C. P. E. EUROSPEECH-97.Fraser.Young & G. Niemann. 1996.96] [Eckert. McGlashan. En proceedings de EUROSPEECH’93. E.. pp. S.96] [Gong. Masgrau. I. Elliot. pp. Weruaga. A. Cortazar.&$663 pp.. Vallverdú.N. Artés. E. pp.. D.C. 1995.97] [Armbrüster. “$ %LOLQJXDO WH[WWRVSHHFK V\VWHP LQ VSDQLVK DQG FDWDODQ”.Brown. Proceedings of ICASSP. Geutner. Cox. 1992. Yifan Gong. Cutler and D.97] [Bonito. Westphal. J. Martínez. Harald Aust. UAB. 67-117.93] [Bonafonte.M.Gilbert. Rose. 1611-1614. "Robust continuous speech recognitionusing parallel model combination". S. Chapter 3 of Corpus-Based Methods in Language and Speech Processing. Omologo.92] [Artes. “A Virtual Microphone Arrangement in a Practical Active Headrest”.&$663¶ pp. J. S. Julio 1996. Philadelphia. "Speech recognition in noisy environments: A survey". Liverpool. 16. P. Eckert. /HDUQLQJ WKH VWUXFWXUH RI PL[HG LQLWLDWLYH GLDORJXHV XVLQJ D FRUSXV RI DQQRWDWHG FRQYHUVDWLRQV. Speech Communication.. (1997): Dialogos: a robust system for human-machine spoken dialogue on the telephone.. G. R. Notas de clase del ELSNET Summer School.. editors.J. Esquerra.97] [Giuliani.

C.Kita.1.K.97] [Marzal.H. Pont-a-Mousson.”Efficient decoding and training procedures for utterance verification in continuous speech recognition”. En Proceedings de EUROSPEECH’95. Marzal: "Cálculo de las K Mejores Soluciones a Problemas de Programación Dinámica".-H. 1997. "Spectral dynamics for speech recognition under adverse conditions". R. In Fallside.1-8.Nagata. Rose.. Chaudhari.&$663. Y. R. Rhodos. in $GYDQFHG 7RSLFV LQ $XWRPDWLF 6SHHFK DQG 6SHDNHU 5HFRJQLWLRQ.96] [Nadeu. Kojima. A.417-420. T. 6HPDQWLF . pp.96b] [Mariño. Proc ICASSP-97. C. 1997. pp 215-218.97] Greenberg.C.95] [Nadeu. A. P.72] [Jeanrenaud. Kaneda. Director: E. 1996. 21. (1995): Context dependent phonetic duration models for decoding conversational speech.96] [Hernando.-H. pp. 1. S. &RPSXWHU 6SHHFK 3URFHVVLQJ Prentice Hall International. Applebaum.97] . Proc. Mariño. J. “The demiphone: an efficient subword unit for continuous speech recognition”.[Greenberg. Lee. editors. Rao. 1997. Y.Pachés-Leal..B. R. E. 528-531. (1995): Reducing word error rate on conversational speech from the swithboard corpus. Lee and F.Minker. Nogueiras. pp. “$ YRLFH DFWLYDWHG GLDORJXH V\VWHP IRU IDVWIRRG UHVWDXUDQW DSSOLFDWLRQV´ European Conference on Speech Communication. 1997. 197.Hernando. Cambridge. Rose.M. P. Juang. pp.97a] [Hernando. J. E. “Likelihood ratio decoding and confidence measures for continuous speech recognition”. 45-54. 1993 W. Jelinek. 1997. MA. Eurospeech'97. Proc. J.S. Proc ICSLP-96. pp. Septiembre 1993. Sept. pp. pp 478-481. F. Proc. Workshop on Robust Speech Recognition for Unknown Communication Channels.Nadeu. pp. “Microphone Array System for Speech Recognition”.H.Hernando. pp 507-510. 1215-1218. Philadelphia. Kluwer Acad. Center for Language and Speech Processing. EuroSpeech’89. C.Siu..97] [Levin. E. [Hanson. of EuroSpeech’97. 3URFHHGLQJV RI . Nomura. Tesis Doctoral. En Proceedings de ICSLP’96. R. Proc. Rubio. Enero 1997. 1783-1786.Nogueiras. C. B. C. S: The Swichboard Transcription Project. No. A. J. Proc. Munich. J. Díaz. "Linear prediction of the one-sided autocorrelaton sequence for noisy speech recognition". P. J. Sept. C. Soong. Tone of voice: The role of intonation in computer speech understanding.Hernando. Capítulo 6. McDonough.  /DUJH 9RFDEXODU\ &RQWLQXRXV 6SHHFK 5HFRJQLWLRQ 6XPPHU 5HVHDUFK :RUNVKRS 7HFKQLFDO 5HSRUWV. Atlanta.Nadeu.Pieraccini &RQFHSW%DVHG 6SRQWDQHRXV 6SHHFK 8QGHUVWDQGLQJ 6\VWHP. Junqua. Vidal.L. 1985. ICSLP'96. 1989. pp. A.93] [Minker.. A. P. Lleida. Monte. Jackendoff.Levin.Fukui.97] [Lleida.80-84.89] [Mariño. Hanson. Gish. J.. Vol. Vol. 1996. EUROSPEECH-97.D. 1972.95] [Kita. Monkowski. Vol. T.93] [Masgrau. E. 408-411. Jhons Hopkins University. S.A. pp. Masgrau. H. "Filtering the time sequences of spectral parameters for speech recognition". Kiyohara. Rodas. S. Nig. Rodríguez Fonollosa.Morimoto. R.. 197-199. C. Jeanrenaud. and Woods.&$663. J. Rhodos. A. W. pp.Gauvain.97] [Lee. Proc ICASSP-96.. 1997.430-433.QWHUSUHWDWLRQ LQ *HQHUDWLYH *UDPPDU MIT Press. Grecia.85] [López. López Cózar. K. Eds. Moreno.C. 1997. Ed. Longuet-Higgins. H. U. J. París. K. Francia. J. M.J. J. "On feature and model compensation approach to robust speech recognition". 3URFHHGLQJV RI .A.Bennacef. Oct. A.5. $ VWRFKDVWLF &DVH )UDPH IRU 1DWXUDO /DQJXDJH 8QGHUVWDQGLQJ.. 53-56. M.97] [Kiyohara.Mariño.97b] [Jackendoff. Philadelfia. “ Técnicas de Cancelación” (Contribución al resultado R32 de PLANBA Informe sobre técnicas de cancelación de ecos)."Frequency and time filtering of filter-bank energies for hmm speech recognition". Takahashi. K. $XWRPDWLF DFTXLVLWLRQ RI SUREDELOLVWLF GLDORJXH PRGHOV En Proceedings de ICSLP’96. Eide..B.95] [Longuet. C. Speech Communication. M. “Generation of multiple hypotheses in connected phonetic-unit recognition by a modified dynamic programming algorithm”. Lleida. "Robust speech parameters located in the frequency domain". Mariño. Publ. García.Nadeu. Universidad Politécnica de Valencia. Bonafonte. IEEE Transactions on Speech and Audio Processing.Nadeu. 555-558.. J. 1996 E. 1995. Abril 1997. 1996. E. 1013-1016.B.97] [Monkowski. Picheny. F.96a] [Lleida.

Sukkar. Waibel. “Discriminative utterance verification for connected digits recognition. M. M.QLWLDWLYH &RQYHUVDWLRQDO $UFKLWHFWXUH.H. P.Baggia. Pieraccini & E.6 GRPDLQ. of ICSPAT. B. W. pp. C. 600-603. Umari. T.Hirschman.Rueber. Vergyri. Kubala. Juang.&$663 pp. R. April 1993.91] [Stolke.Seneff.&$ WKH $7 7 0L[HG .M.94] [Wang. Probabilistic parse scoring with prosodic information.Peckham $ QHZ JHQHUDWLRQ RI VSRNHQ ODQJXDJH V\VWHPV UHFHQW UHVXOWV DQG OHVVRQV IURP WKH 681'. Makhoul.. 1017-1020. En Proceedings de EUROSPEECH’87.97] [Pieraccini. (1994): Preliminaries to a Theory of Speech Disfluencies. J. 875-878.. Proc ICASSP-95. Peskin. Lee. Gillick. En Proceedings del ICASSP 97 . pages 51-55. van Mulbregt. 293-296.93] [Veilleux93] [Ward. 3URFHHGLQJV RI . 1997 Schriberg. Austin.Seide. IEEE trans on SAP. Kemp.. (1997): Progress in recognizing conversational telephone speech. Stolke. T.97] [Popovici. Lee.97] [Reithinger.&$663 pp. 3URFHHGLQJV RI .Zue .. N. 654-657. 1993. . En proceedings del Fourth DARPA Speech and Natural Language Workshop. T. Ostendorf. ([WUDFWLQJ . 1997 [O’Shaughnessy. V..G. Vidal.95] [Schaaf-97] [Schriberg . R.$/. (QGRIZRUNVKRS UHSRUW RI WKH /DQJXDJH 0RGHOLQJ RI 6SRQWDQHRXV 6SHHFK SURMHFW WHDP DW WKH  -RKQV +RSNLQV :RUNVKRS RQ /QDJXDJH 0RGHOLQJ. A. L.97] [Seneff. P. 2703-2706.Popovici. 1996 M. Nguyen. Masgrau.QIRUPDWLRQ LQ 6SRQWDQHRXV 6SHHFK. (1995): Timing Patterns in Fluent and Disfluent Spontaneous Speech. En proceedings de EUROSPEECH’93. October 1993. N. R. “Implementation of an Acoustic Echo Canceller using the Motorola DSP56001 Digital Signal Processor”. 6WDWLVWLFDO $QDO\VLV RI 'LDORJ 6WUXFWXUH.H. Schwartz. I. ICASSP-97. 3 y 4 respectivamente. 1997. vol I... 173-178. 1811-1814.H. Munich. Proc.. S. S. Ward. E. Fernández.Kneller. Rosenfeld. Unverfth.QWHUDFWLYH SUREOHP VROYLQJ DQG GLDORJXH LQ WKH $7...96] [Sukkar. pp.92] [Schultz.95] [Seide. Detroit. “New uses of the N-best sentence hypothesis within the Biblos speech recognition system”. 33-42. Juang. 3URFHHGLQJV RI ....PSURYLQJ VSHHFK XQGHUVWDQGLQJ E\ LQFRUSRUDWLQJ GDWDEDVH FRQVWUDLQWV DQG GLDORJXH VWRU\. B. “Confidence measures for spontaneous speech recognition”. E. Bilbao. R. 1997. [Peckham..Engel. 1997. Newman.. 354-359.Klesen. Levin $0. En Proceedings de ICSLP’96. M.&$663 pp. R. D. B.Reithinguer. 3URFHHGLQJV RI . B. M. N. Byrne. E..Kipp.93] J.&$663¶..94] [Schwartz. Rahim. Agarwal. J. 6SHFLDOL]HG ODQJXDJH PRGHOV XVLQJ GLDORJXH SUHGLFWLRQV.G. E. Wegmann. 83-86. pp 266-277. 1991. 1997.” IEEE trans on SAP.H.&$663. Liberman. 1994. Shriberg.95] O’Shaughnessy. Rogina. University of California at Berkeley. D..[Navajas.97] [Rosenfeld. URSI-97. PhD dissertation.97] [Rahim. “Vocabulary independent discriminative utterance verification for nonkeywords rejection in subword based speech recognition”. F. L. Proceedings de ICSLP’94. Lleida.A.E.L. pp 285-288.H. “Conformación de Haz de una Agrupación Lineal de Micrófonos Aplicado al Reconocimiento Robusto del Habla”.. M. B. 405-408. 815-818. En Proceeding de EUROSPEECH’97.97] J. S. 3URFHHGLQJV RI . Schultz. pp. En Proceedings de ICSLP’96. C. “Roboust utterance verification for connected digits recognition”..97] . G.. Y. (1995): Acoustic and Language Modelling of human and nonhuman noises for human-to-human spontaneous speech recognition.H. L. Placeway. Mayo 1997. 3UHGLFWLQJ GLDORJXH DFWV IRU D VSHHFK WR WH[W WUDQVODWLRQ V\VWHP. Rahim.A. [Peskin. (1996): Error Analysis in the Swichboard Domain. pp 420-429. P. 1875-1878. C. Zavalagkos. Iyer. Capítulos 2. Language Modeling for Conversational Speech and Exploiting Remote Domains Via data Bleaching.QWHUQDWLRQDO &RQIHUHQFH RQ $FRXVWLFV 6SHHFK DQG 6LJQDO 3URFHVVLQJ volume II. M. Lee.96] [Umari. (1996): Statistical Language Modeling for Speech Disfluencies. R. Liberman. In 3URFHHGLQJV RI WKH . C. Nov. Wang & A. San Francisco. Schaff. R. Veilleux and M.. 1997. Shriberg.95] [Rahim. 1995. F. Proc.

Proc.&$663 pp. 1815-1818.94] [Yamada. 3URFHHGLQJV RI . Byrne WJ. M.. Philadelphia. (1997): Recognition of conversational Speech using the Janus speech engine. M (1997): Automatic Learning of Word Pronunciation from Data. Spontaneous Speech Recognition for the Credit Card Corpus using the HTK Toolkit”. Jelinek. En Proceedings de ICSLP’94. Westphal.97] . K. 1994.[Weintraub..94] [Zeppenfeld. 847-850. S. T. ICSLP-96.96] [Young. F.  /DUJH 9RFDEXODU\ &RQWLQXRXV 6SHHFK 5HFRJQLWLRQ 6XPPHU 5HVHDUFK :RUNVKRS 7HFKQLFDO 5HSRUWV. [Woszcyna. Center for Language and Speech Processing. “Roboust Speech Recognition with Speaker Localization by a Microphone Array”. Ries. 1994. Waibel. M. Finke. Capítulo 3.. No 4. A. 615-621. Zeppenfeld. K. Ed. 1996. Jhons Hopkins University. Woodland PC. Yamada.97] Weintraub. Young SJ. Waibel. IEEE Transactions on Audio and Speech Processing. Shikano. Nakamura. T. Woszcyna & A. Vol 2. Inferring Linguistic Structure in Spoken Language.. M.

Para la construcción de un sistema de tales características se hace necesario. se han desarrollado y difundido prototipos de conversión de textos genéricos a voz que han sido desarrollados por miembros del consorcio dentro del proyecto TIC95-1022-C05-04. modelos léxicos y modelos de lenguaje. el sistema debe diseñarse para tratar una tarea definida en un dominio semántico restringido. Por último. tanto a nivel acústico como a nivel de modelo del lenguaje utilizado en el reconocimiento. El corpus deberá contener un conjunto suficientemente grande de muestras de diálogos persona-máquina. tomando la iniciativa del diálogo cuando por ejemplo requiera información adicional.QIRUPiWLFRV. en particular señales telefónicas. Actualmente no se dispone de . frases no gramaticales. una vez seleccionada la tarea motivo del diálogo. La respuesta oral del sistema debe ser lo más natural posible. fenómenos extralingüísticos. El sistema debe soportar un vocabulario medio (unas 1000 palabras). Como acabamos de indicar.2%-(7. y teniendo en cuenta las dificultades en el tratamiento de una entrada de habla espontánea. sin otras restricciones que las que marca la propia aplicación. pero dejando que el usuario pueda también tomar la iniciativa en la formulación de la consulta. en el que cada diálogo consista en varios turnos que contengan frases sencillas en lenguaje natural hablado. así como en la aplicación de técnicas de aprendizaje automático para la obtención de dichos modelos. tanto en ambientes limpios como en señales ruidosas. el sistema debe ser de iniciativa mixta. disponer de un adecuado corpus de datos para dicha tarea. tienen experiencia en análisis y modelado de la señal vocal. aprovechando para ello la información específica de que se dispone en los sistemas de diálogo. así como implementar sistemas de diálogo hablado para poder abordar aplicaciones reales de consulta y obtención de información mediante el habla. en esta propuesta se ha incorporado el grupo 7UDWDPLHQWR GHO /HQJXDMH 1DWXUDO del Departamento de la UPC /HQJXDMH \ 6LVWHPDV . Las características más relevantes de un sistema de este tipo son: 1. que suele ser suficiente para dominios restringidos.. Fruto de estos trabajos es la construcción de varios prototipos de sistemas de reconocimiento del habla para tareas específicas desarrollado dentro del proyecto TIC95-0884-C04 que permite reconocer en tiempo real y con tasas de reconocimiento superiores al 97% de palabras correctas consultas a una base de datos sobre geografía española. fundamentalmente debido a la línea telefónica.. lo que debe permitir el desarrollo de sistemas fácilmente utilizables por usuarios no expertos. 3. El objetivo general de este proyecto consiste en el desarrollo de un sistema de diálogo que aborde una tarea a partir de habla natural. El sistema debe estar preparado para ser interrumpido por el usuario (por ejemplo para corregirle) debiendo introducir técnicas de cancelación del camino de retorno. Ha de ser robusto respecto al ruido y a las variaciones que se producen en el canal de comunicación. 4. La evolución natural de estos trabajos es profundizar en los aspectos relacionados con habla espontánea. la tarea debe consistir en peticiones de información en lenguaje natural hablado espontáneo a una base de datos con información sobre un tema concreto.926 Los grupos de investigación solicitantes de este proyecto han trabajado durante muchos años en las distintas áreas involucradas en este proyecto. Dicho grupo tiene experiencia en interfaces persona-máquina en lenguaje natural y constituyen un valioso potencial en el proyecto. debe incorporar el tratamiento de palabras desconocidas. no sólo para usuarios expertos. Teniendo en cuenta que debe estar diseñado para un uso general. En el ámbito del reconocimiento automático del habla. espontánea. o proponga restricciones etc. como es el caso de las consultas a una base de datos con información acerca de un tema concreto. 7. Han realizado numerosas aportaciones en la estimación de modelos acústicos. Además. Dado que el objetivo es el desarrollo de un sistema de utilidad práctica para el futuro usuario. En el área de la generación del mensaje oral. 6. etc. Respecto al proyecto anteriormente mencionado. el sistema debe hacer un tratamiento de los fenómenos del habla espontánea: discurso continuo. 5. 8. 2. Debe introducir técnicas de verificación del estado del diálogo de forma que no diverja de lo asumido por el usuario debido a errores en el reconocimiento.

Sin embargo. así como desarrollar técnicas de compensación de modelos HMM que aborde ambos problemas de forma simultánea. 4. los sistemas de reconocimiento y comprensión del habla se han basado fundamentalmente en elocuciones leídas. en una situación real de trabajo el sistema ha de afrontar el lenguaje espontáneo del usuario. el procesado de voz y el tratamiento del lenguaje natural. Por otra parte. El proyecto afronta también el reto de aglutinar los esfuerzos de dos comunidades científicas. 6. Es robustez está asociada a las técnicas de representación y modelado de la señal. por tanto. etiquetado y análisis de un corpus representativo van a pasar a formar parte de los objetivos generales. siguiendo la tónica de los trabajos y proyectos de algunos de los grupos de investigación participantes en los últimos años. fijamos los siguientes REMHWLYRV FLHQWtILFRV: 1. tecnologías y metodologías mediante la cooperación de grupos que abordan el problema del interfaces persona-máquina desde varias perspectivas distintas. que a pesar de estar destinadas a colaborar de forma imbricada en la llamada ingeniería del lenguaje. hay que fijar como objetivo también. 5. Como consecuencia. 3. En resumen. es necesario dotarle de robustez frente a la degradación de la voz a reconocer provocadas por el canal de transmisión de la misma o el ambiente donde tiene lugar la transacción oral. Además. Desarrollar modelos prosódicos específicos para sistemas de diálogo para ser aplicados en la generación de la respuesta. 2. El conocimiento de las técnicas y de los recursos utilizados por cada una de las partes se espera que contribuya al avance de ambas disciplinas no sólo en lo que este proyecto significa. Integración de técnicas de tratamiento de la lengua escrita en un marco de tratamiento del lenguaje natural hablado. sino también en otras áreas de común interés. Proponer protocolos de comunicación entre los módulos de reconocimiento y comprensión robustos frente a errores del sistema de reconocimiento básico y que incorporen información ilocutiva. Como ya ha sido dicho. el estudio de la aplicación de técnicas de aprendizaje automático en la construcción de las distintas partes del sistema de diálogo. y van a suponer un esfuerzo cualitativo y cuantitativo importante del proyecto. Dicho corpus es un recurso fundamental tanto para la investigación como para el desarrollo de los sistema y lo valoramos como una notable contribución que el proyecto realiza a los recursos de ingeniería del lenguaje disponibles en habla castellana.ningún corpus público de estas características en castellano. Realizar aportaciones científicas en las áreas del modelado acústico y del modelo del lenguaje utilizado en el módulo de reconocimiento que palien la degradación de los sistemas al ser utilizados con habla espontánea. habitualmente han evolucionado de forma independiente. Es necesario. y dados los buenos resultados de estas técnicas en el campo del Reconocimiento Automático del habla. fijamos los siguiente REMHWLYRV WHFQROyJLFRV del proyecto: 1. El desarrollo de un sistema de diálogo en habla espontánea. Aplicar técnicas de aprendizaje automático en las partes del sistema de diálogo más adecuadas para ello. Compartición de corpus (orales y textuales). por lo que el diseño de la tarea y la adquisición. para que el sistema de diálogo pueda utilizarse en situaciones reales. estudiar y resolver las dificultades específicas que el habla espontánea plantea. . 2. La adquisición y anotación de un corpus de diálogo en habla espontánea en lengua castellana. que posee una estructura con importantes diferencias respecto el lenguaje escrito. que conservan la estructura del lenguaje escrito. Proponer formas de representación y de modelado acústico robustas a perturbaciones aditivas (ruido) y convolutivas (canal). 7.

.

Grupo de Aprendizaje Computacional. Euskal Herriko Unibertsitatea (Universidad del País Vasco). Departament d'Informàtica. UPC-T: Grupo de Tratamiento del Habla. el primero de los módulos se dedica a la adquisición. Departamento de Electricidad y Electrónica. el hecho de que se utilice en un sistema de diálogo. Finalmente. anotación y análisis de un corpus oral de diálogos en habla espontánea. Departamento de Teoría de la Señal y Comunicaciones. Dicho sistema es el que coordina la actuación de todos los subsistemas definiendo la estrategia de diálogo en toda su amplitud. Dada la ausencia de corpus orales públicos de diálogo para tareas en dominios restringidos y también a la ausencia de corpus orales de habla espontánea. y en el proyecto coordinado TIC95-1022-C05-04 en lo que se refiere a la conversión de texto a voz. Universidad Politécnica de Valencia. En particular estudiará las cuestiones de robustez respecto al ambiente y al canal de comunicación y aspectos relacionados con el interfaz entre el sistema de reconocimiento y el sistema de comprensión. El tercero de los módulos se dedica a estudiar los efectos propios del habla espontánea y a investigar métodos de actuación que eviten la importante degradación que sufren los sistemas en estas situaciones. El módulo cuarto se dedica al desarrollo de un sistema de comprensión adaptado para aceptar señales de voz reconocidas por un sistema automático. Universitat Politècnica de Catalunya.1752'8&&. Reconocimiento Automático y Traducción del Habla. Grupo de Tecnologias de las Comunicaciones. para un sistema de producción oral.0(72'2/2*Ì$ < 3/$1 '( 75$%$-2 . El módulo sexto se dedica a la generación de intervenciones orales de alta calidad por parte del sistema estudiando las implicaciones que supone.Ï1 En este proyecto se afronta el desarrollo de un sistema de diálogo para habla espontánea partiendo de los resultados obtenidos en el proyecto coordinado TIC95-0884-C04. El segundo módulo trata con la adecuación del sistema de reconocimiento de habla continua a sistema de diálogo. UJI: UPC-I: Grupo de Tratamiento del Lenguaje Natural. Universitat Jaume I. UPV: UZ: Grupo de Reconocimiento de Formas e Inteligencia Artificial. El módulo quinto constituye el núcleo del sistema de diálogo y se ha denominado gestor del diálogo. el último módulo se destina a definir una arquitectura del sistema que permita el funcionamiento del sistema global con tiempos viable dados con recursos computacionales asumibles y a construir un prototipo que demuestre la tecnología desarrollada en el proyecto. Universitat Politècnica de Catalunya. en lo que se refiere al reconocimiento de habla continua. Departamento de Lenguajes y Sistemas Informáticos. En el proyecto participan seis grupos investigadores que serán designados mediante los siguiente acrónimos: EHU: Grupo de Reconocimiento Automático del Habla/Mintzo Bereizkuntza Automatikoaren Taldea. . Departamento de Sistemas Informáticos y Computación. Departamento de Ingeniería Electrónica y Comunicaciones. El proyecto se ha estructurado en siete módulos. Universidad de Zaragoza.

4: Tratamiento de palabras externas al vocabulario y eventos no léxicos.0.3: Modelado del lenguaje en habla espontanea.Ï1 '( &25325$ '( '.5: Metodología de evaluación del modelado acústico/lexico y del modelado del lenguaje en habla espontánea.0Ï'8/26 < $&7.4: Adquisición de un corpus de diálogos persona-persona.2: Definición del método de etiquetado del corpus. Actividad 3. UZ) (EHU. • Transcripción de las señales. Actividad 2. UPV) (UPC-T) (EHU. • Adquisición señales de voz.2: Modelado acústico y léxico en habla espontánea. UJI.1: Elección de la tarea.Ï1 '(/ 352<(&72 &RRUGLQDGRU GHO PyGXOR 83&7 3DUWLFLSDQ (+8 8-. Actividad 2.8: Desarrollo de la base de datos de la tarea 0Ï'8/2  6. Actividad 2. 83&.7: Análisis y clasificación del corpus persona-máquina.Ï1 '( /$ 7$5($ < $'48. UZ UPC-T UPC-T UPC-T. 839 8= Actividad 1. • Adquisición señales de voz.6. • Definición de escenarios. UJI Actividad 3. Actividad 1. (EHU. 0Ï'8/2  02'(/$'2 '( /26 )(1Ï0(126 $62&. Actividad 1. UZ .È/2*26 &RRUGLQDGRU GHO PyGXOR 83&7 3DUWLFLSDQ (+8 8-.'$'(6 '(/ 352<(&72 Ë1'. EHU.(172 '(/ +$%/$ &RRUGLQDGRU GHO PyGXOR 83&7 3DUWLFLSDQ 8= 839 Actividad 2. UPC-T. UPC-I. Actividad 1. Actividad 1.1$&. 83&. UPC-I. UZ UPC-T. UZ) (UPC-I. UPV. UJI EHU EHU.&. UJI.67(0$ '( 5(&212&. arrays de microfonos. UPV) (UPC-I.Ï1 < &225'.1: Cancelación de ruido activo y camino de retorno.&( *(1(5$/ 0Ï'8/2  *(67.1: Estudio de las disfluencias acústicas y sintácticas en habla espontánea Actividad 3. Actividad 1.2: Modelado robusto de la señal de voz. UPV EHU.5: Análisis y clasificación del corpus persona-persona. UPV) UPC-T (UPC-T) (EHU.$'26 $/ +$%/$ (63217È1($ &RRUGLQDGRU GHO PyGXOR (+8 3DUWLFLSDQ 8= 8-. UJI.4: Verificación del reconocimiento.3: Reconocimiento de la entonación como guía del discurso. 839 8= 0Ï'8/2  (/(&&. EHU. • Transcripción de las señales.5: Interfaz con el sistema de comprensión.9.6: Adquisición de un corpus de diálogos persona-máquina. Actividad 2.3: Desarrollo de una plataforma para adquisición de corpus de diálogos Actividad 1. UZ) (UPC-I. Actividad 3. UZ Actividad 3. UPV) (UPC-I) Actividad 1.

Interpretación semántica.3: Integración del prototipo EHU. 83&7 8-. Actividad 4.3: Modelado y gestión de la historia del diálogo.7: Evaluación 0Ï'8/2  '(6$552//2 '(/ &21752/$'25 '( '.2: Definición de la representación semántica. UZ UPC-T.2: Integración de procedimientos y modelos Actividad 7.6: Incorporación del conocimiento contextual del controlador de diálogo UPC-I. UPC-T. Actividad 6.1: Métodos para la extracción de la estructura del diálogo . UPC-T.3: Control del texto. UPC-I.1: Definición de la representación sintáctica. 0Ï'8/2  .UPV UJI. UPV. Actividad 5. UPV UPV UPV . Actividad 5.67(0$ '( &2035(16. UPV Actividad 4. UPV UJI. UPC-I. Actividad 5.0Ï'8/2  '(6$552//2 '(/ 6. 83&7 8-. UPV UJI.2: Diseño de la estrategia del diálogo. Actividad 5. UZ UPC UPC UJI.6: Evaluación 0Ï'8/2  *(1(5$&.3: Desarrollos de modelos prosódicos específicos para tareas de diálogo. UPC-T.Ï1 '(/ 6.Ï1 '(/ +$%/$ &RRUGLQDGRU GHO PyGXOR 839 3DUWLFLSDQ 83&. UPV UPC-I UPC-I.1: Arquitectura del sistema global Actividad 7.4: Estudio de métodos segmentales de alta calidad.17(*5$&. UPV. UPV UJI. Actividad 4. Actividad 4. Actividad 5.5: Desarrollo del sistema de comprensión. 83&7 839 Actividad 7. UPC-I.UPV UJI. UPC-I.È/2*2 &RRUGLQDGRU GHO PyGXOR 8= 3DUWLFLSDQ (+8 83&.67(0$ '( '.2: Estudio y estimación de modelos prosódicos basados en la sintaxis aplicados a la síntesis de voz UPC Actividad 6.4: Generación de requerimientos a la base de datos.4: Desarrollo del técnicas de análisis parciales. Actividad 4. Actividad 5.UPC-I. UZ EHU. UPV UJI.Ï1 '( /$ 5(638(67$ 25$/ &RRUGLQDGRU GHO PyGXOR 83& Actividad 6. UPC-T UPC-I.5: Generación de respuesta al usuario.È/2*2 &RRUGLQDGRU GHO PyGXOR 839 3DUWLFLSDQ 83&. UPC-I.1: Diseño y construcción del módulo generador de frases UPC Actividad 6. UPC-T. Actividad 4. Actividad 4.

UPV UJI. UZ UPC-I. UPC-T. UPC-T UPC-I. UZ UPC-I. UPC-T. UPV EHU. UPV UJI. UPCT. UPC-I. UZ UPC-T. UPC-I. UPV UPV UPV UJI. UPV. UJI EHU EHU. UZ UPC-T. UJI. UPV UJI. UPC-T. UPV. UJI.'$'(6 0 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ $xR  $xR  $xR  &(1752 EHU. UPC-T. UPC-I. UPC-I. UZ EHU. UPV UJI. UPC-I. UZ EHU. UPV EHU. UZ . UZ EHU. UPV UPC-T UPC-T UPC-T UPC-T EHU. UZ EHU. UPV. UPC-T.'. UPV UPC-T EHU. UJI. UPC-I.9.$*5$0$ *(1(5$/ '( 7. UPC-I. UPC-I. UPC-T. UPV UJI.(0326 $&7. UPCT. UJI. UPV. UPV UPC-I UZ UPC-T UPC-T UPC-T. UPV UPC-I UPC-I. UPC-I. UZ UPC-I. UPV UJI. UPV. UJI EHU. UPC-I.

con las particularidades propias que este tipo de comunicación presenta: necesidad de verificación. para facilitar la coordinación de las distintas tareas. zonas de acceso común para el intercambio de datos y de procedimientos. En la coordinación técnica participan. Al inicio del proyecto.'$'(6 '(/ 352<(&72 0Ï'8/2  *(67.&. con periodicidad semestral. Siguiendo con la metodología establecida en proyectos anteriores. En este proyecto no quiere desarrollar un servicio comercial sino investigar técnicas y adquirir el conocimiento necesario para poder desarrollar una tecnología que permita afrontar la utilización de tareas de diálogo en aplicaciones diversas. una tarea no despreciable es la coordinación de las actividades. en soporte CD-ROM. Se establecerán de este modo los grupos de trabajo que utilizarán en su actividad habitual reflectores de correo electrónico como medio de comunicación. en mayor o menor grado.3&. A partir del acta de la reunión se elaborará un informe que será enviado a aquellos EPOs que no hayan asistido a la reunión con objeto de que puedan realizar un seguimiento del estado del proyecto. Se pretenden adquirir diálogos bajo dos modalidades: persona-persona.9. conteniendo un corpus anotado de diálogos en castellano para una tarea en un dominio restringido.Ï1 '(7$//$'$ '( 0Ï'8/26 < $&7.1$&. • Se darán de alta en las máquinas de cada uno de los grupos participantes. A dicha reunión serán invitados los EPOs que han mostrado interés por el proyecto. Como resultado de este módulo se producirá una base de datos oral. • La coordinación habitual se articulará a nivel de proyecto por medio de los investigadores principales de los subproyectos. y un segundo corpus de diálogos persona-máquina (bien mediante la utilización de un prototipo. dichas reuniones contendrán una parte general donde se revisará el estado de las actividades y se tomarán decisiones que afecten a la marcha general de proyecto.. • Un objetivo concreto de la coordinación es el de desarrollar un prototipo conjunto. el investigador que asuma la tarea de coordinación establecerá un método de trabajo con los distintos investigadores que participan en el módulo.È/2*26 En este módulo se definirá la plataforma y el procedimiento para la adquisición.'(6&5.6. Esto permitirá continuar la investigación básica durante prácticamente toda la vida útil del proyecto y poder incorporar sin dificultad. todos los participantes del proyecto. $FWLYLGDG  (OHFFLyQ GH OD WDUHD Un aspecto que puede condicionar enormemente la tecnología que se desarrolle en la vida del proyecto es la elección de la tarea. La tarea se ha de elegir lo suficientemente .Ï1 < &225'. etc. Las tareas de gestión serán realizadas fundamentalmente por el investigador principal del proyecto y por los investigadores principales de cada uno de los subproyectos. en el sistema de diálogo. errores del reconocimiento.Ï1 '( &25325$ '( '. etc.Ï1 '( /$ 7$5($ < $'48. las mejoras significativas que se produzcan. indecisión por parte del usuario. que permite conocer las expectativas que los usuarios tienen del servicio y una primera aproximación al léxico y estructuras linguísticas.Ï1 '(/ 352<(&72 En un proyecto de esta envergadura y con tan alto grado de interdependencia. bien mediante la técnica conocida como 0DJR GH 2]) que permita modelar el modo de iteracción entre una persona y una máquina. 0Ï'8/2  (/(&&. se ha asignado ya en la propuesta la coordinación de cada módulo a uno de los grupos participantes. La coordinación se regirá por las siguientes líneas de actuación: • Reuniones periódicas entre los participantes. etiquetado y análisis de un corpus oral de diálogo que contemple los fenómenos del habla espontánea. Se prevé que en el segundo semestre del segundo año estén definidos. los interfaces de comunicación entre todos los módulos que interactúan en el prototipo. En los mismos encuentros se celebrarán reuniones entre algunos de los grupos participantes para coordinar las actividades entre módulos o dentro del mismo módulo. Además.

puntos de información sobre una ciudad o institución. La plataforma de la que se parte utiliza línea RDSI. solapes.3. por tener un vocabulario más limitado e invariante. Se dispone de una plataforma que permite adquirir señales de corpus leídos en un protocolo rígido entre el sistema de adquisición y el informante. etc. servicios WHOHEDQFR. etc. es posible adquirir un primer corpus de partida grabando directamente diálogos persona-persona en un entorno real de funcionamiento. $FWLYLGDG  'HILQLFLyQ GHO PpWRGR GH HWLTXHWDGR GHO FRUSXV En esta tarea se estudiarán las opciones para etiquetar corpus de diálogo tanto persona-persona como persona-máquina. lo que presenta una dificultad para sincronizar ambos canales de comunicación. valoración por parte de los expertos de que las distintas intervenciones se produjeran en diálogos persona-máquina. Un punto de referencia son las recomendaciones que realiza ($*/(6 (([SHUW $GYLVRU\ *URXS RQ /DQJXDJH (QJLQHHULQJ 6WDQGDUV) sobre el etiquetado de corpus orales así como los criterios utilizados en proyectos como ATIS. para el caso de tratar con habla espontánea. creemos que es preferible afrontar tareas relativamente sencillas. información sobre valores en bolsa. $FWLYLGDG  $GTXLVLFLyQ GH XQ FRUSXV GH GLiORJRV SHUVRQDPiTXLQD Esta actividad es análoga a la 1.4 pero para diálogos persona-máquina. y la consulta a entidades que puedan colaborar en la adquisición de los diálogos. La plataforma de adquisición será además la base para incorporar el prototipo sobre línea telefónica. información que requiere. Al existir el servicio posibilita disponer de diálogos naturales. etc. Dado que no se . sean persona-persona o persona-máquina. $FWLYLGDG  $GTXLVLFLyQ GH XQ FRUSXV GH GLiORJRV SHUVRQDSHUVRQD La adquisición del primer corpus de diálogo persona-persona consta de la adquisición de las señales de voz propiamente dicha así como de su transcripción ortográfica (incorporando anotaciones propias del habla espontánea). En este sentido se prefiere consultas sobre transportes a compra de entradas a espectáculos. La intención del consorcio es que se corresponda a un servicio existente que exija interacción entre el agente y el usuario. personal del grupo de trabajo que no haya participado en el proyecto ni conozca la tecnología. $FWLYLGDG  'HVDUUROOR GH XQD SODWDIRUPD SDUD DGTXLVLFLyQ GH FRUSXV GH GLiORJRV En esta actividad se desarrollará una plataforma de adquisición de corpus de diálogos sobre línea telefónica. tal y como se está realizando en muchos proyectos europeos. Con objeto de simplificar en el primer trabajo que sobre diálogo de habla espontánea realizan los participantes.3 y la actividad 7. ha de ser lo suficientemente compleja como para que sea representativa de los fenómenos que ocurren en un sistema de diálogo. Se establecerá además una clasificación de los diálogos atendiendo a diversos criterios: tipo de intervención. Además la adquisición ha de realizarse simultáneamente para representar interrupciones. En la adquisición de diálogos persona-máquina se aconseja adquirir diálogos de usuarios de distinta procedencia: participantes del desarrollo del sistema. Para el corpus de diálogo es necesario adquirir las señales de ambos interlocutores. etc. Por otra parte. $FWLYLGDG  $QiOLVLV \ FODVLILFDFLyQ GHO FRUSXV SHUVRQDSHUVRQD A partir de las transcripciones del corpus persona-persona se analizarán los distintos fenómenos que ocurren en un diálogo. etc. análogamente. Las aplicaciones de más interés son las de consulta de información y/o transacción: información de abonados telefónicos. IBERIA o cualquier otra entidad). No se ha creado una tarea específica para la plataforma que sería desarrollada entre la actividad 1. teatro u otros espectáculos (VHUYLFLR WHOHHQWUDGDV ofrecido por ejemplo por La Caixa de Catalunya). realizados por usuarios familiarizados con el servicio. Por otra parte. o en general. En esta tarea se evaluará la conveniencia de adaptar dicha plataforma o bien de transportarla a una plataforma que soporte línea analógica convencional.restringida como para que pueda ser abordada con el estado del arte actual de los sistemas de reconocimiento y comprensión. se preferiría a información sobre una ciudad por ser su semántica más restringida y por tratarse de interfaces monomodales. horarios de transportes (información RENFE. La determinación de la tarea se realizara mediante el estudio bibliográfico de los sistemas que se están desarrollando en Europa. y finalmente usuarios reales. compra de entradas al cine.

junto con la anterior. y se investigarán nuevas soluciones basadas en estructuras IIR e híbridas FIR/IIR. En este mismo sentido han actuado varios prototipos en los proyectos Europeos de información de trenes. por ejemplo. de las capacidad de la base de datos. $FWLYLGDG  0RGHODGR UREXVWR GH OD VHxDO GH YR] Las señales de prueba correspondientes a diálogos serán captadas en ambientes reales a través de línea telefónica. que limitan las consultas. Este simulador permitirá hacer una preselección bastante fiable del esquema. Para ello. permanece activa todo el proyecto. Orientado a terminales manos libres o a entornos tipo vestíbulo. Para conseguir un acercamiento a las condiciones de prueba. Se utilizará el CAR para la creación de una burbuja de silencio alrededor del micrófono mediante técnicas de control local. Aquí se trata fundamentalmente temas de robustez ligados al modelado de la señal y el interfaz con el sistema de comprensión. se diseñarán unos escenarios que han de utilizar los informantes que informan. Se abordarán los problemas relativos a las perturbaciones de tipo aditivo (ruido ambiental) y convolutivo (efecto del canal). el módulo 3. Por una parte. La prueba y evaluación de los mismos se realizará con las señales reales previamente adquiriridas.5 pero para diálogos persona-máquina. léxicos y del lenguaje que se utilizan en este módulo de reconocimiento del habla serán desarrollados en un módulo específico. se partirá de los esquemas de cancelación desarrollados en el proyecto TEMA del PLANBA.0. Los parámetros pueden ser determinados y procesados en el espacio conjunto tiempo-frecuencia con el fin aumentar su robustez a ambos tipos de perturbaciones. estudiándose distintas configuración de la agrupación y técnicas de conformación de haz. los modelos acústicos. Dependiendo del tamaño de la tarea se restringirá el tamaño de la base de datos ya que no es el objetivo de este proyecto. recogidas a través de micrófono en ambientes favorables (como $OED\]tQ). consistentes en estructuras FIR en el dominio transformado. Por otra parte. Se programarán varios esquemas de CAR usando diferentes tipos de algoritmos a fin de disponer de un simulador del escenario real lo más fiel posible. a trenes de alta velocidad. $FWLYLGDG  $QiOLVLV \ FODVLILFDFLyQ GHO FRUSXV SHUVRQDPiTXLQD Esta tarea es análoga a la 1. las señales serán contaminadas con ruido ambiental y pasadas por línea telefónica. se trabajará en el control activo de ruido (CAR) y en la utilización de agrupaciones de micrófonos. se desarrollará un sistema de adquisición a través de una agrupación de micrófonos. $FWLYLGDG  'HVDUUROOR GH OD EDVH GH GDWRV GH OD WDUHD Con objeto de disponer de un prototipo es preciso desarrollar una base de datos y los interfaces a la base de datos.(172 '(/ +$%/$ En este módulo se estudiarán los aspectos del sistema de reconocimiento que son propios del sistema de diálogo que se desea desarrollar y que no han sido tratado en los prototipos de sistemas de reconocimiento del habla desarrollados en los sistemas actuales. permitiendo a partir de este conocimiento el seguimiento para movimientos alrededor de esta posición. el corpus puede ser adquirido de forma incremental utilizando el prototipo en distintas etapas del proyecto. fundamental para permitir la interrupción del sistema mientras genera una respuesta. 0Ï'8/2  6.67(0$ '( 5(&212&. las últimas adquisiciones serán utilizadas como evaluación del sistema. Los escenarios se presentarán de forma iconográfica para evitar condicionamientos en la utilización del léxico y de las estructuras del lenguaje. tanto en el dominio de los parámetros que representan la señal de voz como en el de los modelos acústicos. algoritmos y ubicación más adecuada de los actuadores.pretende desarrolla un sistema que de respuesta a un servicio (como consulta a horarios de trenes) sino un prototipo. Dada la importancia que ejerce el habla espontánea en los modelos de las distintas áreas cognitivas. El aprendizaje se llevará a cabo con bases de datos ya existentes. Esta tarea. Finalmente. por ejemplo. $FWLYLGDG  &DQFHODFLyQ GH UXLGR DFWLYR \ FDPLQR GH UHWRUQR DUUD\V GH PLFURIRQRV Inicialmente se trabajará en la cancelación de eco acústico. Trabajaremos sobre la restricción de partida de que la posición del usuario es conocida. .

y emplearlas como base para rechazar o validar dichos resultados. alteraciones de la . se pretende desarrollar una técnica de compensación de modelos que aborde el tratamiento conjunto del ruido aditivo (ruido ambiental) y convolutivo (efecto del canal). medidas de confianza sobre las palabras reconocidas (actividad 2.3.4) que pueden ser desambiguadas por un módulo superior (con o sin realimentación al sistema de reconocimiento).$'26 $/ +$%/$ (63217È1($ $FWLYLGDG  (VWXGLR GH ODV GLVIOXHQFLDV DF~VWLFDV \ VLQWiFWLFDV HQ KDEOD HVSRQWiQHD Se realizará un estudio exhaustivo de las disfluencias del corpus de diálogos persona-persona fundamentalmente. así como la utilización de la medida de confianza acústica en la reestimación del modelo del lenguaje A partir de este PpWRGR EDVH. Además se quiere investigar la la correlación entre la entonación y las distintas disfluencias de habla espontánea con objeto de poder utilizar la información tanto en el modelado del lenguaje (y por tanto en la descodificación acústico-léxica) como en la comprensión. $FWLYLGDG  5HFRQRFLPLHQWR GH OD HQWRQDFLyQ FRPR JXtD GHO GLVFXUVR En el tratamiento del lenguaje natural escrito ejerce una importancia enorme la presencia de signos de puntuación. En lo que a la información ilocutiva se refiere.QWHUID] FRQ HO VLVWHPD GH FRPSUHQVLyQ El interfaz entre el sistema de reconocimiento y el de comprensión es fundamental en un interfaz de persona hacia máquina. las técnicas de verificación ya desarrolladas en el anterior proyecto CICYT TIC95-0884-C04-04 basadas en el ratio de probabilidades. $FWLYLGDG  . Inicialmente se incorporará sobre la arquitectura de reconocimiento. el interfaz podrá contener indicadores que permitan realizar hipótesis sobre la información ilocutiva de las elocuciones. También se contempla la posibilidad de enriquecer la representación mediante la identificación de palabras externas al vocabulario (actividad 3. Dicho método ha de ser computacionalmente asequible y no debe hacer uso de información a priori. repeticiones. utilizar las medidas de confianza para reestimar el modelo del lenguaje y su ponderación frente al modelo acústico en el proceso de decodificación.Con un planteamiento multibanda pretendemos obtener una mayor flexibilidad en el uso de la representación por parte de los modelos de Markov ocultos. 0Ï'8/2  02'(/$'2 '( /26 )(1Ï0(126 $62&. n-mejores y grafo de palabras. Se estudiará la mejor forma de clasificación para su posterior etiquetado y modelado. En función de su importancia y frecuencia de aparición se propondrá una nueva clasificación que incluya la omisión de fonemas y palabras. Para ello se estudiarán métodos de análisis de la entonación basados en la identificación de rasgos relevantes de las curvas de contornos de F0 que permitan categorizar comportamientos del SLWFK y se analizará la correlación de dicho observable con la información. Dependiendo de los resultados que se obtengan en la actividad 2. aunque sus conclusiones se revisarán tras la adquisición del corpus de diálogo persona-máquina. Se estudiará la incorporación de la información del modelo de lenguaje en el cálculo de la medida de confianza.3). en esta propia tarea se aplicarán métodos de clasificación. coletillas y alteraciones del léxico y de la sintaxis. En principio se propone una clasificación grosera en eventos ajenos al léxico.4) e información prosódica (actividad 2. $FWLYLGDG  9HULILFDFLyQ GHO UHFRQRFLPLHQWR Este trabajo de investigación tiene como objetivo establecer a las medidas de confianza como un medio viable de manejar la incertidumbre contenida en los resultados del reconocimiento en diversos entornos y aplicaciones. En esta tarea se realizará un estudio comparativo de las distintas opciones contempladas en los sistemas de diálogo: mejor descodificación. Por otro lado. En esta actividad se investigará las prestaciones de un sistema de reconocimiento automático del modo ilocutivo de la intervención. Se pretende así mismo. pues no se dispone de ella en condiciones reales. que sea tan independiente del ámbito de aplicación como sea posible y que sirva como base de un sistema de verificación automática del reconocimiento. se propone desarrollar un etiquetador de la fiabilidad del reconocimiento a través de medidas de confianza que consideren múltiples características del proceso reconocedor de habla.

como nuevas categorías. También se ampliará el conjunto actual de unidades incontextuales incluyendo nuevos símbolos. que caracterizan los fenómenos acústicos más frecuentes. ya contrastadas en trabajos anteriores. El estudio y desarrollo de esta aproximación se realizará de forma coordinada con el desarrollo del modelo semántico del módulo 4. El objetivo es obtener modelos especialmente robustos de palabras de uso frecuente. De este modo se informará al sistema de diálogo de la existencia de un evento sonoro no contemplado en el vocabulario. En ésta. Si bien la palabra es la unidad natural de los modelos de lenguaje sintácticos. se estudiará la definición de clases gramaticales susceptibles de aceptar nuevas palabras (clases gramaticales abiertas). la utilización de grafos de palabras para recoger diferencias de pronunciaciones debidas a la diversidad de estilos y velocidad de elocución de los locutores (no se pretenden incluir variedades dialectales). nombres propios y palabras cortas. posición de la disfluencia en el diálogo.8. unido a técnicas de desambiguación sintáctica y semántica. En este segundo caso el léxico incluirá la transcripción de algunas disfluencias. mucho más frecuentes en habla espontánea que en habla leída. Para el tratamiento del habla espontánea se propone aumentar la ventana de análisis. permitirá estudiar técnicas de incorporación de la nueva palabra al vocabulario de la clase gramatical. También se propone. su posible desarrollo queda condicionado a la composición final de los corpora a adquirir. no tiene sentido como evento acústico. aumentando la talla del vocabulario. bien obtener modelos específicos para ellos. Obviar este hecho es aún más grave cuando se trabaja con habla espontánea. como en el resto de las actividades del módulo.velocidad de elocución.1. El objetivo es incluir efectos de coarticulación menos locales. de acuerdo con las conclusiones de la actividad 3. Esta actividad se realizará de forma coordinada con las actividades 1. y.4. A nivel de lenguaje. $FWLYLGDG  7UDWDPLHQWR GH SDODEUDV H[WHUQDV DO YRFDEXODULR \ HYHQWRV QR Op[LFRV A nivel acústico. por tanto. Las unidades contextuales disponibles han sido obtenidas mediante árboles de decisión. Por lo tanto se prestará especial atención a los efectos coarticulatorios entre palabras. ya que sería necesario un corpus amplio compuesto de transcripciones diálogos convenientemente etiquetadas. . La detección de nuevas palabras sobre una clase gramatical abierta. partiendo de los resultados obtenidos por las técnicas de verificación del reconocimiento desarrolladas en la actividad 2. $FWLYLGDG  0RGHODGR DF~VWLFR \ Op[LFR GH KDEOD HVSRQWiQHD En esta actividad se abordará el modelado de los eventos no léxicos que aparecen en habla espontánea. convenientemente clasificadas. contemplando un número mayor que uno de contextos izquierda y derecha en el desarrollo de los árboles (polífonos). se estudiará la forma de adaptar el sistema de verificación para detectar la presencia de palabras y eventos no léxicos no contemplados en el vocabulario del sistema.6 y 1. Un enfoque alternativo es la consideración de las disfluencias como generadas por un modelo oculto específico a estimar.2. Se ampliará la complejidad de los modelos acústicos (HMM) aumentando el número de parámetros a estimar y. Si bien no se descarta este enfoque. incluyendo modelos específicos. El punto de partida son las metodologías disponibles. etc. $FWLYLGDG  0RGHODGR GHO OHQJXDMH HQ KDEOD HVSRQWiQHD En esta tarea se utilizarán modelos K-explorables suavizados que se entrenarán a partir de un corpus amplio de texto. 1. filtrar los eventos ajenos al léxico. quizás. se ha tratado de evitar el uso de metodologías que requieran grandes corpora de entrenamiento específico. Se propone su interpolación con modelos entrenados con un conjunto reducido de transcripciones de los diálogos adquiridos. en función de la composición del corpus a adquirir. Esta aproximación supone la asunción de las disfluencias como elementos del modelo de lenguaje. Esta valoración se realizará de forma conjunta con el diseño del modelo de lenguaje. Alternativamente se puede considerar un segundo modelo basado en categorías de palabras dónde las disfluencias son consideradas. modelos. subconjuntos de eventos ajenos al léxico. También se incluirá un modelo fonológico que ayude a limpiar las descodificaciones sub-léxicas. Finalmente se valorará la posibilidad de bien. incluyendo modelos dependientes del género o estilo del locutor.

se profundizará en la definición de una medida de dificultad de tarea que contemple los diversos parámetros que conforman un sistema de reconocimiento. 0Ï'8/2  6. es necesario desarrollar nuevas medidas de dificultad que permitan evaluar de forma mas realista las contribuciones del modelado acústico y de lenguaje. Word Sense Disambiguation) . La perplejidad es utilizada para medir la efectividad del modelo de lenguaje.Ï1 El objetivo de este módulo es el desarrollo del sistema que obtiene la interpretación semántica de la entrada para pasársela al controlador de diálogo. palabras desconocidas o no pertenecientes al dominio. En el proyecto TIC95-0884C04-04 se estudio la utilización de una nueva medida que combina la información acústica y de lenguaje. El sistema de comprensión deberá saber manejar dicha entrada y evaluar entre las distintas opciones aquella más ventajosa. el tratamiento de unidades léxicas no estándar (como locuciones. se diseñará una determinada representación semántica. $FWLYLGDG  'HILQLFLyQ GH OD UHSUHVHQWDFLyQ VLQWiFWLFD Un paso previo -pero imprescindible. Además.$FWLYLGDG  0HWRGRORJtD GH HYDOXDFLyQ GHO PRGHODGR DF~VWLFROp[LFR \ GHO PRGHODGR GHO OHQJXDMH HQ KDEOD HVSRQWiQHD En esta actividad se evaluarán las diferentes aportaciones de los modelos acústicos. léxicos y sintácticos a las prestaciones del reconocedor. En muchas ocasiones es interesante poder predecir las prestaciones de un sistema de reconocimiento sobre un texto arbitrario sin necesidad de tener muestras de voz. bien errores cometidos por el reconocedor. así como la forma de expresar estas relaciones. etc. la asignación de información (p. etc…) y la desambiguación gramatical (pos tagging) y semántica (WSD. diccionarios. Por otra parte. etiquetado morfosintáctico o semántico) procedente de fuentes diversas (lexicones. como la salida del reconocedor puede contener errores gramaticales. formas lógicas. así como la posibilidad de establecer medidas de confianza tanto para los modelos acústicos como de lenguaje en función de las probabilidades y de la perplejidad local. El sistema reconocedor proporcionará a este módulo una entrada de las establecidas en la actividad 2. $FWLYLGDG  'HILQLFLyQ GH OD UHSUHVHQWDFLyQ VHPiQWLFD Tras un estudio de las posibilidades en la representación semántica del mensaje en este tipo de diálogos (“FDVHIUDPHV”. la detección de las fronteras entre oraciones o la utilización de modelos del lenguaje para seleccionar la hipótesis más plausible de entre las proporcionadas por el módulo 2). $FWLYLGDG  &RQWURO GHO WH[WR El control del texto incluye procesos como la fragmentación (p. y las relaciones sintácticas a utilizar.67(0$ '( &2035(16. lenguajes semánticos específicos para la tarea.ej. Dentro de esta actividad.a la compresión de las intervenciones del interlocutor humano es el control del texto a tratar. que se asociarán a las unidades. interpretaciones parciales de la entrada. y por tanto.ej. Se estudiará la incorporación de la información de verificación del reconocimiento en el cálculo de la dificultad de la tarea. se propondrá una metodología para la reestimación del modelo de lenguaje a partir de la minimización de la medida de dificultad de la tarea. Se realizará un estudio de las fuentes de error cuyo objetivo es la ponderación adecuada de todas las fuentes de conocimiento. Así pues. no se puede afirmar que una disminución en la perplejidad resulta necesariamente en una mejora en el sistema de reconocimiento. pero como no utiliza información acústica. tanto léxicas como de más amplia cobertura.). el módulo de comprensión debe incorporar la posibilidad de hacer análisis parciales de la entrada. bases de datos terminológicas.5. etc.…). mostrando una buena correlación entre la medida y las tasas de error del sistema. que deben incluir información morfosintáctica y semántica. bien por estar contenidos en la entrada al sistema (habla espontánea). Para ello se han de definir las etiquetas.

y técnicas para la recuperación de la interpretación semántica a partir de estos análisis parciales. 0Ï'8/2  '(6$552//2 '(/ &21752/$'25 '( '. que obtiene la información de la base de datos requerida por el usuario. de entre el conjunto de acciones de diálogo. tablas o gráficos. Se implementarán algoritmos de análisis parcial. Podemos también considerar que estas secuencias vienen producidas por la existencia de una estructura de diálogo. Es por ello que se hace necesaria la incorporación del conocimiento pragmático recogido por el módulo de diálogo a los módulos de reconocimiento y de comprensión. y se diseñará la estrategia que seguirá el controlador. Para ello se identificará el conjunto de acciones de diálogo. una máquina de estados finitos. La estrategia de diálogo deberá. activando para ello al generador de respuestas. $FWLYLGDG  0pWRGRV SDUD OD H[WUDFFLyQ GH OD HVWUXFWXUD GHO GLiORJR En esta tarea se desarrollarán técnicas de aprendizaje automático para la obtención de la estructura del diálogo. podemos considerar que un diálogo es una secuencia de unidades de diálogo (VSHHFK DFWV) como inicio de diálogo. $FWLYLGDG  (YDOXDFLyQ Se realizará la evaluación de las partes del sistema desarrolladas en este módulo. Se aplicarán para el etiquetado de nuevos diálogos en unidades de diálogo. que el objetivo final se consigue tras varias interacciones con el usuario (turnos de diálogo). Este conocimiento pragmático vendrá dado por el estado de diálogo.È/2*2 El objetivo de este módulo es el desarrollo del controlador de diálogo. respuesta del sistema pidiendo aclaraciones. se diseñará la representación de la historia del diálogo. respuesta del sistema pidiendo información. Por otra parte. y se desarrollarán las técnicas para su mantenimiento. $FWLYLGDG  . y a partir de la historia del diálogo actual. bien en forma de texto. Es por todo esto. esa información puede contener ambigüedades o errores debidos al proceso de reconocimiento o comprensión. tomar decisiones acerca de qué acción. llevar a cabo. En esta tarea se desarrollarán las técnicas para la incorporación de este conocimiento.. Dicha estructura de diálogo puede ser utilizada como un modelo de predicción para mejorar las prestaciones del sistema reconocedor o/y de comprensión. por ejemplo. $FWLYLGDGHV  \  'LVHxR GH OD HVWUDWHJLD GHO GLiORJR 0RGHODGR \ JHVWLyQ GH OD KLVWRULD GHO GLiORJR Se diseñará la estrategia general del controlador de diálogo. etc. Normalmente la información proporcionada por el usuario en un único turno de diálogo no es suficiente para la construcción del requerimiento completo a la base de datos.$FWLYLGDGHV  \  'HVDUUROOR GH WpFQLFDV GH DQiOLVLV SDUFLDOHV 6LVWHPD GH FRPSUHQVLyQ . la previsión acerca de la unidad de diálogo esperada. Por otra parte. se diseñará la estructura de los estados de diálogo.QWHUSUHWDFLyQ VHPiQWLFD Se desarrollarán los algoritmos para la obtención de la interpretación semántica en base a la representación semántica escogida en la tarea anterior. el controlador de diálogo debe preguntar al usuario las aclaraciones necesarias. En los casos en que la información de la frase de entrada sea insuficiente o ambigua.QFRUSRUDFLyQ GHO FRQRFLPLHQWR FRQWH[WXDO GHO FRQWURODGRU GH GLiORJR El hecho de que la entrada al sistema sea de habla espontánea y en lenguaje natural hace que el proceso de reconocimiento y el de interpretación semántica sean bastante complejos. a partir de la actualización del estado de diálogo llevada a cabo tras la interpretación semántica. etc. Por otra parte. y se utilizarán como modelo de predicción para mejorar las prestaciones del reconocedor y del sistema de comprensión. . y se utilizará para acotar el espacio de búsqueda tanto en la fase de reconocimiento como en la de comprensión. que puede ser representada por un modelo formal. pregunta específica.

$FWLYLGDG  (VWXGLR GH PpWRGRV VHJPHQWDOHV GH DOWD FDOLGDG Para obtener una respuesta de calidad es fundamental dedicar esfuerzos a mejorar la prosodia.Ï1 '( /$ 5(638(67$ 25$/ $FWLYLGDG  'LVHxR \ FRQVWUXFFLyQ GHO PyGXOR JHQHUDGRU GH IUDVHV En esta actividad se desarrollará un sistema que transforme una representación semántica de la intervención que debe realizar el sistema en una frase en lenguaje natural en un lenguaje que permita incluir anotaciones que permitan adecuar la prosodia. El desarrollo de este traductor es el objetivo de la tarea 4. y obtenga la respuesta de la base de datos. que entre los mencionados es el que ofrece mejor calidad. los modelos que se pretenden conseguir. Cuando el controlador considera que la información obtenida hasta el momento no es suficiente. las diferentes partes desarrolladas en el módulo de diálogo deben ser evaluadas. así como la delimitación de grupos segmentales en oraciones largas. se ha de desarrollar un generador de respuestas al usuario. LPC) no son capaces de ofrecer. Cuando el controlador de diálogo considera que el requerimiento a la base de datos está completo. debe pedir más información al usuario. $FWLYLGDG  (VWXGLR \ HVWLPDFLyQ GH PRGHORV SURVyGLFRV EDVDGRV HQ OD VLQWD[LV DSOLFDGRV D OD VtQWHVLV GH YR] En esta actividad se estudiarán modelos de predicción de la curva de entonación y de la duración. pueden requerir un control de los parámetros entonativos que los métodos que dispone el grupo investigador (TD-PSOLA. cuando considera que la información es ambigua debe pedir aclaraciones al usuario. al tratarse de tareas específicas. utilizando información de tipo sintáctico.67(0$ '( '. siendo costoso la adaptación del sistema a nuevos locutores. Se prevé estimar los parámetros de dichos modelos a partir de corpus anotados prosódicamente.È/2*2 En este modulo se quiere confluir la coordinación de todos los grupos participantes en el desarrollo de un prototipo demostrativo de la tecnología desarrollada durante el proyecto. tal y como STML.Ï1 '(/ 6. Sin embargo. Este es el objetivo de la tarea 5. Para tratar estos casos. 0Ï'8/2  . el método TDPSOLA. exige una marcación cuidadosa de los instantes de cierre glotal. . $FWLYLGDG  (YDOXDFLyQ De igual forma que en el sistema de comprensión. pero poniendo especial énfasis en la parte de verificación del estado del controlador del diálogo y en el control de la historia para evitar intervenciones repetitivas. debe llamar a un traductor que traduzca la interpretación semántica recogida en el estado de diálogo en el requerimiento correspondiente en un lenguaje formal. $FWLYLGDG  'HVDUUROORV GH PRGHORV SURVyGLFRV HVSHFtILFRV SDUD WDUHDV GH GLiORJR El hecho de que en tareas de diálogo el mensaje sea generado por el propio sistema facilita el conocimiento de qué palabras son el foco o aportan nueva información. Además. 0Ï'8/2  *(1(5$&. Para el tipo de tareas que se contemplan se pretende diseñar este módulo en base a una serie de patrones. En esta tarea se estudiarán alternativas al TD-PSOLA que permitan un control fino de los parámetros prosódicos sin menguar la calidad segmental. y así se ha considerado en este módulo.$FWLYLGDGHV  \  *HQHUDFLyQ GH UHTXHULPLHQWRV D OD EDVH GH GDWRV \ GH OD UHVSXHVWD DO XVXDULR El conjunto de acciones de diálogo contiene algunas que suponen la llamada a otros módulos o submódulos. En esta tarea se pretenden estudiar modelos prosódicos que utilicen dicha información para modelar la entonación y la velocidad de articulación de forma que atraiga la atención del oyente a las partes del mensaje que le son de mayor utilidad o interés.17(*5$&.

se procederá a la estandarización de las funciones y modelos desarrollados para la posterior integración del prototipo. $FWLYLGDG  . los interfaces entre el sistema de reconocimiento y los modelos acústicos y del lenguaje.$FWLYLGDG  $UTXLWHFWXUD GHO VLVWHPD JOREDO En esta tarea se establecerá una arquitectura básica del sistema que permita generar una norma o protocolos para la comunicación de los distintos módulos que compongan el sistema de diálogo. o entre el mismo sistema de reconocimiento y el sistema de comprensión. por lo que los procedimientos que participan en la generación de la respuesta oral han permitir ser interrumpidos bajo petición del controlador del diálogo. $FWLYLGDG  . Al final del proyecto. etc. por lo que cada módulo ha de avanzar el resultado de su gestión sin esperar al final de la elocución. por ejemplo. En esta tarea se desarrollarán. . La arquitectura definida ha de ser tal que permita obtener tiempos de respuestas aceptables.QWHJUDFLyQ GH SURFHGLPLHQWRV \ PRGHORV Una vez definidos los protocolos de comunicación entre módulos del sistema de diálogo. se pretende disponer de un demostrador del sistema de diálogo tanto para entornos de tipo YHVWtEXOR como accesible mediante acceso telefónico.QWHJUDFLyQ GHO SURWRWLSR En esta actividad se centran los esfuerzos para realizar la integración de distintas versiones del prototipo del sistema de diálogo. La primera versión del prototipo se utilizará como soporte en la adquisición del corpus persona-máquina (actividad 1. Cómo el sistema ha de poder ser interrumpido. Utilizando el conocimiento adquirido con el segundo corpus se desarrollará un segundo prototipo que recogerá los avances producidos a lo largo del proyecto de investigación.6).

Torres &RQWUDWDGR N. Masgrau J.5(/$&. Mariño G.I.I.I. Pietro &RQWUDWDGR F. Alcaide L.J. Castell M. Rodríguez M. Torres M. Alcaide G. Rodríguez M.J. Bonafonte E. Bonafonte E.Hernando &RQWUDWDGR 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ J. Bernues E. Galiano N. Farreres J.J. Castell M.M. de Ipiña L.C. Hernandez J. 72'26 N.A. Bernues &RQWUDWDGR M. Galiano N. Bordel M.3$17(6 325 $&7. Pachés A.I.J. Lleida J. Lleida E. Amengual E. Varona G.&. Nadeu 839 8= 72'26 72'26 F. Bordel M. Alcaide 0$ G. Monte G. Castell A. Gatius A. Torres K. Fernández N. Torres 8-. Torres A. Castellanos N. Amengual J. Torres 0$ J.B.I. Sanchis E. Masgrau 0$ E. Alvarez A. Segarra J. Segarra M. Nadeu P.M. Bordel A. L. Aibar 83&.B. Amengual E.C. Monte M. Bordel L. Vicente &RQWUDWDGR J. Martí H. Varona G. Hernando &RQWUDWDGR E. Segarra A.I.C. Hernandez G. Pietro E. Hernandez 0$ 0$ 0$ 0$ 0$ 0$ 0$ G. Sanchis J. Alvarez M. Bonafonte J. Torres &RQWUDWDGR M.Ï1 '( 3$57. Hernández J. Gatius A. Gatius A. Torres A.M. Varona M. Fernández 0$ 0$ A. Castell J. Bonafonte &RQWUDWDGR J.9. Galiano N. Rodríguez M. Gatius 83&7 72'26 A. Torres A. Casacuberta J. Casacuberta E. Rodríguez M.I. Pietro &RQWUDWDGR E.'$'(6 (+8 72'26 0 J. Rodríguez N. Farreres J.I.9. 72'26 P.M.I. Farreres M. Hernández J. Hernando C. Pietro E.'$'(6 < &(17526 $&7. Mariño E. Bonafonte E.I. Sanchis .B. Monte A. Lleida N. Fernández L. Ageno I.I. Sanchis E. Bordel L. Varona J. Benedí E.I. Castellón J. Bordel M. Mariño C. Pietro &RQWUDWDGR J. Lleida E.

Galiano N.J. Castell J. Bonafonte J. Rodríguez J. Castellanos M. Álvarez N.A. Bonafonte J. Lleida M. Alcaide M. Sánchez E. Casacuberta E. Benedí F. Rodríguez G. Padró H. Pietro E. Benedí F.M. Sanchis E. Hernández Ll. Farreres M. L. Farreres Ll. Gatius H. Esquerra A. Martí N. Benedí M. Castellón M. Ageno I. Sanchis J. Gatius A. J. Sánchez J. Castro J. Segarra J. Casacuberta M.M.A. Castro J.B. Rodríguez A. Rigau 0$ E.I. Bonafonte I. J. Segarra 0$ 0$ 0$ P. Castro J. Mariño &RQWUDWDGR . Sanchis E. Farreres M.I. M. Lleida. Márquez M. Castro E. Bonafonte G. Alvarez M.M. Esquerra A.M. Martí H. Segarra 0$ A.B. Gatius H. Álvarez N. Gatius H. Sánchez 0$ 0$ 0$ 0$ 0$ J. Sanchis E. Bernues E. Varona &RQWUDWDGR J. Farreres M. Benedí M. Bonafonte J. de Ipiña L. J.A. Aibar A. Casacuberta E. J.M. Ageno M. Galiano N. Benedí F. Alcaide K. Aibar P.M.M. Sanchis J. Castellón J.B. J.M. Márquez Ll. Segarra 0$ I. Aibar A. Sanchis J. Casacuberta M. Rodríguez J. Lleida &RQWUDWDGR A.I. Sanchis J.E. Gatius A. Castellanos P. Castell J. Castro &RQWUDWDGR E. Castellanos A. Mariño &RQWUDWDGR A. Casacuberta E. Castellanos 0$ 0$ P. Aibar A. Gatius M. Mariño F. Esquerra A.A. Nadeu 0$ 0$ 0$ P. Rigau A.A.Hernández J. Pietro E.A.B. Padró G. Castro J. Aibar M. Bonafonte I. Martí Ll. Farreres M. Castellón J. Sánchez &RQWUDWDGR J.A. Sánchez E. J. Castro J. Torres &RQWUDWDGR 0$ 0$ J. Sanchis M. Rodríguez I. Sánchez F. Benedí F.A. Castellanos P. Mariño C. J. Castell J.A. Rodríguez I. Casacuberta E. Aibar A.