• Embed Doc
  • Readcast
  • Collections
  • CommentGo Back
Download
 
Estado del arte en Tecnología del Habla
L. Hernández Gómez, F. J. Caminero GilUNIVERSIDAD POLITÉCNICA DE MADRIDC. de la Torre Munilla, L. Villarrubia GrandeTELEFÓNICA INVESTIGACIÓN Y DESARROLLOEl objetivo general de este trabajo es presentar los principales avances obtenidos enlos últimos años en el ámbito de la Tecnología del Habla. Se presta especial atención alas principales líneas de trabajo orientadas hacia el diseño de sistemas deReconocimientodel Habla, Conversión Texto-Voz, Reconocimiento de Locutores yCodificación de Voz. Junto a la exposición de actividades básicas de investigación sepresentan los principales resultados e innovaciones de los sistemas que desarrollaTelefónica I+D.
INTRODUCCIÓN
Asistimos en nuestros días a una progresiva proliferación de aplicaciones basadas en elproceso automático del lenguaje hablado. Así, son cada vez más comunes: las interfaceshombre-máquina controladas por voz, los sistemas de respuesta vocal interactiva, y laautomatización de sistemas telefónicos.El elevado número de aplicaciones posibles para los próximos años queda condicionado,además de por los propios "factores humanos" que intervienen en el proceso de aceptación deuna nueva tecnología, por los propios de la tecnología subyacente. Esta tecnología recibe ladenominación común de Tecnología del Habla y se estructura en cuatro tecnologías básicasprincipales:
El Reconocimiento de Voz o Reconocimiento del Habla
Es el proceso de conversión de un mensaje hablado en texto, quepermita al usuario una comunicación con la máquina. Se trata de latecnología que mayor avance ha sufrido en los últimos cinco años,pasándose de poder reconocer tan sólo a un hablante, dentro de unvocabulario muy limitado, a prototipos capaces de reconocer a cualquier hablante sobre vocabularios flexibles compuestos por miles de palabras.
La Conversión Texto-Voz
Se ocupa de la generación de mensajes hablados mediante lasimulación del proceso de lectura de un texto escrito almacenado enformato electrónico. Esta tecnología también cuenta en la actualidad conunos excelentes resultados, planteándose como el mayor reto aconseguir, aumentar la calidad de la voz sintetizada.
El Reconocimiento de Locutores
Es el proceso de identificación o verificación de la identidad del hablantede forma automática a partir de la señal de voz. El grado de desarrollode esta tecnología es inferior al de las anteriores, quizás comoconsecuencia de lo crítico que puede ser las aplicaciones en las que seinserte.
La Codificación de Voz
Es una tecnología que ha alcanzado un grado de madurez muy elevado,contando en la actualidad con un número importante de procedimientos
 
estandarizados. Su objetivo es la búsqueda de representacioneseficientes en formato digital de la señal de voz para su almacenamientoy/o transmisión, persiguiendo obtener la mayor calidad posible, para elmenor número de bits por muestra.
Podríamos, por tanto, situar a la Tecnología del Habla como receptora de un amplio conjunto deconocimientos y procedimientos de actuación sobre la información representada en la señal devoz. Conocimientos que se articulan con un alto grado de dificultad y especialización, ya quepertenecen a un marco científico-técnico multidisciplinar, donde se dan cita diferentes ramasdel saber como son: fisiología, acústica, lingüística, procesado de señal, inteligencia artificial,teoría de la comunicación y de la información, y ciencia de la computación.Lo expuesto hasta este punto sirve de referencia para poner de manifiesto las limitaciones quese nos plantean a la hora de desarrollar un trabajo como éste. Un trabajo que se presenta bajoel título de "Estado del arte en Tecnología del Habla", siendo su extensión limitada, no puedepretender abarcar todos y cada uno de los desarrollos y últimas líneas de trabajo abiertas enlas diferentes áreas de interés. Por tanto, aún a pesar de introducir importantessimplificaciones, buscando una mayor claridad en la exposición nos limitaremos a resumir yestructurar el fondo común de los principales desarrollos e innovaciones. Más concretamente,dedicaremos cuatro secciones diferentes a presentar el estado del arte de cada una de lastecnologías básicas: Reconocimiento del Habla, Conversión Texto-Voz, Reconocimiento deLocutores y Codificación de Voz. Destacando, en cada sección, el estado actual de latecnología a nivel mundial, y presentando referencias a otros trabajos donde el lector puedaprofundizar sobre los contenidos e ideas que se plantean. En las secciones correspondientes alReconocimiento del Habla y Conversión Texto-Voz, incluiremos un apartado especial dedicadoa presentar el estado actual de las innovaciones y desarrollos que actualmente se realizan enla División de Tecnología del Habla de Telefónica Investigación y Desarrollo. Este apartado nose presentará para los temas relacionados con la codificación de voz y reconocimiento delocutores, pues como ya destacamos son tecnologías extremas por su alto grado deestandarización una y por su nivel de inmadurez la otra a las que no se destinan recursosespecíficos en Telefónica I+D.Por último, es necesario resaltar, que si bien son muchas las aplicaciones que puedenplantearse para la Tecnología del Habla, su consideración explícita escapa de los objetivos deeste trabajo, pues son objetivo de otro artículo [1] en esta misma revista. No obstante, es claroque muchas de las restricciones que derivan de las diferentes aplicaciones aparecenimplícitamente como aspectos que demandan solución y, por tanto, condicionan el desarrollode las diferentes tecnologías.
ESTADO DEL ARTE EN RECONOCIMIENTO DEL HABLA
Podríamos afirmar que, genéricamente, el principal objetivo que el Reconocimiento de Hablapersigue es proporcionar una "apropiada" interacción hombre-máquina a través de órdeneshabladas. Así, los resultados que esta tecnología proporcione deberán contrastarse con losderivados de otras alternativas como son: teclados, paneles, ratones, etc., en cuanto a siproporcionan un control de procesos de interacción hombre-máquina más o menos"apropiado". Las principales características que diferencian a los sistemas basados enReconocimiento del Habla frente a otras alternativas son: la naturalidad que supone utilizar elhabla en las operaciones de comando y control, y la precisión y robustez en la comunicaciónpara diferentes usuarios y diferentes entornos. La primera de ellas debería representar laventaja natural de los sistemas basados en la Tecnología del Habla. Aunque la experiencia nosha enseñado que, si bien el habla es la forma natural de comunicación entre personas, en eldiálogo hombre-máquina esto no parece obvio; piénsese, por ejemplo, en los diversos estudiosque reflejan el elevado número de personas incapaces de responder frente a una máquina. Sibien es cierto que este tipo de rechazos va disminuyendo paulatinamente. Es la segunda de lascaracterísticas anteriores la que se muestra más crítica en las aplicaciones del Reconocimientodel Habla. El estado actual de la investigación en Reconocimiento del Habla nos muestraexcelentes resultados de sistemas trabajando en entornos controlados de laboratorio. Sinembargo, una aplicación real de esta tecnología exige un funcionamiento en el mundo realdonde el grado de dificultad de los problemas es un orden de magnitud mayor.
 
Bajo esa premisa de buscar una aplicación real, el modelo genérico de comunicación que elReconocimiento del Habla propone para el diálogo hombre-máquina puede representarse, deforma simplificada, tal y como muestra el diagrama de la figura 1, para un caso de acceso auna base de datos.En este diagrama, el acceso a la información contenida en una base de datos comienza con laproducción de un mensaje hablado por el usuario, pero utilizando una forma o estilo de hablarestringido; por ejemplo, utilizando palabras de un vocabulario reducido pronunciadas de formaaislada (como los dígitos), frases tipo, etc. A partir de la señal de voz, un proceso declasificación, basado en reconocimiento de patrones asociados a diferentes unidadeslingüísticas (palabras, fonemas, sílabas, etc.), permite a una interfaz de comunicaciones extraer de la base de datos la información solicitada por el usuario.
Principales áreas de trabajo en Reconocimiento del Habla
Siguiendo el modelo de la figura 1 podemos presentar las principales áreas de trabajo queintervienen en el diseño y especificación de sistemas de Reconocimiento del Habla actuales.Estas áreas serían las siguientes:
Proceso de la señal de voz.
Técnicas de reconocimiento de patrones.
Diferentes estilos de habla.
Dependencia del locutor.
Vocabulario de reconocimiento.
Tarea de reconocimiento.
Bases de datos para entrenamiento y reconocimiento.PROCESO DE LA SEÑAL DE VOZLa primera operación que debe realizar un reconocedor es procesar la señal de voz de entradaal sistema, con objeto de extraer la información acústica relevante para la tarea que debemosrealizar. En este primer nivel del sistema son dos los interrogantes a resolver:
1. ¿Qué rasgos o características extraer?2. ¿Qué efectos perturbadores pueden acompañar a la voz? y ¿cómoeliminarlos?
La respuesta a la primera cuestión ha venido precedida de un largo proceso de investigaciónsobre diferentes procedimientos de parametrización de la voz. Planteándose como soluciónactual más extendida una parametrización de la envolvente espectral que incluyaconsideraciones perceptuales a partir del funcionamiento del oído. Para reducir el número deparámetros posibles, la parametrización se combina con la utilización de técnicasdiscriminativas, seleccionándose el subconjunto con los parámetros más eficientes o distintivos[46].En cuanto a la segunda de las preguntas planteadas, la presencia de efectos perturbadores enla señal de entrada, ha generado tres líneas de trabajo principales:
Detección robusta de voz: Apareciendo innumerables procedimientos de discriminaciónentre voz o ruido (silencio) para diferentes tipos de ruido [19].
Reducción de ruido: Distinguiéndose procedimientos que actúan directamente sobre laseñal de voz y procedimientos que buscan compensar el efecto del ruido sobre laparametrización de la voz [45].
Cancelación de ecos: Incorporando técnicas de filtrado adaptativo que permitan alusuario comenzar a hablar mientras, desde el terminal remoto, se le está comunicandoun mensaje que puede provocar un eco en la voz que entra al reconocedor [18].TÉCNICAS DE RECONOCIMIENTO DE PATRONESEl reconocimiento de patrones es la técnica más específica de todo sistema de reconocimiento.De ahí que muchos reconocedores se identifiquen a partir de la técnica de reconocimiento depatrones que incorporan. A partir de la representación paramétrica de la voz, este módulorealiza un proceso de clasificación utilizando una serie de patrones. Estos patrones se obtienenen una fase de entrenamiento del sistema y son representativos de un conjunto de unidades
of 00

Leave a Comment

You must be to leave a comment.
Submit
Characters: ...
You must be to leave a comment.
Submit
Characters: ...