1.3.- DESCRIPCIÓN DEL PROBLEMA YJUSTIFICACIÓN
El interés original que motivo esta investigación, es el de darle la capacidad de producir voz artificial a lascomputadoras, es decir, que la computadora sea capaz de leer cualquier texto en el idioma español.Esta capacidad proporcionaría otra forma de comunicación entre la computadora y el hombre. Podría ser útil para ayudar a minusválidos, invidentes o personas con problemas de comunicación.Otra utilidad que se le puede dar a este sistema, es en ambientes de trabajo donde los que laboran ahítengan su vista ocupada y al mismo tiempo tengan que recibir información del proceso que realizan.Analizando la estructura de las palabras en el idioma español, se observa que cada palabra es divisibleen una o más sílabas, es por eso que, en este trabajo se eligió la sílaba como segmento, para dividir laspalabras. Otra razón para escoger este tipo de segmento, es por ser un conjunto de sonidos que puedenser pronunciados en una sola emisión de voz
[varios autores, 1972]
.Otro segmento con la misma justificación que el segmento de tipo sílaba, es el segmento de tipo fonema,sin embargo se tiene la gran desventaja comparada con el segmento de tipo sílaba, que al unir dosfonemas es muy importante la coarticulación entre ellos.El principal problema al que se enfrentan los sistemas TTS es la producción de voz "natural", esto es,que deben contener sonidos naturales como inflección vocal, ritmo, acentuación, coarticulación entresílabas, la velocidad de pronunciación de las sílabas de una palabra
[Keller, 1992]
, la no uniformidad en tono yvolumen de cada sílaba, y las pausas entre una sílaba y otra.Como un ejemplo de todos los problemas mencionados anteriormente se sugiere al lector que lea untexto en voz alta, en sílabas, haciendo caso omiso de los signos ortográficos, así como de la acentuaciónde las sílabas, con la finalidad de que se pueda percibir la importancia de cada uno de estos problemas.
1.4.- OBJETIVO DE LA TESIS
El objetivo de esta tesis, es desarrollar un sistema de síntesis de voz de vocabulario limitado para elidioma español. El sistema usa un tipo de segmento silábico y debe ejecutarse en una computadorapersonal bajo el sistema operativo MS-Windows. La computadora utilizará una tarjeta de sonido para laentrada y salida de voz.
1.5.- DESCRIPCIÓN DE LOS CAPÍTULOS
Este capítulo presenta una breve introducción a los sistemas de síntesis de voz, su clasificación, losantecedentes que se tienen sobre investigaciones pasadas, así como también se plantean los problemasa los que se enfrentan estos sistemas y finalmente se presenta la justificación de esta tesis. Este capítuloes necesario que se lea, para comprender el capítulo 3.Como el segmento escogido para esta tesis es la sílaba, en el capítulo 2 se describen las reglas delidioma español para su formación, así como su estructura y clasificación. En este capítulo se justifica elalgoritmo planteado en esta tesis para realizar la segmentación de una palabra en sílabas.El capítulo 3 presenta la arquitectura del sistema elaborado, describiendo cada una de las fases de estesistema, las cuales son: grabación de los archivos de sonido, generador de voz y la interfaz de usuario.Los resultados de la experimentación realizada con este sistema, se detallan en el capítulo 4, así comotambién se describen los principales problemas abordados en el desarrollo de este. En este capítulo sepresenta una aplicación de este sistema a un tutorial hablado.Para finalizar los capítulos de esta tesis, se presentan las conclusiones de este trabajo y las propuestasplanteadas para trabajos futuros, de un sistema como este, en el capítulo 5.En la sección de apéndices se puede encontrar información acerca de los archivos de sonido conformato WAV usados en esta tesis, el listado de los programas desarrollados para este sistema, junto conun manual de usuario de cada uno de esto programas.
Leave a Comment