• Embed Doc
  • Readcast
  • Collections
  • CommentGo Back
Download
 
Sistemas de síntesis de voz
CAPÍTULO 1
GENERALIDADES 
1.1.- INTRODUCCIÓN
Los sistemas de síntesis de voz, son aquellos que convierten una entrada escrita en palabras, a unasalida pronunciada, simulando el proceso humano de leer en voz alta. Estos sistemas son tambiénconocidos como sistemas de texto a voz (
TTS
, siglas de las palabras en inglés
T
ext –
T
o -
S
peech)
[WEB 1]
.Los sistemas TTS, que se han construido, tienen dos módulos
[WEB 2]
que actúan entre sí, para realizar lasíntesis de voz y que son ilustrados en la figura 1.1. El primer módulo es un
convertidor de texto asegmento
, es decir, recibe el texto de entrada y lo separa en partes más pequeñas llamadas segmentos.En el segundo módulo, llamado
sintetizador de segmentos a voz 
, se convierten dichos segmentos asonidos, generando una voz artificial, que interpreta el texto de entrada.Figura 1.1 Sistema de texto a voz
1.1.1.- TIPOS DE SEGMENTOS
Los diferentes tipos de segmentos mostrados en la tabla 1.1 han sido tomados como base paradesarrollar el módulo convertidor de texto a segmentos de un sistema TTS
[WEB 3]
.Tipo de SegmentoDescripciónPalabraConj. de sonidos articulados que expresan una idea
[varios autores, 1985]
Sílaba* Menor unidad de impulso respiratorio
[varios autores, 1985]
* Uno o s mbolos foticos que representan una unidad sica de una pfonológica
[WEB 9]
CVCConsonante Vocal ConsonanteVCVVocal Consonante VocalDifonemaSucesión transitoria de sonidos
[WEB 8]
PseudofonemaNo definida por los autores
[WEB 7]
DemisílabaNo definida por los autores
[WEB 7]
SubfonemaNo definida por los autores
[WEB 7]
Tabla 1.1 .- Tipos de segmentosNo se encontraron referencias donde se abordará el segmento de tipo fonema es por eso que no semenciona en la tabla anterior, sin embargo, solo como mención a este segmento, se puede decir que esla unidad básica de la sílaba
[WEB 9]
.
 
1.1.2.- CLASIFICACIÓN: SISTEMAS DE VOCABULARIO LIMITADO EILIMITADO
Existen dos tipos de sistemas TTS
[WEB 4]
, de vocabulario limitado y de vocabulario ilimitado. Suclasificación depende del tamaño del vocabulario que utilizan. Los sistemas limitados usan lossegmentos de tipo palabra o sílaba; siendo limitados porque cuentan con un número finito o limitado depalabras o sílabas en su vocabulario.Los sistemas TTS de vocabulario ilimitado se caracterizan por poder sintetizar un número ilimitado depalabras y generalmente emplean segmentos más pequeños que la sílaba para lograr este objetivo. Parailustrar lo mencionado anteriormente, véase la figura 1.2.Figura 1.2 Clasificación de sistemas TTS
1.2.- ANTECEDENTES
Los sistemas TTS que se han desarrollado hasta el momento para el idioma español, han tenido unavance muy pobre comparado con el idioma inglés.En la tabla 1.2 se presentan los institutos de investigación que han trabajado en sistemas TTS y elidioma para el que desarrollaron sus sistemas
[WEB 6]
.InstitutoIdioma (s)YORK TALKInglésUniversity of BirminghamInglés europeo y americanoDec TalkInglésIpoxAlemánEurovocsJaponés, Inglés, Alemán, Español y FrancésTabla 1.2 Desarrollos en sistemas TTSObsérvese que sólo el instituto Eurovocs, ha desarrollado sistemas TTS para el idioma español. Algunasimplementaciones realizadas con los diferentes tipos de segmentos hasta la fecha experimentados, semuestran en la tabla 1.3
[WEB 5]
.Tipo de segmentoExperimentosPalabraBuron 1986, chapman 1971SílabaOuh-Young 1986CVCHayashi y Murakami 1992VCVSato 1978DifonemaLefevre 1986PseudofonemaMikuni y Ohta 1986DemisílabaLovis y Fujimora 1976SubfonemaEl-Iman 1989, Dan y Dutta 1991Tabla 1.3 Implementaciones de sistemas TTS
 
1.3.- DESCRIPCIÓN DEL PROBLEMA YJUSTIFICACIÓN
El interés original que motivo esta investigación, es el de darle la capacidad de producir voz artificial a lascomputadoras, es decir, que la computadora sea capaz de leer cualquier texto en el idioma español.Esta capacidad proporcionaría otra forma de comunicación entre la computadora y el hombre. Podría ser útil para ayudar a minusválidos, invidentes o personas con problemas de comunicación.Otra utilidad que se le puede dar a este sistema, es en ambientes de trabajo donde los que laboran ahítengan su vista ocupada y al mismo tiempo tengan que recibir información del proceso que realizan.Analizando la estructura de las palabras en el idioma español, se observa que cada palabra es divisibleen una o más sílabas, es por eso que, en este trabajo se eligió la sílaba como segmento, para dividir laspalabras. Otra razón para escoger este tipo de segmento, es por ser un conjunto de sonidos que puedenser pronunciados en una sola emisión de voz
[varios autores, 1972]
.Otro segmento con la misma justificación que el segmento de tipo sílaba, es el segmento de tipo fonema,sin embargo se tiene la gran desventaja comparada con el segmento de tipo sílaba, que al unir dosfonemas es muy importante la coarticulación entre ellos.El principal problema al que se enfrentan los sistemas TTS es la producción de voz "natural", esto es,que deben contener sonidos naturales como inflección vocal, ritmo, acentuación, coarticulación entresílabas, la velocidad de pronunciación de las sílabas de una palabra
[Keller, 1992]
, la no uniformidad en tono yvolumen de cada sílaba, y las pausas entre una sílaba y otra.Como un ejemplo de todos los problemas mencionados anteriormente se sugiere al lector que lea untexto en voz alta, en sílabas, haciendo caso omiso de los signos ortográficos, así como de la acentuaciónde las sílabas, con la finalidad de que se pueda percibir la importancia de cada uno de estos problemas.
1.4.- OBJETIVO DE LA TESIS
El objetivo de esta tesis, es desarrollar un sistema de síntesis de voz de vocabulario limitado para elidioma español. El sistema usa un tipo de segmento silábico y debe ejecutarse en una computadorapersonal bajo el sistema operativo MS-Windows. La computadora utilizará una tarjeta de sonido para laentrada y salida de voz.
1.5.- DESCRIPCIÓN DE LOS CAPÍTULOS
Este capítulo presenta una breve introducción a los sistemas de síntesis de voz, su clasificación, losantecedentes que se tienen sobre investigaciones pasadas, así como también se plantean los problemasa los que se enfrentan estos sistemas y finalmente se presenta la justificación de esta tesis. Este capítuloes necesario que se lea, para comprender el capítulo 3.Como el segmento escogido para esta tesis es la sílaba, en el capítulo 2 se describen las reglas delidioma español para su formación, así como su estructura y clasificación. En este capítulo se justifica elalgoritmo planteado en esta tesis para realizar la segmentación de una palabra en sílabas.El capítulo 3 presenta la arquitectura del sistema elaborado, describiendo cada una de las fases de estesistema, las cuales son: grabación de los archivos de sonido, generador de voz y la interfaz de usuario.Los resultados de la experimentación realizada con este sistema, se detallan en el capítulo 4, así comotambién se describen los principales problemas abordados en el desarrollo de este. En este capítulo sepresenta una aplicación de este sistema a un tutorial hablado.Para finalizar los capítulos de esta tesis, se presentan las conclusiones de este trabajo y las propuestasplanteadas para trabajos futuros, de un sistema como este, en el capítulo 5.En la sección de apéndices se puede encontrar información acerca de los archivos de sonido conformato WAV usados en esta tesis, el listado de los programas desarrollados para este sistema, junto conun manual de usuario de cada uno de esto programas.
of 00

Leave a Comment

You must be to leave a comment.
Submit
Characters: ...
You must be to leave a comment.
Submit
Characters: ...