You are on page 1of 28

Procesamientodigitaldevoz

Seminario de Audio 2005


Ernesto Lpez Martn Rocamora

Produccindelhabla
Aparato fonador
Corte transversal de la laringe

Sonidossonorosysordos
Sonidos sonoros Forma de onda casi peridica Vocales, fonemas nasales Sonidos sordos Forma de onda parece aleatoria Consonantes como /s/, /f/, /z/

Modelodeproduccindelavoz
Aproximacin lineal Filtro lineal
Excitacin: Tren de impulos Rudio gaussiano

Propiedadesdelasealdevoz
Estacionariedad:
Seal fuertemente no estacionaria, pero se puede asmuir que para pequeos bloques de muestras la seal es localmente estacionaria

Largo del bloque de anlisis:


Corto - puede no ser suficiente para el algoritmo Largo - estimaciones son promedios a largo plazo
En general bloques de 20 a 30 ms son adecuados para la mayora de las aplicaciones (160 a 240 muestras @ 8kHz).

Propiedadesdelasealdevoz
Ancho de banda y fs
La mayor parte de la potencia de la seal se encuentra por debajo de los 4 kHz En muchos casos fs=8kHz es suficiente (ej. telefona). Otro tipo de aplicaciones requieren fs mayores (ej. 16Khz).

Representacinespectral
Sonidos sonoros Armnicos igualmente espaciados modulados por la transferenica del aparato fonador Sonidos sordos Secuencia aleatoria Al reducir la varianza de la seal no se obtiene slo la transferencia del aparato fonador

Formantes
La envolvente espectral tiene un conjunto de picos y valles Los picos se denominan: formantes La cantidad de formantes y su ubicacin son caractersticas distintivas de cada sonido Las vocales tiene estructuras de formantes bien definidas

Teoradelaprediccinlineal
Modelo lineal de mecanismo de produccin de la voz

Hiptesis: El aparato fonador puede modelarse por un filtro lineal.

Objetivo de LPC
Estimar la transferencia del filtro en funcin de las muestras de entrada y salida.

Teoradelaprediccinlineal
Modelo lineal en el dominio del tiempo

El valor de la muestra de salida actual est determinado por la diferencia de la suma de la muestra actual y las q muestras pasadas de entrada con la suma de p muestras pasadas de la salida.

Problema: No conocemos la seal excitacin u(n).

Modelotodopolos
Se consideran nulos los coeficientes del numerador
Dominio z Dominio del tiempo

An hay que conocer la muestra actual de la entrada u(n). Se deriva una estimacin estadstica de los coeficientes a partir de el conocimiento de la estadstica de u(n).

Modelodelaexcitacin
La autocorrelacin y por lo tanto la DEP de un impulso y de ruido gaussiano son idnticas. Los sonidos sonoros y sordos pueden considerarse estadsticamente equivalentes. Puede derivarse un nico modelo para los dos tipos de sonidos.

Aproximaciones
La excitacin para sonidos sordos es estrictamente ruido gaussiano. Se considera un tren de impulsos estadsticamente equivalente a un nico impulso.

Clculodeloscoeficientes
Aproximacin de s(n)

Error de estimacin

Clculo de los coeficientes (Mnimos Cuadrados)

EnvolventeEspectral
Una vez obtenidos los coeficientes puede calcularse la Transferencia del aparato fonador y su respuesta al impulso. Funcin de Transferencia Respuesta al impulso (IIR)

Calculando la DFT de la respuesta al impulso se obtiene la respuesta en frecuencia del aparato fonador.

RespuestaalImpulso
Sonido sonoro. Modelo LPC de orden 12.

EnvolventeEspectral
Sonido sonoro. Modelo LPC de orden 12. El modelo aproxima bien las formantes. Polos dominanates en 500, 1650, 2600 y 3800 Hz. Se pierde detalle entre las formantes (informacin de los ceros).

EnvolventeEspectral
Sonido sordo. Modelo LPC de orden 12.

El modelo funciona tambin para sonidos sordos. Los sonidos sordos tienen formantes mas dbiles.

FiltradoInverso
S(z) = H(z).U(z) U(z) = H-1(z).S(z) Modelo razonable de la excitacin como tren de pulsos. La excitacin provee informacin sobre la condicin sonoro/sordo.

Limitantes

No se modelan los ceros de la tranferencia. El modelo falla para voces muy agudas.

Aplicaciones
Sntesis de sonido. Reconocimiento automtico de voz (A travs de la amplitud y posicin de las formantes). Estimacin robusta de la frecuencia fundamental utilizando la excitacin. Codificacin de voz a baja tasa de bits.

DeconvolucinCepstral
Objetivo: Estimar la funcin de transferencia del aparato fonador. Ventaja: No se realiza ninguna de las hiptesis necesarias en LPC. Procedimiento: Transformacin no lineal para transformar la convolucin en suma de secuencias.

Cepstrum
Separacin de la excitacin y transferencia
Modelo lineal: convolucin de excitacin y respuesta del aparato fonador Espectro: producto del espectro de la excitacin y transferencia.

Densidad Espectral de Potencia

Cepstrum: suma del cepstrum de la excitacin y la transferencia

Cepstrum
Las variaciones rpidas de la DEP (armnicos) se encuentran en la zona alta de las quefrency. Las variaciones lentas (envolvente espectral) se encuentran en la zona de las bajas quefrency.

LiftradodelCepstrum

Para obtener la envolvente espectral se elimina la informacin de los armnicos y se aplica el proceso inverso (DFT).

EnvolventeEspectral
El cepstrum aproxima mejor el detalle entre las formantes.

Limitantes
Para voces de frecuencia fundamental alta, la envolvente espectral aparece muestreada en pocos puntos. No es posible separar la excitacin de la envolvente espectral.

Aplicaciones
Reconocimiento automtico de voz. Estimacin de la frecuencia fundamental a partir de la deteccin de picos en el cepstrum.

Referencias

Speech Analysis E. Chilton La voz humana F. Miyara Processing Singing Voice for Music Retrieval E. Pollastri Discrete-time signal processing A.V. Oppenhiem R.W. Schafer

You might also like