You are on page 1of 36

Introducción al procesamiento de voz

Sonia H. Contreras Ortiz, PhD

Sistema fonador humano
La señal de voz es una onda de presión acústica que se genera a partir de movimientos de la estructura anatómica del sistema fonador humano. El tracto vocal comienza a la salida de la laringe y termina en los labios.

Sistema fonador humano
Parámetros del sistema articulatorio
Las cuerdas vocales El paladar La lengua Los dientes Los labios La mandíbula

Etapas del proceso de producción de la voz
Generación Articulación Radiación

Clasificación de los fonemas Vocales Localización Anterior Abertura Mínima Media Máxima i e a o Medio Posterior u .

Clasificación de los fonemas Consonantes Bilabial Labiodental Interdental Dental Alveolar Palatal Velar Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Sonoro Sordo Oclusivos Africados Fricativos Laterales Vibrantes Nasales b p d t ch g k f z l r. rr s y ll j m n ñ .

VO Z SO RDA Y SO NO RA /se/ 0.. f. t. b.4 0 0.4 0.05 0... m.2 -0..1 0.1 -0.15 Tiem po (s ) .3 0.1 Am plitud 0 -0.Clasificación de los fonemas Sonoros: Las cuerdas vocales vibran y el aire pasa a través del tracto vocal sin impedimentos importantes: vocales. k.2 0. d. Sordos: Las cuerdas vocales no vibran y existen restricciones importantes al paso del aire que proviene de los pulmones: s.3 -0.

2 Amplitud 0 -0.485 1. Toma valores entre 50Hz y 500Hz.475 1.Segmento sonoro Es de naturaleza cuasiperiódica.4 1.2 -0.6 0.455 1.465 1.47 1.4 0.495 1. SEGMENTO SONORO 0.49 1.45 1. Posee una frecuencia fundamental (pitch) que corresponde con la frecuencia de vibración de las cuerdas vocales.5 .46 1.48 Tiempo (seg) 1.

SEGMENTO SORDO 0.2 0.05 -0.15 -0.585 1.25 1.Segmento sordo Puede modelarse por medio de una fuente de ruido aleatorio.57 1.1 -0. No presenta naturaleza periódica.58 1.595 1.56 1.1 0.61 .605 1.575 1.59 Tiempo (seg) 1.2 -0.565 1.05 Amplitud 0 -0. Presenta menor amplitud debido a las restricciones que se imponen a la salida del aire.6 1.15 0.

Toma diferentes rangos de valores para niños.2 0.05 -0.1 3500 3550 3600 3650 3700 3750 3800 . Puede calcularse como el inverso del período de la señal de voz. Ejemplo: Esta señal tiene N = 47 El pitch se calcula así: 0.15 0.Pitch Está relacionado con el tono de la voz. mujeres y hombres.1 fs f = N 0.05 0 -0.

Modelo de producción de la voz Generación Radiación Generador de pulsos periódicos Articulación Modelo del Tracto vocal Filtro equivalente Señal de voz Generador de ruido aleatorio Parámetros de la envolvente del espectro Sonoro/ sordo Amplitud Período de vibración .

Puede suponerse que las características de la señal permanecen constantes en intervalos de 10 a 50 ms.Modelo de producción de la voz El tracto vocal cambia su forma lentamente durante la pronunciación de los fonemas. Por tanto la voz se puede modelar como un filtro lentamente variante en el tiempo (no estacionario). .

Procesamiento de señales de voz Adquisición y acondicionamiento Preprocesamiento Normalización de niveles Segmentación Preénfasis Ventaneo Representación y caracterización de la voz .

2 180 0 180 90 60 120 25 20 15 10 5 0 180 90 60 150 120 20 15 30 10 5 0 30 60 150 30 150 210 330 210 330 210 330 240 270 300 240 270 300 240 270 300 Filtrado pasa bajo y conversión A/D. Pueden emplearse 8 bits para la codificación. La frecuencia de muestreo debe satisfacer el criterio de Nyquist (8kHz .6 0... Clase Impedancia Direccionalidad 90 120 1 0.4 0. . 44kHz) El rango dinámico de la voz está entre los 50 y 60dB.Adquisición y acondicionamiento La adquisición de la señal se realiza por medio de un transductor: micrófono.8 0.

9 Sordo 0 Silencio -0.5 0 0.1 1.25 1.85 0.05 1.7 0.15 t (s) 1.5 0.5 0.5 Silencio 0 Sonoro -0.Segmentación Permite separar los eventos de interés (la voz) de otras partes de la señal.95 1 1.4 0.45 Sonoro Sordo 0 -0.5 0.35 0. Establece los puntos de inicio y fin de palabra y en algunas aplicaciones identifica sonoridad.5 0.1 0.65 0.15 0.2 1.55 0.6 0.3 1. SEÑAL DE VOZ 0.05 0.8 0.75 0.5 0.3 0.2 0.35 .25 0.

Segmentación CRUCES POR CERO 200 150 100 50 0 1 3 MAGNITUD PROMEDIO 2 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 10 5 0 -5 -10 10 5 0 -5 -10 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 do s un o do s un o .

2 -0.8 0 0.4 -0.5 1 1.5 2 2.6 0.4 0 0.2 1 0.5 2 2.5 2 2.Segmentación MAGNITUD PROMEDIO 4 3 2 1 0 1.5 x 10 10 5 0 -5 -10 4 SEÑAL BINARIZADA 0.5 x 10 4 .2 0 -0.5 1 1.5 1 1.8 0.6 0 0.5 x 10 4 -0.

9<α<1 −1 . H (z ) = 1 − α ⋅ z 0.Preénfasis Consiste en pasar la señal por un filtro pasa alto de primer orden con el fin de enfatizar las altas frecuencias y hacer la señal menos susceptible a los efectos de la precisión finita en el procesamiento digital.

En intervalos cortos el sistema puede considerarse lineal e invariante en el tiempo (estacionario). El marco de datos se multiplica por una ventana (Hamming o Hanning) para reducir la distorsión espectral ocasionada por el hecho de segmentar la señal.Ventaneo La voz se analiza en marcos de datos de 10 a 50ms. .

5 0 200 c 400 600 400 600 0.Ventaneo 1 0.5 0 200 a 400 600 0.2 0 0 200 b a) Corresponde a un marco de la señal original b) Forma de la ventana de Hamming 0 c) Señal enventanada -0.8 0.4 0.5 .6 0.5 0 -0.

. Con las características que se extraen de la voz.Representación de la voz Busca reducir el volumen de información necesario para analizar. almacenar o transmitir la señal de voz. contenido de lo que se dice y cómo lo dice. puede obtenerse información sobre la persona que habla.

Representación de la voz El objetivo es separar la información que corresponde a la fuente de sonido y la que corresponde al filtro. Las técnicas más utilizadas son: Análisis de Fourier en intervalos cortos de tiempo Codificación Predictiva Lineal (LPC) Cepstrum Fuente de sonido Modelo del Tracto vocal Filtro equivalente Señal de voz Parámetros de la envolvente del espectro .

. Se calcula el espectro de la señal en cada marco. La señal se descompone en segmentos cortos llamados marcos (de 5 a 100ms) y se analiza cada uno independientemente.Análisis de Fourier en intervalos cortos de tiempo Se considera que en intervalos cortos de tiempo. es decir que su comportamiento (periodicidad o aleatoriedad) se mantiene aproximadamente constante. la señal de voz es estacionaria.

Ilustración del enventanado 1 Señal 0 -1 0 1 Ventana 0 -1 0 1 Producto 0 -1 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 .Análisis de Fourier en intervalos cortos de tiempo El marco puede definirse como el producto de la señal de voz por una función ventana que es diferente de cero sólo en una pequeña región. Se calcula la DFT en cada marco (los marcos pueden traslaparse).

Espectrograma Es una herramienta que permite visualizar el contenido de frecuencias de una señal con respecto al tiempo. Muestra gráficamente la intensidad de la transformada de Fourier evaluada en cada marco. Permite observar los formantes. . el pitch e identificar segmentos sonoros y sordos.

5 0 -0.5 -1 0 1 2 3 4 5 6 7 8 x 10 4 Frequency (Hz) 4000 2000 Formantes 1 2 3 4 Time 5 6 7 0 .Espectrograma Señal de voz y su Espectrograma 1 0.

Permiten observar los armónicos más claramente.Espectrograma Hay dos clases de espectrogramas: De banda ancha: emplean ventanas pequeñas (< 10ms) y tienen buena resolución en el tiempo. con lo cual pueden observarse mejor los cambios en la señal. De banda angosta: emplean ventanas grandes (> 20ms) y tienen buena resolución en frecuencia. .

4 1.2 1.2 1.Espectrograma Frequency 4000 2000 0 0 0.6 0.4 1.8 1 1.2 1.8 .5 0 0.6 0.6 1.5 ¿Cuál es el de banda ancha y cuál el de banda angosta? 0 0.4 0.2 0.6 1.6 1.8 Frequency 4000 2000 0 0.8 1 Time 1.2 0.8 0 -0.4 0.4 1.4 0.8 1 Time 1.6 0.2 0.

Análisis de Fourier en intervalos cortos de tiempo Segmento sonoro Transformada de Fourier en una ventana de 27.2 ms (600 muestras) 30 20 10 -10 0 dB dB -10 -20 -30 -35 -40 -50 -40 0 50 100 150 k 200 250 300 -45 0 50 100 150 k 200 250 300 -15 -20 -25 -30 5 0 -5 Segmento sordo Transformada de Fourier .

Una estructura fina: refleja la periodicidad de la fuente sonora. 80 60 40 20 0 dB -20 -40 -60 -80 -100 0 1000 2000 3000 Frecuencia (Hz) 4000 5000 .Análisis de Fourier en intervalos cortos de tiempo El espectro de una señal de voz está dado por: Una envolvente: en donde se observan las resonancias y antiresonancias del tracto vocal.

LPC Una señal puede modelarse expresando el valor de la señal x[n] en el instante n como una combinación lineal de muestras en instantes anteriores: ~ x [n] = ∑ ak x[n − k ] k =1 p De esta forma. el proceso de producción de la voz se modela como un filtro IIR. .

.LPC Los parámetros ak pueden calcularse a partir de la minimización del error de la señal original y la aproximación dada por la ecuación anterior. El método de covarianza. Hay dos métodos principales para estimar los coeficientes de predicción lineal: El método de autocorrelación.

e[n] = x[n] − ~ x [n] = x[n] − ∑ ak x[n − k ] k =1 p .LPC Los coeficientes de predicción permiten modelar el tracto vocal como un filtro de solo polos. X (z ) H (z ) = = E (z ) 1 1 − ∑ ak z k =1 p −k La señal error puede emplearse para aproximar la fuente de sonido. con lo cual se puede estimar la envolvente del espectro.

LPC Espectro de Fourier 40 20 0 dB -20 -40 -60 0 1000 2000 3000 4000 5000 6000 Envolvente del espectro obtenida con LPC 40 20 0 dB -20 -40 -60 0 1000 2000 3000 f (Hz) 4000 5000 6000 .

Cepstrum Una transformación homomórfica convierte una convolución en una suma: x[n] = e[n]* h[n] ˆ[n] ˆ[n] = e ˆ[n] + h x El cepstrum es una transformación homomórfica que permite separar la información sobre la fuente de sonido de la del filtro del tracto vocal. .

.Cepstrum El cepstrum real se define: 1 c[n] = 2π π jω jω ln X e e dω ∫ −π ( ) El término cepstrum resulta de invertir la primera sílaba de la palabra spectrum. Se definió así porque se obtiene al calcular la transformada inversa del logaritmo del espectro de la señal. La información del tracto vocal aparece en los primeros coeficientes cepstrales y la información de la fuente en los coeficientes más altos.

5 0 -0.5 -1 0 100 200 300 400 500 -20 -40 -60 0 50 100 150 200 250 300 Cepstrum real 1 0.5 dB Espectro de Fourier 40 20 0 0 -0.5 -1 0 100 200 300 Muestra 400 500 dB Envolvente del espectro por el método de Cepstrum 40 20 0 -20 -40 -60 0 50 100 150 k 200 250 300 .Cepstrum Segmento sonoro 1 0.