You are on page 1of 50

DIGITALIZACION

DE LA VOZ
El campo de la digitalización de la voz ha sido, y es todavía,
un área de permanente desarrollo. Este desarrollo ha
producido muchos tipos diferentes de algoritmos para
digitalización de la voz. La escogencia de un tipo particular
depende del costo de implementación y los requerimientos
de desempeño necesarios en la aplicación.

El algoritmo usados para sistemas T1 es el de PCM


companded, el cual proporciona excelente calidad a una tasa
moderada (64 Kbps) y con un costo moderado.
Las aplicaciones de transmisión con anchos de banda
limitados, como los sistemas celulares digitales, requieren
algoritmos de digitalización de la voz más sofisticados para
lograr tasas del orden de 8 – 16 Kbps.

Otras aplicaciones para la voz digitalizada son los sistemas


de almacenamiento de la voz. El almacenamiento digital es
particularmente apropiado para grabar anuncios, ya que el
sonido pregrabado no se deteriora con el tiempo y además,
los anuncios individuales, que son guardados en memorias o
en CDs pueden ser accesados en forma aleatoria.
La grabación de conversaciones en memorias con capacidad
limitada son ejemplo de una aplicación que puede usar
algoritmos con tasas de digitalización muy bajas y con
reducciones importantes de calidad

La razón principal para que los sistemas de mensajes de voz


usen almacenamiento digital es la de tener acceso aleatorio a
los mensajes individualmente. Para minimizar el espacio de
almacenamiento estos sistemas usan típicamente tasas de
datos de 8 – 32 Kbps.
Las técnicas de digitalización de la voz pueden ser
categorizadas en dos clases: las que codifican formas de onda
análogas tan fielmente como sea posible y las que procesan
formas de onda para codificar solamente los aspectos que son
realmente importantes en los procesos de conversación y
audición

La primera categoría es representativa de los problemas


generales de las conversiones A/D ó D/A y no esta restringida
a la digitalización de las conversaciones.
La tres técnicas más comunes usadas para codificar la voz
son; Modulación por Código de Pulsos (PCM), PCM
Diferencial (DPCM) y Modulación Delta (DM). Excepto en
casos especiales los equipos telefónicos son diseñados para
reproducir una forma de onda análoga usando una de estas
técnicas.

La segunda categoría de digitalización de la conversación esta


relacionada con producir codificadores y decodificadores de
tasas de datos muy bajas para sistemas de transmisión de
banda estrecha ó dispositivos de almacenamiento digital con
capacidad limitada.
Un dispositivo con esta clase de técnica especial es llamado
un “vocoder” (voice coder; codificador de voz).

La mayor parte de los esfuerzos en este campo se han


dedicado a desarrollar vocoders con tasas medias (ej. 8 Kbps)
con calidades naturales de la conversación, principalmente
para aplicaciones de celulares digitales.

Estos codificadores se implementan como una combinación


de las técnicas de bajas tasas de bits y los codificadores de
formas de onda. Estas técnica representan una tercera clase
de algoritmos de digitalización de la voz.
MODULACION DE AMPLITUD DE PULSO

El primer paso en la digitalización de una forma de onda


análoga es establecer un conjunto de tiempos discretos en los
cuales se va a muestrear la señal de entrada.

Las técnicas de digitalización predominantes están basadas


en el uso de muestras espaciadas en forma regular y
periódica.
Si tenemos un número suficiente de muestras la forma de
onda original podrá ser recuperada completamente usando
un filtro pasa-bajas para interpolar los valores intermedios de
las muestras.

La figura inferior muestra una forma de onda análoga


muestreada a una frecuencia constante f s  1 / T y que luego
es reconstruida mediante un filtro pasa bajas.
TASA DE MUESTREO DE NYQUIST

Harry Nyquist logró establecer en 1933 la frecuencia de


muestreo mínima requerida para extraer toda la información
de una forma de onda continua variante en el tiempo. Este
resultado, llamado criterio de Nyquist, se definió por la
relación:
f s  (2)( BW )

Donde f s = frecuencia de muestreo


BW = ancho de banda de la señal de entrada
La representación espectral del muestreo se puede apreciar
en la figura inferior, donde el muestreo se asemeja a la
multiplicación de la señal por un tren de pulsos y la
recuperación de la señal se logra mediante un filtro pasa
bajas.
DISTORSION POR SUPERPOSICION

Si la forma de onda de entrada de un sistema PAM esta


submuestreada ( f s  2 BW ) , la forma de onda original no
podrá ser recuperada sin distorsión.

Esta distorsión se presenta porque las componentes de


frecuencia generadas por el muestreo se superponen unas con
otras haciendo imposible recuperar la forma original del
espectro
En esencia, la distorsión por superposición produce
componentes de frecuencia, en la banda de frecuencias de
interés, las cuales no existen en la forma de onda original.

Otro término empleado para esto es “aliasing”. El aliasing no


es un fenómeno exclusivo de la digitalización de la voz.
MODULACION POR CODIGO DE PULSOS

La Modulación por Código de Pulsos (PCM) es una extensión


de PAM, en donde cada valor de la muestra análoga es
cuantizada a un valor discreto para su representación en una
palabra codificada digitalmente.

Todos los valores de muestras que estén en un intervalo de


cuantización particular serán representados por un valor
discreto localizado en el centro del intervalo de cuantización.
De esta manera el proceso de cuantización introduce cierta
cantidad de error de distorsión en las muestras de la señal.
Este error conocido como error de cuantización es
minimizado estableciendo un gran número de intervalos de
cuantización.
RUIDO DE CUANTIZACIÓN

Generalmente se asume que los errores de cuantización


sucesivos de un codificador PCM están distribuidos en forma
aleatoria y que no están correlacionados unos con otros

Si la señal tiene tiempo


suficiente para cambiar en
amplitud por varios
intervalos de cuantización,
los errores de cuantización
serán independientes.
Si una señal es sobremuestrada (frecuencia mayor que la tasa
de Nyquist), las muestras sucesivas probablemente caerán en
el mismo intervalo, causando perdida de independencia en
los errores de cuantización.

El error de cuantización, o distorsión, creado por la


digitalización de la señal análoga, se expresa generalmente
como una potencia promedio de ruido, relacionada con la
potencia promedio de la señal.
De esta forma la relación señal a ruido de cuantización
(SQR), se puede determinar como:

E{x 2 (t )}
SQR 
E{[ y (t )  x(t )]2 }

Donde
esperanza
E{}  ó promedio
señal
x(tde)  entrada análoga
y (t )  señal de salida decodificada
Hay tres observaciones respecto a la determinación del valor
esperado del ruido de cuantización:

1. El error y (t )  x(t ) está limitado en amplitud a q / 2 ,


donde q es el peso del intervalo de cuantización.

2. El valor de una muestra tiene igual probabilidad de caer


dentro de cualquier intervalo de cuantización,
empleando una densidad de probabilidad uniforme de
amplitud 1 / q .
3. Se asume que las amplitudes de la señal están limitadas al
rango máximo del codificador. Si el valor de una muestra
excede el rango del intervalo de cuantización mas alto, se
presentará una distorsión de sobrepeso, también llamada
limitación de pico ó saturación.

Si asumimos por conveniencia una resistencia de 1 , la


potencia promedio del ruido de cuantización será:

Potencia de ruido de cuatización  1 q 2


12
Si todos los intervalos de cuantización tienen igual longitud
(cuantización uniforme), el ruido de cuantización es
independiente de los valores de las muestras y el SQR se
determina como:

 v2  v
SQR(db)  10 log10  2   10.8  20 log10  
 q / 12  q

Donde v es la amplitud rms de la entrada.


En particular, para una señal de entrada senoidal la SQR
producida por cuantización uniforme es:

 A2 / 12   A
SQR(db)  10 log10  2   7.78  20 log10  
 q / 12  q

Donde A es la amplitud pico de la onda senoidal.


RUIDO DE CANAL INACTIVO

Las ecuaciones para determinar los valores de SQR muestran


que este valor es pequeño para valores de muestra pequeños.

La figura superior muestra que el ruido puede ser mayor que


la señal cuando los valores de las muestras están en el primer
intervalo de cuantización.
Este efecto es particularmente molesto durante las pausas de
las conversaciones y se conoce como ruido de canal inactivo.

Un método para minimizar el ruido de canal inactivo en


sistemas PCM consiste en establecer niveles de cuantización
que estén montados sobre el origen.
En este caso todos los valores de las muestras que esten
localizados en el intervalo central de cuantización son
decodificados como una salida constante cero. Los sistemas
PCM de este tipo usan un número impar de intervalos de
cuantización, ya que los rangos de codificación de señales
positivas y negativas es igual.
CODIFICACION PCM UNIFORME

Un codificador que utiliza intervalos de cuantización de igual


longitud para todas las muestras, genera palabras codificadas
que guardan una relación lineal con los valores de las
muestras análogas. Esto quiere decir que el equivalente
numérico de cada palabra codificada es proporcional al valor
de la muestra cuantizada que este representa. De esta manera
un sistema PCM uniforme usa un conversor análogo-digital
convencional para generar los códigos de la muestra.

El número de bits requerido para cada muestra se determina


mediante la máxima potencia de ruido aceptable.
La calidad mínima de voz digitalizada requiere una SQR de
26dB. Para que un sistema PCM uniforme logre esta SQR se
necesita que q  0.123 A. Para excursiones iguales de la señal
tanto en rango positivo como negativo se necesitan 16
intervalos de cuantización, o cuatro bits por muestra.

Además de proporcionar una calidad adecuada para las


pequeñas señales, un sistema telefónico debe ser capaz de
transmitir un rango grande de amplitudes de señal, llamado
rango dinámico.
El rango dinámico (DR) es usualmente expresado en
decibeles como la relación entre la máxima y la mínima
amplitud de la señal:

 Pmax   Vmax 
DR  10 log10   20 log10  
 Pmin   Vmin 

Un rango dinámico típico es de 30dB. Si se asumen intervalos


de cuantización igualmente espaciados, el número total de
intervalos es de 496, lo cual requiere palabras de 9 bits.
El desempeño de un sistema PCM uniforme de n bits se
determina observando que:

2 Amax
q
2n

Donde Amax es la amplitud máxima.

Sustituyendo el valor de q tenemos que:

 A 
SQR  1.76  6.02n  20 Log10 
 Amax 
COMPANDING

En un sistema PCM uniforme el tamaño de cada intervalo de


cuantización está determinado por las condiciones del nivel
más bajo de señal a ser codificada. Los valores más altos de la
señal son codificados con los mismos intervalos de
cuantización.

Si los niveles de la señal tienen pocas excursiones a los valores


más altos, se desperdiciarían niveles de cuantización.

Un proceso de codificación más eficiente se logra cuando los


intervalos de cuantización no son uniformes, sino que se
incrementan con el valor de la muestra.
Cuando los intervalos de cuantización son directamente
proporcionales al valor de las muestras, la SQR es constante
para todos los niveles de la señal. Cuando los intervalos de
cuantización no son uniformes se presenta una relación no
lineal entre las palabras codificadas y las muestras que ellas
representan.

Una función no lineal se presenta cuando la señal de entrada


análoga es inicialmente comprimida y luego cuantizada con
intervalos de cuantización uniforme. El efecto de la operación
de compresión se presenta en la siguiente diapositiva.
Se puede observar que los intervalos de la señal de entrada
son comprimidos sucesivamente en intervalos de
cuantización de longitud constante. Los valores de muestra
más grandes serán comprimidos antes de la codificación.
El proceso de comprimir primero una señal y luego
expandirla es conocido como companding.

Las dos familias de compresión más utilizadas son la ley -  y


la ley -A .
REDUNDANCIAS EN LAS CONVERSACIONES

Los sistemas PCM convencionales codifican cada muestra de


una forma de onda independientemente de las otras
muestras. De esta forma un sistema PCM es capaz de
codificar una forma de onda aleatoria cuyas máximas
componentes de frecuencia no excedan la mitad de la tasa de
muestreo.

Los análisis de las formas de onda de conversación indican


que hay una redundancia considerable de una muestra a la
otra. El coeficiente de correlación entre muestras adyacentes
de 8KHz es generalmente de 0.88
Además de la correlación que existe entre las muestras
adyacentes de una forma de onda de conversación, existen
otros niveles de redundancia que pueden ser explotados para
reducir las tasas de bits codificados:

Distribuciones de amplitud no uniforme


Correlaciones muestra a muestra
Correlaciones ciclo a ciclo (periodicidad)
Factores de inactividad
Distribuciones de amplitud no uniforme. Las muestras con
bajos niveles de amplitud son más comunes que aquellas con
niveles altos. La mayoría de las muestras con bajo nivel
ocurren como resultado de las pausas en una conversación.
Sin embargo, los niveles de potencia de la conversación activa
suelen estar en la parte baja del rango de codificación.

La calidad promedio de una conversación PCM puede ser


mejorada haciendo más cortos los intervalos cuantización de
los niveles más bajos, e incrementando los intervalos de
cuantización de los niveles más altos.
Las mejoras logradas con esta técnica son mínimas, y en su
mayor parte no justifican la complejidad adicional.

Correlaciones muestra a muestra. La alta correlación entre


muestras sucesivas indica que cualquier intento por reducir
las tasas de transmisión deben aprovechar la correlación
entre muestras adyacentes.

La forma más simple de aprovechar la redundancia entre


muestras en una conversación es codificar solamente las
diferencias entre las muestras adyacentes.
Las diferencias de medidas son acumuladas en el
decodificador para recuperar la señal. En esencia estos
sistemas codifican la pendiente o derivada de una señal en el
origen y recuperan la señal integrando en el destino.

Correlaciones ciclo a ciclo (periodicidad). Aunque una señal


de conversación requiere el ancho de banda entero de 300-
3400Hz de un canal telefónico, en cualquier instante de
tiempo particular ciertos sonidos estarán compuestos por
unas pocas frecuencias dentro de la banda.
Cuando unas pocas frecuencias fundamentales existan en un
sonido, la forma de onda presentará una fuerte correlación
entre numerosas muestras correspondientes a varios ciclos de
una oscilación.

El ciclo natural de un sonido de voz se muestra en la figura


Los codificadores que aprovechan la redundancia ciclo a ciclo
en las conversaciones son más complicados que aquellos que
solo remueven las redundancias en muestras adyacentes.

Factores de inactividad. El análisis de las conversaciones


telefónicas indica que una conversación está típicamente
activa durante el 40% de la duración de la llamada. La mayor
inactividad ocurre como resultado de que una persona
escucha mientras la otra habla. Para una conexión full-duplex
convencional esto significa una subutilización.
MODULACION POR CODIGO DE PULSOS DIFERENCIAL

La Modulación por Código de Pulsos Diferencial (DPCM)


está diseñada específicamente para sacar ventaja de la
redundancia muestra a muestra en una forma de onda típica
de conversación.

Ya que el rango de diferencias de muestra es menor que el


rango de muestras individuales, se necesitan pocos bits para
codificar las diferencias de las muestras. La tasa de muestreo
es a menudo la misma en lo que respecta a un sistema PCM
comparable.
PCM ADAPTATIVO DIFERENCIAL

DPCM tiene una implementación relativamente sencilla y


puede darnos un ahorro de 1 a 2 bits por muestra con respecto
a la codificación estándar PCM. Incluso se pueden lograr
ahorros mayores agregando lógica de adaptación al algoritmo
básico de PCM para crear lo que se llama PCM Diferencial
Adaptativo (ADPCM)
MODULACION DELTA

La Modulación Delta es otra técnica de digitalización que se


aprovecha de la redundancia muestra a muestra en una forma
de onda de conversación. DM se puede considerar como un
caso especial de DPCM usando solamente 1 bit por muestra
de la diferencia de señal.
El bit especifica solamente la polaridad de la diferencia de la
muestra y por lo tanto indica si la señal se incrementa o se
decrementa respecto a la última muestra.
CODIFICACION PREDICTIVA ADAPTATIVA

Los sistemas diferenciales anteriores (DPCM, ADPCM,


DM), operan con tasas de datos más bajas que el sistema
PCM debido a que codifican una diferencia de señal que
tiene una potencia promedio más baja que la señal de
entrada. La relación entre la potencia de la señal de entrada
y la potencia de la diferencia de señal es lo que se llama
ganancia de predicción.

Los sistemas DPCM simples permiten alrededor de 5 dB de


ganancia de predicción.
La Codificación Predictiva Adaptativa (APC) permite grandes
niveles de ganancia de predicción adaptando los coeficientes
de predicción a segmentos de conversación individuales.

Si los coeficientes son determinados a partir de la historia


pasada y usados para predecir los segmentos de conversación
subsecuentes, se pueden obtener ganancias de predicción del
orden de los 13 dB .
CODIFICACIÓN SUBBANDA

Es un codificador que usa un análisis en el dominio de la


frecuencia en lugar del dominio del tiempo como en los
anteriores.

Los codificadores dividen el espectro de entrada en


subbandas mediante filtros. Cada subbanda es codificada
separadamente con APCM, PCM ó ADPCM. Estos códigos
son multiplexados y transmitidos al decodificador donde son
demultiplexados, decodificados y combinados para
reconstruir la señal de entrada.
VOCODERS

Los algoritmos anteriores pretenden reproducir la señal de


entrada tan exactamente como sea posible. Estos asumen
poco o ningún conocimiento de la naturaleza de la señal que
procesan y son aplicables a cualquier señal presente en un
canal de voz.

Los procedimientos de digitalización de los vocoders


codifican específicamente señales de voz. De allí su nombre
de vocoders, por Voice Coders (codificadores de voz). Estas
técnicas son diseñadas exclusivamente para señales de voz.
El objetivo básico de un vocoder es codificar solamente los
aspectos más importantes, perceptivamente, de la
conversación, con menos bits que los codificadores de formas
de onda generales.
FIN

You might also like