Professional Documents
Culture Documents
Tpe 062c PDF
Tpe 062c PDF
Señales y Sistemas
Introducción a la codificación de señales de audio
en formato MP3
14 de noviembre de 2006
Objetivo
Este trabajo práctico tiene como finalidad la comprensión por parte del alumno de la utilidad
del procesamiento de señales en su aplicación a compresión de señales de audio. En particular,
estamos interesados en entender cómo los sistemas denominados de procesamiento de señales en
múltiples velocidades (multirate signal processing) son utilizados para estos fines. Se propone
en el desarrollo del mismo estudiar un tipo particular de sistemas multirate, los denominados
filtros polifásicos, y entender cómo dichos filtros son utilizados en la codificación propuesta por
la norma MPEG-1, en sus aspectos relacionados al audio, conocido bajo la patente comercial
como MP3.
Para el desarrollo del Trab. Práctico serán utilizadas diversos temas:
Conceptos elementales de cuantización.
Filtros discretos: métodos de diseño de filtros multirate, con representación polifásica.
Rudimentos de codificación sub-banda (subband coders).
Códigos perceptuales y fenómenos psicoacusticos.
Elementos básicos de definición de la norma MPEG-1.
* Esta guı́a.
* Las soluciones a los problemas planteados: Cuando el problema requiera una implementa-
ción, la misma debe estar adecuadamente descripta y debidamente justificada. Es decir,
si es necesario justificación teórica, ésta debe estar desarrollada. Si se pide una imple-
mentación práctica la misma debe estar adecuadamente documentada de modo que el
docente pueda constatar que las especificaciones requeridas se cumplen. Esto incluye la
presentación del programa de MATLAB utilizado, y los gráficos necesarios para mostrar
los resultados obtenidos. Los programas de MATLAB deben incluirse en la presentación
impresos y en versión electrónica. Todos los gráficos deberán tener tı́tulo, comentarios en
ambos ejes sobre la unidad a representar y el eje de abscisas debe estar en unidades de
tiempo o frecuencia según corresponda.
Nota del trabajo práctico especial: vendrá dada por (ver reglamento):
70: Tp en el que el alumno realiza y demuestra conocimiento de todos los puntos solicitados.
100: Tp en el que el alumno demuestra una clara conceptualización del trabajo realizado y
excede las pautas solicitadas.
Introducción
Desde que se establecieron los principios básicos de la transmisión de señales en formato
digital en los años 50, con el trabajo fundador de Shannon “Una Teorı́a Matemática de la
Comunicación”, ha habido un incesante crecimiento de investigación sobre métodos más y
más poderosos para enviar la misma información en menos bits. En las últimas décadas la
investigación en esos temas era una cosa tan difundida, y la electrónica necesaria para implentar
ese tipo de transmisiones tenı́an un grado de madurez tal, que era necesario contar con una
norma que permitiera estandarizar el tipo de codificación de modo que fuera posible pensar
por ejemplo en la television digital, es decir que permitiera a las industrias fabricar aparatos
receptores de señales en algún formato estandard.
A fin de alcanzar ese objetivo, y en general normalizar las técnicas de compresión para
video y audio, la Organización Internacional de Normas (ISO: Internations Standards Organi-
zation), creó un subcomité en conjunto con la Comisión Internacional de Electrotecnia (IEC:
Internations Electrotechnical Commission) denominado “Grupo de Expertos en Imagenes en
Movimiento”MPEG (Moving Pictures Experts Group). Este grupo de trabajo ha desarrollado
dos normas, una para video y audio digital de computadoras, identificada por la sigla MPEG-1
(año 1991), y otra para video y audio digitales empleados en la radiodifusión y en la distribu-
ción de tales señales, llamada MPEG-2 (1992). Actualmente el grupo MPEG está trabajando
en la norma MPEG-4. La normas de codificación de audio no son absolutamente cerradas, sino
que permiten diferentes grados de compresión. En MPEG-1 hay tres distintas capas, cada una
de las cuales crecen en complejidad. Lo que comunmente llamamos MP3 es la primera imple-
mentación hecha de la norma MPEG-1, capa III, que fue patentada y por lo tanto no es una
norma pública. En el artı́culo de Brandenburg, perteneciente al Fraunhofer Institute for Inte-
grated Circuits FhG-IIS A, Alemania, se explica porqué esta implementación, que justamente
fue gestada en dicho instituto, llegó a ser tan popular.
e(n)
Los niveles de cuantización son suficientes como para cubrir todo el rango de la señal, es
decir que no hay “clipping”.
Si estas dos premisas se cumplen, tendremos que las amplitudes posibles de e(n) son como máxi-
mo ±∆/2 y su distribución de densidad de probabilidad es una uniforme entre esos lı́mites. Este
modelo es adecuado si se supone que el ruido de cuantización no degradará significativamente
a la señal.
En este caso la señal se divide en M señales distintas, mediante M filtros pasabanda. Cada
una de las señales de salida tendrá distintas necesidades de cuantización de acuerdo al tipo
de señal a codificar, y por lo tanto la cantidad total de bits disponibles por unidad de tiempo
puede ser distribuı́da entre las diferentes señales para lograr menor degradación de la señal, o
a la inversa, para la misma degradación usar menos bits. Si las bandas de frecuencia no tienen
overlapp entre ellas, es lógico pensar que el sistema tendrá éxito en recuperar la señal con un
mı́nimo de distorsión. Los subbancoders implementan versiones de bancos de filtros que pueden
lograr el mismo objetivo, aunque el overlap de las bandas no sea nulo.
Un ejemplo de tal descomposición que ya a sido objeto de estudio en nuestra materia es la
transformada de Fourier de corto tiempo, en su versión para frecuencia discreta. La expresión
de la STFT (Short time Fourier Transform) puede escribirse como
∞
2π k m
X
Xk (n) = x(n − m) w(m) e−j M
m=−∞
∞
−j 2πM
km
X
Xk (n) = x(n − m) w(m) e
m=−∞
que puede ser pensada como una serie de M señales, Xk (n), una para cada uno de los ı́ndices
de la DFT, que son porciones filtradas de la señal.
1. Dibuje los espectros del banco de filtros correspondiente a la STFT para ventana rectan-
gular y de Hanning. Discuta cuál de los dos casos tiene más aliasing entre bandas.
Multirate
Este principio de convertir una señal x(n) en M señales parecerı́a presentar el inconveniente
de que se necesitan M veces más muestras que antes para enviar la señal x(n). Sin embargo,
como las señales son de banda limitada, no es difı́cil imaginar que es posible enviar solo una
muestra de cada M , o sea, submuestrear por M cada una de las señales del banco de análisis sin
perder información realmente. El esquema completo del banco de filtros será como se muestra
ahora en la figura para M = 2.
2. Grafique esquemáticamente para un banco de filtros pasabanda ideal, cómo serı́a el es-
pectro de la señales x0 (n), x1 (n), v0 (n), v1 (n), y0 (n) e y1 (n) y discuta una posible elección
de los filtros de reconstrucción, que sea capaz de obtener una baja distorsión de la señal
x̂(n) con respecto a la original.
- Una elección adecuada de los parámetros de los moduladores hace que la distorsión total
de la señal sea baja, a nivel tolerable.
El modelo Psicoacústico
La norma MPEG-1 para audio implementa una compresión de la información con pérdidas.
En la compresión con pérdidas, los datos codificados y vueltos a decodificar no son idénticos
bit a bit a los datos de la fuente. La compresión con pérdida es irreversible, ya que la señal de
audio reconstruı́da no será exactamente igual a la señal original.
La compresión con pérdida, permite una más alta reducción de la tasa de bits. En general,
una mayor compresión crea una mayor distorsión pero con técnicas cuidadosamente seleccio-
nadas, esta distorsión puede hacerse bastante imperceptible al oı́do humano. Los codificadores
con pérdida exitosos son aquellos en los cuales las diferencias se arreglan para que un oyente hu-
mano los encuentre subjetivamente difı́cil de percibir. Estos codificadores están basados en una
comprensión de percepción psicoacústica. Estos se llaman frecuentemente códigos perceptivos.
Para una introducción a los modelos psicoacústicos, consulte la bibliografı́a sugerida.
4. Describa los principales fenómenos psicoacústicos que se tienen en cuenta en los modelos
utilizados en la norma: Sensibilidad del oı́do humano en función de la frecuencia, Enmas-
caramiento en frecuencia, y Enmascaramiento simultáneo (dominio frecuencia) por ruidos
y tonales.
5. Describa para cada frame los pasos que se siguen en la determinación de la máscara de
ruido por banda implementada en los scripts de Matlab suministrados. Determine para
cada paso cuál de los dos modelos psicoacústicos está implementado en los scripts.