You are on page 1of 26

TEMA 4

La seal de Audio
4.1 DEFINICIN Y CARACTERSTICAS DEL SONIDO
Una posible definicin de sonido es la sensacin auditiva producida por una alteracin fsica en
un medio. El elemento generador del sonido se denomina fuente sonora. La generacin del
sonido tiene lugar cuando dicha fuente entra en vibracin y sta es transmitida a las partculas de
aire adyacentes, que a su vez, la transmiten a las partculas contiguas originndose variaciones en
la presin del aire (compresiones y descompresiones). Estas variaciones de presin se propagan
en el medio originando lo que recibe el nombre de ondas sonoras. El grado de compresin y des-
compresin del aire es la amplitud de la presin de la onda sonora o presin sonora y est relacio-
nada con el nivel sonoro. La distancia entre dos picos adyacentes de compresin o
descompresin conforme la onda sonora viaja en el aire se conoce con el nombre de longitud de
onda.
En el aire, el sonido se propaga a una velocidad aproximada de 343 m/s (metros por segundo).
Esta velocidad puede variar con la densidad del aire, afectada por factores como la temperatura o
la humedad relativa. En cualquier caso, para distancias de decenas de metros las variaciones son
mnimas. Aunque en este curso nos interesa principalmente la propagacin del sonido en el aire,
se puede dar en cualquier medio. Cuanto ms denso sea el medio, mayor ser la velocidad de
propagacin del sonido en el mismo. As por ejemplo, en el agua, un valor tpico de velocidad del
sonido son 1500 m/s (el agua es ms densa que el aire). En el agua, la densidad vara mucho en
funcin de factores como la profundidad, la temperatura o la salinidad y s hay que tenerlos en
cuenta. En materiales metlicos, el sonido se propaga a velocidades superiores a las anteriores,
por ejemplo, en el acero el sonido se propaga a una velocidad en torno a 5000 m/s.
Cuando las ondas sonoras llegan al odo, el cerebro interpreta las variaciones de presin como
sonido. La velocidad con que oscila la fuente sonora es la frecuencia de la onda sonora y se mide
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.2 Tecnologa de los Contenidos Multimedia
en Hertzios (Hz) o ciclos por segundo. Para que la vibracin sea audible para un ser humano, la
fuente debe oscilar a un ritmo de entre 20 y 20000 ciclos por segundo. Esto es lo que se deno-
mina frecuencia y se mide en Hertzios (Hz). El periodo es el inverso de la frecuencia y es el
tiempo que transcurre desde que una partcula se encuentra en una posicin hasta que vuelve a
hacerlo.
Las caractersticas de una onda sonora pueden representarse grficamente mediante un eje verti-
cal para la amplitud y un eje horizontal para el tiempo. Si dicha representacin es una funcin
seno o coseno, diremos que la fuente vibra con un movimiento vibratorio armnico simple y la
onda sonora se denomina senoidal. En este caso, la onda representa un sonido puro, puesto que
tiene su energa concentrada en una nica frecuencia, y se denomina tono puro. El silbido de una
persona se aproxima bastante a una onda sinusoidal. La mayora de los sonidos reales estn
hechos a base de combinaciones de diferentes modelos vibratorios, de los que resulta una forma
de onda ms compleja. Cuanto ms compleja es una forma de onda, ms tiende a parecerse al
ruido y cuando la onda presenta un modelo muy aleatorio y poco estructurado se dice que dicho
sonido es ruido. No obstante, podemos considerar ruido como sonido no deseado, ya que hay
veces en las que precisamente lo que buscamos es generar ruido artificialmente con distintos pro-
psitos. En el apartado de sntesis se da algn ejemplo de este tipo de situaciones.
El espectro es la representacin de las frecuencias que componen una seal de audio. Se obtiene
calculando la energa que aporta cada frecuencia al sonido total. Normalmente la representacin
no se hace en trminos de energa directamente, sino que se calcula el nivel (se definir en el
siguiente apartado) respecto a la energa de referencia. Con esto se obtiene el nivel espectral. La
representacin espectral (o el espectro) puede resultar muy til puesto que aporta informacin
sobre cuanto contribuye cada frecuencia o cada banda de frecuencia al sonido total.
Esto no es mas que un cambio de representacin, es decir se trata de la misma seal pero repre-
sentada en el dominio de la frecuencia en lugar de hacerlo en el dominio del tiempo que nos
resulta ms directo y habitual. Sin embargo, el disponer de la seal en el dominio de la frecuencia
nos proporciona de forma directa informacin muy valiosa acerca del contenido frecuencial de la
misma. Este aspecto es fundamental a la hora de realizar la digitalizacin para evitar problemas
de aliasing que se comentarn ms adelante.
El tono de un sonido est directamente relacionado con la frecuencia de la oscilacin, pero
ambos trminos no son sinnimos. De hecho, muchos sonidos como los generados por instru-
mentos de percusin no tienen un tono definido. Lo que hace que un sonido tenga un tono defi-
nido es su periodicidad, es decir la forma de la onda. No importa lo compleja que sea si repite su
patrn a intervalos regulares y siempre de la misma manera. Todas estas ondas pueden descom-
ponerse en serie de componentes conocidos como armnicos, mediante un proceso matemtico
denominado anlisis de Fourier. Los sonidos musicales, a excepcin de los generados por instru-
mentos de percusin no temperados estn formados por una frecuencia fundamental que es la fre-
cuencia de vibracin ms grave y es la que determina el tono del sonido (tono o armnico
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.3
fundamental) y una serie de armnicos (frecuencias mltiplos enteros de la fundamental). La pre-
sencia y nmero de armnicos confieren al sonido la cualidad subjetiva de timbre. El timbre
podra definirse como el color de un sonido y nos permite distinguir y caracterizar distintos
tipos de instrumentos o a reconocer a las personas por su voz. Dos instrumentos musicales distin-
tos pueden hacer sonar la misma nota musical, lo que implica que su tono fundamental es el
mismo, pero la percepcin de las mismas puede ser radicalmente distinta. Esta diferenciacin la
establece el timbre y es lo que mos permite distinguir una nota generada por un piano de la
misma nota generada por una trompeta. Lo que cambia es el timbre, o lo que es lo mismo, el con-
tenido armnico de la seal o para ser ms precisos la cantidad de armnicos y las proporciones
relativas entre ellos y entre ellos y el fundamental.
En general, las ondas asociadas a la frecuencia fundamental tienen amplitud mayor, mientras que
las amplitudes de los armnicos disminuyen conforme crece la frecuencia. Esto no siempre se
corresponde con la realidad, puesto que muchas formas de onda tienen armnicos de amplitud
mayor que la del tono fundamental. Tambin es fcil encontrar espectros en los que desaparecen
algunos armnicos. Por ltimo, para un determinado sonido pueden existir frecuencias superiores
a la fundamental que no estn relacionados con sta mediante un simple mltiplo entero de sta.
En este caso se habla de sobretonos en lugar de armnicos. Es decir, todo armnico es sobretono
pero no todo sobretono es armnico. Por ejemplo, en campanas puede percibirse a veces la pre-
sencia de varios sobretonos fuertes.
Se dice que dos ondas de la misma frecuencia estn en fase cuando sus semiciclos de compresin
(positivos) y descompresin (negativos) coinciden exactamente en el tiempo y en el espacio. Si
se superponen dos seales en fase y de igual amplitud, se obtiene otra seal de la misma frecuen-
cia y doble amplitud. Se dice que dos seales estn en contrafase cuando el semiciclo positivo de
una coincide con el semiciclo negativo de la otra. Si se suman ests seales se obtiene ausencia
de seal. Estos son dos casos extremos y lo ms frecuente es tener sonidos de la misma frecuen-
cia parcialmente desfasados entre s.
Figura 4.1 Grfica que muestra el rango de sonidos audibles y detectables por el odo humano. En el eje horizontal se
muestra la frecuencia y en el vertical el Nivel de Presin Sonora. La curva sombreada inferior indica el
umbral de audicin, donde se ve que la mxima sensibilidad se presenta sobre los 4kHz.
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.4 Tecnologa de los Contenidos Multimedia
4.2 NIVEL DE PRESIN SONORA Y DECIBELIOS
Segn se ha mencionado con anterioridad, la presin sonora constituye una manera habitual de
expresar la magnitud de un sonido. En principio el valor a considerar es la diferencia entre el
valor fluctuante de la presin sonora total y su valor de equilibrio correspondiente a la presin
atmosfrica. Debido a la variacin de dicha magnitud con el tiempo, se utiliza como valor repre-
sentativo su promedio temporal, que recibe el nombre de valor eficaz o RMS (Root Mean
Square). Ahora bien, el uso de dicho valor eficaz no resulta muy til debido por una parte, al
amplio rango de presiones que el odo humano es capaz de detectar y, por otra, a la respuesta
logartmica del mismo.
En efecto, la gama de presiones que el odo humano es capaz de detectar va desde 210
-5
Pa
(valor umbral mnimo de audicin) hasta 200 Pa (umbral de dolor), es decir, extraordinariamente
amplia (140dB), por lo que la aplicacin de una escala lineal no sera nada prctico. Pa es la abre-
viatura de Pascal que es una unidad de presin que se define como la presin ejercida por una
fuerza de un Newton sobre una superficie de un metro cuadrado.
Adems, el odo humano no responde linealmente a los estmulos que recibe, sino que ms bien
lo hace de forma logartmica. Por ejemplo, si la presin de un tono puro de 1kHz se dobla, la
sonoridad o sensacin subjetiva producida por el mismo, no llegar a ser el doble. De hecho, para
obtener una sonoridad doble, es necesario multiplicar la presin sonora por un factor de 3,16.
Este comportamiento del odo humano hace conveniente el empleo de una escala logartmica
para representar la presin sonora. Esta escala se expresa en valores relativos a un valor de refe-
rencia. Dicho valor de referencia es 2x10
-5
Pa (umbral de audibilidad). En este caso se habla de
NPS que son las siglas de Nivel de Presin Sonora (SPL = Sound Pressure Level en ingls) y la
unidad utilizada es el decibelio (dB).
La utilizacin del umbral de audicin como referencia tiene como objetivo que todos los sonidos
audibles sean representados por valores NPS positivos.
El uso de decibelios reduce la gama de presiones sonoras a niveles de presin sonora de 0 a
140dB, donde 0dB representa una presin igual al umbral de audicin (no significa, por tanto,
ausencia de sonido) y 140dB el umbral aproximado de dolor. De esta manera, las cifras maneja-
das son mucho ms simples y, adems, se dan las siguientes relaciones entre cambios de nivel
sonoro y su efecto subjetivo:
1dB: mnimo cambio de nivel sonoro perceptible.
5dB: cambio de nivel claramente percibido
10dB: incremento asociado a una sonoridad doble.
Adems el NPS disminuye aproximadamente 6dB cada vez que se duplica la distancia debido a
la relacin del cuadrado de la distancia. En la tabla 4.1 se muestran niveles de presin sonora
correspondientes a sonidos y ruidos tpicos.
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.5
Tabla 4.1 Niveles de presin sonora de algunos sonidos cotidianos.
4.2.1 NIVELES DE LA SEAL DE AUDIO
Cuando la seal de audio parte de un micrfono, atraviesa una mesa de mezclas, se graba en un
multipista y llega a un altavoz, a lo largo de todos esos pasos, sufre varios cambios en el nivel de
tensin. El nivel de potencia de una seal se define como:
donde P
re
es el valor de referencia que se toma para establecer la escala de niveles y log() repre-
senta el logaritmo decimal.
Puesto que la potencia y la tensin tienen entre s una relacin cuadrtica (de la ley de Ohm tene-
mos: P=V
2
/R), el nivel de tensin L en dB se define como:
donde V
re
es el valor de la tensin de referencia. Cuando se trabaja con sonido, el valor 0dB es un
nivel de referencia nominal empleado para alinear equipos y ajustar niveles de grabacin. Su
valor corresponde normalmente a una referencia de 0.775 V (0dBu). El valor 0dB no significa
ausencia de seal, significa que la seal a la que se refiere tiene el mismo nivel que la de referen-
cia. Para indicar el estndar de referencia que se emplea en cada caso suele colocarse una letra
despus de dB (por ejemplo, dBm o dBu). A continuacin se dan algunos ejemplos de las dife-
rentes abreviaturas empleadas normalmente, que indican el nivel de referencia empleado. No hay
que olvidar que los decibelios son una unidad de medida relativa, por lo que no sirven de nada si
no se especifica el nivel de referencia.
Fuente Sonora NPS(dB)
Despeque de un reactor 150
Concierto de rock 120
Discoteca 112
Taladradora a 15m 94
Camin pesado a 15m 86
Calle de ciudad 80
Interior de automvil 74
Aspiradora a 3m 68
Conversacin normal a 1m 60
Transformador grande a 15m 54
Oficina, aula 50
Dormitorio (noche) 30
Estudio de grabacin 20
10log
re
P
L
P
=
10log
re
V
L
V
=
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.6 Tecnologa de los Contenidos Multimedia
Tabla 4.2 Tabla de sufijos de dB y los correspondientes niveles de referencia.
dBV, dBu y dBv son medidas de tensin mientras que dBW y dBm lo son de potencia.
El valor de 0.775 Voltios viene porque es el nivel de tensin que libera un milivatio de potencia
sobre una resistencia de 600 Ohmios, que es una resistencia estandar en sistemas de comunica-
ciones.
Segn esto tendremos:
dBu = dBm sobre una resistencia de 600 Ohmios
0 dBu = 0.775 Voltios
Aunque los niveles utilizados por los dispositivos de audio varan en un rango muy amplio, se
suelen distinguir tres tipos diferentes:
Nivel de micrfono (mic level). Se consideran de este tipo hasta -20dBu (77.5mV). Se obtienen a
la salida de giradiscos, micrfonos, cintas magnticas, pastillas de guitarras...
Nivel de lnea (line level). Se consideran de este tipo, niveles entre -20 y 30dBu. Son seales pro-
cedentes de mesas de mezclas, procesadores de seal, teclados electrnicos y de la mayora de
aparatos que se encuentran en un estudio de grabacin, excepto los amplificadores de potencia.
Nivel de altavoz (speaker level) o niveles superiores a 30dBu. Se obtienen a la salida de los
amplificadores de potencia y sirven para atacar los altavoces.
4.3 EL SISTEMA AUDITIVO
La audicin es el resultado de una serie de procesos acsticos, mecnicos, nerviosos y mentales
dentro de la combinacin odo-cerebro que dan la impresin de sonido. La impresin que un
humano recibe no es idntica a la forma de onda acstica verdadera presente en el canal auditivo
porque parte de la entropa de la onda se pierde.
La agudeza del odo humano es asombrosa, ya que puede detectar cantidades minsculas de dis-
torsin y aceptar un enorme rango dinmico. El nico criterio de calidad de que se dispone con-
siste en el hecho de que si el odo es incapaz de detectar distorsin alguna, se dice que el sonido
es perfecto. Por tanto, el criterio de calidad es completamente subjetivo y slo se puede compro-
bar mediante pruebas de audicin.
Abreviatura Referencia
dBV 1 Voltio
dBu 0,775 Voltios (Europa)
dBv 0,775 Voltios (EE.UU.)
dBW 1 vatio
dBm 1 milivatio
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.7
El odo se divide en tres zonas, llamadas odo externo, odo medio y odo interno, de acuerdo a su
ubicacin en el crneo. El odo externo es la parte del aparato auditivo que se encuentra en posi-
cin lateral al tmpano. Comprende la oreja y el conducto auditivo externo, que mide unos tres
centmetros de longitud, como se puede observar en la figura 4.2.
Figura 4.2 Odo externo
El odo medio se encuentra situado en la cavidad timpnica llamada caja del tmpano, cuya cara
externa est formada por el tmpano, que lo separa del odo externo. Incluye el mecanismo res-
ponsable de la conduccin de las ondas sonoras hacia el odo interno. Es un conducto estrecho,
que se extiende unos quince milmetros verticalmente y otros quince horizontalmente. La impe-
dancia del odo es mucho ms alta que la del aire y el odo medio acta como un transformador
adaptador de impedancias que mejora la transferencia de potencia. Hay una cadena formada por
tres huesos pequeos y mviles que atraviesa el odo medio. Estos tres huesos reciben los nom-
bres de martillo, yunque y estribo. Los tres conectan acsticamente el tmpano con el odo
interno, que contiene un lquido. La figura 4.3 muestra el odo medio.
Figura 4.3 Odo medio
El odo interno, o laberinto, se encuentra en el interior del hueso temporal que contiene los rga-
nos auditivos y del equilibrio. Est separado del odo medio por la ventana oval. El odo interno
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.8 Tecnologa de los Contenidos Multimedia
consiste en una serie de canales membranosos alojados en una parte densa del hueso temporal, y
est dividido en: cclea (en griego, caracol seo), vestbulo y tres canales semicirculares. La
figura 4.4 muestra el odo interno. Estos tres canales se comunican entre s y contienen un fluido
gelatinoso denominado endolinfa.
Figura 4.4 Odo interno
Los sonidos penetran al odo a travs de la oreja y chocan con el tmpano hacindolo vibrar. Esta
vibracin es recibida por los tres huesecillos articulados en cadena y controlados por dos peque-
os pero poderosos msculos. El final de la cadena lo constituye el estribo que est alojado en un
nicho llamado ventana oval que es el lugar por donde ingresa el sonido (odo interno) a la cclea
o caracol. Los movimientos del estribo producen desplazamientos del lquido en el odo interno
que estimulan las terminaciones nerviosas o clulas ciliadas, lugar donde realmente comienza el
proceso auditivo. Las clulas nerviosas estimuladas, envan la seal por el nervio auditivo hasta
los centros del cerebro, donde el estimulo elctrico es procesado.
Figura 4.5 Membrana basilar extendida.
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.9
Como se observa en la figura 4.5, la membrana basilar se extiende a lo largo de la cclea. Esta
membrana vara en masa y rigidez a lo largo de su longitud. En el extremo ms prximo a la ven-
tana oval y al tmpano, la membrana es rgida y ligera, as que su frecuencia de resonancia es alta.
En el extremo distante, prximo al pice, la membrana es pesada y suave, y resuena a baja fre-
cuencia. El rango de frecuencias de resonancia disponible determina el rango de frecuencias de la
audicin humana, que va desde los 20Hz hasta los 20KHz, sin embargo, en la prctica slo llega
hasta los 16 kHz aproximadamente.
Frecuencias diferentes en la entrada de sonido causan que diferentes reas de la membrana basi-
lar vibren. Cada rea tiene diferentes terminaciones nerviosas para permitir discriminar el tono.
La membrana basilar adems tiene msculos diminutos controlados por los nervios que juntos
actan como una especie de sistema de retroalimentacin positiva que mejora el factor de reso-
nancia. El comportamiento resonante de la membrana basilar es exactamente el mismo que el de
un analizador de espectros; la parte de dicha membrana que resuena como resultado de la aplica-
cin de un sonido es una funcin de la frecuencia.
El odo analiza el sonido con bandas de frecuencia, conocidas como bandas crticas. Los anchos
de las bandas crticas dependen de la frecuencia, tal y como se ilustra en la figura 4.6. Por debajo
de los 500 Hz, el ancho de banda crtico es aproximadamente constante (alrededor de los 100
Hz), mientras que por encima de los 500 Hz crece en proporcin a la frecuencia: el ancho de
banda crtico centrado en una frecuencia superior a 500 Hz es de alrededor del 20% de la fre-
cuencia central.
Basndose en los valores obtenidos mediante la figura 4.6, es posible subdividir el rango de fre-
cuencias audibles en intervalos adyacentes de anchura igual a una banda crtica y que no se sola-
pan entre s. Esta subdivisin se presenta en la figura 4.7. En el rango audible de 20 Hz a 20 KHz
se encuentran 25 bandas crticas adyacentes, numeradas en forma consecutiva en la figura.
Figura 4.6 Ancho de las bandas crticas en funcin de la frecuencia
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.10 Tecnologa de los Contenidos Multimedia
Figura 4.7 Bandas crticas adyacentes en el rango de frecuencias audibles
En la tabla 4.3 se muestran los valores que definen las primeras 24 bandas crticas.
Estos valores se han convertido en un estndar de facto para describir la distribucin de las
bandas crticas en funcin de la frecuencia.
Tabla 4.3 Distribucin de las bandas crticas en funcin de la frecuencia
N Banda Frec. central Frec. Superior Ancho de banda
1 50 100 100
2 150 200 100
3 250 300 100
4 350 400 100
5 450 510 110
6 570 630 120
7 700 770 140
8 840 920 150
9 1000 1080 160
10 1170 1270 190
11 1370 1480 210
12 1600 1720 240
13 1850 2000 280
14 2150 2320 320
15 2500 2700 380
16 2900 3150 450
17 3400 3700 550
18 4000 4400 700
19 4800 5300 900
20 5800 6400 1100
21 7000 7700 1300
22 8500 9500 1800
23 10500 12000 2500
24 13500 15500 3500
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.11
4.4 PERCEPCIN DEL SONIDO
Como ya se ha comentado, la banda de frecuencias audibles va desde los 20Hz (sonidos ms gra-
ves) hasta los 20kHz (sonidos ms agudos) para una persona normal de 18 a 25 aos disminu-
yendo paulatinamente con la edad. El rango dinmico del odo va desde los 0dB hasta los 120dB
(umbral de molestia) o hasta 140dB (umbral de dolor).
Se comprueba fcilmente que un sonido nos parece ms agudo cuanto mayor es su frecuencia. El
odo humano interpreta las frecuencias de manera casi logartmica. La apreciacin subjetiva de
un oyente cuando se pasa de un tono de 400 Hz a otro de 800, ser anloga a la de pasar de un
tono de 3000 Hz a otro de 6000 Hz. Es decir, el odo interpreta el mismo cambio de tono cada
vez que se duplica la frecuencia. Sin embargo la distancia en frecuencia en el primer caso es de
400 Hz y en el segundo de 3000 Hz.
Ahora bien, el odo humano no tiene la misma sensibilidad para todo el margen de frecuencias.
La figura 4.1 muestra las variaciones de los umbrales de audicin y de dolor en funcin de la fre-
cuencia. A partir de esta figura podemos concluir que:
Para niveles bajos de presin sonora, el odo es muy insensible a bajas frecuencias, es decir, el
nivel de presin sonora de un sonido grave tiene que ser mucho ms elevado que el correspon-
diente a un sonido de frecuencias medias para que ambos produzcan la misma sonoridad. Por
ejemplo un nivel NPS=70dB a 20Hz produce la misma sonoridad o sensacin subjetiva de nivel
sonoro que un nivel NPS=5dB a 5kHz.
Para dichos niveles bajos, el odo presenta tambin cierta atenuacin a altas frecuencias.
A medida que los niveles aumentan, el odo tiende a responder de forma ms homognea en toda
la banda de frecuencias audibles, hasta el punto de que cuando son muy elevados, la sonoridad
asociada a tonos puros de diferente frecuencia es muy parecida.
El odo es menos sensible para frecuencias bajas y altas. Esta caracterstica de menor agudeza
para los tonos graves favorece el enmascaramiento de los sonidos que produce el cuerpo
humano. Este comportamiento del odo con el nivel de presin sonora explica que se perciben
ms los graves y agudos si el volumen de un equipo de msica es alto. Este es el motivo por el
que escuchar la msica a niveles altos nos permite apreciarla con mayor brillantez. De hecho,
para evitar volmenes muy elevados, muchos equipos de msica incorporan un conmutador
(Loudness) para compensar este fenmeno. Cuando activamos el Loudness en estos equipos, se
produce un incremento de las bajas y altas frecuencias cuando el volumen es bajo. Este efecto se
reduce progresivamente conforme aumentamos el volumen del equipo. Esto nos permite escu-
char la msica con el mismo nivel subjetivo entre frecuencias, independientemente del volumen
de reproduccin del equipo. La figura 4.1 muestra claramente este comportamiento donde se ve
que la curva de audivilidad se va haciendo ms plana cuando el NPS Aumenta.
El nivel sonoro depende en gran medida de la naturaleza del sonido. Los sonidos de banda ancha
tienden a parecer ms fuertes que los de banda estrecha. Por otra parte los sonidos distorsionados
parecen, psicolgicamente, ser ms fuertes que los que no tienen distorsin, debido quizs a que
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.12 Tecnologa de los Contenidos Multimedia
se asocia distorsin con sobrecarga del sistema. Si se reproducen dos sonidos musicales con
niveles idnticos, uno de ellos con bastante distorsin y el otra sin ella, el oyente percibir el pri-
mero ms fuerte. Otro factor importante es que, para una determinada frecuencia, el umbral de
audicin se incrementa en presencia de otro sonido de frecuencia similar, o lo que es lo mismo,
un sonido puede enmascarar a otro.
Para dar la sensacin de que se dobla el nivel sonoro que se percibe de un sonido, se necesita un
incremento de 9 a 10dB. Aunque 6dB equivalen a multiplicar por 2 la presin sonora real, el
mecanismo de la audicin parece necesitar un incremento superior en la seal para crear la sensa-
cin de que se ha doblado el volumen.
4.4.1 ENMASCARAMIENTO
Un sonido en el rango audible slo puede ser percibido por una persona, cuando su nivel de pre-
sin sobrepasa el lmite inferior (umbral de audibilidad). En ausencia de todo ruido, este lmite es
el umbral absoluto de audibilidad. En presencia de ruido, el mismo sonido debe tener un nivel
ms alto para que se pueda distinguir.
Figura 4.8 Curvas de enmascaramiento para un tono de 1200Hz y distintos Niveles de Presin Sonora.
Este fenmeno se conoce con el nombre de enmascaramiento. Se denomina enmascaramiento a
la reduccin total o parcial de la sensibilidad de un oyente para percibir un determinado sonido,
provocado por la presencia simultnea de otro. Cuando un sonido hace que otro sea menos audi-
ble, porque ambos se producen al mismo tiempo, se dice que se produjo un fenmeno de enmas-
caramiento. El sonido cuyo umbral de audibilidad se ha modificado se denomina sonido
enmascarado y al otro, sonido enmascarante.
El efecto del enmascaramiento debido a un ruido depende del reparto espectral del mismo, ya
que se origina no slo por los sonidos que tienen la misma frecuencia que las componentes del
ruido, sino tambin por otras. Sin embargo, el efecto es mximo para la frecuencia del ruido.
N
P
S

(
d
B
)
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.13
La grfica de la figura 4.8 muestra el enmascaramiento de un tono o de un ruido de banda estre-
cha sobre otros adyacentes, donde la lnea curva inferior delimita el umbral medio de audicin.
Algunas caractersticas de este enmascaramiento que se pueden observar en dicha figura son:
Una banda estrecha de ruido, produce ms enmascaramiento que un tono puro de igual frecuen-
cia central y misma intensidad.
Cuando el ruido es de bajo nivel, el enmascaramiento se produce en una banda de frecuencia
estrecha alrededor de la frecuencia central del ruido. Para niveles superiores del ruido, se incre-
menta el margen de frecuencias afectadas
El efecto de enmascaramiento no es simtrico en torno a la frecuencia central del ruido enmasca-
rante. Las frecuencias superiores sufren ms los efectos de enmascaramiento.
La grfica muestra las zonas que estaran bajo los efectos del enmascaramiento, con un ruido de
banda estrecha centrado en 1200 Hz, y para distintos niveles de presin sonora del ruido. Para el
caso ms extremo, el ruido de 110 dB (la curva ms alta), obtenemos la mayor zona enmasca-
rada. Por ejemplo, en este caso, el oyente no detectara un tono de 8 kHz y 50 dB de nivel de pre-
sin; tampoco detectara un sonido de 4 kHz y 70 dB de nivel de presin.
Tambin se produce enmascaramiento parcial entre tonos puros cuando estn muy prximos en
frecuencia, influencindose ms cuanto ms cerca estn sus frecuencias. Si tonos puros muy
separados en frecuencia tienen sonoridades similares y suenan simultneamente, la sonoridad
percibida ser la suma de las sonoridades asociadas a dichos tonos. En cambio, si los tonos de
igual sonoridad estn muy prximos en frecuencia, al sonar simultneamente darn una sonori-
dad ligeramente superior a la sonoridad de cualquiera de ellos. El enmascaramiento parcial puede
llegar a ser total cuando hay adems de una gran proximidad en frecuencia, una notable diferen-
cia en cuanto a sonoridad, es decir, un sonido fuerte oculta totalmente a un sonido dbil, que no
puede percibirse y por tanto, no contribuye a la sonoridad.
La rama de la acstica que estudia la percepcin humana del sonido se denomina psicoacstica y
ltimamente ha cobrado importancia al ser la base para algunos de los algoritmos de compresin
ms eficientes. Este efecto de enmascaramiento es fundamental para la compresin de audio
digital ya que los tonos enmascarados se pueden ignorar puesto que no sern percibidos. Esto nos
permite conseguir una secuencia digital de audio que ocupe menos espacio de almacenamiento o
que requiera menos capacidad de un canal de comunicaciones. Los algoritmos de compresin
que utilizan este fenmeno y otros similares, se conocen como codificadores basados en la per-
cepcin o mtodos psicoacsticos (PAC: Perceptual Audio Coding) y se tratarn en un captulo
posterior.
El odo es incapaz de registrar energa en algunas bandas cuando existe ms energa en otra
banda cercana. La vibracin de la membrana en sintona con una sola frecuencia no puede ser
localizada en una zona infinitamente pequea, por lo que las zonas cercanas se ven obligadas a
vibrar a la misma frecuencia con una amplitud que decrece con la distancia. Otras frecuencias
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.14 Tecnologa de los Contenidos Multimedia
son excluidas a menos que la amplitud sea lo bastante alta como para dominar la vibracin local
de la membrana.
En el campo auditivo el rango de frecuencias audibles va de los 20 Hz a los 16 kHz (en la prc-
tica), pero el odo no es igualmente sensible a todas estas frecuencias. Las ms audibles son las
ubicadas en la zona central del espectro, aproximadamente entre 1 kHz y 5 kHz.
Para obtener el nivel de enmascaramiento se procede de la siguiente manera: Supngase que se
tienen dos sonidos, A y B. Se mide el umbral auditivo de A sin B. Luego se pasa el sonido B de
fondo y se vuelve a medir el umbral de A. El enmascaramiento es la diferencia, en dB, entre el
umbral de A en presencia de B y en ausencia de ste. Por ejemplo, si el umbral de A es de 30 dB
y el umbral de A en presencia de B es de 50 dB entonces el enmascaramiento producido es de 20
dB.
La interaccin entre dos estmulos presentados al mismo tiempo depende en gran medida de las
caractersticas de los sonidos. Seguidamente se describen las caractersticas bsicas que rigen el
enmascaramiento.
Un sonido posee mayor poder enmascarante cuando se intenta enmascarar a otro que tenga una
frecuencia parecida. En cambio, resulta muy difcil de enmascarar con otro de frecuencia dife-
rente, alejada en el espectro. El enmascaramiento podr realizarse, pero el nivel de presin
sonora necesario tendr que ser mayor que en el primer caso.
Un sonido de determinada frecuencia tiene ms poder enmascarante sobre otro de frecuencia ms
aguda que sobre otro de frecuencia ms grave a la misma distancia frecuencial. Por lo tanto, si se
est buscando el efecto de enmascaramiento, es ms fcil lograrlo con un sonido enmascarante
de frecuencia ms grave que el enmascarado.
La curva de sensibilidad que representa el umbral de audicin de una seal en funcin de su fre-
cuencia en ausencia de seal perturbadora se representa en la figura 4.9, donde la seal A es audi-
ble, puesto que sobrepasa el umbral de percepcin.
Figura 4.9 Umbral de audibilidad en funcin de la frecuencia
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.15
Ms recientemente, se ha observado que esta curva se ve afectada en presencia de mltiples sea-
les. Por ejemplo, en el caso de dos seales de frecuencias relativamente cercanas, la seal ms
fuerte hace subir el umbral de audicin en sus proximidades, cuyo efecto es disminuir la sensibi-
lidad del odo alrededor de estas frecuencias. La figura 4.10 representa este caso, donde la seal
A, antes audible, es ahora enmascarada por la cercana seal B, ms potente que A. Este efecto
recibe el nombre de enmascaramiento frecuencial, y se detalla ms adelante.
En presencia de una entrada de espectro complejo, como la msica, el umbral aumenta en casi
todas las frecuencias. Una consecuencia de este comportamiento es que el siseo de una cinta de
caset de audio analgico es slo audible durante los pasajes silenciosos de la msica.
Figura 4.10 Enmascaramiento frecuencial (A enmascarado por B)
Tambin existe un efecto de enmascaramiento temporal que bsicamente consiste en que un
sonido de elevada amplitud enmascara igualmente los sonidos ms dbiles inmediatamente ante-
riores o posteriores, tal y como ilustra la figura 4.11. Este fenmeno se detallar ms adelante.
Figura 4.11 Enmascaramiento temporal
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.16 Tecnologa de los Contenidos Multimedia
4.5 LOCALIZACIN ESPACIAL DE LAS FUENTES
En el caso ms general, en campo abierto, es decir, en ausencia de reflexiones, el cerebro localiza
la fuente de sonido, basndose en la diferencia de nivel entre un odo y otro, y en la diferencia de
tiempo (retardo) entre ambos odos. Como se haba dicho, el sonido viaja a una velocidad de 343
m/s y la separacin entre odos es de unos 20 cm, los posibles retardos llegan hasta 600 s (1
microsegundo = 0.000001 segundo). La diferencia de nivel entre los odos, es debido principal-
mente a la sombra acstica que crea la cabeza. Este efecto se acusa ms en altas frecuencias ya
que estas son ms directivas. Las altas frecuencias se localizan principalmente por diferencia de
nivel, y las bajas por diferencia de fase (retardo). Para acabar de localizar la fuente del sonido,
est el movimiento de la cabeza, que es algo instintivo y colabora de forma determinante a la ubi-
cacin de la fuente.
En este apartado, nos centraremos en un caso concreto de los posibles: dos fuentes sonoras emi-
tiendo seales coherentes. Se elige este caso porque es el ms general. Los dos altavoces de un
sistema estreo emiten, en su mayor parte seal coherente, es decir seal altamente correlacio-
nada y en algunos casos incluso la misma seal.
Figura 4.12 Esquema de ubicacin de una pareja de altavoces de un sistema estreo.
La posicin estreo por definicin, es cuando los altavoces y el oyente forman un tringulo equi-
ltero de tres metros de lado. Adems se suelen elevar los altavoces unos pocos grados sobre el
plano de audicin.
Para simular los distintos efectos se suelen aadir retardos entre los dos altavoces, mediante la
electrnica. Se puede aadir retardo a toda la seal, o solo a unas frecuencias para crear distintos
ambientes. Si el oyente se sita a la misma distancia de los dos altavoces, los escuchara al
mismo nivel, suponiendo que la seal que entra ambos altavoces es la misma, solo con posibles
retardos. Variando solo el retardo entre altavoces, tendramos los siguientes casos:
1.- Retardos entre 0 y 630 s: el oyente identifica que hay una nica fuente de sonido cuya
posicin depende del retardo entre las dos seales. El cerebro suma las seales de los dos
odos para determinar la posicin de la fuente. Este efecto se denomina localizacin suma
y es la base de los efectos estereofnicos con dos altavoces.
2.- Retardos entre 1 ms y 40-50 ms: el oyente identifica una nica fuente sonora que sita en la
posicin del altavoz cuya seal est llegando primero a sus odos (el que no est retardado).
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.17
Las componentes de seal que llegan a los odos en primer lugar son tomadas en considera-
cin y las ltimas son suprimidas en el proceso de clculo. Este es el llamado efecto del Pri-
mer Frente de Onda, muy importante a la hora de disear sistemas de refuerzo sonoro
mediante varios altavoces como sucede, por ejemplo, en salas de cine o en conciertos de
Pop/Rock en grandes espacios.
3.- Retardos superiores a 50 ms: el oyente identifica dos fuentes de sonido, cada una en la posi-
cin de un altavoz. La segunda fuente de sonido se percibir como eco de la primera.
Los lmites de los mrgenes de los retardos no son fijos, ya que dependen tambin de las condi-
ciones ambientales del experimento y tambin de la percepcin subjetiva de cada individuo. Por
ejemplo, para retardos entre 630 s y 1 ms, se tendr Localizacin Suma o Ley del Primer Frente
de Onda en funcin del sujeto y de las condiciones del experimento.
4.6 ACSTICA MUSICAL
Al principio del captulo se ha definido el sonido en su sentido ms general y desde el punto de
vista puramente fsico, sin embargo, no podemos olvidar que hay un tipo de sonido de especial
inters y es el sonido musical. La msica emplea el sonido para producir y generar en el oyente
distintas emociones y tiene sus propias reglas para conseguir un sonido agradable, aunque esto
ltimo depende fuertemente de la obra musical y del oyente, puesto que la componente subjetiva
en el campo musical es muy elevada.
Sin embargo, gustos musicales aparte, hay un cierto consenso en lo que es agradable de lo que no
lo es tanto y esto est recogido en las reglas rtmicas, meldicas y armnicas.
En una obra musical tenemos un conjunto de instrumentos que generan distintos sonidos de
forma coordinada y perfectamente sincronizada. Adems cada instrumento genera habitualmente
distintos sonidos o notas musicales. Cada uno de estos sonidos es relativamente simple pues pre-
sentan una frecuencia fundamental y un conjunto de armnicos relacionados de forma sencilla
con esta frecuencia fundamental tal y como ya se ha explicado. Pero al final lo que percibimos en
conjunto, como combinacin de todos estos sonidos, es un sonido realmente complejo. Para que
este sonido sea agradable deben guardarse unas ciertas reglas rtmicas y armnicas.
Estas reglas son fundamentales para que la sensacin percibida sea agradable y la composicin
pueda generar y transmitir ciertas emociones. Toda obra musical est compuesta, tal y como se
ha dicho, por un conjunto de sonidos que se reproducen de forma simultnea (varias notas
sonando a la vez) y secuencial (orden de reproduccin de las notas). Si nosotros alteramos el
orden, pasaremos de percibir sensaciones agradables a algo que puede resultar difcilmente
digerible. En este curso no entraremos en este tipo de aspectos pues entran de lleno en el campo
de la composicin e interpretacin musical. Pero no podemos olvidar que la msica es el gran
campo de aplicacin del procesamiento de audio sea de forma digital o no debido al gran mer-
cado y elevado inters de conlleva. No en vano, muchos de los elementos procesadores de audio
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.18 Tecnologa de los Contenidos Multimedia
se emplean casi exclusivamente en los entornos de produccin musical por lo que resultan conve-
nientes algunas nociones bsicas.
Al emitir dos o ms sonidos simultneamente se dice que se produce un acorde, que puede ser
consonante o disonante segn que la sensacin experimentada sea agradable o desagradable. La
sensacin producida en el odo no depende de los valores absolutos de las frecuencias de los
sonidos sino de la relacin entre ellas.
La msica se construye a partir de una sucesin de notas que se caracteriza por la relacin entre
sus frecuencias. La relacin fundamental en msica es la octava. Una octava se define como un
intervalo de frecuencias en el que la frecuencia superior es el doble de la frecuencia inferior y se
correspondera con un salto de ocho teclas blancas en el piano. Por ejemplo, un sonido de 200Hz
dista una octava de un sonido de 100Hz. Entre un sonido de 1kHz y otro de 250Hz hay una sepa-
racin de dos octavas (250 - 500 Hz y 500 - 1000 Hz).
Fue Pitgoras quien descubri que exista una relacin numrica entre tonos que sonaban arm-
nicos y fue el primero en darse cuenta de que la msica, siendo uno de los medios esenciales de
comunicacin y placer, poda ser medida por medio de razones de enteros. Sabemos que el
sonido producido al tocar una cuerda depende de la longitud, grosor y tensin de la misma.
Entendemos que cualquiera de estas variables afecta la frecuencia de vibracin de la cuerda. Lo
que Pitgoras descubri es que al dividir la cuerda en ciertas proporciones era capaz de producir
sonidos placenteros al odo. Eso era una maravillosa confirmacin de su teora. Nmeros y
belleza eran uno. El mundo fsico y el emocional podan ser descritos con nmeros sencillos y
exista una relacin armnica entre todos los fenmenos perceptibles.
Pitgoras encontr que al dividir una cuerda a la mitad produca un sonido que era una octava
ms agudo que el original (Do al Do superior); que cuando la razn era 2:3 se produca una
quinta (la distancia de Do a Sol) y que otras razones sencillas producan sonidos agradables.
La razn por la cual encontramos a estos intervalos ms agradables que otros tiene que ver con la
fsica de la cuerda tocada. Cuando una cuerda de 36 cm se rasga, no slo se produce una onda de
36 cm, sino que adems se forman dos ondas de 18 cm, tres de 12, cuatro de 9, y as sucesiva-
mente. La cuerda vibra en mitades, tercios, cuartos, etctera. Y cada vibracin subsidiaria pro-
duce armnicos, estas longitudes de onda producen una secuencia de armnicos, 1/2, 1/3, 1/4...
de la longitud de la cuerda. Los sonidos son ms agudos y mucho ms suaves que el sonido de la
cuerda completa (llamada fundamental) y no se perciben de forma clara precisa y consciente pero
son los que hacen que los instrumentos musicales suenen diferentes entre s (timbre). Ya que Do
y Sol, a una distancia de quinta, comparten muchos de los mismos armnicos, estos sonidos se
mezclan produciendo un resultado agradable.
Sin embargo, Pitgoras no saba nada de armnicos. l slo saba que la longitud de la cuerda
con las razones 1:2 y 2:3 produca unas combinaciones de sonidos agradables y construy una
escala a partir de estas proporciones. En sus experimentos, Pitgoras descubri tres intervalos
que consideraba consonantes: el diapasn, el diapente y el diatesaron. Actualmente los llamamos
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.19
la octava, la quinta y la cuarta porque corresponden al octavo, cuarto y quinto sonidos de la que
conocemos como escala pitagrica diatnica. La llamamos quinta porque corresponde a la quinta
nota de la escala.
Los pitagricos no saban de ondas sonoras ni de frecuencias ni de cmo la anatoma del odo
afecta la altura de un sonido. De hecho, la regla que establece que la frecuencia est relacionada
con la longitud de la cuerda no fue formulada sino hasta el siglo XVII, cuando el franciscano fray
Marin Mersenne defini algunas reglas sobre la frecuencia de una cuerda vibrando.
Una escala es una serie de notas ordenadas de forma ascendente o descendente, a la primera de
las notas se le llama tnica. A continuacin se describen las escalas musicales que han ido sur-
giendo a lo largo de la historia.
La escala diatnica:
Como mnimo desde la Edad Media las escalas que se han utilizado son las escalas diatnicas,
que se pueden simbolizar con las teclas blancas del piano. Estas escalas tienen dos intervalos
musicales diferentes: el semitono (entre las teclas blancas, Mi-Fa y Si-Do) y tonos completos
(entre las otras parejas de notas adyacentes). Tienen siete notas por octava (la octava nota de esta
serie es simplemente la repeticin de la primera, pero situada una octava ms arriba). Un inter-
valo es la diferencia de tono entre dos notas. Mientras el nombre de la nota expresa su tono o fre-
cuencia de vibracin, el intervalo indica la relacin entre una nota y otra.
La escala cromtica:
A finales del siglo XIX, y dado el hecho del uso cada vez ms frecuente de los sostenidos y los
bemoles, la msica occidental comenz a basarse no en la escala diatnica, sino en la cromtica:
12 notas en una octava, separadas por un semitono: Do, Do#, Re, Re#, Mi, Fa, Fa#, Sol, Sol#, La,
La#, Si (y nuevamente Do).
La escala temperada:
Los problemas de afinacin en instrumentos con intervalos fijos (piano, guitarra), hizo construir
una escala en la que el intervalo entre dos notas consecutivas fuese siempre el mismo. Esta es la
escala temperada que es la que se emplea en la prctica. Consta tambin de doce notas, como la
cromtica, pero la relacin de la frecuencia de una nota y la anterior es siempre igual a .
En 1939 una conferencia internacional fij la frecuencia de una nota de referencia, a partir de la
cual poder deducir todas las dems. La nota y frecuencia escogidas fueron el La4 (La de la 4
octava del piano) a 440 Hz. Posteriormente en 1995 fue adoptada por la Organizacin Internacio-
nal de Estandarizacin (ISO). A esta nota se le llama tono de referencia o tono de cmara y cons-
tituye un valor importante dentro del mundo de la msica como lo demuestran el nombre de
algunos grupos musicales como el que acompaa a Juan Luis Guerra o el grupo de Noko y los
hermanos Trevor y Howard Gray (Apollo 440). Esta nota se emplea tambin para afinar los ins-
12
2
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.20 Tecnologa de los Contenidos Multimedia
trumentos de una orquesta sinfnica. Tras afinar el primer violn o el oboe solista, ste da la nota
de 440 Hz y los dems instrumentos se afinan en consonancia. Cuando el piano forma parte de la
orquesta, es ste el que da la nota de referencia. A partir de esta se pueden deducir todas las
dems.
Figura 4.13 Teclado estndar de piano con 88 teclas; 52 blancas y 36 negras.
En la nomenclatura anglo-sajona las notas se designan mediante letra maysculas, de acuerdo
con la siguiente equivalencia:
4.7 DIGITALIZACIN DE AUDIO
El sonido es un fenmeno analgico; es una onda continua en el tiempo surgida de las diferencias
de presin del aire que nos rodea y que viaja a travs de ste. Con un micrfono se puede generar
una onda elctrica anloga (o proporcional) a estas diferencias de presin. Esta seal elctrica
analgica no puede ser almacenada de esta forma en un sistema digital; para ello debemos digita-
lizarla, es decir, convertirla en una secuencia de nmeros.
La digitalizacin de una seal analgica requiere dos procesos. En primer lugar se toman mues-
tras de la amplitud de dicha seal a intervalos regulares de tiempo (muestreo) y seguidamente se
asigna a las muestras un valor numrico proporcional (cuantificacin). Por ello hay dos aspectos
a considerar, con qu frecuencia se debe muestrear la seal y con qu precisin se cuantificar su
amplitud.
El Teorema de Nyquist establece que para poder reconstruir completamente una seal a partir
de sus muestras digitalizadas, la frecuencia de muestreo debe ser, al menos, el doble de su com-
ponente de frecuencia ms elevada.
Por otro lado la precisin depende de varios factores, entre ellos del nivel de ruido que se est
dispuesto a tolerar en la seal reconstruida, ya que la propia cuantificacin de la seal es fuente
de ruido, conocido como ruido de cuantificacin.
Los Discos Compactos (CD) de audio contienen informacin digital de sonidos muestreados a
44,1 kHz (el odo humano no puede captar sonidos por encima de los 20 KHz aproximadamente)
y cuantificados utilizando un nmero binario de 16 dgitos binarios (16 bits, 2
16
=65535 valores
posibles por cada muestra). Como los canales son dos (izquierdo y derecho), el volumen de infor-
L
a
S
i
D
o
R
e
M
i
F
a
S
o
l
L
a
S
i
D
o
R
e
M
i
F
a
S
o
l
L
a
S
i
D
o
R
e
M
i
F
a
S
o
l
L
a
S
i
D
o
R
e
M
i
F
a
S
o
l
L
a
S
i
D
o
R
e
M
i
F
a
S
o
l
L
a
S
i
D
o
R
e
M
i
F
a
S
o
l
L
a
S
i
D
o
R
e
M
i
F
a
S
o
l
L
a
S
i
D
o
L
a
#
D
o
#
R
e
#
F
a
#
S
o
l#
L
a
#
D
o
#
R
e
#
F
a
#
S
o
l#
L
a
#
D
o
#
R
e
#
F
a
#
S
o
l#
L
a
#
D
o
#
R
e
#
F
a
#
S
o
l#
L
a
#
D
o
#
R
e
#
F
a
#
S
o
l#
L
a
#
D
o
#
R
e
#
F
a
#
S
o
l#
L
a
#
D
o
#
R
e
#
F
a
#
S
o
l#
L
a
#
Do Re Mi Fa Sol La Si
C D E F G A B
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.21
macin que es necesario procesar es de 1,4 Mbits/segundo (44100 muestras por segundo x 16
bits x 2 canales). Esta inmensa cantidad de informacin es difcil y costosa de manipular, an
para los modernos sistemas digitales actuales. Es necesario, por lo tanto, algn mtodo de reduc-
cin o compresin para reducir este volumen de datos.
Suponiendo que no se desea reducir la frecuencia de muestreo ni la precisin de la cuantifica-
cin, existen dos tipos de mtodos para comprimir audio digital: compresin sin prdida de infor-
macin (lossless) y compresin con prdida de informacin (lossy). Ejemplos de codificadores
sin prdida de informacin son el ZIP de propsito general y especficos para audio el Monkey
Audio y el FLAC (Free Lossless Audio Codec), A finales de la dcada de los 80 y principios de
los 90, un comit internacional denominado MPEG (Moving Pictures Expert Group), trabajando
bajo los auspicios de la ISO (International Organization for Standarization) y el IEC (Internatio-
nal Engineering Consortium) public, bajo la forma de un estndar internacional, un algoritmo
para comprimir seales de audio sin prdidas apreciables en la calidad, pero s con prdidas de
informacin. Dicho estndar, el ISO/IEC-11172-3 es la tercera parte de un conjunto ms amplio
de normas que incluyen la compresin de seales de video (ISO/IEC-11172-2) y los sistemas
asociados para su sincronizacin, procesamiento y transmisin (ISO/IEC-11172-1) sobre canales
de comunicacin o medios de almacenamiento con una capacidad mxima de 1,4 Mbits/segundo.
El documento propone tres niveles (layers) de compresin, de creciente eficiencia y complejidad,
con los que se pueden alcanzar relaciones de compresin de hasta 12:1 en el ms elaborado de
todos (Layer 3).
La norma ha cobrado gran relevancia en el mbito de Internet; los motivos son dos: la notable
calidad de sonido del audio comprimido y su altsima relacin de compresin; lo que permite
archivos de sonido de poco tamao, de alta calidad y muy fciles de trasmitir a lo largo de la Red.
Este esquema es el empleado por el clebre formato MP3. De hecho sus siglas provienen de la
contracin de MPEG-Layer 3.
Puede definirse el sonido como una onda continua que viaja a travs del aire; dicha onda est
constituida por diferencias de presin y tiene las mismas propiedades que una onda normal:
reflexin, refraccin, difraccin, etc..
Los sistemas desarrollados desde la poca de Edison hasta finales de la dcada del '70, aproxima-
damente, tienen una caracterstica en comn: todos son sistemas analgicos. Es decir, el sistema
procesa y/o almacena un registro anlogo a la onda sonora que se pretende captar. Este registro
puede ser mecnico, elctrico o magntico. Por ejemplo: el surco que recorre una aguja sobre la
superficie de un disco de vinilo es anlogo a la onda de sonido original. Lo mismo sucede con las
cintas magnticas, la mayor o menor magnetizacin de la cinta es proporcional y anloga a la
onda de sonido que excit al sistema en primera instancia. Hoy en da prevalece otra forma de
registrar y almacenar sonidos: el audio digital.
Como ya se ha indicado la digitalizacin es un proceso mediante el cual una seal analgica (de
audio por ejemplo) es representada por una secuencia finita de nmeros. Mediante esta secuencia
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.22 Tecnologa de los Contenidos Multimedia
de nmeros es posible volver a reconstruir la seal analgica original. La digitalizacin es espe-
cialmente interesante porque los nmeros son ms fciles de tratar por los sistemas electrnicos
actuales y, fundamentalmente, porque la prdida de calidad al transmitir, reproducir, copiar o
almacenar la informacin digitalizada es nula.
Para digitalizar una seal de audio es necesario conocer algunas de sus caractersticas, principal-
mente su componente de mayor frecuencia, es decir el ancho de banda de la seal, ya que
mediante el teorema de muestreo de Nyquist obtenemos la frecuencia de muestreo mnima nece-
saria. Se utiliza la mnima porque dicho teorema establece una condicin suficiente que por tanto
garantiza la reconstruccin. Utilizar una frecuencia mayor tendra como consecuencia un nmero
mayor de datos y con ello de coste de almacenamiento, sin aportar nada til.
El proceso consiste en tomar muestras de la amplitud de la seal a intervalos regulares de tiempo
(muestreo) y asignarles un valor numrico proporcional (cuantificacin).
Supngase que se pretende muestrear una onda sinusoidal como la de la figura 4.14.a. Si se toma
una muestra por ciclo de la seal, la informacin puede indicar que la seal es constante (figura
4.14.b). Si se toman muestras a baja velocidad, por ejemplo 1,5 veces
por ciclo de la seal, podra pensarse que es una seal sinusoidal de menor frecuencia (figura
4.14.c). Este fenmeno, que se produce cuando la frecuencia de muestreo no es al menos el doble
de la mayor frecuencia contenida en la seal a digitalizar recibe el nombre de aliasing.
(a)
(b)
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.23
(c)
Figura 4.14 Muestreo
Como ya se ha dicho el Teorema de Nyquist o teorema del muestreo, demuestra que una seal de
ancho de banda limitado puede ser totalmente reconstruida a partir de sus muestras si la frecuen-
cia de muestreo es, al menos, el doble de la componente de mayor frecuencia de la seal.
Supngase el ejemplo del odo humano. Es capaz de percibir sonidos de hasta 22 KHz de fre-
cuencia, se es su ancho de banda. Entonces, segn el Teorema de Nyquist, para poder digitalizar
correctamente todo este ancho de banda se deberan tomar muestras al doble de frecuencia. La
frecuencia de muestreo utilizada en los discos compactos de audio es de 44,1kHz, suficiente para
poder cubrir todo el espectro audible del ser humano y lograr una alta calidad de sonido.
Una vez decidida la velocidad con la que se tomarn las muestras, es necesario medir la amplitud
de cada una de ellas y asignarles un nmero, este proceso se denomina cuantificacin.
La cuantificacin entonces, consiste en asignarle un valor numrico a la amplitud de cada mues-
tra de la seal. Por lo general dicho nmero se expresa en notacin binaria; generalmente se utili-
zan 8 o 16 dgitos binarios (8 o 16 bits) para representarlo.
A mayor cantidad de bits, mayor ser la precisin con la que se medir cada muestra; la eleccin
de esta precisin depende de varios factores, entre ellos del nivel de ruido que se est dispuesto a
tolerar en la seal reconstruida.
En sistemas analgicos parte de la seal es informacin til y parte de ella son fluctuaciones
aleatorias (ruido). La relacin entre las potencias de las dos se denomina Relacin Seal/Ruido
(SNR):
Esta relacin es una medida de la calidad de la seal y generalmente es expresada en Decibelios
(dB). Para el caso de seales digitalizadas, la precisin de una muestra est determinada por el
nmero de bits usados para medir su amplitud (por ejemplo 8 o 16 bits). La calidad de la cuanti-
zacin puede medirse a travs de la Relacin Seal/Ruido de Cuantizacin (SQNR). Si se utili-
2
2
10log 20log
seal seal
ruido ruido
V V
SNR
V V
= =
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.24 Tecnologa de los Contenidos Multimedia
zan N bits de resolucin por cada muestra, la medicin de la amplitud de dicha muestra solo
podr tomar 2N valores distintos, en un rango que va de -2N-1 a 2N-1.
El error de cuantizacin es la diferencia entre el valor real de la seal analgica en un punto y el
valor asignado a la muestra. El mayor (peor) error de cuantizacin es medio intervalo de cuanti-
zacin (medio LSB Least Significant Bit).
En otras palabras, cada bit suma 6 dB de resolucin. De esta manera, con 16 bits se logra una
mxima Relacin Seal/Ruido de Cuantizacin de 96 dB.
En resumen, la eleccin de la frecuencia de muestreo depende del ancho de banda de la seal;
mientras que la eleccin de la cantidad de bits de resolucin de cada muestra depende del nivel
de ruido que estemos dispuestos a tolerar en la seal reconstruida.
Este tipo de proceso de digitalizacin es ms conocido por sus siglas en ingls: PCM, Pulse Code
Modulation, o Modulacin por Codificacin de Pulsos.
A modo de ejemplo, a continuacin se muestra en la tabla 4.4 con las diferentes calidades de
audio que pueden conseguirse con diferentes combinaciones de frecuencias de muestreo y reso-
luciones de cuantificacin:
Tabla 4.4 Distintas calidades de audio y su Data Rate asociado.
Los valores de la columna Data Rate se calculan multiplicando la frecuencia de muestreo por la
cantidad de bits por muestra y por la cantidad de canales (mono=1, stereo=2). El resultado es la
cantidad de bits que debe procesar el sistema en un segundo y da una idea general del volumen
de informacin que debe ser capaz de manejar.
Si bien los sistemas digitales actuales son muy poderosos; capaces de almacenar, procesar y
transmitir grandes cantidades de informacin en muy poco tiempo y espacio, existen determina-
das seales cuyo volumen de informacin es extremadamente grande y por lo tanto dificultan y
encarecen todos estos procesos. Tal es el caso, por ejemplo, del audio almacenado en un Disco
Compacto. Como se observa en la tabla 4.4, el Data Rate de un CD es de aproximadamente 1,5
Mbits/segundo, un volumen ms que importante de informacin si pensamos que esto se traduce
1
2
20log 20log 20 log2 6.02 ( )
1
2
N
seal
ruido cuantizacion
V
SNR N N db
V

= = = =
Calidad

Ancho de
Banda
Frecuencia
de Muestreo
[KHz]
Bits por
muestra
Mono/Stereo Data Rate
Telfono 2003400 Hz 8 8 mono 64 kbps
Radio AM 5,6 KHz 11,025 8 mono 88,2 kbps
Radio FM 11 KHz 22,05 16 stereo 705,6 kbps
Compact Disc 22,05 KHz 44,1 16 stereo 1,4 Mbps

TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
Tecnologa de los Contenidos Multimedia 4.25
en unos 650Mbytes para tan slo 74 minutos de audio (Capacidad de un CD-Audio convencio-
nal). Debido a esto, se han desarrollado a lo largo de los aos diferentes mtodos para reducir o
comprimir la cantidad de datos a procesar por los sistemas digitales.
TEMA 4. LA SEAL DE AUDIO UNED - CURSO 2009-2010
4.26 Tecnologa de los Contenidos Multimedia