You are on page 1of 139

1

Programa Oficial de Postgrado:



Master en Comunicaciones, Redes y Gestin de Contenidos




TECNOLOGA DE LOS CONTENIDOS MULTIMEDIA





Optativa de 2 cuatrimestre



TEMA 2


INTRODUCCION A LOS SISTEMAS DE
COMPRESIN CON/SIN PRDIDAS
2











2. Introduccin a los sistemas de compresin
con/sin prdidas


2.1. Descripcin de la informacin. Redundancia

2.2. Algoritmos de compresin sin prdidas

2.3. Representacin de seales. Cambio de base/dominio

2.4. Introduccin a las operaciones transformadas (coseno, wavelet)

2.5. Posibilidades y aplicaciones de los distintos tipos de compresin
3

TABLA DE CONTENIDO
2.1. INTRODUCCIN..................................................................................................... 4
2.1.1 INFORMACION CODIFICADA....................................................................... 4
2.1.2 FRECUENCIA DE MUESTREO....................................................................... 5
2.1.3 RESOLUCIN.................................................................................................. 11
2.2 DESCRIPCION DE LA INFORMACION. REDUNDANCIA............................... 13
2.2.. REDUNDANCIA:.............................................................................................. 15
2.3. ALGORITMOS DE COMPRESIN SIN PRDIDAS.......................................... 17
2.3.1. RLE................................................................................................................... 19
2.3.2 HUFFMAN........................................................................................................ 23
2.4 REPRESENTACION DE SEALES. CAMBIO DE BASE/DOMINIO................ 30
2.4.1. CLASIFICACIN Y PROPIEDADES DE LAS SEALES: ......................... 32
2.4.2. OPERACIONES PARA SEALES ................................................................ 37
2.4.3. SEALES TILES.......................................................................................... 39
2.4.4. SEALES EN TIEMPO DISCRETO.............................................................. 42
2.5. INTRODUCCIN A LAS OPERACIONES TRASNFORMADAS (COSENO,
WAVELET) ................................................................................................................... 47
2.5.1. INTRODUCCIN............................................................................................ 47
2.5.4. ORGANIZACIN DE LOS COEFICIENTES WAVELET ........................... 62
2.5.5. APLICACIONES ............................................................................................. 66
2.5.6. TRANSFORMADA DISCRETA DEL COSENO........................................... 80
2.5.7 APLICACIONES .............................................................................................. 83
2.6 POSIBILIDADES Y APLICACIONES DE LOS DISTINTOS TIPOS DE
COMPRESIN ............................................................................................................ 104
2.6.1PRUEBAS SOBRE COMPRESORES COMERCIALES: .............................. 132
EJERCICIOS DE AUTOEVALUACION................................................................... 136
BIBLIOGRAFA.......................................................................................................... 139


4
2.1. INTRODUCCIN

La compresin es uno de los campos de la informtica que ms inters ha despertado en
los ltimos aos. Al mismo tiempo, se puede considerar como una de las ramas en las
que ms se ha profundizado dentro de lo que se denomina Teora de la Informacin y de
la Codificacin.

La necesidad de compresin es innata tanto en las comunicaciones como en la propia
informtica. Resulta impensable realizar transferencias a altas velocidades a travs de
una red de ordenadores sin utilizar algn tipo de compresin que permita reducir los
tiempos de transmisin.

Lo mismo ocurre con los dispositivos de almacenamiento, los cuales, pese a que crecen
en tamao constantemente, permiten un uso mucho ms eficiente haciendo uso de
dichas tcnicas.

En cualquier caso, y volviendo a la Teora de la Codificacin, debemos sealar que el
principal objetivo de la compresin, en cualquiera de sus formas, es la eliminacin de la
redundancia. Partiendo de esta idea bsica, exploraremos tcnicas ms o menos
complejas que nos permitan llevar a buen trmino dicha tarea.

Lo que se propone en este tema es dar una visin global de las tcnicas de compresin
ms importantes de la actualidad y del pasado. As, se profundizar especialmente en
temas como la compresin estadstica y las tcnicas basadas en diccionario.

2.1.1 INFORMACION CODIFICADA

Se dice que una seal es digital cuando las magnitudes de la misma se representan
mediante valores discretos en lugar de variables continuas. Por ejemplo, el interruptor
de la luz slo puede tomar dos valores o estados: abierto o cerrado, o la misma lmpara:
encendida o apagada (para mas informacin pueden consultarse otra bibliografa sobre
los circuito de conmutacin).
Los sistemas digitales, como por ejemplo el ordenador, usan lgica de dos estados
representados por dos niveles de tensin elctrica, uno alto, H y otro bajo, L (de High y
Low, respectivamente, en ingls). Por abstraccin, dichos estados se sustituyen por
5
ceros y unos, lo que facilita la aplicacin de la lgica y la aritmtica binaria. Si el nivel
alto se representa por 1 y el bajo por 0, se habla de lgica positiva y en caso contrario de
lgica negativa.
Cabe mencionar que adems de los niveles, en una seal digital estn las transiciones de
alto a bajo o de bajo a alto, denominadas flanco de subida o de bajada, respectivamente.
En la siguiente figura se muestra una seal digital donde se identifican los niveles y los
flancos.



Figura 2.1: Seal digital: 1) Nivel bajo, 2) Nivel alto, 3) Flanco de subida y 4) Flanco
de bajada.

Es conveniente aclarar que, a pesar de que en los ejemplos sealados el trmino digital
se ha relacionado siempre con dispositivos binarios, no significa que digital y binario
sean trminos intercambiables. Por ejemplo, si nos fijamos en el cdigo Morse, veremos
que en l se utilizan, para el envo de mensajes por telgrafo elctrico, cinco estados
digitales que son:
punto, raya, espacio corto (entre letras), espacio medio (entre palabras) y
espacio largo (entre frases)


Referido a un aparato o instrumento de medida, decimos que es digital cuando el
resultado de la medida se representa en un visualizador mediante nmeros (dgitos) en
lugar de hacerlo mediante la posicin de una aguja, o cualquier otro indicador, en una
escala.

El espacio que ocupa una informacin codificada (datos, seal digital, etc.) sin
compresin es el cociente entre la frecuencia de muestreo y la resolucin.

2.1.2 FRECUENCIA DE MUESTREO

La tasa o frecuencia de muestreo es el nmero de muestras por unidad de tiempo que se
toman de una seal continua para producir una seal discreta, durante el proceso
6
necesario para convertirla de analgica en digital. Como todas las frecuencias,
generalmente se expresa en hercios (Hz, ciclos por segundo) o mltiplos suyos, como el
kilohercio (kHz), aunque pueden utilizarse otras magnitudes.






Figura 2.2: Seal original y muestreo de la misma.


Teorema de Nyquist

Segn el teorema de muestreo de Nyquist-Shannon, para poder replicar con exactitud la
forma de una onda es necesario que la frecuencia de muestreo sea superior al doble de la
mxima frecuencia a muestrear.

El teorema de Nyquist slo indica el valor mnimo necesario para que el muestreo
resulte eficaz. Por encima de ese valor, cuanto mayor sea el nmero de niveles de
comparacin (muestras), ms fiel ser la conversin analgica digital (A/D), lo que se
traduce en una mayor calidad de la seal resultante. Cuantas ms muestras se tengan,
ser posible reconstruir mejor la seal; no obstante, a mayor frecuencia de muestreo
(ms informacin/datos), mayor ser el ancho de banda necesario.

En trminos informticos, una mayor frecuencia de muestreo requiere una mayor
resolucin (nmero de bits). Un nmero mayor de bits implica, en la prctica, que la
seal se procese ms lentamente y, por lo general, un encarecimiento del equipo, que
requiere interfaces ms potentes, ms memoria, etc.

Adems, aunque se siga aumentando la frecuencia de muestreo, la calidad no contina
incrementndose indefinidamente. Matemticamente se ha demostrado que, llegado un
7
determinado punto (sobrepasada cierta cantidad de muestras por segundo), la calidad ya
no aumenta, debido al principio general de rendimientos marginales decrecientes.


Frecuencias de muestreo para audio y vdeo

Audio

En audio, la mxima audiofrecuencia perceptible para el odo humano est en torno a
los 20 kHz, por lo que tericamente una frecuencia de muestreo de 40 kHz sera
adecuada para digitalizarla; no obstante, el estndar introducido por el CD, se estableci
en 44,1 kHz. La frecuencia de muestreo ligeramente superior permite compensar los
filtros utilizados durante la conversin analgica-digital.

Hay que tener en cuenta que no todas las fuentes sonoras se aproximan a los 20 kHz que
corresponden a esta frecuencia mxima; la mayora de los sonidos est muy por debajo
de sta. Por ejemplo, si se va a grabar la voz de una soprano, la mxima frecuencia que
la cantante ser capaz de producir estar en torno a los 1046 Hz, con lo que utilizar una
frecuencia de muestreo de 44,1 kHz sera innecesario (se estara empleando una
capacidad de almacenamiento extra que se podra economizar).
En este caso, siguiendo el Teorema de Nyquist, sera adecuada una frecuencia de
muestreo en torno a los 2100 Hz. En este sentido, la mayora de software/hardware
estn preparados para que el usuario pueda seleccionar la frecuencia de muestreo a
utilizar.

El estndar del CD-Audio est fijado en 44,1 kHz, pero esto no significa que esa sea la
frecuencia que utilizan todos los equipos. Los sistemas domsticos de baja calidad
pueden utilizar frecuencias de 22,05 kHz o de 11,025 kHz (produciendo as una seal
analgica de inferior calidad a la que podra generarse con la informacin contenida en
el disco). Adems, las tarjetas de sonido de los equipos informticos utilizan frecuencias
por encima o por debajo de este estndar, muchas veces seleccionndolas en funcin de
las necesidades concretas (sobre todo, en aplicaciones de audio profesional).

En audio profesional, se utilizan frecuencias de muestreo de 48 kHz o superiores. La
razn es que cuando se graban altas frecuencias, cercanas a los 20 kHz, usando los 44,1
kHz, slo se recogen dos muestras por ciclo, con lo que la seal resultante queda muy
limitada. Ante esto, es evidente que las altas frecuencias se muestrean peor que las
bajas; una tasa de muestreo superior al estndar permite corregir esta disparidad.




Frecuencias de muestreo tpicas
Para audio
8.000 Hz
Telfonos, adecuado para la voz humana pero no para la
reproduccin musical.
22.050 Hz Radio.
8
32.000 Hz Vdeo digital en formato miniDV.
44.100 Hz
CD, tambin comn en audio en formatos MPEG-1 (VCD,
SVCD, MP3).
47.250 Hz Formato PCM de Nippon Columbia (Denon).
48.000 Hz
Sonido digital utilizado en la televisin digital, DVD, formato
de pelculas, audio profesional y sistemas DAT.
50.000 Hz
Primeros sistemas de grabacin de audio digital de finales de
los 70 de las empresas 3M y Soundstream.
96.000
192.400 Hz
HD-DVD, audio de alta definicin para DVD y BD-ROM (Blu-
ray Disc).
2,8224 MHz SACD, Direct Stream Digital, desarrollado por Sony y Philips.
Para vdeo
50 Hz Vdeo PAL.
60 Hz Vdeo NTSC.

Tabla 2.1: Algunas frecuencias de muestreo tpicas en sistemas de audio y vdeo.






9
Vdeo

En vdeo digital, la frecuencia entre fotogramas es utilizada para definir la frecuencia de
muestreo de la imagen en lugar del ritmo de cambios de los pxeles individuales. La
frecuencia de muestreo de la imagen es el ritmo de repeticin del perodo de integracin
del CCD
1
. Dado que el periodo de integracin puede ser significativamente ms corto
que el tiempo entre repeticiones, la frecuencia de muestreo puede diferir de la inversa
del tiempo de muestreo.

Efecto aliasing

Si se utiliza una frecuencia menor a la establecida por el teorema de Nyquist, se produce
una distorsin conocida como aliasing; algunos autores traducen este trmino como
solapamiento. El aliasing impide recuperar correctamente la seal cuando las muestras
de sta se obtienen a intervalos de tiempo demasiado largos. La forma de la onda
recuperada presenta pendientes muy abruptas, como puede observarse en la figura 2.3:


Figura 2.3: Distorsin aliasing.


1:
Un CCD (del ingls Charge-Coupled Device, "dispositivo de cargas (elctricas)
interconectadas") es un circuito integrado que contiene un nmero determinado de
condensadores enlazados o acoplados. Bajo el control de un circuito interno, cada condensador
puede transferir su carga elctrica a uno o a varios de los condensadores que estn a su lado en
el circuito impreso. La alternativa digital a los CCD son los dispositivos CMOS
(Complementary Metal Oxide Semiconductor) utilizados en algunas cmaras digitales y en
numerosas Webcam. En la actualidad los CCD son mucho ms populares en aplicaciones
profesionales y en cmaras digitales.
Los primeros dispositivos CCD fueron inventados por Willard Boyle y George Smith en 1969
en los Laboratorios Bell.

Una pendiente abrupta genera cierta dispersin de la seal. Esta dispersin es la
responsable de que se generen ecos (entendiendo por eco, no un sonido, sino un desfase
o desplazamiento temporal de la seal). El efecto aliasing y la dispersin (o
distanciamiento de un conjunto de valores con respecto a su valor medio) que introduce
quedaron demostrados por los experimentos de Lagadec y Stockham.
10
Filtro antialiasing

Para eliminar el aliasing, los sistemas de digitalizacin incluyen filtros paso bajo, que
eliminan todas las frecuencias que sobrepasan la frecuencia ecuador (la que corresponde
a la mitad de la frecuencia de muestreo elegida) en la seal de entrada. Es decir, todas
las frecuencias que queden por encima de la frecuencia de muestreo seleccionada son
eliminadas. El filtro paso bajo para este uso concreto recibe el nombre de filtro
antialiasing. Sin embargo, abusar de los filtros antialiasing, puede producir el mismo
efecto que se quiere evitar. Cuando se conectan varios filtros en cadena (en el muestreo,
en la conversin digital-analgica
1
, etc.), un filtrado excesivo de una onda que ya
cumpla con el requisito para su correcta transformacin A/D puede degenerar y
provocar que la onda final presente una pendiente marcada. Por esta desventaja del filtro
antialiasing se ha generalizado la tcnica conocida como sobremuestreo de la seal.

Sobremuestreo

Para evitar las cadas abruptas se utiliza la tcnica conocida como sobremuestreo
(oversampling), que permite reconstruir, tras la conversin D/A, una seal de pendiente
suave.
Un sobremuestreo consiste en aplicar un filtro digital que acta sobre el tiempo
(dominio de frecuencia), cambiando de lugar las muestras, de forma que al
superponerlas, se creen muestreos simultneos virtuales. Estos muestreos simultneos
no son reales, son simulaciones generadas por el propio filtro. Estos muestreos
simultneos se obtienen utilizando el llamado coeficiente de sobremuestreo (n), que
viene indicado por la expresin:


( , , , ...).

1
: La conversin D/A es un proceso que permite la lectura del cdigo binario grabado en un CD.
Tiene la misma frecuencia de muestreo (controlada por un reloj) con que se grab el sonido en
el cd y tiene una cantidad de bits determinada. Con este aparato se pueden leer los cds y
reproducirse. Por eso el nombre: Convierte de Digital a Analgico.


Las muestras obtenidas se superponen con los datos originales y los conversores A/D
1

los promedian, obteniendo una nica muestra ponderada (por ejemplo, si se hacen tres
muestreos, finalmente, la muestra tomada no es ninguna de las tres, sino su valor
medio). Para evitar el aliasing, tambin se introduce a la entrada un filtro paso bajo
digital, que elimine aquellas frecuencias por encima de la mitad de la frecuencia de
muestreo. No obstante, a la salida, la frecuencia de muestreo utilizada para reproducir la
seal ya no es la misma que se utiliz para tomar las muestras a la entrada, sino que es
tantas veces mayor como nmeros de muestreo se hayan hecho.
Consideremos un ejemplo caracterstico de la digitalizacin de msica en formato CD.
Imaginemos que para digitalizar el CD se hacen 3 muestreos a 44,1 kHz que se
interpolan. Se introduce un filtro paso bajo, llamado decimator, que elimina las
frecuencias por encima de los 20 kHz, pero la frecuencia de muestreo utilizada para
reconstruir la seal ser tres veces mayor: 132,3 kHz. De este modo se reconstruye la
seal suavizando la pendiente. A este proceso de filtrado durante la conversin D/A se
lo conoce como diezmado.
11

Sin embargo, es evidente que incorporar la tcnica del sobremuestreo encarece
considerablemente el equipo.



Modificacin de la frecuencia de muestreo

Dado una seal analgica x(t), la muestreamos a una Fm determinada y obtenemos la
seal discreta x(n), para adaptar esta seal discreta a un reproductor de distinta
frecuencia de muestreo, usaremos la interpolacin ( para aumentar la frecuencia ) y el
diezmo ( para disminuir la frecuencia ).
Una vez tengamos la seal discreta x(n), donde 'n' es un entero, aplicamos la TFSD
(transformada de Fourier de Seales Discretos ):


x(n) TFSD X(e^j)


Interpolacin factor L de X(e^j):


Xi(e^j)= LX(e^L)[(-2pik)/(2pi/L)] :filtro paso bajas k:(-infinito, +infinito)

1
: Un conversor analgico-digital es un dispositivo electrnico capaz de convertir un voltaje
determinado en un valor binario, en otras palabras, este se encarga de transformar seales
anlogas a digitales (0's y 1's).
Por tanto, cuantos ms bits se empleen mayor ser el tamao del archivo. No obstante,
la resolucin viene impuesta por el sistema digital con que se trabaja y no se puede
alterar el nmero de bits a voluntad; por ello, se utiliza la compresin, para transmitir la
misma cantidad de informacin que ocupara una gran resolucin en un nmero inferior
de bits.

2.1.3 RESOLUCIN
La resolucin viene determinada por la longitud de la palabra digital (nmero de bits),
es decir por las agrupacin de ceros y unos con que se va componiendo (codificando) la
seal.
La codificacin ms simple utilizara una resolucin de 1 bit. Con un bit (dado que se
usa el sistema binario que son potencias de dos: 2
n
) slo se permite (durante la
cuantificacin) seleccionar entre dos valores (2
1
): o cero o uno. Esta pobre codificacin
podra servir para indicar encendido (0) o apagado (1), si =(0) o no = (1), verdadero =
(0) o falso = (1)...etc, siguiendo el espritu del lgebra de Boole.
Por ejemplo, la norma para la televisin digital establece una resolucin de 8 bits (1
byte) por muestra, lo que significa que cada muestra tomada quedar representada por
una palabra de 8 bits. Como 8 bits suponen 256 (2
8
) posibilidades, con lo que el
12
diccionario imaginario del cdec estara formado por 256 palabras. En un supuesto
simple:

00000000 = Equivaldra al blanco.
11111111= Equivaldra al negro.

Las 254 combinaciones restantes (00000001, 00000011...) corresponderan al resto de
colores y a los grises.

Otro ejemplo, el CD, que utiliza el cdec de audio PCM, tiene una resolucin de 16 bits.
Esto significa que durante la cuantificacin, se puede seleccionar entre 65536 (2
16
)
valores distintos para aproximar cada muestra.
El nmero de escalones de la codificacin determina el margen dinmico (relacin
seal/ruido), lo que se debe a la influencia del llamado error de cuantificacin. Este
error se produce porque muchas veces al aproximar las muestras a una palabra digital
que no es exactamente equivalente al valor real, se est generando distorsin.
Con mayor nmero de bits, margen dinmico ms estrecho, y, por tanto, mayor calidad
de la seal digital resultante.
La resolucin es uno de los parmetros que definen la velocidad de transferencia de
datos (bit rate) de los distintos sistemas.

13
2.2 DESCRIPCION DE LA INFORMACION.
REDUNDANCIA

La informacin consiste en estmulos que, en forma de signos, desencadenan el
comportamiento.

Charles Morris describe dos clases de signos:

la seal que se origina en la experiencia real.
Un smbolo que sustituye a otro signo.

La informacin es cualquier entrada que cambia las probabilidades (o las certezas) de
cualquier manera. De ah que un entrada que aumente la incerteza sea informacin.



Atributos de la informacin


1) Finalidad: La informacin debe tener una finalidad en el momento de ser
transmitida. El propsito bsico es informar, evaluar, convencer u organizar la
informacin.

2) Modo y formato: Los modos de comunicar informacin al ser humano son
sensoriales. El hombre recibe la mayor parte de la informacin en formatos de
material verbal o documentos. Las mquinas la reciben en el formato de patrones de
energa, cintas, tarjetas e incluso en forma escrita.

3) Redundancia/eficiencia: La redundancia es el exceso de informacin transmitida
por unidad de datos. Constituye una medida de seguridad en contra de los errores en
el proceso de comunicacin. La eficiencia del lenguaje de datos es el complemento
de la redundancia.

4) Velocidad: La velocidad de transmisin o recepcin de informacin es el tiempo
que uno se tarda en entender un problema en particular.

5) Frecuencia: La frecuencia con que se transmite o recibe informacin repercute en
su valor. La informacin que aparece con excesiva frecuencia tiende a producir
interferencia, ruido o distraccin.

6) Determinstica o probabilstica: La informacin determinstica supone que existe
un solo valor. Si la informacin es probabilstica, se da un conjunto de resultados
posible junto con sus probabilidades correspondientes.

7) Costo: Constituye un factor limitante en la obtencin de informacin. Es necesario
evaluar constantemente el valor de la informacin y su costo.

14
8) Valor: Depende mucho de otras caractersticas: modo, velocidad, frecuencia,
caractersticas determinsticas, confiabilidad y validez.

9) Confiabilidad y precisin: Es ms caro obtener una gran precisin y confiabilidad
que bajos valores de ambas. Por tanto es posible un intercambio entre costo y
precisin/confiabilidad.

10) Exactitud: Mide la aproximacin de un nmero a lo que verdaderamente debera
ser.

11) Validez: Es una medida del grado en que la informacin representa lo que pretende
representar.

12) Actualidad: Designa la antigedad de la informacin.

13) Densidad: Es el volumen de informacin presente en un informe o mensaje. Los
informes largos tienen poca densidad de informacin. Las tablas y grficas
presentan la mayor cantidad de ella en la forma ms condensada.


Atributos de la informacin relacionados principalmente con
mquinas:

1) Estado estable o dinmico: La informacin que no vara con el tiempo pertenece a
la categora de estado estable. La que vara con el tiempo es la informacin con
caractersticas dinmicas (entradas y salidas de computadora).

2) Lineal o no lineal: Cuando la informacin es una funcin lineal de alguna variable,
la informacin es lineal. Gran parte de la informacin que usa la direccin es lineal,
principalmente por ser fcil de entender y porque no dispone de otra mejor. Un
ejemplo de informacin no lineal son los pronsticos de ventas que aumentan a un
determinada tasa al ao.

3) Continua o discreta: Casi toda la informacin es discreta. Es decir que se reciben
informes en perodos separados de tiempo. Los sistemas de informacin de tiempo
real aportan informacin constantemente en funcin del tiempo (una variable
continua).


Algunos de los mtodos con que se mide y evala la informacin presente en los
mensajes son los que se explican a continuacin:


1) Valor estadstico de la informacin: Este valor se mide con el mtodo de Shannon.
El mismo prescinde del contenido semntico del contexto y de la memoria del
receptor; pero s seala la teora de la sorpresa cmo una medida de informacin en
un sentido muy general.
15

2) Informacin subjetiva: La informacin es una medida de la incertidumbre del
receptor respecto a un campo de acontecimientos. Cuanto mayor sea la incerteza
sobre la siguiente letra, palabra o idea en el texto, mayor ser el valor subjetivo de la
siguiente parte del mensaje. Cuanto ms conozca el sujeto y cunto ms inteligente
sea, menor ser la informacin que se le transmite.

3) Valor esperado de la informacin perfecta: Una manera de medir el valor de la
informacin consiste en evaluar la utilidad obtenida con la decisin ptima en
condiciones de incerteza y restrsela a la que se conseguira si estuviramos seguros
del futuro.

4) Evaluacin de las caractersticas de la informacin: Las caractersticas de la
informacin que son importantes para un decisor (gerente) pueden medirse de
acuerdo con cuatro criterios fundamentales: relevancia, verificabilidad, ausencia de
error y cuantificabilidad.

2.2.. REDUNDANCIA:

Si una persona lee un mensaje en el que faltan algunas letras, normalmente puede
reconstruirlo. Esto ocurre porque casi todos los smbolos de un mensaje en lenguaje
natural contienen informacin que se puede extraer de los smbolos de alrededor
(informacin que, en la practica, se esta enviando dos veces), o en otras palabras,
porque el lenguaje natural es redundante. Puesto que tenemos mecanismos para definir
la cantidad de informacin que presenta un suceso, podemos intentar medir el exceso de
informacin (redundancia) de un lenguaje. Para ello vamos a dar una serie de
definiciones:

ndice de un lenguaje: Definiremos el ndice de un lenguaje para mensajes de longitud k
como:

rk = Hk(M)
k
(2.1)

siendo Hk(M) la entropa de todos los posibles mensajes de longitud k. Estamos
midiendo el numero de bits de informacin que nos aporta cada carcter en mensajes de
una longitud determinada. Para idiomas como el Ingles, rk suele valer alrededor de 1:3
bits=letra para valores pequeos de k.

ndice absoluto de un lenguaje: Es el mximo numero de bits de informacin que
pueden ser codificados en cada carcter, asumiendo que todas las combinaciones de
caracteres son igualmente probables. Suponiendo m letras diferentes en nuestro alfabeto
(27 en el caso del Espaol), este ndice vale:

R = log2(m)
(2.2)

16
En el caso del Espaol podramos codificar 4:7 bits=letra aproximadamente, luego
parece que el nivel de redundancia (asumiendo que su ndice r sea parecido al del
Ingles) es alto. Finalmente, la redundancia de un lenguaje se define como la diferencia
entre las dos magnitudes anteriores:

D = R r
(2.3)

Tambin se define el ndice de redundancia como el siguiente cociente:

I = D
R
(2.4)

Desgraciadamente, para medir la autentica redundancia de un lenguaje, hemos de tener
en cuenta secuencias de cualquier nmero de caracteres, por lo que la expresin 2.1
debera calcularse en realidad como:

r1 = lim
n!1
Hn(M)
n
(2.5)

Precisamente una de las aplicaciones de la Teora de la Informacin es la compresin de
datos, que simplemente trata de eliminar la redundancia dentro de un archivo
(considerando cada byte como un mensaje elemental, y codificndolo con ms o menos
bits segn su frecuencia de aparicin).

Otra de las aplicaciones directas de la Teora de la Informacin son los Cdigos de
Redundancia Cclica (CRC), que permiten introducir un campo de longitud mnima en
el mensaje, tal que este proporcione la mayor redundancia posible. As, si el mensaje
original resultase alterado, la probabilidad de que el CRC aadido siga siendo correcto
es mnima. Ntese que, conocidos los patrones de redundancia de un lenguaje, es
posible dar de forma automtica una estimacin de si una cadena de smbolos
corresponde o no a dicho lenguaje. Esta caracterstica es aprovechada para efectuar
ataques por la fuerza bruta, ya que ha de asignarse una probabilidad a cada clave
individual en funcin de las caractersticas del mensaje obtenido al decodificar el
criptograma con dicha clave. El nmero de claves suele ser tan elevado que resulta
imposible una inspeccin visual. Una estrategia bastante interesante para protegerse
contra este tipo de ataques, y que suele emplearse con frecuencia, consiste en comprimir
los mensajes antes de codificarlos. De esa manera eliminamos la redundancia y
hacemos ms difcil a un atacante apoyarse en las caractersticas del mensaje original
para recuperar la clave.

17
2.3. ALGORITMOS DE COMPRESIN SIN
PRDIDAS
Los algoritmos de compresin/descompresin sin prdida estn indicados en aquellos
casos en los que se deba garantizar que el flujo de datos original debe poderse recuperar
exactamente tras el proceso de compresin y descompresin. En general estos casos se
conocen como casos de datos "discretos" ya que son del tipo registros de bases de datos,
hojas de clculo, procesadores de texto e incluso imgenes donde la calidad es crtica.
La compresin sin prdida se implementa tambin como complemento a muchos
protocolos de transmisin de informacin. Las empresas de telecomunicaciones utilizan
este tipo de algoritmos para conseguir multiplexar un mayor nmero de lneas
telefnicas o de datos por un mismo medio fsico. Especialmente se realiza en el caso de
informacin de audio analgico ya que cuando hablamos de compresin de datos vemos
que la suelen realizar los propios equipos situados a los extremos de la lnea.
Otro campo de aplicacin es el almacenamiento de datos en medios fsicos. Obviamente
queremos que los datos restaurados sean idnticos a los originales as como conseguir
almacenar mayor informacin en el mismo espacio. En este campo es interesante
comentar la existencia de hardware que implementa ya la compresin va hardware por
lo que resulta transparente al sistema operativo. Este tipo de soluciones se suelen
implementar en sistemas backup de cinta. El inconveniente de este sistema es que la
capacidad de las cintas es variable dependiendo de la informacin introducida. Pese a
esto, si realizamos copias de seguridad de grandes bases de datos (o ficheros
equivalentes), los ratios de compresin se mantienen cercanos a un valor concreto
debido a la propia naturaleza de los datos por lo que estas variaciones sern mnimas.
Los mtodos de compresin sin prdida de datos pueden ser categorizados de acuerdo a
los tipos de datos para los que fueron diseados. Los tres tipos principales de datos para
comprimir son: texto, imgenes y sonido.
Algunos de los algoritmos de propsito general ms conocidos para la compresin sin
prdida de datos son:
La transformada Burrows-Wheeler.
LZ77
LZW
Huffman
Codificacin Aritmtica
RLE
Deflate

18
Para compresin de audio sin prdida de calidad:
Apple Lossless - ALAC
Direct Stream Transfer - DST
Free Lossless Audio Codec - FLAC
Meridian Lossless Packing - MLP
Monkeys Audio - Monkeys Audio APE
RealPlayer - RealAudio Lossless
Shorten - SHN
TTA - True Audio Lossless
WavPack - WavPack lossless
WMA Sin prdida - Windows Media Lossless
Para compresin grfica sin prdida de calidad:
ABO - Adaptive Binary Optimization
GIF - (sin prdida de calidad, pero su paleta de colores es limitada)
PNG - Portable Network Graphics
JPEG-LS - (versin JPEG sin prdida de calidad)
JPEG 2000 - (incluye un mtodo sin prdida de calidad)
JBIG2 - (posee tanto con prdida y sin prdida)
TIFF
WMPhoto - (incluye compresin sin prdida)
Para compresin de video sin prdida de calidad:
Huffyuv
SheerVideo
CorePNG
MSU Lossless Video Codec
19
Animation codec
Lagarith
H.264/MPEG-4 AVC
A continuacin se describirn ms en profundidad los algoritmos de compresin sin
prdida mas ampliamente utilizados:
2.3.1. RLE
La compresin RLE (Run Length Encoding) se basa en un principio sencillo e intuitivo
que puede ser resumido como sigue: Si un smbolo cualquiera se repite n veces
consecutivas en la entrada puede ser sustituido por la combinacin del smbolo en
cuestin y el nmero de veces que se repite.
Partiendo de esta idea tan sencilla es posible construir un compresor capaz de obtener
resultados de cierta calidad, tanto en la compresin de texto como en la de imgenes. A
continuacin se estudian ambas aplicaciones por separado.

COMPRESIN RLE DE TEXTOS:

La compresin RLE no es, en general, adecuada para la codificacin de textos. Sus
particularidades dan lugar a problemas que difcilmente pueden ser resueltos obteniendo
resultados satisfactorios:

-En primer lugar, se debe sealar que el mtodo RLE no se reduce a la
sustitucin directa de los caracteres repetidos por el smbolo y el nmero de
repeticiones, como pudiera pensarse en un principio. Ello dara lugar a
interpretaciones ambiguas de la salida del compresor. Veamos un ejemplo: Sea
la cadena S = lleva_el_carro_en_2_minutos (| S | = 27). Sera errneo
codificar S como S = 2leva_el_ca2ro_en_2_minutos. Lo mismo ocurre con
S = l2eva_el_car2o_en_2_minutos. Resulta evidente que los nmeros
pueden ser interpretados de forma incorrecta. De este ejemplo se puede extraer
una primera conclusin: sera necesario algn carcter de escape que indique
que los caracteres contiguos son especiales y representan una subcadena
comprimida.

-Partiendo de la conclusin anterior, encontramos el segundo gran problema:
la eleccin del carcter de escape. Es cierto que los textos en ingls o espaol
no utilizan determinados caracteres del cdigo ASCII, por lo que se puede
emplear alguno de estos smbolos. Sin embargo, si pensamos en otro tipo de
textos, como el fichero objeto generado por un compilador, encontraremos que
20
esta situacin no se da, ya que cualquier carcter puede aparecer en el texto.
De ah que seleccionar el carcter de escape puede no resultar posible.

-Encontramos, adems, un tercer inconveniente. Si bien es cierto que los textos
en una determinada lengua permiten la seleccin de un carcter indicador de
compresin, tambin lo es el hecho de que el lenguaje natural no suele incluir
repeticiones consecutivas de caracteres de longitud mayor que dos. Qu
sentido tiene entonces el uso de RLE en la compresin de textos? La respuesta
es sencilla: prcticamente ninguno.

Partiendo de las tres premisas planteadas, es obvio suponer que la aplicacin de esta
forma de compresin en este tipo de situaciones es bastante reducida.

COMPRESIN RLE DE IMGENES:

Centrmonos ahora en la compresin de grficos. Los mapas de bits, dada su naturaleza,
son candidatos firmes a la aplicacin de RLE para su compresin. Un mapa de bits es
una forma de representar una imagen en memoria como si de una matriz de puntos se
tratara. Cada punto puede ocupar desde un bit (para imgenes monocromticas) hasta
veinticuatro (imgenes en color verdadero).

Esta representacin en forma de matriz, permite a un compresor RLE recorrer cada una
de las filas de la imagen en busca de pxeles consecutivos de igual valor (del mismo
color, a fin de cuentas). El rendimiento que ofrece RLE en este caso es bastante bueno,
dado que las imgenes suelen contener franjas de igual color (siempre y cuando no se
trate de imgenes generadas aleatriamente).

El ratio de compresin que se obtiene depende de diversos factores. Los ms
importantes son los siguientes (ntese que se trata de condiciones que se presentan
habitualmente, aunque no tienen por qu darse siempre):

-La complejidad de la imagen. Cuanto ms detallada sea la imagen, menor ser
el ratio de compresin que se obtenga, dado que un nivel de detalle elevado
implica, generalmente, cambios de color.

21
-El nmero de colores de la imagen. Cuanto menor sea ste, mayor ser la
probabilidad de que aparezcan zonas de igual color.

Llegados a este punto, es un buen momento para presentar implementaciones de
compresores RLE. Estudiaremos una posible implementacin apta para imgenes
monocromticas que consiste en la utilizacin de un nico byte para la representacin
de cada franja. As, dado que el color del pxel puede ser representado con un nico bit,
los siete restantes estarn disponibles para almacenar el nmero de pxeles consecutivos.
As, podramos almacenar informacin de franjas de hasta 256 puntos. En todos los
casos se almacenar dicho valor decrementado en una unidad (no tendra demasiado
sentido almacenar informacin de una franja de tamao 0). La resolucin ser
almacenada al principio del fichero. Supongamos que el pxel encargado del color es el
primero. Veamos una imagen de ejemplo:



Supondremos que la imagen propuesta tiene un tamao de 20 x 20 pxeles (el hecho de
que aparezca con un tamao mayor se debe a que ha sido ampliada), por lo que se
deduce que ocupa 400 bits, o lo que es lo mismo, 50 bytes (omitiendo la cabecera). Si
aplicamos el sistema propuesto, obtendramos una salida como la siguiente:

E3 63 E3 63

Como se puede apreciar, la imagen queda representada con slo 4 bytes. Es cierto que
se trata de una imagen muy adecuada para la compresin propuesta, dado que est
formada por lneas horizontales de igual color, pero representa un buen ejemplo de lo
que RLE puede lograr.

22
Trataremos de interpretar el resultado obtenido, dado que puede ser un tanto confuso.
Los valores que forman la salida son codificaciones hexadecimales de los pares de
valores (1 , 99) , (0 , 99) , (1 , 99) y (0 , 99). En cada uno de estos pares el primer valor
representa el color (1 para el negro y 0 para el blanco); el segundo, por su parte,
indica el nmero de repeticiones (decrementado en una unidad). Para codificar un par
cualquiera pasaremos estos valores a formato binario:

(1
10
, 99
10
) (1
2
, 1100011
2
)
(0
10
, 99
10
) (0
2
, 1100011
2
)

Si concatenamos ambos valores, obtendremos la representacin binaria del nmero, que
puede ser expresada en hexadecimal sin problema alguno:

(1
2
, 1100011
2
) 11100011
2
227
10
E3
16

(0
2
, 1100011
2
) 01100011
2
99
10
63
16


El hecho de que los nmeros de repeticiones sean superiores al tamao de la fila no
debe resultar extrao. Se debe a que la implementacin propuesta recorre todas las filas
consecutivamente, como si de un vector unidimensional se tratase.

Para finalizar con este apartado se plantea el pseudocdigo del algoritmo propuesto:

anterior = primer bit (entrada);
contador = 0;
Mientras queden bits en la entrada
{
temp = siguiente bit (entrada);
Si temp <> anterior
{
Escribir byte(concatenar(anterior, contador));
contador = 0;
}
Si no
{
contador = contador + 1;
}
anterior = temp;
}
Escribir byte(concatenar(anterior, contador));
23
2.3.2 HUFFMAN

La codificacin de Huffman se basa en asignar cdigos de distinta longitud de bits a
cada uno de los caracteres de un fichero. Si se asignan cdigos ms cortos a los
caracteres que aparecen ms a menudo se consigue una compresin del fichero. La
construccin de cdigos de Huffman se apoya en todo momento en la construccin de
rboles.
Para crear un cdigo de longitud variable sobre un alfabeto determinado
siguiendo la metodologa de Huffman debemos llevar a cabo las siguientes tareas:

1. Crear una lista con todos los smbolos del alfabeto, ordenndolos en funcin de su
probabilidad de aparicin, de forma descendente.

2. Comenzar la creacin del rbol a partir de los dos smbolos con menor
probabilidad. Estos smbolos constituirn las hojas de dicho rbol. El antecesor en el
rbol ser un smbolo auxiliar que generaremos, cuya probabilidad ser la suma de
las probabilidades de aparicin de sus sucesores. Si ya existe un rbol cuya raz sea
uno de los smbolos que se van a utilizar como hojas, la hoja estar constituida por
ese rbol existente, no solo por el smbolo.

3. Eliminar los smbolos utilizados de la lista y aadir el que acabamos de crear.

4. Repetir el proceso hasta que quede un solo smbolo en la lista, el cual representar
a todo el alfabeto.

5. Una vez creado el rbol completo, se proceder a etiquetarlo. Para ello, se
asociarn los valores 0 y 1 arbitrariamente a los hijos de cada nodo, con lo que
quedar constituido el cdigo de longitud variable. El cdigo asociado a cada
smbolo vendr dado por el recorrido que lleva desde la raz hasta la hoja en la que
se encuentra el propio smbolo.

A continuacin se propone un ejemplo que permitir dilucidar con mayor claridad el
funcionamiento del algoritmo:

24
- Supngase un alfabeto = { A , B , C , D , E } con | | = 5

- Sea P: R la funcin de probabilidad de aparicin del alfabeto:

i
P(
i
)
A 0.4
B 0.2
C 0.2
D 0.1
E 0.1

- Generemos la lista de smbolos ordenados de menor a mayor probabilidad:

L [ 0 ] = { D (0.1) , E (0.1) , B (0.2) , C (0.2) , A (0.4) }

- Construimos el primer rbol con los dos smbolos menos probables (E y
D):



- La lista L queda como sigue:

L [ 1 ] = { 1 (0.2) , B (0.2) , C (0.2) , A (0.4) }

25
- Extraemos de la lista los dos elementos menos probables que, en este caso,
son 1 y B:


- Al actualizar la lista obtenemos el siguiente resultado:

L [ 2 ] = { C (0.2) , 2 (0.4) , A (0.4) }

- Repetimos el paso de ampliacin del rbol, esta vez con los smbolos C y
2:



- Actualizando la lista de elementos pendientes encontraremos el siguiente
estado:

26
L [ 3 ] = { A (0.4) , 3 (0.6) }

- En el ltimo paso seleccionaremos los elementos A y 3, obteniendo el
siguiente rbol:



- En el rbol anterior se ha etiquetado los arcos entre nodos con valores 0
para los hijos de la izquierda y valores 1 para los de la derecha. Con ello se
obtiene la siguiente codificacin:

i

i

A 0
B 111
C 10
D 1101
E 1100

Analicemos el resultado obtenido. Comenzaremos por calcular la longitud media
de los cdigos obtenidos:

1 x 0.4 + 2 x 0.2 + 3 x 0.2 + 4 x 0.1 + 4 x 0.1 = 2.2 bits.
27
Calculemos ahora la longitud media mnima o entropa para representar el
alfabeto propuesto:

-(0.4 x log
2
0.4 + 2 x 0.2 x log
2
0.2 + 2 x 0.1 x log
2
0.1) = 2.12 bits


Como puede observarse, la codificacin de Huffman produce un resultado
prcticamente ptimo. Sin embargo, presenta un importante obstculo: la arbitrariedad
en el criterio de seleccin se los elementos de la lista. Si nos remontamos hasta el
momento en que aparece L [ 1 ], podremos observar que resulta posible extraer tres
pares distintos de smbolos: (1 , B), (1 , C) y (B , C). La eleccin de uno u otro puede
repercutir en la calidad del resultado. Supongamos ahora que los elementos
seleccionados son B y C y desarrollemos el problema de nuevo:

L [ 1 ] = { 1 (0.2) , B (0.2) , C (0.2) , A (0.4) }

- Extraemos de la lista los elementos B y C:



- Actualizamos la lista:

L [ 2 ] = { 1 (0.2) , 2 (0.4) , A (0.4) }

- Extraemos los smbolos 1 y 2:

28


- Al aadir el smbolo 3 la lista queda como sigue:

L [ 3 ] = { A (0.4) , 3 (0.6) }

- Seleccionaremos los elementos A y 3 para terminar:



- La codificacin que se obtiene es la siguiente:



29

i

i

A 0
B 110
C 111
D 101
E 100

Si calculamos la longitud media de los cdigos obtenidos, el resultado es el
siguiente:

1 x 0.4 + 3 x 0.2 + 3 x 0.2 + 3 x 0.1 + 3 x 0.1 = 2.2 bits.

Como se puede observar, el resultado es el mismo en ambos casos. Sin embargo, ello no
implica que uno no sea mejor que el otro. Ambos cdigos son diferentes, y lo cierto es
que el segundo es ms adecuado que el primero. Para probar la conveniencia del
segundo cdigo necesitamos recurrir al clculo de la varianza de ambos:

- Para el primero, la varianza tiene el siguiente valor:

0.4 x (1 2.2)
2
+ 0.2 x (2 2.2)
2
+ 0.2 x (3 2.2)
2
+ 0.1 x (4 2.2)
2
+ 0.1 x (4 -
2.2)
2
= 1.36
- Para el segundo, sin embargo, el resultado es ste:

0.4 x (2 2.2)
2
+ 0.2 x (2 2.2)
2
+ 0.2 x (2 2.2)
2
+ 0.1 x (3 2.2)
2
+ 0.1 x (3 -
2.2)
2
= 0.16
Como se puede observar, el segundo cdigo tiene una varianza mucho menor a la del
primero. Es por ello que ser considerado como ms adecuado. Este hecho slo tiene
validez en determinadas situaciones. Si el codificador simplemente debe escribir la
salida en un fichero, ambos cdigos estarn igualmente cualificados. Si, por el contrario,
el cdigo obtenido va a ser enviado a travs de un canal, la segunda codificacin
producir cadenas de bits con velocidad constante, con lo que har falta un buffer de
almacenamiento previo a la transmisin de pequeo tamao. La primera, por el
contrario, producir el cdigo de forma irregular en el tiempo, lo que obligara a utilizar
un buffer de almacenamiento previo de tamao considerable.

30

2.4 REPRESENTACION DE SEALES.
CAMBIO DE BASE/DOMINIO.

El Procesado Digital de Seales es un rea de la ciencia, la tcnica y la ingeniera que se
ha desarrollado enormemente durante los ltimos 30 aos. Este rpido desarrollo es el
resultado de los avances tecnolgicos producidos tanto en los ordenadores digitales
como en la fabricacin de circuitos integrados de propsito especfico. No obstante,
estos espectaculares avances no habran sido posibles sino hubiese detrs un conjunto
de aplicaciones de gran impacto en la sociedad y con un considerable poder econmico,
capaces de tirar del carro de la tcnica. Hay que tener en cuenta que el Tratamiento de
Seal es uno de los pilares bsicos para las comunicaciones y/o el intercambio de
informacin en general. Esta, que es sin duda un tipo de aplicacin que por si sola
justificara el desarrollo de esta disciplina, no es la nica que hace uso de los conceptos
bsicos del Tratamiento de Seal.


Recientemente han cobrado importancia otro tipo de aplicaciones que tambin tienen
sus bases tericas en el Tratamiento de Seal como son las relacionadas con el
almacenamiento de informacin.
Esto es especialmente importante con determinados tipos de seal (imagen, audio y
video especialmente) ya que consumen un espacio de almacenamiento considerable. Las
tcnicas de compresin sin prdida de informacin pueden reducir ligeramente el
espacio necesario, pero una mayor compresin requiere el empleo de tcnicas de
compresin con prdidas por lo que se hace necesario un estudio detallado de las
seales originales y de los sistemas que las transforman de forma que las prdidas
resulten irrelevantes.

El Tratamiento de Seal se encarga del estudio de las propiedades y caractersticas de
las seales y de los sistemas y transformaciones que podemos aplicarles para
convertirlas en otras seales, que manteniendo el mensaje original (visual, acstico o de
cualquier otro tipo) tengan unas caractersticas ms apropiadas para su transmisin o
almacenamiento, o permitan reconstruir u obtener la informacin original que ha podido
resultar distorsionada en la transmisin.

Estas caractersticas deseables pueden ser desde una mayor inmunidad al ruido que
facilite su retransmisin hasta una representacin ms compacta que disminuya sus
necesidades de almacenamiento y de ancho de banda de emisin.

La mayor parte de lo que percibimos del mundo son fenmenos que existen en el
tiempo. Los mensajes estn asociados a variables fsicas (la presin en el odo, ondas
luminosas en la vista, etc.) que pueden ser interpretadas como funciones reales de
variable real D = x(t). El tiempo es continuo y las funciones son continuas. A estas
seales se las llama seales analgicas.
31
Normalmente imponemos restricciones para simplificar el desarrollo, que no afecten a
las conclusiones. Supondremos que las funciones son suaves (derivables) y tienen una
cantidad finita de energa:



Los ordenadores no pueden trabajar directamente con seales analgicas (continuas). Es
necesario transformarlas en discretas mediante un proceso que consiste en tomar los
valores de la funcin en diferentes valores del tiempo:


Fsicamente esto se implementa en un convertidor analgico a digital (A/D)





As transformamos una funcin real en una sucesin de nmeros reales:

{x(nT)} = x(T), x(2T), ... x(NT)

y la variable se transforma en un nmero entero de modo que se puede almacenar en un
nmero finito de bits. El problema consiste ahora en decidir cual debe ser el intervalo T
que se elige de modo que no se pierdan las caractersticas esenciales de la seal.

El teorema de Nyquist dice que x(t) puede ser recuperada con precisin y los datos
x(nT) contienen toda la informacin necesaria para reconstruir la seal analgica si el
inverso del intervalo, es decir la frecuencia elegida cumple



donde es la frecuencia mxima de la seal.

32
2.4.1. CLASIFICACIN Y PROPIEDADES DE LAS SEALES:


Este apartado explicar algunos fundamentos para la clasificacin de seales. Es
bsicamente una lista de definiciones y propiedades que son fundamentales para la
discusin de seales y sistemas. Junto con las clasificaciones de seales mostradas a
continuacin, es importante entender la Clasificacin de Sistemas.

Tiempo Continuo vs. Tiempo Discreto

Como el nombre lo sugiere, esta clasificacin se puede establecer, despus de saber si el
eje del tiempo (eje de las abscisas) es discreto o continuo (figura 2.3). Una seal
continua en el tiempo tendr un valor para todos los nmeros reales que existen en el eje
del tiempo. En contraste a esto, una seal discreta en el tiempo es comnmente creada
utilizando el Teorema de Muestreo para discretizar una seal continua, de esta manera
la seal nada mas tendr valores en los espacios que tienen una separacin igual y son
creados en el eje del tiempo.




Figura 2.3




Anlogo vs. Digital

La diferencia entre lo anlogo y lo digital es muy similar a la diferencia entre el tiempo
continuo y el tiempo discreto. Sin embargo, en este caso, la diferencia es con respecto al
valor de la funcin (eje de las ordenadas) (figura 2.4). Anlogo corresponde al eje y
continuo, mientras lo digital corresponde al eje y discreto. Un ejemplo de una seal
digital es una secuencia binaria, donde la funcin solo tiene valores de cero o uno.





Figura 2.4

33
Peridico vs. Aperidico

Seales peridicas se repiten con un periodo T, mientras las seales aperidicas o no
peridicas no se repiten (figura 2.6). Podemos definir una funcin peridica mediante la
siguiente expresin matemtica, donde t puede ser cualquier nmero y T es una
constante positiva:

f(t) =f(T+t) (1)



El periodo fundamental de esta funcin, f(t) , es el valor ms pequeo de T que
permita la validacin de la ecuacin (1).



Una seal peridica con periodo T
0


Una seal Aperidica
Figura 2.6




Causal vs. Anticausal vs. Nocausal

Las seales causales son seales que tienen valor de cero en el tiempo negativo, y las
seales anticausales tienen valor cero en el tiempo positivo. Las seales nocausales
son seales con valor de cero en el tiempo positivo y negativo (figura 2.7).




34

Una seal causal

Una seal anticausal

Una seal nocausal
Figura 2.7


Par vs. Impar

Una seal par es cualquier seal f(t) que satisface f(t) =f(t) . las seales pares se
pueden detectar fcilmente por que son simtricas en el eje vertical. Una seal impar,
es una seal f que satisface f(t) =(f(t) ) (figure 5).





Una seal par

Una seal impar
Figura 2.8



35
Usando las definiciones de par e impar, podemos demostrar que cualquier seal se
puede escribir como una combinacin de una seal par e impar. Cada seal tiene una
descomposicin par-impar. Para demostrar esto, no tenemos ms que examinar una
ecuacin.

f(t) = (f(t) +f(t) ) + (f(t) f(t) ) (2)

Al multiplicar y sumar esta expresin, demostramos que lo explicado anteriormente es
cierto. Tambin se puede observar que f(t) +f(t) satisface a una funcin par, y que f(t)
f(t) satisface a una funcin impar (figura 2.9).




Esta seal ser descompuesta usando la descomposicin Par-Impar
Parte Par: e(t) = (f(t) +f(t) )
Parte Impar: o(t) = (f(t) f(t) )

Revisa: e(t) +o(t) =f(t)
Figura 2.9
36

Determinstico vs. Aleatorio

Una seal determinstica es una seal en la cual cada valor est fijo y puede ser
determinado por una expresin matemtica, regla, o tabla. Los valores futuros de esta
seal pueden ser calculados usando sus valores anteriores teniendo una confianza
completa en los resultados. Una seal aleatoria, tiene mucha fluctuacin respecto a su
comportamiento. Los valores futuros de una seal aleatoria no se pueden predecir con
exactitud, solo se pueden basar en los promedios de conjuntos de seales con
caractersticas similares (figura 2.10).



Seal Determinstica

Seal Aleatoria
Figura 2.10


Hemisferio Derecho vs. Hemisferio Izquierdo

Este tipo de seales son aquellas cuyo valor es cero entre una variable definida y la
infinidad positiva o negativa. Matemticamente hablando, una seal de hemisferio-
derecho es definida como cualquier seal donde f(t) =0 para t&lt;t
1
&lt;, y una seal de
hemisferio-izquierdo es definida como cualquier seal donde f(t) =0 para t>t
1
>. Las
siguientes figuras son un ejemplo de esto (figura 2.11). Las dos figuras empiezan en t
1

y luego se extienden a infinidad positiva o negativa con casi todos los valores siendo
cero.





Seal de Hemisferio-Derecho
37

Seal de Hemisferio-Izquierdo
Figura 2.11


Tamao finito vs. Tamao infinito

Como el nombre lo implica, las seales se pueden caracterizar dependiendo de su
tamao el cual puede ser infinito o finito. Casi todas las seales finitas se utilizan
cuando se tiene una seal discreta o se tiene una secuencia de valores. En trminos
matemticos, f(t) es una seal de tamao finito si tiene un valor que no sea cero en un
intervalo finito t
1
&lt;f(t) &lt;t
2
donde t
1
> y t
2
&lt;. Se puede ver un ejemplo en
figura 2.12. De igual manera, una seal de tamao infinito f(t) , es definida con
valores no-cero para todos los nmeros reales: f(t) .



Figura 2.12 Seal de tamao finito. Note que solo tiene
valores que no son cero en un conjunto, intervalo finito.



2.4.2. OPERACIONES PARA SEALES


Desplazamiento en el eje del Tiempo

El desplazamiento en el tiempo, como su nombre lo sugiere, es trasladar la seal en el
eje del tiempo. Esto se hace sumando o restando la cantidad del desplazamiento de
tiempo a la funcin. Restando una cantidad fija en la variable de el tiempo tendr un
cambio en la seal hacia la derecha (retrasa) por esa cantidad, por el contrario al sumar
una cantidad a la variable de el tiempo la seal se desplazar hacia la izquierda
(avanza).

38


Figura 13: f(tT) mueve (retrasa) f a la derecha T.


Escala en el eje del Tiempo

Escalar el tiempo es comprimir y/o expandir una seal al multiplicar las variables del
tiempo por alguna cantidad. Si esa cantidad es mayor que uno, la seal se vuelve
angosta, esto es conocido como compresin, cuando la cantidad es menor que uno, la
seal se vuelve ancha y a esto lo conoceremos como expansin. Normalmente, estas
operaciones les toman a las personas un tiempo en comprender, debido a que la
intuicin de las personas es que al multiplicar por una cantidad ms grande que uno la
seal ser expandida y menor que uno ser comprimida.


Figura 2.14: f(at) comprime f por a.



Las seales cambiadas y escaladas en el tiempo pueden ser contrarias unas de las otras.
Este ejemplo muestra una manera de practicar estas operaciones hasta que desarrolle un
sentido de como se debera ver la seal despus de ciertas operaciones.
Dado f(t) , grafique f((at) ) .







39



Empieze con f(t) Luego remplace t con at para
obtener f(at)
Finalmente, remplace t con t
para obtener f(a(t ) ) =f(atb)
Figura 2.15


Reflexin en el eje del Tiempo

Una pregunta muy natural que se considera cuando se est aprendiendo a escalar el
tiempo es: qu pasara si la variable del tiempo es multiplicada por un nmero
negativo? La respuesta para esto es la inversin en el tiempo. Esta operacin invierte el
eje del tiempo, en otras palabras, cambia la seal respecto al eje de las ordenadas.




Figura 2.16: Reflexin en el eje del Tiempo




2.4.3. SEALES TILES


Senosoidales

Probablemente la seal elemental ms importante que usted usar es el senosoidal
evaluado en su parte real. En su forma de tiempo-continuo, la forma general de la
funcin se expresa as

x(t) =Acos(t+) (1)


40
donde A es la amplitud, es la frecuencia, y representa el desplazamiento. Note que
es comn ver que t es remplazado con 2ft. Las seales senosoidales son peridicas,
esto hace que su periodo, o cualquier seal peridica puedan ser expresada de la
siguiente manera


T= 2 (2)


Figure 2.17: Senosoidal con A=2, w=2, y =0.





Funciones de Exponenciales Complejos

Tal vez esta seal es tan importante como la senosoidal, la funcin de exponencial
complejo se convertir en una parte crtica para el estudio de seales y sistemas. La
expresin general se escribe de la siguiente manera:


f(t) =B
st
(3)


donde s, mostrado abajo, es un nmero complejo en trminos de , con una fase
constante, y con siendo la frecuencia: s=+ Por favor vea el mdulo de Exponencial
Complejo o los mdulos de las otras seales elementales.



Exponenciales reales


Como el nombre lo implica, los exponenciales reales contienen nmeros no imaginarios
y son simplemente expresados de la siguiente manera:


f(t) =B
t
(4)


donde B y son parmetros reales. Las funciones de exponencial complejo oscilan, sin
embargo, esta seal nada mas crece o decae dependiendo del valor de .
41


- Exponencial que decae , cuando &lt;0
- Exponencial que Crece, cuando >0




Exponencial que decae Exponencial que Crece
Figura 2.18: Ejemplos de Exponenciales Reales




Funcin de impulso unitario


La funcin de impulso unitario (o la funcin delta de Dirac) es una seal que tiene
una altura infinita y un ancho casi inexistente. Sin embargo, por la manera que es
definida, al ser integrada da un valor de uno. Mientras en el mundo de ingeniera esta
seal es til y ayuda a entender muchos conceptos, algunos matemticos tienen
problemas con esta al ser llamada funcin, porque no est definida en t=0. Los
ingenieros se evitan este problema al mantenerla definida con una integral. El impulso
unitario es comnmente conocido como (t) La propiedad ms importante de esta
funcin es demostrada con la siguiente integral:



(t) dt= 1 (5)





Funcin de Escaln unitario


Otra funcin bsica para este curso es la funcin de Escaln unitario que se define como

u(t) = 0 if t &lt;0
1 if t0




(6)
42





Escaln unitario de Tiempo-
Continuo
Escaln unitario de Tiempo-
Discreto
Figura 2.19 Funciones Bsicas del Escaln



Note que esta funcin es discontinua en el origen; sin embargo no se necesita definirla
en este punto ya que no es necesario en la teora de la seal. La funcin de Escaln
unitario es una seal muy til para probar y definir otras seales. Por ejemplo, usando
varias de estas seales movidas en el tiempo y multiplicadas por otras seales, se puede
obtener alguna porcin de la seal por la que fue multiplicada y eliminar el resto.


Funcin Rampa


Esta funcin est relacionada con la funcin descrita anteriormente. La funcin Escaln
unitario va desde cero a uno instantneamente, pero esta funcin es la que mejor se
parece a una funcin en la vida real, donde se necesita un tiempo para que la seal vaya
incrementndose desde cero a su valor ajustado, en este caso uno. La funcin rampa est
definida as:


r(t) = 0 if t&lt;0
t, t
0

if 0tt
0

1ift>t
0
(7)


Figura 2.20: Funcin Rampa


2.4.4. SEALES EN TIEMPO DISCRETO


Hasta este punto, hemos tratado solo con seales y sistemas anlogos. En trminos
matemticos, seales anlogas son funciones que constan de cantidades continuas como
43
sus variables independientes, por ejemplo, espacio y tiempo. Seales de tiempo-discreto
son funciones definidas en nmeros enteros; son secuencias. Uno de los resultados
fundamentales en la teora de seales detalla las condiciones en las cuales las seales
anlogas pueden ser trasformadas en una seal de tiempo-discreto y ser recuperada sin
ningn tipo de error. Este resultado es importante por que las seales de tiempo-
discreto pueden ser manipuladas por sistemas de respuesta instantnea como los son los
programas de computadoras. En los mdulos subsecuentes se describen como todos los
sistemas anlogos se pueden implementar virtualmente con el uso de software.

Sin darle importancia a estos resultados, las seales de tiempo-discreto tienen una forma
ms general, abarcando seales derivadas de seales anlogas y de otro tipo de seales.
Por ejemplo, los caracteres que forman un archivo de escritura proveniente de una
secuencia, que tambin son una seal de tiempo-discreto. Tambin tenemos que tratar
con seales y sistemas de valor simblico.

Como en seales anlogas, buscamos distintas maneras de descomponer seales
discretas con valor real en sus componentes ms simples. Con este mtodo que nos lleva
a un mayor entendimiento de estructura de seales, podemos usar esta estructura para
representar informacin (crear maneras de representar informacin con seales) y de
extraer informacin (extraer la informacin que es representada). Para seales de valor
simblico este mtodo es diferente: desarrollamos una representacin comn para todas
las seales de valor simblico para as representar la informacin que ellas contienen de
una manera unificada. Desde el punto de vista de la representacin de informacin, la
cuestin ms importante es la eficiencia para las seales de valor simblico y reales; la
eficiencia es la manera ms compacta y rpida de representar informacin para que
pueda ser despus extrada.

Seales de Valores Reales y Complejos

Una seal discreta es representada simblicamente como s(n) , donde n={,-1,0,1,} .
Usualmente dibujamos seales discretas por medio de diagramas de lnea (Stem Plots)
para enfatizar el hecho que son funciones definidas en nmeros enteros. Podemos
retrasar la seal discreta por un nmero, tal como se hace en las seales anlogas. El
retraso de un muestreo unitario es expresado por (nm) , y es igual a uno cuando n=m.






Seal del Coseno en Tiempo-Discreto

Figura 2.21: Seal del Coseno en Tiempo-
Discreto es graficada con una "stem plot".
Puede usted encontrar la frmula para esta
seal?

44
Exponenciales Complejos


La seal ms importante es la secuencia del exponencial complejo .

s(n) =
2fn
(1)


Senosoidales

Los senosoidales discretos tienen la forma de s(n) =Acos(2fn+) . Al contrario de
exponenciales complejos y senosoidales anlogos que pueden tener frecuencias con
cualquier valor real.


Muestreo Unitario

La segunda seal importante en el tiempo discreto, est definida por:

(n) = 1ifn=0, 0 otherwise



Muestreo Unitario

Figure 2.22: Muestreo Unitario.



Al examinar la grfica de seales discretas, como el coseno mostrado en la figura figura
2.21, se puede observar que todas las seales consisten en muestreos unitarios que son
desplazados y escalados por un valor real. El valor de una secuencia a cualquier nmero
m es escrito por s(m) y el desplazamiento que ocurre en m es escrito por (nm) , por
esta razn podemos descomponer cualquier seal en una suma de muestras unitarias
desplazadas a una localizacin apropiada y escalada por el valor de una seal.


s(n) = m= (s(m) (nm) ) (4)



Este tipo de descomposicin es nica para seales discreta.
Sistemas discretos pueden actuar sobre seales en tiempo discreto en forma similar a las
vistas en seales y sistemas anlogos. Debido al rol que juega el software sobre sistemas
discretos, una gran variedad de sistemas pueden ser desarrolladas y construidas a
diferencia de las que se pueden lograr usando seales anlogas. De hecho, una clase
especial de seales anlogas pueden ser convertidas en seales discretas, procesadas por
software, y convertidas despus en seales anlogas, todo esto sin errores. Para estas
seales, varios sistemas pueden ser producidos en software, con realizaciones anlogas
equivalentes siendo difciles de formar, si no es que imposibles de disear.
45
Seales de Valores Simblicos

Otro aspecto interesante de seales discretas es que sus valores no tienen que ser
nmeros reales. Nosotros si tenemos seales discretas con valores reales como el
sinusoidal, pero tambin tenemos seales que indican una secuencia de nmeros usados
en el teclado de computadoras. Esos caracteres no son nmeros reales, y como posible
coleccin de valores, tienen muy poca estructura matemtica y nada ms constante con
el hecho que son miembros de un conjunto. Cada elemento de una seal de valores
simblicos s(n) toma valores {a
1
,,a
K
} que forman parte de un alfabeto A. Esta
terminologa tcnica no restringe los smbolos a ser miembros de un alfabeto del idioma
ingles o griego. Ellos pueden representar caracteres en un teclado, byte (secuencias de
8-bits), nmeros que pudieran significar una temperatura. Los sistemas digitales son
construidos de circuitos digitales, que consisten completamente de circuitos con
elementos anlogos. La retransmisin y recepcin de seales discretas, como el correo
electrnico, son posibles gracias al uso de sistemas y seales anlogas. Entender como
las seales discretas y anlogas se interrelacionan una con otra es el objetivo principal
de este curso.

REPRESENTACIONES DE FOURIER PARA LAS SEALES
Existen cuatro representaciones distintas de Fourier, cada una aplicable a diferentes
tipos de seales. Estas cuatro clases estn definidas por las propiedades de periodicidad
de una seal y si el tiempo es de tipo continuo o discreto. Las seales peridicas tienen
representacin en series de Fourier. La Serie de Fourier (FS) aplica a seales peridicas
de tiempo continuo mientras que la Serie Discreta de Fourier (DTFS) aplica a seales
peridicas de tiempo discreto. Las seales no peridicas tienen representacin en forma
de transformada. Si la seal es continua en el tiempo y no peridica, la representacin es
llamada Transformada de Fourier (FT). Si la seal es discreta en el tiempo y no
peridica entonces la representacin usada es la transformada de Fourier en tiempo
discreto (DTFT).

Tiempo Peridicas No peridicas
Continuas
Series de Fourier
( FS )
Transformada de
Fourier
( FT )
Discretas
Series discretas de
Fourier
( DTFS )
Transformada discreta
de Fourier
( DTFT)

46

La siguiente tabla muestra las relaciones matemticas utilizadas para calcular las
representaciones de Fourier.

Tiempo Peridicas No peridicas
Continuas
Series de Fourier


Transformada de Fourier


Discretas
Series discretas de Fourier


Transformada discreta de Fourier





47

2.5. INTRODUCCIN A LAS
OPERACIONES TRASNFORMADAS
(COSENO, WAVELET)



2.5.1. INTRODUCCIN
La transformada wavelet representa una seal en trminos de versiones trasladadas y
dilatadas de una onda finita (denominada wavelet madre).
La teora de wavelets est relacionada con muy variados campos. Todas las
transformaciones wavelet pueden ser consideradas formas de representacin en tiempo-
frecuencia y, por tanto, estn relacionadas con el anlisis armnico. Las transformadas
de wavelets son un caso particular de filtro de respuesta finita al impulso. Las wavelets,
continuas o discretas, como cualquier funcin L2, responden al principio de
incertidumbre de Hilbert (conocido por los fsicos como principio de incertidumbre de
Heisenberg), el cual establece que producto de las dispersiones obtenidas en el espacio
directo y en el de las frecuencias no puede ser ms pequeo que una cierta constante
geomtrica. En el caso de las wavelets discretas, la dispersin de los coeficientes se ha
de medir de acuerdo con la norma l2 (norma 2 de series numerables).
48
Scaling and wavelet functions





49
Amplitudes of the frequency spectrum





50
Las tcnicas de anlisis wavelet emplean regiones de tamao variable, para el anlisis
de las seales deja usar durante largo tiempo intervalos donde se necesita mucha
informacin que precisa poca frecuencia y pequeas regiones donde la informacin
necesita altas frecuencias.



Esquema del anlisis wavelet.



El anlisis wavelet es capaz de mostrar aspectos de la seal que otras tcnicas no logran
encontrar.

En el transcurso del siglo XX, los cientficos de distintos campos intentaron superar
estas limitaciones, para permitir que las representaciones de los datos se adaptaran a la
naturaleza de la informacin. En esencia, queran capturar tanto el bosque de baja
resolucin (la seal de fondo repetitiva) como los rboles de alta resolucin (las
variaciones individuales y localizadas del fondo). Aunque cada cientfico intentaba
resolver los problemas especficos de su respectivo campo, todos comenzaron a llegar a
la misma conclusin: que las culpables eran las transformaciones de Fourier en s.
Tambin llegaron en esencia a la misma solucin: quizs al dividir una seal en
componentes que no fueran ondas sinusoidales puras sera posible condensar la
informacin tanto en el dominio del tiempo como en el de la frecuencia. Esta es la idea
que finalmente se denominara wavelet.

El primer participante en la carrera de las wavelet fue un matemtico hngaro llamado
Alfred Haar, que introdujo en 1909 las funciones que actualmente se denominan
"wavelets de Haar". Estas funciones consisten simplemente en un breve impulso
positivo seguido de un breve impulso negativo. Aunque los impulsos breves de las
wavelets de Haar son excelentes para la enseanza de la teora de las wavelets, no
resultan de tanta utilidad en la mayora de aplicaciones, ya que producen lneas
irregulares con picos en lugar de curvas suaves. Por ejemplo, una imagen reconstruida
con las wavelets de Haar tiene el aspecto de una pantalla de calculadora barata, y una
reconstruccin realizada con wavelets de Haar del sonido de una flauta es demasiado
spera.

51
De vez en cuando, durante varias dcadas posteriores, surgieron otros precursores de la
teora de las wavelets. En la dcada de 1930, los matemticos ingleses John Littlewood
y R.E.A.C. Paley desarrollaron un mtodo de agrupacin de frecuencias por octavas,
creando de esta forma una seal con una frecuencia bien localizada (su espectro se
encuentra dentro de una octava) y tambin relativamente bien localizada en el tiempo.
En 1946, Dennis Gabor, un fsico britnico-hngaro, present la transformacin de
Gabor, anloga a la transformacin de Fourier, que separa una onda en "paquetes de
tiempo-frecuencia" o "estados coherentes" que tienen la mayor localizacin simultnea
posible tanto en tiempo como en frecuencia. Y en las dcadas de 1970 y 1980, las
comunidades de procesamiento de seales y procesamiento de imgenes presentaron sus
propias versiones del anlisis de wavelets con nombres tales como "codificacin de
subbandas", "filtros de duplicacin de cuadratura" y "algoritmo piramidal".

Aunque no eran exactamente idnticas, todas estas tcnicas tenan caractersticas
similares. Descomponan o transformaban seales en partes que se podan localizar en
cualquier intervalo de tiempo y que tambin se podan dilatar o contraer para analizar la
seal a distintas escalas de resolucin. Estos precursores de las wavelets tenan algo ms
en comn. Nadie que se encontrara al margen de comunidades especializadas
individuales saba de ellos. Pero en 1984, la teora de las wavelets adopt finalmente su
carcter propio.


Grficos de varios tipos distintos de wavelets. (a) Wavelet de Haar, (b) Wavelet de
Daubechies, (c) Wavelet de Morlet. (Cortesa de Ofer Levi, Universidad de Stanford)

El campo de la geologa ayudo enormemente a la evolucin de la teora de wavelets, los
gelogos del petrleo localizan normalmente los depsitos subterrneos de petrleo
mediante ruidos intensos. Como las ondas sonoras viajan a travs de distintos materiales
a velocidades distintas, los gelogos podan deducir el tipo de material que se
encontraba bajo la superficie enviando de ondas ssmicas a la tierra y midiendo la
rapidez con la que rebotaban. Si las ondas se propagaban especialmente rpido a travs
de una capa, poda tratarse de una bveda salina que poda retener una capa de petrleo
bajo ella.
52
Slo el clculo de cmo se traduce la geologa en una onda sonora (o viceversa)
constituye un problema matemtico difcil, que los ingenieros resolvan
tradicionalmente mediante el anlisis de Fourier. Desgraciadamente, las seales
ssmicas contenan gran cantidad de seales transitorias, cambios abruptos en la onda a
medida que pasa de una capa de rocas a otra. Estas seales transitorias contienen
exactamente la informacin que buscan los gelogos, es decir, la localizacin de las
capas de rocas, pero el anlisis de Fourier extiende esa informacin espacial por todo el
lugar.

Morlet, un ingeniero de Elf-Aquitanie, desarroll su propia forma de analizar las seales
ssmicas para crear componentes que estuvieran localizados en el espacio, a los que
denomin "wavelets de forma constante". Posteriormente, se conoceran como
"wavelets de Morlet". Independientemente de que los componentes se dilaten,
compriman o desplacen en el tiempo, mantienen la misma forma. Se pueden construir
otras familias de wavelets adoptando una forma diferente, denominada wavelet madre, y
dilatndola, comprimindola o desplazndola en el tiempo. Los investigadores
descubriran que la forma exacta de la wavelet madre afecta enormemente a las
propiedades de compresin y precisin de la aproximacin. Muchas de las diferencias
entre versiones anteriores de wavelets slo suponan opciones distintas de la wavelet
madre.

El mtodo de Morlet no estaba en los libros, pero pareca funcionar. En su computadora
personal, consigui separar una onda en las wavelets que la componan y, a
continuacin, volver a unirlas para formar la onda original. Pero no estaba satisfecho
con esta demostracin emprica, por lo que comenz a preguntar a otros cientficos si el
mtodo era matemticamente coherente.

Morlet obtuvo la respuesta que deseaba de Alex Grossmann, un fsico del Centre de
Physique Thorique de Marsella. Grossmann trabaj con Morlet durante un ao para
confirmar que las ondas se podan reconstruir a partir de sus descomposiciones en
wavelets. De hecho, las transformaciones de wavelets resultaron funcionar mucho mejor
que las transformaciones de Fourier, porque eran mucho menos susceptibles a pequeos
errores de cmputo. Un error o un truncamiento indeseados de los coeficientes de
Fourier pueden transformar una seal suave en una saltarina o viceversa; las wavelets
evitan tales consecuencias desastrosas.
El artculo de Morlet y Grossmann, el primero en que se utiliz la palabra "wavelet", se
public en 1984. Yves Meyer, actualmente en la cole Normale Suprieure de Cachan,
reconocido ampliamente como uno de los fundadores de la teora de las wavelets,
conoci su trabajo en el otoo de ese mismo ao. Fue el primero en darse cuenta de la
conexin entre las wavelets de Morlet y las wavelets matemticas anteriores, como las
del trabajo de Littlewood y Paley. (De hecho, Meyer ha contado 16 redescubrimientos
independientes del concepto de wavelet anteriores a la publicacin del artculo de
Morlet y Grossman.)
53
Meyer continu su trabajo para descubrir un nuevo tipo de wavelet con una propiedad
matemtica denominada ortogonalidad que haca que manipular y trabajar con la
transformacin de wavelets resultara tan fcil como con una transformacin de Fourier.
("Ortogonalidad" significa que la informacin capturada por una wavelet es
completamente independiente de la informacin capturada por otra.) Y lo que es quiz
an ms importante, se convirti en el nexo de unin de la naciente comunidad dedicada
a las wavelets.

En 1986, Stphane Mallat, un antiguo alumno de Meyer que estaba haciendo un
doctorado en visin informtica, vincul la teora de wavelets a la literatura existente
sobre codificacin de subbandas y filtros de duplicacin de cuadratura, que son las
versiones de las wavelets de la comunidad de procesamiento de imgenes. La idea del
anlisis multiresolucin (es decir, la observacin de seales a distintas escalas de
resolucin) ya era familiar para los expertos en procesamiento de imgenes. Mallat, en
colaboracin con Meyer, demostr que las wavelets estn implcitas en el proceso del
anlisis multiresolucin.

Gracias al trabajo de Mallat, las wavelets se convirtieron en algo mucho ms sencillo.
Ya se poda hacer un anlisis de wavelets sin necesidad de conocer la frmula de una
wavelet madre. El proceso se redujo a sencillas operaciones de clculo de promedio de
grupos de pxeles en las que se toman sus diferencias una y otra vez. El lenguaje de las
wavelets tambin resultaba ms cmodo para los ingenieros elctricos, que adoptaron
trminos familiares como "filtros", "altas frecuencias" y "bajas frecuencias".

La ltima gran salva de la revolucin de las wavelets se dispar en 1987, cuando Ingrid
Daubechies, mientras visitaba el Courant Institute de la Universidad de Nueva York y,
posteriormente, durante su trabajo en loa laboratorios AT&T Bell, descubri una clase
completamente nueva de wavelets, que no slo eran ortogonales (como las de Meyer)
sino que tambin se podan implementar mediante sencillas ideas de filtrado digital, de
hecho, mediante cortos filtros digitales. Las nuevas wavelets eran casi tan sencillas de
programar y utilizar como las wavelets de Haar, pero eran suaves, sin los saltos de las
wavelets de Haar. Los procesadores de seales disponan ahora de una herramienta de
ensueo: una manera de descomponer datos digitales en contribuciones de diversas
escalas. Al combinar las ideas de Daubechies y Mallat, se dispona de una
transformacin ortogonal y sencilla que se poda calcular rpidamente en las modernas
computadoras digitales.

Las wavelets de Daubechies tienen caractersticas sorprendentes, tales como conexiones
estrechas con la teora de fractales. Si su grfico se observa aumentado, se pueden
apreciar curvas de lneas irregulares con picos, independientemente del grado de
aumento. Esta exquisita complejidad de detalle significa que no hay una frmula simple
para estas wavelets. Son desgarbadas y asimtricas; los matemticos del siglo XIX
54
habran retrocedido ante ellas con horror. Pero al igual que el Ford modelo T, son bellas
porque funcionan. Las wavelets de Daubechies convierten la teora en una herramienta
prctica que cualquier cientfico con una formacin matemtica mnima puede
programar y utilizar fcilmente.



Las wavelets se pueden utilizar para filtrar una seal de un ruido. Las imgenes
superiores muestran la seal original, que presenta saltos y tramos suaves (a) y una
versin con ruido de la seal, de la que se deseara "eliminar el ruido" (b). En la parte
inferior, el resultado de la eliminacin de ruido mediante las wavelets de Haar produce
una lnea irregular en lugar de una curva suave (c); en contraste, si se utilizan las
wavelets de Daubechies producen una curva ms suave (d). (Cortesa de Ofer Levi,
Universidad de Stanford)

Una vez establecidos firmemente los cimientos de la teora de wavelets, el campo se
desarroll rpidamente en la ltima dcada. Una lista de distribucin sobre wavelets que
comenz con 40 nombres en 1990 se ha convertido en un boletn de noticias con ms de
17.000 suscriptores. Y, adems, ha seguido evolucionando a travs de una combinacin
positiva de teora y prctica. Los ingenieros estn siempre probando nuevas
aplicaciones, y para los matemticos quedan an importantes cuestiones tericas por
resolver.

Aunque el campo ms conocido de las wavelets es la compresin de imgenes, muchos
investigadores estn interesados en utilizar las wavelets para reconocimiento de
patrones. En las predicciones meteorolgicas, por ejemplo, pueden reducir los modelos
informticos sobrecargados de informacin que se utilizan actualmente.
Tradicionalmente, dichos modelos toman muestras de la presin atmosfrica (por
ejemplo) en una cantidad enorme de puntos de cuadrcula y utilizan esta informacin
55
para predecir la evolucin de los datos. Sin embargo, este enfoque utiliza gran cantidad
de recursos informticos. Para un modelo de la atmsfera que utilice una cuadrcula de
1000 por 1000 por 1000 se requieren 1000 millones de puntos de datos, y pese a todo el
modelo es bastante rudimentario.

Sin embargo, la mayora de los datos de la cuadrcula son redundantes. La presin
atmosfrica de su ciudad es probablemente la misma que la presin atmosfrica a un
kilmetro de distancia. Si los modelos meteorolgicos utilizaran las wavelets, podran
observar los datos de la misma forma que los meteorlogos, concentrndose en los
lugares en los que se producen cambios abruptos como en frentes clidos, frentes fros y
similares. Otros problemas de la dinmica de fluidos se han tratado de resolver de la
misma manera. En el Laboratorio Nacional de Los Alamos, por ejemplo, las wavelets se
utilizan para estudiar las ondas expansivas producidas por una explosin.

Y, como ha demostrado la reciente avalancha de largometrajes de animacin realizados
por computadora, las wavelets tambin tienen un futuro prometedor en el cine. Como la
transformacin de wavelets es un proceso reversible, es tan fcil sintetizar una imagen
(construirla a base de wavelets) como analizarla (descomponerla en las wavelets que la
forman). Esta idea est relacionada con un nuevo mtodo de animacin por
computadora denominado superficies de subdivisin, que consiste bsicamente en un
anlisis multiresolucin que se ejecuta a la inversa. Para dibujar un personaje animado,
el animador slo tiene que especificar la posicin de algunos puntos clave, creando una
versin de baja resolucin del personaje. A continuacin, la computadora puede realizar
un anlisis multiresolucin inverso, haciendo que el personaje tenga el aspecto de una
persona real y no de una figura trazada con crculos y lneas.

Las superficies de subdivisin debutaron en la pelcula Bichos en 1998, sustituyendo a
un mtodo ms rudimentario denominado NURB (siglas en ingls de curvas B
racionales no uniformes) que se haba utilizado en la primera pelcula Toy Story en
1995. Curiosamente, las NURB y los mtodos de subdivisin coexistieron en la pelcula
Toy Story 2 de 1999, en la que los personajes que aparecieron en la primera Toy Story
seguan siendo NURB, mientras que los nuevos personajes se basaban en el mtodo de
subdivisin. La prxima frontera de las superficies de subdivisin puede ser la industria
de los videojuegos, en la que podran eliminar el aspecto de bloque de los grficos de
hoy en da.

Mientras tanto, en la parte terica, los matemticos todava siguen buscando mejores
tipos de wavelets para imgenes bidimensionales y tridimensionales. Aunque los
mtodos de wavelets estndar seleccionan bien los bordes, lo hacen con un pxel cada
vez, lo que no resulta eficaz para representar algo que puede ser una curva o lnea muy
simple. David Donoho y Emmanuel Cands, de la Universidad de Stanford, han
propuesto una nueva clase de wavelets denominadas "ridgelets", que se podra traducir
56
como "pequeas protuberancias", diseadas especficamente para detectar
discontinuidades a lo largo de una lnea. Otros investigadores estn estudiando las
"multiwavelets", que se pueden utilizar para codificar varias seales que viajen por una
misma lnea, tales como imgenes en color en las que los tres valores de color (rojo,
verde y azul) se tengan que transmitir a la vez.

Cuando se pide a los matemticos que justifiquen el valor de las matemticas, ellos
muestran que las ideas desarrolladas para resolver un problema puramente matemtico
pueden conducir al desarrollo de aplicaciones insospechadas aos despus. Pero la
historia de las wavelets dibuja un cuadro ms complicado y en cierta forma ms
interesante. En este caso, una investigacin aplicada especfica condujo a una nueva
sntesis terica, que a su vez abri los ojos de los cientficos a nuevas aplicaciones.
Quizs la leccin ms amplia de las wavelets sea que no se debera considerar las
ciencias bsicas y las ciencias aplicadas como empeos independientes: la buena ciencia
nos exige ver tanto el bosque terico como los rboles prcticos.

Las wavelets han tenido una historia cientfica inusual, marcada por muchos
descubrimientos y redescubrimientos independientes. El progreso ms rpido se ha
realizado desde principios de la dcada de 1980, cuando surgi por fin una teora
matemtica coherente de las wavelets.

1807
Jean Baptiste Joseph Fourier, un matemtico francs y protegido de Napolen, afirma
que cualquier funcin peridica, u onda, se puede expresar como una suma infinita de
ondas sinusoidales y cosinusoidales de distintas frecuencias. Como haba serias dudas
sobre la exactitud de sus argumentos, su artculo no se public hasta 15 aos despus. A
finales del siglo, las series de Fourier estn omnipresentes en la ciencia. Son una
herramienta ideal para analizar ondas sonoras y de luz. Sin embargo, no son igual de
eficaces para el estudio de fenmenos transitorios, tales como rfagas breves de sonido
o de luz.

1909
Alfred Haar, un matemtico hngaro, descubre una "base" de funciones que se
reconocen actualmente como las primeras wavelets. Consisten en un breve impulso
positivo seguido de un breve impulso negativo.

1930
John Littlewood y Richard Paley, de la Universidad de Cambridge, demuestran que la
informacin local sobre una onda, como la duracin de un impulso de energa, se puede
recuperar mediante la agrupacin de los trminos de sus series de Fourier en "octavas".
57
1946
Dennis (Denes) Gabor, un cientfico britnico-hngaro inventor de la holografa,
descompone las seales en "paquetes de tiempo-frecuencia" o "frecuencias de Gabor."

1960
El matemtico argentino Alberto Caldern descubre una frmula matemtica que
posteriormente permite a los matemticos recuperar una seal a partir de la expansin
de sus wavelets.

1976
Los fsicos de IBM Claude Galand y Daniel Esteban descubren la codificacin
subbanda, una forma de codificar transmisiones digitales para el telfono.

1981
El ingeniero petrolfero Jean Morlet, de Elf-Aquitaine, descubre una manera de
descomponer las seales ssmicas en los que denomina "wavelets de forma constante".
Pide ayuda al fsico cuntico Alex Grossmann para demostrar que el mtodo funciona.

1982
Edward Adelson, del MIT, y Peter Burt, de Sarnoff Corporation, desarrollan el
"algoritmo piramidal" para la compresin de imgenes.

1984
Un artculo publicado conjuntamente por Morlet y Grossmann introduce por primera
vez el trmino "wavelet" en el lenguaje matemtico.

1985
Yves Meyer, de la Universidad de Pars, descubre las primeras wavelets ortogonales
suaves.

1986
Stphane Mallat, por entonces en la Universidad de Pennsylvania, demuestra que la
base de Haar, las octavas de Littlewood-Paley, las frecuencias de Gabor y los filtros
subbanda de Galand y Esteban estn todos relacionados con algoritmos basados en
wavelets.
58
1987
Ingrid Daubechies construye las primeras wavelets ortogonales suaves con una base
slida. Sus wavelets convierten la teora en una herramienta prctica que cualquier
cientfico con una formacin matemtica mnima puede programar y utilizar fcilmente.

1990
David Donoho e Iain Johnstone, de la Universidad de Stanford, utilizan las wavelets
para "eliminar el ruido" de las imgenes, hacindolas an ms ntidas que los originales.

1992
El FBI elige un mtodo de wavelets desarrollado por Tom Hopper, de la divisin de
Servicios de informacin criminal del FBI, y Jonathan Bradley y Chris Brislawn, del
Laboratorio Nacional de Los Alamos, para comprimir su enorme base de datos de
huellas dactilares.

1995
Pixar Studios presenta la pelcula Toy Story, la primera pelcula de dibujos animados
realizada completamente por computadora. En la secuela Toy Story 2, algunas formas
se realizan mediante superficies de subdivisin, una tcnica relacionada
matemticamente con las wavelets.

1999
La Organizacin Internacional de Estndares (International Standards Organization)
aprueba un nuevo estndar de compresin de imgenes digital denominado JPEG-2000.
El nuevo estndar utiliza wavelets para comprimir archivos de imgenes en una
proporcin de 1:200, sin prdidas apreciables en la calidad de la imagen. Se espera que
los navegadores Web admitan este nuevo estndar en el ao 2001.
59
2.5.2. TRANSFORMADA WAVELET
La transformada wavelet consiste en comparar la seal con ciertas funciones wavelet,
las cuales se obtienen a partir de las wavelet madre. La comparacin permite obtener
unos coeficientes que son susceptibles de interpretacin y posterior manipulacin. En
cualquier caso, un requisito bsico es la posibilidad de invertir la transformada,
recuperando la seal a partir de esos coeficientes wavelet calculados.



Wavelet madre creada por Daubechies.


2.5.3. TRANSFORMADA WAVELET DISCRETA (DWT)
El clculo de la transformada wavelet para todas las posibles escalas supone una gran
cantidad de informacin. Escoger solo aquellas escalas y posiciones que resulten
interesantes para ciertos estudios es una tarea difcil. Si se escogen aquellas escalas y
posiciones basadas en potencias de dos, los resultados sern ms eficaces. Este anlisis
se denomina DWT.
Para muchas seales la informacin ms importante se encuentra en las frecuencias
bajas, mientras que en las altas frecuencias se encuentran los detalles o matices de la
seal. Por ejemplo, en el caso de la voz humana, si eliminamos los componentes con
altas frecuencias, la voz suena diferente pero se sigue entendiendo su mensaje. En
cambio, si lo que se elimina son las componentes de bajas frecuencias, el mensaje se
vuelve irreconocible. Por eso el anlisis wavelet permite descomponer la seal en
aproximaciones y detalles, a ste proceso se le conoce con el nombre de anlisis. Este
filtrado nos proporciona el doble de datos de los que son necesarios, este problema se
soluciona con la operacin de downsampling.

60


Proceso de descomposicin (anlisis).


El proceso de reconstruccin, tambin denominado sntesis, se encarga de la obtencin
de la seal a partir de los detalles y aproximaciones. ste proceso se lleva a cabo con la
transformada wavelet discreta inversa.




Figura x.x: Proceso de reconstruccin (sntesis)

La eleccin de los filtros (wavelets) influye notablemente en los resultados finales.


La DWT aplicada a imgenes proporciona una matriz de coeficientes, conocidos como
coeficientes wavelet. Si a una imagen le aplicamos la DWT obtenemos cuatro tipos de
coeficientes: aproximaciones, detalles horizontales, detalles verticales y detalles
diagonales. La aproximacin contiene la mayor parte de la energa de la imagen, es
decir, la informacin ms importante, mientras que los detalles tienen valores prximos
a cero.



61


Descomposicin wavelet de primer nivel.



La eleccin de las wavelets analizadoras juega un papel muy importante en los
resultados finales. Entre las caractersticas ms importantes a tener en cuenta se
encuentran: soporte compacto, simetra, etc. Las wavelets biortogonales son las ms
eficientes para un posterior proceso de compresin, y en particular, aquellas con pocos
coeficientes, ya que el coste de obtencin de los coeficientes se incrementa con su
nmero.
62

2.5.4. ORGANIZACIN DE LOS COEFICIENTES WAVELET

Generalmente, la energa de las imgenes se concentra en las frecuencias bajas. Una
imagen tiene un espectro que se reduce con el incremento de las frecuencias. Estas
propiedades de las imgenes quedan reflejadas en la transformada wavelet discreta de la
imagen. Los niveles ms bajos de compresin se corresponden con las bandas de alta
frecuencia. En particular, el primer nivel representa la banda de ms alta frecuencia y el
nivel ms fino de resolucin. A la inversa, el ltimo nivel (n) de descomposicin
corresponde con la banda de frecuencia ms baja y la resolucin ms tosca. As, al
desplazarse de los niveles ms altos a los ms bajos, o sea, de baja resolucin a alta
resolucin, se observa una disminucin de la energa contenida en las subbandas
recorridas.



Esquema de la organizacin de los coeficientes wavelet.

Si los coeficientes wavelet obtenidos por medio de la transformada wavelet discreta
(DWT) para un nivel concreto poseen pequeas magnitudes (valores prximos a cero),
se espera que esos coeficientes wavelet estn en los primeros niveles de
descomposicin. El aumento del nivel de descomposicin wavelet produce unos
coeficientes con mayores magnitudes. Adicionalmente, se puede comprobar como
existen similitudes espaciales a travs de las subbandas.


63

Imagen original de Barbara. Organizacin de los coeficientes wavelet.

En la figura anterior se puede observar los contornos de Barbara en los distintos niveles
y cmo son ms bastos en el primer nivel de descomposicin, adems de cierta similitud
entre los distintos niveles.
El anlisis de wavelets permite a los investigadores aislar y manipular tipos de patrones
especficos ocultos en cantidades ingentes de datos, de forma muy parecida a como
nuestros ojos observan los rboles de un bosque, o nuestros odos pueden elegir el
sonido de una flauta en una sinfona.
Una forma de comprender cmo consiguen hacer esto las wavelets es comenzar con la
diferencia entre dos tipos de sonidos: un diapasn y la voz humana. Al golpear un
diapasn se obtiene un tono puro que perdura largo tiempo. En la teora matemtica, se
dice que dicho tono tiene una frecuencia "localizada"; es decir, que est formado por un
solo tono sin armnicos de frecuencias superiores. Una palabra hablada, en contraste,
slo dura un segundo y, por tanto, est "localizada" en el tiempo. Su frecuencia no est
localizada porque la palabra no es un solo tono, sino una combinacin de muchas
frecuencias distintas.
Los grficos de las ondas sonoras producidas por el diapasn y por la voz humana
resaltan la diferencia, como se ilustra en la pgina 3. Las vibraciones del diapasn
trazan lo que los matemticos denominan una onda sinusoidal, una curva suavemente
ondulada que, en teora, podra repetirse para siempre. En contraste, el grfico de la
palabra inglesa "greasy" ("grasiento") contiene una serie de picos agudos, sin
oscilaciones.


64



Los grficos de las ondas sonoras producidas por un diapasn (izquierda) y de la
pronunciacin de la palabra inglesa "greasy" (derecha) ilustran la diferencia entre un
tono de frecuencia localizada y uno localizado en el tiempo. El diapasn produce una
"onda sinusoidal" simple. (Cortesa de Ofer Levi, Universidad de Stanford)

En el siglo XIX, los matemticos perfeccionaron lo que se podra denominar la versin
del "diapasn" de la realidad, una teora conocida como el anlisis de Fourier. Jean
Baptiste Joseph Fourier, un matemtico francs, afirm en 1807 que cualquier forma de
onda repetitiva (o funcin peridica), como la onda sonora de un diapasn, se puede
expresar como una suma infinita de ondas sinusoidales y cosinusoidales de diversas
frecuencias. (Una onda cosinusoidal es una onda sinusoidal desplazada un cuarto de
ciclo.)

Una demostracin familiar de la teora de Fourier se da en la msica. Cuando un msico
toca una nota, crea una onda sonora de forma irregular. La misma forma se repite
durante tanto tiempo como el msico sostenga la nota. Por tanto, segn Fourier, la nota
se puede dividir en una suma de ondas sinusoidales y cosinusoidales. La onda de
frecuencia ms baja se denomina frecuencia fundamental de la nota, y las de mayor
frecuencia se denominan armnicos. Por ejemplo, la nota La, en un violn o una flauta,
tiene una frecuencia fundamental de 440 ciclos por segundo y armnicos con
frecuencias de 880, 1320 y as sucesivamente. Aunque un violn y una flauta toquen la
misma nota, el sonido ser distinto porque sus armnicos tienen distinta fuerza o
"amplitud". Como demostraron los sintetizadores de msica en la dcada de 1960, slo
se puede conseguir una imitacin muy convincente de un violn o una flauta mediante la
recombinacin de ondas sinusoidales puras de las amplitudes adecuadas. Y, por
supuesto, eso es exactamente lo que predijo Fourier en 1807.

Posteriormente, los matemticos ampliaron la idea de Fourier a funciones no peridicas
(u ondas) que cambian en el tiempo, en lugar de repetirse en la misma forma para
siempre. La mayora de las ondas del mundo real son de este tipo: pongamos, por
65
ejemplo, el sonido de un motor que acelera, reduce y se interrumpe de vez en cuando.
En las imgenes tambin es importante la distincin entre patrones repetitivos y no
repetitivos. Un patrn repetitivo se puede ver como una textura o fondo, mientras que
un patrn no repetitivo es percibido por el ojo como un objeto. Para representar patrones
repetitivos (fondo) de una imagen se pueden utilizar ondas peridicas o repetitivas
formadas por una serie de armnicos. Las caractersticas no repetitivas se pueden
resolver en un espectro de frecuencias mucho ms complejo, denominado
"transformacin de Fourier", de la misma forma que la luz se puede descomponer en un
espectro de colores. La transformacin de Fourier representa la estructura de una onda
peridica de forma mucho ms reveladora y concentrada que lo hara el grfico
tradicional de una onda. Por ejemplo, una vibracin de un motor aparecera como un
pico de frecuencia inusual en la transformacin de Fourier.

Las transformaciones de Fourier han sido un xito. Durante el siglo XIX resolvieron
muchos problemas de la fsica y de la ingeniera. Esta importancia llev a cientficos e
ingenieros a pensar en ellas como la forma preferida de analizar fenmenos de todo
tipo. Esta omnipresencia oblig a un examen ms detallado del mtodo. Como
resultado, durante el siglo XX, matemticos, fsicos e ingenieros observaron un
inconveniente en la transformacin de Fourier: tenan problemas para reproducir seales
fugaces o seales con cambios abruptos, tales como la palabra hablada o el golpe de un
tambor con bordn. Los sintetizadores de msica, por buenos que sea, no consiguen el
sonido de los violinistas de concierto, porque la interpretacin de un violinista contiene
caractersticas fugaces, tales como el contacto del arco en la cuerda, que las
representaciones basadas en ondas sinusoidales slo consiguen imitar pobremente.

El principio subyacente a este problema se puede ilustrar mediante lo que se conoce
como el principio de la indeterminacin de Heisenberg. En 1927, el fsico Werner
Heisenberg afirm que la posicin y la velocidad de un objeto no se pueden medir
exactamente al mismo tiempo, ni siquiera en teora. En trminos de procesamiento de
seales, esto significa que es imposible conocer de forma simultnea la frecuencia
exacta y el momento exacto en que ocurre esta frecuencia en una seal. Para poder
conocer la frecuencia, la seal se debe dilatar en el tiempo, o viceversa. En trminos
musicales, el equilibrio significa que cualquier seal de duracin corta debe tener un
complejo espectro de frecuencias formado por una gran variedad de ondas sinusoidales,
mientras que cualquier seal formada por una combinacin simple de unas pocas ondas
sinusoidales debe tener una apariencia compleja en el dominio del tiempo. Por tanto, no
podemos esperar reproducir el sonido de un tambor con una orquesta de diapasones.



66
2.5.5. APLICACIONES

En cuanto a sus aplicaciones, la transformada wavelet discreta se utiliza para la
codificacin de seales, mientras la continua se utiliza en el anlisis de seales. Como
consecuencia, la versin discreta de este tipo de transformada se utiliza
fundamentalmente en ingeniera e informtica, mientras que la continua se utiliza
sobre todo en la fsica.
Este tipo de transformadas estn siendo cada vez ms empleadas en un amplio campo
de especialidades, a menudo sustituyendo a la transformada de Fourier. Se puede
observar este desplazamiento en el paradigma en mltiples ramas de la fsica, como la
dinmica molecular, los clculos ab initio, la astrofsica, la geofsica de los sismos, la
ptica, el estudio de las turbulencias y la mecnica cuntica, as como en otros campos
muy variados como el procesamiento digital de imgenes, los anlisis de sangre, el
anlisis de electrocardiogramas, el estudio del ADN, el anlisis de protenas, la
meteorologa, el procesamiento de seal en general, el reconocimiento de voz, los
grficos por ordenador, el anlisis multifractal y en el campo de biometra.

El 25 de noviembre de 1998, Walt Disney Pictures y Pixar Animation Studios
presentaron un largometraje de animacin informtica llamado Bichos. Era la segunda
vez que colaboraban en un proyecto de este tipo Disney y Pixar y, al igual que su
predecesor el pionero Toy Story hiciera tres aos antes, levant crticas entusiastas.
Bichos, declar un crtico, "est lleno de hermosas invenciones visuales...; con
intrincados detalles que mantienen tanto a los adultos como a los nios con los ojos
pegados a la pantalla de principio a fin...; y con colores extrados de algn nuevo y hasta
la fecha secreto espectro de tonalidades pastel..."

Slo los espectadores ms habilidosos en grficos informticos se habran parado a
pensar por un instante en las tcnicas de modelado matemtico que hicieron posible
desarrollar todos los personajes de la historia de hormigas animadas, sin mencionar sus
texturas, las innumerables expresiones y la forma en que saltaban, revoloteaban y
zumbaban. Sin embargo, tal y como ocurri, un determinado tipo de tcnica de
modelado hizo su debut en la pelcula, un mtodo de animacin informtica que emplea
un conjunto de procedimientos matemticos denominados "wavelets", que significa
"pequeas ondulaciones".

Una forma de pensar en las wavelets es plantearse cmo miran nuestros ojos el mundo.
En el mundo real, se puede observar un bosque como el de la fotografa de la pgina
siguiente desde muchas perspectivas que son, de hecho, distintas escalas de resolucin.
Desde la ventana de un avin a reaccin, por ejemplo, el bosque parece una cubierta
slida de verde. Desde la ventana de un automvil que se encuentre sobre el suelo, la
cubierta se transforma en rboles individuales; y si salimos del coche y nos acercamos,
67
comenzamos a ver ramas y hojas. Si tomamos entonces una lupa, podremos encontrar
una gota de roco en el extremo de una hoja. A medida que nos acercamos a escalas
cada vez ms pequeas, podremos encontrar detalles que no habamos observado antes.
Sin embargo, si intentamos hacer lo mismo con una fotografa, nos sentiramos
decepcionados. Si ampliamos la fotografa para "acercarnos" a un rbol, slo veremos
un rbol ms difuminado; no encontraremos la rama, la hoja, ni la gota de roco.
Aunque nuestros ojos pueden ver el bosque a muchas escalas de resolucin, la cmara
slo puede mostrar una cada vez.


Esta fotografa captura el
bosque a una escala de
resolucin. Pronto,
computadoras de todo el
mundo podrn mostrar
imgenes interactivas en
las que los usuarios
podrn acercar la imagen
para ver con mayor
detalle los rboles, las
ramas y las hojas. (Gerry
Ellis/Minden Pictures)

Los equipos informticos no lo hacen mejor que las cmaras; de hecho, su grado de
resolucin es inferior. En la pantalla de una computadora, la fotografa se transforma en
un conjunto de pxeles que tienen mucha menos nitidez que el original.

Sin embargo, muy pronto, las computadoras de todo el mundo podrn hacer algo con lo
que los fotgrafos slo han podido soar. Podrn mostrar una imagen interactiva de un
bosque en la que el espectador podr acercarse para apreciar con mayor detalle los
rboles, las ramas y quiz incluso las hojas. Podrn hacerlo porque las wavelets
permiten comprimir la cantidad de datos que se utilizan para almacenar una imagen,
permitiendo almacenar una imagen ms detallada en un espacio menor.

Aunque las wavelets, como objeto de investigacin organizada, tienen menos de dos
dcadas, se derivan de una constelacin de conceptos relacionados desarrollados
durante un perodo de casi dos siglos, siendo repetidamente redescubiertas por
cientficos que queran resolver problemas tcnicos de diversas disciplinas. Los
procesadores de seales estaban buscando una manera de transmitir mensajes claros a
travs de los hilos telefnicos. Los que realizaban prospecciones petrolferas queran
encontrar una forma mejor de interpretar las seales ssmicas. Pese a todo, el trmino
68
"wavelets" no entr a formar parte de la terminologa habitual entre los cientficos hasta
que la teora se liber de las distintas aplicaciones en las que surgi y se sintetiz en una
teora puramente matemtica. Esta sntesis, en cambio, abri los ojos de los cientficos a
nuevas aplicaciones. Hoy en da, por ejemplo, las wavelets no son slo el caballo de
batalla de la animacin y las imgenes por computadora; tambin las utiliza el FBI para
codificar su base de datos de 30 millones de huellas dactilares. En el futuro, los
cientficos podrn utilizar el anlisis de wavelets para diagnosticar el cncer de mama,
detectar anomalas cardacas o predecir el tiempo.

Hasta ahora, la principal aplicacin excepcional de las wavelets ha sido la compresin
de imgenes digitales. Son el eje central del nuevo estndar de imgenes digitales
JPEG-2000 y del mtodo WSQ (del ingls Wavelet Scalar Quantization, cuantizacin
escalar de wavelets) que utiliza el FBI para comprimir su base de datos de huellas
dactilares. En este contexto, se puede pensar en las wavelets como los componentes
bsicos de las imgenes. Una imagen de un bosque puede estar formada por las
wavelets ms amplias: una gran franja de verde para el bosque y una mancha de azul
para el cielo. Las wavelets de mayor detalle y nitidez se pueden utilizar para distinguir
un rbol de otro. Es posible aadir ramas y agujas a la imagen con wavelets an ms
finas. Al igual que una pincelada de un cuadro, cada wavelet no es una imagen en s,
pero muchas wavelets juntas pueden recrear cualquier cosa. A diferencia de una
pincelada de un cuadro, una wavelet puede hacerse arbitrariamente pequea: una
wavelet no tiene limitaciones fsicas de tamao porque slo se trata de una serie de
ceros y unos almacenados en la memoria de una computadora.

En contra de la creencia popular, las wavelets en s no comprimen una imagen: su
finalidad es permitir la compresin. Para comprender por qu, supongamos que una
imagen se codifica como una serie de nmeros distribuidos en el espacio, tales como 1,
3, 7, 9, 8, 8, 6, 2. Si cada nmero representa la oscuridad de un pxel, siendo 0 el blanco
y 15 el negro, esta cadena representa una especie de objeto gris (los 7, 8 y 9) sobre un
fondo claro (los 1, 2 y 3).

El tipo ms sencillo de anlisis multiresolucin filtra la imagen calculando el promedio
de cada par de pxeles adyacentes. En el ejemplo anterior, el resultado es la cadena 2, 8,
8, 4: una imagen de menor resolucin que todava muestra un objeto gris sobre un fondo
claro. Si quisiramos reconstruir una versin degradada de la imagen original a partir de
esto, podramos hacerlo repitiendo cada uno de los nmeros de la cadena: 2, 2, 8, 8, 8,
8, 4, 4.

Sin embargo, supongamos que queremos recuperar la imagen original perfectamente.
Para hacerlo, tendramos que guardar en primer lugar cierta informacin adicional, es
decir, un conjunto de nmeros que se puedan aadir o restar a la seal de baja
resolucin para obtener la seal de alta resolucin. En el ejemplo, esos nmeros son -1,
69
-1, 0 y 2. (Por ejemplo: al aadir -1 al primer pxel de la imagen degradada, el 2, se
obtiene 1, el primer pxel de la imagen original; al restarle -1 se obtiene 3, el segundo
pxel de la imagen original.)

Por tanto, el primer nivel del anlisis multiresolucin divide la seal original en una
parte de baja resolucin (2, 8, 8, 4) y una parte de alta frecuencia o "detalle" (-1, -1, 0,
2). Los detalles de alta frecuencia se denominan tambin coeficientes de wavelets de
Haar. De hecho, todo este procedimiento es la versin multiresolucin de la
transformacin de wavelets que Haar descubri en 1909.

Puede parecer que no se ha ganado nada en el primer paso de la transformacin de
wavelets. Haba ocho nmeros en la seal original y siguen habiendo ocho nmeros en
la transformacin. Pero, en una imagen digital tpica, la mayora de los pxeles se
parecen mucho a sus vecinos: los pxeles del cielo se encuentran junto a los pxeles del
cielo, y los pxeles del bosque junto a pxeles del bosque. Esto significa que los
promedios de los pxeles prximos sern casi iguales que los pxeles originales y, por
tanto, la mayora de los coeficientes de detalle sern cero o estarn muy prximos a
cero. Si simplemente redondeamos estos coeficientes a cero, entonces la nica
informacin que necesitamos conservar es la imagen de baja resolucin junto con
algunos coeficientes de detalle que no se hayan redondeado a cero. Por consiguiente, la
cantidad de datos necesarios para almacenar la imagen se ha comprimido con un factor
prximo a 2. El proceso de redondeo de nmeros de gran precisin a nmeros de baja
precisin con menos dgitos se denomina cuantizacin (la "Q", del ingls
"quantization", en "WSQ"). Un ejemplo es el proceso de redondeo de un nmero en dos
cifras significativas.
70

JPEG 2000
JPEG 2000 es una norma de compresin de imgenes basada en transformacin de
ondas. Fue creada por el comit Joint Photographic Experts Group que anteriormente
haba creado el algoritmo JPEG. Su objetivo fue el de mejorar el algoritmo JPEG,
basndose en una transformacin discreta del coseno. Usualmente los archivos con este
formato utilizan la extensin .jp2.
JPEG 2000 puede trabajar con niveles de compresin mayores a los de JPEG sin
incurrir en los principales defectos del formato anterior con altas tasas de compresin:
Generacin de bloques uniformes y aspecto borroso. Tambin se adapta mejor a la carga
progresiva de las imgenes. Sus principales desventajas estn en que tiende a
emborronar ms la imagen que JPEG incluso para un mismo tamao de archivo (pero
sin formar bloques), y que elimina algunos detalles pequeos y texturas, que el formato
JPEG normal s llega a representar.
Parte de JPEG 2000 ha sido publicada como una norma ISO, ISO/IEC 15444-1:2000.
Actualmente JPEG 2000 no est ampliamente admitido por los programas de
visualizacin de pginas web. En algunos navegadores, los diseadores no tienen
intencin de incluirlo debido a su escaso uso y gran nmero de patentes que tiene. De
todas formas, existen muchas extensiones que dan soporte, que opcionalmente pueden
ser instaladas por el usuario. Un navegador con soporte para este formato es Konqueror.

Si bien JPEG 2000 admite compresin sin prdida, no est diseado para reemplazar el
formato PNG, que es uno de los ms utilizados en la actualidad para este fin. PNG
soporta algunas caractersticas, como la transparencia, que no estn disponibles en
JPEG 2000. Por las cuestiones inherentes a la compresin sin prdida, de la cual PNG
tiene mejor soporte y funcionalidad, este resulta como una mejor opcin si lo deseado es
almacenar fielmente y sin prdidas, la imagen original.

El proceso de transformacin y cuantizacin se puede repetir tantas veces como se
desee, y cada vez disminuirn los bits de informacin segn un factor de casi 2 y se
degradar ligeramente la calidad de la imagen. En funcin de las necesidades del
usuario, el proceso se puede detener antes de que la resolucin baja comience a
apreciarse o continuar hasta obtener una imagen "en miniatura" de muy baja resolucin
con capas de detalles cada vez ms precisos. Con el estndar JPEG-2000, se pueden
conseguir ndices de compresin de 200:1 sin diferencias perceptibles en la calidad de la
imagen. Tales descomposiciones en wavelets se obtienen al calcular el promedio de ms
de dos pxeles prximos cada vez. La transformacin de wavelets de Daubechies ms
simple, por ejemplo, combina grupos de cuatro pxeles, mientras que otras ms suaves
combinan seis, ocho o ms.

71


Las wavelets permiten comprimir imgenes con muy poca degradacin de la calidad.
De izquierda a derecha, imagen original, la misma imagen comprimida en una
proporcin de 200:1 mediante tecnologa JPEG estndar y la misma imagen
comprimida en la misma proporcin mediante JPEG-2000, un mtodo que utiliza
wavelets. (Imagen cedida por ImageState; grfico manipulado por Aware, Inc.)
Una propiedad fascinante de las wavelets es que eligen automticamente las mismas
caractersticas que nuestros ojos. Los coeficientes de las wavelets que quedan an tras la
cuantizacin corresponden a pxeles que son muy distintos a sus vecinos, en el borde de
los objetos de una imagen. Por tanto, las wavelets recrean una imagen principalmente
trazando bordes, que es exactamente lo que hacen los humanos cuando esbozan un
dibujo. De hecho, algunos investigadores han sugerido que la analoga entre las
transformaciones de wavelets y la visin humana no es accidental, y que nuestras
neuronas filtran las seales visuales de forma parecida a las wavelets.

DJVU
DjVu (pronunciado deja-vu) es un formato de fichero de ordenador diseado
principalmente para almacenar imgenes escaneadas. Se caracteriza por incorporar
avanzadas tecnologas tales como separacin de capas de imgenes, carga progresiva,
codificacin aritmtica y compresin sin prdida para imgenes bitonales (dos colores),
permitiendo que imgenes de alta calidad se almacenen en un mnimo de espacio.

La carga (o descarga) progresiva hace al formato ideal para imgenes servidas desde
Internet. Djvu ha sido promovido como una alternativa al PDF, y en la actualidad
supera a este formato en la mayora de los documentos escaneados. Esto le ha llevado a
ser ampliamente utilizado en la distribucin de libros de matemticas en las redes de
comparticin de ficheros (Emule, Bittorrent, etc.). Al igual que PDF, Djvu puede
contener una capa de texto obtenida mediante un proceso de OCR (Optical Character
Recognition), haciendo fcil las operaciones de copiado y pegado en otros documentos.

La tecnologa de DjVu fue originalmente desarrollada por Yann Le Cun, Lon Bottou,
Patrick Haffner y Paul G. Howard en los laboratorios de AT&T en 1996. DjVu es un
formato de fichero abierto. Las especificaciones del formato y el cdigo fuente de la
biblioteca de referencia estn publicadas y se encuentran disponibles. La propiedad de
72
los derechos para el desarrollo comercial del software de codificacin ha sido
transferido a distintas compaas a travs de los aos, incluyendo AT&T y LizardTech.
Los autores originales mantienen una implementacin GPL llamada DjVuLibre.

En el ao 2002 el formato DjVu ha sido elegido por Internet Archive como formato en
el cul su proyecto "Million Book Project" proporciona libros escaneados de dominio
pblico de forma online (conjuntamente con TIFF y PDF).

La principal diferencia entre DjVu y PDF es que el primero es un formato de grficos
rasterizados, en tanto que el segundo es un formato de grficos vectoriales. Esto implica
las siguientes consecuencias:
La resolucin mxima de un archivo DjVu est prefijada (se especifica al
crearlo). En cambio, un archivo PDF puede ampliarse o reducirse
arbitrariamente, sin perder su calidad.
Los caracteres de un archivo DjVu son imgenes, no emplea fuentes
tipogrficas. PDF s emplea fuentes, que pueden no venir empaquetadas dentro
del archivo, por lo que si no se encuentran en el sistema, se utiliza otra que s
est disponible.

El formato PDF proporciona diferentes maneras de incluir y presentar imgenes
rasterizadas, que a menudo se utilizan para crear archivos con documentos escaneados.
Estos archivos tienen las mismas limitaciones que los archivos DjVu .

DIRAC
Dirac es un cdec de cdigo abierto que ofrece herramientas de compresin y
descompresin de video para propsitos generales, a resoluciones desde QCIF
(180x144) hasta HDTV (1920x1080), progresivo o entrelazado. Usa compresin con
wavelets, compensacin de movimiento y codificacin aritmtica, y pretende ser
competitivo con otros cdecs.

En Enero de 2003, el departamento de I&D de la BBC produjo un prototipo de
algoritmo para la codificacin y compresin de video, basado en tecnologa de wavelets
(antes utilizada en compresin de imgenes estticas), distinta a la que usan la mayora
de sistemas de compresin de video estndar o privados. Este algoritmo reduce a la
mitad el bit rate respecto a MPEG-2 para video de alta definicin, su objetivo original.
Posteriormente se ha trabajado para optimizarlo para resoluciones aptas para
distribucin en Internet, y parece ser competitivo con otros cdecs en este campo.
73

Dirac ha sido desarrollado como una herramienta de investigacin para posteriores
proyectos, no como un producto. Una versin experimental del cdigo, escrito en C++,
sali bajo licencia de cdigo abierto el 11 de marzo de 2004.

La filosofa que hay detrs del cdec Dirac es la simplicidad. Es una idea ambiciosa, ya
que los cdecs de video tienden a ser realmente complejos. Aun as, la BBC quiere
colaborar con la comunidad de cdigo abierto, estudiantes y otras gentes para producir
un cdec abierto.

El cdigo fuente del software de Dirac est licenciado bajo la licencia Pblica de
Mozilla (versin 1.1), ya que Dirac pretende ser usado amplia y gratuitamente. Como
medida de defensa, la BBC ha pedido proteccin de patentes para las tcnicas que usa, o
pudiese usar, en Dirac.

SPIHT
El SPIHT representa el comienzo de una nueva generacin de codificadores wavelet que
emplean un cdigo sofisticado. Este mtodo de compresin ha sido creado por A. Said,
W. A. Pearlman, profesores del Instituto Politcnico Rensselear y miembros del CIPR
(Center for Image Processing Research).

Tradicionalmente el principal impedimento para obtener un alto nivel de compresin en
imgenes se encuentra en la codificacin de la informacin. Actualmente existen
mtodos que obtienen un rendimiento ptimo, pero a costa de algoritmos de una
complejidad computacional elevada. Por contra, el algoritmo SPIHT de Said y Pearlman
obtiene resultados similares con una complejidad baja. El tipo de codificacin que
realiza se basa en la clasificacin por orden de bits significativos, resultando ser un
mtodo efectivo y econmico en el uso de recursos.

El SPIHT ofrece una nueva y mejor implementacin del EZW basada en la utilizacin
de conjuntos de datos organizados en rboles jerrquicos, es decir, el SPIHT tiene en
cuenta la significancia de la descendencia del coeficiente que codifica.

74


Coeficientes wavelet organizados en rboles jerrquicos.

Al igual que el EZW, el SPIHT transforma mediante la DWT la imagen a comprimir, y
organiza los coeficientes wavelet resultantes en rboles de orientacin espacial.
Los coeficientes wavelet obtenidos mediante la transformada wavelet discreta son
valores reales, que se convertirn a enteros mediante una cuantificacin. Adems, la
representacin interna del ordenador exige un nmero finito de bits por coeficiente, lo
que supone una cuantificacin fina.

Hay que escoger el mtodo ms eficaz de cuantificacin ya que en este proceso se
pierde parte de la informacin.




Esquema del mtodo de compresin SPIHT.
75
El primer paso para la codificacin de SPITH consiste en la creacin de un mapa de
significancia por cada umbral de estudio. Dicho mapa contendr informacin sobre si
un coeficiente est dentro del umbral de estudio o no. El mapa de significancia se
obtiene empleando los rboles de orientacin espacial (relacin de herencia entre los
coeficientes wavelet) y transmitiendo la significancia de hijos a padres.

El primer umbral viene determinado por el bit ms significativo del coeficiente mayor
en valor absoluto. En las etapas sucesivas basta con decrementar este umbral de uno en
uno.

El siguiente paso consiste en la transmisin de bits significativos mediante dos
operaciones de ordenacin y refinamiento.

Para la implementacin del algoritmo se usan tres listas: lista de pxeles no
significativos (LIP), lista de pxeles significativos (LSP) y lista de coordenadas no
significativas (LIS). Al final de cada paso de ordenacin, LSP contiene las coordenadas
de todos los pxeles significativos para el umbral n correspondiente. Como se puede
comprobar, tambin incluye los coeficientes hallados en pasos anteriores. Las entradas
de LIS son coordenadas de pxeles junto con una marca de tipo A o B. La marca es de
tipo A cuando representa a todos sus descendientes y de tipo B cuando representa a
todos los descendientes a partir de los nietos.

En el paso de inicializacin n (el umbral inicial) toma el valor ms prximo a una
potencia de dos, obtenido de la matriz de coeficientes (el mayor coeficiente en valor
absoluto). LSP esta vaca, LIP toma las coordenadas de los pxeles de nivel ms alto y
LIS las coordenadas de los pxeles raz como tipo A.

La ordenacin consiste en verificar si cada entrada de tipo A en LIP es o no significante
para el n actual. Si lo es se trasmite un uno, adems del signo del pxel, para luego
mover sus coordenadas a LSP. Si no es significativo se trasmite un cero. A continuacin
se comprueba la significancia de la descendencia de cada entrada de LIS. Si no se halla
una significancia se trasmite un cero, en caso contrario un uno y, de nuevo, se
comprueba la significancia de cada miembro de su descendencia. Si lo es se aade a
LSP a la vez que se trasmite su signo, y si no, se aade a LIP y se transmite un cero. Si
ese pxel dispone de ms descendientes (nietos en adelante), se colocan sus coordenadas
al final de LIS y se marca como tipo B. Por el contrario, si la entrada LIS es de tipo B,
se comprueba si tiene descendientes significativos a partir de los nietos (incluidos). Si
se confirma se transmite un uno y se aaden sus coordenadas correspondientes al final
de LIS marcadas como tipo A. En el caso contrario se transmite un cero y se eliminan
sus coordenadas de LIS.
76
Las entradas aadidas a LIS no se tienen en cuenta en la etapa posterior de refinamiento.
El refinamiento consiste en evaluar los componentes de LSP introducidos en las pasadas
anteriores, enviando el ensimo bit ms significativo. Por ltimo se decrementa el
umbral en uno y se vuelve al paso de ordenacin. El ciclo se repite hasta alcanzar el
umbral cero (incluido).
El resultado del algoritmo consiste en un vector compuesto por ceros y unos, que sern
empaquetados y almacenados en un fichero con extensin RAW. El nmero de
elementos de este mapa determina el factor de compresin proporcionado por el
algoritmo para la imagen dada.
Las imgenes reconstruidas tras ser sometidas a un proceso de compresin con el
SPIHT son de una calidad extraordinaria (alto PSNR), superior a las comprimidas
usando JPEG con la misma tasa de compresin.


Imagen de Lenna comprimida con SPIHT:
PSNR=35.12 dB y 0.31 bpp

Imagen de Lenna comprimida con JPEG:
PSNR=31.12 dB y 0.31 bpp
La calidad de las imgenes es uno de los objetivos ms importantes a tener en cuenta,
ya que en las imgenes mdicas una simple perdida de informacin puede acarrear
serios problemas en los diagnsticos.
La tasa de compresin est muy relacionada con la calidad de la imagen. Si se busca
una tasa de compresin muy elevada se obtiene a costa de perder calidad en la imagen,
luego, se debe llegar a un compromiso entre estos dos factores.

El mtodo de compresin SPIHT ofrece altas tasas de compresin con unas calidades
para las imgenes aceptables, en comparacin con las obtenidas por otros mtodos de
compresin como el JPEG.

77
Una de las ventajas que ofrece el SPIHT es la transmisin ptima: durante la
visualizacin progresiva de la imagen, se ofrece la mejor representacin teniendo en
cuenta el nmero de bits disponibles en cada momento. Esto resulta muy til en
aplicaciones que exigen una rpida inspeccin de la imagen.
Mediante este mtodo de compresin se obtiene un cdigo muy optimizado, conocido
con el nombre de Embedded Coding. La informacin de la imagen comprimida est
almacenada por orden de importancia creciente. Dados dos archivos con informacin
sobre una misma imagen comprimida a diferentes tasas de compresin, se garantiza que
la informacin del fichero ms pequeo est contenida en los primeros bits del fichero
de mayor tamao.
Por ejemplo, si tres usuarios necesitan una misma imagen, pero con distintas calidades,
usando JPEG sera necesario realizar tres compresiones distintas, una por cada usuario.
En cambio, con el mtodo SPIHT, bastara con realizar una nica compresin, y
transmitir a cada usuario solamente el nmero de bits que se ajuste a sus necesidades.
Con ello se logra reducir el tiempo de procesado y el espacio de almacenamiento.


Imagen original: peppers, 256x256 y 8 bpp.

Imagen reconstruida con SPIHT:
PSNR=49.77 dB, 12:1.

78

Imagen reconstruida con SPIHT:
PSNR=31.35 dB, 41:1.

Imagen reconstruida con SPIHT:
PSNR=27.51 dB, 89:1.

Esta nueva cualidad del SPIHT se puede combinar con la transmisin progresiva. As, el
usuario puede cortar la transmisin de la imagen en el momento en el que alcanza la
calidad deseada, consiguiendo reducir el tiempo de espera.
En todos los mtodos de compresin de imgenes, un error en cdigo comprimido suele
causar daos importantes en la imagen reconstruida. El mtodo Huffman tiene gran
habilidad para recuperarse despus de un error, sin embargo, los mtodos basados en
run-length reflejan todo error producido. El SPIHT no es una excepcin. Ahora bien,
permite localizar ms fcilmente el error. Con embedded coding la informacin est
ordenada de acuerdo a su importancia y, por tanto, requiere un mayor control del error
al principio que al final del cdigo comprimido. Si se detecta un error y no se corrige, el
decodificador puede desechar todos los datos posteriores, y reconstruir la imagen
solamente con los bits recibidos hasta ese momento.
Adems, con la codificacin por planos de bits se puede localizar el error en un plano y
prescindir de l. El SPIHT produce dos tipos de datos. El primero es la informacin
ordenada, la cual debe protegerse contra errores y la segunda es la informacin acerca
del signo y el refinamiento de bits, que no necesita una especial proteccin.
El SPIHT codifica uno por uno los bits de una imagen de coeficientes wavelet, y lo hace
de acuerdo a la secuencia de planos. Sin embargo, la transformada wavelet produce una
perfecta reconstruccin solo si los nmeros almacenados son nmeros con infinita
precisin. En la prctica, es posible recuperar la imagen perfecta si despus de la
recuperacin se usa un redondeo, pero esta manera de proceder no es la ms eficiente.
Para conseguir una compresin sin perdida se aplica a la imagen original una
transformada wavelet multiresolucin. Pero surge un problema de precisin infinita, que
se resuelve con un truncado cuidadoso de los coeficientes wavelet. Es sorprendente los
resultados obtenidos con el SPIHT a la hora de obtener una compresin sin prdida y
son ms eficientes que los obtenidos con otros codificadores sin perdida, como por
ejemplo lossless JPEG.
79
El SPIHT representa una gran evolucin en el campo de la compresin, pues rompe con
la tendencia compleja de otros mtodos. Los mtodos tradicionales de compresin se
caracterizan por la utilizacin de mtodos sofisticados de cuantificacin, mientras que el
SPIHT obtiene resultados superiores utilizando mtodos sencillos, como una
cuantificacin escalar uniforme.
Una consecuencia de la gran simplicidad de compresin del SPIHT es la rapidez del
codificador y del decodificador, y la gran simetra existente entre ambos procesos. El
tiempo de compresin es muy similar al empleado en la descompresin, mientras que
los mtodos tradicionales de compresin tienden a emplear ms tiempo en comprimir
que en descomprimir la imagen.
Tanto el codificador como el decodificador SPIHT son muy rpidos. Para el
empaquetado del resultado del codificador se puede emplear una codificacin binaria o
bien emplear un mtodo basado en codificacin aritmtica. Sorprendentemente, los
beneficios del uso de esta ltima es pequea, sin contar con los royalties derivados de su
empleo.

80
2.5.6. TRANSFORMADA DISCRETA DEL COSENO

La Transformada de coseno discreta (DCT del ingls Discrete Cosine Transform) es
una transformada basada en la Transformada de Fourier discreta, pero utilizando
nicamente nmeros reales.
En los ltimos aos, la transformada del coseno discreta se ha convertido en el mtodo
preferido para la comprensin de datos de imgenes.
Esta es la parte ms importante en la codificacin JPEG. Lo primero que debemos hacer
es obtener bloques de 8x8 pixeles de la imagen conseguida en el paso anterior.
Evidentemente, todas las imgenes no van a tener dimensiones que sean divisibles entre
8. Para arreglar esto, tendremos que realizar dos operaciones: Una para la dimensin x
y otra para la y de la imagen. Para conseguir que la anchura de la imagen sea divisible
por 8 habr que completar las columnas restantes con las columnas ms a la derecha de
la imagen original. Si la anchura fuera divisible entre 8, habra que hacer la misma
operacin pero completando usando las filas ms bajas de la imagen original. Con esto,
las dimensiones de la imagen sern divisibles por 8.
El objetivo de la DCT es procesar las muestras originales. Lo que se hace es trabajar
con las frecuencias espaciales que hay en la imagen. Las altas frecuencias
correspondern a niveles de detalles altos, y las bajas, a niveles bajos. A la DCT le
pasaremos una a una las matrices de 8x8 (que obtuvimos anteriormente) y nos
devolver otras matrices de 8x8 en el dominio frecuencial (Nota: la DCT es semejante a
la transformada rpida 2D de Fourier, la cual no explicaremos)
La ecuacin de la DCT es la siguiente:



auav = (si u=v=0) y 1 (resto)
N : tamao del bloque cuadrado (en nuestro caso 8)
u,v : cada uno de los elementos de la matriz (de 0 a 7 en nuestro caso)
81
Una posible matriz obtenida tras la aplicacin de la DCT a un bloque de una imagen
original se muestra en la siguiente figura. Vemos como gran parte de la diagonal
inferior de la matriz esta llena de ceros (gracias a esto podremos realizar una mayor
compresin posteriormente)


150 80 40 14 4 2 1 0
92 75 36 10 6 1 0 0
52 38 26 8 7 4 0 0
12 8 6 4 2 1 0 0
4 3 2 0 0 0 0 0
2 2 1 1 0 0 0 0
1 1 0 0 0 0 0 0
0 0 0 0 0 0 0 0

Una vez obtenida la matriz se le aplicara una reordenacin en zig-zag como se ve en la
siguiente imagen:



Conforme recorremos la matriz los primeros valores que nos encontramos pertenecen al
espacio de frecuencias ms bajo (nivel de detalle ms bajo), y los valores finales del
recorrido se corresponden con las altas frecuencias (nivel de detalle ms alto). Al acabar
este procedimiento obtendremos un vector de 64 elementos. Los primeros valores del
vector se corresponden con las frecuencias bajas de la imagen y los ltimos con las ms
altas.

82

Definicin Formal:


DCT-I



DCT-II







Es la forma ms tpicamente utilizada


DCT-III


DCT-IV


83
2.5.7 APLICACIONES

JPEG

JPEG (Joint Photographic Experts Group) es un algoritmo diseado para comprimir
imgenes con 24 bits de profundidad o en escala de grises. JPEG es tambin el formato
de fichero que utiliza este algoritmo para comprimir imgenes. JPEG slo trata
imgenes fijas, pero existe un estndar relacionado llamado MPEG para videos. El
formato de archivos JPEG se abrevia frecuentemente JPG debido a que algunos
sistemas operativos slo aceptan tres letras de extensin.




El algoritmo JPEG, transforma la imagen en cuadrados de 88 y luego almacena cada
uno de estos como una combinacin lineal o suma de los 64 recuadros que forman esta
imagen, esto permite eliminar detalles de forma selectiva, por ejemplo, si una casilla
tiene un valor muy prximo a 0, puede ser eliminada sin que afecte mucho a la calidad

JPEG es un algoritmo de compresin con prdida. Esto significa que al descomprimir la
imagen no obtenemos exactamente la misma imagen que tenamos antes de la
compresin.
Una de las caractersticas que hacen muy flexible el JPEG es el poder ajustar el grado de
compresin. Si especificamos una compresin muy alta se perder una cantidad
significativa de calidad, pero obtendremos ficheros de pequeo tamao. Con una tasa de
compresin baja obtenemos una calidad muy parecida a la del original, y un fichero
mayor.
84
Esta prdida de calidad se acumula. Esto significa que si comprime una imagen y la
descomprime obtendr una calidad de imagen, pero si vuelve a comprimirla y
descomprimirla otra vez obtendr una perdida mayor. Cada vez que comprima y
descomprima la imagen, esta perder algo de calidad.

El formato de ficheros JPEG o JPG fue creado por un grupo independiente, llamado
JFIF (JPEG File Interchange Format), quienes se encargan slo de la utilizacin del
algoritmo JPEG para almacenar imgenes. Existen otros formatos de fichero que
tambin utilizan el algoritmo JPEG, el ms conocido de ellos es JNG.

JPEG/JFIF es el formato ms utilizado para almacenar y transmitir archivos de fotos en
la Web. Pero la compresin con prdida del formato no conviene a diagramas que
incluyen textos y lneas.

El algoritmo de compresin JPEG se basa en dos defectos visuales del ojo humano, uno
es el hecho de que es mucho ms sensible al cambio en la luminancia que en la
crominancia, es decir, notamos ms claramente los cambios de brillo que de color. El
otro es que notamos con ms facilidad pequeos cambios de brillo en zonas
homogneas que en zonas donde la variacin es grande, por ejemplo en los bordes de
los cuerpos (entindase por cuerpo cualquier cosa y no un cuerpo humano).

Codificacin
Muchas de las opciones del estndar JPEG se usan poco. Esto es una descripcin breve
de uno de los muchos mtodos comnmente usados para comprimir imgenes cuando se
aplican a una imagen de entrada con 24 bits por pixel (ocho por cada rojo, verde, y
azul). Esta opcin particular es un mtodo de compresin con prdida.



Esquema del modelo RGB
85


Esquema del modelo YUV



Transformacin del espacio de color:
Comienza convirtiendo la imagen desde su modelo de color RGB a otro llamado YUV
YCbCr. Este espacio de color es similar al que usan los sistemas de color para
televisin PAL y NTSC, pero, es mucho ms parecido al sistema de televisin MAC.
Este espacio de color (YUV) tiene tres componentes:
La componente Y, o Luminancia (informacin de brillo), es decir, la imagen en
escala de grises.
Las componentes U o Cb y V o Cr, respectivamente Saturacin (la cantidad de
blanco, o la pureza del color) y Tono (el nombre del color propiamente dicho, o
la longitud de onda asociada); ambas seales son conocidas como Crominancia
(informacin de color).

El resultado es una imagen en la que la luminancia est separada de la crominancia.
Las ecuaciones que realizan ste cambio de base de RGB a YUV son las siguientes:
Y = 0.257 * R + 0.504 * G + 0.098 * B + 16
Cb = U = -0.148 * R - 0.291 * G + 0.439 * B + 128
Cr = V = 0.439 * R - 0.368 * G - 0.071 * B + 128
Las ecuaciones para el cambio inverso se pueden obtener despejando de las anteriores y
se obtienen las siguientes:
B = 1.164 * (Y - 16) + 2.018 * (U - 128)
G = 1.164 * (Y - 16) - 0.813 * (V - 128) - 0.391 * (U - 128)
86
R = 1.164 * (Y - 16) + 1.596 * (V - 128)
NOTA: Estas ecuaciones estn en continua investigacin con lo que se pueden
encontrar por libros y red otras ecuaciones distintas pero con coeficientes muy
parecidos.

Si se analiza el primer tro de ecuaciones veremos que las tres componentes toman
como valor mnimo el 16. El canal de luminancia (canal Y) tiene como valor mximo el
235, mientras que los canales de crominancia el 240, todos estos valores caben en un
byte haciendo redondeo al entero ms prximo.
Durante esta fase no hay prdida de informacin.

NOTA: Esta ltima afirmacin no es del todo cierta ya que debido a los redondeos se
introduce un pequeo margen de error aunque imperceptible para el ojo humano.

Submuestreo

Ligera explicacin visual sobre el submuestreo, la imagen de arriba a la izquierda es la
original, las otras sufren unos submuestreos de color salvajes que dan idea de los efectos
de esta tcnica. Ampliar para mejor visualizacin.





Una opcin que se puede aplicar al guardar la imagen, es reducir la informacin del
color respecto a la de brillo (debido al defecto en el ojo humano comentado
anteriormente). Hay varios mtodos: si este paso no se aplica, la imagen sigue en su
espacio de color YUV, (este submuestreo se entiende como 4:4:4), con lo que la imagen
no sufre prdidas. Puede reducirse la informacin cromtica a la mitad, 4:2:2 (reducir en
un factor de 2 en direccin horizontal), con lo que el color tiene la mitad de resolucin
(en horizontal), y el brillo sigue intacto. Otro mtodo, muy usado, es reducir el color a
la cuarta parte, 4:2:0, en el que el color se reduce en un factor de 2 en ambas
direcciones, horizontal y vertical. Si la imagen de partida estaba en escala de grises
(blanco y negro), puede eliminarse por completo la informacin de color, quedando
87
como 4:0:0.Algunos programas que permiten el guardado de imgenes en JPEG (como
el que usa GIMP) se refieren a estos mtodos con 11,11,11 para YUV 4:4:4 (no
perder color), 21,12,11 para YUV 4:2:2 y 22,11,11 para el ltimo mtodo,
YUV 4:2:0.
Las tcnicas algortmicas usadas para este paso (para su reconstruccin exactamente)
suelen ser interpolacin bilineal, vecino ms prximo convolucin cbica, Bezier, b-
spline y Catmun-Roll.

Transformacin discreta de coseno o DCT

"Despus de", en un bloquecillo 88, se notan errores respecto a la primera imagen,
como en la esquina inferior izquierda, que est ms clara
Entonces, cada componente de la imagen se divide en pequeos bloques de 88 pxeles,
que se procesan de forma casi independiente, de esto resulta la formacin de los
bloques, que se hace notable en imgenes guardadas con altas compresiones. Si la
imagen sufri un submuestreo del color, los colores quedaran en la imagen final en
bloques de 816 y 1616 pixeles, segn fuese 4:2:2 o 4:2:0.
Despus cada pequeo bloque se convierte al dominio de la frecuencia a travs de la
transformacin discreta de coseno bidimensional, abreviadamente llamada DCT.




"Antes de", en un bloquecillo 88 (ampliacin 16)



88
Un ejemplo de uno de esos pequeos bloques de 88 inicial es este:




El siguiente proceso es restarles 128 para que queden nmeros entorno al 0, entre -128 y
127.



Se procede a la transformacin por DCT de la matriz, y el redondeo de cada elemento al
nmero entero ms cercano.

89



Ntese que el elemento ms grande de toda la matriz aparece en la esquina superior
izquierda, este es el coecifiente DC.
NOTA: Se ha comprobado que los resultados anteriormente expuestos estn correctos.

Cuantificacin:
Como ya habamos comentado, el ojo humano es muy bueno detectando pequeos
cambios de brillo en reas relativamente grandes, pero no cuando el brillo cambia
rpidamente en pequeas reas (variacin de alta frecuencia), esto permite eliminar las
altas frecuencias, sin perder excesiva calidad visual. Esto se realiza dividiendo cada
componente en el dominio de la frecuencia por una constante para ese componente, y
redondendolo a su nmero entero ms cercano. Este es el proceso en el que se pierde la
mayor parte de la informacin (y calidad) cuando una imagen es procesada por este
algoritmo. El resultado de esto es que los componentes de las altas frecuencias, tienden
a igualarse a cero, mientras que muchos de los dems, se convierten en nmeros
positivos y negativos pequeos.

Una matriz de cuantificacin tpica es esta:



90
Dividiendo cada coeficiente de la matriz de la imagen transformada entre cada
coeficiente de la matriz de cuantificacin, se obtiene esta matriz, ya cuantificada:


Por ejemplo, cuantificando el primer elemento, el coeficiente DC, sera as:



Codificacin entrpica
La codificacin entrpica es una forma especial de la compresin sin prdida de datos.
Para ello se cogen los elementos de la matriz siguiendo una forma de zig-zag, poniendo
grupos con frecuencias similares juntos, e insertando ceros de codificacin, y usando la
Codificacin Huffman para lo que queda. Tambin se puede usar la codificacin
aritmtica, superior a la de Huffman, pero que rara vez se usa, ya que est cubierta por
patentes, esta compresin produce archivos un 5% menores, pero a costa de un mayor
tiempo de codificacin y decodificacin, esta pequea ganancia, puede emplearse
tambin en aplicar un menor grado de compresin a la imagen, y obtener ms calidad
para un tamao parecido.

En la matriz anterior, la secuencia en zig-zag, es esta:
26, 3, 0, 3, 2, 6, 2, 4, 1 4, 1, 1, 5, 1, 2, 1, 1, 1, 2, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

JPEG tiene un cdigo Huffman para cortar la cadena anterior en el punto en el que el
resto de coecifientes sean ceros, y as, ahorrar espacio:
26, 3, 0, 3, 3, 6, 2, 4, 1 4, 1, 1, 5, 1, 2, 1, 1, 1, 2, 0, 0, 0, 0, 0, 1, 1, EOB



91
Ruido producido por la compresin

El resultado tras la compresin, puede variar, en funcin de la agresividad de los
divisores de la matriz de cuantizacin, a mayor valor de esos divisores, ms coecifientes
se convierten en ceros, y ms se comprime la imagen. Pero mayores compresiones
producen mayor ruido en la imagen, empeorando su calidad. Una imagen con una fuerte
compresin (1%-15%) puede tener un tamao de archivo mucho menor, pero tendr
tantas imperfecciones que no ser interesante, una compresin muy baja (98%-100%)
producir una imagen de muy alta calidad, pero, tendr un tamao tan grande que quizs
interese ms un formato sin prdida como PNG.

La mayora de personas que naveguen por Internet estarn familiarizadas con estas
imperfecciones, son el resultado de lograr una buena compresin; para evitarlos, se
tendr que reducir el nivel de compresin o aplicar compresin sin prdida, produciendo
mayores ficheros despus.


Decodificacin
El proceso es similar al seguido hasta ahora, slo que de forma inversa. En este caso, al
haber perdido informacin, los valores no coincidirn.
Se coge la informacin de la matriz, se descodifica, y se pone cada valor en su casilla
correspondiente. Despus se multiplica cada uno de estos valores por el valor
correspondiente de la matriz de cuantizacin usada, como muchos valores son ceros,
slo se recuperan (y de forma aproximada) los valores de la esquina superior izquierda.

92


Errores producidos por una compresin excesiva: Antes de y despus de.



Despus se deshace la transformacin DCT:




93
Y finalmente se suma 128 a cada entrada:







Tras la compresin, suelen quedar a veces bloques como estos, en este caso en un trozo
de una imagen ampliado


Para comparar las diferencias entre el bloque original y el comprimido, se halla la
diferencia entre ambas matrices, la media de sus valores absolutos, da una ligera idea de
la calidad perdida:
94


Se puede observar que las mayores diferencias estn cerca de la mancha, y por la parte
inferior, entre la esquina izquierda y el centro, notndose ms esta ltima, ya que corre
una mancha clara que antes estaba ms hacia la esquina. La media de los valores
absolutos de las restas es 4.8125, aunque en algunas zonas es mayor.

MPEG-1
MPEG-1 es el nombre de un grupo de estndares de codificacin de audio y vdeo
normalizados por el grupo MPEG (Moving Pictures Experts Group). MPEG-1 vdeo se
utiliza en el formato Video CD. La calidad de salida con la tasa de compresin usual
usada en VCD es similar a la de un cassette vdeo VHS domstico. Para el audio, el
grupo MPEG defini el MPEG-1 audio layer 3 ms conocido como MP3.
MPEG-1 est conformado por diferentes partes:
1. Sincronizacin y transmisin simultnea de vdeo y audio.
2. Cdec de compresin para seales de vdeo no entrelazadas.
3. Cdec de compresin para seales de audio con control sobre la tasa de
compresin. El estndar define tres capas (layers en ingls), o niveles de
complejidad de la codificacin de audio MPEG.
1. MP1 o MPEG-1 Parte 3 Capa 1 (MPEG-1 Audio Layer 1)
2. MP2 o MPEG-1 Parte 3 Capa 2 (MPEG-1 Audio Layer 2)
3. MP3 o MPEG-1 Parte 3 Capa 3 (MPEG-1 Audio Layer 3)
4. Procedimientos para verificar la conformidad.
5. Software de referencia.


MPEG-2
Moving Pictures Experts Group 2 (MPEG-2), es la designacin para un grupo de
estndares de codificacin de audio y vdeo acordado por MPEG (grupo de expertos en
imgenes en movimiento), y publicados como estndar ISO 13818. MPEG-2 es por lo
general usado para codificar audio y vdeo para seales de transmisin, que incluyen
95
televisin digital terrestre, por satlite o cable. MPEG-2. Con algunas modificaciones,
es tambin el formato de codificacin usado por los discos SVCDs y DVD`s
comerciales de pelculas.
MPEG-2 es similar a MPEG-1, pero tambin proporciona soporte para vdeo
entrelazado (el formato utilizado por las televisiones.) MPEG-2 vdeo no est
optimizado para bajas tasas de bits (menores que 1 Mbit/s), pero supera en desempeo a
MPEG-1 a 3 Mbit/s y superiores.
MPEG-2 introduce y define Flujos de Transporte, los cuales son diseados para
transportar vdeo y audio digital a travs de medios impredecibles e inestables, y son
utilizados en transmisiones televisivas. Con algunas mejoras, MPEG-2 es tambin el
estndar actual de las transmisiones en HDTV. Un descodificador que cumple con el
estndar MPEG-2 deber ser capaz de reproducir MPEG-1.
MPEG-2 audio, definido en la Parte 3 del estndar, mejora a MPEG-1 audio al alojar la
codificacin de programas de audio con ms de dos canales. La parte 3 del estndar
admite que sea hecho retro-compatible, permitiendo que descodificadores MPEG-1
audio puedan descodificar la componente estreo de los dos canales maestros, o en una
manera no retro-compatible, la cual permite a los codificadores hacer un mejor uso del
ancho de banda disponible. MPEG-2 soporta varios formatos de audio, incluyendo
MPEG-2 AAC.

El Estndar MPEG-2
Informacin general acerca de MPEG-2 Video y MPEG-2 Audio excluyendo las
modificaciones cuando es usado en DVD / DVB.
Un Flujo de Sistema MPEG-2 tpico consta de dos elementos:
video data + time stamps audio data + time stamps

Codificacin de vdeo MPEG-2 (simplificado)
MPEG-2 es para la codificacin genrica de imgenes en movimiento y el audio
asociado que crea un flujo de vdeo mediante tres tipos de datos de marco (cuadros
intra, cuadros posteriores predecibles y cuadros predecibles bi-direccionales) arreglados
en un orden especfico llamado La estructura GOP(GOP = Group Of Pictures o grupo
de imgenes).
Generalmente el material originado es una secuencia de vdeo a una resolucin de
pxeles pre-fijada a 25 o 29,97 cuadros por segundo con sonido.
MPEG-2 admite flujos de vdeo escaneado de manera tanto progresiva como
entrelazada. En flujos de escaneo progresivo, la unidad bsica de codificacin es un
campo. En la discusin de abajo, los trminos genricos cuadro e imagen se
refieren tanto a los campos o cuadros, dependiendo del tipo de flujo.
96
El flujo MPEG-2 esta hecho de una serie de cuadros de imgenes codificadas. Las tres
maneras de codificar una imagen son: intra-codificado (I cuadro), predecible posterior
(P cuadro) y predecible bi-direccional (B cuadro).
La imagen del vdeo es separada en dos partes: luminancia (Y) y croma (tambin
llamada seales de diferencia de color U y V) a su vez, son divididos en Macro-
bloques los cuales son la unidad bsica dentro de una imagen. Cada macro-bloque es
dividido en cuatro 8X8 bloques de luminancia. el nmero de bloques de croma 8X8s
depende del formato de color de la fuente. Por ejemplo en el formato comn 4:2:0 hay
un bloque de croma por macro-bloque por cada canal haciendo un total de seis bloques
por macro-bloque.

En el caso de los cuadros I, la verdadera informacin de imagen pasada a travs del
proceso codificador descrito abajo, los cuadros P y B primero son sujetos a un proceso
de compensacin de movimiento, en el cual son co-relacionados con la imagen previa
(y en el caso del cuadro B, la siguiente). Cada macro-bloque en la imagen P o B es
entonces asociada con un rea en la imagen previa o siguiente que este bien
correlacionada con alguna de stas. El "vector de movimiento" que mapea el macro-
bloque con su rea correlacionada es codificado, y entonces la diferencia ente las dos
reas es pasada a travs del proceso de codificacin descrito abajo. Cada bloque es
procesado con una transformada coseno discreta (DCT) 8X8 . El coeficiente DCT
resultante es entonces cuantificado de acuerdo a un esquema predefinido, reordenado a
una mxima probabilidad de una larga hilera de ceros, y codificado. Finalmente, se
aplica un algoritmo de codificacin Huffman de tabla fija.

Los cuadros I codifican redundancia espacial, mientras que los cuadros B y P codifican
redundancia temporal. Debido a que los marcos adyacentes son a menudo bien co-
relacionados, los cuadros P pueden ser del 10% del tamao de un cuadro I, y el cuadro
B al 2% de su tamao.

La secuencia de diferentes tipos de marcos es llamadala estructura de grupos de
imgenes(GOP). Hay muchas estructuras posibles pero una comn es la de 15 marcos
de largo, y tiene la secuencia I_BB_P_BB_P_BB_P_BB_P_BB_. Una secuencia similar
de 12 marcos es tambin comn. La relacin de cuadros I, P y B en la estructura GOP
es determinado por la naturaleza del flujo de vdeo y el ancho de banda que constrie el
flujo, adems el tiempo de codificacin puede ser un asunto importante. Esto es
particularmente cierto en las transmisiones en vivo y en ambientes de tiempo real con
Fuentes de cmputo limitados, un flujo que contenga varios cuadros B puede tomar tres
veces ms tiempo para codificar que un archivo que slo contenga cuadros I.
La tasa de bit de salida de un codificador MPEG-2 puede ser constante (CBR) o
variable (VBR), con un mximo determinado por el reproductor por ejemplo el
mximo posible en un DVD de pelcula es de 10.4 Mbit/s. Para lograr una tasa de bits
constante el grado de cuantificacin es alterado para lograr la tasa de bits requerida.
97
Incrementar la cuantificacin hace visible un defecto cuando el vdeo es descodificado,
Generalmente en la forma de amosaicamiento, donde las discontinuidades en los filos
de los macro-bloques se hace ms visible como reduccin de la tasa de bits.

Codificacin de audio MPEG-2.

MPEG-2 adems introduce nuevos mtodos de codificacin de audio. stos son:
Baja tasa de bits de codificacin con tasas de muestreo divididas (MPEG-1 capa 1/2/3
LSF) Codificacin multi-canal hasta 6 canales (5.1)

MPEG-2 En SVCD
Restricciones adicionales y modificaciones de MPEG-2 en SVCD:
Resolucin
o 480 x 480 pxeles NTSC (USA, Japn)
o 480 x 576 pxeles PAL (Europa)
Relacin de aspecto
o 4:3
Tasa de cuadros
o 59.94 campos/s, 29.97 cuadros/s (NTSC)
o 50 campos/s, 25 cuadros/s (PAL) )
Tasa de bits de audio + vdeo
o Pico 2.52 Mbit/s
o Mnimo 300 Kbit/s
o YUV 4:2:0
Audio
o MPEG-1 capa 2 (MP2): 44.1KHz, 224 Kbit/s, Estreo
Estructura GOP
o Debe salir secuencia de Encabezado para cada GOP
o No hay lmite mximo de GOP

MPEG-2 En DVD
Restricciones adicionales y modificaciones de MPEG-2 en DVD:
Resolucin de Video:
NTSC (USA, Japn) Pixels
o 720 x 480
o 704 x 480
o 352 x 480
o 352 x 240
98
PAL (Europa) Pixels
o 720 x 576
o 704 x 576
o 352 x 576
o 352 x 288
Relacin de aspecto
o 4:3
o 16:9
Tasa de cuadros
o 59.94 campos/s
o 50 campos/s
o 23.976 cuadros/s (con banderas de 3:2)
o 29.97 cuadros/s (NTSC)
o 25 cuadros/s (PAL)
Audio:
o Linear Pulse Code Modulation(Cdigo de Pulsos Modulado Lineal =
LPCM): 48KHz o 96KHz, 16 bit, 2 canales(Estreo)
o MPEG-1 Capa 2 (MP2): 48KHz, hasta 7.1 canales (requerido en
reproductores PAL)
o Dolby Digital (DD): 48KHz, 448 kbit/s, hasta 5.1 canales
o Digital Theater Systems (Sistema de Teatro Digital = DTS): 754 kbit/s o
1510 kbit/s (no requerido para cumplir con el reproductor)
o Debe haber al menos una pista de audio que no sea DTS (ni MP2 para
NTSC)
Tasa de bits de audio + vdeo:
o Buffer mximo promedio de 9.8 Mbit/s
o Pico 15 Mbit/s
o Mnimo 300 Kbit/s
o YUV 4:2:0
Posibilidad de subttulos opcionales
o Closed captioning (solo en NTSC)
Estructura GOP
o Debe salir secuencia de Encabezado para cada GOP
o 18 marcos mximos por GOP
o Closed GOP requerido para DVDs multi ngulo


MPEG-2 en DVB
Restricciones y modificaciones adicionales para DVB-MPEG.
99
Restringido a una de las siguientes resoluciones:
720 480 pxel, 24/1.001, 24, 30/1.001 o 30 marco/s
640 480 pxel, 24/1.001, 24, 30/1.001 o 30 marco/s
544 480 pxel, 24/1.001, 24, 30/1.001 o 30 marco/s
480 480 pxel, 24/1.001, 24, 30/1.001 o 30 marco/s
352 480 pxel, 24/1.001, 24, 30/1.001 o 30 marco/s
352 240 pxel, 24/1.001, 24, 30/1.001 o 30 marco/s
720 576 pxel, 25 marco/s
544 576 pxel, 25 marco/s
480 576 pxel, 25 marco/s
352 576 pxel, 25 marco/s
352 288 pxel, 25 marco/s
352 576 pxel, 25 marco/s
352 288 pxel, 25 marco/s


MPEG-2 en ATSC
Restringido a una de las siguientes resoluciones
1920 1080 pxeles, hasta 60 campos/s (1080i)
1280 720 pxeles, hasta 60 cuadros/s (720p)
720 576 pxeles, hasta 50 campos/s, 25 cuadros/s (576i, 576p)
720 480 pxeles, hasta 60 campos/s, 30 cuadros/s (480i, 480p)
640 480 pxeles, hasta 60 cuadros/s
Nota: 1080i est codificado con cuadros de 19201088 pxeles, sin embargo las ltimas
8 lneas se descartan antes de ser mostradas.

Standards MPEG-2
ISO/IEC 13818-1 Sistema - describe sincronizacin y multiplexado de vdeo y
audio.
ISO/IEC 13818-2 Video - Cdec(codificador/decodificador) compresor para
seales de vdeo entrelazado y no entrelazado.
ISO/IEC 13818-3 Audio - Cdec(codificador/decodificador) compresor de
seales de audio. Una extension habilitada multicanal de MPEG-1 audio (MP3).
ISO/IEC 13818-4 Describe maniobras de prueba de cumplimiento(del estandar).
ISO/IEC 13818-5 Describe sistemas para simulacin por Software.
ISO/IEC 13818-6 Describe extensiones para DSM-CC (Comando Digital de
herramientas de almacenamiento y control)
ISO/IEC 13818-7 codificacin avanzada de audio. (AAC)
ISO/IEC 13818-9 Extension para interfaces en tiempo real.
ISO/IEC 13818-10 confomidad con extensiones para DSM-CC.

100
Retenedores de patente
Aproximadamente 640 patentes mundiales conforman la propiedad intelectual completa
que rodea a MPEG-2, stas estn retenidas por alrededor de 20 corporaciones y una
universidad:
Alcatel
Canon, Inc.
Columbia University
France Tlcom (CNET)
Fujitsu
General Electric Capital Corporation
General Instrument Corp.
GE Technology Development, Inc.
Hitachi, Ltd.
KDDI Corporation (KDDI)
Lucent Technologies
LG Electronics Inc.
Matsushita
Mitsubishi
Nippon Telegraph and Telephone Corporation (NTT)
Philips
Robert Bosch GmbH
Samsung
Sanyo Electric Co. Ltd.
Scientific Atlanta
Sharp
Sony
Thomson Licensing S.A.
Toshiba
Victor Company of Japan, Limited (JVC)


MPEG-4
MPEG-4, introducido a finales de 1998, es el nombre de un grupo de estndares de
codificacin de audio y video as como su tecnologa relacionada normalizada por el
grupo MPEG (Moving Picture Experts Group) de ISO/IEC. Los usos principales del
estndar MPEG-4 son los flujos de medios audiovisuales, la distribucin en CD, la
transmisin bidireccional por videfono y emisin de televisin.
MPEG-4 toma muchas de las caractersticas de MPEG-1 y MPEG-2 as como de otros
estndares relacionados, tales como soporte de VRML (Virtual Reality Modeling
Language) extendido para Visualizacin 3D, archivos compuestos en orientacin a
objetos (incluyendo objetos audio, vdeo y VRML), soporte para la gestin de Derechos
Digitales externos y variados tipos de interactividad.
101
La mayora de las caractersticas que conforman el estndar MPEG-4 no tienen que
estar disponibles en todas las implementaciones, al punto que es posible que no existan
implementaciones completas del estndar MPEG-4. Para manejar esta variedad, el
estndar incluye el concepto de perfil (profile) y nivel, lo que permite definir conjuntos
especficos de capacidades que pueden ser implementados para cumplir con objetivos
particulares

Partes de MPEG-4
MPEG-4 est formado por varios estndares, llamados "partes", que incluyen:
Parte 1 (ISO/IEC 14496-1): Sistemas: Describe la sincronizacin y la
transmisin simultnea de audio y vdeo.
Parte 2 (ISO/IEC 14496-2): Visual: Un cdec de compresin para elementos
visuales (video, texturas, imgenes sintticas, etc.). Uno de los muchos perfiles
definidos en la Parte 2 es el Advanced Simple Profile (ASP).
Parte 3 (ISO/IEC 14496-3): Audio: Un conjunto de cdecs de compresin para
la codificacin de flujos de audio; incluyen variantes de Advanced Audio Coding
(AAC) as como herramientas de codificacin de audio y habla.
Parte 4 (ISO/IEC 14496-4): Conformidad: Describe procedimientos para
verificar la conformidad de otras partes del estndar.
Parte 5 (ISO/IEC 14496-5): Software de referencia: Formado par elementos de
software que demuestran y clarifican las otras partes del estndar.
Parte 6 (ISO/IEC 14496-6): Delivery Multimedia Integration Framework
(DMIF).
Parte 7 (ISO/IEC 14496-7): Software optimizado de referencia: Contiene
ejemplos sobre como realizar implementaciones optimizadas (por ejemplo, en
relacin con la Parte 5).
Parte 8 (ISO/IEC 14496-8): Transporte sobre redes IP: Especifica un mtodo
para transportar contenido MPEG-4 sobre redes IP.
Parte 9 (ISO/IEC 14496-9): Hardware de referencia: Proveediseos de hardware
que demuestran implementaciones de otras partes del estndar.
Parte 10 (ISO/IEC 14496-10): Advanced Video Coding (AVC): Un cdec de
seales de vdeo tcnicamente idntico al estndar ITU-T H.264.
Parte 12 (ISO/IEC 14496-12): Formato para medios audiovisuales basado en
ISO: Un formato de archivos para almacenar contenido multimedia.
Parte 13 (ISO/IEC 14496-13): Extensiones para el manejo y proteccin de
Propiedad Intelectual (IPMP).
Parte 14 (ISO/IEC 14496-14): Formato de archivo MPEG-4: El formato de
archivo de contenedor designado para contenidos MPEG-4; basado en la Parte
12.
Parte 15 (ISO/IEC 14496-15): Formato de archivo AVC: Para el
almacenamiento de vdeo Parte 10, basado en la Parte 12.
Parte 16 (ISO/IEC 14496-16): Animation Framework eXtension (AFX).
Parte 17 (ISO/IEC 14496-17): Formato de subttulos (en elaboracin - el ltimo
avance en su revisin data de enero de 2005).
Parte 18 (ISO/IEC 14496-18): Compresin y transmisin como flujo de fuentes
tipogrficas (para fuentes OpenType).
Parte 19 (ISO/IEC 14496-19): Flujos de texturas sintetizadas.
102
Parte 20 (ISO/IEC 14496-20): Representacin liviana de escenas (LASeR).
Parte 21 (ISO/IEC 14496-21): Extensin de MPEG-J para rendering (en
elaboracin - el ltimo avance en su revisin data de enero de 2005).
Tambin es posible definir perfiles a nivel de las partes, dado que una implementacin
de una parte no necesariamente contiene toda esa parte.


VORBIS

Vorbis es un cdec de audio libre de compresin con prdida. Forma parte del proyecto
Ogg y entonces es llamado Ogg Vorbis y tambin slo ogg por ser el cdec ms
comnmente encontrado en el contenedor Ogg.
Vorbis es un cdec de audio perceptivo de fines generales previsto para permitir
flexibilidad mxima del codificador, permitindole escalar competitivamente sobre una
gama excepcionalmente amplia de bitrates. En la escala de nivel de calidad/bitrate (CD
audio o DAT-rate estreo, 16/24 bits) se encuentra en la misma liga que MPEG-2 y
Musepack (MPC) y comparable con AAC en la mayora de bitrates. Similarmente, el
codificador 1.0 puede codificar niveles de calidad desde CD audio y DAT-rate estreo
hasta 48kbps sin bajar la frecuencia de muestreo. Vorbis tambin est pensado para
frecuencias de muestreo bajas desde telefona de 8kHz y hasta alta definicin de
192kHz, y una gama de representaciones de canales (monoaural, polifnico, estreo,
quadrafnico, 5.1, ambisnico o hasta 255 canales discretos).
Ogg Vorbis es totalmente abierto, libre de patentes y de regalas; la biblioteca de
referencia (libvorbis) se distribuye bajo una licencia tipo BSD por lo que cualquiera
puede implementarlo ya sea tanto para propsitos comerciales como no comerciales.
Vorbis es el primer cdec desarrollado como parte de los proyectos multimedia de la
Fundacin Xiph.org. Comenz inmediatamente despus que Fraunhofer IIS (creadores
del MP3) enviaran una "carta de infraccin" a varios proyectos pequeos que
desarrollan MPEG Audio Layer 3, mencionando que debido a las patentes que poseen
sobre el MP3 tienen el derecho de cobrar regalas por cualquier reproductor comercial,
todos los codificadores (ya sea vendidos o gratuitos) y tambin trabajos de arte vendidos
en formato MP3. Por este motivo fue creado el Ogg Vorbis y la Fundacin Xiph.org:
para proteger la multimedia en Internet del control de intereses privados.
El formato del bitstream para Vorbis I fue congelado el 8 de Mayo de 2000; todos los
archivos creados desde esa fecha seguirn siendo compatibles con futuros lanzamientos
de Vorbis.
La versin 1.0 fue anunciada en Julio 2002, con una Carta de anuncio de Ogg-Vorbis
1.0 agradeciendo el apoyo recibido y explicando el porqu es necesario el desarrollo de
cdecs libres.
103
Vorbis recibe este nombre de un personaje del libro Dioses menores de Terry Pratchett.


Niveles de calidad Vorbis
Calidad Bit rate
-q-2 (slo aoTuV beta3 y posteriores) ~32 kbit/s
-q-1 ~45 kbit/s (vorbis original) ~48 kbit/s (aoTuV beta3 y posteriores)
-q0 ~64 kbit/s
-q1 ~80 kbit/s
-q2 ~96 kbit/s
-q3 ~112 kbit/s
-q4 ~128 kbit/s
-q5 ~160 kbit/s
-q6 ~192 kbit/s
-q7 ~224 kbit/s
-q8 ~256 kbit/s
-q9 ~320 kbit/s
-q10 ~500 kbit/s
Vorbis utiliza la Transformada de coseno discreta modificada (MDCT)
104

2.6 POSIBILIDADES Y
APLICACIONES DE LOS DISTINTOS
TIPOS DE COMPRESIN

En este captulo estudiaremos las caractersticas de algunas implementaciones reales de
los algoritmos propuestos en el tema. Se presentan aplicaciones comerciales y de libre
distribucin (aunque en la mayora de los casos es posible encontrar alguna aplicacin
compatible con aqullas que no son gratuitas).
En segunda instancia se mostrar al lector una reducida gama de frontends para algunos
de los compresores mencionados anteriormente. En esta parte del texto se presta
especial atencin a la facilidad de uso que presentan y el diseo de su interfaz.
Finaliza este apartado con una pequea batera de pruebas sobre los compresores,
acompaada de tablas comparativas de los resultados obtenido y de las conclusiones
pertinentes.
Las tcnicas de compresin pueden clasificarse en dos grupos, las que son reversibles
(lossless) y las que son irreversibles (lossy). Las reversibles son aquellas en las que
despus del proceso de compresin/ descompresin los datos resultantes no han sufrido
ninguna degradacin ni prdida de calidad. Las irreversibles son aquellas en las cuales
una vez realizado el proceso de compresin/ descompresin el contenido resultante ha
sufrido una degradacin mas o menos perceptible. En la mayora de aplicaciones
audiovisuales se debe utilizar tcnicas irreversibles, ya que stas son las que permiten
elevados factores de compresin.
Dentro de las tcnicas de compresin irreversibles las ms utilizadas e inmediatas son
aquellas que consisten en eliminar informacin reduciendo el tamao de la imagen,
eliminando fotogramas o asignando menor cantidad de bits al codificar cada pxel.
Aun as existe un conjunto de tcnicas bastante ms complejas, que permiten tambin la
reduccin de datos, con las que se pueden conseguir elevados factores de compresin.
La ms extendida de ellas es la compresin temporal, que consiste en analizar una
secuencia de vdeo para que en lugar de transmitir todos los fotogramas consecutivos
tan solo se codifique un fotograma y la diferencia entre ste y sus fotogramas cercanos.
Por ejemplo, se codifica el fotograma 1 entero y en lugar de codificar el fotograma 2 tan
solo se codifica aquella informacin que es distinta entre los fotogramas 1 y 2. Esto
permite que en aquellas secuencias en las que la informacin es muy redundante (o sea
existen muy pocas variaciones entre fotogramas consecutivos) se consigan factores de
compresin muy elevados, ya que la diferencia entre ellos es prcticamente nula. La
mayora de las tcnicas de compresin temporal que se utilizan en la actualidad no se
basan tan slo en la codificacin de la diferencia entre fotogramas consecutivos, sino
que lo que codifican es la diferencia entre un fotograma y la prediccin del siguiente, lo
105
cual eleva mucho el cmputo del procesado y permite obtener a cambio un flujo de
datos mucho ms reducido y una imagen de calidad ptima.
El uso de estas tcnicas se encuentra tanto en aplicaciones de televisin digital con
relaciones de compresin que no suelen superar los 10:1 y sin una aparente prdida de
calidad de imagen como en aplicaciones multimedia con factores de compresin que
pueden llegar a ser de 200:1. Estas tcnicas de compresin orientadas al sector
multimedia se encuentran implementadas en pequeas aplicaciones llamadas codecs,
pequeos programas que incorporan los procesos necesarios para la compresin de una
seal.

Para que no existan problemas a la hora de intercambiar archivos comprimidos es
necesario que se encuentren ubicados en una arquitectura definida mediante un estndar,
de manera que se garantice la correcta generacin, transmisin, almacenamiento y
visualizacin de los contenidos entre distintos ordenadores. En realidad las primeras
arquitecturas que aparecieron y que se han acabado convirtiendo en estndar son las
estructuras AVI (Audio Video Interleave) de Microsoft y la estructura QuickTime de
Apple. Posteriormente se cre el estndar MPEG.
La finalidad de una arquitectura como AVI o QuickTime es la de permitir que los
desarrolladores puedan integrar de forma sencilla aplicaciones de compresin y
descompresin de materiales multimedia sobre cada sistema operativo. En principio
AVI y Quick Time aceptan cualquier tipo de compresor o tcnica de compresin de
vdeo, siempre que el desarrollador del cdigo siga las normativas definidas para la
correcta integracin del codec sobre cada sistema operativo.
Existe una gran cantidad de codecs adaptados a las arquitecturas AVI y QuickTime.
Esto supone que una misma secuencia de vdeo puede tener calidades distintas en
funcin del codec utilizado para comprimirla aunque en todas ellas se haya utilizado la
misma arquitectura. Algunos de los codecs ms conocidos son el Cinepack, Indeo 3.2,
Indeo 4.1, 4.2 y 4.3, Indeo 5.1 y 5.2 Microsoft RLE, Sorenson, DivX, H261, H263...
Uno de los principales problemas de las arquitecturas AVI es que para poder visualizar
su contenido es necesario tener todo el archivo en el disco duro o DVD/CD-ROM. O
sea, no es posible por ejemplo reproducir la secuencia de vdeo a medida que se va
descargando de Internet. Para solucionar este problema Microsoft dise otra
arquitectura que permite visualizar vdeo a tiempo real (streaming) mientras ste se va
reproduciendo desde el servidor, conocida como Windows Media. Microsoft
proporcion tambin una herramienta conocida como DirectShow que permite a los
desarrolladores adaptar sus codecs a archivos AVI, Windows Media y MPEG.
Internet est ejerciendo una fuerte presin para la implementacin de un conjunto de
arquitecturas diseadas especficamente para aplicaciones de streaming, entre ellas las
ms comunes son Windows Media para PC, QuickTime para Apple y RealSystems para
servidores web. Todas ellas, al igual que en el caso de AVI, son estructuras que admiten
distintos codecs, hasta es posible encontrar el mismo codec en distintas arquitecturas.
Por lo tanto, la extensin del fichero que se ve en el ordenador como AVI, MOV,
WMV, RM, etc., no define el codec que se ha utilizado para comprimir el vdeo, as que
tampoco indica la calidad resultante de la informacin codificada.
106
Una de las ltimas arquitecturas para streaming que ha creado Microsoft es el ASF
(Advanced Streaming Format). Este producto se encuentra en dos paquetes bsicos:
NetShow Server para Windows NT, que es el encargado de suministrar las imgenes a
los usuarios conectados a la red, y el NetShow Player que permite la visualizacin de
estos contenidos a usuarios que utilicen Windows NT, Windows 95/98 y versiones
posteriores del sistema operativo. Los archivos codificados en ASF pueden
proporcionar varias ventajas respeto a las arquitecturas AVI, entre ellas la posibilidad de
rebobinar y realizar un fast-forward del contenido que entrega el servidor. Esta opcin
tan solo es posible si el servidor es de streaming y tiene el NetShow Server instalado, un
servidor web convencional no contempla esta posibilidad.
El estndar oficial definido para la compresin de vdeo es el MPEG (Motion Pictures
Expert Group). Se trata de un grupo que depende de la ISO (Organizacin Internacional
de Estandarizacin), formado por ms de 70 organismos internacionales que tienen
como objetivo definir los procesos de compresin de vdeo para aplicaciones que van
desde la produccin y difusin de televisin digital hasta la gestin de datos
multimedia, pasando por utilidades interactivas como pueden ser la videoconferencia a
travs de telefona mvil o la recepcin de televisin en una PALM.
Este estndar ha ido evolucionando con el paso del tiempo y se ha ido adaptando a las
exigencias del mercado. Empez mediante la creacin del estndar MPEG-1, planteado
con la finalidad de almacenar una pelcula entera sobre un CD-ROM convencional,
generando secuencias de 352x288 pixels de resolucin y 15 fps.
Posteriormente se defini el MPEG-2. En este caso su mercado principal era la
televisin digital, o sea imgenes de 720x576 a 25 fps (en Europa). A pesar de ello el
estndar contempla multitud de calidades distintas que van desde formatos de
resolucin reducida (similar al MPEG-1) hasta aplicaciones de HDTV (Televisin de
Alta Definicin) con resoluciones de 1920x1080 pixels y hasta 60 fps, pasando por la
compresin de contenidos para DVD.
Uno de los ltimos estndares definidos por la MPEG es el MPEG-4. Este complejo
algoritmo de compresin tiene por finalidad el tratamiento de la imagen como objetos
multimedia, permitiendo al usuario interactividad con el contenido. Este estndar por lo
tanto no tiene como objetivo principal la compresin de imgenes sino que en lugar de
tratar una imagen como un elemento nico la descompone en mltiplos objetos
independientes entre s.
Por ejemplo: supongamos que partimos de una imagen de una persona hablando
mediante la codificacin en MPEG-4, que puede considerar como objetos
independientes la boca, la nariz, los ojos ...de esta manera un usuario que tenga el
control de estos parmetros puede interactuar con la imagen, haciendo que hable
mediante por ejemplo unos controles de voz o sensores de realidad virtual.
Actualmente este formato se ha hecho muy popular en Internet aunque tan solo se est
utilizando una mnima parte de su potencial (teniendo en cuenta los elevados factores de
compresin que es capaz de soportar) con unos resultados visuales muy satisfactorios.
Uno de los codecs que basa su compresin en algunos de los parmetros definidos en el
estndar es el conocido DivX: en este caso se considera toda la imagen como un nico
objeto rectangular.
107
Otros formatos como el MPEG-7 y el MPEG-21 estn en la actualidad en pleno
desarrollo. Con ellos se pretende generar potentes bases de datos capaces de gestionar e
introducir tcnicas de acceso condicional a contenidos multimedia. Asimismo,
actualmente se estn ofreciendo diversas alternativas de streaming orientadas al sector
del vdeo profesional (broadcast). Entre ellas se encuentran el Microsoft Windows
Media 9 y el estndar definido por la ITU (Organizacin Internacional de
Telecomunicaciones) bajo la nomenclatura ITU H-264/AVC.
Estas arquitecturas estn diseadas para permitir la codificacin y difusin de vdeo de
diversas calidades a travs de reducidos anchos de banda, como es el caso de la
telefona de tercera generacin UMTS (3G), y contemplan la posibilidad de incorporar
tcnicas de codificacin de audio multicanal, pero tan slo este tema seria motivo para
otro artculo.
Los principales algoritmos de compresin/descompresin de archivos y los formatos
que se generan se enumeran a continuacin:

.7Z (7-Zip)
Un nuevo tipo de compresin (7-Zip). Es un formato de compresin de datos con tasas
muy altas, superando incluso a las del popular zip. La extensin de fichero para los
archivos pertenecientes a este formato suele ser .7z. Puede utilizar diferentes algoritmos
de compresin.
Es libre y fue creado e implementado por los desarrolladores del programa 7-Zip bajo la
licencia GNU LGPL.
El formato 7z tiene las siguientes caractersticas:
Abierto y de arquitectura modular (Permite utilizar cualquier mtodo de
compresin y de cifrado)
Buen ndice de compresin (Tamao comprimido sobre tamao sin comprimir)
Soporte para archivos grandes (16 exabytes)
Nombres de archivo en Unicode
Soporte para archivos slidos
Compresin de cabeceras de archivos
El formato 7z permite el cifrado utilizando el algoritmo AES con claves de 256-bit.
Estas claves son generadas por medio de una contrasea suministrada por el usuario
(creando un hash con el algoritmo SHA-256).

.AAC
Advanced Audio Coding (AAC) es un formato de audio digital comprimido con
prdida. Fue diseado con el fin de reemplazar al MP3. Para un mismo nmero de
impulsos por segundo (bitrate) y un mismo tamao de archivo MP3, el formato AAC es
ms estable y tiene ms calidad, produciendo un sonido ms cristalino. Es la base del
MP4.
108
Creado por Dolby, se trata de un formato en propiedad, pero utilizado por multitud de
aplicaciones como Ahead Nero, iTunes, Winamp, etc.
Caractersticas
Este cdec est orientado a usos de banda ancha y se basa en la eliminacin de
redundancias de la seal acstica, as como en compresin mediante la transformada de
coseno discreta, casi igual que en el caso de MP3. Sin embargo, permite emplear
frecuencias de muestreo desde los 8 Hz (hercios) hasta los 96 KHz (MP3 slo soporta
desde los 16 Hz hasta los 48 KHz). Adems soporta un mximo de 48 canales
independientes, lo cual lo convierte en un cdec apropiado para sonido envolvente
(Surround) avanzado.
En general, al ser una tecnologa ms moderna que MP3, AAC es ms eficiente en casi
todos los aspectos y se espera que, con los aos, suceda que este formato digital, sea el
ms utilizado de la actualidad.

.APE

Compresin sin prdida de calidad (lossless) solo para msica. Creado por Monkeys
Audio. Mxima compresin conseguida 4:1.
APE se basa en un nuevo tipo de algoritmo de compresin sin prdida que permite
comprimir, por ejemplo, 50 o 60 megabytes de msica audifila digital a la mitad o ms
de su tamao. Mejor an, el software gratuito APE viene con un plug-in que permite
escuchar los archivos APE directamente mediante el popular reproductor de audio
Winamp Aunque estn an muy lejos de los pequeos archivos MP3, los archivos de
msica digital APE no eliminan parte alguna de los datos originales.


.ACE

ACE es un formato de fichero de archivo de compresin de datos privativo desarrollado
por e-merge GmbH. Los partidarios de ACE sostienen que ofrece una compresin
superior al formato de fichero ZIP, aunque al coste de una velocidad de compresin ms
lenta.
WinAce, mantenido por e-merge GmbH, se usa para descomprimir y manipular ficheros
ACE en Microsoft Windows. Tambin hay versiones ms antiguas de un programa
llamado unace, que estn licenciadas bajo la GPL, pero no pueden extraer archivos
ACE posteriores a la versin 2.0. Adems, hay programas de descompresin gratuitos
para muchas plataformas (como Mac OS X y Linux), pero tampoco son software libre,
excepto TUGZip que est disponible para Windows.
Se trata de un relativamente nuevo tipo de compresin que est ganando popularidad.
Ofrece un buen porcentaje de compresin.

.ARC

109
Es un formato antiguo que permite tanto la compresin como el agrupamiento. Los
archivos ARC pueden ser manipulados por varios programas, incluyendo el original
ARC, ARCE (tambin conocido como ARC-E), PKXARC, y PKUNPAK. El compresor
WinZip soporta todas las operaciones de los archivos ARC, excepto crear y adicionar
nuevos ARCs en ARCs existentes.


ARJ-JAR

ARJ y JAR son dos productos desarrollados por ARJ Software, Inc. y se caracterizan
por obtener unos ratios mejores que los algoritmos compress o zip a cambio de ser
bastante ms lento. De ellos dos, ARJ es el ms conocido y extendido ya que el formato
JAR es bastante reciente (1999). Indicar que este formato JAR no tiene nada que ver
con el empaquetado de clases java cuya empaquetador tambin tiene el mismo nombre.
Este otro caso comentado, el de Java, el compresor es un derivado del formato zip.

ARJ

El compresor ARJ es un algoritmo combinado de dos pasadas. Fue inventado por by
Robert K. Jung. ARJ probablemente significa Archiver Robert Jung. En la primera de
ellas se utiliza un derivado del LZSS y en la segunda se utiliza la compresin de
Huffman. La versin actual es la ARJ32 3.10a que es funcionalmente equivalente a la
ARJ pero con soporte de ficheros largos y de entornos NT (NT,2000,XP). Incluye de
serie soporte de creacin de autoextractores, gestin de distintos volmenes en un nico
fichero y el mantenimiento de varias versiones de backup internas.
La compresin de ARJ es similar en cierta medida a la de PKZIP 1.02. Algunas partes
de ARJ estaban cubiertas por una patente americana. Estaba disponible para ser
licenciado bajo trminos ms amigables que PKZIP. Nunca terriblemente popular, sus
das cumbre fueron durante la era de las BBS en parte porque poda crear archivos
multivolumen (dividiendo un archivo grande en ficheros ms pequeos). ARJ tambin
permita al usuario alterar el nivel de compresin de un archivo, hacindolo popular en
redes de correo de paquetes pequeas como WWIVNet y HOGnet, que usaban opciones
de compresin ms bajas para aprovechar la compresin basada en mdem (como MNP
o v.42bis) para reducir las facturas de las llamadas a larga distancia que invariablemente
conllevaban la membresa en estas redes. Desde esos das, ARJ ha perdido mucha de su
cuota de mercado a RAR y otros formatos; la falta de una interfaz grfica tambin ha
contribuido a su desaparicin virtual del mundo del escritorio.
Debido a su poderosa capacidad de dividir archivos, algunos usan ARJ para hacer
copias de respaldo normales de discos duros a disquetes. Una caracterstica muy
interesante que parece no estar presente en los dems archivadores populares es la
capacidad de aadir, borrar y/o modificar ficheros en archivo multivolumen.

JAR

Este nuevo compresor se ha diseado recientemente con las ltimas tcnicas en
compresin. No es un formato compatible con el ARJ. Existe versin de 16 bits
(JAR16) y versin de 32 (JAR32). Su caracterstica principal es que comprime bastante
mejor que ARJ y que PKZIP. En su contra tenemos dos cosas. Por una parte que
110
requiere muchos ms recursos tanto de memoria como de ciclos de cpu. Por otra, no se
dispone de una base de aplicaciones de terceros desarrollados sobre este compresor por
lo que se debe utilizar en modo lnea de comandos.

.BZ2 (BIZP2)
Bzip2 es un programa libre desarrollado bajo licencia BSD que comprime y
descomprime ficheros usando los algoritmos de compresin de Burrows-Wheeler y de
codificacin de Huffman. El porcentaje de compresin alcanzado depende del contenido
del fichero a comprimir, pero por lo general es bastante mejor al de los compresores
basados en el algoritmo LZ77/LZ78 (gzip, compress, WinZip, pkzip,...). Como
contrapartida, bzip2 emplea ms memoria y ms tiempo en su ejecucin.
La sintaxis es parecida a la del programa gzip de GNU
.CAB

CAB es un formato de archivo comprimido desarrollado en 1997 por Microsoft y
utilizado frecuentemente en instaladores, ya sea de controles ActiveX o de aplicaciones.
Admite el uso de tres mecanismos de compresin distintos: deflate, quantum y
LZX.Generalmente se utiliza para comprimir archivos de software, cuya funcin
principal es reducir el espacio del software.
Tiene buenos ratios de compresin y rpida velocidad de descompresin.

.CPIO
Cpio es el nombre de una utilidad binaria tanto como del formato asociado a sta, .cpio.
Este tipo de archivo fue inicialmente creado para el almacenamiento de copias de
seguridad en cintas magnticas de una forma contigua, y tiene un funcionamiento muy
parecido al formato tar. Ms especficamente, un archivo CPIO consiste en una serie de
ficheros y directorios tanto como los encabezados utilizados por GNU CPIO para
extraer el archivo, as como encabezados extra como el nombre, fecha de creacin,
permisos y propietario de cada fichero y directorio. Es de notar que aunque la extensin
.cpio se asocia comnmente con este tipo de fichero de archivado, no es necesario que
tenga esa extensin, pues UNIX no requiere una extensin para manejar un fichero sino
que ms que nada sirve para la identificacin rpida de ste por parte del usuario.
La utilidad fue estandarizada por POSIX.1-1998, pero fue luego dejada de lado en las
siguientes revisiones del estndar debido al lmite de 8GB en el tamao de los archivos.
En vez de cpio se puede usar el estndar pax de POSIX para leer y escribir archivos de
ste formato.

.DEB

Es la extensin del formato de paquetes de software de Debian, y el nombre ms usado
para dichos paquetes. Como Debian, su nombre proviene de Deborah Murdock, esposa
del fundador Ian Murdock.
111
El programa predeterminado para manejar estos paquetes es dpkg, generalmente via el
sistema APT
1
.
Los paquetes deb tambin pueden ser convertidos a otros formatos de paquetes usando
la aplicacin Alien.

.FLAC / .FLA

Free Lossless Audio Codec. Compresin sin prdida de calidad (lossless) solo para
msica. Mxima compresin conseguida 4:1.
Free Lossless Audio Codec (FLAC) (Cdec de compresin de audio sin prdida en
espaol) es un formato del proyecto Ogg para codificar audio sin prdida, con la
desventaja que los archivos ocupan bastante ms espacio. Esto significa que el archivo
inicial puede ser recompuesto totalmente.
Otros formatos como MPEG-1 Layer 3 (MP3), Windows Media Audio (WMA)
(excepto WMA Lossless), Advanced Audio Coding (AAC), (Ogg Vorbis), Adaptive
Transform Acoustic Coding ATRAC, ADPCM, etc., al comprimir el archivo pierden,
de forma irreversible, parte de la informacin del original, a cambio de una gran prdida
de tamao en el archivo. FLAC no pierde tanto tamao de archivo, rara vez baja de
dejar el archivo en un tercio del tamao original, ya que no elimina nada de la
informacin contenida en el original. Como norma se reduce entre la mitad hasta tres
cuartos segn el tipo de sonido procesado.
1
: APT (Advanced Packaging Tool) es un sistema de gestin de paquetes creado por el
proyecto Debian. APT simplifica en gran medida la instalacin y eliminacin de
programas en los sistemas GNU/Linux.
No existe un programa apt en s mismo, sino que APT es una librera de funciones C++
que se emplea por varios programas de lnea de comandos para distribuir paquetes.
FLAC est diseado para comprimir audio. Debido a ello, los archivos resultantes son
reproducibles y tiles, adems de ser ms pequeos que si se hubiera aplicado
directamente al archivo PCM un algoritmo de compresin genrico (como ZIP). Los
algoritmos con prdida pueden comprimir a ms de 1/10 del tamao inicial, a costa de
descartar informacin; FLAC, en su lugar, usa la prediccin lineal para convertir las
muestras, en series de pequeos nmeros no correlativos (conocido como "residuos"),
que se almacenan eficientemente usando la codificacin Golomb-Rice (ver: "Reglas
Golombinas", o "Golombianas"). Adems de esto, para aprovechar los silencios (donde
los valores numricos presentan mucha repeticin) usa codificacin por "longitud de
pista" (RLE"Run-Length Encoding") para muestras idnticas.
FLAC se ha convertido en uno de los formatos preferidos para la venta de msica por
Internet, al igual que Monkey's Audio que funciona idnticamente bien. Adems es
usado en el intercambio de canciones por la red, como alternativa al MP3, cuando se
desea obtener una mayor reduccin del peso que en un archivo WAV-PCM, y no perder
calidad de sonido. Tambin es el formato ideal para realizar copias de seguridad de
112
CDs, ya que permite reproducir exactamente la informacin del original, y recuperarla
en caso de problemas con este material.
FLAC no soporta muestras en "coma flotante", slo en "punto fijo". Admite cualquier
resolucin PCM de 4 a 32 bits, y cualquier frecuencia de muestreo (sample rate) desde 1
a 65535KHz, en incrementos de 1Hz.
Los archivos FLAC suelen tener esta misma extensin (*.FLAC); son perfectamente
reproducibles con algunos reproductores, incluso en computadoras antiguas, ya que una
de las caractersticas del proyecto, es que los archivos decodifiquen en modo sencillo.
Adems permiten usar la funcin bsqueda. Estos archivos, son de velocidad de bits
variable, porque no todas las partes de una misma cancin son igualmente compresibles.
Otra caracterstica es que, como todos los formatos sin prdida, el ratio final depende
mucho del estilo musical, y de su complejidad y variedad sonora, a parte de la propia
cancin. Para msica clsica obtiene ratios de aproximadamente 1/2; en otros estilos,
como el dance o el rock, los archivos se quedan desde 2/3 hasta 4/5 del tamao original
en formato PCM. Otro factor de mucha importancia es la existencia de los silencios, ya
que algunas canciones tienen varios segundos al principio o al final.


FLAC
(libflac)
Desarrollador: Xiph.Org / Josh Coalson
ltima versin: 1.1.4 / 13 de febrero de 2007
S.O.: Multiplataforma
Gnero: Cdec de audio
Licencia: Tipo BSD / "Licencia Xiph"
En espaol: -
Sitio Web: http://flac.sf.net

Figura 2.23: Informacin sobre formato FLAC


GZIP (ZIP)
Gzip es un compresor de propsito general para ficheros o flujos de informacin en
general. Se dise inicialmente debido a problemas de licencias con la utilidad
compress. Esta utilidad utiliza una versin del LZ78 patentada por lo que fue necesario
crear otra alternativa que pudiera publicarse bajo la licencia GPL.
113
El mtodo utilizado es un derivado del LZRW1 al que se han aadido otras
caractersticas. Debido a estos orgenes es de prever que se ha intentado optimizar el
tiempo de descompresin sobre el de compresin. Entrando en los detalles del algoritmo
diremos que utiliza 15 bits para el buffer de bsqueda y 8 para el de prelectura. Para
aumentar la velocidad se utiliza una tabla hash, al igual que en el LZRW1. La diferencia
reside en que para evitar los problemas que tena el LZRW1, se utiliza una tabla hash
encadenada. Esto permite obtener emparejamientos ms largos pese a sacrificar el
tiempo de acceso.
Otra caracterstica del gzip es el uso de una estrategia de emparejamiento no voraz al
100%. La estrategia utilizada se llama emparejamiento tardo (lazy match). La tcnica
consiste en, una vez encontrada la cadena con longitud mxima emparejable, se mira un
carcter ms de la entrada. Si es emparejado con una cadena de longitud mayor a la
emparejada anteriormente, se enviar dicho carcter como un literal y se utilizar la
cadena mayor. Con esto reducimos los problemas del algoritmo voraz clsico aunque
sigue sin tratarse de una estrategia ptima.
Adems, el funcionamiento de este emparejamiento tardo, as como el nivel de
profundidad en la bsqueda en la tabla hash encadenada, son configurables por el
usuario. En concreto gzip permite indicar por parmetros un nivel de compresin que
determinar los siguientes parmetros:
good_length: Indica que si un emparejamiento ha alcanzado ya este valor, la
profundidad mxima de emparejamiento tardo se reduce (dividir max_chain entre 2).
max_lazy: Desconecta el emparejamiento tardo si ya llevamos emparejados max_lazy
smbolos.
nice_length: Determina cuando debemos parar de emparejar. El tamao mximo es 258
que viene dado por la limitacin de los tamaos de ventanas utilizados.
max_chain: Nmero mximo de encadenamientos en la tabla hash.

Veamos los valores de estos parmetros en funcin del grado de calidad de la
compresin indicado en la lnea de comandos:

Parmetro 1 3 4 6* 8 9
good_length - - 4 8 32 32
max_lazy - - 4 16 128 258
nice_length 8 32 16 128 258 258
max_chain 4 32 16 128 1024 4096
(* Opcin utilizada por defecto.)

114
Finalmente comentar que la salida de esta tcnica de compresin basada en diccionario
sufre un proceso de post-procesamiento. Esta fase consiste en la aplicacin de un
segundo compresor basado en un rbol de Huffman a la salida ya comprimida
anteriormente.

.GZIP

Este formato es usado principalmente en Unix/Linux. Solo puede comprimir un nico
archivo a la vez, as que suele contener archivos .TAR que contienen distintos archivos.
gzip es una abreviatura de GNU ZIP, un software libre GNU que reemplaza al
programa compress de UNIX. gzip fue creado por Jean-loup Gailly y Mark Adler.
Apareci el 31 de octubre de 1992 (versin 0.1). La versin 1.0 apareci en febrero de
1993.
gzip se basa en el algoritmo Deflate, que es una combinacin del LZ77 y el Huffman.
Deflate se desarroll como respuesta a las patentes que cubrieron LZW y otros
algoritmos de compresin y limitaba el uso del compress.
No se debe confundir gzip con ZIP, el cual no es compatible. gzip no archiva ficheros,
slo los comprime. Debido a esto a menudo se usa junto con alguna herramienta para
archivar (popularmente tar).
Para hacer ms fcil el desarrollo del software que usa compresin, se cre la biblioteca
zlib. Soporta el formato de ficheros gzip y la compresin deflate. Esta librera se usa
mucho porque es pequea, eficiente y muy verstil. Gzip y zlib fueron implementadas
por Jean-Loup Gailly y Mark Adler. Desde finales de los noventa se ha producido algn
movimiento de gzip a bzip2 que a menudo produce archivos ms pequeos aunque es
ms lento.
El formato de compresin zlib, el algoritmo deflate y el formato gzip fueron
estandarizados como RFC 1950, RFC 1951 y RFC 1952 respectivamente.
Normalmente, la extensin de los archivos gzipeados es .gz. El software de Unix a
menudo se distribuye como ficheros con extensin .tar.gz o .tgz, llamados tarballs. Son
archivos empaquetados con tar y comprimidos con gzip. Se pueden descomprimir con
gzip -d fichero.tar.gz o desempaquetar con tar -xzf archivo.tar.gz. Hoy en da, cada vez
se distribuye ms y ms software como fichero.tar.bz2 debido a las ventajas de la
compresin bzip2.
.MP2 /.MP1

Compresin solo para msica. Predecesores del MP3, pero ya casi sin uso.
MP2, tambin conocido como Musicam, es una abreviacin de MPEG-1 Audio Capa 2
(no MPEG-2), y tambin es utilizado como extensin en los nombres de archivo para
indicar contenidos codificados en ste formato. Si bien ha sido suplantado por MP3 en
los computadores personales y aplicaciones Internet, sigue siendo un estndar
dominante para la emisin de audio como parte de los estndares de radio digital DAB y
de televisin digital DVB. Es el estndar utilizado en la distribucin de programacin
audio Content Depot.
115
El standard est definido en la norma ISO/IEC 11172-3, quedando establecidos los
siguientes parmetros:
Frecuencias de muestreo: 32, 44.1 y 48 kHz
Tasas de bits: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 y 384
kbit/s
La norma establecida en MPG-1 Layer II, ha sido extendida por MPEG-2 Layer II y
definida en ISO/IEC 13818-3:
Frecuencias de muestre adicionales: 16, 22.05 and 24 kHz
Tasas de bits adicionales: 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144 and
160 kbit/s
Con estos parmetros adicionales, se puede conseguir un mayor abanico de calidades en
la codificacin, proporcionando as servicios ms variados.

.MP3

Este formato fue desarrollado principalmente por Karlheinz Brandenburg, director de
tecnologas de medios electrnicos del Instituto Fraunhofer IIS, perteneciente al
Fraunhofer-Gesellschaft - red de centros de investigacin alemanes - que junto con
Thomson Multimedia controla el grueso de las patentes relacionadas con el MP3. La
primera de ellas fue registrada en 1986 y varias ms en 1991. Pero no fue hasta julio de
1995 cuando Brandenburg us por primera vez la extensin .mp3 para los archivos
relacionados con el MP3 que guardaba en su ordenador. Un ao despus su instituto
ingresaba en concepto de patentes 1,2 millones de euros. Diez aos ms tarde esta
cantidad ha alcanzado los 26,1 millones.
El formato MP3 se convirti en el estndar utilizado para streaming de audio y
compresin de audio de alta calidad (con prdida en equipos de alta fidelidad) gracias a
la posibilidad de ajustar la calidad de la compresin, proporcional al tamao por
segundo (bitrate), y por tanto el tamao final del archivo, que poda llegar a ocupar 12 e
incluso 15 veces menos que el archivo original sin comprimir.
Fue el primer formato de compresin de audio popularizado gracias a Internet, ya que
hizo posible el intercambio de ficheros musicales. Los procesos judiciales contra
empresas como Napster y AudioGalaxy son resultado de la fcilidad con que se
comparten este tipo de ficheros.
Tras el desarrollo de reproductores autnomos, porttiles o integrados en cadenas
musicales (estreos), el formato MP3 llega ms all del mundo de la informtica.
A principios de 2002 otros formatos de audio comprimido como Windows Media Audio
y Ogg Vorbis empiezan a ser masivamente incluidos en programas, sistemas operativos
y reproductores autnomos, lo que hizo prever que el MP3 fuera paulatinamente
cayendo en desuso, en favor de otros formatos, como los mencionados, de mucha mejor
calidad. Uno de los factores que influye en el declive del MP3 es que tiene patente.
116
Tcnicamente no significa que su calidad sea inferior ni superior, pero impide que la
comunidad pueda seguir mejorndolo y puede obligar a pagar por la utilizacin de algn
cdec, esto es lo que ocurre con los reproductores de MP3. An as, a inicios del 2007,
el formato mp3 continua siendo el ms usado y el que goza de ms xito.
En esta capa existen varias diferencias respecto a los estndares MPEG-1 y MPEG-2,
entre las que se encuentra el llamado banco de filtros hbrido que hace que su diseo
tenga mayor complejidad. Esta mejora de la resolucin frecuencial empeora la
resolucin temporal introduciendo problemas de pre-eco que son predecidos y
corregidos. Adems, permite calidad de audio en tasas tan bajas como 64Kbps.
El banco de filtros utilizado en esta capa es el llamado banco de filtros hbrido
polifase/MDCT. Se encarga de realizar el mapeado del dominio del tiempo al de la
frecuencia tanto para el codificador como para los filtros de reconstruccin del
decodificador. Las muestras de salida del banco estn cuantizadas y proporcionan una
resolucin en frecuencia variable, 6x32 o 18x32 subbandas, ajustndose mucho mejor a
las bandas crticas de las diferentes frecuencias. Usando 18 puntos, el nmero mximo
de componentes frecuenciales es: 32 x 18 = 576. Dando lugar a una resolucin
frecuencial de: 24000/576 = 41,67 Hz (si fs = 48 Khz.). Si se usan 6 lneas de frecuencia
la resolucin frecuencial es menor, pero la temporal es mayor, y se aplica en aquellas
zonas en las que se espera efectos de preeco (transiciones bruscas de silencio a altos
niveles energticos).
La Capa III tiene tres modos de bloque de funcionamiento: dos modos donde las 32
salidas del banco de filtros pueden pasar a travs de las ventanas y las transformadas
MDCT y un modo de bloque mixto donde las dos bandas de frecuencia ms baja usan
bloques largos y las 30 bandas superiores usan bloques cortos. Para el caso concreto del
MPEG-1 Audio Layer 3 (que concretamente significa la tercera capa de audio para el
estandar MPEG-1) especifica cuatro tipos de ventanas: (a) NORMAL, (b) transicin de
ventana larga a corta (START), (c) 3 ventanas cortas (SHORT), y (d) transicin de
ventana corta a larga (STOP).
La compresin se basa en la eliminacin de informacin perceptualmente irrelevante, es
decir, en la incapacidad del sistema auditivo para detectar los errores de cuantificacin
en condiciones de enmascaramiento. Este estndar divide la seal en bandas de
frecuencia que se aproximan a las bandas crticas, y luego cuantifica cada subbanda en
funcin del umbral de deteccin del ruido dentro de esa banda. El modelo psicoacstico
es una modificacin del empleado en el esquema II, y utiliza un mtodo denominado
prediccin polinmica. Analiza la seal de audio y calcula la cantidad de ruido que se
puede introducir en funcin de la frecuencia, es decir, calcula la cantidad de
enmascaramiento o umbral de enmascaramiento en funcin de la frecuencia.
El codificador usa esta informacin para decidir la mejor manera de gastar los bits
disponibles. Este estndar provee dos modelos psicoacsticos de diferente complejidad:
el modelo I es menos complejo que el modelo psicoacstico II y simplifica mucho los
clculos. Estudios demuestran que la distorsin generada es imperceptible para el odo
experimentado en un ambiente ptimo desde los 256 kbps y en condiciones normales.
Para el odo no experimentado 128 kbps es suficiente. Para el odo no experimentado, o
comn, con 128 kbps o hasta 96 kbps basta para que se oiga "bien" (a menos que se
posea un equipo de audio de alta calidad donde se nota excesivamente la falta de graves
117
y se destaca el sonido de "fritura" en los agudos). Sin embargo, en las personas que
escuchan mucha msica o que tienen experiencia en la parte auditiva, desde 192 o 256
kbps basta para or bien. La msica que circula por Internet, en su mayora, est
codificada entre 128 y 192 kbps.
La solucin que propone este estndar en cuanto a la reparticin de bits o ruido se hace
en un ciclo de iteracin que consiste de un ciclo interno y uno externo. Examina tanto
las muestras de salida del banco de filtros como el SMR (signal-to-mask ratio)
proporcionado por el modelo psicoacstico, y ajusta la asignacin de bits o ruido, segn
el esquema utilizado, para satisfacer simultneamente los requisitos de tasa de bits y de
enmascaramiento. Dichos ciclos consisten en:
(i)Ciclo interno. El ciclo interno realiza la cuantizacin no-uniforme de acuerdo con el
sistema de punto flotante (cada valor espectral MDCT se eleva a la potencia 3/4). El
ciclo escoge un determinado intervalo de cuantizacin y, a los datos cuantizados, se les
aplica codificacin de Huffman en el siguiente bloque. El ciclo termina cuando los
valores cuantizados que han sido codificados con Huffman usan menor o igual nmero
de bits que la mxima cantidad de bits permitida.
(ii)Ciclo externo. Ahora el ciclo externo se encarga de verificar si el factor de escala
para cada subbanda tiene ms distorsin de la permitida (ruido en la seal codificada),
comparando cada banda del factor de escala con los datos previamente calculados en el
anlisis psicoacstico. El ciclo externo termina cuando una de las siguientes
condiciones se cumple:
Ninguna de las bandas del factor de escala tiene mucho ruido.
Si la siguiente iteracin amplifica una de las bandas ms de lo permitido.
Todas las bandas han sido amplificadas al menos una vez.
Empaquetado o formateador de bitstream [editar]
Este bloque toma las muestras cuantificadas del banco de filtros, junto a los datos de
asignacin de bits/ruido y almacena el audio codificado y algunos datos adicionales en
las tramas. Cada trama contiene informacin de 1152 muestras de audio y consiste de
un encabezado, de los datos de audio junto con el chequeo de errores mediante CRC y
de los datos auxiliares (estos dos ltimos opcionales). El encabezado nos describe cul
capa, tasa de bits y frecuencia de muestreo se estn usando para el audio codificado. Las
tramas empiezan con la misma cabecera de sincronizacin y diferenciacin y su
longitud puede variar. Adems de tratar con esta informacin, tambin incluye la
codificacin Huffman de longitud variable, un mtodo de codificacin entrpica que
sin prdida de informacin elimina redundancia. Acta al final de la compresin para
codificar la informacin. Los mtodos de longitud variable se caracterizan, en general,
por asignar palabras cortas a los eventos ms frecuentes, dejando las largas para los ms
infrecuentes.
Estructura de un fichero MP3
Un fichero Mp3 se constituye de diferentes frames MP3 que a su vez se componen de
una cabecera Mp3 y los datos MP3. Esta secuencia de datos es la denominada stream
elemental. Cada uno de los Frames son independientes, es decir, una persona puede
118
cortar los frames de un fichero MP3 y despus reproducirlos en cualquier reproductor
MP3 del Mercado. El grafico muestra que la cabecera consta de una palabra de
sincronismo que es utilizada para indicar el principio de un frame valido. A
continuacin siguen una serie de bits que indican que el fichero analizado es un fichero
Standard MPEG y si usa o no la capa 3. Despus de todo esto los valores difieren
dependiendo del tipo de archivo MP3. Los rangos de valores quedan definidos en la
ISO/IEC 11172-3.
Transformada de Fourier discreta
En matemticas, la transformada de Fourier discreta, designada con frecuencia por la
abreviatura DFT (del ingls discrete Fourier transform), y a la que en ocasiones se
denomina transformada de Fourier finita, es una transformada de Fourier ampliamente
empleada en tratamiento de seales y en campos afines para analizar las frecuencias
presentes en una seal muestreada, resolver ecuaciones diferenciales parciales y realizar
otras operaciones, como convoluciones. Es utilizada en el proceso de elaboracin de un
fichero MP3.
La transformada de Fourier discreta puede calcularse de modo muy eficiente mediante
el algoritmo FFT.

.MP4 / .M4A

Sucesor del MP3, basado en el formato AAC. El formato .M4A solo puede contener
audio, el .MP4 puede contener tanto audio como video.
MP4 es un formato de archivo contenedor definido en el estndar MPEG-4 Part 14, esto
significa que encapsula distintos tipos de pistas, ya sea audio, vdeo, imgenes,
subttulos, etc. Tiene una estructura que lo hace adecuado para streaming de contenidos
multimedia.
La extensin m4a ha sido popularizada por Sony quien inici el uso de la extensin
".m4a" en su software "SonTunes" y en sus populares reproductores de audio "Sony
W300H" para distinguir entre archivos MPEG-4 de audio y vdeo. Actualmente la
mayora del software que soporta el estndar MPEG-4 reproduce archivos con la
extensin ".m4a". La mayora de los archivos ".m4a" disponibles han sido creados
usando el formato AAC (Advanced Audio Coding), pero otros archivos en formatos
como "Sonny Lossless" y ".mp3" pueden ser incluidos en un archivo ".m4a".
Normalmente se puede cambiar, de manera segura, la extensin de los archivos de audio
".mp4" a ".m4a" y viceversa pero no as a ".mp3" ya que para poder ser reproducidos en
un reproductor de audio, ste necesariamente tiene que tener la capacidad para
decodificar el formato que est contenido en el fichero ".mp4" que generalmente est
codificado en MPEG-4 AAC e incompatible con la codificacin y decodificacin de
MPEG-1 Layer 3 para el ".mp3".
MPEG-4 es una serie de cdecs y estndares internacionales de vdeo, audio y datos
creado especialmente para la web. Esta formado por una serie algoritmos de compresin
que codifica datos, audio, y vdeo optimizando su calidad de almacenamiento,
119
codificacin y distribucin en redes. Con las cmaras de hoy, se integra captura y
codificacin en una sola accin, lo que optima la potencialidad del usuario para emitir.
Esto es en realidad una estrategia de mercadotecnia que intenta dar la sensacin al
consumidor de que un reproductor MP4 es superior a un reproductor de MP3 por la
simple y lgica superioridad numrica del nombre del primero. Sin embargo, a estos
reproductores que se les denomina MP4 tienden a reproducir videos en formato AMV y
no MPEG-4.



Figura 2.5: Relacin entre los formatos ISO, MP4, AVC y MPEG-21.


.MPC

MusePack. El mejor compresor a partir de 192Kbps.
Musepack es un cdec de audio diseado para transparencia, lo que significa que an
siendo un algoritmo de compresin con prdida resulta muy difcil escuchar diferencias
entre el archivo wave original y el archivo MPC ms pequeo usando el perfil
"Standard" por defecto.
Musepack est considerado como uno de los mejores cdecs para bitrates medios/altos.
Est principalmente optimizado para codificacin transparente usando el perfil "--
standard" (142...184 kbps). Muy pocas optimizaciones han sido hechas para bitrates ms
bajos (como 128kbps) pero an as ofrece una calidad aceptable.
120
El desarrollo de MPC fue iniciado en 1997 por Andree Buschmann y luego fue tomado
por Frank Klemm. Actualmente es mantenido por el Equipo de Desarrollo de Musepack
(Musepack Development Team) con asistencia de Frank Klemm.
Sus races se basan en el algoritmo MPEG-1 Audio Layer-2 / MP2, pero desde 1997 se
ha desarrollado rpidamente y mejorado considerablemente. En la actualidad se
encuentra en una etapa avanzada en el que contiene cdigo muy optimizado y sin
patentes.
En el pasado, MPC ha estado bajo sospecha de violar mltiples patentes (MP2, PNS,
subband), pero de acuerdo con los desarrolladores de MPC todo el cdigo patentado ha
sido eliminado. Sin embargo una patente PNS sigue activa y solo un examen a fondo
por un abogado de patentes puede afirmar si Musepack esta libre de patentes o no.
Anteriormente era conocido como MPEGplus al estar basado en el algoritmo MP2, y
usaba la extensin *.mp+ y *.mpp. Luego fue nombrado Musepack, pasando a ser
*.mpc su extensin de archivo por defecto.

.MPEG

El MPEG utiliza cdecs (codificadores-descodificadores) de compresin con bajas
prdidas de datos usando cdecs de transformacin.
En los cdecs de transformacin con bajas prdidas, las muestras tomadas de imagen y
sonido son troceadas en pequeos segmentos, transformadas en espacio-frecuencia y
cuantificadas. Los valores cuantificados son luego codificados entrpicamente.
Los sistemas de codificacin de imgenes en movimiento, tal como MPEG-1, MPEG-2
y MPEG-4, aaden un paso extra, donde el contenido de imagen se predice, antes de la
codificacin, a partir de imgenes reconstruidas pasadas y se codifican solamente las
diferencias con estas imgenes reconstruidas y algn extra necesario para llevar a cabo
la prediccin.
MPEG solamente normaliza el formato del flujo binario y el descodificador. El
codificador no est normalizado en ningn sentido, pero hay implementaciones de
referencia, para los miembros, que producen flujos binarios vlidos.
MPEG ha normalizado los siguientes formatos de compresin y normas auxiliares:
MPEG-1: estndar inicial de compresin de audio y vdeo. Usado despus como
la norma para CD de vdeo, incluye popular formato de compresin de audio
Capa 3 (MP3).
MPEG-2: normas para audio y vdeo para difusin de calidad de televisin.
Utilizado para servicios de TV por satlite como DirecTV (Cadena
estadounidense de televisin va satlite de difusin directa), seales de
televisin digital por cable y (con ligeras modificaciones) para los discos de
vdeo DVD.
121
MPEG-3: diseado originalmente para HDTV (Televisin de Alta Definicin),
pero abandonado posteriormente en favor de MPEG-2.
MPEG-4: expande MPEG-1 para soportar "objetos" audio/vdeo, contenido 3D,
codificacin de baja velocidad binaria y soporte para gestin de derechos
digitales (proteccin de copyright).
MPEG-7: sistema formal para la descripcin de contenido multimedia
MPEG-21: MPEG describe esta norma futura como un "marco multimedia".

.OFR

Compresin sin prdida de calidad, especializado solo para msica. Creado por
optimFROG. Es un compresor similar al ZIP, pero para archivos de audio.
Se trata de un nuevo codec de compresin de audio sin prdida. Uno ms entre la
multitud, pero con unos excelentes ratios de compresin frente a sus rivales, entre otros
APE, FLAC, ALE, etc.
OptimFROG es una librera DLL distribuida en un archivo EXE, de tal forma que el
proceso de instalacin sea automtico.


.OGG

Como con la mayora de formatos contenedores, Ogg encapsula datos comprimidos (e
incluso sin comprimir) y permite la interpolacin de los datos de audio y de vdeo
dentro de un solo formato conveniente. Otros ejemplos de formatos contenedores son
AVI y Matroska.
El nombre "Ogg" por lo tanto se refiere al formato de archivo el cual incluye un nmero
de cdecs separados e independientes de vdeo y audio, ambos desarrollados en cdigo
abierto. Los archivos terminados en la extensin ".ogg" pueden ser de cualquier tipo de
archivo Ogg, audio o vdeo, y ya que su uso est libre de patentes, varios cdecs de Ogg
han sido incluidos en muchos reproductores multimedia (VLC,mplayer, etc...)
existiendo incluso filtros para reproducir los cdecs Ogg en prcticamente cualquier
reproductor que soporte DirectShow (Windows Media Player, BSplayer, Winamp, etc.).
El trmino "Ogg" algunas veces se refiere incorrectamente al cdec de audio Vorbis ya
que Vorbis fue el primer cdec que se us con el contenedor, tambin podra decirse
que es incorrecto decir "OGG" en maysculas ya que no es un acrnimo como WMA y
no se pronuncia como si fueran letras individuales como MP3 (eme-pe-tres), aunque no
significa que sea invlido por ejemplo en programas multimedia que muestran
asociaciones de extensiones en una lista.
El proyecto Ogg fue creado por Monty (Christopher Montgomery), fundador y director
tcnico de Xiph.Org, inici con unos intentos de fin de semana con un paquete de
compresin de audio simple como parte de un proyecto ms grande en 1993. En ese
tiempo el software se llamaba "Squish". El proyecto y el problema general de
compresin de msica se convirti en una fascinacin personal para Monty y Squish
adquiri vida propia ms all de las porciones del proyecto de estudio digital de msica
del cual deba ser parte.
122
Unos pocos meses despus del primer sitio web de Squish, Monty recibi una carta
informndole que Squish era una marca registrada y un contribuidor a la causa sugiri el
nombre "OggSquish" como un reemplazo.
Actualmente Ogg es el formato de archivo desarrollado a partir de ese trabajo temprano
de compresin y es parte del proyecto multimedia ms grande de la Fundacin
Xiph.org; Squish se convirti solamente en uno de los nombres de los cdecs Ogg.
Inicialmente pensado para ser usado con el cdec de audio Squish para posteriormente
ser sustituido por Vorbis como el primer cdec desarrollado como parte de los
proyectos multimedia de la Fundacin Xiph.org. Despus fue adaptado para usarse con
otros cdecs de audio y vdeo desarrollados por la Fundacin y otros contribuyentes. La
versin 1.0 fue lanzada el 29 de Julio de 2002.
El nombre Ogg se cree que viene del personaje Tata Ogg de las novelas del Mundodisco
de Terry Pratchett, pero en realidad viene de una maniobra tctica del juego de red
"Netrek".

Request for comments
Formato de
encapsulacin
RFC
3533
MIME :
application/ogg
RFC
3534

Ogg es un contenedor orientado a stream, lo que significa que puede ser escrito y ledo
en un solo paso, hacindolo adecuado para streaming en internet. sta orientacin a
stream es la mayor diferencia en diseo sobre otros formatos contenedores basados-en-
archivo.
El bitstream de Ogg est definido en el RFC 3533 y el tipo MIME recomendado para
los archivos Ogg es application/ogg definido en el RFC 3534.

Caractersticas del bitstream de Ogg [editar]
1. Verdadero streaming, no se necesita intentar construir un bitstream 100%
completo.
2. No usa ms que aprox. 1-2% del ancho de banda del bitstream, para la marca del
lmite del paquete, framing de alto-nivel, sincronizacin y bsqueda.
3. Especificacin de la posicin absoluta dentro de la muestra del stream original.
4. Mecanismo simple para una fcil correccin limitada, tal como un mecanismo
simplificado del encadenamiento.
123
5. Deteccin de corrupcin, acceso aleatorio a los datos en posiciones arbitrarias en
el bitstream.


.RPM

RPM Package Manager (o RPM, originalmente llamado Red Hat Package Manager)
es una herramienta de administracin de paquetes pensada bsicamente para Linux. Es
capaz de instalar, actualizar, desinstalar, verificar y solicitar programas. RPM es el
formato de paquete de partida del Linux Standard Base.
Originalmente desarrollado por Red Hat para Red Hat Linux, en la actualidad muchas
distribuciones Linux lo usan dentro de los cuales las ms destacadas son Fedora Linux,
MandrivaLinux, SuSE Linux, Conectiva Linux, Ubuntu Linux y otros ms sencillos
como SabiosS Linux. Tambin se ha portado a otros sistemas operativos.

.SHN (Shorten)

Compresin sin prdida de calidad (lossless) solo para msica. Creado por SoftSound.
Compresiones de 2:1, 3:1.
Shorten (SHN) es un formato de archivo usado para comprensin sin prdidas para
archivos de audio calidad CD (44.1 kHz 16-bit estreo PCM. Es un formato de archivos
de datos comprimido similar al ZIP, RAR, y Stufflt; pero est optimizado para
compresin de datos de audio. Formatos con prdidas como Vorbis y MP3 son
tpicamente ms usados, ya que estos son del 10 por ciento del tamao original del
archivo, en vez del 50-70 por ciento, pero un tamao ms pequeo de archivo conlleva a
una prdida de datos (la cual depende de la calidad de la codificacin, del equipo de
grabacin, el nivel de ruido ambiental durante la grabacin y de la escucha del oyente,
tanto puede ser perceptible como no). Otros codificadores de audio sin prdidas como lo
son FLAC, Monkey's audio (APE), y TTA se estn volviendo populares recientemente,
aunque Shorten permanece siendo un formato popular debido a la gran cantidad de
grabaciones de concierto legales en circulacin que estn codificadas en archivos
Shorten. Algunas aplicaciones requieren las salidas digitales sin prdidas que algunos
codificadores proveen. Los archivos Shorten usan la extensin de archivo .SHN.
El algoritmo Shorten y el cdigo fuente que este implementa fue desarrollado por Tony
Robinson de la Universidad de Cambridge en 1992/1993 y luego asignado a SoftSound
Ltd. El cdigo ha estado disponible bajo una licencia no comercial y ha sido
subsecuentemente extendido por Wayne Stielau el cual incluye tablas de bsqueda para
que uno pueda buscar en las pistas individuales mientras reproduce los archivos en un
ordenador.


124
.TAR

Este formato es usado principalmente en Unix/Linux. No realiza compresin,
simplemente junta archivos y carpetas en un archivo nico para una mayor compresin.
Tar se refiere en Informtica a un formato de archivos ampliamente usado en entornos
UNIX, identificados con la extensin tar. Adems hace referencia al programa para la
manipulacin de archivos que es estndar en estos entornos. El formato fue diseado
para almacenar archivos de una forma conveniente en cintas magnticas y de all
proviene su nombre, que proviene de "Tape ARchiver" (en ingls: archivador en cinta).
Debido a este origen el formato est preparado para ser procesado linealmente, no
contando con manera de extraer un miembro sin recorrer todo el archivo hasta
encontrarlo.

El programa
El programa tar, como se indic en la introduccin es usado para almacenar archivos y
directorios en un solo archivo. Dentro de los entornos Unix tar aparece como una orden
que puede ser ejecutada desde la lnea de rdenes de una consola de texto o desde un
simple terminal. El formato de la orden tar es, comnmente:
tar <opciones> <archivo1> <archivo2> ... <archivoN>
donde <archivo1>, <archivo2>, etctera son los diferentes archivos que sern
"empaquetados" en un solo archivo. Este proceso permite respaldar archivos,
compartirlos, transmitirlos por Internet o por redes locales de una forma fcil.
Hoy en da existen programas tanto comerciales como de cdigo abierto y freeware con
excelentes interfaces grficas (GUI) y que ejecutan en diferentes sistemas operativos y
pueden crear y manipular "archivos tar". Esto se debe principalmente al extendido uso
que tienen los "archivos tar".
El programa Tar slo combina los diferentes archivos en un solo archivo, no realiza
compresin de datos, por lo que no reduce el tamao de los archivos. Sin embargo se
puede combinar la funcionalidad de los archivos tar con una compresin de datos que
disminuya su tamao final. Esto se logra usando primero Tar y luego un compresor para
obtener archivos tar comprimidos. En Sistemas Unix esto se hace fcilmente usando las
opciones adecuadas de tar y gzip, bzip2 o el compresor de preferencia.
Debido a que el formato tar fue diseados para su uso en sistemas UNIX estos archivos
almacenan toda la metainformacin asociada a los archivos que se incluye en estos
sistemas operativos: fecha de ltima modificacin, propietario y permisos al estilo
UNIX. Adems admite el almacenamiento de enlaces simblicos y "hardlinks".




125
.WMA

Windows Media Audio. Creado por Microsoft.Consigue mayor compresin que el MP3
especialmente a menor bits.
Windows Media Audio o WMA es un formato de compresin de audio con prdida
propiedad de Microsoft, aunque recientemente se ha desarrollado de compresin sin
prdida.
Compite con el MP3, antiguo y bastante inferior tcnicamente; y Ogg-Vorbis, superior
y libre, usando como estrategia comercial la inclusin de soporte en el reproductor
Windows Media Player, incluido en su popular sistema operativo Windows.
Aunque el soporte de este formato se ha ampliado desde Windows Media Player y
ahora se encuentra disponible en varias aplicaciones y reproductores porttiles, el MP3
continua siendo el formato ms popular y por ello ms extendido.
A diferencia del MP3, ste formato posee una infrastructura para proteger el Copyright
y as hacer ms difcil el "trfico ilegal" de msica.
Este formato est especialmente relacionado con Windows Media Video (WMV) y
Advanced Streaming Format (ASF).

COMPRESS (Z)
Este compresor est basado en una variante del LZW llamada LZC. Este programa se
caracteriza por ser muy portable y encontrarse presente en muchas plataformas. De
hecho se ha convertido en un estndar de referencia para comparar nuevos algoritmos
de compresin. Uno de los aspectos caractersticos de compress es que se dise
teniendo en mente que deba poderse ejecutar en mquinas modestas. Una de las
caractersticas derivadas de esta restriccin es el uso de punteros de longitud variable
para apuntar a las entradas del diccionario que pueden ser limitados a n bits permitiendo
as limitar la ocupacin de memoria del compresor/descompresor.

Para mantener actualizado el diccionario se implementa un vaciado del diccionario
cuando, habindose llenado este, la tasa de compresin ha cado por debajo de cierto
nivel considerado como aceptable. El ratio de compresin de este compresor es
ligeramente mejor (10% aprox.) que el algoritmo LZRW1 pero a costa de ser mucho
ms lento (400% aprox.).

Si comparamos compress con su sucesor natural, el gzip, vemos como compress es
bastante ms rpido al comprimir que gzip pero resulta ms lento para descomprimir.

126
Veamos finalmente una tabla en la que se muestra las velocidades obtenidas mediante
compress y gzip utilizando una SPARCstation 20 y utilizando el mismo subconjunto de
ficheros del corpus de Calgary [7] utilizado anteriormente.

Compresin KB/s | % tamao fichero original Desc. KB/s
Fichero KB Compress gzip -1 gzip -3 gzip -6 cmprs gzip
bib 109 580 41.8 510 39.4 390 35.7 180 31.5 950 1580
book1 751 420 43.2 420 47.5 280 43.8 120 40.8 102 1670
geo 100 450 76.0 270 68.2 140 67.9 60 66.9 700 1070
obj1 21 440 65.3 370 49.8 340 49.2 230 48.0 560 620
pic 501 1250 12.1 1010 12.8 840 12.2 360 11.0 1870 3130
progc 39 520 48.3 460 39.0 380 36.6 220 33.5 760 1070
Media 253.5 700 47.8 510 42.8 390 40.9 200 38.6 980 1520



.ZIP

El formato de compresin ms popular disponible hoy en da. Es un formato de
compresin muy viejo y disponible en cualquier tipo de sistema operativo. El radio de
compresin no es muy alto.
Los documentos ZIP o zip en informtica son un formato de almacenamiento muy
utilizado para la compresin de datos como imgenes, msica, programas o
documentos.
Para este tipo de archivos se utiliza generalmente la extensin '.zip'.
Muchos programas, tanto comerciales como libres, lo utilizan y permiten su uso ms
habitual.
El formato ZIP fue creado originalmente por Phil Katz, fundador de PKWARE. Katz
liber al pblico la documentacin tcnica del formato ZIP, y lanz al mismo tiempo la
primera versin de PKZIP en enero de 1989.
ARC distribua no slo el programa ejecutable, sino tambin su cdigo fuente escrito en
C.
Katz haba copiado ARC y convertido las rutinas de compresin de C a un cdigo
optimizado en ensamblador, que lo haca mucho ms rpido. Inicialmente, SEA intent
obtener una licencia por el compresor de Katz, llamado PKARC, pero Katz lo rechaz.
SEA demand entonces a Katz por infringir el copyright, y gan.
ZIP es un formato de fichero bastante simple, que comprime cada uno de los archivos
de forma separada. Comprimir cada archivo independientemente del resto de archivos
comprimidos permite recuperar cada uno de los ficheros sin tener que leer el resto, lo
que aumenta el rendimiento. El problema, es que el resultado de agrupar un nmero
grande de pequeos archivos es siempre mayor que agrupar todos los archivos y
127
comprimirlos como si fuera uno slo. ste ltimo comportamiento es el del, tambin
conocido, algoritmo de compresin RAR.
La especificacin de ZIP indica que cada archivo puede ser almacenado, o bien sin
comprimir, o utilizando una amplia variedad de algoritmos de compresin. Sin
embargo, en la prctica, ZIP se suele utilizar casi siempre con el algoritmo de Phil Katz.
ZIP soporta un sistema de cifrado simtrico basado en una clave nica. Sin embargo,
este sistema de cifrado es dbil ante ataques como el ataque de texto plano, ataque del
diccionario y el ataque de fuerza bruta. Adems, tambin est soportado el distribuir las
partes de un archivo compreso en distintos medios, generalmente disquetes.
Con el tiempo, se han ido incluyendo nuevas caractersticas, como nuevos mtodos de
cifrado. Sin embargo, estas nuevas caractersticas no estn soportadas por las
aplicaciones ms utilizadas.

Mtodos de compresin

Shrinking (Contraccin) (mtodo 1)
La Contraccin es una variante de LZW con unos pequeos ajustes. Como tal,
estaba afectada por la ya expirada patente del LZW. Nunca estuvo claro si la
patente cubra descompresin, pero por si acaso, algunos proyectos libres, como
Info-ZIP decidieron no incluirlo en sus productos por defecto.
Reducing (Reduccin) (mtodos 2-5)
La Reduccin implica una combinacin de compresiones de secuencias de bytes
y aplicacin de una codificacin estadstica del resultado.
Imploding (Implosin) (mtodo 6)
La Implosin implica comprimir secuencias de bytes repetidamente con una
funcin de ventana deslizante, y posteriormente, comprimir el resultado
utilizando mltiples rboles Shannon-Fano.
Tokenizing (mtodo 7)
Este mtodo est reservado. La especificacin PKWARE no define un algoritmo
para l.
Deflate and enhanced deflate (mtodos 8 y 9)
Estos mtodos usan el bien conocido algoritmo deflate. Deflate permite ventanas
de hasta 32 KB. Enhanced deflate permite ventanas de hasta 64 KB. La versin
mejorada (enhanced) tiene un mejor comportamiento, pero no est tan
extendido.
128
resultado de la comparacin con Deflate 52,1 MB (probado con pkzip para
Windows, versin 8.00.0038)
resultado de la comparacin con Enhanced Deflate 51,8 MB (probado con pkzip
para Windows, versin 8.00.0038)
Biblioteca de compresin de datos de PKWARE por Imploding (mtodo 10)
La especificacin oficial del formato no da ms informacin sobre este mtodo.
resultado de la comparacin 61,6 MB (probado con pkzip para Windows,
versin 8.00.0038).
Mtodo 11
Este mtodo est reservado por PKWARE.
Bzip2 (mtodo 12)
Este mtodo utiliza el conocido algoritmo bzip2. Este algoritmo se comporta
mejor que Deflate, pero no est ampliamente soportado por las herramientas
(sobre todo las de Windows).
resultado de la comparacin 50,6 MB (probado con pkzip para Windows,
versin 8.00.0038).



En la actualidad
Hoy, los archivos ZIP emplean la extensin de fichero .zip y tienen el tipo media MIME
application/zip. Un archivo ZIP contiene uno o ms archivos que estn comprimidos o
almacenados.
Muchas aplicaciones software, distintas de PKZIP, estn disponibles para crear,
modificar o abrir archivos zip. Destacan WinZip, PicoZip, Info-ZIP, WinRAR y 7-Zip.
Las nuevas versiones de Mac OS X incluyen soporte ZIP integrado en Finder,
hacindolo el formato "oficial" de compresin en los Mac. Sin embargo, la mayora de
archivos de Mac todava se comprimen y empaquetan con Stuffit o, cada vez ms a
menudo, mediante tarballs.

.ZLIB

zlib es una biblioteca de compresin de datos, de software libre/fuente abierta,
multiplataforma desarrollada por Jean-loup Gailly y Mark Adler. Esta biblioteca provee
una implementacin del algoritmo DEFLATE usado en el programa de compresin
gzip. La primera versin pblica, 0.9, fue lanzada el 1 de mayo de 1995 y fue
originalmente orientada para ser usada con la librera de imgenes libpng. La biblioteca
zlib es distribuida bajo la licencia zlib.
129
El algoritmo deflacin es un sistema de compresin de datos sin prdidas que usa una
combinacin del algoritmo LZ77 y la codificacin Huffman. Fue originalmente definido
por Phil Katz para la versin 2 de su herramienta de archivado PKZIP, y fue ms tarde
especificado como RFC 1951.
El algoritmo deflacin est libre de todo tipo de patentes subsistentes, y esto, antes de
que expirara la patente de LZW (el cual es usado en el formato de archivo GIF), ha
llevado a su popularizacin y su uso en archivos comprimidos bajo gzip y archivos de
imagen PNG, adems del formato de compresin ZIP para el cual fue diseado
originalmente por Katz.
Se puede encontrar cdigo fuente para la compresin y descompresin usando este
algoritmo en zlib, la librera de compresin de propsito general, disponible como
cdigo abierto.
AdvanceCOMP usa una implementacin del algoritmo deflacin que permite
recompresin de archivos Gzip, PNG, MNG y ZIP para obtener tamaos de archivo
menores que con zlib.


RAR WINRAR

Este compresor es otro de los clsicos del mercado. Inicialmente, al igual que el
resto, se ofreca nicamente una versin en modo lnea de comandos pero el actual
producto estrella es la versin para Windows WinRar. Una de las caractersticas es que
se ha diseado teniendo en mente la interaccin con otros formatos y ofrece soporte
nativo completo para RAR y ZIP as como soporte para descompresin de fichero
CAB, ARJ, LZH, TAR, GZ, ACE, UUE, BZ2, JAR e ISO.
Respecto a la seguridad, diremos que incorpora el nuevo estndar AES de serie
por lo que podremos crear ficheros encriptados de una calidad excelente. Otra de las
caractersticas que posee es la capacidad de crear varios volmenes distintos dentro de
un mismo fichero as como gestin de varias copias de seguridad dentro de un mismo
fichero. Para dar un buen soporte a esta tecnologa se ha hecho hincapi en una
capacidad de deteccin y recuperacin de errores mucho mejor que la incluida en, por
ejemplo, WinZIP.

Finalmente comentar las dos caractersticas que para nosotros son las ms
interesantes. La primera de ellas hace referencia a la capacidad que tiene el compresor
de detectar tipos de ficheros multimedia y aplicar a ellos las tcnicas de compresin ms
adecuadas y no tan solo la genrica. As por ejemplo en el caso de un fichero wav
podra aplicarse tcnicas de eliminacin de blancos o en un fichero grfico aplicarse
mtodos compresores especficos para estos. La segunda es el soporte de ficheros
slidos. Con esto se hace referencia a la posibilidad de tratar todos los ficheros
comprimidos como un nico flujo de datos. Esto es de especial relevancia cuando
130
tratamos con multitud de ficheros pequeos que tienen entre s similitudes que podran
ser explotadas en caso de tratarse del mismo fichero y no de varios. Al tratarlos todos
como un flujo de datos s se aprovecha y se consigue un mayor ratio de compresin. La
desventaja del sistema es la mayor sensibilidad a errores y a su dificultad de
recuperacin ya que debemos analizar todo el fichero para poder extraer cada fichero
individualmente.
.RAR

Otro tipo de compresin bastante popular. Las ltimas actualizaciones han
incrementado mucho los radios de compresin.
En informtica, RAR es un formato de archivo con un algoritmo de compresin sin
prdida utilizado para la compresin de datos y archivacin, desarrollado por Eugene
Roshal.
El formato RAR fue desarrollado por Eugene Roshal y lleva su nombre. RAR significa
Roshal ARchive.
La primera versin comercial de RAR se lanz a finales de 1993. Esta primera versin
demostr ser ms eficaz que la proporcionada por ZIP y contaba con un interfaz de
usuario a pantalla completa, por lo que rpidamente se convirti en el primer
competidor de ZIP.
Actualmente hay implementaciones del programa para los Sistemas Operativos
Microsoft DOS, OS/2, Microsoft Windows, Linux y Mac OS X.
El RAR es ms lento que el ZIP pero comprime ms y tiene un mayor sistema de
redundancia de datos para prevenir errores.
RAR utiliza un algoritmo de compresin basado en el LZSS, que, a su vez, se basaba en
el LZ77, de James Storer y Thomas Szymanski (1982). La ventana de bsqueda puede
variar entre 64k y 1 Mb.
Rar permite lo que se conoce como compresin slida que permite comprimir varios
ficheros juntos, de forma que una misma ventana de bsqueda se aplica a todo, con lo
que el nivel de compresin es mayor.


FRONTENDS: WINRAR WINZIP WINARJ

Este apartado simplemente mostraremos como son estas aplicaciones visualmente de
cara al usuario mediante tres capturas de pantalla.

131


(WINZIP)



(WINRAR)

132

(WINARJ )
Como podemos apreciar, el apartado visual tanto del WINZIP como del WINRAR est
bastante ms cuidado que en el caso de la versin del WINARJ. Este hecho junto con la
gran cantidad de opciones y de manejadores de tipos de ficheros comprimidos nos hace
pensar que la mejor alternativa para el manejo de ficheros comprimidos, en general, es
WINRAR. El inconveniente es que el ZIP es un formato mucho ms extendido pero si
nos fijamos en la utilidad en s, si tuvisemos que decidir entre comprar una licencia
WINZIP o una licencia de WINRAR, sin lugar a dudas elegiramos esta ltima.
2.6.1PRUEBAS SOBRE COMPRESORES COMERCIALES:

En este apartado realizaremos un par de pequeas pruebas sobre los
compresores.

Prueba 1 - Genrica

Como fuente de datos a comprimir utilizaremos nuestra carpeta Mis
Documentos que contiene 110 ficheros diversos (pdf, html, bmp, gif, exe, doc, midi e
iso) distribuidos en 10 directorios ocupando un total de 96.683.715 bytes. Para esta
compresin seleccionaremos la compresin mxima en cada uno de los compresores.
133

Zip Arj Bzip2 Rar
Tamao en bytes 86.892.574 87.133.654 86.755.963 81.140.135
% tamao inicial 89,65% 90,73% 89,03% 84.24%
Tiempo compresin 24 s 22 s 131 s 266 s
Tiempo descompresin 17 s 20 s 44 s 16 s

Como podemos ver el comportamiento del zip, el arj y el bzip2 son muy
similares dando ratios de aproximadamente el 90%. Los tiempos entre estos programas
son casi idnticos entre zip y arj aunque mayores en el caso del bzip2.

Un caso aparte es el formato rar que alcanza un ratio del un 84% lo cual es
claramente mejor que el obtenido por el resto de compresores. En su contra comentar el
largusimo tiempo de compresin 266 frente a unos 23 de media del arj y el zip. En su
favor argumentar que el ratio obtenido ha sido muy bueno as como el tiempo de
descompresin que est a la par del mejor.

Respecto al Bzip2 hemos de comentar que es un compresor similar al zip pero
con algunas mejoras as como que se encuentra libre de toda licencia. Como muestra la
tabla, en este caso, estas mejoras no son, para nada, evidentes. El ratio obtenido es el
mismo que para el zip pero con el inconveniente de unos mayores tiempos de
compresin y descompresin. En su favor diremos que es un algoritmo ms equilibrado
que el rar ya que aunque presenta tiempo de compresin altos, se reserva parte de la
complejidad para el descompresor.

Prueba 2 Ficheros de texto

Como fuente de datos utilizaremos la ltima versin del cdigo fuente del kernel
del sistema operativo Linux (en concreto la versin 2.5.54). El total es de 13.682
archivos de texto (mayoritariamente cdigo en C) distribuidos ocupando un total de
176.517.120 bytes. Veamos que respuestas tenemos por parte de los compresores:

Zip Arj Bzip2 Rar
Tamao en bytes 46.755.387 40.253.597 31.556.230 27.020.388
% tamao inicial 26,48 % 22,95 % 17,87 % 15,30 %
Tiempo compresin 250 s 241 s 238 s 542 s
Tiempo descompresin 178 s 162 s 187 s 195 s
134
Observando la tabla vemos como podemos hacer dos subcategoras. En una de ellas
incluiramos el zip y el arj ya que ambos obtienen resultados similares en el ratio de
compresin (26 22%) y en los tiempos de compresin (250 241 s). En la otra
estaran el bzip2 y el rar. Respecto al ratio de compresin vemos que el rar resulta
ganador, dejando el fichero en tan solo un 15% de su tamao original. Ahora bien, el
tiempo necesario para realizar esto es bastante alto, del orden del doble de lo que
requiri el bzip2.

Conclusiones de las pruebas
En aquellos casos donde lo fundamental sea obtener la mxima compresin posible, los
datos recomiendan utilizar el formato rar. Uno de los motivos por los que alcanza estos
buenos resultados es por el uso de la tcnica de solid archive as como por el uso de
un gigantesco tamao de bloque de 4096 Kb. Bzip2 tambin utiliza un bloque de gran
tamao (700 Kb) lo cual le da una buena tasa de compresin y una velocidad de
compresin aproximadamente el doble de la del rar. El problema es que el bzip2 es
aparentemente ms dependiente de los ficheros de entrada ya que mientras que en la
segunda prueba rinde muy bien, en la primera vence al zip por un msero 0,62%. En este
aspecto el rar es mucho ms estable siendo el mejor desde el punto de vista del ratio en
ambas pruebas.
Si nos centramos en la velocidad de la compresin vemos que hay tres categoras. Una
en la que entra el zip y el arj (la categora ms rpida) otra en la que se encuentra el
bzip2 (intermedia) y otra en la que est el rar (lenta). Respecto a la descompresin
diremos que aparentemente no hay demasiadas diferencias (excepto cuando hay poca
E/S donde el bzip2 se resiente) y que dependen ms del sistema de entrada salida que
del propio algoritmo descompresor. Para ver hasta que punto est justificada la
clasificacin anterior, veremos la relacin entre el ratio de compresin y el tiempo
necesario.

Zip Arj Bzip2 Rar
Ratio compresin/tiempo 1 0,43 0.44 0.08 0.02
Ratio compresin/tiempo 2 0,30 0,32 0.35 0.16

Observando estos resultados podemos sacar algunas conclusiones. Una de ellas es que
los algoritmos zip y arj estn bastante limitados por E/S. Esto lo vemos ya que al
aumentar la complejidad de esta E/S los resultados se resienten. Con el bzip2 y el rar
pasa justo lo contrario. Al aumentar la carga E/S la CPU puede seguir trabajando
mientras le van llegando los datos ms lentamente y el resultado final resulta menos
perjudicado. La conclusin es que para aquellos casos en los que el tiempo de
compresin es relevante y deba ser moderado no se recomienda el uso de bzip2 ni de
rar. nicamente si sabemos de antemano que la carga va a ser muy fragmentada y que
el sistema de ficheros va a tener mucha carga resulta conveniente utilizar bzip2. El uso
de rar por ejemplo para hacer streaming diferido de algn tipo de contenido no sera
135
nada recomendable debido a sus tiempos de compresin son excesivos por lo que lo
recomendamos nicamente para el almacenamiento de ficheros cuando es necesario
optimizar el espacio en disco.
136
EJERCICIOS DE AUTOEVALUACION



1) Indicar cual de los siguientes es un mtodo de compresin sin perdida:

a) MPEG-2 modificado.
b) la codificacin de Huffman
c) wavelets
d) MP4



2) Seale la respuesta correcta en cuanto a la codificacin de la informacion:

a) a mayor frecuencia de muestreo se requiere menor resolucin.
b) un mayor nmero de bits implica que la seal se procese ms rpidamente.
c) una frecuencia de muestreo tpica para radio es de 22.050 Hz.
d) la mxima frecuencia perceptible para el odo humano esta en torno a los 40
kHz.



3) Seale cual no es un atributo de la informacion:

a) finalidad
b) velocidad
c) redundancia
d) aceleracin


4) Respeto a los algoritmos de compresin sin perdida:

a) estn indicados en aquellos casos en los que no sea necesario garantizar que el
flujo de datos original debe poderse recuperar exactamente tras el proceso de
compresin y descompresin
b) se pueden llegar a utilizar para imgenes donde la calidad es crtica
c) MP4 es un formato de compresin sin perdida de gran calidad
d) FLAC es un formato para compresin de video y texto.








137
5) RLE:

a) solo puede ser utilizado para video
b) El ratio de compresin conseguido depende de la complejidad y numero de
colores de la imagen
c) La resolucin ser almacenada al final del fichero
d) el rendimiento que ofrece RLE aumenta con colores claros.



6) Para la representacin de seales, indique la respuesta falsa:

a) una seal discreta en el tiempo y no peridica se representa usando la
transformada de Fourier en tiempo discreto
b) las representaciones de Fourier, estn definidas por las propiedades de
periodicidad de una seal y si el tiempo es de tipo continuo o discreto
c) La Serie de Fourier aplica a seales peridicas de tiempo continuo
d) Si la seal es discreta en el tiempo y no peridica entonces la representacin
usada es la serie discreta de Fourier.



7) Indicar cual de las siguientes afirmaciones es verdadera.

La norma de compresin JPEG 2000,

a) no admite compresin sin prdida.
b) puede trabajar con niveles de compresin mayores a los de JPEG, pero al
igual que este, al aplicar una alta tasa de compresin se generan bloques uniformes y
aspecto borroso.
c) mejora el algoritmo JPEG, basndose en una transformacin discreta del
coseno.
d) consigue ndices de compresin de 2000:1 sin diferencias perceptibles en la
calidad de la imagen.



8) Indicar cual de las siguientes afirmaciones es falsa:

Una de las ventajas que ofrece el SPIHT,

a) es la transmisin ptima: durante la visualizacin progresiva de la imagen, se
ofrece la mejor representacin teniendo en cuenta el nmero de bits disponibles en cada
momento.
b) es la alta calidad de las imgenes comprimidas muy superior a las que utilizan
JPEG con la misma tasa de compresin.
c) es que permite imgenes de alta calidad con complejidad computacional baja.
d) es la inexistencia de errores en cdigo comprimido.


138
9) Escoja la respuesta correcta con respecto a DWT:

a) escoge aquellas escalas y posiciones basadas en potencias de dos.
b) permite altas tasas de compresin de ondas sonoras, pero no de imgenes.
c) aplicada a imgenes, proporciona una matriz de coeficientes conocidos como
ndices de aproximacin.
d) permite el anlisis mediante la superposicin de varias seales.



10) La transformada de coseno discreta,

a) es una transformada basada en la Transformada de Fourier discreta, y utiliza
nicamente nmeros complejos.
b) no permite la codificacin entrpica.
c) utiliza bloques de 8x8 para la codificacin de JPEG.
d) trabaja principalmente con potencias de 3.



11) Indicar cual de las siguientes afirmaciones es falsa.

a) La principal diferencia entre DjVu y PDF es que el primero es un formato de
grficos rasterizados, en tanto que el segundo es un formato de grficos vectoriales.
b) El SPIHT ofrece una nueva y mejor implementacin del EZW basada en la
utilizacin de conjuntos de datos organizados en rboles jerrquicos.
c) El proceso de transformacin y cuantizacin de JPEG 2000 se puede repetir
un mximo de 64 veces, a partir de entonces los bits de informacin representativos son
cero.
d) La transformada wavelet discreta se utiliza para la codificacin de seales,
mientras la continua se utiliza en el anlisis de seales






139

BIBLIOGRAFA


Hankerson, D., Harris, G. A. & Johnson, P. D. - "Introduction to information theory and
data compression" - Ed. Boca Raton, CRC Press - cop. 1998

Nelson, M. & Gailly, J. L. - "The data compression book" - M&T Books - cop. 1996

Salomon, D. - Data Compression, 2
nd
Edition - Ed. Springer - cop. 2000

Oppenheim Alan V., Willsky Alan S. Signals & systems Ed. PRENTICE-HALL



John G. Proakis y Dimitri G. Manolskis: Tratamiento Digital de Seales. Principios,
algoritmos y aplicaciones. 3.
a
edic. Ed. Prentice-Hall.