You are on page 1of 18

Elements of Information Theory

Resumen capı́tulos I y II

Cristián Infante

22 de agosto de 2009
Índice general

1. Introducción 2
1.1. Vista previa del libro . . . . . . . . . . . . . . . . . . . . . . 4

2. Entropı́a, Entropı́a Relativa e Información Mutua 7


2.1. Entropı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Entropı́a conjunta y entropı́a condicional . . . . . . . . 10
2.3. Entropı́a relativa e Información mutua . . . . . . . . . . 11
2.4. Relación entre entropı́a e información mutua . . . . . . 12
2.5. Regla de la cadena para Entropı́a, Entropı́a Relativa
e Información Mutua . . . . . . . . . . . . . . . . . . . . . . 14
2.6. Desigualdad de Jensen y sus consecuencias . . . . . . . . 16
2.7. Algunos teorems y definiciones importantes . . . . . . . 17
Capı́tulo 1

Introducción

La Teorı́a de la Información entrega los principios de la teorı́a de


comunicaciones, resolviendo sus dos principales preguntas.

1. ¿Cuál es la máxima compresión posible en un mensaje?, o dicho de otra


forma, ¿Cuál es el mı́nimo de información necesario para poder describir
completamente una v.a.?

Respuesta: La entropı́a H.
2. ¿Cuál es la mayor cantidad de información que puede ser transmitida
simultáneamente?

Respuesta: La capacidad de canal C.


A pesar de que muchos consideren a la teorı́a de la información como un
área de la teorı́a de las comunicaciones, esto no es del todo cierto, ya que tam-
bién otras áreas de la ciencia, tales como la termodinámica, ciencias de la
computación y la teorı́a de probabilidades.
3

En la figura 1, se muestra la teorı́a de la información y su relación con otras


áreas.

Figura 1. Teorı́a de la Información y relaciones


En el presente resumen, no se describirá más sobre las áreas de acción.
1.1 Vista previa del libro 4

1.1. Vista previa del libro


Para responder las dos preguntas fundamentales de la teorı́a de comunica-
ciones, son necesarios los conceptos de entropı́a e información mutua, fun-
ciones dependientes de las distribuciones de probabilidad intrı́nsecos al proceso
de comunicación. Esto será definido en detalle en el Capı́tulo 2.
La entropı́a de una variable x con función de densidad de probabilidad p(x)
está definida por: X
H(x) = − p(x) log2 p(x) (1.1)
x

Aquı́ se puede ver que se usa la base 2 para el logaritmo, por lo cual la entropı́a se
medirá en bits. Otras unidades pueden ser utilizadas, tales como los ”nats”(base
e) o en ”hartleys”(base 10). De ahora en más, sólo se verá el caso de bits, por
ser el más común.
Ejemplo 1.1 Variable aleatoria uniforme
Tómese una v.a. con distribución uniforme de 32 salidas diferentes. Para poder
describir cualquier salida a través de números binarios se necesitan 25 = 32 bits.
Ahora se calcula la entropı́a de la v.a.:
32
X 1 1
H(x) = − log2 = 5 bits
i=1
32 32

Ahora se vé un ejemplo con una distribución no uniforme.


Ejemplo 1.2 Variable aleatoria no uniforme
Sunponga que se tiene una carrera de 8 caballos, y la probabilidad de ganar de
cada caballo es 12 ; 14 ; 18 ; 16
1 1 1 1 1

; 64 ; 64 ; 64 ; 64 . Ahora se calcula la entropı́a como:
1 1 1 1 1 1 1 1 1 1
H(x) = − log2 − log2 − log2 − log2 − log2
2 2 4 4 8 8 16 16 64 64
1 1 1 1 1 1
− log2 − log2 − log2
64 64 64 64 64 64

= 2 bits

A partir de los ejemplos 1.1 y 1.2 se puede observar la diferencia en la entropı́a


dependiente de la función de densidad de probabilidad de la v.a.. En el ejemplo
1.2 la entropı́a pasa a ser de 2 bits, en lugar de 3 en el caso que hubiese sido
uniforme (23 = 8).
En el capı́tulo 5 se muestra que la entropı́a de una variable aleatoria es una
cota inferior para el promedio de bits necesarios para representar la v.a. y
también el número de preguntas requerido para identificar la variable en el
juego ”Q-20”, que para sorpresa de muchos, se deduce de esta teorı́a.

El concepto de entropı́a en teorı́a de la información está relacionado al


concepto de entropı́a en termodinámica. Si se toma una secuencia de n vari-
ables aleatorias independientes e idénticamente distribuidas (i.i.d.), entonces
la probabilidad de obtener una secuencia tı́pica es alrededor de 2−nH(x) y hay
aproximadamente 2nH(x) secuencias de ese tipo. Esta propiedad es conocida
1.1 Vista previa del libro 5

como propiedad de equipartición asintótica (AEP) de su sigla en inglés.


Otro concepto asociado es el de complejidad de Kolmogorov, que se define como
el largo del programa de computador más corto para procesar una cadena de
bits (string), que al ser aleatoria, se aproxima a la entropı́a.

La entropı́a es conocida también como la incertidumbre de una v.a.. Se


puede definir la entropı́a condicional H(x|y), lo cual representa la entropı́a de
la variable aleatoria x, una vez conocidos los resultados de la v.a. y. Como
se puede ver, si x e y tienen correlación, entonces se reduce la entropı́a. Esta
reducción se le llama información mutua, y está dada por la siguiente ecuación:
 
X p(x, y)
I(x, y) = H(x) − H(x|y) = p(x, y) log2 (1.2)
x,y
p(x)p(y)

A partir de esto, es claro ver que si las variables son independientes, entonces
la información mutua es 0. Esto puede ser visto de 2 maneras.

1. Por entropı́a:

I(x, y) = H(x) − H(x|y)

pero H(x|y) = H(x) ya que el resultado de y no afecta a x, por lo tanto:

I(x, y) = H(x) − H(x) = 0

.
2. Por probabilidades:
 
X p(x, y)
I(x, y) = p(x, y) log2
x,y
p(x)p(y)

pero como x e y son independientes, p(x, y) = p(x)p(y), lo que implica


que, recordando que log(1) = 0, sin importar la base:
  X
X p(x)p(y)

I(x, y) = p(x, y) log2  = p(x, y) log2 (1) = 0
x,y
p(x)p(y)
  x,y
.

Un canal de comunicación es un canal en el cual la salida y depende con una


cierta probabilidad de la entrada x, las cuales se relacionan mediante la matriz
de transición p(y|x). Este concepto atrae a la definición de capacidad de canal
C, la cual se define como:

C = máxp(x) {I(x, y)} (1.3)

Más adelante se demuestra que ésta cantidad representa la máxima tasa de


información que puede moverse en el canal con una probabilidad de error des-
preciable.
1.1 Vista previa del libro 6

Ejemplo 1.3 Canal simétrico binario


Éste es el más básico de los canales de comunicación con ruido, en el cual se
define P (y = 0|x = 1) = P (y = 1|x = 0) = p, conocida como probabilidad de
error y P (y = 0|x = 0) = P (y = 1|x = 1) = 1 − p. Aquı́ se calcula la capacidad
del canal como:
C = máxp(y) {I(y, x)}
= H(y) − H(y|x)
= 20 + p log2 (p) + (1 − p) log2 (1 − p)
= 1 + p log2 (p) + (1 − p) log2 (1 − p)

La información mutua puede ser vista a través de forma más general a través del
concenpto de la entropı́a relativa D(p||q), que sirve como medida de similitud
(o diferencia) entre dos funciones de densidad de probabilidad. Está definida
como:
X p(x)
D(p||q) = p(x) log2 (1.4)
x
q(x)
Un área relacionada a la teorı́a de la información es la teorı́a del mercado de
acciones. Este mercado puede ser definido a través de un vector aleatorio x que
determina la razón entre el precio de una acción a la apertura en un dı́a y el
precio de la misma al cierre del mismo dı́a. Para una bolsa con una distribución
F (x), se puede definir la tasa de duplicado W como:
Z
W = máxb:bi ≥0 ,P bi =1 log2 bt · x dF (x)

(1.5)

Ésta definición tiene una serie de similitudes con la entropı́a, las cuales son
revisadas en el capı́tulo 16 del libro, no presente en el resumen.

Las cantidades H, I, C, D, K, W se relacionan estrechamente con las sigu-


ientes áreas:
1. Compresión de Datos
2. Transmición de Datos
3. Teorı́a de Redes
4. Ergodicidad
5. Test de Hipótesis
6. Fı́sica Estadı́stica
7. Fı́sica Cuántica
8. Inferencia Estadı́stica
9. Juegos de Azar e Inversiones
10. Teorı́a de Probabilidades
11. Teorı́a de la Complejidad
Estos temas no serán tratados en el resumen.
Capı́tulo 2

Entropı́a, Entropı́a
Relativa e Información
Mutua

En este capı́tulo se entregan las ideas básicas de la teorı́a de la información.


Aquı́ se abarcan los contenidos básicos e indispensables para poder compren-
der los capı́utlos subsiguientes. Luego de las definiciones formales de entropı́a e
información mutua, se verá la regla de la cadena, la inecuación de proceso de
datos, conceptos analizados a través de la estadı́stica y la inecuación de Fano.
Para poder comprender el concepto de información, es necesario tomar algunas
decisiones sobre el análisis, dado que es un tema muy amplio para ser abordado
en desorden. Para ello se introducirá el concepto de entropı́a, que arrastra con-
sigo la definición de información mutua.
Tomando en cuenta éstas medidas, asúmase éste análisis desde el punto de vista
cuantitativo de la información, para luego abordar el error y la posibilidad de
asumirlo, entrando entonces a la parte cualitativa de la información. Es decir,
la primera pregunta es ¿Cuanta información enviar?,y luego, ¿Que tan bien se
espera enviarla (recibirlo)?.
2.1 Entropı́a 8

2.1. Entropı́a
Este concepto mide la incertidumbre de una variable aleatoria. En otras
palabras, es una métrica que establece cuanto se conoce (o desconoce) sobre
una v.a.. Sea x una variable aleatoria discreta proveniente de una alfabeto finito
Ω, con una función de densidad de probabilidad p(x) = P (X = x), x ∈ Ω.
Ejemplo 2.1 Lanzamiento de un dado
Al lanzar un dado de 6 caras, regular, se pueden obtener 6 distintos sı́mbolos
o resultados, es decir, Ω = {1, 2, 3, 4, 5, 6}. La v.a. asociada x es el número
obtenido en un lanzamiento. Otro caso puede ser saber si el resultado es par o
impar, en este caso Ω1 = {P ar, Impar}. Como último caso (existen incontables
más), se puede querer saber los números obtenidos en n lanzamientos, es decir
Ω2 = Ω × Ω × · · · × Ω = Ωn

En el presente resumen, p(x) representa pX (x), por un tema de conveniencia,


por lo que hay que diferenciar que p(x) y p(y) pueden ser 2 variables aleatorias
con densidades completamente diferentes.
Definición 2.1 Entropı́a
La entropı́a H de una variable aleatoria discreta x es definida por:
X
H(x) = − p(x) log2 (p(x)) (2.1)
x∈Ω

Como convención se definirá que 0log2 (0) = 0, ya que el lı́mite por la izquierda
tiende a ese valor.
Se define E como la esperanza, es decir, el valor esperado de la variable. Si
x ∼ p(x), el valor esperado de g(x) está dado por:
X
E(g(x)) = g(x)p(x)
x∈Ω

Es de especial interés en este resumen tomar el caso en que g(x) = −log2 (p(x)).
Hay 2 observaciones importantes por hacer:
1. H(x) ≥ 0
Si 0 ≤ p(x) ≤ 1, entonces −log2 (p(x)) ≥ 0.
2. logb (p) = logb (a)loga (p)
Esta es la propiedad de cambio de base.

Ejemplo 2.2 Sea:



 1 con probabilidad p
x=
0 con probabilidad 1−p

Entonces:
H(x) = −plog2 (p) − (1 − p)log2 (1 − p) = H(p)
Notar que si p = 21 , entonces H(x) = 1.
2.1 Entropı́a 9

A continuación el gráfico p v/s H(p)

Figura 2. p v/s H(p)

Ejemplo 2.3 Sea:


1


 a con probabilidad 2



 1
 b con probabilidad


4
x=
1
c con probabilidad




 8


 1
d con probabilidad

8

Entonces:
       
1 1 1 1 1 1 1 1 7
H(x) = − log2 − log2 − log2 − log2 =
2 2 4 4 8 8 8 8 4

Es posible imaginar, a partir del ejemplo anterior, que se puede obtener la


información de la v.a. a través de preguntas binarias (sı́ o no). Acá la lógica
es preguntar primero por los valores más probables, para luego terminar en los
valores menos probables. El capı́tulo 5 demuestra que el número de preguntas
varı́a entre H(x) y H(x) + 1, lo cual no será tratado en este resumen.
2.2 Entropı́a conjunta y entropı́a condicional 10

2.2. Entropı́a conjunta y entropı́a condi-


cional
En la sección anterior, se define la entropı́a para una v.a., lo cual es ampli-
able pará más variables aleatorias, en particular, 2 variables aleatorias. Esto no
deberı́a traer confusión al lector ya que (x, y) puede ser visualizado como una
v.a..
Definición 2.2 Entropı́a conjunta
La entropı́a conjunta H(x, y) de un par de variables aleatorias discretas (x, y)
es definida por:
XX
H(x, y) = − p(x, y) log2 (p(x, y)) (2.2)
x∈Ω y∈Γ

Definición 2.3 Entropı́a condicional


Sı́ (x, y) ∼ p(x, y), la entropı́a condicional H(x|y) es definida por:
X
H(x|y) = − p(x, y) H(y|x = X)
x∈Ω
X X
= − p(x) p(y|x) log2 (p(y|x))
x∈Ω y∈Γ
XX
= − p(x, y) log2 (p(y|x))
x∈Ω y∈Γ

Esto da la idea entonces que la entropı́a conjunta es entregada a través de la


etripı́a de una de las variables aleatorias y la entropı́a condicional de las v.a., lo
cual se demuestra bajo el teorema de la regla de la cadena.
Teorema 2.1 Regla de la cadena

H(x, y) = H(x) + H(y|x) (2.3)


Demostración:
XX
H(x, y) = − p(x, y) log2 (p(x, y))
x∈Ω y∈Γ
XX
= − p(x, y) log2 (p(x)p(y|x))
x∈Ω y∈Γ
XX XX
= − p(x, y) log2 (p(x)) − p(x, y) log2 (p(y|x))
x∈Ω y∈Γ x∈Ω y∈Γ
X XX
= − p(x) log2 (p(x)) − p(x, y) log2 (p(y|x))
x∈Ω x∈Ω y∈Γ
= H(x) + H(y|x)

Nótese que H(x|y) 6= H(y|x), pero H(x) − H(x|y) = H(y) − H(y|x), esta
propiedad será expuesta más adelante.
2.3 Entropı́a relativa e Información mutua 11

2.3. Entropı́a relativa e Información mutua


Como se vió antes, la entropı́a relativa habla sobre la distancia (diferencia)
entre dos densidades de probabilidad distintas, ello da el grado de conocimiento
que se tiene sobre una de las distribuciones, a partir de la otra.
Definición 2.4 Entropı́a relativa
La entropı́a relativa entre dos densidades p(x) y q(x) es definida por:
X p(x)
D(p||q) = p(x) log2 ( ) (2.4)
q(x)
x∈Ω

Cabe notar 2 casos particulares:

1. Sucesos imposibles en q(x)


Si q(x) = 0 para algún valor de x ∈ Ω, para el cual p(x) > 0, entonces
D(p||q) = ∞.
2. Distribuciones iguales
Si p(x) = q(x), ∀x ∈ Ω, entonces la entropı́a relativa D(p||q) = 0, ∀x ∈ Ω.

Nótese que en general:


D(p||q) 6= D(q||p)
Dado que p(x) puede contener a q(x) (o por lo menos una parte), sin que
esto tenga que ocurrir de forma inversa.
Una métrica para saber cuanta información comparten dos variables x e y, dada
su densidad conjunta p(x, y), y sus densidades marginales p(x) y p(y) es conocida
como la información mutua.
Definición 2.5 Información mutua
La información mutua entre dos variables aleatorias x e y es definida por:
 
XX p(x, y)
I(x, y) = p(x, y) log2 (2.5)
p(x)p(y)
x∈Ω y∈Γ
2.4 Relación entre entropı́a e información mutua 12

2.4. Relación entre entropı́a e información


mutua
Utilizando la definición de información mutua:
 
XX p(x, y)
I(x, y) = − p(x, y) log2
p(x)p(y)
x∈Ω y∈Γ

Se pueden aplicar algunos cambios:


 
XX p(x, y)
I(x, y) = p(x, y) log2
p(x)p(y)
x∈Ω y∈Γ
 
X p(x|y)
= p(x, y) log2
x,y
p(x)
X X
= − p(x, y) log2 (p(x)) + p(x, y) log2 (p(x|y))
x,y x,y
!
X X
= − p(x) log2 (p(x)) − − p(x, y) log2 (p(x|y))
x x,y
= H(x) − H(x|y)

Es decir, la información mutua registra la reducción de incertidumbre en x cuan-


do se conoce el resultado de y. Por simetrı́a se deduce que:

I(x, y) = H(y) − H(y|x) (2.6)

Esto es intuitivo ya que se sabe tanto de y a partir de x, como de x a partir de


y. Como H(x, y) = H(x) + H(y|x),

I(x, y) = H(x) + H(y) − H(x, y) (2.7)

Como observación se deja que I(x, x) = H(x) − H(x|x), y como H(x|x) = 0,


se desprende que I(x, x) = H(x). Es decir, la entropı́a de una v.a. se conoce
también como información propia.
2.4 Relación entre entropı́a e información mutua 13

A continuación, se ve un gráfico que relaciona la entropı́a y la información


mutua de 2 variables aleatorias x e y.

Figura 3. Relación entre entropı́a e información mutua


2.5 Regla de la cadena para Entropı́a, Entropı́a Relativa e
Información Mutua 14

2.5. Regla de la cadena para Entropı́a, En-


tropı́a Relativa e Información Mutua
En esta sección, se ve la regla de la cadena para n v.a..

Teorema 2.2 Regla de la cadena para la entropı́a


Sea x1 , x2 , . . . , xn , con una distribución p(x1 , x2 , . . . , xn ):
n
X
H(x1 , x2 , . . . , xn ) = H(xi |xi−1 , . . . , x1 ) (2.8)
i=1

Demostración:
X
H(x1 , x2 , . . . , xn ) = − p(x1 , x2 , . . . , xn ) log2 p(x1 , x2 , . . . , xn )
x1 , x2 , . . . , xn
X n
Y
= − p(x1 , x2 , . . . , xn ) log2 p(xi |xi−1 , . . . , x1 )
x1 , x2 , . . . , xn i=1
X n
X
= − p(x1 , x2 , . . . , xn ) log2 p(xi |xi−1 , . . . , x1 )
x1 , x2 , . . . , xn i=1
n
X X
= − p(x1 , x2 , . . . , xn ) log2 p(xi |xi−1 , . . . , x1 )
i=1 x1 , x2 , . . . , xn
Xn
= H(xi |xi−1 , . . . , x1 )
i=1

Teorema 2.3 Regla de la cadena para la información mutua


n
X
I(x1 , x2 , . . . , xn , y) = I(xi ; y|xi−1 , . . . , x1 ) (2.9)
i=1

Demostración:

I(x1 , x2 , . . . , xn , y) = H(x1 , x2 , . . . , xn ) − H(x1 , x2 , . . . , xn |y)


Xn Xn
= H(xi |xi−1 , . . . , x1 ) − H(xi |xi−1 , . . . , x1 , y)
i=1 i=1
n
X
= I(xi ; y|x1 , . . . , xi−1 )
i=1

Para introducir la regla de la cadena en la entropı́a relativa, se debe primero


definir la entropı́a relativa condicional.
Definición 2.6 Entropı́a relativa condicional
X X p(y|x)
D(p(y|x)||q(y|x)) = p(x) p(y|x)log (2.10)
x y
q(y|x)
2.5 Regla de la cadena para Entropı́a, Entropı́a Relativa e
Información Mutua 15

Teorema 2.4 Regla de la cadena para la entropı́a relativa

D(p(x, y)||q(x, y)) = D(p(x)||q(x)) + D(p(y|x)||q(y|x)) (2.11)


Demostración:
XX p(x, y)
D(p(x, y)||q(x, y)) = p(x, y) log2
x y
q(x, y)
XX p(x)p(y|x)
= p(x, y) log2
x y
q(x)q(y|x)
XX p(x) X X p(y|x)
= p(x, y) log2 + p(x, y) log2
x y
q(x) x y
q(y|x)
= D(p(x)||q(x)) + D(p(y|x)||q(y|x))
2.6 Desigualdad de Jensen y sus consecuencias 16

2.6. Desigualdad de Jensen y sus consecuen-


cias
En esta sección se tratan algunas propiedades de las cantidades definidas
anteriormente.

Definición 2.7 Convexidad


Una función f (x) se dice convexa en el intervalo (a, b) si para cualquier x1 , x2 ∈
(a, b) y 0 ≤ λ ≤ 1:

f (λx1 + (1 − λ)x2 ) ≤ λf (x1 ) + (1 − λ)f (x2 ) (2.12)

La función será estrictamente convexa si λ = 0 o λ = 1.

Teorema 2.5 Convexidad


Si una función f tiene segunda derivada positiva sobre un intervalo, entonces
la función es estrictamente convexa en el intervalo. Su demostración se hace
mediante series de Taylor de segundo orden.

Teorema 2.6 Desigualdad de Jensen


Si una función f es convexa y x es una v.a..

E{f (x)} ≥ f (E{x}) (2.13)

Teorema 2.7 Inecuación de la información


Sea p(x), q(x), x ∈ Ω, dos funciones de densidad de probabilidad, entonces:

D(p||q) ≥ 0 (2.14)

Demostración: Sea A = {x : p(x) > 0} la base de p(x), entonces:


X p(x)
−D(p||q) = − p(x) log2
q(x)
x∈A
X q(x)
= − p(x) log2
p(x)
x∈A
X q(x)
≤ log2 p(x)
p(x)
x∈A
X
= log2 q(x)
x∈A
X
≤ log2 q(x)
x∈Ω
= log2 (1)
= 0
2.7 Algunos teorems y definiciones importantes 17

2.7. Algunos teorems y definiciones impor-


tantes
Teorema 2.8 Convexidad
Dadas las secuencias de números no negativos a1 , a2 , ..., an y b1 , b2 , ..., bn .
n n
! Pn
X ai X ai
ai log2 ≥ ai log2 Pi=1 n (2.15)
i=1
b i i=1 i=1 bi

Esto aplica para demostrar la convexidad de la entropı́a relativa, es decir, si


se tienen dos densidades, p y q, la entropı́a relativa D(p||q), crece a medida
que p y q son menos similares, y a una tasa creciente. Por otra parte, también
demuestra la concavidad de la entropı́a, lo que demuestra que hay un máximo
de entropı́a, que se produce cuando la v.a. distribuye de manera uniforme.

Teorema 2.9 Inecuación de proceso de datos


Las v.a. x, y y z se dice que forman una cadena de Markov con un orden
(x → y → z) si la distribución condicional de z es dependiente sólo de y y es
condicionalmente independiente de x.

p(x, y, z) = p(x)p(y|x)p(z|y)

Ahora, si x → y → z entonces:

I(x, y) ≥ I(x, z) (2.16)

Que resulta un poco obvio, ya que y contiene más información que z sobre x, por
lo tanto, no hay forma de cambiar y de tal manera que entregue más información
sobre x que si misma.