You are on page 1of 31

Conceptos

bsicos de teora de la informacin


Luca Mar8no Apuntes no revisados Cuidado!

Informacin
La informacin asociada a un evento con probabilidad p(x) se dene

I(x) = log[ p(x)]

Unidad de medida: bit

Un evento POCO frecuente 8ene MUCHA informacin. Un evento MUY frecuente 8ene POCA informacin.

Entropa (discreta)
Es el valor medio de la informacin
N

H X = p(x = i) log[ p(x = i)]


i=1

ES UN NUMERO (un escalar). Se puede considerar una MEDIDA DE DISPERSIN de la densidad p(x). A veces se le indica como H(X) donde con X se indica la variable aleatoria con densidad p(x). Representa la incer8dumbre sobre el valor que puede tomar la variable aleatoria X.

Entropa (discreta)
La entropa se puede considerar una medida de dispersin porque por ejemplo es mxima cuando la p(x) es uniforme y minima cuando p(x) es una delta.
1
1 N 1 N 1 N . 1 H X = log 2 N N

HX = 0

Entropa DISCRETA mxima

Entropa DISCRETA minima (nula). Se asume que la forma indeterminada 0log 2 0 = 0 sea nula (por razones de con8nuidad).

La entropa diferencial (caso con8nuo) es mxima en el caso de la densidad Gaussiana.

Relacin con la varianza


Otra medida de dispersin es, por ejemplo, la varianza. Pero la varianza depende del soporte de la densidad, del orden de las deltas (de donde estn posicionada las deltas)

En estas 2 densidades: la entropa es igual, pero la varianza no!

La entropa discreta es simtrica respecto a permutaciones de las probabilidades, es invariante bajo traslaciones y escalados.

H aX +b = H X

Entropas conjunta, condicional e informacin mutua


Otras entropas y la informacin mutua
L N

H XY = p(x = i, y = j) log[ p(x = i, y = j)]


j =1 i=1

Recordemos que:

H X |Y = p(x = i, y = j) log[ p(x = i | y = j)]


j =1 i=1 L N

H X |Y = p(x = i, y = j) log[ p(y = j | x = i)]


j =1 i=1

p(x, y) = p(y | x) p(x) p(x, y) = p(x | y) p(y)

IXY

p(x = i) p(y = j) = p(x = i, y = j) log = i, y = j) p(x j =1 i=1

Relaciones entre entropas y informacin mutua


H XY H X |Y HX

IXY

HY |X HY

Rosa: Hx Amarillo: Hy Rosa+Amarillo=Hxy (conjunta)

H XY

En un canal (con X

entrada e Y salida) esta entropa representa la perdida de informacin.

H X HY
H X |Y IXY HY |X

Relaciones entre entropas y informacin mutua


H XY
HX

HY

H X |Y

IXY

HY |X

Este diagrama es 8l para escribir desigualdades o relaciones entre estas can8dades: H = H X |Y + IXY IXY = H X H X |Y H X XY H X + HY HY = HY |X + IXY IXY = HY HY |X H XY = H X + HY IXY

H XY = H X |Y + HY |X + IXY H XY = H X + HY |X H XY = HY + H X |Y

H X H XY H X + HY HY H XY H X + HY

IXY = H X + HY H XY IXY = IYX

Variables independientes
H XY
H X |Y

HY |X
HY

IXY = 0 H X = H X |Y HY = HY |X H XY = H X + HY

HX

H XY
HX

HY

H X |Y

HY |X

Variables coincidentes X=Y (totalmente dependientes)


H XY = H X = HY = IXY

IXY = H X = HY

IXY = H X = HY = H XY H X |Y = 0 HY |X = 0

H XY
HX

HY IXY

Relaciones importantes
Hay que recordar bien que
p(x) delta

0 H X log 2 M 0 HY log 2 L (HY =)H X H XY H X + HY 0 IXY H X (= HY ) 0 H X |Y H X 0 HY |X HY

p(x) uniforme

Variables
X=Y X=Y

X=Y

Variables independientes X=Y Variables independientes Variables independientes

independientes

Canal discreto sin memoria (DMC)


En una formula se puede escribir
Flujo de bits

Y (t) = X(t) + E(t)

Y =X+E

t= 8empo Y(t)=variable aleatoria (recepcin) al 8empo t X(t)=variable aleatoria (transmisin) al 8empo t E(t)= ruido, variable aleatoria al 8empo t

En estos casos o se da la formula arriba, o la VEROSIMILITUD (en el caso discreto, es una matriz.MATRIZ DE CANAL)

p(y t | x t )

p(y | x)

Canal discreto sin memoria (DMC)


En caso discreto tenemos una matriz M L de canal
p(y = 1 | x = 1) ... .... p(y = L | x = 1) ... .... ... ... p(y | x) = ... ... ... ... p(y = 1 | x = M) ....... p(y = L | x = M)

Las las 8enen que sumar 1.

Que se suele representar grcamente 1 1

X
M

Y
L

Todas las aristas representan una probabilidad no nula. Las aristas que salen de un nodo de entrada 8ene que sumar 1.

Canal discreto sin memoria (DMC)


En los problemas nos suelen dar la matriz de canal y la probabilidad sobre las entradas 1 1

p(x) X
M

Y L

Teniendo estas dos densidades, realmente tenemos la densidad conjunta, es decir, toda la informacin.

p(y x) |

y) = p(y | x) p(x) p(x,

Canal discreto sin memoria (DMC)


Podemos calcular todo 1

1
M M

p(x) X

M

p(y) = p(x = i, y) = p(y | x = i) p(x = i)


i=1 i=1

p(y x) |

L
p(y | x) p(x)
M

p(x, y) = p(y | x) p(x)

p(x, y) p(y | x) p(x) p(x | y) = = = p(y) p(y)

p(y | x = i) p(x = i)
i=1

Tenemos los 5 elementos

p(y, x)

p(y | x) p(x | y) p(x)

p(y)

Canal discreto sin memoria (DMC)


Nota que esta formula,
M M

p(y = j) = p(x = i, y = j) = p(y = j | x = i) p(x = i)


i=1 i=1

es fcil de resumir, recordar y entender grcamente


X =i X =s p(y = j | x = i)

p(y = j | x = s) p(y = j | x = k)

Y=j

Si no hay otras ramas, las dems probabilidades son nulas p(y = j | x) = 0

X = k

Hay que considerar todas las ramas que entran en el nodo j.

Lo que nos gustara: Canal ideal.


a nosotros nos gustara claramente que X=Y (caso ideal). Es decir obtener la mxima informacin mutua ( I H X = Y ). XY = H en otra forma queremos que la perdida de informacin en el canal sea nula ( X |Y = 0: si conozco Y, conozco perfectamente H X, no tengo incer8dumbre, no tengo sorpresas!)

Y
CANAL IDEAL

Lo peor: X e Y independientes.
Si X e Y son independientes cualquier informacin sobre Y no me aporta nada sobre X. En este caso I XY 0 (minima informacin mutua). = La perdida de informacin es mxima ( H X |Y = X : si conozco Y, H la incer8dumbre sobre X no disminuye).

p(x, y) = p(x) p(y)

p(x, y) p(y) p(x) p(y | x) = = = p(y) p(x) p(x)

Lo peor: X e Y independientes.
Cuando un canal genera esta independencia entre X e Y? Cuando 1 p(y | x) = constante = num. ramas que salen de una entrada

PEOR CANAL POSIBLE

p(x)

p(y)

Todas las entradas 8enen el mismo numero de ramas.

Otros casos interesantes


Hemos dicho que cuando Y=X tenemos

IXY = H X = HY

H X |Y = 0

HY |X = 0

Puede haber casos donde una entropa condicional sea nula pero la otra no, y Y X . Por ejemplo

1 X 2 3
4

1
Y

HY |X = 0 H X |Y 0

qu incer8dumbre tengo sobre Y si conozco X? Ninguna.

Otros casos interesantes


El caso simtrico seria

1 2 Y 3
4

Perdida info en el canal

H X |Y = 0 HY |X 0

X
2

qu incer8dumbre tengo sobre X si conozco Y? Ninguna.

X ero Nota que Y , p tambin este canal se podra considerar ideal (la perdida de informacin en el canal es nula).

Lo que queremos: maximizar IXY


Pues queremos maximizar la informacin mutua. Dado que el canal es dado (no se puede cambiar!), lo nico que podemos variar son las probabilidades de las entradas. I . Es decir buscaremos la p(x) que maximiza la XY

p(x)

p(y | x)
Matriz de canal: est dada.

Capacidad de canal
Realmente aunque encontramos la p(x) que maximiza I YX no signica que con esta conguracin logremos I XY = H X (que es el mximo de la informacin mutua). Hallaremos un valor

C = max IXY
p(x )

Que es caracters8co del canal.

Capacidad de canal
Para hallar la capacidad de canal se puede trabajar con dos expresiones de informacin mutua

IXY = H X H X |Y
p(x)
p(x | y) = p(x, y) p(y | x) p(x) = = p(y) p(y) p(y | x) p(x)
M

p(x, y) = p(y | x) p(x)

p(y | x = i) p(x = i)
i=1

IXY = HY HY |X
M i=1

Es ms fcil u8lizar esta

p(y) = p(x = i, y) = p(y | x = i) p(x = i)


i=1

p(y | x)

Capacidad de canal
Esta es ms fcil de u8lizar en la prac8ca

IXY = HY HY |X
Pero esta es ms interesante en la teora

IXY = H X H X |Y
Perdida de Informacin en el canal Informacin a la entrada

Informacin que atraviesa en canal

Capacidad de canal
Otra observacin muy importante es que

2 c = numero de entradas que puedo utilizar sin cometer errores


La can8dad 2 capacidad puede interpretar como el numero de entradas (simbolos) que se pueden u8lizar al mismo 8empo sin cometer ningn error en comunicacin.

Capacidad de canal
Ejemplo:
Seguramente (cualquiera sea la matriz de canal) puedo u8lizar 2 entradas sin equivocarme.

1 2 3
4

1 2 3
4

2 3
4

As que seguramente puedo escribir:


c 2 2 C 1

C=1 es en el caso peor.

Capacidad de canal
1 Ms en general con M par: 1 1 2 3 2 3 3 M 1 M M Seguramente puedo u8lizar M/2 entradas sin equivocarme. As que seguramente puedo escribir: M M c 2 C log 2 = log 2 M 1 2 2 1 2 3 4 M 1 M

Capacidad de canal
Hemos encontrado una cota inferior para la capacidad de este canal 1 1 M 2 C log 2 2 2 3 3 M M Pero tambin por el mismo razonamiento como mucho, en el caso ideal, podemos u8lizar todas las entradas es decir M 2C M log 2 C log 2 M 2 C log 2 M C log 2 L
Cuidado: esta formula es siempre verdadera! No solo en este canal. Tambin vale siempre esta desigualdad

Capacidad de canal
Adems si la probabilidad de transiciones son equiprobables (1/2 )

1 2

Se puede demostrar log M C= 2 2

1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2

2 3 M

Canales en paralelo
Si tenemos 2 canales en paralelo, podemos encontrar la capacidad equivalente (total)
C1 C2

2 c tot = 2 c1 + 2 c 2 c tot = log 2 (2 + 2


c1 c2

You might also like