Te or I A Informacion

Conceptos
bsicos de teora de la informacin

Luca Mar8no Apuntes no revisados Cuidado!
Informacin
La informacin asociada a un evento con probabilidad p(x) se dene
I(x) = log[ p(x)]
Unidad de medida: bit
Un evento POCO frecuente 8ene MUCHA informacin. Un evento MUY frecuente 8ene POCA informacin.
Entropa (discreta)
Es el valor medio de la informacin
N
H X = p(x = i) log[ p(x = i)]

i=1
ES UN NUMERO (un escalar). Se puede considerar una MEDIDA DE DISPERSIN de la densidad p(x). A veces se le indica como H(X) donde con X se indica la variable aleatoria con densidad p(x). Representa la incer8dumbre sobre el valor que puede tomar la variable aleatoria X.
Entropa (discreta)
La entropa se puede considerar una medida de dispersin porque por ejemplo es mxima cuando la p(x) es uniforme y minima cuando p(x) es una delta.
1
1 N 1 N 1 N . 1 H X = log 2 N N
HX = 0
Entropa DISCRETA mxima
Entropa DISCRETA minima (nula). Se asume que la forma indeterminada 0log 2 0 = 0 sea nula (por razones de con8nuidad).
La entropa diferencial (caso con8nuo) es mxima en el caso de la densidad Gaussiana.
Relacin con la varianza

Otra medida de dispersin es, por ejemplo, la varianza. Pero la varianza depende del soporte de la densidad, del orden de las deltas (de donde estn posicionada las deltas)
En estas 2 densidades: la entropa es igual, pero la varianza no!
La entropa discreta es simtrica respecto a permutaciones de las probabilidades, es invariante bajo traslaciones y escalados.
H aX +b = H X
Entropas conjunta, condicional e informacin mutua

Otras entropas y la informacin mutua
L N
H XY = p(x = i, y = j) log[ p(x = i, y = j)]

j =1 i=1
Recordemos que:
H X |Y = p(x = i, y = j) log[ p(x = i | y = j)]

j =1 i=1 L N
H X |Y = p(x = i, y = j) log[ p(y = j | x = i)]

j =1 i=1
p(x, y) = p(y | x) p(x) p(x, y) = p(x | y) p(y)
IXY
p(x = i) p(y = j) = p(x = i, y = j) log = i, y = j) p(x j =1 i=1
Relaciones entre entropas y informacin mutua

H XY H X |Y HX
IXY
HY |X HY
Rosa: Hx Amarillo: Hy Rosa+Amarillo=Hxy (conjunta)
H XY
En un canal (con X
entrada e Y salida) esta entropa representa la perdida de informacin.
H X HY
H X |Y IXY HY |X
Relaciones entre entropas y informacin mutua

H XY
HX
HY
H X |Y
IXY
HY |X
Este diagrama es 8l para escribir desigualdades o relaciones entre estas can8dades: H = H X |Y + IXY IXY = H X H X |Y H X XY H X + HY HY = HY |X + IXY IXY = HY HY |X H XY = H X + HY IXY
H XY = H X |Y + HY |X + IXY H XY = H X + HY |X H XY = HY + H X |Y
H X H XY H X + HY HY H XY H X + HY
IXY = H X + HY H XY IXY = IYX
Variables independientes
H XY
H X |Y
HY |X
HY
IXY = 0 H X = H X |Y HY = HY |X H XY = H X + HY
HX
H XY
HX
HY
H X |Y
HY |X
Variables coincidentes X=Y (totalmente dependientes)

H XY = H X = HY = IXY
IXY = H X = HY
IXY = H X = HY = H XY H X |Y = 0 HY |X = 0
H XY
HX
HY IXY
Relaciones importantes
Hay que recordar bien que
p(x) delta
0 H X log 2 M 0 HY log 2 L (HY =)H X H XY H X + HY 0 IXY H X (= HY ) 0 H X |Y H X 0 HY |X HY
p(x) uniforme
Variables
X=Y X=Y
X=Y
Variables independientes X=Y Variables independientes Variables independientes
independientes
Canal discreto sin memoria (DMC)

En una formula se puede escribir
Flujo de bits
Y (t) = X(t) + E(t)
Y =X+E
t= 8empo Y(t)=variable aleatoria (recepcin) al 8empo t X(t)=variable aleatoria (transmisin) al 8empo t E(t)= ruido, variable aleatoria al 8empo t
En estos casos o se da la formula arriba, o la VEROSIMILITUD (en el caso discreto, es una matriz.MATRIZ DE CANAL)
p(y t | x t )
p(y | x)

En caso discreto tenemos una matriz M L de canal
p(y = 1 | x = 1) ... .... p(y = L | x = 1) ... .... ... ... p(y | x) = ... ... ... ... p(y = 1 | x = M) ....... p(y = L | x = M)
Las las 8enen que sumar 1.
Que se suele representar grcamente 1 1
X
M
Y
L
Todas las aristas representan una probabilidad no nula. Las aristas que salen de un nodo de entrada 8ene que sumar 1.

En los problemas nos suelen dar la matriz de canal y la probabilidad sobre las entradas 1 1
p(x) X
M
Y L
Teniendo estas dos densidades, realmente tenemos la densidad conjunta, es decir, toda la informacin.
p(y x) |
y) = p(y | x) p(x) p(x,

Podemos calcular todo 1
1
M M
p(x) X

M
p(y) = p(x = i, y) = p(y | x = i) p(x = i)

i=1 i=1
p(y x) |
L
p(y | x) p(x)
M
p(x, y) = p(y | x) p(x)
p(x, y) p(y | x) p(x) p(x | y) = = = p(y) p(y)
p(y | x = i) p(x = i)
i=1
Tenemos los 5 elementos
p(y, x)
p(y | x) p(x | y) p(x)
p(y)

Nota que esta formula,
M M
p(y = j) = p(x = i, y = j) = p(y = j | x = i) p(x = i)

i=1 i=1
es fcil de resumir, recordar y entender grcamente

X =i X =s p(y = j | x = i)
p(y = j | x = s) p(y = j | x = k)
Y=j
Si no hay otras ramas, las dems probabilidades son nulas p(y = j | x) = 0
X = k
Hay que considerar todas las ramas que entran en el nodo j.
Lo que nos gustara: Canal ideal.

a nosotros nos gustara claramente que X=Y (caso ideal). Es decir obtener la mxima informacin mutua ( I H X = Y ). XY = H en otra forma queremos que la perdida de informacin en el canal sea nula ( X |Y = 0: si conozco Y, conozco perfectamente H X, no tengo incer8dumbre, no tengo sorpresas!)
Y
CANAL IDEAL
Lo peor: X e Y independientes.
Si X e Y son independientes cualquier informacin sobre Y no me aporta nada sobre X. En este caso I XY 0 (minima informacin mutua). = La perdida de informacin es mxima ( H X |Y = X : si conozco Y, H la incer8dumbre sobre X no disminuye).
p(x, y) = p(x) p(y)
p(x, y) p(y) p(x) p(y | x) = = = p(y) p(x) p(x)
Lo peor: X e Y independientes.
Cuando un canal genera esta independencia entre X e Y? Cuando 1 p(y | x) = constante = num. ramas que salen de una entrada
PEOR CANAL POSIBLE
p(x)
p(y)
Todas las entradas 8enen el mismo numero de ramas.
Otros casos interesantes

Hemos dicho que cuando Y=X tenemos
IXY = H X = HY
H X |Y = 0
HY |X = 0
Puede haber casos donde una entropa condicional sea nula pero la otra no, y Y X . Por ejemplo
1 X 2 3
4
1
Y
HY |X = 0 H X |Y 0
qu incer8dumbre tengo sobre Y si conozco X? Ninguna.
Otros casos interesantes

El caso simtrico seria
1 2 Y 3
4
Perdida info en el canal
H X |Y = 0 HY |X 0
X
2
qu incer8dumbre tengo sobre X si conozco Y? Ninguna.
X ero Nota que Y , p tambin este canal se podra considerar ideal (la perdida de informacin en el canal es nula).
Lo que queremos: maximizar IXY

Pues queremos maximizar la informacin mutua. Dado que el canal es dado (no se puede cambiar!), lo nico que podemos variar son las probabilidades de las entradas. I . Es decir buscaremos la p(x) que maximiza la XY
p(x)
p(y | x)
Matriz de canal: est dada.
Capacidad de canal
Realmente aunque encontramos la p(x) que maximiza I YX no signica que con esta conguracin logremos I XY = H X (que es el mximo de la informacin mutua). Hallaremos un valor
C = max IXY
p(x )
Que es caracters8co del canal.
Capacidad de canal
Para hallar la capacidad de canal se puede trabajar con dos expresiones de informacin mutua
IXY = H X H X |Y
p(x)
p(x | y) = p(x, y) p(y | x) p(x) = = p(y) p(y) p(y | x) p(x)
M
p(x, y) = p(y | x) p(x)
p(y | x = i) p(x = i)
i=1
IXY = HY HY |X
M i=1
Es ms fcil u8lizar esta
p(y) = p(x = i, y) = p(y | x = i) p(x = i)

i=1
p(y | x)
Capacidad de canal
Esta es ms fcil de u8lizar en la prac8ca
IXY = HY HY |X
Pero esta es ms interesante en la teora
IXY = H X H X |Y
Perdida de Informacin en el canal Informacin a la entrada
Informacin que atraviesa en canal
Capacidad de canal
Otra observacin muy importante es que
2 c = numero de entradas que puedo utilizar sin cometer errores

La can8dad 2 capacidad puede interpretar como el numero de entradas (simbolos) que se pueden u8lizar al mismo 8empo sin cometer ningn error en comunicacin.
Capacidad de canal
Ejemplo:
Seguramente (cualquiera sea la matriz de canal) puedo u8lizar 2 entradas sin equivocarme.
1 2 3
4
1 2 3
4
2 3
4
As que seguramente puedo escribir:

c 2 2 C 1
C=1 es en el caso peor.
Capacidad de canal
1 Ms en general con M par: 1 1 2 3 2 3 3 M 1 M M Seguramente puedo u8lizar M/2 entradas sin equivocarme. As que seguramente puedo escribir: M M c 2 C log 2 = log 2 M 1 2 2 1 2 3 4 M 1 M
Capacidad de canal
Hemos encontrado una cota inferior para la capacidad de este canal 1 1 M 2 C log 2 2 2 3 3 M M Pero tambin por el mismo razonamiento como mucho, en el caso ideal, podemos u8lizar todas las entradas es decir M 2C M log 2 C log 2 M 2 C log 2 M C log 2 L
Cuidado: esta formula es siempre verdadera! No solo en este canal. Tambin vale siempre esta desigualdad
Capacidad de canal
Adems si la probabilidad de transiciones son equiprobables (1/2 )
1 2
Se puede demostrar log M C= 2 2
1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2
2 3 M
Canales en paralelo
Si tenemos 2 canales en paralelo, podemos encontrar la capacidad equivalente (total)
C1 C2
2 c tot = 2 c1 + 2 c 2 c tot = log 2 (2 + 2

c1 c2

Te or I A Informacion

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Te or I A Informacion

Uploaded by

Copyright:

Available Formats

Conceptos

bsicos de teora de la informacin

I(x) = log[ p(x)]

Unidad de medida: bit

H X = p(x = i) log[ p(x = i)]

Entropa DISCRETA mxima

La entropa diferencial (caso con8nuo) es mxima en el caso de la densidad Gaussiana.

Relacin con la varianza

En estas 2 densidades: la entropa es igual, pero la varianza no!

Entropas conjunta, condicional e informacin mutua

H XY = p(x = i, y = j) log[ p(x = i, y = j)]

H X |Y = p(x = i, y = j) log[ p(x = i | y = j)]

H X |Y = p(x = i, y = j) log[ p(y = j | x = i)]

p(x, y) = p(y | x) p(x) p(x, y) = p(x | y) p(y)

p(x = i) p(y = j) = p(x = i, y = j) log = i, y = j) p(x j =1 i=1

Relaciones entre entropas y informacin mutua

Rosa: Hx Amarillo: Hy Rosa+Amarillo=Hxy (conjunta)

entrada e Y salida) esta entropa representa la perdida de informacin.

Relaciones entre entropas y informacin mutua

IXY = H X + HY H XY IXY = IYX

Variables coincidentes X=Y (totalmente dependientes)

0 H X log 2 M 0 HY log 2 L (HY =)H X H XY H X + HY 0 IXY H X (= HY ) 0 H X |Y H X 0 HY |X HY

Variables independientes X=Y Variables independientes Variables independientes

Canal discreto sin memoria (DMC)

Y (t) = X(t) + E(t)

Canal discreto sin memoria (DMC)

Las las 8enen que sumar 1.

Que se suele representar grcamente 1 1

Canal discreto sin memoria (DMC)

y) = p(y | x) p(x) p(x,

Canal discreto sin memoria (DMC)

p(y) = p(x = i, y) = p(y | x = i) p(x = i)

p(x, y) = p(y | x) p(x)

p(x, y) p(y | x) p(x) p(x | y) = = = p(y) p(y)

Tenemos los 5 elementos

p(y | x) p(x | y) p(x)

Canal discreto sin memoria (DMC)

p(y = j) = p(x = i, y = j) = p(y = j | x = i) p(x = i)

es fcil de resumir, recordar y entender grcamente

Si no hay otras ramas, las dems probabilidades son nulas p(y = j | x) = 0

Hay que considerar todas las ramas que entran en el nodo j.

Lo que nos gustara: Canal ideal.

p(x, y) = p(x) p(y)

p(x, y) p(y) p(x) p(y | x) = = = p(y) p(x) p(x)

PEOR CANAL POSIBLE

Todas las entradas 8enen el mismo numero de ramas.

Otros casos interesantes

qu incer8dumbre tengo sobre Y si conozco X? Ninguna.

Otros casos interesantes

Perdida info en el canal

qu incer8dumbre tengo sobre X si conozco Y? Ninguna.

Lo que queremos: maximizar IXY

Que es caracters8co del canal.

p(x, y) = p(y | x) p(x)

Es ms fcil u8lizar esta

p(y) = p(x = i, y) = p(y | x = i) p(x = i)

Informacin que atraviesa en canal

2 c = numero de entradas que puedo utilizar sin cometer errores

As que seguramente puedo escribir:

C=1 es en el caso peor.

Se puede demostrar log M C= 2 2

1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2

2 c tot = 2 c1 + 2 c 2 c tot = log 2 (2 + 2