You are on page 1of 14

Esquemas Entropa:

H (X ,Y )

H ( X | Y ) I ( X ;Y )

H (Y | X )

H (Y )

H (X )

H(X,Y)

H(X)

H(Y)

H(X|Y)

I(Y;X)

H(Y|X)

Desde estos dibujos se pueden sacar todas las relaciones posibles:


I ( X ; Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X )
I ( X ; Y ) H ( X ) H (Y ) H ( X , Y )
H ( X , Y ) H ( X | Y ) H (Y | X ) I ( X ; Y )
H (X ) H (X | Y )

etc

H (Y ) H (Y | X )

Cuando las variables son independientes H(X,Y)=H(X)+H(Y) y la informacin mutua


ser nula I(X;Y)=0.

Ejemplo:

Dadas dos variables aleatorias discretas (X,Y) que pueden asumir 4 valores distintos
cada una, conocemos la densidad Conjunta (en general puede ser una matriz
rectangular) :
X

p ( x, y )

1 1
8 16
1 1
16 8
1 1
16 16
1
0
4

1
32
1

32
1
16

Marginales
p ( x); p( y )

1
32
1
32
1
16

Condicionales
p ( y | x); p ( x | y )

Se puede ver claramente que la suma de todos los valores da 1, como debe de ser:
4

p( x, y ) 2 8 4 6 16 4 32 3 0 1
i

i 1 j 1

Con la conjunta tenemos toda la informacin necesaria; podemos calcular las


marginales (sern vectores) fcilmente:
4

1 1 1 1
, , ,
2 4 8 8

p ( x) p ( x, yi ) Sumar las Filas!=


i 1
4

p ( y ) p ( x j , y ) Sumar las Columnas!=

1 1 1 1
, , ,
4 4 4 4

j 1

Podemos ver que las variables son dependientes porque:


p ( x, y ) p ( x ) p ( y )

Para hallar las densidades condicionales (sern matrices), utilizaremos:


p( x | y )

p ( x, y )
p( y )

p( y | x)

p ( x, y )
p( x)

Esto significa por ejemplo:


p ( X | Y 1)

1 / 8,1 / 16,1 / 32,1 / 32


1/ 4

1 1 1 1
, , ,
2 4 8 8

Es decir, si miramos bien estamos normalizando las Filas de la conjunta:

1
2
1

p( x | y) 4
1
4
1

1
4
1
2
1
4
0

1
8
1
8
1
4
0

1
8
1

8
1
1
0

(normalizando las filas)

Donde las lneas suman 1; normalizando las columnas logramos:

p ( y | x ); p ( x | y )

(normalizando las columnas)

Donde las columnas sumas 1.


Calculo de las Entropas:
1
1 1
1 1
1 1
1 7
1 1 1 1
, , , log 2 log 2 log 2 log 2 bits 1.75 bits
2
2 4
4 8
8 8
8 4
2 4 8 8

H(X ) H

1
1 1 1 1
1
, , , 4 log 2 2 bits
4
4 4 4 4
4

H (Y ) H

Las formulas de las entropas condicionales son:


4

i 1

j 1

H ( X | Y ) p( yi ) H ( X | yi ) ; H (Y | X ) p ( x j ) H (Y | x j )
Las H ( X | yi ) y las H (Y | x j ) son respectivamente las entropas de las filas de
p ( x | y ) y las entropas de las columnas de p ( y | x) :

1
2
1

p( x | y) 4
1
4
1

1
4
1
2
1
4
0

1
8
1
8
1
4
0

1
8
1

8
1
1
0

H ( X | y 1) 7 / 4
H ( X | y 2) 7 / 4
H ( X | y 3) 2
H ( X | y 4) 0

La entropa condicional ser finalmente el promedio de todas:


H (X |Y)

1 7 1 7 1
1
11
2 0 bits
4 4 4 4 4
4
8

A la misma manera, trabajando sobre las columnas de p ( y | x) y promediando


logramos:
H (X | Y )

13
bits
8

La Informacin Mutua ser:


I ( X ;Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X )

3
bits
8

La Entropa Conjunta podemos calcularla directamente de la matriz p ( x, y ) :


2
1 1
1 6
1
4
1
27
H ( X , Y ) log 2 log 2
log 2

log 2

bits 3.37 bits


8
8 4
4 16
16 32
32
8

O a travs de una de las formulas:


H ( X , Y ) H ( X ) H (Y ) I ( X ; Y )

7
3 14 16 3 27
2

bits
4
8
8
8

Observaciones importantes:
1. Podemos notar como, por ejemplo, H ( X | y 4) 0 es menor de H ( X ) , pero
H ( X | y 3) 2 es mayor que H ( X ) !! Parece increble: en unos caso
aprender informacin de la variable Y nos hace incrementar la incertidumbre
sobre X!!! Pero promediando Y nos aporta informacin sobre X (siendo no
independientes), de hecho:
H (X | Y ) H (X )

2. Si miramos p( x | y 2) vemos que es una densidad diferente de p (x) , pero la


las entropas son iguales H ( X | y 2) H ( X ) . Esto porque la entropa es una
cantidad independientes de permutaciones, o mejor dicho, de los valores que
asumen las variables (del soporte de la densidad). La entropa depende solo de
los valores de las probabilidades. Esto no pasa con otras medidas de dispersin
como la varianza, que en general ser distinta.

10

Entropa igual
Varianza distinta

Calcular la Capacidad de un Canal discreto sin memoria:

y1

x1
x2

....
yj

....

p ( y | x ) matriz NM

de canal

yN

xM

En la figura anterior, se muestra una representacin tpica de un canal discreto de


comunicacin; esto equivale a una matriz de probabilidad condicional p ( y | x) . Habra
que aadir o suponer algn tipo de informacin ms sobre p ( x) o p ( y ) , por
ejemplo.
DISCRETO: se define as porque las entradas x y las salidas y pueden tomar un
conjunto discreto de valores.
SIN MEMORIA: si las salidas solo depende de las entradas al tiempo en cuestin, y
son condicionalmente independientes de otras entradas y otras salidas en otro instante
de tiempo (es equivalente a la formula Y X ruido ).
Sabemos que por definicin de capacidad de canal:

C max I ( X ; Y )
p( x)

Vamos a ver los pasos que generalmente habr que hacer para calcular la capacidad, en
los problemas tpicos. Empezamos diciendo que la formula que suele ser ms til para
expresar la informacin mutua es:
I ( X ; Y ) H (Y ) H (Y | X )
Esto no quiere decir que haya que utilizar siempre esta. Los pasos para en clculo
sern:
1) Hallar la matriz p ( y | x ) equivalente al grafico del canal.
x1
x2

y1
....
yj

.
xM

....

yN

p ( y | x) C1 C2 ... CM

Donde con

Ci

valor1
valor
2
..

hemos indicado los M vectores columna (de N filas)

que

valorN
componen las matrices; por definicin de la matriz p ( y | x ) , las sumas de los valores a
lo largo de cada columna dar 1.
2) Calcular H (Y ) ; esto necesita de dos pasos: primero hay que calcular p ( y ) y
luego la Entropa. En formula:

p( y ) C1 p( x 1) C 2 p( x 2) ... C M p ( x M ) CY
y luego: H ( y ) H (CY )
Es decir para hallar p ( y ) desde p ( y | x ) , hay que promediar las columnas a travs de
la densidad p ( x) ; el resultado ser un vector columna CY (cuyos elementos tendrn
que sumar 1, por construccin) que representa p ( y ) . As que se podr calcular la
entropa utilizando la definicin.
3) Calcular H (Y | X ) ; tambin en este caso necesitaramos 2 pasos: calcular las
entropas de cada columna C i y luego promediar. Juntando los dos pasos, podemos
escribir en formula:

H (Y | X ) H C1 p( x 1) H C 2 p( x 2) ... H C M p( x M )
Es decir: respecto al punto precedente, aqu primero calculamos las entropas de las
columnas y luego promediamos. Antes para hallar H (Y ) , hemos promediado y luego
calculado la entropa.
4) Como tememos H (Y ) y H (Y | X ) , tenemos tambin:
I ( X ; Y ) H (Y ) H (Y | X )
ahora, nos tocar maximizarla segn algn parmetro, para hallar C.
Para que se entienda mejor, vamos a hacer un ejemplo:
p x1
1 2 p x2
p x
3

y1
1

1
1

y2

1 0

1 0 1

p( y | x)

Como se puede ver ya hemos hallado la matriz p ( y | x) , cuyas columnas son:

1 0
1 ; 2;CCC 3
1 0 1

Vamos a calcular p ( y ) :

p( y ) CY C1 p( x 1) C 2 p( x 2) ... C M p( x M )

1 0 p(12)(2p
p(y)CY p (12)p
1 0 1 ()p(2)p

Se puede comprobar que los elementos de CY suman efectivamente 1, como debe de


ser siendo una densidad de probabilidad. As que la entropa de las salidas ser:

p( y |

x ); p ( x |

y)

Ahora nos hace falta la entropa condicional H (Y | X ) :


H (Y | X ) H C1 p H C 2 (1 2 p ) H C 3 p

H C1 log 2 ( ) (1 ) log 2 (1 )
H C2 0
H C3 0

H Y | X log 2 ( ) (1 ) log 2 (1 ) p
As que la informacin mutua ser:
I ( X ; Y ) H (Y ) H (Y | X )

1 ( 2) p log 2 1 ( 2) p (2 ) p log 2 (2 ) p log 2 ( ) (1 ) log 2 (1 ) p


Nos queda solo derivar respecto a p:
I ( X ; Y )
( 2) log 2 1 ( 2) p ( 2) ( 2 ) log 2 ( 2 ) p ( 2 ) ...
p
log 2 ( ) (1 ) log 2 (1 ) 0
I ( X ; Y )
( 2) log 2 1 ( 2) p log 2 (2 ) p log 2 ( ) (1 ) log 2 (1 ) 0
p
....
p

Finalmente, la capacidad ser:


C 1 ( 2) p log 2 1 ( 2) p (2 ) p log 2 (2 ) p log 2 ( ) (1 ) log 2 (1 ) p

TIPOS DE CANALES (discretos sin memoria):


Canal Simtrico: (caso particular del caso sucesivo) donde todas las filas pueden
expresarse como permutaciones de cualquier otra fila. Lo mismo tiene que ocurrir con
las columnas. Adems, la suma de las filas (y no solo de las columnas, como era norma
hasta ahora) tiene que dar 1. En este caso la matriz p ( y | x) se denomina biestocastica
(matriz cuadrada cuyas filas y columnas suman 1). Resumiendo para que un canal sea
simtrico:
1. p ( y | x) tiene que ser biestocastica.
2. Cada fila-columna tiene que ser permutacin de otra fila-columna.

Por ejemplo:

0.3 0.5 0.2


p ( y | x) 0.5 0.2 0.3
0.2 0.3 0.5
Canal dbilmente Simtrico: donde todas las columnas son permutaciones de
cualquier otra columna, y la suma de las filas es constante. En el caso anterior, ambas
filas y columnas, tenan que poderse expresar como permutaciones de las otras.
Resumiendo:
1. las filas tendrn que sumar un valor igual, constante c. Se puede demostrar que
este valor ser siempre c M / N .
2. cada columna (que por definicin de p ( y | x) tendr que sumar 1) tiene que ser
permutacin de otra.
Un ejemplo es canal binario con borrado con 1 / 3 :

2/3

x1

y1

1/ 3
1/ 3
x2

y2
y3

2/3

2/3 0
p ( y | x) 1 / 3 1 / 3
0 2 / 3

Vamos a demostrar que c M / N , siempre; sabemos que por definicin de p ( y | x )


las columnas suman 1 y que las filas suman un mismo valor desconocido c:
N

p( y
i 1
M

p( y
j 1

| x j ) 1

x j

| xj) c

y i

As que todos los elementos de p ( y | x ) sumar M; es fcil de ver, si se piensa que


tenemos M columnas, y que cada una suma 1:
M

p( y
j i 1

| x j ) 1 1 .... 1 M

Ahora vamos a invertir el orden de las dos sumatorias:

j 1

p( y

| x j ) c c .... c N c
N

Como se trata se las mismas sumatorias, tiene que dar el mismo resultado:
M N c

M num. entradas

N
num. salidas

En el caso de un canal simtrico c 1 (matriz cuadrada, numero de entradas igual a


numero de salidas).
Para canales dbilmente simtricos y simtricos, vale lo siguiente:
M

I ( X ; Y ) H (Y ) H (Y | X ) H (Y ) p ( x j ) H (Y | x j )
j 1

j 1

j 1

I ( X ; Y ) H (Y ) p( x j ) H (C j ) H (Y ) H (Columna ) p ( x j ) H (Y ) H (Columna ) 1
Donde hemos aprovechado el hecho que cada columna representa una misma densidad
(en le caso de canales simtricos):
H (C1 ) H (C 2 ) ... H (C j ) ... H (C M ) H (Columna )

As que hemos llagado a:


I ( X ; Y ) H (Y ) H (Columna )

Razonamos un momento: en esta expresin tenemos una constante H (Columna ) que


depende del canal (de su matriz p ( y | x) ) , y las entropa de las salidas H (Y ) ; para
calcularla necesitamos de las probabilidades p ( y ) que en general dependern de las
probabilidades de las entradas p ( x) , como se puede ver en la formula:
M

p ( y ) p( y | x j ) p ( x j )
j 1

Sabemos, adems, que en mximo valor que puede tomar H (Y ) es log 2 N , cuando la
p ( y ) es una densidad uniforme. Ahora, necesitamos de una observacin ms:
Observacin IMPORTANTE: Para canales dbilmente simtricos y simtricos, la
densidad de las salidas p ( y ) ser uniforme solo si lo ser la densidad de las entradas
p (x) .
Demostramos esta observacin; si p( x) 1 / M :

p ( y ) p( y | x j )
j 1

1
1 M
1
1 M
1
p( y | x j ) c

M M j 1
M
M N N
c

Donde la sumatoria a lo largo de las filas es igual a c por definicin de canal dbilmente
M

simtricos ( p( y | x j ) c ).
j 1

As que la capacidad de un canal dbilmente simtrico (y simtrico) ser:

C max I ( X ; Y ) log 2 N H (Columna )


p( x)

Que se obtienen con entradas equiprobables ( p ( x) 1 / M ).


Observacin: el canal binario con borrado, genrico:
x1

x2

y1
y2

y3

1 0
p ( y | x)

0 1

En general, NO es ni simtrico ni dbilmente simtrico, porque las filas no suman un


mismo valor.
De todas formas, mirando el grafico se puede notar una cierta simetra: podramos decir
que las dos entradas ven un mismo canal. De hecho, nos encontramos tambin en este
caso con la propiedad que las columnas tienen misma entropa:
H (C1 ) H (C 2 ) H (Columna ) H ( ,1 - )

As que tambin la informacin mutua quedara:


I ( X ; Y ) H (Y ) H (Columna )

Lo que NO podemos asegurar ahora es que haya una densidad de las entradas p (x) que
genere una densidad uniforme de las salidas p ( y ) . As que maximizando H (Y ) , en
general, ser distinto del valor log 2 N . De hecho, suponiendo p ( x) ( p,1 p )
encontramos:
p ( y ) ((1 ) p, , (1 )(1 p))
Que no podremos forzar a ser uniforme para cualquier valor de , porque la
probabilidad p ( y 2) no depende de la distribucin de las entradas. Lo mejor que
podemos hacer es igualar el primer y el ltimo valor:

(1 ) p (1 )(1 p )

1
2

El hecho que nos encontremos otra vez con una densidad uniforme a la entrada, poda
ser predicho mirando la simetra geomtrica del grafico de canal.

CANALES EN PARALELO:

C1

C2

Vale la relacin:

2Ctot 2C1 2C2


En general sobre el concepto de capacidad de canal C, podemos afirmar que:
2C numeros de entradas que podemos enviar sin error

Vamos a aclarar esta afirmacin:


x1

x2

y1

y2

En este caso, podemos enviar 2 bits (uno por cada entrada) sin cometer ningn fallo en
recepcin; es decir la capacidad ser C=1. Otro ejemplo:

x1

y1

x2

y2

En este caso, podemos inmediatamente afirmar que C 1 ; vamos a ver ahora este
caso:

1/ 2

x1

1/ 2

x1

y1

1/ 2

1/ 2
1/ 2

x2

y1

y2

y2

1/ 2
x3

1/ 2

1/ 2

x3

y3

1/ 2

x2

y3

1/ 2
1/ 2

y4

y4

1/ 2

Veo que, se utilizo solo 2 entradas, no me equivoco nunca! Con todas las probabilidades
de transicin a 1/2 nuestra observacin no lleva directamente a hallar la capacidad:
2C 2

C 1

Haciendo todos los calculo, llegaramos al mismo resultado:


C log 2 ( M / 2) log 2 ( M ) log 2 (2) log 2 ( M ) 1 2 1 1
Pero nuestro razonamiento nos da exactamente la C solo cuando todas las
probabilidades de transicin valgan 1/2; con probabilidades genricas, las cosas irn
mejor pero no podemos decir cuanto sin hacer los clculos:
x1

p( y | x); p(x | y)

y1

1 p1
x2
C 1

1 p4
1

y1

Seguramente el caso mejor en absoluto ser:


1
y2
x2
x3

x2

y2

1 p2
x3

x1

p2

y3

y4

x2

p3

y3

1 p3
p4

y4

C2

As que en el caso ms general:


1 C 2

2 2 4 numero entradas

You might also like