Esquemas Entropía

:

H (X ,Y )

H ( X | Y ) I ( X ;Y )

H (Y | X )

H (Y )

H (X )

H(X,Y)

H(X)

H(Y)

H(X|Y)

I(Y;X)

H(Y|X)

Desde estos dibujos se pueden sacar todas las relaciones posibles:
I ( X ; Y )  H ( X )  H ( X | Y )  H (Y )  H (Y | X )
I ( X ; Y )  H ( X )  H (Y )  H ( X , Y )
H ( X , Y )  H ( X | Y )  H (Y | X )  I ( X ; Y )
H (X )  H (X | Y )

etc…

H (Y )  H (Y | X )

Cuando las variables son independientes H(X,Y)=H(X)+H(Y) y la información mutua
será nula I(X;Y)=0.

Ejemplo:

  4 4 4 4 j 1 Podemos ver que las variables son dependientes porque: p ( x. p( y | x)  p ( x. . y )  p ( x )  p ( y ) Para hallar las densidades condicionales (serán matrices). y )  2  8  4  6  16  4  32  3  0  1 i i 1 j 1 Con la conjunta tenemos toda la información necesaria. y )  Sumar las Columnas!=  1 1 1 1 . .Y) que pueden asumir 4 valores distintos cada una. yi )  Sumar las Filas!=  i 1 4 p ( y )   p ( x j . p ( x | y )   Se puede ver claramente que la suma de todos los valores da 1. y ) p( y ) .   2 4 8 8 p ( x)   p ( x. . y ) p( x) Esto significa por ejemplo: p ( X | Y  1)  1 / 8. p( y ) 1 32 1 32 1 16 Condicionales p ( y | x). . como debe de ser: 4 4 1 1 1 1  p( x. .1 / 32   1/ 4 1 1 1 1 . utilizaremos: p( x | y )  p ( x. si miramos bien estamos normalizando las Filas de la conjunta: . podemos calcular las marginales (serán vectores) fácilmente: 4  1 1 1 1 .   2 4 8 8  Es decir.1 / 16. conocemos la densidad Conjunta (en general puede será una matriz rectangular) : X     p ( x.1 / 32. . y )    Y     1 1 8 16 1 1 16 8 1 1 16 16 1 0 4 1 32  1  32  1 16  0 0 Marginales p ( x).Dadas dos variables aleatorias discretas (X.

 1  2  1  p( x | y)   4  1  4  1 1 4 1 2 1 4 0 1 8 1 8 1 4 0 1 8 1  8 1 1 0  (normalizando las filas) Donde las líneas suman 1. Calculo de las Entropías: 1 1 1 1 1 1 1 1 7  1 1 1 1 . . . H (Y | X )   p ( x j )  H (Y | x j ) Las H ( X | yi ) y las H (Y | x j ) son respectivamente las entropías de las filas de p ( x | y ) y las entropías de las columnas de p ( y | x) :  1  2  1  p( x | y)   4  1  4  1 1 4 1 2 1 4 0 1 8 1 8 1 4 0 1 8 1  8 1 1 0  H ( X | y  1)  7 / 4 H ( X | y  2)  7 / 4 H ( X | y  3)  2 H ( X | y  4)  0 . normalizando las columnas logramos: p ( y | x ).    log 2  log 2  log 2  log 2  bits  1. .75 bits 2 2 4 4 8 8 8 8 4  2 4 8 8 H(X )  H 1  1 1 1 1  1 .   4 log 2   2 bits 4  4 4 4 4  4 H (Y )  H  Las formulas de las entropías condicionales son: 4 4 i 1 j 1 H ( X | Y )   p( yi )  H ( X | yi ) . p ( x | y ) (normalizando las columnas) Donde las columnas sumas 1. .

Podemos notar como. pero H ( X | y  3)  2 es mayor que H ( X ) !! Parece increíble: en unos caso “aprender” información de la variable Y nos hace incrementar la incertidumbre sobre X!!! Pero promediando Y nos aporta información sobre X (siendo no independientes). Esto no pasa con otras medidas de dispersión como la varianza. Esto porque la entropía es una cantidad independientes de permutaciones. de hecho: H (X | Y )  H (X ) 2. o mejor dicho.37 bits 8 8 4 4 16 16 32 32 8 O a través de una de las formulas: H ( X . y ) : 2 1 1 1 6 1 4 1 27 H ( X . La entropía depende solo de los valores de las probabilidades. Si miramos p( x | y  2) vemos que es una densidad diferente de p (x) . que en general será distinta. Y )   log 2  log 2  log 2  log 2  bits  3.La entropía condicional será finalmente el promedio de todas: H (X |Y)  1 7 1 7 1 1 11      2   0  bits 4 4 4 4 4 4 8 A la misma manera.Y )  H ( X )  H ( X | Y )  H (Y )  H (Y | X )  3 bits 8 La Entropía Conjunta podemos calcularla directamente de la matriz p ( x. por ejemplo. Y )  7 3 14  16  3 27 2   bits 4 8 8 8 Observaciones importantes: 1. 1 2 10 1 2 Entropía igual Varianza distinta 3 . H ( X | y  4)  0 es menor de H ( X ) . Y )  H ( X )  H (Y )  I ( X . de los valores que asumen las variables (del soporte de la densidad). trabajando sobre las columnas de p ( y | x) y promediando logramos: H (X | Y )  13 bits 8 La Información Mutua será: I ( X . pero la las entropías son iguales H ( X | y  2)  H ( X ) .

. Los pasos para en cálculo serán: 1) Hallar la matriz p ( y | x ) equivalente al grafico del canal. por ejemplo. Habría que añadir o suponer algún tipo de información más sobre p ( x) o p ( y ) .Calcular la Capacidad de un Canal discreto sin memoria: y1 x1 x2 . yN p ( y | x)   C1 C2 . Sabemos que por definición de capacidad de canal: C  max I ( X . Y ) p( x) Vamos a ver los pasos que generalmente habrá que hacer para calcular la capacidad. esto equivale a una matriz de probabilidad condicional p ( y | x) .. yj .. se muestra una representación típica de un canal discreto de comunicación. Empezamos diciendo que la formula que suele ser más útil para expresar la información mutua es: I ( X ... CM  . en los problemas típicos. DISCRETO: se define así porque las entradas x y las salidas y pueden tomar un conjunto discreto de valores.… .. SIN MEMORIA: si las salidas solo depende de las entradas al tiempo en cuestión.. p ( y | x )  matriz NM “de canal” yN xM En la figura anterior. Y )  H (Y )  H (Y | X ) Esto no quiere decir que haya que utilizar siempre esta.… xM .... yj ... x1 x2 y1 ... y son condicionalmente independientes de otras entradas y otras salidas en otro instante de tiempo (es equivalente a la formula Y  X  ruido ).

En formula: p( y )   C1   p( x  1)   C 2   p( x  2)  . el resultado será un vector columna CY (cuyos elementos tendrán que sumar 1... nos tocará maximizarla según algún parámetro.  H  C M   p( x  M ) Es decir: respecto al punto precedente. Así que se podrá calcular la entropía utilizando la definición. aquí primero calculamos las entropías de las columnas y luego promediamos. 2) Calcular H (Y ) . podemos escribir en formula: H (Y | X )  H  C1   p( x  1)  H  C 2   p( x  2)  . 3) Calcular H (Y | X ) . también en este caso necesitaríamos 2 pasos: calcular las entropías de cada columna C i y luego promediar. Antes para hallar H (Y ) . para hallar C..  hemos indicado los M vectores columna (de N filas)  que   valorN  componen las matrices. hemos promediado y luego calculado la entropía... Juntando los dos pasos.   C M   p ( x  M )  CY y luego: H ( y )  H (CY ) Es decir para hallar p ( y ) desde p ( y | x ) . vamos a hacer un ejemplo: p x1 1  2 p x2 p x 3  y1 1  1 1 y2 1 0    1  0 1 p( y | x)   . tenemos también: I ( X . Y )  H (Y )  H (Y | X ) ahora. esto necesita de dos pasos: primero hay que calcular p ( y ) y luego la Entropía. Para que se entienda mejor. 4) Como tememos H (Y ) y H (Y | X ) . por construcción) que representa p ( y ) . por definición de la matriz p ( y | x ) . hay que promediar las columnas a través de la densidad p ( x) . las sumas de los valores a lo largo de cada columna dará 1.Donde con Ci   valor1   valor   2  .

CCC 3 1 0 1 Vamos a calcular p ( y ) : p( y )  CY   C1   p( x  1)   C 2   p( x  2)  .Como se puede ver ya hemos hallado la matriz p ( y | x) .. 2. cuyas columnas son:   1 0 1  ..   C M   p( x  M )  1 0 p(12)(2p p(y)CY p (12)p   1 0 1 ()p(2)p .

Se puede comprobar que los elementos de CY suman efectivamente 1. Además. . Cada fila-columna tiene que ser permutación de otra fila-columna. Y )  H (Y )  H (Y | X )   1  (  2) p  log 2 1  (  2) p    (2   ) p  log 2  (2   ) p     log 2 ( )  (1   ) log 2 (1   )  p Nos queda solo derivar respecto a p: I ( X . la suma de las filas (y no solo de las columnas. 2. como era norma hasta ahora) tiene que dar 1... la capacidad será: C  1  (  2) pˆ  log 2 1  (  2) pˆ    (2   ) pˆ  log 2  (2   ) pˆ     log 2 ( )  (1   ) log 2 (1   )  pˆ TIPOS DE CANALES (discretos sin memoria): Canal Simétrico: (caso particular del caso sucesivo) donde todas las filas pueden expresarse como permutaciones de cualquier otra fila.. como debe de ser siendo una densidad de probabilidad... Y )  (  2)  log 2 1  (  2) p   log 2  (2   ) p     log 2 ( )  (1   ) log 2 (1   )  0 p ˆ  . Así que la entropía de las salidas será: p( y | x ). En este caso la matriz p ( y | x) se denomina biestocastica (matriz cuadrada cuyas filas y columnas suman 1). Resumiendo para que un canal sea simétrico: 1. p    log 2 ( )  (1   ) log 2 (1   )  0 I ( X . p ( x | y) Ahora nos hace falta la entropía condicional H (Y | X ) : H (Y | X )  H  C1   p  H  C 2   (1  2 p )  H  C 3   p H  C1    log 2 ( )  (1   ) log 2 (1   ) H  C2   0 H  C3   0 H  Y | X      log 2 ( )  (1   ) log 2 (1   )  p Así que la información mutua será: I ( X . p Finalmente. p ( y | x) tiene que ser biestocastica. Lo mismo tiene que ocurrir con las columnas. Y )  (  2) log 2 1  (  2) p   (  2)  ( 2   ) log 2  ( 2   ) p   ( 2   )  .

y que cada una suma 1: M N  p( y j  i 1 i | x j ) 1  1  . 2.5 0. sabemos que por definición de p ( y | x ) las columnas suman 1 y que las filas suman un mismo valor “desconocido” c: N  p( y i 1 M  p( y j 1 | x j ) 1 i i x j | xj)  c y i Así que todos los elementos de p ( y | x ) sumar M.2 0.2 0.  1  M M Ahora vamos a invertir el orden de las dos sumatorias: .2 p ( y | x)   0.3 0.5 0. Se puede demostrar que este valor será siempre c  M / N . cada columna (que por definición de p ( y | x) tendrá que sumar 1) tiene que ser permutación de otra.. si se piensa que tenemos M columnas.Por ejemplo:  0.. Resumiendo: 1. es fácil de ver.3 0. constante c. y la suma de las filas es constante. siempre.3  0. En el caso anterior.5 Canal débilmente Simétrico: donde todas las columnas son permutaciones de cualquier otra columna. Un ejemplo es canal binario con borrado con   1 / 3 : 2/3 x1 y1 1/ 3 1/ 3 x2 y2 y3 2/3  2/3 0  p ( y | x)   1 / 3 1 / 3   0 2 / 3 Vamos a demostrar que c  M / N . ambas filas y columnas. tenían que poderse expresar como permutaciones de las otras. las filas tendrán que sumar un valor igual..

como se puede ver en la formula: M p ( y )   p( y | x j ) p ( x j ) j 1 Sabemos. cuando la p ( y ) es una densidad uniforme. Y )  H (Y )  H (Columna ) Razonamos un momento: en esta expresión tenemos una constante H (Columna ) que depende del canal (de su matriz p ( y | x) ) . numero de entradas igual a numero de salidas).  c  N  c N Como se trata se las mismas sumatorias. Para canales débilmente simétricos y simétricos. Y )  H (Y )  H (Y | X )  H (Y )   p ( x j )  H (Y | x j )  j 1 M M j 1 j 1 I ( X .. la densidad de las salidas p ( y ) será uniforme solo si lo será la densidad de las entradas p (x) . Ahora.  H (C j )  .. que en máximo valor que puede tomar H (Y ) es log 2 N ...N M i j 1  p( y i | x j ) c  c  . Y )  H (Y )   p( x j )  H (C j )  H (Y )  H (Columna ) p ( x j )  H (Y )  H (Columna )  1 Donde hemos aprovechado el hecho que cada columna representa una misma densidad (en le caso de canales simétricos): H (C1 )  H (C 2 )  ..  H (C M )  H (Columna ) Así que hemos llagado a: I ( X . entradas  N num.. vale lo siguiente: M I ( X . para calcularla necesitamos de las probabilidades p ( y ) que en general dependerán de las probabilidades de las entradas p ( x) . tiene que dar el mismo resultado: M  N c  c M num. y las entropía de las salidas H (Y ) . necesitamos de una observación más: Observación IMPORTANTE: Para canales débilmente simétricos y simétricos.. Demostramos esta observación. si p( x)  1 / M : . además. salidas En el caso de un canal simétrico c  1 (matriz cuadrada.

 ) Así que también la información mutua quedaría: I ( X .1  p ) encontramos: p ( y )  ((1   ) p. De hecho. será distinto del valor log 2 N . genérico: x1 x2 1    y1 y2 1  y3  1  0  p ( y | x)       0 1    En general. Y )  H (Y )  H (Columna ) Lo que NO podemos asegurar ahora es que haya una densidad de las entradas p (x) que genere una densidad uniforme de las salidas p ( y ) . Observación: el canal binario con borrado. Lo mejor que podemos hacer es igualar el primer y el último valor: . suponiendo p ( x)  ( p. De hecho. (1   )(1  p)) Que no podremos forzar a ser uniforme para cualquier valor de  .M p ( y )   p( y | x j ) j 1 1 1 M 1 1 M 1   p( y | x j )   c    M M j 1 M M N N c Donde la sumatoria a lo largo de las filas es igual a c por definición de canal débilmente M simétricos (  p( y | x j )  c ). NO es ni simétrico ni débilmente simétrico.  .1 . mirando el grafico se puede notar una cierta simetría: podríamos decir que las dos entradas “ven un mismo canal”. De todas formas. j 1 Así que la capacidad de un canal débilmente simétrico (y simétrico) será: C  max I ( X . nos encontramos también en este caso con la propiedad que las columnas tienen misma entropía: H (C1 )  H (C 2 )  H (Columna )  H ( . en general. Así que maximizando H (Y ) . porque las filas no suman un mismo valor. Y )  log 2 N  H (Columna ) p( x) Que se obtienen con entradas equiprobables ( p ( x)  1 / M ). porque la probabilidad p ( y  2)   no depende de la distribución de las entradas.

CANALES EN PARALELO: C1 C2 Vale la relación: 2Ctot  2C1  2C2 En general sobre el concepto de capacidad de canal C. podemos afirmar que: 2C  numeros de entradas que podemos enviar sin error Vamos a aclarar esta afirmación: x1 1 x2 1 y1 y2 En este caso. Otro ejemplo: x1 1  y1  x2 1 y2 . podemos enviar 2 bits (uno por cada entrada) sin cometer ningún fallo en recepción.(1   ) p  (1   )(1  p )  p 1 2 El hecho que nos encontremos otra vez con una densidad uniforme a la entrada. podía ser predicho mirando la simetría geométrica del grafico de canal. es decir la capacidad será C=1.

con probabilidades genéricas. se utilizo solo 2 entradas. llegaríamos al mismo resultado: C  log 2 ( M / 2)  log 2 ( M )  log 2 (2)  log 2 ( M )  1  2  1  1 Pero nuestro razonamiento nos da exactamente la C solo cuando todas las probabilidades de transición valgan 1/2. las cosas irán “mejor” pero no podemos decir cuanto sin hacer los cálculos: x1 p( y | x). podemos inmediatamente afirmar que C  1 . no me equivoco nunca! Con todas las probabilidades de transición a 1/2 nuestra observación no lleva directamente a hallar la capacidad: 2C  2  C 1 Haciendo todos los calculo. p(x | y) y1 1  p1 x2 C 1 1  p4 1 y1 Seguramente el caso mejor en absoluto será: 1 y2 x2 x3 x2 y2 1  p2 x3 x1 p2 1 1 y3 y4 x2 p3 y3 1  p3 p4 y4 . vamos a ver ahora este caso: 1/ 2 x1 1/ 2 x1 y1 1/ 2 1/ 2 1/ 2 x2 y1 y2 y2 1/ 2 x3 1/ 2 1/ 2 x3 y3 1/ 2 x2 y3 1/ 2 1/ 2 y4 y4 1/ 2 Veo que.En este caso.

C2 Así que en el caso más general: 1 C  2 2 2  4  numero entradas .