Conceptos  básicos  de  teoría  de  la   información  

Luca  Mar8no   Apuntes  no  revisados   Cuidado!  

Información  
•     La  información  asociada  a  un  evento  con  probabilidad  p(x)  se   define    

I(x) = −log[ p(x)]

Unidad  de  medida:  bit  

•  Un  evento  POCO  frecuente  8ene  MUCHA  información.     •  Un  evento  MUY  frecuente  8ene  POCA  información.  

Entropía  (discreta)  
•     Es  el  valor  medio  de  la  información  
N

H X = −∑ p(x = i) log[ p(x = i)]
i=1

•   ES  UN  NUMERO  (un  escalar).  Se  puede  considerar  una  MEDIDA     DE  DISPERSIÓN  de  la  densidad  p(x).       •  A  veces  se  le  indica  como  H(X)  donde  con  X  se  indica  la  variable   aleatoria  con  densidad  p(x).     •  Representa  la  incer8dumbre  sobre  el  valor  que  puede  tomar  la   variable  aleatoria  X.  

    1 1 N 1 N 1 N ….Entropía  (discreta)   •     La  entropía  se  puede  considerar  una  medida  de  dispersión   porque  por  ejemplo  es  máxima  cuando  la  p(x)  es  uniforme  y   minima  cuando  p(x)  es  una  delta.   •  La  entropía  diferencial  (caso  con8nuo)  es  máxima  en  el  caso  de   € la  densidad  Gaussiana.    Se   asume  que  la  forma  indeterminada    0log  2    0    =    0                       sea  nula  (por  razones  de  con8nuidad).   1 H X = log 2 N N HX = 0 € € € € € Entropía  DISCRETA   máxima   € € Entropía  DISCRETA  minima  (nula).     .

 por  ejemplo.   H aX +b = H X .  del  orden  de  las  deltas   (de  donde  están  posicionada  las  deltas)   En  estas  2  densidades:  la  entropía  es   igual.Relación  con  la  varianza   •  Otra  medida  de  dispersión  es.  la  varianza.  Pero  la   varianza  depende  del  soporte  de  la  densidad.  es  invariante  bajo  traslaciones  y  escalados.  pero  la  varianza  no!   •  La  entropía  discreta  es  “simétrica”  respecto  a  permutaciones  de  las   probabilidades.

y = j)] j =1 i=1 L N Recordemos  que:   € H X |Y = −∑ ∑ p(x = i. y) = p(x | y) p(y) € IXY ⎡ p(x = i) p(y = j) ⎤ = −∑ ∑ p(x = i. y = j) ⎥ ⎣ p(x ⎦ j =1 i=1 L N . y = j) log[ p(x = i. y = j) log[ p(x = i | y = j)] j =1 i=1 L N H X |Y = −∑ ∑ p(x = i. y = j) log[ p(y = j | x = i)] j =1 i=1 p(x.Entropías  conjunta.  condicional  e   información  mutua   •     Otras  entropías  y  la  información  mutua   L N H XY = −∑ ∑ p(x = i. y) = p(y | x) p(x) p(x. y = j) log ⎢ € = i.

Relaciones  entre  entropías  y   información  mutua   H XY H X |Y € € HX € IXY HY |X HY Rosa:  Hx   Amarillo:  Hy   Rosa+Amarillo=Hxy  (conjunta)   € H XY En   € un  canal  (con  X   entrada  e  Y  salida)   esta  entropía   representa  la   € perdida  de   información.   € €H X HY H X |Y IXY HY |X .

Relaciones  entre  entropías  y   información  mutua   H XY HX € € HY H X |Y IXY HY |X Este  diagrama  es  ú8l  para  escribir  desigualdades  o  relaciones  entre  estas   € can8dades:   H = H X |Y + IXY IXY = H X − H X |Y H €X € XY ≤ H X + HY € HY = HY |X + IXY IXY = HY − HY |X H XY = H X + HY − IXY H XY = H X |Y + HY |X + IXY H XY = H X + HY |X H XY = HY + H X |Y H X ≤ H XY ≤ H X + HY HY ≤ H XY ≤ H X + HY IXY = H X + HY − H XY IXY = IYX € .

Variables  independientes   H XY H X |Y € HY |X HY IXY = 0 H X = H X |Y € HY = HY |X H XY = H X + HY HX € € H XY HX € € € € HY € H X |Y € HY |X .

Variables  coincidentes  X=Y  (totalmente   dependientes)   H XY = H X = HY = IXY IXY = H X = HY IXY = H X = HY = H XY H X |Y = 0 HY |X = 0 € H XY HX € € € € HY IXY € .

Relaciones  importantes   •     Hay  que  recordar  bien  que   p(x)  delta   0 ≤ H X ≤ log 2 M 0 ≤ HY ≤ log 2 L (HY =)H X ≤ H XY ≤ H X + HY 0 ≤ IXY ≤ H X (= HY ) 0 ≤ H X |Y ≤ H X 0 ≤ HY |X ≤ HY p(x)  uniforme   € € Variables   € X=Y   X=Y   € X=Y   Variables   independientes   X=Y   Variables   independientes   Variables   independientes   independientes   € .

 variable  aleatoria  al  8empo  t   •  En  estos  casos  o  se  da  la  formula  arriba.Canal  discreto  sin  memoria  (DMC)   •   En  una  formula  se  puede  escribir   Flujo  de  bits   Y (t) = X(t) + E(t) Y =X+E € t=  8empo   Y(t)=variable  aleatoria  (recepción)  al  8empo  t   X(t)=variable  aleatoria  (transmisión)  al  8empo  t   E(t)=  ruido.  es  una  matriz….MATRIZ  DE  CANAL)       € p(y t | x t ) p(y | x) .  o  la  VEROSIMILITUD   (en  el  caso  discreto.

Canal  discreto  sin  memoria  (DMC)   •   En  caso  discreto  tenemos  una  matriz    M    ×    L    de  canal             ⎡ p(y = 1 | x = 1) ..... . p(y = L | x = 1) ⎤ ⎢ ⎥ . ... . ... ... ⎢ ⎥ ⎣ p(y = 1 | x = M) ..   •  Que  se  suele  representar  gráficamente     € 1 1 X € M ……   Y L € € € € Todas  las  aristas  representan  una  probabilidad  no  nula..  Las   aristas  que  salen  de  un  nodo  de  entrada  8ene  que  sumar  1.... ⎥ p(y | x) = ⎢ € ⎢ ⎥ .... .. ...   € ....... p(y = L | x = M) ⎦ Las  filas  8enen   que  sumar  1..

 es  decir. .  toda  la  información.   € p(y €x) | € y) = p(y | x) p(x) p(x.Canal  discreto  sin  memoria  (DMC)   •   En  los  problemas  nos  suelen  dar  la  matriz  de  canal  y  la   probabilidad  sobre  las  entradas   1 1 p(x) X € M ……   Y L € € •  € Teniendo  estas  dos    densidades.  realmente  tenemos  la   € densidad  conjunta.

Canal  discreto  sin  memoria  (DMC)   •   Podemos  calcular  todo   1 1 M M p(x) X € € M ……   Y p(y) = ∑ p(x = i. y) = ∑ p(y | x = i) p(x = i) i=1 i=1 € p(y €x) | € € L p(y | x) p(x) M € € p(x. y) p(y | x) p(x) p(x | y) = = = p(y) p(y) ∑ p(y | x = i) p(x = i) i=1 •  Tenemos  los  5  elementos   € p(y. x) p(y | x) p(x | y) p(x) € p(y) . y) = p(y | x) p(x) € p(x.

y = j) = ∑ p(y = j | x = i) p(x = i) i=1 i=1 •  es  fácil  de  resumir.Canal  discreto  sin  memoria  (DMC)   •   Nota  que  esta  formula.   M M p(y = j) = ∑ p(x = i.  las  demás   probabilidades  son  nulas   p(y = j | x) = 0 €X = k € € € Hay  que  considerar  todas  las  ramas  que   entran  en  el  nodo  j.   € .  recordar  y  entender  gráficamente     € X =i X =s € p(y = j | x = i) € € p(y = j | x = s) p(y = j | x = k) Y=j Si  no  hay  otras  ramas.

 no  tengo  incer8dumbre.Lo  que  nos  gustaría:  Canal  ideal.  no  tengo  sorpresas!)   € € X ……   Y CANAL  IDEAL   € € .   •  Es  decir  obtener  la  máxima  información  mutua   (    I                  H  X      =          Y    ).    XY =           H •   en  otra  forma  queremos  que  la  perdida  de  información  en  el   canal  sea  nula  (          X  |Y      =  0:  si  conozco  Y.   •   a  nosotros  nos  gustaría  claramente  que  X=Y  (caso  ideal).  conozco  perfectamente   H             X.

  •  En  este  caso    I  XY            0    (minima  información  mutua).         =   •   La  perdida  de  información  es  máxima  (    H  X  |Y      =          X  :  si  conozco  Y. y) = p(x) p(y) € € € p(x. y) p(y) p(x) p(y | x) = = = p(y) p(x) p(x) .   •  Si  X  e  Y  son  independientes  cualquier  información  sobre  Y  no   me  aporta  nada  sobre  X.   € p(x.Lo  peor:  X  e  Y  independientes.               H   la  incer8dumbre  sobre  X  no  disminuye).

Lo  peor:  X  e  Y  independientes.   •  Cuando  un  canal  genera  esta  independencia  entre  X  e  Y?   •  Cuando   1 p(y | x) = constante = num.   € € . ramas que salen de una entrada X Y ……   PEOR  CANAL  POSIBLE   € p(x) € p(y) Todas  las  entradas  8enen  el  mismo  numero  de  ramas.

Otros  casos  interesantes   •   Hemos  dicho  que  cuando  Y=X  tenemos   IXY = H X = HY H X |Y = 0 HY |X = 0 € •  Puede  haber  casos  donde  una  entropía  condicional  sea  nula   pero  la  otra  no.   € € € 2 € € .  Por  ejemplo     ≠     € € 1 € X 2 3 € € € € € 4 1 Y HY |X = 0 H X |Y ≠ 0 ¿qué  incer8dumbre   tengo  sobre  Y  si   conozco  X?  Ninguna.  y    Y            X  .

                                € € .   € € € € €       X ero   •  Nota  que    Y    ≠            .  p€ también  este  canal  se  podría  considerar   “ideal”  (la  perdida  de  información  en  el  canal  es  nula).Otros  casos  interesantes   •   El  caso  simétrico  seria   1 1 2 Y 3 € 4 € Perdida  info  en  el   canal   H X |Y = 0 HY |X ≠ 0 X € 2 ¿qué  incer8dumbre   tengo  sobre  X  si   conozco  Y?  Ninguna.

 lo  único  que   podemos  variar  son  las  probabilidades  de  las  entradas.   € € .Lo  que  queremos:  maximizar    IXY •  Pues  queremos  maximizar  la  información  mutua.   •  Es  decir  buscaremos  la    p(x)    que  maximiza  la   XY               X Y p(x) € € ……   € p(y | x) € Matriz  de  canal:  está   dada.   •  Dado  que  el  canal  es  dado  (no  se  puede  cambiar!).     €  I          .

Capacidad  de  canal   •  Realmente  aunque  encontramos  la      p(x)  que  maximiza    I  YX    no                       significa  que  con  esta  configuración  logremos    I  XY    =    H  X    (que  es                   el  máximo  de  la  información  mutua).           •  Hallaremos  un  valor   € € € C = max IXY p(x ) •  Que  es  caracterís8co  del  canal.               € .

y) = p(y | x) p(x) ∑ p(y | x = i) p(x = i) i=1 € M IXY = HY − HY |X € M i=1 Es  más  fácil  u8lizar  esta   p(y) = ∑ p(x = i. y) = ∑ p(y | x = i) p(x = i) i=1 p(y | x) € . y) p(y | x) p(x) = = p(y) p(y) p(y | x) p(x) M € € p(x.Capacidad  de  canal   •  Para  hallar  la  capacidad  de  canal  se  puede  trabajar  con  dos   expresiones  de  información  mutua     IXY = H X − H X |Y p(x) p(x | y) = p(x.

Capacidad  de  canal   •  Esta  es  más  fácil  de  u8lizar  en  la  prac8ca     IXY = HY − HY |X •  Pero  esta  es  más  interesante  en  la  teoría     € IXY = H X − H X |Y Perdida  de  Información  en  el  canal   Información  a  la   entrada   Información  que   atraviesa  en  canal   € .

  € € .Capacidad  de  canal   •  Otra  observación  muy  importante  es  que   2 c = numero de entradas que puedo utilizar sin cometer errores •  La  can8dad      2  capacidad      puede  interpretar  como  el  numero  de                         entradas  (simbolos)  que  se  pueden  u8lizar  al  mismo  8empo  sin   cometer  ningún  error  en  comunicación.

  1 2 3 € € € € 4 1 2 3 € 4 € 1 1 3 € 2 3 4 € € € € •  Así  que  seguramente  puedo  escribir:   € c 2€ ≥ 2 ⇒ C ≥1 C=1  es  en  el  caso  peor.Capacidad  de  canal   •  Ejemplo:   Seguramente  (cualquiera  sea  la   matriz  de  canal)  puedo  u8lizar     2  entradas  sin  equivocarme.   € .

  € € € € •  Así  que  seguramente  puedo  escribir:   M M c 2 ≥ ⇒ C ≥ log 2 = log 2 M −1 2 2 1 2 3 4 M −1 M € € € € .Capacidad  de  canal   1 •  Más  en  general  con    M    par:       1 1 2 3 2 € € 3 € 3 ……   ……   € € M −1 M M € € € Seguramente  puedo  u8lizar  M/2       € € entradas  sin  equivocarme.

  También  vale  siempre  esta  desigualdad   .Capacidad  de  canal   •  Hemos  encontrado  una  cota  inferior  para  la  capacidad  de  este   canal   1 1 M 2 C ≥ log 2 2 2 3 3 ……   € € M M € € € •  Pero  también  por  el  mismo  razonamiento  como  mucho.  en  el   € € caso  ideal.  podemos  u8lizar  todas  las  entradas  es  decir       € € M 2C ≤ M log 2 ≤ C ≤ log 2 M 2 C ≤ log 2 M C ≤ log 2 L Cuidado:  esta  formula  es  siempre  verdadera!   No  solo  en  este  canal.

Capacidad  de  canal   •  Además  si  la  probabilidad  de  transiciones  son  equiprobables  (1/2  )               1 2 3 € € € •  Se  puede  demostrar  € € € € log M C= 2 2 M 1/2   1/2   1/2   1/2   1/2   1/2   1/2   ……   € 1/2   1 2 3 M € .

 podemos  encontrar  la  capacidad   equivalente  (total)            C1          C2   2 c tot = 2 c1 + 2 c 2 c tot = log 2 (2 + 2 c1 c2 ) € .Canales  en  paralelo   •  Si  tenemos  2  canales  en  paralelo.