Teoría de La Información y Aplicaciones en El Mundo Real

Teoria de la informacio
i
les seves aplicacions
Alvaro Solana
A Adara per aguantar les meves emociona-
des explicacions sobre aquest TAD.
Index
1 Introduccio i motivacio del treball 3
2 Conceptes de probabilitat 5
3 Una magnitud anomenada Informacio 7
3.1 A la recerca duna denici o dInformaci o . . . . . . . . . . . . . . . 7
3.2 Denici o dinformacio . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3 Canvi de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Entropia 13
4.1 Denici o dentropia . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Entropia conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Entropia condicionada per una variable aleat` oria . . . . . . . . . . . 18
4.4 Flux dinformaci o . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.5 Generalitzaci o al cas de variables aleatòries contnues . . . . . . . . 22
4.6 Quina relaci o te amb lentropia de la termodinàmica? . . . . . . . . 25
5 Font dinformacio 27
5.1 Fonts discretes sense mem` oria . . . . . . . . . . . . . . . . . . . . . 27
5.1.1 Extensio duna font discreta sense mem` oria . . . . . . . . . . 28
5.2 Fonts de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.1 Extensio duna font de Markov . . . . . . . . . . . . . . . . 30
6 Canals dinformacio 33
6.1 Canal transparent o canal sense soroll . . . . . . . . . . . . . . . . . 33
6.2 Canal opac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.3 Extensi o dun canal . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4 Canals en sèrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.5 Capacitat dun canal . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7 Aplicacions 43
7.1 Principi del MaxEnt . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.2 Aplicacions del guany dinformacio . . . . . . . . . . . . . . . . . . 44
7.3 Altres aplicacions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1 INTRODUCCI
O I MOTIVACI
O DEL TREBALL
1 Introducci o i motivaci o del treball
El meu interès per les probabilitats va fer que, un cop decidit a fer un TAD, aquest
fos de probabilitats. Mai havia sentit a parlar sobre teoria de la informaci o, per` o
em va semblar un tema forca interessant. Per a mi ha estat un descobriment molt
agradable ja que he disfrutat fent aquest treball i he après molt sobre un tema que
desconeixia.
Aquest treball desenvolupa gran part de la teoria de la informaci o del model de
Shannon, el mes utilitzat actualment. Cal dir que aquest no es l unic model que
intenta mesurar la informaci o, però s que es el mes utilitzat i el que te una teoria
mes desenvolupada. Durant lelaboracio del treball mhe trobat amb altres mesures
de la informaci o, com per exemple lanomenada energia informacional desenvo-
lupada per Onicescu, al 1966, fent una analogia a lenergia cinètica mecànica. Per
aquesta altra teoria recomano larticle publicat a la revista Estadstica Espa nola
n umero 110, del 1986 de la pàgina 47 a la 65. En aquesta mateixa revista, volum
95, any 1982, pàgines 103-112 trobem un article comparant els dos models dinfor-
maci o. Encara trobem un altre article a la mateixa revista, volum 107, any 1985,
p` agines 5-13 desenvolupant part del model de Onicescu.
Mhe volgut centrar en la part matem` atica, ja que tot i que tambe te molt interes
la part de la codicacio de la informaci o, aquesta es una vessant mes inform` atica
que matem` atica. No son pocs els llibres que despres de desenvolupar el model de
Shannon en els primers captols, acaben dedicant la resta del llibre a sistemes i
algoritmes de codicaci o.
El fet de que una de les crtiques mes populars contra les matem` atiques sigui
la seva poca utilitat, tot i que es obviament falsa, va fer que inclogues un captol
nal dedicat exclusivament a la aplicaci o de tota la teoria desenvolupada en el tre-
ball. Mha sorprès molt la quantitat daplicacions que pot arribar a tenir el model
de Shannon, tot i que, una vegada acabat el treball, crec que encara queda molta
teoria per desenvolupar i aplicar a la pràctica. I pot ser un camp molt interessant
per investigar i desenvolupar.
Com tot treball, aquest ha estat reestructurat diverses vegades durant la seva
creaci o, nalment, però, vaig decidir estructurar-ho pensant com si fos per a una
hipotètica assignatura optativa, incloent-hi totes les parts implicades en un proces
de transmissi o dinformaci o: la informaci o mateixa, estudiada en el tercer i quart
captol, lemissor i el receptor estudiats en el cinquè i el canal per on es transmet
la informaci o, estudiat en el sisè captol. Aquesta optativa, a mes, tindria la pos-
siblitat doferir-se a matem` atics on es desenvolupi la part purament matem` atica, i
a informàtics on es treballi mes la codicaci o. De fet, a Espa na, la Universidad de
Granada, la Universidad Politecnica de Madrid, i la Universidad de Las Palmas de
Gran Canarias tenen una assignatura sobre teoria de la informacio.
Per nalitzar, vull agrair al meu pare i a lAdara la seva dedicacio en la revisi o de
la primera versi o del treball, i al David Màrquez per acceptar tutoritzar-me aquest
TAD.
3
2 CONCEPTES DE PROBABILITAT
2 Conceptes de probabilitat
En aquesta seccio ens limitarem a resumir tots els conceptes que calguin de proba-
bilitats, que donarem per coneguts, per tal dentendre els captols seg uents. Ser` a
un breu resum i no contindrà cap demostracio ni exemples.
Denici o 2.1 (-` algebra). A es una -àlgebra sobre un conjunt si es una famlia
de conjunts, no buida, que compleix:
(i) A.
(ii) Si A A = A
c
A.
(iii) Si {A
n
, n 1} A, llavors
n1
A
n
A.
Denici o 2.2 (espai de probabilitat). Un espai de probabilitat es una terna (, A, P),
on , que anomenarem espai mostral, es un conjunt que conte tots els possibles re-
sultats de lexperiència aleatòria, A es una famlia de parts d amb estructura de
-àlgebra, i serveix per descriure tots els possibles esdeveniments. Finalment, P,
anomenada probabilitat i que determina la versemblanca dels esdeveniments, es una
aplicacio
P : A [0, 1]
que te les propietats seg uents:
(i) P() = 1.
(ii) (-additivitat) Si {A
n
, n 1} es una successio de conjunts de A disjunts 2 a
2, llavors
P(
_
n1
A
n
) =
n=1
P(A
n
).
Proposicio 2.1. Sigui P una probabilitat, llavors
(i) P() = 0.
(ii) Per a tot A A, P(A
c
) = 1 P(A).
(iii) Siguin A, B A llavors B A P(B) P(A).
(iv) Siguin A, B A aleshores P(A B) = P(A) + P(B) P(A B).
Denici o 2.3 (-` algebra de Borel). Una -àlgebra de Borel, que denotarem per B,
es la -àlgebra generada pels oberts de R respecte de la topologia euclidiana.
Denici o 2.4 (variable aleat` oria). Sigui (, A, P) un espai de probabilitat, i B una
-àlgebra de Borel, aleshores una variable aleatòria es una aplicacio X : R
que compleix la propietat seg uent:
B B, X
1
A.
5
2 CONCEPTES DE PROBABILITAT
Denici o 2.5 (probabilitat condicionada). La probabilitat dun esdeveniment
A A condicionada per un esdeveniment B A, amb probabilitat no nulla, es
deneix per
P(A|B) =
P(A B)
P(B)
.
Denici o 2.6 (esdeveniments independents). Es diu que dos esdeveniments
A, B A son independents si
P(A B) = P(A) P(B).
Observaci o. Si A, B A s on independents, llavors
P(A|B) =
P(A B)
P(B)
=
P(A) P(B)
P(B)
= P(A).
Alguns llibres donen aquesta igualtat com la denicio desdeveniments indepen-
dents.
6
3 UNA MAGNITUD ANOMENADA INFORMACI
O
3 Una magnitud anomenada Informaci o
3.1 A la recerca duna denici o dInformacio
En aquesta seccio tractarem darribar a una denicio rigorosa dinformaci o de ma-
nera que compleixi les idees intuitives que tenim de la paraula informaci o.
Quan llegim un diari, o veiem les notcies, aix` o ens aporta informaci o o quan llegim
un llibre qualsevol... dexemples en tenim molts. Concretem una mica mes, quan
llegim una notcia com per exemple ahir va ser dimecres i la llegim el dijous no ens
aportar` a cap informacio o si per exemple alg u ens diu que al tirar un dau (perfecte)
ha tret entre l1 i el 5 això ens aporta molt poca informaci o, aix` o es degut a que els
dos esdeveniments s on molt probables (en el cas de la notcia de fet te probabilitat
1 de manera trivial). En canvi, si alg u ens diu que ha vist un nad o amb 4 bracos,
ens sorpendr` a molt, ja que es molt poc probable que succeixi. Tenim clara la idea
intutiva dinformaci o, per` o nosaltres volem una denicio precisa, matemàtica, de
la paraula, de la mateixa manera que es va denir la temperaturaa partir de la
sensaci o de fred o calor, o la denici o de forcaa partir de la sensacio desforc. Ara
ens preguntem, es possible denir una magnitud informacio que sigui mesurable
com la for ca en newtons o la temperatura en graus?
3.2 Denici o dinformacio
Anem a denir, a partir de la idea intuitiva, la magnitud informaci o. Sigui A un
esdeveniment i suposem que abans docorrer te una probabilitat de succer p. Ales-
hores lesdeveniment A succeeix i, pel sol fet doc orrer, genera informaci o. Volem
trobar una funci o I(A) que compleixi les nostres idees intuitives. A la funcio li
demanarem:
(i) Que depengui de la probabilitat, el que sembla natural vist els exemples an-
teriors.
(ii) Que sigui sempre mes gran o igual a 0, doncs un esdeveniment quan succeeix
pot donar molta, poca o cap informacio (com lexemple del principi ahir va
ser dimecres) per` o en tot cas mai generar` a informaci o negativa, es a dir,
I(A) 0 per tot esdeveniment A.
(iii) Sembla natural demanar que com mes probable sigui lesdeveniment menys
informaci o ens aporti, i viceversa, com menys probable ho sigui mes ens aporti.
Es a dir, si A i B s on dos esdeveniments amb probabilitats de succer p i q

respectivament tals que p q, llavors volem que I(p) I(q). Dit amb altres
paraules, demanarem a la funci o que sigui (estrictament) decreixent de la
probabilitat.
(iv) Voldrem tambe que la funci o fos continua. A priori no sembla molt natural
demanar aix` o, per` o el que estem demanant es que a petites variacions de la
probabilitat de lesdeveniment que provoca informaci o ens doni igualment una
petita variaci o de la informacio que ens proporciona.
7
3.2 Denici o dinformacio3 UNA MAGNITUD ANOMENADA INFORMACI
O
(v) Finalment demanarem que sigui additiva. Es raonable pensar que la informa-
ci o que ens donen dos esdeveniments independents sigui la suma dinformaci-
ons.

Es a dir, si A i B s on dos esdeveniments independents (P(AB) = P(A)
P(B)) amb probabilitat p i p
respectivament, llavors I(p p
) = I(p) + I(p
).
Un exemple per veure-ho clar: suposem que lespai que dedica un diari a un
esdeveniment es proporcional a la informaci o que comporta, llavors es natural
pensar que lespai dedicat a informar de A i B es la suma dels espais.
Per` o, existeix alguna funci o que compleixi les 5 condicions? pot ser que nhi
hagin moltes? aquest segon cas encara ens aniria be, per` o com a mnim nhi ha
dhaver una que ho compleixi. Va ser R.V.L. Hartley qui, cap al 1928, va donar
resposta al problema.
Vegem primer un resultat previ que ens servirà per a la demostraci o del teorema
seg uent:
Proposicio 3.1. Sigui f : (0, 1] R
+
una funcio tal que
(a) f es estrictament decreixent a (0, 1].
(b) f(xy) = f(x) + f(y), x, y (0, 1].
Aleshores existeix una constant > 0 tal que f(x) = log x.
Demostracio. De la condicio (b) observem que f(x) = f(x 1) = f(x) + f(1) i per
tant necessàriament f(1) = 0, i tambe f(x
n
) = n f(x). Com que f es estrictament
decreixent tenim que f(x) > 0 x (0, 1). Fixem un a (0, 1), llavors la successi o
(a
m
)
m0
es decreixent i amb lmit 0. Per tant, donat x (0, 1) i un natural n, el
nombre x
n
est` a entre
a
m+1
x
n
< a
m
,
per un cert m. Com que f es decreixent,
f(a
m
) < f(x
n
) f(a
m+1
),
a mes per (b),
m f(a) < n f(x) (m + 1) f(a),
dividint per n f(a) (que es positiu) obtenim
m
n
<
f(x)
f(a)

(m + 1)
n
,
i com la funci o log x compleix les hipòtesis podem pendre f(x) = log x, llavors
m
n
<
log x
log a

(m + 1)
n
.
8
O
Ajuntant les dues inequacions anteriors veiem que
f(x)
f(a)

log x
log a
<
1
n
,
que es independent de m i es certa per a tota x (0, 1). Llavors fent tendir n a
innit,
f(x)
f(a)
=
log x
log a
,
equivalentment
f(x)
log x
=
f(a)
log a
.
Com f(a) > 0 i log a < 0, la constant =
f(a)
log a
es positiva. A mes, es compleix
f(x) = log x, x (0, 1) i f(1) = 0 = log x x (0, 1].
Teorema 3.2. Si I : (0, 1] R
+
continua, satisfà
(a) I(p) 0 p (0, 1].
(b) I(p) es una funcio decreixent en p.
(c) I(p q) = I(p) + I(q) p, q (0, 1].
Aleshores,
I(p) = log
b
p,
on es una constant positiva i b un nombre natural tal que b > 1. I aquesta funcio
es unica llevat del producte per una constant positiva (que veurem mes endevant a
la seccio canvis de base).
Demostracio. Vegem primer que I(p) = log
b
p compleix les condicions (per
comoditat escriurem log enlloc de log
b
):
(a) La primera condici o es comprova f` acilment ja que
0 < p 1 log p 0 log p 0.
(b) Per veure la segona condicio, suposem que 0 < p q 1, llavors
log p log q 0 log p log q log p log q.
(c) Vegem l ultima condici o que ha de complir,
I(p q) = log (p q) = (log p + log q)
= log p log q = I(p) + I(q), p, q (0, 1] .
Falta veure la unicitat, però ja est` a vista a la proposici o anterior. Amb això tenim
lexistència i unicitat de la forma de la nostra funci o informaci o.
9
O
Observaci o. La nostra funcio I(p) lhem denida a (0, 1], ja que tot i que un
esdeveniment pot tenir probabilitat 0, es impossible que ocorri i per tant no pot
generar informaci o.
Acabem de denir la nostra funci o informaci o de manera unica. Ara nomes cal
determinar els valors de i de la base del logaritme b. Per comoditat = 1 i b = 2.
Amb aix` o queda denida la nostra funcio informacio. Donat un esdeveniment x
amb probabilitat p, la informaci o que genera x pel fet de succeir es
I(x) = log
2
p
Notaci o. La informaci o la genera un esdeveniment, per` o com que nomes depen de
la seva probabilitat, usarem indistintament quan parlem dinformaci o, I(x) = I(p).
Vegem ara un parell dexemples, el primer ens dona una idea daquesta denicio i
el segon una demostraci o dun fam os refrany.
Exemple 1. Imaginem ara una classe amb 32 alumnes. El professor vol triar un
voluntari. Si suposem que el professor en tria un al atzar, tots tindran la mateixa
probabilitat de sortir escollits, per tant tots tenen una probabilitat
1
32
de ser escollits.
Mirem quina es la informacio obtinguda una vegada feta lelecci o: lesdeveniment
A es triar un alumne, per tant, I(A) = log
2
1
32
= 5 bits. Ara imaginem que
el professor per triar el voluntari divideix la classe en dos grups iguals i tira una
moneda: si surt cara tria un grup i si surt creu en tria laltre. Surti el que surti ara
nomes queda 1 grup de 16 alumnes, el professor repeteix el proces successivament
ns que quedi un grup de 2 persones, i amb una ultima tirada decidirà qui es el
voluntari, en total, haur` a tirat 5 vegades la moneda. Aquest es un bon exemple
que mostra quantitativamentel concepte dinformacio donat per la denicio de
Hartley.
Exemple 2 (Una imatge val mes que mil paraules). Considerem una imatge duna
televisi o dunes 500 les per 600 columnes de pxels, i suposem que cada pxel
pot pendre uns 10 colors. Llavors tenim 300.000 punts amb 10 possibilitats de
colors a cada punt. Amb això tenim que poden haver 10
300.000
imatges diferents.
Suposant que totes les imatges son iguals de probables, la cantitat dinformaci o que
ens genera una imatge qualsevol es I(Imatge) = log
1
10
300.000
= 300.000 log 10 =
300.000 3, 321928094887362 = 996.578, 4285 10
5
bits.
Ara imaginem que una persona ens vol descriure la imatge de la televisi o, en el seu
vocabulari controla unes 70.000 paraules (el catal` a te unes 80.000 enregistrades al
diccionari) i que utilitza 1000 paraules per explicar-nos la imatge. Tot i que no es
real, suposarem que la probabilitat de triar una paraula o una altra en cada moment
es equiprobable per simplicar els c` alculs, de la mateixa manera que hem suposat el
color de la imatge equiprobable a cada pxel. Llavors un cop acabada la descripcio
ha generat una informaci o de I(Descripci o) = log
1
70.000
1.000
= 1.000 log 70.000 =
1.000 16, 0950673 = 16.095, 0673 10
4
bits.
Per tant concluim que una imatge, efectivament, val mes que mil paraules.
10
3.3 Canvi de base 3 UNA MAGNITUD ANOMENADA INFORMACI
O
3.3 Canvi de base
Hem denit la funci o informacio en base 2. Matemàticament, però, ens plantejem
un canvi de base. Estudiem que passa si enlloc de base 2 tenim una base arbitr` aria
b. Sigui b 1, llavors
I
b
(A) = log
b
(P(A)) =
1
log
2
b
log
2
(P(A)) =
1
log
2
b
I(A).
Es a dir que la unica diferència entre I(A) i I

b
(A) es el factor positiu
1
log
2
b
, i per
tant, la funci o I
b
(A) segueix complint les nostres condicions. Interpretarem el canvi
de base com un canvi dunitat dinformaci o. La base mes utilitzada es la 2 i la uni-
tat lanomenarem bit (per defecte considerarem el logaritme en base 2 i al llarg del
treball considerarem log com el logaritme en base 2 si no diem el contrari), a la base
e lanomenem nat i a la base 10, en honor a lautor de la denici o, lanomenarem
Hartley.
11
4 ENTROPIA
4 Entropia
En aquesta secci o explicarem el concepte dentropia de Shannon, tambe anomenat
informacio mitjana. Comencarem amb un exemple per veure intuitivament la idea
dentropia, formalitzarem la idea i acabarem la secci o amb algunes propietats.
4.1 Denici o dentropia
Exemple 3 (El joc del qui es qui). Pensem en dos amics jugant al qui es qui,
una possible estratègia pot ser fer preguntes del tipus es home o dona? on sigui
la resposta que sigui eliminarem aproximadament la meitat, per` o tambe podem
jugar ben diferent, apostant per preguntes arriscades on una resposta armativa ens
descarti moltes possibilitats per` o una de negativa ens elimini molt pocs personatges.
Podem generalitzar el joc amb una colla damics on un es pensa un personatge
conegut per tothom i que la resta lhagi dendevinar amb preguntes, ara tambe tenim
les dues possibles estratègies. Si fem preguntes arriscades direm que utilitzem una
t` actica amb molta informaci o molt poc garantida, en canvi si juguem amb laltra
t` actica direm que es una estratègia amb poca informacio molt garantida. Quina es
millor? Amb quina es mes probable que guanyem? La millor estratègia es basar` a
en obtenir una informacio mitjana mes elevada possible. Resoldrem la pregunta
mes endavant.
Comencarem la secci o tractant amb variables aleat` ories discretes i despres ge-
neralitzarem al cas de variables aleat` ories contnues, ja que les primeres s on mes
sencilles de tractar i les idees noves son mes f` acils de visualitzar. Dara en en-
davant totes les variables seran discretes ns que comencem lapartat de variables
contnues.
Durant aquesta seccio parlarem de probabilitats condicionades i probabilitats
compostes entre dues variables. Per tal que tingui sentit, durant tota la secci o,
tindrem un espai de probabilitat (, A, P) i sempre que parlem de variables X o
Y , ens referirem a variables denides a lespai de probabilitats donat.
De manera similar a lesperanca probabilstica denim lentropia.
Denici o 4.1 (entropia). Siqui X una variable aleatòria de rang n {x
1
, , x
n
} i
sigui {p
1
, , p
n
} la seva distribucio de probabilitats. Llavors denim lentropia o
informacio mitjana com
H(X) =
n
i=1
p
i
I(x
i
) =
n
i=1
p
i
logp
i
per tal que tingui sentit i estigui ben denida pendrem per conveni que si p
i
es zero,
llavors p
i
logp
i
= 0, conveni que mantindrem al llarg de tot el treball.
13
4.1 Denici o dentropia 4 ENTROPIA
Sovint a aquesta entropia se lanomena entropia de Shannon.
Notaci o. Com que lentropia nomes depen de les probabilitats, usarem indistinta-
ment quan parlem dentropia, H(X) = H(p
1
, , p
n
). Anem a veure un teorema
que ens servir` a per acotar el valor de lentropia. Primer, per` o, necessitem un parell
de resultats previs.
Abans de continuar amb resultats utils sobre lentropia anem a explicar una mi-
ca mes el concepte. En molts llibres es parla dentropia com dinformacio mit-
jana, tal com nosaltres ho hem fet, en daltres llibres parlen dentropia com a
mesura dincertesa, ja que a si tenim una entropia elevada, es a dir una mitjana
dinformaci o elevada, es perquè tenim un alt grau dincertesa en els esdeveniments.
Lema 4.1. Sigui x R
+
, aleshores
ln x x 1.
Demostracio.

Es evident a partir de les gr` aques de les funcions
Daquest lema deduim, per tant, que ln x = k log x x1, amb k =

1
log e
< 1.
I es una igualtat si, i nomes si, x = 1.
Lema 4.2 (Lema de Gibbs). Sigui (p
1
, , p
n
) una distribucio de probabilitats i
q
1
, , q
n
nombres reals no negatius tals que
n
i=1
q
i
1, aleshores
i=1
p
i
logp
i

n
i=1
p
i
logq
i
.
Demostracio. Un canvi de base de logaritmes es nomes un producte duna cons-
tant positiva, aix` o ens permet pendre el logaritme neperi` a. A mes pel conveni
establert abans podem eliminar tots els p
i
= 0. Ara podem suposar que tots els
14
p
i
> 0 i = 1, , n.
Si q
i
= 0 per algun i, llavors la desigualtat es trivial. Suposem, doncs, que
q
i
> 0 i = 1, , n.
i=1
p
i
lnp
i
+
n
i=1
p
i
lnq
i
=
n
i=1
p
i
ln(
q
i
p
i
)
n
i=1
p
i
(
q
i
p
i
1)
=
n
i=1
(q
i
p
i
) = (
n
i=1
q
i
) 1 0,
on a la primera desigualtat hem aplicat el lema 4.1.
Observem que la igualtat es certa nomes en el cas que ln(
q
i
p
i
) = (
q
i
p
i
) 1, es a dir, si
p
i
= q
i
i = 1, , n.
Teorema 4.3. Lentropia H(X) duna variable aleatòria satisfà
0 H(X) log n.
Demostracio. Hem de veure les dues desigualtats. La primera es immediata de la
denici o dH(X) ja que es suma delements positius.
La segona desigualtat es un cas particular del lema de Gibbs (lema 4.2). Prenem
q
i
=
1
n
i = 1, , n aleshores tenim
H(p
1
, , p
n
) =
n
i=1
p
i
loq p
i

n
i=1
p
i
log(
1
n
) = log n = H(
1
n
, ,
1
n
).
Observaci o. De la denici o, es immediat observar que H(X)=0 si, i nomes si, es

el cas trivial en que X nomes pren un valor, a mes es natural, ja que si nomes pren
un valor no ens aporta informacio i per tant no tenim incertesa. Aquest cas es poc
interessant. En canvi H(X) assoleix el seu m` axim quan X te una distribucio de
probabilitats uniforme, es a dir,
_
1
n
, ,
1
n
_
, ja que en aquest cas
H(X) =
n
i=1
1
n
log
1
n
=
1
n
n
i=1
log n = log n.
Per contestar la pregunta del principi, del joc del qui es qui, veurem un exemple
amb X de rang 2.
Exemple 4. Analitzem ara un cas particular, quan X te rang 2. Podem suposar
que es el joc del qui es qui, on els possibles esdeveniments son les respostes a les
preguntes i per tant, nomes pot pendre dos valors, o x
1
=s o x
2
= no, considerem
que x
1
te probabilitat p, i per tant, x
2
te probabilitat 1 p. Llavors,
H(p, 1 p) = plog p (1 p)log(1 p).
15
Si fem la gr` aca en funci o de p,
i es comprova f` acilment que assoleix el seu màxim a p =
1
2
.
Amb aix` o contestem a la pregunta del principi, es millor una estratègia amb poca
informaci o molt garantida, amb preguntes tal que les respostes s o no tinguin una
probabilitat propera al 0.5.
Vegem ara algunes propietats mes.
Proposicio 4.4. (i) La funcio entropia H :
n
R
+
es contnua, on
n
= {(p
1
, , p
n
) R
n
:
n
i=1
p
i
= 1, p
i
0 i = 1, , n} .
(ii) H(p
1
, , p
n
) = H(p
(1)
, , p
(n)
).
(iii) Sigui a = 0 i b R, llavors H(aX + b) = H(X).

Es a dir, lentropia es
invariant per traslacio i per escalacio.
Demostracio. (i)

Es immediat del fet que la funci o x xlog x es contnua i la
suma i producte de funcions contnues tambe es contnua.
(ii)

Es evident, a partir de la denici o i del fet que la suma es commutativa.
(iii) Si X es una variable aleat` oria i Y = aX + b, llavors
iI
P(Y = x
i
) =
iI
P(aX + b = x
i
) =
iI
P(X =
x
i
a
b),
es a dir, canvien els valors que pot pendre Y però no les probabilitats.
Observaci o. El primer punt ens diu que a petites variacions de la distribucio de les
probabilitats correspon igualment una petita variaci o de la informaci o mitjana. El
segon punt, molt intuitiu, ens diu que independentment de lordre en què considerem
els esdeveniments, la informacio mitjana serà la mateixa.
16
4.2 Entropia conjunta 4 ENTROPIA
4.2 Entropia conjunta
Donades dues variàbles aleat` ories volem denir lentropia conjunta.
Denici o 4.2 (entropia conjunta). Siguin X, Y dues variables aleatòries de rangs
{x
1
, , x
n
} i {y
1
, , y
n
} respectivament, i suposem denida una distribucio de
probabilitats conjunta p(x
1
, y
1
), , p(x
n
, y
m
) Llavors denim lentropia conjunta
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) log p(x
i
, y
j
).
Vegem ara un parell de propietats, la primera de les quals ens parla de la simetria
de lentropia conjunta i surt del fet que
p(x
i
, y
j
) = p(x
i
)p(y
j
|x
i
) = p(y
j
)p(x
i
|y
j
) = p(y
j
, x
i
),
i la segona ens acota el valor daquesta entropia.
Proposicio 4.5. Donades dues variables aleatòries X, Y de rangs {x
1
, , x
n
}
i {y
1
, , y
m
} respectivament, i suposem denida una distribucio de probabilitats
conjunta p(x
1
, y
1
), , p(x
n
, y
m
). Aleshores
(i) H(X, Y ) = H(Y, X).
(ii) H(X, Y ) H(X) + H(Y ).
Demostracio. (i) Vegem la igualtat:
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) log p(x
i
, y
j
)
=
m
j=1
n
i=1
p(y
j
, x
i
) log p(y
j
, x
i
) = H(Y, X).
(ii) Per aquesta demostracio utilitzarem una vegada mes el lema de Gibbs (lema
4.2), primer observem que
0 p(x
i
)p(y
j
) 1,
ja que p(x
i
) i p(y
j
) s on mes petites o iguals a 1, per tant podem aplicar el
lema de Gibbs de manera que
n
i=1
m
j=1
p(x
i
)p(y
j
) =
_
n
i=1
p(x
i
)
__
m
j=1
p(y
j
)
_
= 1.
17
4.3 Entropia condicionada per una variable aleat` oria 4 ENTROPIA
Aleshores,
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) log p(x
i
, y
j
)

n
i=1
m
j=1
p(x
i
, y
j
) log (p(x
i
)p(y
j
))
=
n
i=1
m
j=1
p(x
i
, y
j
) log p(x
i
)
n
i=1
m
j=1
p(x
i
, y
j
) log p(y
j
)
= H(X) + H(Y ).
Observaci o. Lapartat (ii) de la proposici o es una igualtat si, i nomes si, X, Y s on

independents, es veu clarament que la desigualtat de la demostracio, en aquest cas,
seria una igualtat.
4.3 Entropia condicionada per una variable aleatòria
Siguin X, Y dues variables aleat` ories amb els respectius rangs n, m i distribucions de
probabilitats, com abans. Suposem, a mes, que tenim ben denides les distribucions
de probabilitats seg uents:
(i) {p(x
i
), 1 i n}.
(ii) {p(y
j
), 1 j m}.
(iii) {p(x
i
, y
j
), 1 i n, 1 j m}.
(iv) {p(x
i
|y
j
), 1 i n per cada j}.
(v) {p(y
j
|x
i
), 1 j m per cada i}.
Llavors a cada distribuci o de probabilitats li correspon la seva entropia. Hem vist
les 3 primeres. Anem a veure les dues que ens falten.
Posarem un exemple per fer-nos una idea i poder despres estudiar-ho amb rigorosi-
tat.
Exemple 5. Imaginem que anem parlant pel m` obil amb un amic mentres caminem
pel carrer per agafar el Metro. Baixant les escales es comenca a sentir pitjor pel
telèfon. Si nosaltres li diem pluja, quina es la probabilitat que ell hagi escoltat
correctament pluja i no,per exemple, bruixa
o fluixa
?anirem una mica mes

enll` a, si volem assegurar-nos que ens hagi sentit be, probablement li repetirem el
missatge que li volem fer arribar, aix` o es, per evitar que el soroll impedeixi que li
arribi be el missatge nosaltres el repetirem ns estar segurs dhaver comunicat el
que volem, es a dir, gastarem temps i probablement si el telèfon es dolent haguem
18
dallargar molt la conversa i aix` o repercuteix directament a la factura. Deixem una
idea que tractarem mes endavant però que volem comentar en aquest exemple, cal
un canal on es pugui transmetre be el missatge o codicar ` optimament per tal que
li arribi sense interferències. Tambe tenim el problema a la inversa, havent escoltat
bruixa
, quina es la probabilitat que efectivament ens hagi dit aquesta paraula?

Matem` aticament el nostre exemple lescrivim com p(y
j
|x
i
) i diem que es la proba-
bilitat de que havent succeit x
i
(haver dit bruixa) passi y
j
(hagi rebut exactament
la paraula bruixa), o a linreves, p(x
i
|y
j
) que es la probabilitat dhaver succeit x
i
si ha passat y
j
(haver dit bruixa si hem entès aquesta mateixa paraula).
Generalitzem el cas amb una variable aleat` oria X i una altra Y , de rangs no ne-
cess` ariament iguals, per cada i tenim p(y
j
|x
i
), es a dir, tenim un conjunt de n x m
probabilitats, que formen la matriu dinteraccio. A mes, les p(y
j
|x
i
) [0, 1] i
m
j=1
p(y
j
|x
i
) = 1 i = 1, , n. (4.1)
Podem denir, doncs, lentropia de Y condicionada per lesdeveniment x
i
.
Denici o 4.3 (entropia condicionada per un esdeveniment). Siguin X, Y dues
variables aleatòries de rangs {x
1
, , x
n
} i {y
1
, , y
m
} respectivament. Llavors
denim lentropia de Y condicionada per lesdeveniment x
i
de manera natural com
lentropia de la distribucio de probabilitats {p(y
1
|x
i
), , p(y
m
|x
i
)} ,
H(Y |X = x
i
) =
m
j=1
p(y
j
|x
i
) log p(y
j
|x
i
),
i anàlogament denim el cas a la inversa, com
H(X|Y = y
j
) =
n
i=1
p(x
i
|y
j
) log p(x
i
|y
j
).
Ara be, aix` o es lentropia de Y condicionada a un esdeveniment x
i
, però per
cada i tenim una nova entropia de Y , i an` alogament el cas invers. Llavors sembla
natural fer una mitjana ponderada de les entropies per les probabilitats de x
i
, amb
la qual cosa tenim una nova informaci o mitjana de Y condicionada per X.
Denici o 4.4 (entropia condicionada). Amb les hipòtesis anteriors, denim len-
tropia de Y condicionada per X com
H(Y |X) =
n
i=1
p(x
i
) H(Y |x
i
) =
n
i=1
p(x
i
)
_
j=1
p(y
j
|x
i
) log p(y
j
|x
i
)
_
=
n
i=1
m
j=1
p(x
i
, y
j
) log p(y
j
|x
i
),
i anàlogament denim el cas a la inversa, com
H(X|Y ) =
m
j=1
n
i=1
p(y
j
, x
i
) log p(x
i
|y
j
).
19
Vegem ara una proposicio que relaciona les entropies.
Proposicio 4.6. Siguin X i Y dues variables aleatòries amb les hipòtesis anteriors.
Aleshores
(i) H(X) + H(Y |X) = H(X, Y ) = H(Y ) + H(X|Y ).
(ii) H(Y |X) H(Y ).
Demostracio. (i) Vegem la primera igualtat
H(X, Y ) =
n
i=1
m
j=1
p(x
i
, y
j
) log p(x
i
, y
j
)
=
n
i=1
m
j=1
p(x
i
, y
j
) log (p(x
i
)p(y
j
|x
i
))
=
n
i=1
m
j=1
p(x
i
, y
j
) log p(x
i
)
n
i=1
m
j=1
p(x
i
, y
j
) log p(y
j
|x
i
)
=
n
i=1
p(x
i
) log p(x
i
) + H(Y |X)
= H(X) + H(Y |X),
on a la pen ultima igualtat hem aplicat la igualtat 4.3.
A mes a la proposici o 4.5 hem vist que H(X, Y ) = H(Y, X) per tant, queda
demostrada la segona igualtat.
(ii) Per lapartat (i) sabem que
H(X) + H(Y |X) = H(X, Y ),
i per la proposicio 4.5,
H(X, Y ) H(X) + H(Y ),
per tant,
H(Y |X) H(Y ),
i tal com hem vist a la proposicio 4.5,
H(Y |X) = H(Y ) X, Y independents.
Observaci o. Cal notar que lentropia conjunta H(X, Y ) i lentropia condicionada

per un esdeveniment H(Y |X = x
i
) s on entropies de distribucions de probabili-
tats mentre que lentropia condicionada H(Y |X) es una mitjana ponderada de les
entropies H(Y |X = x
i
).
20
4.4 Flux dinformacio 4 ENTROPIA
4.4 Flux dinformacio
A lexemple 5 hem vist p(y
j
|x
i
). Anem a veure dos casos extrems:
(i) p(y
j
|x
i
) =
ij
on
ij
es la delta de Kronecker, en aquest cas i pel nostre exemple
concret seria rebre la paraula nomes si sha dit exactament aquesta paraula.
Es el cas ideal de transmissi o dinformaci o. Ens podem imaginar el cas de

dues persones en un lloc sense soroll que vocalitzin molt i parlin amb un to
de veu correcte.
(ii) p(y
j
|x
i
) = p(y
j
) es a dir, els esdeveniments s on independents i la informaci o
de x
i
no es traspassa a y
j
.

Es a dir, y
j
no es verà afectat per la informaci o de
x
i
, i per tant, es el pitjor cas que ens podem trobar. Podem imaginar el cas
duna persona que veient un partit de futbol per la tele crida un xuta.
Acabem de veure dos casos extrems, qualsevol altre cas intermig saproxima mes a
casos reals, i per tant, x
i
traspassa informaci o a y
j
. Per` o, podem calcular quanta
informaci o es traspassa de X a Y ?
Farem primer un pas previ. Imaginem que coneixem lentropia duna variable ale-
at` oria X. Com es redueix lentropia de X si coneixem el valor dun atribut?
Denici o 4.5 (guany dinformacio). Denim el guany dinformacio com la reduccio
de lentropia de X si coneixem el valor dun atribut x
i
, mitjancant la formula:
I(X, x
i
) = H(X) H(X|x
i
),
que es pot presentar en tant per cent com el guany dinformacio relativa
I
R
(X, x
i
) =
I(X, x
i
)
H(X)
.
Sanomena guany dinformacio (IG o I
g
de langlès information gain)ja que
podem llegir la f ormula com la reducci o de lentropia, es a dir, de la incertesa,
de tot el sistema si coneixem el valor dun atribut determinat. Daquesta forma
podem conèixer com es relaciona el sistema complet respecte dun atribut, es a dir,
quanta informaci o aporta latribut al sistema.
Si generalitzem el cas de coneixer el valor dun atribut a coneixer tots els valors
duna variable Y , tenim la seg uent denicio:
Denici o 4.6 (ux dinformacio). Denim el ux dinformacio o la quantitat din-
formacio transmesa com
I(X, Y ) = H(X) H(X|Y ),
que mesura la disminucio de lentropia de X si coneixem Y, i de manera anàloga
denim
I(Y, X) = H(Y ) H(Y |X).
21
4.5 Generalitzaci o al cas de variables aleatòries contnues 4 ENTROPIA
En la secci o 6 estudiarem amb mes detall aquesta denici o en els casos extrems.
En la seg uent proposici o demostrarem que la informaci o que ueix en un sentit o
altre es la mateixa, es a dir, a efectes matem` atics no importa si el punt de vista es
de lemissor o del receptor.
Proposicio 4.7. Donades dues variables aleatòries X, Y amb les corresponents
distribucions de probabilitats i rangs,
I(X, Y ) = I(Y, X).
Demostracio. De la proposici o 4.6,
H(X) + H(Y |X) = H(X, Y ) = H(Y ) + H(X|Y ),
per tant,
I(X, Y ) = H(X) H(X|Y ) = H(Y ) H(Y |X) = I(Y, X).
4.5 Generalitzaci o al cas de variables aleat` ories contnues

Fin ara hem tractat tota la seccio amb variables aleatòries discretes, ens interesa,
però, poder parlar de variables aleat` ories contnues.

Es possible fer-ho?
Sembla natural estendre la denicio dentropia duna variable aleat` oria discreta

X
a una variable aleat` oria contnua X substituint el sumatori per una integral com
veurem a la seg uent denici o.
Denici o 4.7 (entropia diferencial). Sigui X una variable aleatòria contnua amb
funcio de densitat f(x), aleshores denim lentropia diferencial com
H(X) =
_

f(x) log(f(x))dx.
Observaci o. Moltes vegades quedarà entès pel context si la variable es contnua o
no i per tant quedarà clar de quina entropia estem parlant. Daltres, ens interesar` a
remarcar o indicar el fet que la variable es contnua, llavors ho notarem per H
dif
(X)
per indicar que lentropia es diferencial.
Vegem un exemple sencill per calcular lentropia diferencial.
Exemple 6. Sigui X una variable amb distribuci o uniforme [0,a]. Aleshores
H(X) =
_
a
0
1
a
log(
1
a
)dx = log(
1
a
) = log a.
22
Aquest exemple ens servirà per parlar dels inconvenients que te lentropia dife-
rencial, ja que no podem assegurar ni tan sols que lentropia sigui positiva. Com
veiem a lexemple anterior, per valors petits da, entre 0 i 1, lentropia es negativa.
Vegem tot seguit els problemes de la denicio daquesta nova entropia:
(i) Lentropia pot ser negativa.
(ii) Lentropia no es invariant per escalacio, es a dir H(X) = H(aX) per a = 0, a
diferència de les variables aleatòries discretes que s que ho son com hem vist
a la proposici o 4.4.
El primer punt ja lhem vist, vegem un segon exemple per veure el segon punt.
Exemple 7. Suposem X variable aleat` oria absolutament contnua amb funci o de
distribuci o uniforme en [0,2]. Sigui a = 0. Anem a calcular lentropia de la nova
variable Y = aX.
Com X es uniforme, la seva funci o de densitat es f
X
(x) =
1
2
1
[0,2]
. Calculem len-
tropia de X,
H(X) =
_
2
0
1
2
log(
1
2
)dx = log(
1
2
) = log 2.
Com X es una uniforme en [0,2], la seva funcio de distribucio es
F
X
(x) =
_
_
_
0, si x < 0,
1
2
x, si 0 x < 2,
1, si x 2.
Calculem ara la funci o de distribuci o de Y ,
P(Y x) = P(aX x) = P(X
x
a
) = F
X
(
x
a
).
Per tant,
F
Y
(x) =
_
_
_
0, si x < 0,
1
2a
x, si 0 x < 2a,
1 si, x 2,
que es una funci o contnua i derivable, i per tant la funci o de densitat de Y es
f
Y
(x) =
1
2a
1
[0,2a]
. Calculem ara lentropia de Y ,
H(Y ) =
_
2a
0
1
2a
log(
1
2a
)dx = log(
1
2a
) = log (2a) = log 2+log a = H(X)+log a.
Per tant, lentropia diferencial no es invariant per escalacio.
Vegem ara un segon exemple dentropia diferencial.
Exemple 8. Suposem que X es una variable aleat` oria amb densitat normal, es a
dir
f
X
(x) =
1
2
2
exp
_
1
2
2
(x )
2
_
,
23
llavors lentropia de X es
H(X) =
_
f
X
(x)log(f
X
(x))dx
=
1
2
log(2
2
)
_
f
X
(x)dx +
_
1
2
2
(x )
2
(log e)f
X
(x)dx
=
1
2
log(2
2
) +
1
2
log e =
1
2
log(2e
2
).
No tenim cap cota inferior, en general, de lentropia diferencial, per` o anem a
veure un teorema que ens serveix per acotar-lo superiorment.
Teorema 4.8. Siqui X una variable aleatòria absolutament contnua, amb variància
2
i mitjana , aleshores
H(X)
1
2
log(2e
2
).
Demostracio. La demostraci o es molt semblant a la feta pel teorema 4.3. Suposem
dues variables aleatòries X i Y amb funcions de densitat f
X
(x) i g
Y
(x) respecti-
vament. Notem que
_
g
Y
(x)dx = 1 per ser funci o de distribucio. Anem a veure
que
H(X) =
_
f
X
(x)log(f
X
(x))dx
_
f
X
(x)log(g
Y
(x))dx,
aix` o es equivalent a veure que
_
f
X
(x)log(f
X
(x))dx +
_
f
X
(x)log(g
Y
(x))dx 0.
Vegem aquesta desigualtat:
_
f
X
(x)log(f
X
(x))dx +
_
f
X
(x)log(g
Y
(x))dx =
_
f
X
(x)log(
g
Y
(x)
f
X
(x)
)dx
_
f
X
(x)
_
g
Y
(x)
f
X
(x)
1
_
dx
=
_
g
Y
(x) f
X
(x)dx
_
|g
Y
(x)| |f
X
(x)| dx = 0.
Per acabar la demostraci o nomes cal pendre g
Y
(x) com la funci o de densitat duna
normal. Aleshores,
_
f
X
(x)log(g
Y
(x))dx =
_
f
X
(x)log
_
1
2
2
exp
_
1
2
2
(x )
2
__
=
1
2
log(2
2
) + log(e)
_
1
2
2
(x )
2
f
X
(x)dx
=
1
2
log(2e
2
).
24
4.6 Quina relacio te amb lentropia de la termodin` amica? 4 ENTROPIA
De la mateixa manera que hi ha una entropia condicionada per a variables ale-
at` ories discretes, generalitzarem al cas de variables contnues.
Denici o 4.8 (entropia condicionada). Donades dues variables aleatories contnues
X, Y , amb funcions de densitat f(x) i g(y) respectivament, denim lentropia con-
dicionada com
H(X|Y ) =
_
g(y)
__
f
X|Y
(x)log(f
X|Y
(x))dx
_
dy.
A partir daquesta denici o dentropia condicionada podem denir, anàlogament
al cas discret, el ux dinformaci o entre dues variables contnues, aix obtenim la
seg uent denicio.
Denici o 4.9 (ux dinformaci o). Siguin X,Y dues variables aleatòries contnues,
aleshores denim el ux dinformacio entre X i Y com
I(X, Y ) = H(X) H(X|Y ).
Abans de passar a l ultim apartat daquest captol, inclourem un resum gr` ac de
totes les entropies tractades.
4.6 Quina relaci o te amb lentropia de la termodinàmica?
Segurament, la paraula entropia ja la coneixeu. Molt probablement la recordeu
de la termodinàmica, i per aix` o sembla que hagi dhaver alguna relaci o. Efecti-
vament, va ser Ludwig Boltzmann el primer en notar el signicat probabilstic de
lentropia en la termodinàmica, va demostrar que lentropia dun sistema fsic es
pot considerar com la mesura del desordre (o incertesa) del sistema.
En la termodin` amica sestudia un sistema de n partcules amb estats x
1
, . . . , x
n
amb
una distribuci o de probabilitats, que poden ocupar diferents microestats (equiva-
lents als nostres smbols, que denirem mes endavant). Lentropia termodinàmica
es igual a la nostra entropia daquesta distribuci o (mesurada en nats) multiplicada
25
4.6 Quina relacio te amb lentropia de la termodin` amica? 4 ENTROPIA
per la constant de Boltzmann K( K 1, 38 10
23
). Quan els microestats s on equi-
probables lentropia del sistema es K log n. En un sistema allat, les partcules
tendeixen a dispersar-se ns que assoleixen un cert m` axim, que es quan el sistema
es el mes homogeni i desorganitzat possible (m` axima incertesa), a això se lanomena
la segona llei de la termodin` amica.
No ens entretindrem mes en relacionar la nostra entropia amb la termodinàmica ja
que no es el nostre objectiu, nomes volem remarcar lexistència de relaci o.
26
5 FONT DINFORMACI
O
5 Font dinformaci o
En les seccions anteriors hem tractat dexplicar i veure algunes propietats de la
informaci o, per` o, qui produeix aquesta informaci o? Denirem font dinformacio i
estudiarem la transimissio dinformaci o duna font a una altra.
En els exemples anteriors hem vist elements que generen informaci o, com per
exemple les paraules escrites dun llibre, o una imatge a la televisi o de la mateixa
manera que un paisatge genera informaci o de colors on la probabilitat dun color
es lespai que ocupa respecte el total i tambe tenim el mes evident, una persona
parlant genera informaci o de paraules.
Anem, doncs, a denir el concepte de font dinformaci o.
Denici o 5.1 (font dinformaci o). Una font dinformacio X es tot conjunt de n
esdeveniments x
i
, i = 1, , n independents amb les corresponents probabilitats p
i
:
X =
_
x
1
x
2
x
n
p
1
p
2
p
n
_
,
on 0 < p
i
1 i
n
i=1
p
i
= 1.
Sovint anomenarem als esdeveniments x
i
lletres o smbols, al conjunt format per
les x
i
alfabet i a un subconjunt de lalfabet, paraula.
Hem denit la matriu amb les probabilitats p
i
dels esdeveniments x
i
mes grans
estrictes que 0, ja que no te gaire sentit parlar dun esdeveniment si la font no el pot
originar, altrament podriem tenir una matriu plena de zeros i x
i
esdeveniments que
no poden succeir, per exemple, si considerem un dau (de 6 cares), podriem tenir
x
1
= 7 amb probabilitat p
1
= 0. A mes, amb aquesta denicio ens evitem utilitzar
el conveni establert a la denici o 4.1 que deia que p
i
log p
i
= 0.
En aquesta seccio estudiarem els dos tipus de fonts mes tpics i veurem lentropia
que te cada tipus de font. De fet, les fonts dinformaci o no s on mes que casos concrets
de variables aleatòries, en aquest cas, discretes, aix tota la secci o anterior la podem
reduir als casos particular de variables aleat` ories que compleixin la denicio de font
dinformaci o.
5.1 Fonts discretes sense mem` oria
Denici o 5.2 (font dicreta sense mem` oria). Diem que una font es discreta sense
memòria si la probabilitat de la ocurrència dun esdeveniment no depen dels altres
smbols.
Un exemple de font discreta sense mem` oria pot ser un ordinador que genera n umeros
aleat` oriament o diversos llan caments dun dau...

Es el cas mes sencill de font
dinformaci o.
Ara te sentit parlar, segons el context, de la informaci o que genera una font
en funci o del temps. Per fer-nos una idea, podem imaginar una gran quantitat de
c` alculs fets a un ordinador, evidentment ens importarà que vagi donant els resultats
el mes r` apidament possible.

Es a dir, quanta informacio, de mitjana, ens pot donar
la font per instant de temps?
27
5.1 Fonts discretes sense memòria 5 FONT DINFORMACI
O
Denici o 5.3 (subministre dinformaci o). Suposem una font X que pot generar m
smbols x
i
, i suposem que passat un temps T, ha emès n smbols en total. Denim
com n
i
a la quantitat de smbols x
i
emesos, i per t
i
pel temps que ha trigat en emetre
cada x
i
smbol, llavors
T =
m
i=1
n
i
t
i
, amb
m
i=1
n
i
= n.
Per un n sucientment gran la quantitat de smbols x
i
dividit per n, es a dir
n
i
n
,
tendeix a p
i
, on p
i
es la probabilitat de que la font X emeti el smbol x
i
, per tant,
T
n

m
i=1
p
i
t
i
,
que per abreviar anomenarem

T i que representa la duracio mitja per smbol. Ara
ja podem denir el subministre dinformacio de la font X com
H
t
(X) =
H(X)
T
,
i sexpressa, de manera natural, en bits per segon.
Si estudiem lentropia daquesta font, de manera trivial, veurem que coincideix
exactament amb la denicio dentropia.

Es a dir,
H(X) =
n
i=1
p
i
I(x
i
) =
n
i=1
p
i
logp
i
.
Ja hem dit que era el cas mes sencill de font i es poc interessant.
5.1.1 Extensio duna font discreta sense mem` oria
Tal com es va denir la informaci o, en bits, sembla natural pensar en una font
que emeti nomes zeros i uns, per` o si nomes considerem que emet aquests smbols
separats un de laltre no sembla gaire util la informacio que ens pugi donar. De
fet si volem emetre el n umero 2 amb una font bin` aria (es a dir, nomes emet 0 i 1)
necessitarem dos smbols(com a mnim), per això ara ens plantejem com estendre
una font, es a dir, volem estudiar una font que enlloc demetre smbols per separat
els emeti en conjunt de n smbols. Un altre exemple que ens podem imaginar: no-
saltres tot i que tenim les lletres com a smbol, escrivim o diem paraules, com un
tot, com un conjunt de lletres juntes.
Suposem que una font X, com la de lapartat anterior, emet la informaci o en
conjunts de n smbols. Per simplicar lestudi, suposarem que la font emet nomes
conjunts de n smbols. En aquest cas, el que estem fent es estendre la font X a
una font Y = X
n
.
Ara la nostra font Y te m
n
smbols, cadascun dells format per n smbols x
i
, es
a dir, cada y
i
smbol de la font es de la forma y
i
= (x
i
1
, . . . , x
i
n
), amb probabilitat
28
5.2 Fonts de Markov 5 FONT DINFORMACI
O
de ser emès p
i
= p
i
1
p
i
n
on p
i
j
es la probabilitat de ser emès el smbol x
i
j
per la
font X.
Quina es, ara, lentropia de la nova font Y ? Sembla raonable pensar que si cada
smbol y
i
est` a format per n smbols de X, lentropia sigui n vegades lentropia de
X. Anem a demostrar-ho.
Proposicio 5.1. Sigui X una font discreta sense memòria de m smbols que se-
meten en conjunts de n elements, aleshores
H(X
n
) = nH(X).
Demostracio. Per mantenir la notacio dabans, denim Y = X
n
. Aleshores
H(Y ) =
m
n
i=1
p
i
log(p
i
1
p
i
n
) =
m
n
i=1
p
i
log p
i
1
. . .
m
n
i=1
p
i
log p
i
n
.
Calculem quant val cada sumatori
m
n
i=1
p
i
log p
i
j
=
m
i
1
=1
m
i
2
=1

m
i
n
=1
p
i
1
p
i
j
p
i
n
log p
i
j
=
m
i
j
=1
p
i
j
log p
i
j
m
i
1
=1
m
i
2
=1

m
i
n
=1
p
i
1
p
i
j
=
m
i
j
=1
p
i
j
log p
i
j
= H(X).
Notem que per la pen ultima igualtat hem utilitzat
m
i
k
=1
p
i
k
= 1 k, ja que
aquest sumatori no es mes que la probabilitat de que a la posici o k hi hagi algun
dels smbols de la font X. Per tant, H(Y ) = nH(X).
5.2 Fonts de Markov
Denici o 5.4 (font de Markov). Diem que una font A de q smbols {a
1
, a
2
, . . . , a
q
}
es una font de Markov dordre m si laparicio dun smbol a
j
depen dun n umero
nit m de smbols precedents.

Es a dir, la probabilitat de que la font emeti un smbol
a
j
està condicionada per lemisio dels m smbols precedents.
Denici o 5.5 (font de Markov erg` odica). Diem que una font de Markov es ergòdica
si tots els smbols son recurrents, es a dir, que una vegada emès un smbol qualsevol,
aquest tingui probabilitat 1 de tornar a sortir en una seq uència de smbols sucient-
ment gran, i no periòdics. Diem que un smbol es periòdic si nomes pot sortir cada
n, 2n, 3n... smbols per un cert n.
Tot i que les cadenes de Markov son molt importants i per si mateixes ja son tot
un temari, aqu nomes ens limitarem a utilitzar la denicio donada, i mes concre-
tament ens restringirem a estudiar fonts de Markov erg` odiques. Al llarg daquest
29
O
treball sempre que parlem de fonts de Markov ens referirem a fonts de Markov
erg` odiques. Un exemple daquest tipus de font es el temps atmosfèric, es evident
que si ahir va nevar avui es poc probable que faci 30
o
C, però s que es forca probable
que torni a nevar o faci fred, es a dir, el temps que fa avui depen del temps que va
fer ahir. Un altre exemple pot ser les paraules mateixes, on cada lletra es un smbol,
es evident que despres duna h si estem escrivint en catal` a no hi haur` a una altra
h i que despres duna consonant pot ser mes probable escriure una vocal, una
vegada mes, el smbol que escrivim depen dels anteriors.
Abans de passar al c` alcul de lentropia duna font de Markov A dordre m, farem
unes observaciones prèvies. Pel fet de que una font sigui de Markov fa que la proba-
bilitat demetre un smbol a
i
sigui diferent si els m smbols anteriors han estat, per
exemple, a
1
, . . . , a
m
o si han estat a
2
, . . . , a
m+1
, llavors per indicar la probabilitat
demetre a
j
si els anteriors han estat a
i
1
, . . . , a
i
m
escriurem p(a
j
/a
i
1
, . . . , a
i
m
). De
fet, el que estem dient es que la seq uència de smbols (a
i
1
, . . . , a
i
m
, a
j
) es diferent
de (a
i
2
, . . . , a
i
m+1
, a
j
) o sigui que per cada smbol a
j
emès, hi han q
m
combinacions
prèvies (algunes amb probabilitat de succeir zero! per fer els c` alculs pendrem el
conveni de p log p = 0 si p = 0) que podem tractar com una paraula. Ara podem
calcular lentropia de la font.
Primer calculem la informaci o que genera lemisi o dun smbol:
I(a
j
/a
i
1
, . . . , a
i
m
) = log p(a
j
/a
i
1
, . . . , a
i
m
).
Com hi han q smbols possibles per a
i
podem calcular lentropia condicionada per
un esdeveniment (en aquest cas, paraula),
H(A|a
i
1
, . . . , a
i
m
) =
q
j=1
p(a
j
/a
i
1
, . . . , a
i
m
)I(a
j
/a
i
1
, . . . , a
i
m
).
Lentropia de la font es la mitjana daquesta quantitat, estesa als q
m
estats previs
al smbol a
j
. Per abreviar, numerem cada q
m
combinacions prèvies de smbols per
x
1
, . . . , x
q
m, aleshores
H(A) =
q
m
k=1
p(x
k
)H(A|x
k
) =
q
m
k=1
p(x
k
)
q
j=1
p(a
j
/x
k
)I(a
j
/x
k
)
=
q
m
k=1
q
j=1
p(x
k
)p(a
j
/x
k
)I(a
j
/x
k
) =
q
m
k=1
q
j=1
p(a
j
, x
k
)log(a
j
/x
k
).
5.2.1 Extensio duna font de Markov
De forma semblant a com ho vam fer per fonts sense memòria, podem estendre
una font de Markov, considerant un tot cada conjunt de n smbols. Aqu nomes
enunciarem com quedaria lextensio duna font A de Markov.
Denici o 5.6 (extensi o duna font de Markov). Sigui A una font de Markov dordre
m amb q smbols {a
1
, . . . , a
q
} i probabilitats condicionals p(a
i
/a
j
1
, . . . , a
j
m
), alesho-
res lextensio dordre n de la font A, A
n
es una font de Markov dordre =
_
m
n
+ 1
amb q
n
smbols {b
1
, . . . , b
q
n}.
30
O
Ara que ja hem denit les extensions de fonts sense mem` oria i de fonts de Markov,
podem parlar del ux dinformaci o entre dues extensions A
n
i B
n
de les fonts A i
B respectivament. Enunciarem una proposici o tot i que no la demostrarem.
Proposicio 5.2. Siguin X i Y dues fonts i X
n
i Y
n
les extensions de les fonts
respectivament. Aleshores,
I(X
n
, Y
n
) = nI(X, Y ).
31
6 CANALS DINFORMACI
O
6 Canals dinformaci o
Fin ara hem parlat de qui emet informaci o, qui la rep i hem estudiat la informaci o
com a tal. Nomes ens falta estudiar la transmissi o daquesta informaci o. De fet ja
vam deixar una certa idea daix` o a lexemple 5.
Durant la seccio 4.1 hem parlat de les entropies que generaven les 5 distribucions
de probabilitats denides per dues fonts (explicitades a la seccio 4.3). Durant la
secci o 5 hem treballat les dues primeres amb detall. En aquesta secci o treballarem
les dues ultimes.
Denici o 6.1. Denim el canal com el mitjà per on senvia la informacio duna
font X a Y . El canal queda determinat per la matriu dinteraccio, tambe anomenada
matriu del canal, denida a la pàgina 18, es a dir, donades dues fonts A i B, amb
els respectius alfabets de n i m smbols, aleshores la matriu es de la forma
_
_
_
_
_
p(b
1
|a
1
) p(b
2
|a
1
) p(b
m
|a
1
)
p(b
1
|a
2
) p(b
2
|a
2
) p(b
m
|a
2
)
.
.
.
.
.
.
.
.
.
.
.
.
p(b
1
|a
n
) p(b
2
|a
n
) p(b
m
|a
n
)
_
_
_
_
_
,
amb
m
j=1
p(b
j
|a
i
) = 1 i = 1, . . . , n.
Un canal sanomena discret si les fonts dentrada i sortida son discretes, continu
si les fonts son continues i mixt si una font es discreta i laltra contnua.
Exemple 9. Un exemple molt tpic de canal es el canal binari simètric (BSC, de
langlès binary symmetric channel). De fet, ja que mesurem la informacio en bits
es natural tenir canals binaris. El BSC es un canal entre dues fonts bin` aries (nomes
emeten 0 o 1) amb matriu
_
p 1 p
1 p p
_
.
Altres exemples de canal poden ser laire, un m` ovil, un taqugraf...
6.1 Canal transparent o canal sense soroll
Vam veure dos casos extrems de transmissi o dinformaci o a la seccio 4.4, el primer
era un cas on la transmissio era ideal, aleshores diem que la informaci o es transmet
per un canal transparent o canal sense soroll.
Anem a veure com es la matriu dinteracci o, amb les mateixes hip` otesis que a
lexemple 5, per un canal transparent tenim que p(y
j
|x
i
) =
ij
on
ij
es la delta
de Kronecker (tal com vam veure a lapartat i) de la seccio 4.4) i per tant la seva
matriu dinteraccio es tot 1 a la diagonal i a la resta zeros (reordenant, si cal, els
smbols dentrada i de sortida, ja que en general el que tenim es una matriu amb
un 1 a cada la i columna).
A mes per la proposici o 4.6 tenim que en el cas dun canal sense soroll,
H(X, Y ) = H(X) = H(Y ).
33
6.2 Canal opac 6 CANALS DINFORMACI
O
6.2 Canal opac
El segon cas extrem que vam veure a la secci o 4.4 era aquell on no es transmetia
cap informaci o de X a Y (el cas de la persona veient la tele que crida xuta no
afecta gens a laccio del futbolista, per exemple) i en aquest segon cas diem que la
informaci o senvia per un canal opac.
En aquest cas,
H(Y |X) =
n
i=1
m
j=1
p(y
j
|x
i
)p(x
i
)log p(y
j
|x
i
)
=
n
i=1
p(x
i
)
_
j=1
p(y
j
)log p(y
j
)
_
= H(Y )
n
i=1
p(x
i
) = H(Y ).
Simètricament,
H(X|Y ) = H(X).
Per tant, en una transmissi o per un canal opac, per la proposici o 4.6,
H(X, Y ) = H(X) + H(Y ).
Denici o 6.2 (equivocaci o dun canal). Anomenem equivocacio dun canal a
H(X|Y ), que interpretem com els bits que no es transmeten correctament pel canal.
Observaci o. En el cas dun canal opac, coincideix amb lentropia associada a la
font X, per tant en un canal opac el ux dinformacio entre les fonts es zero. En
canvi, com es natural, en un canal transparent no hi ha equivocaci o, ja que en
aquest cas,
H(Y |X) =
n
i=1
m
j=1
p(y
j
|x
i
)p(x
i
)log p(y
j
|x
i
)
=
n
i=1
p(x
i
)
_
j=1
1 log 1
_
= 0.
Per tant el ux dinformaci o entre dues fonts per un canal transparent es total.
Ja sabem que H(X) es la informaci o mitjana que emet la font X, a mes tenim
ara que H(X|Y ) correspon a lequivocaci o, o sigui que podem dir que de mitjana
la font Y tradueix H(X) H(X|Y ) bits dels emesos per la font X, que de fet es el
que hem denit com a ux dinformaci o a la denici o 4.6.
6.3 Extensio dun canal
Durant les seccions 5.1.1 i 5.2.1 vam veure com podiem estendre fonts sense mem` oria
i fonts de Markov, i per tant, podem estudiar la transmissio entre dues fonts exteses.
Aix` o es el que anomenarem extensio dun canal.
34
6.4 Canals en sèrie 6 CANALS DINFORMACI
O
Denici o 6.3 (extensi o dun canal). Considerem un canal entre dues fonts A i B,
amb alfabets {a
1
, . . . , a
n
} i {b
1
, . . . , b
m
} respectivament, i amb matriu de transicio
P =
_
_
_
_
_
p
1,1
p
1,2
p
1,m
p
2,1
p
2,2
p
2,m
.
.
.
.
.
.
.
.
.
.
.
.
p
n,1
p
n,2
p
n,m
_
_
_
_
_
,
on els p
i,j
= p(b
j
|a
i
). Aleshores lextensio del canal dordre k entre A
k
i B
k
te
matriu de transicio
=
_
_
_
_
_
1,1
1,2

1,m
k
2,1
2,2

2,m
k
.
.
.
.
.
.
.
.
.
.
.
.
n
k
,1
n
k
,2
p
n
k
,m
k
_
_
_
_
_
,
on
i,j
= p(b
j
|a
i
). Cada entrada consisteix en una seq uència de k smbols de A i
cada sortida del canal es una altra seq uència de k smbols amb lalfabet de B.
Exemple 10. Suposem un canal BSC. La segona extensi o del BSC es un canal
amb quatre smbols dentrada i uns altres quatre de sortida, amb matriu del canal
=
_
_
_
_
q
2
qp pq p
2
qp q
2
p
2
pq
pq p
2
q
2
qp
p
2
pq qp q
2
_
_
_
_
,
on q = 1 p.
6.4 Canals en sèrie
Per tal que tot el que expliquem en aquesta seccio tingui sentit, suposarem dos canals
de manera que al primer li entra un alfabet A = {a
1
, . . . , a
r
} i treu la informaci o
en un alfabet B = {b
1
, . . . , b
s
} i el segon canal reb la informaci o en lalfabet B i
treu la informacio en un alfabet C = {c
1
, . . . , c
t
}. es a dir, imposem la condicio
que el segon canal admeti el mateix alfabet dentrada que el de sortida del primer
canal, altrament no tindria sentit tota aquesta secci o. Potser ho aclarirem mes amb
un exemple: imaginem que una persona escriu en un paper (podem suposar que es
muda) i que una segona ho llegeix pel telèfon a una tercera persona, es evident que
no te sentit si la segona persona no sap llegir. O una senyal sonora emesa a traves
dun microfon i despres se li fa una fotograa, es absurd, en canvi s que tindria
sentit si ho enregistrem en un gravador de so per despres, per exemple, analitzar-ho
en un estudi.
Imaginem ara que la informacio es transmet per mitjà de dos canals en sèrie, es a
dir, la informacio abans darribar al receptor passa per dos canals, aleshores sembla
raonable pensar que en aquest cas perdrem mes informaci o que si passes nomes
per un dels dos canals. Un exemple senzill podria ser imaginar-nos una persona
35
O
parlant en català a una altra que nomes enten lalemany, i suposem que hi ha un
traductor amb llengua materna langlès, que enten el catal` a, i un altre traductor
que amb llengua materna lalemany, que enten langlès, aleshores el missatge passa
per dos canals abans darribar al destinatari. Observem que, de fet, si coneixem
la informaci o en un punt mig, els smbols generats per les fonts anteriors no ens
aporta cap informaci o, es a dir,
p(c
k
|b
j
, a
i
) = p(c
k
|b
j
) i, j, k. (6.1)
Anem a estudiar la pèrdua dinformaci o (quan la informaci o passa per dos canal),
primer, però, necessitarem un lema previ per a la demostracio de la proposici o.
Lema 6.1. Siguin x
1
, x
2
, . . . , x
n
i y
1
, y
2
, . . . , y
n
dos conjunts de probabilitats, es a
dir,
n
i=1
x
i
=
n
j=1
y
j
= 1.
Aleshores,
n
i=1
x
i
log
_
x
i
y
j
_
0.
Demostracio. Pel lema de Gibbs (lema 4.2), tenim que
i=1
p
i
logp
i

n
i=1
p
i
logq
i

n
i=1
p
i
logp
i
+
n
i=1
p
i
logq
i
0
i=1
p
i
logp
i
i=1
p
i
logq
i
0
i=1
p
i
log
_
p
i
q
i
_
0.
Proposicio 6.2. Siguin A, B, C tres fonts amb els respectius alfabets de n, m, l

smbols. Suposem que la font A emet un smbol que passa per un canal, arriba a B
que emet una senyal en funcio del smbol rebut, passa per un segon canal i arriba a
C. Aleshores,
H(A|C) H(A|B).
Demostracio. Veure que H(A|C) H(A|B) es equivalent a veure que
H(A|C) H(A|B) 0.
36
O
Anem a demostrar aquesta segona desigualtat.
H(A|C) H(A|B) =
n
i=1
l
k=1
p(a
i
, c
k
) log
_
1
p (a
i
|c
k
)
_
i=1
m
j=1
p(a
i
, b
j
) log
_
1
p (a
i
|b
j
)
_
=
n
i=1
m
j=1
l
k=1
p(a
i
, b
j
, c
k
) log
_
1
p(a
i
|c
k
)
_
i=1
m
j=1
l
k=1
p(a
i
, b
j
, c
k
) log
_
1
p(a
i
|b
j
)
_
=
n
i=1
m
j=1
l
k=1
p(a
i
, b
j
, c
k
) log
_
p(a
i
|b
j
)
p(a
i
|c
k
)
_
.
Substituim ara el denominador del logaritme per la igualtat 6.1, aleshores obtenim
H(A|C) H(A|B) =
n
i=1
m
j=1
l
k=1
p(a
i
, b
j
, c
k
) log
_
p(a
i
|b
j
, c
k
)
p(a
i
|c
k
)
_
=
m
j=1
l
k=1
p(b
j
, c
k
)
n
i=1
p(a
i
|b
j
, c
k
) log
_
p(a
i
|b
j
, c
k
)
p(a
i
|c
k
)
_
.
Ara observem que xat un k,
n
i=1
p(a
i
|c
k
) = 1, llavors podem aplicar el lema
anterior 6.1 i per tant es positiu.
Es a dir, que evidentment hi ha mes equivocacio passant per dos canals (en sèrie)
que no pas per un de sol. Una conseq uència immediata es que el ux dinformaci o
es menor entre dues fonts si passa per dos canals que no si nomes passa per un.
Vegem-ho.
Corollari 6.3. Amb les hipòtesis de la proposicio, I(A, B) I(A, C).
Demostracio. La demostracio es pr` acticament immediata, ja que
I(A, B) = H(A) H(A|B) H(A) H(A|C) = I(A, C).
Observaci o. El que acabem de veure es que els canals tendeixen a perdre informa-
ci o. La informacio que surt despres de passar per diversos canals no pot ser mes gran
que la informacio en un punt intermig, suposant que puguessim avaluar-la. Aquesta
interessant desigualtat va ser demostrada per primera vegada per Woodwart a lany
1955.
37
O
Observaci o. Ara voldrem saber quan es compleix la igualtat H(A|B) = H(A|C).
Repassant la demostracio, veiem que la igualtat es compleix si
p(a|b, c) = p(a|c) a, b, c,
sempre que p(b, c) = 0. I com que parlem de dos canals en sèrie, la condici o es
equivalent a
p(a|b) = p(a|c) a, b, c sempre que p(b, c) = 0. (6.2)
Podrem pensar que nomes es compleix si un dels dos canals es transparent, i per
tant, aquest canal no perd informacio. Anem a veure un exemple on cap dels dos
canals es transparent i en canvi, H(A|B) = H(A|C).
Exemple 11. Sigui A una font emisora dinformacio que emet dos smbols a
1
i a
2
amb la mateixa probabilitat, es a dir, p(A = a
1
) = p(A = a
2
) =
1
2
i suposem que
aquesta informaci o que emet passa per dos canals, un primer canal amb matriu
A =
_
1
3
1
3
1
3
0
1
2
1
2
_
,
i un segon canal amb matriu
B =
_
_
1 0 0
0
2
3
1
3
0
1
3
2
3
_
_
.
Anem a veure que efectivament H(A|B) = H(A|C), per això nomes cal comprovar
la condicio 6.4.
Posem el diagrama per tal dentendre millor els càlculs.
Per comprovar que es compleix la condici o 6.2 hem de veure que
Cas 1. p(A = a
1
|B = b
1
) = p(A = a
1
|C = c
1
).
Cas 2. p(A = a
1
|B = b
2
) = p(A = a
1
|C = c
2
) = p(A = a
1
|C = c
3
).
Cas 3. p(A = a
1
|B = b
3
) = p(A = a
1
|C = c
2
) = p(A = a
1
|C = c
3
).
38
O
An` alogament ho hem de comprovar per a
2
. Abans de passar a la demostracio, i per
tal de fer mes curta la notaci o, indicarem per p(a
i
), p(b
j
), p(c
k
) quan ens estiguem
referint a p(A = a
i
), p(B = b
i
), p(C = c
i
), respectivament.
Demostracio. Anem a demostrar cada un dels tres possibles casos.
Cas 1. Aquest cas es evident a partir del diagrama, ja que si hem arribat a b
1
necess` ariament hem sortit de a
1
i el raonament es igualment vàlid per c
1
, en tots
dos casos la probabilitat es 1.
Cas 2. Per aquest cas, calcularem les tres probabilitats i veurem que s on iguals.
Calculem primer p(A = a
1
|B = b
2
).
p(a
1
|b
2
) =
p(b
2
|a
1
) p(a
1
)
p(b
2
|a
1
) p(a
1
) + p(b
2
|a
2
) p(a
2
)
=
1
2

1
3
1
3

1
2
+
1
2

1
2
=
2
5
.
Ara calculem p(A = a
1
|C = c
2
).
p(a
1
|c
2
) =
p(c
2
, a
1
)
p(c
2
)
,
on
p(c
2
, a
1
) = p(c
2
, b
2
, a
1
) + p(c
2
, b
3
, a
1
)
= p(c
2
|b
2
) p(b
2
|a
1
) p(a
1
) + p(c
2
|b
3
) p(b
3
|a
1
) p(a
1
)
=
2
3

1
3

1
2
+
1
3

1
3

1
2
=
1
6
,
i
p(c
2
) = p(a
1
) p(b
2
|a
1
) p(c
2
|b
2
) + p(a
1
) p(b
3
|a
1
) p(c
2
|b
3
)
+ p(a
2
) p(b
2
|a
2
) p(c
2
|b
2
) + p(a
2
) p(b
3
|a
2
) p(c
2
|b
3
)
=
1
2

1
3

2
3
+
1
2

1
3

1
3
+
1
2

1
2

2
3
+
1
2

1
2

1
3
=
15
36
.
Per tant,
p(a
1
|c
2
) =
p(c
2
, a
1
)
p(c
2
)
=
1
6
15
36
=
2
5
.
Calculem ara l ultima probabilitat del cas 2, de manera an` aloga a com ho hem fet,
p(a
1
|c
3
) =
p(c
3
, a
1
)
p(c
3
)
,
on
p(c
3
, a
1
) = p(c
3
, b
2
, a
1
) + p(c
3
, b
3
, a
1
)
= p(c
3
|b
2
) p(b
2
|a
1
) p(a
1
) + p(c
3
|b
3
) p(b
3
|a
1
) p(a
1
)
=
1
3

1
3

1
2
+
2
3

1
3

1
2
=
1
6
,
39
6.5 Capacitat dun canal 6 CANALS DINFORMACI
O
i
p(c
3
) = p(a
1
) p(b
2
|a
1
) p(c
3
|b
2
) + p(a
1
) p(b
3
|a
1
) p(c
3
|b
3
)
+ p(a
2
) p(b
2
|a
2
) p(c
3
|b
2
) + p(a
2
) p(b
3
|a
2
) p(c
3
|b
3
)
=
1
2

1
3

1
3
+
1
2

1
3

2
3
+
1
2

1
2

1
3
+
1
2

1
2

2
3
=
15
36
.
Per tant,
p(a
1
|c
3
) =
p(c
3
, a
1
)
p(c
3
)
=
1
6
15
36
=
2
5
.
Acabem de veure que efectivament totes les probabilitats del cas 1 son les mateixes.
Cas 3. Ho farem igual que pel cas 2, calcularem totes tres probabilitats i veurem
que son iguals. Calculem primer p(A = a
1
|B = b
3
),
p(a
1
|b
3
) =
p(b
3
|a
1
) p(a
1
)
p(b
3
|a
1
) p(a
1
) + p(b
3
|a
2
) p(a
2
)
=
1
3

1
2
1
3

1
2
+
1
2

1
2
=
2
5
.
Ara hauriem de calcular p(a
1
|c
2
) i p(a
1
|c
3
) per` o ja les hem calculat al cas 2, i
efectivament tambe d ona una probabilitat de
2
5
.
De manera totalment an` aloga es calculen els tres casos per A = a
2
. Estalviarem
c` alculs i nomes posarem els resultats.
Cas 1. Pel diagrama ja es veu que la probabilitat de p(A = a
2
|B = b
1
) i la de
p(A = a
2
|C = c
1
) son totes dues zero.
Cas 2. En aquest cas,
p(A = a
2
|B = b
2
) = p(A = a
2
|C = c
2
) = p(A = a
2
|C = c
3
) =
3
5
.
Cas 3. En aquest cas,
p(A = a
2
|B = b
3
) = p(A = a
2
|C = c
2
) = p(A = a
2
|C = c
3
) =
3
5
.
Resultats que podem haver deduit fent el complementari dels casos anteriors. Per
tant, hem vist un exemple on la informaci o tot i passar per dos canals no transpa-
rents cap dels dos, no hem perdut informaci o. De fet, les igualtats dels tres casos
s on certes independentment de les probabilitats associades a lalfabet de A.
6.5 Capacitat dun canal
En una transmissio normal dinformacio el canal no es ideal, i per tant hi ha
pèrdua dinformacio. Ens interessa poder donar un valor numèric al canal per
tal de poder determinar si es bò o dolent, i per aix` o denim capacitat dun canal i
rendiment dun canal.
40
O
Denici o 6.4 (capacitat dun canal). Denim la capacitat dun canal com el valor
màxim del ux dinformacio per a totes les fonts possibles, es a dir,
C = max
(X,Y )E
{I(X, Y )} ,
on E es el conjunt format per totes les parelles de fonts (X, Y ) tals que X emet
la informacio en un alfabet A que es pot transmetre pel canal i Y es una font que
admet lalfabet A dentrada.

Es a dir, E es el conjunt on te sentit parlar de ux
dinformacio.
Tambe podem parlar de la capacitat dun canal per unitat de temps, llavors
C
t
=
C
T
= max
(X,Y )E
I(X, Y )
T
,
que es mesura en bits per segon i on

T es tal com ho vam denir a la denicio
5.3.
Observaci o. En el cas dun canal transparent, la capacitat del canal coincideix
amb la màxima entropia del canal de sortida, es a dir,
C = max
(X,Y )E
(H(Y ) H(Y |X)) = H(X),
ja que el canal no te equivocacio.
Denici o 6.5 (rendiment dun canal). Donades dues fonts X i Y , i un canal amb
capacitat C, denim el rendiment dun canal com la relacio entre la informacio
transmessa i la capacitat del canal per on emitim la informacio.

Es a dir,
c
=
I(X, Y )
C
,
que mesura quant es separa la informacio transmessa del seu valor màxim.
Anem a veure dos teoremes molt importants de la teoria de la informaci o, tot dos
enunciats per Shannon, el pare de tota la teoria de la informaci o. Les demostracions,
que no farem, les podem trobar a larticle que va escriure a The Bell System
Technical Journal (referència bibliogr` aca n umero [7]). El primer dels quals respon
a la pregunta, podem transmetre la informaci o tan r` apid com vulguem?
Teorema 6.4 (Teorema fonamental per un canal ideal). Sigui X una font, H(X)
la seva entropia i una canal ideal amb capacitat C
t
. Aleshores es possible codicar
la sortida de la font de manera que es pugui transmetre a una velocitat mitjana de
C
t
H(X)
smbols per segon pel canal, on es tan petit com vulguem.
Aquest teorema, doncs, ens limita la velocitat màxima de transmissio pel canal,
es a dir, es impossible transmetre a una velocitat mitjana mes gran que C
t
/H(X).
Ara ens plantegem una pregunta tambe forca interessant, donat un canal, si volem
transmetre informacio, podem transmetre-la amb un error tan petit com volguem?
o per contra estem obligats a transmetre la informaci o amb molts errors? Aquesta
resposta la trobem al seg uent teorema.
41
O
Teorema 6.5 (Teorema fonamental de Shannon). Sigui una font dinformacio X i
nu canal amb capacitat C. Aleshores si H(X) < C es possible trobar una manera
de transmetre la informacio a traves del canal amb una equivocacio tan petita com
es vulgui. En canvi, si H(X) > C no existeix cap forma demetre la informacio de
manera que lerror en la transmissio sigui menor a H(X) C.
Evidentment lequivocaci o es pot reduir (en el cas H(X) < C) a base de repe-
ticions, per` o si pensem que la repeticio implica mes temps, paper (si escrivim) o
qualsevol altre material que puguem utilitzar com a canal, entendrem la import` ancia
doptimitzar la manera de transmetre la informacio, es a dir, busquem la millor ma-
nera de codificar la informaci o per tal de minimitzar les equivocacions, el teorema,
però, nomes parla de lexistència, no de la seva construcci o. Llibres sobre codicaci o
nhi ha moltssims, de fet els llibres [3],[4],[5] de la bibliograa en parlen. Nosaltres,
tot i que no hi entrarem en el tema de codicaci o, volem remarcar la relaci o que
te amb la teoria de la informaci o i la import` ancia duna ` optima codicacio a lhora
de redur el cost de la transmissio.
42
7 APLICACIONS
7 Aplicacions
Fins ara hem tractat la part te` orica del model de Shannon. Matemàticament es
prou interessant, per` o a mes ens agradaria que tingues alguna aplicacio real.
En aquesta secci o veurem uns quants exemples daplicacions de la teoria de la
informaci o. Val a dir que les seves aplicacions s on tantes i impliquen tantes ` arees
del coneixement que aqu nomes ens limitarem a comentar breument per fer-nos
una idea de les seves utilitats, ja que altrament necessitarem molts conceptes nous.
Mereix ser en el primer lloc daquesta secci o el principi del MaxEnt, que tot seguit
anem a veure.
7.1 Principi del MaxEnt
Aquesta es, probablement, la mes famosa aplicacio de tota la teoria desenvolupada
ns ara, ja que, de fet, el seu nom es labreviatura de m` axima entropia. La idea
consisteix en acceptar, en abscència dinformaci o dun sistema, que lestat mes pro-
bable es aquell que maximitza lentropia. De fet, es basa en un principi de fsica on
es substitueix lentropia de Boltzmann dun sistema termodin` amic per lentropia de
Shannon. De totes les aplicacions daquest principi nosaltres nomes comentarem 4
casos, que ens poden donar una idea de la importància daquest principi.
La primera vegada que es va utilitzar aquest principi va ser al 1957, a làrea de
mec` anica estadstica, per Jaynes, que va obtenir, per primera vegada, les principals
distribucions de mecànica estadstica (distribuci o de Maxwell-Boltzmann, distri-
buci o de Bose-Einstein, distribucio estadstica intermitja) de manera diferent a la
derivacio clàssica.
A estadstica serveix per lestimacio de par` ametres de màxima versemblan ca.
Sigui g(x, ) una funci o de densitat de probabilitats, aleshores donada la informacio
(o be coneixem la forma de la distribuci o o be la informaci o està donada en termes
duna mostra aleat` oria), el paràmetre shauria de triar de manera que lentropia
fos la m` axima possible.
Les explicacions daquests dos casos i una explicacio detallada dels càlculs que
permeten trobar la distribucio de màxima entropia (pel cas continu i discret, on
sutilitzen polinomis de Lagrange) la trobem a la referència bibliogràca [11].
Aquest principi tambe saplica en el tractament dimatges, separant el soroll (dis-
torsi o) de la senyal que veritablement ens d ona informacio (la que ens interessa) en
una imatge, donant la imatge mes probable donada una certa quantitat dinforma-
ci o. Anem a veure els resultats obtinguts despres daplicar el principi de MaxEnt a
una fotograa.
43
7.2 Aplicacions del guany dinformacio 7 APLICACIONS
A lesquerra la foto original i a la dreta despres daplicar-li el MaxEnt
Per a mes informaci o es pot consultar les entrades [8] [9] de la bibliograa.
A biologia, aquest principi sutilitza en un algoritme per a predir i modelar nius
ecol` ogics a partir de dades de mostreig, que determina la presència o la no presència
duna espècie en una ` area concreta. Una explicaci o detallada del cas la podem tro-
bar a la referència bibliogr` aca [10], i el programa que utilitza, de software lliure,
el podem trobar a http://www.cs.princeton.edu/
~
schapire/maxent/.
7.2 Aplicacions del guany dinformaci o
A mes del principi del MaxEnt, trobem altres aplicacions del model de Shannon,
com les que sen deriven del guany dinformacio. Anem a veure aplicacions a dues
` arees diferents.
A làrea dintelligència computacional, un dels algoritmes de màquines dapre-
nentatge mes populars es el C4.5. El criteri que segueix aquest algoritme està basat
en el guany dinformaci o per denir la quantitat dinformacio que es guanya al divi-
dir, lobjectiu nal es trobar larbre mes optimitzat possible. Per a una informacio
mes detallada es pot consultar la referència bibliogr` aca [8].
A l` area de medicina trobem dos exemples on sutilitza el guany dinformaci o
per a millorar processos. Imaginem un hospital amb una gran quantitat de meta-
dades (imatges amb text associat) que podem suposar lhistorial dun pacient, una
radiograa amb un comentari del metge que es va fer un dia...o mes en general un
sistema multimodal. Ens trobem amb el problema descollir aquelles meta-dades
que s on mes utils i excloure aquelles que nos ens aporten informacio rellevant (le-
quivalent al soroll) respecte dun pacient. Aleshores una tècnica basada en el
guany dinformaci o ens permet triar aquelles meta-dades que ens aporta mes infor-
maci o ignorant aquelles meta-dades que no ens aporta informaci o o que ns i tot
poden distorsionar la resposta. Lexperiment que es va dur a terme i va concloure
que l us del guany dinformaci o millorava els sitemes multimodals. Podem trobar
larticle sencer a la referència bibliogr` aca [12].
El segon exemple daplicacio a medicina el trobem a [13]. La tesi de Jennifer
Shirley Rojas Bandera, de la Universidad de las Americas Puebla, tracta un pro-
blema sobre transplantament d` organs.

Es per tots coneguda la import` ancia dels
transplantaments dòrgans i tambe que un òrgan transplantat a vegades es rebutjat
44
7.3 Altres aplicacions 7 APLICACIONS
pel cos del receptor. No entrarem en detalls tècnics, igual que tampoc ho hem fet
en els exemples anteriors, per` o comentarem que els allels HLA (situats als cromo-
somes) s on els responsables del rebuig o acceptaci o de lòrgan transplantat. Per
saber si un ` organ serà acceptat pel receptor cal fer una prova anomenada tipi-
caci o de gens HLA tot i que això no assegura la acceptaci o en un 100%. Aquest
es un proces llarg on es necessiten moltes proves i obviament es un temps que es
perd forca important ja que la vida util de l` organ es molt curta, aleshores cal triar
aquelles preguntes que proporcionen mes informacio el mes r` apid possible. Aquest
proces de seleccio est` a basat en el guany dinformacio.
7.3 Altres aplicacions
Va ser Yuri Vladimirovich Linnik qui va tenir la idea dutilitzar la teoria de la infor-
maci o per a demostrar teoremes sobre les distribucions lmits, que trobem escrites
al llibre c alculo de probabilidades dAlfred Renyi (referència n umero [6]), a mes
tambe va demostrar una versi o del teorema del lmit central utilitzant el concepte de
guany dinformacio. No reproduirem ni els enunciats ni les demostracions. Nomes
volem remarcar la utilitat de tota la teoria desenvolupada. Per explicacions mes
detallades podem llegir el llibre dAlfred Renyi
Tot i que ven be no es una aplicaci o, s que ho es el fet que gr` acies a la teo-
ria desenvolupada per Shannon, la criptograa ha tingut una gran evolucio ja que
Shannon amb els seus teoremes fonamentals limita la codicaci o òptima i la velo-
citat m` axima de la transmissi o dun missatge. Algun dels codis utilitzant les idees
de Shannon s on els codis de Hamming i els de Reed-Solomon.
Durant lelaboraci o del treball hem trobat altres llibres i articles que parlen sobre
algunes aplicacions, tals com la tesi doctoral de Jaime Tinto Gotsens Aplicaciones
econ omicas y estadsticas de la teora de la informaci on, el llibre de Gil

Alvarez
teoria matem atica de la informaci on. Fins i tot ens hem trobat amb articles
que parlen sobre aplicacions a la geograa, però per ultim, ja que a la secci o 4.6
en vam parlar, volem remarca un manuscrit que una vegada mes relaciona la ter-
modin` amica amb la teoria de la informaci o, el manuscrit de Joaquim Fort Viader
Termodinàmica de no-equilibri i teoria de la informacio: aplicaci o a sistemes radi-
atius i reactius.
45
REFER
`
ENCIES REFER
`
ENCIES
Referències
[1] Probabilitats, Marta Sanz i Sole, edicions Universitat de Barcelona.
[2] Introduccio a la teoria de la probabilitat i de la informaci o, Jaume Masoliver,
Jorge Wagensberg.
[3] Informacio i codis, Josep M. Brunat Blay, Enric Ventura Capell.
[4] Teoria de la informacion, codicacion y lenguajes, Gonzalo Cuevas Agustn.
[5] Teoria de la informaci on y codicaci on, Norman Abramson.
[6] Calculo de probabilidades, Alfred Renyi.
[7] The Bell System Technical Journal, Vol 27, any 1948, pp 379-423, 623-656.
C.E.Shannon.
[8] http://itaim.vtrbandaancha.net/paper/Informacion.pdf
[9] http://ebookbrowse.com/16-luis-felipe-rodriguez-jorge-restaur\
acion-de-imagenes-por-el-metodo-de-maxima-entropia-pdf-d60699930
[10] http://www.ecologia.unam.mx/laboratorios/evolucionmolecular/
images/file/ClaseSig/Apuntes_ENM_W.pdf
[11] http://www.fenomec.unam.mx/pablo/seminario/maxima_entropia.pdf
[12] http://www.sepln.org/revistaSEPLN/revista/38/13.pdf
[13] http://catarina.udlap.mx/u_dl_a/tales/documentos/mosl/rojas_b_
js/capitulo_1.html
47
Index alfabètic
alfabet, 27
aplicacions, 43
guany dinformaci o, 44
MaxEnt, 43
canal, 33
BSC, 33
matriu, 35
capacitat, 40, 41
continu, 33
discret, 33
en sèrie, 35
pèrdua dinformacio, 36, 37
eqivocaci o, 42
extensi o, 34, 35
matriu, 35
matriu, 33
mixt, 33
opac, 34
ux dinformaci o, 34
rendiment, 40, 41
transparent, 33
capacitat, 41
ux dinformaci o, 34
matriu, 33
entropia, 1316
condicionada, 19, 20
per un esdeveniment, 19
per una variàble aleat` oria, 18
variables contnues, 25
conjunta, 17, 20
diferencial, 2224
equivocaci o, 34
ux dinformaci o, 21, 37
variables contnues, 25
font dinformaci o, 27
de Markov, 29, 30
erg` odica, 29
extensi o, 30
sense memòria, 27
extensi o, 28
guany dinformaci o, 21
relativa, 21
informaci o, 7, 10
paraula, 27
smbol, 27
subministre dinformaci o, 28
Teorema fonamental de Shannon, 42
Teorema fonamental per un canal ideal,
41
49

Teoría de La Información y Aplicaciones en El Mundo Real

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Teoría de La Información y Aplicaciones en El Mundo Real

Uploaded by

Copyright:

Available Formats

Teoria de la informacio

Es a dir, si A i B s on dos esdeveniments amb probabilitats de succer p i q

respectivament, llavors I(p p

Es a dir que la unica difer`encia entre I(A) i I

Daquest lema deduim, per tant, que ln x = k log x x1, amb k =

Observaci o. De la denici o, es immediat observar que H(X)=0 si, i nomes si, es

Observaci o. Lapartat (ii) de la proposici o es una igualtat si, i nomes si, X, Y s on

?anirem una mica mes

, quina es la probabilitat que efectivament ens hagi dit aquesta paraula?

Observaci o. Cal notar que lentropia conjunta H(X, Y ) i lentropia condicionada

Es el cas ideal de transmissi o dinformaci o. Ens podem imaginar el cas de

4.5 Generalitzaci o al cas de variables aleat` ories contnues

Proposicio 6.2. Siguin A, B, C tres fonts amb els respectius alfabets de n, m, l

You might also like