Professional Documents
Culture Documents
2 Introduction
3.1
3.2
3.3
3.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
4
5
5
6
7
8
9
10
10
11
11
12
12
12
5 Conclusion
13
6 Bibliography
14
6.1
6.2
6.3
14
14
15
1 Rsum
Le dveloppement des thormes de Shannon est illustr dans le cas d'un bruit modiant un
message binaire transmis par un canal binaire symtrique. Ce dveloppement ne dbute pas par les
proprits de la notion d'entropie, qui bien sr apparatront au cours des calculs, et vite d'utiliser
l'entropie conjointe. L'outil principal dans ce dveloppement est l'approximation de la loi binomiale
fonde sur la formule de Stirling.
1
J. Le Roux
2 Introduction
Les dmonstrations des thormes de Shannon me paraissent abstraites et diciles comprendre
pour un bon nombre d'tudiants dans le domaine des transmissions numriques qui aimeraient
bien avoir une ide intuitive de ces thromes sans pour autant chercher devenir des experts en
thorie de l'information. Il est peut tre utile de prsenter une illustration de ces dmonstrations en
vitant l'utilisation de notions diciles et peu intuitives comme l'information mutuelle, l'entropie
jointe ou l'entropie conditionnelle.
L'objectif de ce cours est d'essayer d'illustrer dans le cas le plus simple (messages binaires et
canal binaire sans mmoire) le concept d'entropie et plus spcialement son utilisation dans les deux
thormes de C. Shannon en codage de source (section 3) et en codage de canal (section 4). L'outil
principal utilis dans ce dveloppemnt est l'approximation de densits de probabilits de loi binomiales par la formule de Stirling, comme l'a fait L. Boltzmann dans son interprtation statistique
de l'entropie. Cette approche a aussi utilise par D. MacKay dans son excellente prsentation.
Il est peut-tre utile de rappeler le rle historique fondamental de l'entropie dans le dveloppement de la science (sans citer tous les domaines o cette notion est un outil important). Rudolf
Clausius (1865)a invent la notion d'entropie dans le domaine de la thermodynamique. Il a driv le mot du grec qui signie changement. Ludwig Boltzmann (1877) a donn une
interprtation de ce concept en termes de probabilits.
Max Plank (1901) a utilis cette interprtation statistique pour modliser la radiation du corps
noir, ce qui l'a conduit la dcouverte de la mcanique quantique, dcouverte qui fut ensuite enrichie par Albert Einstein (1905) qui lui aussi fonda son dveloppement sur la travail de Boltzmann.
Claude Shannon (1948) a lui aussi trouv son inspiration dans le travail de L. Boltzmann dans
la cration de la thorie de l'information, et dans l'tablissement des thormes fondamentaux
sur les bornes infrieures portant sur la compression de messages (codage de source), et la borne
supprieure donnant le nombre maximum d'erreurs qu'on peut accepter dans la transmission d'un
message de telle sorte que le message original puisse tre reconstitu intgralement. La borne
infrieure du codage de source est atteinte dans le codage arithmrique de J. Rissanen et G.
Langdon (1978) ; et les performances des turbocodes (C. Berrou et al., 1993) sont proches de la
borne suprieure de codage de canal.
B(`)
1.0
0.8
0.6
0.4
0.2
0.0
0
20
40
60
80
100
Figure 1: Exemple de message compos de '1' avec la probabilit p = 0.2 et de '0' avec la probabilit
(1 p) = 0.8.
D'aprs la loi des grands nombres, les messages mis ont la proprit suivante : dans un message
de longueur L, il y a peu prs pL '1's et (1 p)L '0's (g. 2).
Entropie
L'ide sur laquelle est fond le premier thorme est qu'il sut de coder les messages comportant
pL '1's et (1 p)L '0's parce que les autres messages n'apparaissent pratiquement jamais.
np (m)
20
15
10
m
0
1000
2000
3000
4000
L (1 p) log2
1
1p
+ p log2
1
p
bits
HB (p) = (1 p) log2
1
1
+ p log2 ,
1p
p
(1)
est l'entropie de la squence B(`). C. Shannon suit dans son dveloppement l'ide de L. Boltzmann
qui suivait une dmarche similaire an de compter le nombre de molcules en mouvement dans un
volume de gaz donn. Nous allons illustrer les tapes principales du dveloppement :
1. Nous donnerons la distribution des messages probables et calculerons une approximation
(section 3.2);
2. Nous estimerons leur nombre et nous comparerons ce nombre au nombre de tous les messages
possibles (section 3.3) ;
3. Nou dduirons de ce nombre les bases des mthodes de compression (section 3.4).
J. Le Roux
np (m)/2L
0.03
0.01
m
0
200
400
600
800
1000
Figure 3: Densit de probabilit du nombre de 1s dans des messages de longueur L = 1000 lorsque
la probabilit p d'mettre un 1 est 0.2; m est presque toujours entre 180 et 220 ; D'aprs la loi
des grands nombres, lorsque le nombre de donnes , L est grand , cette densit tend vers une loi
gaussienne de moyenne pL et de variance Lp(1p) , la densit de m/L tend vers une distribution
de Dirac en m
L =p .
m! '
np (m) devient
s
np (m) '
ou bien
L
2m(L m)
s
np (m) '
1
2L m
(1
En nommant
2m
m m
e
(3)
L
Lm
L
e(1 p)
ep m
,
e
Lm
m
m
L)
1p
1 m
L
L(1 m
L)
p
m
L
L m
L
.
m
= q,
L
2Lq(1 q)
(5)
(6)
(4)
1p
1q
L(1q) Lq
p
,
q
(7)
2Lq(1 q)
L [(1 q) (loge (1 p) loge (1 q)) + q (loge (p) loge (q))] .
(8)
1
loge n0p (q) ' loge [2L(p + )(1 p )]
2
+ L [(1 p ) (loge (1 p) loge (1 p )) + (p + ) (loge (p) loge (p + ))] , (9)
n00p () =
Entropie
n00p ()
+ L (1 p )
(p + )
.
1p
p
(10)
Le second terme de l'eq. (10) peut tre nglig quand L est grand
1
2
n00p () ' loge (2Lp(1 p)) L
.
2
2p(1 p)
Le logarithme de la densit de
m
L
(11)
est (g 4)
log[np (m)]
0
-10
-20
-30
-40
m
0
200
400
600
800
1000
Figure 4: Densit de probabilit du nombre de 1s dans des messages de longueur L = 1000 lorsque
la probabilit p d'mettre un 1 est 0.2; mmes donnes que prcdemment prsentes sur une
chelle logarithmique. La forme parabolique de la fonction montre la validit de l'approximation
par une loi gaussienne.
2
L m
1
L
L p
loge
.
2
2p(1 p)
2p(1 p)
(12)
Quand L est grand le premier terme de la somme (11) peut aussi tre nglig. La plupart des
squences ont un nombre de uns compris entre L(p ) et L(p + ) o peut tre aussi petit que
l'on veut. Quand L est grand, la probabilit que m soit en dehors de ce domaine tend vers zro
(voir les g. 5 et 6).
p(1 p)
m
.
(13)
probability that
p > s <
L
s2 L
Quand L est grand, la probabilit que m soit en dehors de ce domaine dcroit au moins aussi
vite que 1/L. Dans le cas particulier considr ici, cette probabilit dcroit bien plus vite, comme
e2(12p)L (voir la section 3.3.2).
n1/2 (p) =
L!
,
(pL)![(1 p)L]!
(14)
J. Le Roux
L=5000
30
L=1000
m/L
0.15
0.20
0.25
0.30
0.35
Figure 5: Densit de probability du nombre de 1s dans des messages de longueur L = 1000 et
L = 5000 lorsque la probabilit p d'mettre un 1 est 0.2.
-10
L=5000
-20
-30
L=1000
m/L
0.0
0.2
0.4
0.6
0.8
1.0
Figure 6: Densit de probabilit du nombre de 1s dans des messages de longueur L = 1000 et
L = 5000 quand la probabilit p d'mettre un 1 est 0.2; mmes donnes que prcdemment
L
prsentes sur une chelle logarithmique. La drive seconde de la parabole est 2p(1p)
.
alors que le nombre total de messages possibles est 2L . Nous avons
L
X
n1/2 (p) =
pL=0
L
X
pL=0
L!
= 2L .
(pL)![(1 p)L]!
(15)
n1/2 (p) =
2Lp
Lp
e
Lp p
Il peut s'crire
2L
L L
e
2L(1 p)
L(1p)
e
L(1p) .
n1/2 (p) = p
ou bien
2Lp(1
(17)
n1/2 (p) = p
(16)
(18)
Entropie
ou encore
n1/2 (p)
(19)
-50
-100
-150
p
0.0
0.2
0.4
0.6
0.8
1.0
Figure 7: Proportion de messages de longueur L comportant exactement m uns, (chelle logarithmique); cette proportion est 2L(HB 1) .
Quand L est grand, le terme prpondrant dans l'exposant est proportionnel l'entropie (g.
7 et 8)
(20)
HB (p)
1.1
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1
3.3.2
Le nombre de bits donn par le premier thorme est susant pour coder
tous les messages pour lesquels la probabilit de 'uns' est plus petite que p
n1/2 (x) =
Lp
X
Lx=0
L!
,
Lx!L(1 x)!
(21)
J. Le Roux
Nous voulons montrer que cette probabilit est borne par
Lp
X
(22)
Lx=0
o peut tre rendu aussi petit qu'on le souhaite en choisissant L susamment grand. Quand L
est susamment grand, nous pouvons utiliser l'approximation suivante par une gaussienne :
r
2L 2L(x 21 )2
.
(23)
n1/2 (x) '
e
Quand x dcroit partir de p (x < p), cette fonction dcroit extrmement rapidement (si p n'est
pas trop prs de 0.5)
r
2L 2L(p 12 )2 2L (x 12 )2 (p 12 )2
n1/2 (x) '
e
,
(24)
e
ou
Lp
X
1 e2Lp(12p)
n1/2 (p).
1 e2(12p)L )
(26)
(27)
Lx=0
Lp
X
(25)
Lx=0
Ainsi les messages correspondant une probabilit infrieure p peuvent tre ngligs car leur
nombre est trs petit en comparaison du nombre de messages correspondant une probabilit
2
proche de p : la dcroissance de e2L(xp) est trs rapide lorsque (x p) dcroit (g 9 et 10).
Cette approximation nous sera utile pour l'illustration du deuxime thorme dans la section 4.
1
2L
PLp
Lx=0
n1/2 (x)
0
-30
-60
-90
-120
-150
-180
-210
-240
-270
-300
p
0.0
0.1
0.2
0.3
0.4
0.5
Entropie
1
2L
PLp
Lx=0
n1/2 (x)
20
-20
-60
-100
-140
-180
-220
L
0
500
1000
1500
2000
2500
3000
Figure 10: Proportion de messages o la probabilit de 'uns' est comprise entre 0 et p = 0.2 (chelle
logarithmique) en fonction de L. Ce nombre est comparable au nombre de messages ayant peu
prs p 'uns'.
p+
-50
-100
-150
m
L
0.0
0.2
0.4
0.6
0.8
1.0
Figure 11: Proportion de messages de longueur L ayant exactement m uns, chelle logarithmique ;
il n'est pas ncessaire de coder les messages ayant plus de p + uns ou moins de p uns car ils
sont trs peu probables.
messages restants sont aects d'un numro, par exemple en utilisant le codage arithmtique de
Rissanen et Langdon.
Ces messages acceptables sont appels messages typiques . Etant donn le nombre de messages
dirents de cette forme, il sut d'une longueur lgrement suprieure LHB (p) pour les coder
en bits.
L
+ log2 e .
LHB (p) ' Lp log2
Lp
(29)
Pour chaque Lp 'un's du message, le nombre de bits ncessaire au codage est donn par le nombre
L
de bits ncessaire pour coder la longueur moyenne sparant deux 'uns', soit Lp
plus log2 e.
10
J. Le Roux
2M = 2LHM .
1p
p
30
p
1p
-1
s
(30)
Ce message est transmis un rcepteur et modi par un bruit binaire indpendant du message
original. (g 12). Cette transmission est caractrise par une probabilit d'erreur p, ou une entropie
HB = p log2 p (1 p) log2 (1 p).
Dans la section 4.1,nous donnons une interprtation du thorme dans ce cas simple ; dans
la section 4.2 nous donnons la formulation correspondante du problme ; dans la section 4.3
nous dduisons le nombre maximum de messages possibles et dans la section 4.4 nous montrons
nalement que nous pouvons disposer d'un nombre possible de messages aussi proche qu'on le
dsire de cette borne.
HM + HB < 1,
(31)
alors il est possible de trouver une mthode pour coder M de telle sorte que il est presque toujours
possible de reconstruire exactement le message M partir du message reu et perturb par le
bruit. La longueur de la redondance introduite dans le message, L M doit tre susante pour
dcrire le bruit, et ainsi pour dcoder le message original (g 13):
ou
L M > LHB ,
(32)
M
< 1 HB .
L
(33)
En bon mathmaticien, Claude Shannon montre qu'il existe certainement une mthode pour
eectuer le codage permettant le dcodage sans erreur, mais il ne propose aucune piste pour la
trouver ! Il ne dit pas s'il est possible de trouver des codeurs ecaces pour lesquels le dcodage
ne sera pas excessivement complexe... On peut dduire de la dmonstration de Shannon que la
Entropie
11
useful message
syndrome (redundancy)
L
Figure 13: Allongement du message par adjonction d'un syndrome de longueurs susante pour
que les erreurs de transmission puissent tre corriges. La longueur minimale du syndrome est
proportionnelle l'entropie du bruit B (nous supposons que l'entropie du message origianl de
longueur M est gale 1, et qu'en consquence il ne peut pas tre comprim.
plupart des codes sont probablement de bons codes, car en moyenne, ils atteignent l'objectif dsir ;
cependant, la complexit de leur dcodage empche d'envisager leur utilisation.
Trouver une mthode de codage pertinente, et plus particulirement une mthode de dcodage
raisonnablement complexe demeure un problme ouvert. Il a fallu attendre quarante cinq ans
pour voir une proposition de codage et de dcodage dont les performances sont proches de la
borne de Shannon : les turbocodes invents par Claude Berrou et ses collgues ... Les vrications
exprimentales sont convaincantes, mais il ne semble pas qu'il y ait pour le moment une justication
thorique rigoureuse des performances des turbocodes.
La dmonstration de Shannon est abstraite, lgante et concise. Le lecteur peut se rfrer
plusieurs ouvrages (voir par exemple les rfrences bibliographiques la n du document.) Ici le
but est seulement d'illustrer dans un cas simple les points principaux de cette dmonstration qui ne
me paraissent pas intuitifs ; ceci peut peut-tre aider des tudiants ou des personnes intresses par
le sujet qui ne dominent pas bien des notions qui sont probablement considres comme videntes
par les experts de la thorie de l'information et sur lesquelles ceux-ci insistent rarement. Le point
central du thorme est le suivant :
q
or
2L
2LM
L (LM )2LM
2L2
e2L 2LM
Shannon suppose que tous ces codeurs peuvent tre choisis avec la mme probabilit. Ici nous
prenons un codeur au hasard. La probabitit qu'un des 2L mots est un mot du code est
2M
2L
car il y a 2L mots dierents et 2M messages possibles. Quand L augmente pour un M x, cette
proportion dcrot rapidement. Il sera possible de trouver des mots de code de telle sorte que la
distance entre deux mots de code soit plus grande qu'un seuil donn, ce qui permettra d'viter la
confusion entre ces mots de code.
12
J. Le Roux
2M 2LHB 2L .
(34)
Lorsqu'il n'y a pas de bruit de transmission, (p = 0, HB (p) = 0), il est possible de coder 2L
messages ; si p = 21 et HB (p) = 1, il n'est pas possible de transmettre d'information par ce canal.
Il ne peut pas y avoir plus de 2LLHB (p) messages dierents, car il y a 2LHB (p)
congurations du bruit et 2L mots de code possibles.
Un plus grand nombre de messages impliquerait ncessairement des erreurs la reconnaissance.
Nous montrons maintenant que le nombre de messages peut tre aussi proche que l'on veut de
cette borne.
Q=
Lp
Lp
X
X
1
L!
1
n
(x)
=
,
1/2
L
2
xL!(L xL)! 2L
(36)
xL=0
xL=0
Q=
Lp
X
xL=0
1
2L
(37)
Nous avons vu dans la section 3.3.2, eq. (22 - 27), que l'ordre de grandeur de cette probabilt
d'erreur est donne par (g. 14)
n1/2 (p)
2LHB
'
.
(38)
Q'
L
2
2L
Entropie
13
PLp
1
Lx=0 2L n1/2 (x)
L = 1000
-50
-100
L = 5000
-150
p:
0.0
0.2
0.4
0.6
0.8
1
L
1.0
Figure 14: Probabilit d'erreur entre deux mots (chelle logarithmique) : Quand L est susamment
grand, la probabilit de confondre un message avec un autre peut tre rendue aussi petite qu'on le
souhaite. Si cette probabilit dcroit plus vite que 2M quand L augmente, M
L restant constant, il
sera presque toujours possible de reconnaitre le mot mis.
On peut dduire de cette formule une borne sur la probabilit qu'aucun des 2M 1 mots est une
distance plus petite que Lp de ce mot : La probabilit qu'il y ait au moins une erreur est borne
par
S=
M
2X
1
(39)
M + LHB L < 0.
Si L est susamment grand, la fraction
M
L
(40)
(41)
< 1 HB + .
L
L
(42)
HM =
M
< 1 HB ,
L
(43)
est vrie. Cette borne est la capacit du canal. Il peut tre intressant de montrer la redondance
L
1
=
,
M
1 HB
(44)
5 Conclusion
Nous avons propos deux illustrations simples des thormes de Shannon fondes sur l'utilisation
de la formule de Stirling.
Mme si le rsultats de Shannon sont bien plus gnraux, et en dpit de l'inlgance des dveloppements, nous esprons que cette prsentation peut aider la comprhension des aspects concrets
de ces thormes. Les suggestions d'amlioration et les corrections sont bienvenues, envoyez un
mail leroux@essi.fr.
14
J. Le Roux
Necessary redundancy
9
8
7
6
5
4
3
2
1
0
0.00
p
0.05
0.10
0.15
0.20
0.25
0.30
6 Bibliographie
6.1 Quelques references historiques
R. Clausius, Ueber verschiedene fr die anwendung bequeme formen der Hauptgleichungen
der mechanischen Wrmetheorie, (On dierent forms, convenient for application, of the main
equations of the mechanical heat theory) Annalen der physik und chemie, band CXX5, no 7, 1865,
pp 353-400.
L. Boltzmann, Uber die Beziehung zwischen dem zweiten Hauptsatze der mechanischen Wrmetheorie und der Wahrscheinlichkeitsrechnung, respective den Stzen ber das Wrmegleichgewicht, (On the Relation Between the Second Law of the Mechanical Theory of Heat and the Probability Calculus with Respect to the Theorems on Thermal Equilibrium), Sitzb. d. Kaiserlichen
Akademie der Wissenschaften, mathematich-naturwissen Cl. LXXVI, Abt II, 1877, pp. 373-435.
M. Planck, Uber des Gesetz der Energieverteilung im Normalspectrum, On the Law of Energy
Distribution in Normal Spectra, Annalen der Physik, 4, 1901, pp 553-563. (french translation : A
propos de la loi de distribution de l'nergie dans le spectre normal, Sources et volution de la
physique quantique, textes fondateurs, J. Leite-Lopes et B. Escoubs, edts, Masson, 1995. pp.
20-27.)
A. Einstein, Uber einen die Erzeugung und Verwandlung des Lichtes betreenden heuristischen
Gesichtspunkt, (On a Heuristic Viewpoint Concerning the Production and Transformation of
Light) Annalen der Physik, 17, 1905, pp. 132-148. (french translation : Un point de vue heuristique
concernant la production et la transformation de la lumire, Sources et volution de la physique
quantique, textes fondateurs, J. Leite-Lopes et B. Escoubs, edts, Masson, 1995. pp. 28-40.)
C. E. Shannon, A mathematical theory of communication, Bell System Technical Journal,
vol. 27, pp. 379-423 and 623-656, July and October, 1948.
L. Brillouin, Science and Information theory, Academic Press, 1962.
R. G. Gallager,The work of Claude Shannon, IEEE Trans. on IT, nov. 2001.
6.2
References imprimes
Entropie
15
J. Rissanen and G.G. Langdon, Arithmetic coding, IBM J. Res. Develop., Vol. 23, No. 2, pp.
149-162, March 1979.
J. Rissanen and G.G. Langdon, Universal modeling and coding, IEEE Trans. on Information
Theory, Vol. 27, No. 1, pp. 12-23, January 1981.
C. Berrou, A. Glavieux and P. Thihimajshima, Near Shannon limit error-correcting coding
and decoding : turbo codes, Proc. 1993, Int. Conf. Comm., pp 1064-1070.
C. Berrou and A. Glavieux, Near Shannon limit error-correcting coding and decoding : turbo
codes, IEEE Trans. Comm., Oct. 1996, pp. 1261-1271.