You are on page 1of 17

MESURE DE L'INFORMATION

Marc URO
TABLE DES MATIÈRES
INTRODUCTION............................................................................................................... 3
INCERTITUDE D'UN ÉVÉNEMENT (OU SELF-INFORMATION).................... 7
INFORMATION MUTUELLE DE DEUX ÉVÉNEMENTS .................................. 9
ENTROPIE D'UNE VARIABLE ALÉATOIRE DISCRÈTE.................................. 10
ENTROPIE ET INFORMATION LIÉES À UN COUPLE DE
VARIABLES............................................................................................................. 13
INFORMATION MUTUELLE CONDITIONNELLE............................................ 16
3
INTRODUCTION
Les premières tentatives de définition de mesure de l'information datent des années
vingt. Citons Nyquist pour l'aspect communication et Fisher d'un point de vue
statistique (l'information de Fisher figure dans la borne de Cramer-Rao qui est un
minorant de la variance d'une certaine classe d'estimateurs). Mais ce n'est qu'à partir de
1948, grâce aux travaux de Shannon, que la théorie de l'information a pris sa forme
actuelle.
Donner une définition précise et complète de la théorie de l'information est une tâche
difficile. Pour simplifier on peut énoncer l'assertion suivante; La théorie de
l'information est une discipline fondamentale qui s'applique dans le domaine des
communications. Son objet consiste d'une part à déterminer les limites imposées par les
lois de la nature lorsqu'on doit stocker ou transmettre le contenu d'une source
(d'information), d'autre part à proposer des dispositifs permettant d'atteindre ou
d'approcher ces limites. La théorie de l'information ne cesse de se développer car les
exigences actuelles s'orientent vers une augmentation constante de l'information à
stocker ou à transmettre.
Exemple: Norme 4.2.2 de la télévision numérique (adoptée en 1981 par le CCIR,
Comité Consultatif International des Radiocommunications)
Cas d'une image couleur fixe
Une image est caractérisée par trois composantes Y, C
b
, C
r
que l'on appelle les
primaires. Y est la caractéristique de luminance tandis que C
b
et C
r
sont des
caractéristiques de chrominance. L'image est formée de points (ou pixels) qui sont au
nombre de 720 pour chacune des 576 lignes. Chaque primaire est codée sur 8 éléments
binaires correspondant à 2
8
· 256 niveaux de quantification. D'autre part, l'oeil étant
moins sensible à la couleur qu'à la luminance, on estime qu'il est suffisant que les
primaires C
b
et C
r
ne soient présentes qu'un point sur deux.
Ainsi on peut calculer le nombre d'éléments binaires contenus dans une image:
576 × 720 × 8 + 576 ×360 × 8 ( )× 2 ≈ 6, 63 ×10
6
eb soit
6, 63
8
≈ 0, 83 Moctet .
4___________________________________________________________ introduction
La capacité d' une disquette 3 pouces 1/2 haute densité étant d'environ 1,4 Moctet
après formatage, on constate qu'une telle disquette ne peut contenir qu'une seule
image.
Cas d'une image couleur animée
La fréquence image est de 25 Hertz (25 images par seconde). Ainsi la transmission
d'une séquence animée nécessite un débit net de:
6, 63 ×10
6
× 25 ≈ 166 Mbits / sec .
En fait ce débit ne tient pas compte des signaux complémentaires indispensables à la
synchronisation. En ajoutant ces signaux dits signaux de service, on obtient un débit
brut de 216 Mbits / sec .
Sachant que sur le réseau numérique, le débit maximum est de 144 Mbits / sec , on
constate que la transmission d'un tel signal nécessitera des traitements.
Le traitement du contenu d'une source d'information peut être envisagé sous deux
formes:
- sans perte d'information,
- avec perte d'information.
Nous nous limiterons, dans le cadre de ce fascicule, au traitement sans perte (ou
presque) d'information.
Le schéma d'une communication peut être représenté comme suit: (il s'agit du
paradigme de Shannon)
SOURCE codage de source codage de canal
décodage de canal
décodage de source
C
A
N
A
L
mots source restitués
introduction ___________________________________________________________ 5
Le codage de source consiste à éliminer les redondances de la source afin d'en réduire le
débit binaire.
Le codage de canal a un rôle de protection contre les erreurs (dues à la transmission sur
le canal) qui est assuré en ajoutant de la redondance (codes correcteurs d'erreurs).
Les points de vue codage de source et codage de canal sont donc fondamentalement
différents.
Le plan du fascicule est organisé comme suit:
CHAPITRE I
Définitions des grandeurs informationnelles concernant les événements et les variables
aléatoires.
CHAPITRE II
Extension de la notion d' entropie (incertitude moyenne) d'une variable aléatoire à la
notion d'entropie d'une source discrète. Étude du problème posé par le codage de
source.
CHAPITRE III
Caractérisation et modélisation des supports de transmission du point de vue de leur
aptitude à transmettre de l'information. Capacité d'un canal discret, codage de canal.
CHAPITRE IV
Aptitude des codes linéaires à détecter et corriger des erreurs.
7
MESURE DE L'INFORMATION
INCERTITUDE D'UN ÉVÉNEMENT (OU SELF-INFORMATION)
La difficulté rencontrée pour définir la self-information relative à un événement est liée
au caractère subjectif de l'information effectivement apportée par la réalisation de cet
événement.
Pour gommer cet aspect subjectif, on peut considérer qu'a postériori la quantité
d'information reçue est d'autant plus grande que l'on ne s'attendait pas à observer la
réalisation d'un événement. En d'autres termes on peut aussi énoncer qu'a priori,
l'incertitude d'un événement est d'autant plus grande que l'on ne s'attend pas à ce qu'il se
réalise.
Prenant en compte la correspondance entre l'incertitude (ou self-information) d'un
événement et son caractère plus ou moins probable, on est amené à définir la mesure
d'incertitude (ou self-information) comme une fonction d'une application probabilité.
Ceci nécessite de disposer d'un espace probabilisé.
Soient (Ω, T, P) un espace probabilisé et E un événement de T. On se propose de définir
une mesure d'incertitude h(E) liée à l'événement E de telle sorte que:
- h(E) soit d'autant plus grande que P E { ¦ est petite. On peut poser h E ( ) · f
1
P E { ¦
|
.

`
,

avec f fonction croissante.
- h E ( ) · 0 si P E { ¦ ·1. Il n'y a aucune incertitude quant à la réalisation d'un
événement certain. Donc f 1 ( ) · 0.
- Si E et F sont deux événements indépendants, h E ∩ F ( )· h E ( )+ h F ( ) c'est-à-dire:
f
1
P E ∩ F { ¦
|
.

`
,

· f
1
P E { ¦
×
1
P F { ¦
|
.

`
,

· f
1
P E { ¦
|
.

`
,

+ f
1
P F { ¦
|
.

`
,

.
On recherche donc une fonction f telle que:
8__________________________________________________ mesure de l'information
f : 1, +∞
[ [
→IR
+
f est croissante
f xy
( )
· f x ( ) + f y
( )
f 1 ( ) · 0
¹
'
¹

¹
On va établir une équation différentielle vérifiée par f .
En dérivant les deux membres de l'équation f xy ( )· f x ( )+ f y ( ) par rapport à x, on
obtient : y f ' xy ( )· f ' x ( ) ∀ x, y .
Soit, en prenant y ·
1
x
,
1
x
f ' 1 ( ) · f ' x ( ).
On a donc ′ f x ( ) ·
1
x
′ f 1 ( ) avec ′ f 1 ( ) > 0
La solution est de la forme: f x ( )· α Ln x avec α > 0 soit encore:
f x ( )· β
Ln x
Lna
avec β > 0 et a > 1. On peut choisir β · 1.
Si on prend a · e , f est la fonction logarithme népérien et l'unité d'incertitude est le
nat. Si on choisit a · 2 , f est la fonction logarithme à base deux et l'unité d'incertitude
est le bit ou le Shannon.). On notera désormais log le logarithme à base a.
Remarque : Ici bit est l'abréviation de binary unit qu'il ne faut pas confondre avec binary
digit.
On a donc h E ( ) · −log P E { ¦ 1 ( )
et h E ( ) peut être interprété:
- a priori, par l'incertitude qui règne sur la réalisation de E.
- a postériori, par l'information apportée par la réalisation de E.
On peut bien sûr étendre la définition de h E ( ) au cas d'une application probabilité
conditionnelle et on note alors: h F / E ( ) · −logP F / E { ¦. Remarquant que
P E ∩ F { ¦· P E { ¦× P F / E { ¦
,
on déduit:
h E ∩ F ( )· h E ( )+ h F / E ( ) ∀ E, F ( )∈T
2
2 ( )
.
mesure de l'information__________________________________________________ 9
Dans le cas particulier où E et F sont indépendants, on retrouve l'axiome:
h E ∩ F ( )· h E ( )+ h F ( ) ′ 2 ( )
.
INFORMATION MUTUELLE DE DEUX ÉVÉNEMENTS
L'information apportée par F sur E est la diminution de l'incertitude sur E lorsque F
est réalisé.
I
F→E
· h E ( )− h E / F ( ) 3 ( )
I
F→E
· −log P E { ¦ + logP E / F { ¦ · − logP E { ¦+ log
P E ∩F { ¦
P F { ¦
I
F→E
· log
P E ∩ F { ¦
P E { ¦× P F { ¦
· log
P E { ¦× P F / E { ¦
P E { ¦× P F { ¦
· −logP F { ¦+ logP F / E { ¦
I
F→E
· h F ( )
− h F / E ( )
· I
E→F
′ 3 ( )
Comme I
E→F
· I
F→E
, on appelle information mutuelle entre E et F la quantité:
I E;F ( )
· I
E→F
· I
F→E .
Si E et F sont indépendants, alors P F / E { ¦ · P F { ¦ et I E; F ( )· 0 .
En combinant (2) et (3'), on obtient: h E ∩ F ( )· h E ( )+ h F ( )− I E; F ( ) 4 ( )
On peut résumer les relations précédentes sur un diagramme de Venn:
h(E)
h(F)
I(E;F)
10_________________________________________________ mesure de l'information
.
ENTROPIE D'UNE VARIABLE ALÉATOIRE DISCRÈTE
Soit X une variable aléatoire à valeurs dans x
1
, x
2
,. .., x
n
{ ¦
(avec éventuellement
n · +∞) telle que p
i
· P X · x
i
{ ¦
∀i ∈1, n [ ].
L'entropie de X notée H(X) est la moyenne des incertitudes calculée sur les événements
X · x
i
{ ¦
.
H X ( ) · − p
i
log p
i
i·1
n

5 ( )
Remarques
- H(X) dépend de la loi de probabilité de X mais n'est pas fonction des valeurs prises
par X.
- H(X) correspond à l'espérance mathématique de la variable aléatoire incertitude I
X
définie par I
X
· −logP X ( ) avec P X ( ) · p
i
sur X · x
i
{ ¦
. On a donc :
I
X
· − 1I
X=x
i
{ ¦
log p
i
i·1
n

. Soit H X ( ) · E I
X
[ ]
· E −logP X ( )
[ ]
.
- Exprimée en Shannons, H(X) représente le nombre moyen de bits nécessaires à la
codification binaire des différentes réalisations de X.
Exemple
On extrait au hasard une carte d'un jeu de 32 cartes. A chacune des 32 cartes on associe
une valeur différente des 31 autres valeurs correspondant aux 31 autres cartes par le
biais d'une variable aléatoire X. Les valeurs prises par X ne sont pas précisées car elles
n'interviennent pas dans le calcul de H(X). De plus on suppose que chaque carte a la
même probabilité d'être extraite.
On a H(X) · −32 ×
1
32
× log
2
1
32
· log
2
32 · 5 Sh .
mesure de l'information_________________________________________________ 11
Pour savoir quelle carte a été extraite, on peut demander si sa couleur est rouge ou
noire, s'il s'agit d'un coeur ou d'un carreau (resp un trèfle ou un pique), si la carte
appartient au groupe (7, 8, 9, 10) ou (valet, dame, roi, as), puis à quel sous-groupe
constitué de deux cartes elle appartient et enfin laquelle des deux cartes correspond à la
carte tirée. Les réponses à ces cinq questions peuvent être résumées par cinq bits ('1'
pour oui et '0' pour non).
Une autre façon de modéliser le problème consiste à attribuer un numéro (de 0 à 31) à
chaque carte. L'écriture de ces numéros en base deux requiert log
2
32 · log
2
2
5
· 5 bits
PROPRIÉTÉS DE L'ENTROPIE
Lemme
Soient p
1
, p
2
, ... , p
n
( ) et q
1
, q
2
, .. ., q
n
( ) deux lois de probabilité, alors: p
i
log
q
i
p
i i ·1
n

≤ 0 .
En effet ∀x > 0 on a Ln x ≤ x −1
0 x
Ln x
x-1
1
D'où Ln
q
i
p
i

q
i
p
i
−1, soit log
q
i
p
i

1
Lna
q
i
p
i
−1
|
.

`
,

12_________________________________________________ mesure de l'information
donc p
i
log
q
i
p
i i ·1
n


1
Lna
p
i
i ·1
n

q
i
p
i
−1
|
.

`
,

·
1
Lna
q
i

i ·1
n

p
i
i ·1
n

|
.

`
,
·
1
Lna
1−1 ( )· 0
Propriété 1
L'entropie d'une variable aléatoire X à n valeurs possibles est maximum et vaut log(n)
lorsque la loi de X est uniforme.
Il suffit d'appliquer le lemme précédent avec q
1
· q
2
·... · q
n
·
1
n
.
Ainsi, − p
i
log
i ·1
n

p
i
≤ − p
i
log
i·1
n

1
n
· −
1
n
log
i·1
n

1
n
· −logn.
L'incertitude sur X est la plus grande si toutes les valeurs possibles ont la même
probabilité de se réaliser.
Propriété 2
L'entropie augmente lorsque le nombre de valeurs possibles augmente.
En effet soit X à valeurs possibles x
1
, x
2
,. .., x
n
{ ¦
de loi p
1
, p
2
, ... , p
n
( ). Supposons que la
valeur x
k
de probabilité p
k
soit 'éclatée' en deux valeurs y
k
et z
k
de probabilités α
k
, β
k
avec α
k

k
· p
k
α
k
≠ 0 et β
k
≠ 0 . Alors l'entropie de la nouvelle variable aléatoire
X' ainsi obtenue s'écrit H ′ X ( ) · H X ( ) + p
k
log p
k
− α
k
logα
k
− β
k
logβ
k
. d'où
H ′ X ( )− H X ( ) · α
k
+ β
k
( )log p
k
− α
k
logα
k
−β
k
logβ
k
H X' ( )− H X ( )· α
k
log p
k

k
log p
k
− α
k
logα
k
− β
k
logβ
k
.
Or, la fonction logarithme étant strictement croissante, on a:
log p
k
> logα
k
et log p
k
> logβ
k
soit H ′ X ( )− H X ( )
> 0 , c'est-à-dire:
H ′ X ( )> H X ( ).
Propriété 3
L'entropie est une fonction ∩ convexe de p
1
, p
2
, ... , p
n
( ).
En effet H X ( ) · − p
i
log p
i
i·1
n

· gof
i
i ·1
n

p
1
, p
2
,... , p
n
( )
mesure de l'information_________________________________________________ 13
avec f
i
l'application projection sur l'axe i:
f
i
: 0,1 [ ]
n
→ 0,1 [ ]
p
1
, p
2
, ... , p
n
( )
→ p
i
et
g: 0,1
[ ]
→IR
+
p →−plog p
g est ∩ convexe car ′ g p ( )· −log p −
1
Ln2
p
p
· −
1
Ln2
−log p et ′ ′ g p ( ) · −
1
p
< 0 .
Comme f
i
est une forme linéaire, gof
i
est ∩ convexe et H(X) est ∩ convexe car
somme de fonctions ∩ convexes.
ENTROPIE ET INFORMATION LIÉES À UN COUPLE DE
VARIABLES
Soient X et Y deux variables aléatoires discrètes respectivement à valeurs dans
x
1
, x
2
,. .., x
n
{ ¦
et y
1
, y
2
, ... , y
m
{ ¦
. Si on désigne par p
ij
· P X · x
i
∩Y · y
j
{ ¦
la loi du
couple (X, Y), on peut sans difficulté prolonger la définition de l'entropie d'une variable
aléatoire à l'entropie d'un couple de variables aléatoires. Ainsi:
H(X, Y) · − p
ij
log
j ·1
m

i ·1
n

p
ij
(6)
On peut également, en s'inspirant des grandeurs informationnelles relatives aux
événements, définir les entropies conditionnelles et l'information mutuelle:
H X / Y · y
j
( )
· − P X · x
i
/ Y · y
j
{ ¦
i ·1
n

logP X · x
i
/ Y · y
j
{ ¦ (7)
Par la suite, on notera p
i / j
· P X · x
i
/ Y · y
j
{ ¦
.
H(X / Y) · P Y · y
j
{ ¦H X / Y · y
j
( )
j ·1
m

H X / Y ( ) · − P Y · y
j
{ ¦P X · x
i
/ Y · y
j
{ ¦
i·1
n

j ·1
m

log P X · x
i
/ Y · y
j
{ ¦
14_________________________________________________ mesure de l'information
soit
H(X / Y) · − p
ij
log p
i / j
j ·1
m

i ·1
n

(8)
H X / Y ( ) représente l'incertitude sur X lorsqu'on connait Y.
De même l'information mutuelle moyenne entre X et Y peut s'écrire:
I X;Y ( ) · H(X) − H(X / Y) · H(Y) − H(Y / X) (9)
I(X;Y) correspond à la diminution de l'incertitude sur X (resp. Y) lorsqu'on connait Y
(resp. X).
D'après (9), on a:
I X;Y ( ) · − p
i
log p
i
i ·1
n

+ p
ij
log p
i/ j
(10)
i ·1
n

j ·1
m

or p
i
· p
ij
j ·1
m

donc
I(X;Y) · − p
ij
log p
i
j ·1
m

i ·1
n

+ p
ij
log p
i/ j
j ·1
m

i ·1
n

d'où
I(X;Y) · p
ij
j ·1
m

i·1
n

log
p
i / j
p
i
· p
ij
j ·1
m

i ·1
n

log
p
ij
p
i
p
. j
(11)
avec p
. j
· p
ij
i ·1
n

`
On a donc
I(X;Y) · E log
P(X, Y)
P(X)P(Y)



]
]
]
(12)
Propriétés
- L'information mutuelle moyenne de X et de Y est toujours positive (ce n'est pas le
cas pour l'information mutuelle entre deux événements qui prend des valeurs négatives
lorsque la réalisation de l'un des événements rend l'autre moins probable).
On a −I(X;Y) · p
ij
log
p
i
p
. j
p
ij
j ·1
m

i ·1
n


1
Ln2
p
ij
j ·1
m

i·1
n

p
i
p
. j
p
ij
−1
|
.

`
,
car Ln x ≤ x − 1
mesure de l'information_________________________________________________ 15
d'où −I(X;Y) ≤
1
Ln2
p
i
j ·1
m

i ·1
n

p
. j
− p
ij
j ·1
m

i·1
n

|
.

`
,

·
1
Ln2
1 −1 ( ) · 0
- Le conditionnement diminue l'incertitude
En d'autres termes cela signifie que H(X) ≥ H( X / Y) . Il suffit d'appliquer (9) en
utilisant la propriété précédente.
- H(X) + H(Y) · H(X, Y) + I(X;Y) (14)
En effet H(X) · − p
i
log p
i
i ·1
n

· − p
j /i
p
i
i ·1
n

j ·1
m

log p
i
· − p
ij
log p
i
j·1
m

i ·1
n

De même H(Y) · − p
. j
log p
. j
i·1
n

· − p
ij
logp
. j
j ·1
m

i ·1
n

On a donc H(X) + H(Y) · − p
ij
log p
i
p
. j
j ·1
m

i·1
n

· − p
ij
log p
ij
+
j ·1
m

i ·1
n

p
ij
log
p
ij
p
i
p
. j j ·1
m

i ·1
n

D'où H(X) + H(Y) · H(X, Y) + I(X;Y)
- H(X, Y) · H(X) + H(Y / X) · H(Y) + H(X / Y) (15)
Ce résultat s'obtient facilement en combinant (9) et (14).
On peut illustrer ces relations par une représentation en diagramme de Venn:
I(X;Y)
H(X/Y)
H(X)
H(Y)
H(Y/X)
16_________________________________________________ mesure de l'information
Dans le cas particulier où X et Y sont indépendantes, en reprenant (7), (8), (9) et (14),
on obtient:
H(X / Y · y) · H(X)
H(X / Y) · H(X) (16)
I(X;Y) · 0 (17)
H(X) + H(Y) · H(X, Y) (18)
INFORMATION MUTUELLE CONDITIONNELLE
Par extension de la formule (9), on peut introduire la notion d'information mutuelle
(moyenne) entre deux variables X et Y conditionnellement à l'événement Z · z { ¦ où Z
est une troisième variable:
I(X;Y / Z · z) · H(X / Z · z) − H(X / Y, Z · z) (19)
En multipliant les deux membres de (19) par P Z · z { ¦ et en sommant sur toutes les
valeurs possibles de Z, on obtient:
P Z · z { ¦
z

I(X;Y / Z · z) · H(X / Z) − H( X / Y, Z)
Le membre de gauche pouvant être interprété comme I X;Y / Z ( ), on définit
l'information mutuelle entre X et Y sachant Z par
I(X;Y / Z) · H( X / Z) − H( X / Y, Z) · H(Y / Z) − H(Y / X, Z) (20)
Nous allons maintenant montrer que:
I(X;(Y, Z)) · I(X;Y) + I(X;Z / Y) (21)
En appliquant (9) au couple X, Y, Z ( ) ( ), on obtient
I(X;(Y, Z)) · H(X) − H(X / Y, Z), mais I(X;Z) · H(X) − H(X / Z) , soit:
H(X) · I(X; Z) + H(X, Z) d'où:
I(X;(Y, Z)) · I(X; Z) + H(X / Z) − H(X / Y, Z). D'où en appliquant (20):
I(X;(Y, Z)) · I(X; Z) + I(X;Y / Z)
mesure de l'information_________________________________________________ 17
Notons que si Y est indépendante de X sachant Z, ie P Y / X, Z { ¦ · P Y / Z { ¦, on a:
H(Y / X, Z) · H(Y / Z) et ainsi I(X;Y / Z) · 0.
Les relations énoncées ci-dessus vont nous permettre d'établir une propriété importante
vérifiée par l'information mutuelle qui nous permettra de définir la capacité d'un canal.
Si on note p · (p
1
, p
2
,. .. , p
n
) le vecteur représentant la loi de probabilité de X et Q celui
correspondant aux probabilités conditionnelles p
j / i
· P Y · y
j
/ X · x
i
{ ¦
, on peut alors
considérer I(X;Y) comme une fonction des deux variables p et Q que l'on note I(p;Q).
Nous allons montrer que:
I( p;Q) est une fonction ∩ convexe de p et ∪ convexe de Q.
- Montrons tout d'abord que I(p;Q) est une fonction ∩ convexe de p. Pour cela on se
fixe le vecteur de probabilités de transition Q et on se donne p
0
et p
1
deux vecteurs de
probabilité pour X. Il nous faut montrer que ∀θ ∈ 0,1 [ ], on a:
θI( p
0
;Q) + (1− θ)I(p
1
;Q) ≤ I(p;Q) où p · θp
0
+ (1− θ)p
1
.
L'idée consiste à interpréter p
0
et p
1
comme des probabilités conditionnellement à une
variable auxiliaire Z pouvant prendre les valeurs 0 et 1 avec les probabilités respectives
θ et 1 −θ .
Ainsi la i
ième
composante de p
0
peut s'écrire: p
0
(i) · P X · x
i
/ Z · 0
{ ¦
.
De même la i
ième
composante de p
1
peut s'écrire: p
1
(i) · P X · x
i
/ Z ·1
{ ¦
.
Le vecteur p représente la loi de X puisque:
θp
0
(i) + (1 − θ) p
1
(i) · P Z · 0 { ¦P X · x
i
/ Z · 0
{ ¦
+ P Z · 1 { ¦P X · x
i
/ Z ·1
{ ¦
θp
0
(i) + (1 − θ) p
1
(i) · P X · x
i
∩ Z · 0
{ ¦
+ P X · x
i
∩ Z ·1
{ ¦
· P X · x
i
{ ¦
· p
i
(car les
événements Z · 0 { ¦ et Z · 1 { ¦ sont complémentaires).
De plus, on peut imposer l'indépendance entre les deux variables Y et Z sachant X (ie
P Y / Z, X { ¦ · P Y / X { ¦), de telle sorte que I(p
0
;Q) (resp. I(p
1
;Q)) puisse être
interprété comme I(X;Y / Z · 0) (resp. I(X;Y / Z · 1)).
18_________________________________________________ mesure de l'information
Ainsi le membre de gauche de l'inégalité s'écrit:
P Z · 0 { ¦I(X;Y / Z · 0) + P Z ·1 { ¦I(X;Y / Z · 1) · I(X;Y / Z).
On est donc conduit à montrer que: I(X;Y / Z) ≤ I(X;Y) .
Or I(Y; X, Z) · I(Y; X) + I(Y; Z / X) ⇔ (1) , soit en permutant les rôles de X et Z:
I(Y; X, Z) · I(Y; Z) + I(Y; X / Z) ⇔ (2) .
Or P Y / Z, X { ¦ · P Y / X) { ¦ ⇒ H(Y / Z, X) · H(Y / X)
d'où I(Y; Z / X) · H(Y / X) − H(Y / Z, X) · 0.
(1) ⇒ I(Y;( X, Z)) · I(Y; X) · I(X;Y) et
(2) ⇒ I(Y; X / Z) · I(Y;(X, Z)) − I(Y, Z) ≤ I(Y;(X, Z)) · I(X;Y) (cqfd).
- Montrons maintenant que I(p;Q) est une fonction ∪ convexe de Q à p fixé.
Soient Q
0
et Q
1
deux probabilités de transition et θ ∈ 0,1 [ ]. Si on pose
Q · θQ
0
+ (1 − θ)Q
1
, il faut montrer que θI( p;Q
0
) + (1 − θ)I(p;Q
1
) ≥ I(p;Q). On peut de
plus considérer Q
0
et Q
1
comme des lois condiditionnelles à une variable binaire
auxiliaire Z indépendante de X et telle que:
Q
0
( j / i) · P Y · y
j
/ X · x
i
∩ Z · 0
{ ¦
Q
1
(j / i) · P Y · y
j
/ X · x
i
∩ Z ·1 { ¦
θ · P Z · 0 { ¦ 1 − θ · P Z ·1 { ¦
Ainsi le membre de gauche de l'inégalité à montrer devient:
P Z · 0 { ¦I(X;Y / Z · 0) + P Z ·1 { ¦I(X;Y / Z · 1) · I(X;Y / Z).
On doit donc établir que I(X;Y / Z) ≥ I(X;Y) . Pour cela on utilise:
I(X;(Y, Z)) · I(X;Y) + I( X; Z / Y) · I(X;Z) + I(X;Y / Z) . Et l'indépendance de X et Z
entraîne I(X;Z) · 0 .
D'où I(X;Y / Z) · I(X;(Y, Z)) · I(X;Y) + I(X;Z / Y) ≥ I(X;Y) (cqfd).