You are on page 1of 254

maq_proba 5/01/07 11:53 Page 1

Ce livre s’adresse aux étudiants de licence ou master de
mathématiques (L3-M1) et à ceux qui préparent le Capes ou
l’agrégation.

Il est consacré à l’exposition des notions de base du calcul des
probabilités. Il s’appuie de façon essentielle sur la théorie de la
mesure et de l’intégration de Lebesgue. Les mesures de
probabilité discrètes ou à densité sont donc étudiées dans un
même cadre, au titre d’exemples privilégiés les plus usuels. Après
des rappels sur l’intégration, l’ouvrage développe successivement
les thèmes suivants : lois de variables aléatoires, indépendance
et addition des variables aléatoires indépendantes, convergence
de suites de variables aléatoires et théorèmes limites,
conditionnement, martingales à temps discret et chaînes de
Markov à espace d’états dénombrable. Chaque chapitre est
complété par une série d’exercices destinés à approfondir et
illustrer les éléments de la théorie venant d’être introduits.

Philippe Barbe, chargé de recherches au CNRS, est spécialiste de
statistique. Michel Ledoux, professeur à l’université Paul Sabatier
à Toulouse, est spécialiste des probabilités. Ils ont tous les deux
publié des articles de recherche en statistique et probabilité ainsi
que plusieurs livres.

Graphisme : Béatrice Couëdel www.edpsciences.org

26 euros
ISBN : 978-2-86883-931-2

www.bibliomath.com

i i
“barbe” — 2007/1/8 — 10:41 — page viii — #8
i i

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page i — #1
i i

PROBABILITÉ

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page viii — #8
i i

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page i — #1
i i

PROBABILITÉ

Philippe Barbe et Michel Ledoux

Collection dirigée par Daniel Guin

17, avenue du Hoggar
Parc d’activités de Courtabœuf, BP 112
91944 Les Ulis Cedex A, France

i www.bibliomath.com i

i i

des pages publiées dans le présent ouvrage.bibliomath. BP 112. les courtes citations justifiées par le caractère scientifique ou d’information de l’œuvre dans laquelle elles sont incorporées (art. S’adresser au : Centre français d’exploitation du droit de copie. avenue du Hoggar. L. les reproductions strictement réservées à l’usage privé du copiste et non destinées à une utilisation collective. 122-4. les courbes supérieure et inférieure sont les bornes de la loi du lo- garithme itéré. d’une part. 75006 Paris. d’adaptation et de reproduction par tous procédés réservés pour tous pays. EDP Sciences. Seules sont autorisées.com i i i . et l’intervalle vertical atteint par la marche aléatoire illustre une application du théorème limite central. 3. Des photocopies payantes peuvent être réalisées avec l’accord de l’éditeur. par quelque procédé que ce soit. : 01 43 26 95 35. Tél. et d’autre part. i i “barbe” — 2007/1/8 — 10:41 — page ii — #2 i i L’illustration de couverture représente une marche aléatoire centrée. Toute reproduction ou représentation intégrale ou partielle. linéairement interpolée . 335-2 du Code de la propriété intellectuelle). faite sans l’autorisation de l’éditeur est illicite et constitue une contrefaçon. Parc d’activités de Courtabœuf. rue Hautefeuille.  c 2007. 17. Imprimé en France ISBN : 978-2-86883-931-2 Tous droits de traduction. 122-5 et L. L. 91944 Les Ulis Cedex A i www.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .com i i i . . . . . 41 III. . . . . 13 II Intégration 23 II. 23 II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Applications de l’indépendance . .3 Théorème de Radon-Nikodym . . . 9 I.1 Définition et exemples . .2 Fonctions de répartition . . . . . . . . . 52 III. . . . . .2 Ensembles de fonctions mesurables . . . . .5 Fonctions caractéristiques . . 1 I. . . . . . .2 Sommes de variables aléatoires indépendantes . . . 35 II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 III Mesures de probabilité 41 III. . .1 Intégrale de fonctions positives . 61 IV Indépendance 73 IV. . . . . 32 II. . . 84 IV. . . . . . . . . . 45 III. . . . . . . . . . . . . . . . . . .4 Moyennes et inégalités . . . . . . .3 Classes monotones . . .bibliomath.2 Intégrale de fonctions quelconques et théorèmes de convergence 25 II. . . . . . . . . . . . 90 IV. . .1 Algèbre. . . . . . . . . . . . . . . . .6 Espaces Lp . .5 Théorèmes de Fubini-Tonelli . . . . .4 Vecteurs aléatoires gaussiens et lois gaussiennes .1 Indépendance . . . . 98 i www. . . . 50 III. . . . . . . . . . .3 Vecteurs aléatoires . . 30 II. . . . . . . . . . . 6 I. . . . . . . . . . . . . . . . . . . . . . . . 73 IV. . . . tribu . . . . . . . . . . . . . . . . . . . . .4 Mesures . . . . . . . . . . . . .4 Intégration par rapport à une mesure image . . i i “barbe” — 2007/1/8 — 10:41 — page iii — #3 i i TABLE DES MATIÈRES Préface v I Théorie de la mesure 1 I. . . . .

. . . . . . . . . 204 VIII. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 VI.2 Calcul des lois marginales . .3 Application à la loi des grands nombres . . . . . . . . . . . . . . . . le théorème limite central . . . . . . . . .2 Convergence en probabilité . . . . 193 VIII. 186 VIII Chaînes de Markov (à espace d’états dénombrable) 193 VIII. .2 Conditionnement (général) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 V. . . . . . 201 VIII. . . . . . . 200 VIII. . . . . . . . . . 173 VII. . . . . . . . . . . 117 V.1 Conditionnement discret . . . . . . . . . . .4 Espérances conditionnelles dans les espaces gaussiens . . .1 Convergence presque sûre . .5 Les lois faible et forte des grands nombres. . . . . . . .3 Généralisation de la propriété de Markov . . . . . . . . . . . . . i i “barbe” — 2007/1/8 — 10:41 — page iv — #4 i i Probabilité V Convergence de suites de variables aléatoires 109 V. . . . 159 VI. . . . . . . . .4 Convergence en loi . . . . . . . 220 Bibliographie 227 Appendice : Lois de probabilités usuelles 229 Index terminologique 237 Index des notations 241 iv i www. . . .4 Comportement asymptotique. . . . . . . . . . . . . . . . 156 VI. . . 164 VII Martingales (à temps discret) 173 VII. . . . . . . . . . . . . . . . . . . . . . Mesures invariantes . . . . . 182 VII. . . . .1 La propriété de Markov . . . . . .3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 109 V. . . . . . . . . . . . . . . .1 Généralités . . . .3 Convergence dans Lp . .com i i i . . . . . . . . .5 Récurrence et transience . 210 VIII. . . . . . . . 131 VI Probabilités et espérances conditionnelles 149 VI.bibliomath. . . . . . . . 121 V. . . .6 Comportement asymptotique d’une chaîne de Markov . . . . . . . . .2 Théorèmes de convergence . . . . .

Le chapitre III introduit les premiers aspects des probabilités avec les notions de variables aléatoires et de leurs lois. Il s’appuie de façon essentielle sur la théorie de la mesure et de l’intégration de Lebesgue. illustrées par de nombreux exemples. Le chapitre IV fait réellement entrer le lecteur dans les considérations probabilistes avec le concept d’indépen- dance. en loi. le calcul des probabilités a trouvé avec A. de l’analyse et la théorie de la mesure jusqu’à la géométrie et même l’algèbre. espérances. en probabilité. illustré par le modèle gaussien. Le lecteur peut consulter le livre de J. Ce livre est consacré à l’exposition des notions de base du calcul des probabili- tés. Faraut. Ils ne peuvent cependant être considérés comme un traitement exhaustif. lois). Les premières formalisations de la notion de hasard au XVIIe siècle répondaient pour l’essentiel à diverses questions issues de la théorie des jeux. dans la même collection. Kolmogorov une axiomatique rigoureuse et efficace s’appuyant sur l’intégration de Lebesgue. Au chapitre V sont présentées les diverses notions de convergence de suites de variables aléatoires. L’addition des variables aléatoires indépendantes y est interprétée comme la traduction fonctionnelle. (Mesures de probabilités discrètes ou à densité sont donc étudiées dans un même cadre. à la riche intuition. N. L’intuition probabiliste est aujourd’hui un outil efficace dans diverses branches des mathématiques. i i “barbe” — 2007/1/8 — 10:41 — page v — #5 i i PRÉFACE Le calcul des probabilités est une branche très vivante des mathématiques actuelles. Le chapitre suivant est un exposé des notions de conditionnement (probabilités. et forme le support théorique des statistiques modernes. Les fonctions caractéristiques (transformées de Fourier) y sont également étudiées.) Les deux premiers chapitres sont en fait un rappel des éléments de base de la théorie élémentaire de la mesure et de l’intégrale de Lebesgue. pour un exposé plus complet. Au cours du XXe siècle. La loi des grands nombres et le théorème central limite constituent les exemples fondamen- taux de ces divers modes de convergence. du produit de convolution des me- sures.bibliomath.com i i i . Le chapitre VII est une brève introduction à la notion de martingale i www. au titre d’exemples priviligiés les plus usuels. convergence presque sûre.

M. Ce livre n’est pas la contribution des seuls auteurs. Michel et X. septembre 1998 Ph. Il ne saurait être aussi exempt d’imperfections et d’erreurs pour lesquels nous nous excusons par avance. ainsi que pour leur soutien et leur aide. Un chapitre est numéroté par un chiffre romain. ou d’un premier semestre de master. Coutin.4 désigne l’énoncé 4 dans la section 3 du chapitre II. Un appendice présentant les lois de probabilités usuelles avec leurs caractéristiques principales complète la rédaction. D. Bakry. Toulouse.-L. Dunau. i i “barbe” — 2007/1/8 — 10:41 — page vi — #6 i i Probabilité à temps discret où sont notamment établis le théorème d’arrêt et les théorèmes de convergence des martingales.3. Ainsi. Lezaud a relu avec un soin extrême tout le manuscrit et a testé la plupart des exercices. Barbe. Letac. Michel et tous les membres du laboratoire pour nous avoir permis de puiser librement dans leurs notes de cours et leurs réserves d’exer- cices. Il ne suppose pas une connaissance préalable des notions de probabilités enseignées d’ordinaire dans les deux premières années de licence et habituellement axés sur les proba- bilités discrètes et les problèmes de combinatoire dont il n’est fait que très peu état dans cet ouvrage. Un énoncé dans une section est désigné par le numéro de la section et le numéro d’ordre de cet énoncé dans la section. Enfin. Qu’il soit sincèrement remercié pour cette tâche bien ingrate. et pour nous avoir conseillé et relu à divers moments de la préparation.com i i i . convergences).bibliomath. Nous remercions ainsi D. le dernier chapitre traite succintement de chaînes de Markov (mesures invariantes. Chaque chapitre est complété par une série d’exercices destinés à approfondir et à illustrer les éléments de la théorie venant d’être introduits. J. Benaïm. Le temps passé à la rédaction de ce livre est très certainement insuffisant pour que cet ouvrage puisse prétendre à beaucoup d’originalité et pour que le résultat soit à la hauteur des espérances et de l’enthousiasme des premières lignes. Ce livre peut être utilisé comme support d’un cours de probabilité de L3. II. Cet ouvrage contient en outre les prérequis nécessaires à l’épreuve écrite de mathématiques générales pour l’agrégation ainsi que pour les leçons spécialisées. Milhaud pour avoir suppléé le chapitre VIII sur les chaînes de Markov. Nous remercions tout particulièrement D. et une section de chapitre par un chiffre arabe. Ledoux vi i www. mais reflète en partie aussi l’enseignement des probabilités par l’équipe du laboratoire de statistique et probabilités de l’université Paul-Sabatier de Toulouse au cours de ces dernières années. M. P. dont les éléments fonda- mentaux sont toutefois rappelés dans les deux premiers chapitres. G. Ph. L. Ce livre est destiné à des étudiants de 3e année de licence de mathématiques ayant suivi un cours de base de mesure et intégration. Un dernier mot enfin. Carmona.

Leuridan. i i “barbe” — 2007/1/8 — 10:41 — page vii — #7 i i Préface Préface à la seconde édition Nous remercions les éditions EDP Sciences. Nous remercions aussi M. Barbe. Cohen. D.bibliomath. Nous remercions tout particulièrement R. ainsi que l’éditeur scientifique de la collection. Th. R. Celle-ci comporte un nombre trop important d’erreurs. Paris. B. Ch. Benaïm. Bercu. Ph. Arnaudon. Nous le remercions bien vivement pour cet excellent complément. S. Lezaud et D. Plusieurs corrections nous ont été aimablement communiquées par divers collègues. Carrieu prépare actuellement un fascicule des exercices corrigés de ce livre. Toulouse. P. septembre 2006 Ph. de nous proposer de publier une nouvelle édition de notre ouvrage paru en 1998. mineures ou plus sérieuses. H. H. Carrieu. Le texte est pour l’essentiel identique à la version intiale. M. Chomienne. Guin. Nous avons essayé de corriger les principales erreurs et im- perfections (sans toutefois pouvoir prétendre les avoir éliminées toutes). Gallay. qui nuisent beau- coup à sa lisibilité. Carmona.com i i i . Ledoux vii i www. Fr. Robert. Barthe. Th. M. Delmotte. Ben David pour ses corrections et commen- taires très minutieux (même si nous ne les avons pas tous suivis).

bibliomath.com i i i . i i “barbe” — 2007/1/8 — 10:41 — page viii — #8 i i i www.

Il convient donc. Cette fonction est additive. sur la droite. ou plus générale- ment topologique. d’aire ou de volume. exercice I. la longueur (ou l’aire. i i “barbe” — 2007/1/8 — 10:41 — page 1 — #9 i i I THÉORIE DE LA MESURE L’objet de ce chapitre est de rappeler les éléments de théorie de la mesure qui seront indispensables au développement du calcul des probabilités dans les chapitres suivants.1. le plan ou l’espace.1.1.6). on imposera par exemple que cette classe soit stable par réunion finie. ou l’espace). ou le volume) est une fonction qui à un ensemble associe un nombre réel positif. Compte tenu de la propriété d’additivité décrite au paragraphe précédent. ou volume) (cf. pourvu que A et B soient disjoints. dans un premier temps. (i) Ω pourra être R ou Rd . Un fait peu intuitif est qu’il existe des sous-ensembles de la droite (ou du plan. ou de l’espace) pour lesquels on ne peut pas définir leur longueur (ou aire. Exemples I. On demandera à une mesure abstraite de vérifier cette additivité. Algèbre. i www.com i i i . elle est la somme de la fonction appliquée en A et de la fonction appliquée en B. le lien avec les probabilités est qu’une probabilité mesure la vraisemblance d’un événement.bibliomath. Une mesure abstraite sur un ensemble Ω généralise la notion de longueur. tribu Soit Ω un ensemble. Intuitivement. un espace métrique. de définir la classe d’ensembles que l’on veut (et peut) mesurer. Sur la droite (ou le plan. au sens où appliquée à A ∪ B. I.

D´efinition I. 2 i www.1. A ∈ A ⇒ Ω \ A ∈ A).e. A ∈ C ⇒ Ω \ A ∈ C). (ii) C est stable par passage au complémentaire (i. A1 . Ω } de P(Ω). i ∈ N ⇒ i∈N Ai ∈ A). .1. (i) P(Ω) est toujours une algèbre et une tribu.  (iii) A est stable par réunion dénombrable (i.1. Ak ∈ C ⇒ A1 ∪ · · · ∪ Ak ∈ C).1. Dans l’axiome (iii) de la définition I. Tout d’abord le « σ » de σ-algèbre est un acronyme de « dénombrable » par référence à l’axiome (iii) dans la définition d’une tribu. 6. 6 }. le cas général s’en déduisant par récurrence. Il convient de remarquer que l’on peut toujours ajouter des points à Ω. L’ensemble Ω peut être pris comme l’ensemble des faces du dé.bibliomath. Ω = { 1. i i “barbe” — 2007/1/8 — 10:41 — page 2 — #10 i i Chapitre I. A) formé d’un ensemble Ω et d’une tribu A sera appelé un espace mesurable. 2. (ii) Le sous-ensemble { ∅. . appelée algèbre ou tribu triviale. Un sous-ensemble C de P(Ω) est une algèbre (de Boole) sur Ω si (i) Ω ∈ C. Lorsque l’on lance le dé au hasard.com i i i . Dans l’exemple I.2.1. (ii) A est stable par passage au complémentaire (i. 7 }. Toute tribu est une algèbre. 2.e.4. Un sous-ensemble C de P(Ω) est un ensemble de parties de Ω. . Un sous-ensemble A de P(Ω) est une tribu sur Ω si (i) Ω ∈ A. On considère P(Ω) l’ensemble des parties de Ω. Ai ∈ A. est une algèbre et une tribu. Théorie de la mesure (ii) On joue au dé en le lançant une fois. composé de la partie vide et de Ω.2.ii nous pourrions tout aussi bien prendre Ω = { 1. Mais intuitivement. 4. Les éléments de A sont appelés ensembles mesurables.3. 4. Par passage au complémentaire. 3. 5. On dit aussi que A est une σ-algèbre. 5. Exemples I. D´efinition I. 7 a une probabilité nulle d’être réalisé. Le couple (Ω.1. cela revient à choisir (« au hasard ») un élément de Ω.e. 3. .e. on pourrait se contenter de k = 2. une algèbre est aussi stable par intersection finie. Expliquons le sens de ces deux définitions. (iii) C est stable par réunion finie (i.

En particulier. . . (i) Soit A une partie de Ω.1. . 1. Soit E un sous-ensemble de P(Ω). Compte tenu de la définition I. puis remarquer que la réunion de { 0 } et { 1 } n’appartient pas à C1 ∪ C2 . A2 ). .5.1.1. d’après l’exemple I. { 0. n } et se compose de 2n éléments. (iv) Une réunion de deux algèbres n’est pas une algèbre en général.  si S = { S1 . Ac }. .1. (iii) Si S = { Si : i ∈ N } est une partition de Ω. 1. . .6. i∈T où T parcourt l’ensemble des parties de { 1. Sn } est une partition finie de Ω. Ω. . . tribu (iii) L’ensemble des ouverts de Rd n’est pas une algèbre (et donc n’est pas une tribu) car le complémentaire d’un ouvert n’est pas nécessairement ouvert. { 0.5.bibliomath. l’ensemble vide compris. . que A1 ∨ A2 est en général différent de A1 ∪ A2 . . D´efinition I. A. n }. alors   C(S) = Si : T ⊂ {1. 2 }. { 1 }. 2 }. (i) L’algèbre C(E) engendrée par E est l’intersection de toutes les algèbres contenant E. les algèbres C1 = { ∅. L’algèbre C({ A }) et la tribu σ({ A }) sont { ∅. i∈T 3 i www. . . ou encore σ(A1 . { 0 }. alors   σ(S) = Si : T ⊂ N . En général. Algèbre. . { 1. que l’on note A1 ∨ A2 ou aussi σ(A1 ∪ A2 ). Exemples I. On prendra bien soin de remarquer.iv. de tribus) est une algèbre (resp.1. . c’est-à- dire Ω = 1≤i≤n Si et Si ∩ Sj = ∅ pour i = j. 2 }. 1. n} . une tribu). Certains auteurs définissent les algèbres comme étant stables par réunion et intersection finies. (v) Une intersection d’un nombre quelconque d’algèbres (resp. i i “barbe” — 2007/1/8 — 10:41 — page 3 — #11 i i I. .com i i i . Considé- rer par exemple Ω = { 0. Les algèbres et les tribus se décrivent le plus souvent par leurs éléments générateurs. 2 } } et C2 = { ∅. (ii) La tribu σ(E) engendrée par E est l’intersection de toutes les tribus conte- nant E. 2 } }. (ii) Plus généralement. on peut parler de la tribu engendrée par deux tribus A1 et A2 .4. C(S) est en bijection avec l’ensemble des parties de { 1. il est difficile d’expliciter tous les éléments d’une tribu. { 0.

bibliomath. b ]. si x < y sont dans l’image de R par une fonction f croissante. on montre que B(R2 ) = B(R) ⊗ B(R).1. on souhaite faire de l’espace produit Ω1 × Ω2 un espace mesurable. La tribu borélienne est aussi engendrée par les fermés puisque la tribu est stable par passage au complémentaire. la tribu engendrée par les ouverts de Ω. il sera toujours muni de sa tribu borélienne. Lorsque l’on a deux ensembles Ω1 et Ω2 . (ii) En utilisant le fait que tout ouvert de R2 peut s’écrire comme une réunion dénombrable de pavés d’intervalles ouverts. i = 1. Théorie de la mesure D´efinition I. Si Ω est un espace topologique. Elle coïncide aussi avec la tribu engendrée par les intervalles [ a. D´efinition I. On appelle ensemble élémentaire de Ω = Ω1 × Ω2 une réunion finie de pavés A1 × A2 . On montre de même que la tribu sur Rd engendrée par d copies de B(R) est B(Rd ) = B(R) ⊗ · · · ⊗ B(R). −∞ ≤ a < b ≤ ∞. la tribu borélienne coïncide avec la tribu engendrée par les intervalles ] a. on le munira de la tribu de ses parties.com i i i . Si Ω est discret. ou ] a. 2. on définit leur produit Ω1 × Ω2 . De façon générale. b [. Exemple I.1. Par exemple. Lorsque l’on a des espaces mesurables (Ωi .10. on appelle tribu borélienne. avec Ai ∈ Ai . b ]. on souhaite pouvoir la transporter sur d’autres espaces par des fonctions.e.1. Ai ). Sur R. deux espaces mesurables. Dans la suite. etc). (i) Les ensembles élémentaires forment une algèbre. notée B(Ω). On prendra bien soin de constater que si les éléments d’une famille génératrice sont explicites. i i “barbe” — 2007/1/8 — 10:41 — page 4 — #12 i i Chapitre I. b [. sur lequel on peut éventuellement définir des structures produits (topologie produit. Soient (Ωi . lorsque Ω est Rd (ou un espace topologique). sur R. Ai ).9.8. i = 1. Exemples I. Un borélien est un en- semble appartenant à la tribu borélienne. en mathématique.7.1. La tribu produit A1 ⊗ A2 sur Ω est la tribu engendrée par les ensembles élémentaires. il n’en est rien en général des éléments de la tribu (la plupart des boréliens de R ne sont pas des intervalles !). 2. En général. alors 4 i www. ou [ a. 2. groupe produit. la structure d’ordre est préservée par la réciproque d’une application crois- sante (i. on utilise d’ailleurs les images réciproques par les fonctions. i = 1. lorsqu’une structure est définie sur un es- pace.

com i i i . B(R)). Soit A une tribu sur Ω. deux espaces mesurables. Soit f une fonction de Ω dans E. Si B est une famille de parties de E. tribu) d’après les propriétés de l’image réciproque ensembliste f −1 . f est continue si f −1 (U ) est ouvert pour tout ouvert U ).e. c’est-à-dire. (i) Soient (Ω.1. la structure topologique est préservée par applica- tion de la réciproque d’une application continue (i. On la note σ(F). i i “barbe” — 2007/1/8 — 10:41 — page 5 — #13 i i I. on appelle tribu engendrée par F la plus petite tribu (sur Ω) qui rend mesurable toute fonction de F (i. tribu f −1 (x) < f −1 (y)). B(R2 )) dans (R. on notera   f −1 (B) = ω ∈ Ω : f (ω) ∈ B . Cette tribu est différente de la tribu borélienne de R2 . Avec les notations de cette définition. (i) Si A est une partie de Ω.12. f −1 (B) ∈ A pour tout B ∈ B. B). A) dans (E. 5 i www. B(R)) bien que σ(Π1 ) ne coïncide pas avec la tribu borélienne de R2 . A) et (E. σ(f ) = f −1 (B). (ii) Soit R muni de sa tribu borélienne B(R) et soit Π1 la projection de R × R sur sa première composante R définie par Π1 (x. la tribu engendrée par les ensembles de la forme f −1 (B) pour B ∈ B et f ∈ F). f −1 (B) est une algèbre (resp.bibliomath. dire que f est mesurable de (Ω. On dit que f est mesurable (pour A et B) si f −1 (B) ⊂ A . B). on notera   f −1 (B) = f −1 (B) : B ∈ B . (iii) Plus généralement. tribu). B). B) revient à dire que σ(f ) ⊂ A.1. y) = x. D´efinition I. autrement dit. Exemples I. notée σ(f ). on définit la fonction indicatrice de A par ½A (ω) = 1 si ω ∈ A et ½A (ω) = 0 si ω ∈ A. Noter que si B est une algèbre (resp. la fonction ½A est mesurable pour A si et seulement si A ∈ A. Algèbre. la plus petite tribu (sur Ω) qui rend f mesurable . Si f est une application de Ω dans E et si B est une partie de E. En tant que fonction à valeurs dans (R.1. De même. si F est une famille de fonctions d’un ensemble Ω à valeurs dans (E. La notion analogue dans le contexte de la théorie de la mesure est celle de mesurabilité. (ii) Si f est une fonction de Ω dans (E. on appelle tribu engendrée par f . La tribu engendrée par Π1 est formée des ensembles B × R où B décrit les boréliens de R.e. On notera que Π1 est mesurable de (R2 .11.

σ(f ) ⊂ σ(f −1 (E)). montrant que c’est une classe assez naturelle de fonctions. Donc T contient σ(E). Enfin. Soit E ⊂ P(E) et soit B = σ(E). B). les fonctions mesurables à valeurs réelles sont boréliennes. I. Puisque nous munirons toujours R ou Rd de sa tribu borélienne. La proposition suivante montre que pour qu’une fonction soit mesurable.1. Ensembles de fonctions mesurables Nous rassemblons ici quelques faits sur les fonctions mesurables. Comme σ(f −1 (E)) = σ(f ) par le premier point. pour qu’une fonction f de (Ω. si F est une famille de fonctions de Ω dans (E. B) est σ(f ) = σ(f −1 (E)) = σ({ f −1 (C) : C ∈ E }). 2 D´efinition I. L’inclusion réciproque est évidente.1.11 est difficile à vérifier. Théorie de la mesure (iii) La tribu borélienne de R2 est engendrée par les projections Π1 et Π2 sur les coordonnées. si f −1 (E) ⊂ A. En particulier.2.13. alors σ(f −1 (E)) ⊂ A. Soit    T = B ⊂ E : f −1 (B) ∈ σ f −1 (E) . il suffit de vérifier sa propriété caractéristique sur une famille génératrice de la tribu d’arrivée. B(E)) est dite borélienne. Une fonction mesurable de (Ω.  I. Soit à présent A ∈ σ(f ). 6 i www. la conclusion s’ensuit.1. Il est aisé de vérifier que T est une tribu qui contient E. La tribu engendrée par une fonction f de Ω dans (E. Π−1 −1 1 (A) ∩ Π2 (B) = (A × Ω) ∩ (Ω × B) = A × B.com i i i . Par définition. Démonstration. il suffit que f −1 (E) soit inclus dans A. A = f −1 (B) pour un certain B ∈ σ(E). σ(E)) soit mesura- ble. A = f −1 (B) ∈ σ(f −1 (E)). En effet. et les rectangles engendrent la tribu B(R ) = B(R) ⊗ B(R) (cf.1. Proposition I.9 et I. la définition I. En pratique les tribus étant le plus souvent définies par une partie génératrice. Ainsi.10). Il s’ensuit B ∈ T et par construction de T . f ∈ F }). Plus généralement. A) dans un espace topologique muni de sa tribu borélienne (E.bibliomath. A) dans (E. i i “barbe” — 2007/1/8 — 10:41 — page 6 — #14 i i Chapitre I.1. Soient Ω et E deux ensembles. alors σ(F) = σ({ f −1 (C) : C ∈ E . Le cas d’une famille quelconque se traite de la même façon.14.

resp.3. g(ω)). et du maximum (f ∨ g)(ω) = f (ω) ∨ g(ω) Démonstration. Puisque les rectangles engendrent B(R2 ). et de la fonction continue (x.1. B(R)) est stable pour les opérations de multiplication par une constante (λf )(ω) = λf (ω) (λ ∈ R). i = 1. f1−1 (f2−1 (A)) ∈ A1 . A) dans (R. de multipli- cation (f g)(ω) = f (ω)g(ω).2. f g.1. La composée de deux fonctions mesurables est mesurable. mesurables. et puisque f1 est mesurable. h−1 (A × B) = f −1 (A) ∩ g−1 (B) ∈ A. Démonstration. De même f + g (resp. g(ω)) ∈ R2 est mesurable de (Ω. y) → x + y (resp.1. 2.2.bibliomath. La fonction ω → λf (ω) est la composée de la fonction mesurable f et de la fonction continue x → λx.2). Corollaire I.  Il est facile de voir qu’une limite ponctuelle de fonctions croissantes est crois- sante. (x. Soient fi : (Ωi . B(R2 )).  Lemme I.2. B(R)). mais qu’une limite ponctuelle de fonctions continues n’est pas nécessaire- ment continue. Toute fonction continue de Ω1 dans Ω2 est mesurable (ou borélienne ici). Démonstration.2.2. et h(ω) = (f (ω). f ∨ g) est la composée de la fonction mesurable ω → (f (ω). L’espace des fonctions mesurables (boréliennes) de (Ω. La classe des fonctions mesurables est stable par limite simple. alors ω ∈ Ω → (f (ω). y) → xy. resp.  Les fonctions mesurables par rapport à une tribu borélienne forment une classe plus vaste que les fonctions continues : Proposition I.  Si x et y sont deux nombres réels.14. Ω2 deux espaces topologiques munis de leur tribu bo- rélienne.14. Soit A ∈ A3 . f −1 (U ) est ouvert.4. g(ω)) (en vertu du lemme I. Ai ) → (Ωi+1 . Si f. Ensembles de fonctions mesurables Proposition I. y) → x ∨ y). Soient Ω1 . A) dans (R.2. Démonstration. f2−1 (A) ∈ A2 . Ai+1 ). Puisque f2 est mesurable. A) dans (R2 .com i i i . On a (f1 ◦ f2 )−1 (A) = f −1 (f2−1 (A)). 7 i www. d’addition (f + g)(ω) = f (ω) + g(ω). Alors.2. i i “barbe” — 2007/1/8 — 10:41 — page 7 — #15 i i I. (x. Remarquer que si U est ouvert dans Ω2 et f est une fonction continue. g sont des fonctions mesurables de (Ω. Puis appliquer la proposition I. on note x ∨ y leur maximum. on conclut grâce à la proposition I. Soit A×B un rectangle dans B(R2 ).

2. La suite k−1 fn (ω) = ½An. lim fn (ω) = f (ω)). r ≥ 1 entier. On appelle fonction étagée (à valeurs dans R ) une fonction de la forme f (ω) = 1≤i≤k ai ½Ai (ω) où les Ai d sont des éléments disjoints de A. il suffit de montrer que si U est ouvert dans E.k (ω) 2n 1≤k≤2n2 converge en croissant vers f . Soit (fn )n∈N une suite de fonctions mesurables de (Ω.  f −1 (U ) = fn−1 (Ur ) r.bibliomath.  8 i www. Posons Ur = { x ∈ U : d(x.k = ω : ≤ f (ω) < . D´efinition I.  On peut approcher toute fonction mesurable par des fonctions mesurables plus simples. D’après la proposition I.14. Toute fonction f mesurable de (Ω. Définissons pour n. A) un espace mesurable. écrivons f = f + − f − avec f + = f ∨ 0 et f − = (−f ) ∨ 0. et approximons les fonctions positives f + et f − par la méthode précédente. donc est un borélien de E. Théorie de la mesure Th´eor`eme I. 2n 2n Les An.com i i i . Si f est quelconque.e. Si fn converge ponctuellement vers f (i. n→∞ Démonstration. Démonstration. k ≥ 1. i i “barbe” — 2007/1/8 — 10:41 — page 8 — #16 i i Chapitre I. Soit (Ω. d) muni de sa tribu borélienne. la limite peut être choisie croissante. E \ U ) > 1/r }. A) dans (R. A) dans un espace métrique (E. Ainsi.5.6. Prenons d’abord f positive. L’ensemble Ur est ouvert. et où les coefficients ai appartiennent à Rd . pour tout ω ∈ Ω.m n≥m est un borélien.7.  k−1 k  An. alors f est mesurable.1. Proposition I. alors f −1 (U ) ∈ A. Si f est positive.k sont éléments de A en tant qu’images réciproques par la fonction mesu- rable f d’intervalles.2. B(R)) est limite simple de fonctions étagées.2.

ii.  et toute réunion peut s’écrire comme une réunion croissante ( i∈N Ai = i∈N ( j≤i Aj ) pour toute fa- mille Ai .3. Ai ⊂ Ai+1 ⇒ i∈N Ai ∈ M). c’est-à- dire l’intersection de toute les classes monotones contenant E. Pour démontrer l’inclusion inverse.com i i i . ou d’un nombre quelconque. (ii) Une classe monotone M. Exemples I. (i) Une tribu est une classe monotone.2. En effet. B ∈ M et B ⊂ A. Ai ∈ M.1. Classes monotones Nous souhaitons finalement pouvoir mesurer les éléments d’une tribu.e.3. stable par intersection finie. M(E) 9 i www. Pour que la définition d’une classe monotone engendrée par E ait un sens. i ∈ N). Son intérêt apparaîtra clairement dans la suite du cours.3. Th´eor`eme I. (ii) si A. En vertu de l’exemple I. de classes monotones est une classe monotone. Si E ⊂ P(Ω). d’après I.3 (des classes monotones).3.3. D´efinition I.ii. σ(E) est une classe monotone qui contient E et donc M(E) ⊂ σ(E).3. stable par intersection finie. Alors.3. Le but de cette section est de construire le bon outil pour réaliser le procédé d’extension.2. On souhaite donc pouvoir définir la mesure sur une classe plus restreinte d’ensembles et avoir un procédé d’extension permettant alors de la définir sur toute la tribu. est une tribu. i i “barbe” — 2007/1/8 — 10:41 — page 9 — #17 i i I. Le théorème important suivant affirme que la classe monotone engendrée par une famille de parties de Ω stable par intersection finie coïncide avec la tribu engendrée par cette famille. nous mon- trons que M(E) est stable par intersection finie. alors A \ B ∈ M.3. Soit E une famille de parties de Ω.1.bibliomath. il faut vérifier que l’intersection de deux. Une famille M de parties de Ω est appelée une classe mono- tone si (i) Ω ∈ M. i ∈ N. Classes monotones I. c’est-à- dire définir une fonction qui à chaque ensemble de la tribu associe un réel positif. Une des difficultés a priori est qu’une tribu peut contenir beaucoup d’ensembles.i. Démonstration. et qui vérifie un certain nombre d’axiomes. M est aussi stable par réunion finie envertu de I.2. (iii) M est stable  par réunion monotone croissante (i. on note M(E) la classe monotone engendrée par E. Alors M(E) = σ(E).

donc M2 ⊃ M(E).3. Rappelons qu’une suite de fonctions (fn )n∈N sur Ω est croissante si pour tout ω dans Ω. B ∈ M(E). B ∩ C = C ∩ B ∈ M(E). Par exemple. A ∩ B ∈ M(E) } . i i “barbe” — 2007/1/8 — 10:41 — page 10 — #18 i i Chapitre I. ce qui montre que M(E) est stable par intersection finie. B ∩ C ∈ M(E) } .com i i i . puisque B ∈ E. Soit à présent M2 = { B ∈ M(E) : ∀ C ∈ M(E) . (i) Un ensemble H de fonctions de Ω dans R est dit stable par convergence monotone bornée si la limite de toute suite croissante et bornée de H est aussi dans H. Le théorème est établi. Ainsi. autrement dit. Clairement. à valeurs réelles et bornée. si f est une fonction définie sur un espace Ω. et donc σ(E) ⊂ M(E). Observons que l’intersection d’un nombre arbitraire d’ensembles monotones de fonctions réelles définies sur Ω est un ensemble monotone. c’est-à-dire qu’elle soit une algèbre. alors ∀ C ∈ M(E) . la suite est bornée s’il existe une constante positive C telle que |fn (ω)| ≤ C pour tout n et tout ω . De plus. donc M(E).3.  Il existe dans la littérature différentes définitions d’une classe monotone don- nant lieu à différentes versions du théorème des classes monotones. D´efinition I. on peut supprimer l’axiome (ii) de la définition I.3.3 que la classe E soit en outre stable par passage au complémentaire. L’ensemble M1 est une classe monotone qui contient E. si supn∈N fn ∞ est fini. Il suffit de prouver que si A. L’ensemble M2 est une classe monotone. La version présentée est la mieux adaptée à l’étude de l’indépendance dans le chapitre IV. la suite fn (ω) est croissante. (ii) Un ensemble H est dit monotone s’il contient les constantes et est stable par convergence monotone bornée. B ∩ C ∈ M(E) .4. Nous étudions à présent la version fonctionnelle du théorème des classes mo- notones.1 et imposer dans le théo- rème I. Montrons qu’il contient E. M2 ⊃ E. alors A ∩ B ∈ M(E). et donc. Il faut dé- montrer pour cela que si B ∈ E. nous notons f ∞ = sup{|f (ω)| : ω ∈ Ω } sa norme uniforme. Pour cela.bibliomath. Soit M1 = { A ∈ M(E) : ∀ B ∈ E . Or C ∈ M(E) ⊂ M1 . Théorie de la mesure sera une tribu contenant E. une suite croissante bornée converge. 10 i www.

le plus petit sous-espace vectoriel monotone contenant C. puis que H0 H0 ⊂ H0 . Si A et B sont deux ensembles de fonctions réelles. Rappelons enfin qu’un ensemble C est stable par multiplication si pour tous f.3.3. en effet. Th´eor`eme I. Le théorème suivant peut être considéré comme une version mesurable du théorème de Stone-Weierstrass. on note AB l’ensemble des fonctions de la forme f g où f est dans A et g dans B. i i “barbe” — 2007/1/8 — 10:41 — page 11 — #19 i i I. Classes monotones Rappelons que si F est une famille de fonctions sur Ω à valeurs réelles. σ(F) désigne la plus petite tribu sur Ω qui rend mesurables les fonctions de F lorsque R est muni de sa tribu borélienne. si (gn ) est une suite de fonctions bornées dans Hf . convergeant en croissant vers g dans H0 . Puisque C contient les constantes. Si f est dans C. Démonstration.3. définissons l’ensemble Hf = { g ∈ H0 : f g ∈ H0 } . L’ensemble des fonctions réelles bornées sur Ω est un espace vec- toriel. H0 les contient aussi.6. l’égalité f gn = (f + f ∞ )gn − f ∞ gn et l’appartenance de f gn et f ∞ gn à H0 montrent que (f + f ∞ )g et f ∞ g sont aussi dans H0 . puisque nous venons de voir que Hf est un espace vectoriel . On montrera d’abord que CH0 ⊂ H0 . Il suffit de montrer que H0 contient les fonctions bornées mesurables par rapport à σ(C). cet espace vectoriel est aussi stable par convergence monotone bornée .5 (des classes monotones fonctionnelles). l’espace Hf contient C. Tout espace vectoriel monotone contenant C contient les fonctions bornées mesurables par rapport à σ(C). Pour toute fonction f de H0 . Démonstration. Donc. C’est un espace vectoriel. Soit C un ensemble de fonctions réelles bornées sur Ω stable par multiplication et contenant les constantes.3.3. Elle est semblable à la démonstration du théorème I. g dans C. Dire que A est stable par multiplication revient à dire que AA est inclus dans A. Lemme I. le produit f g est dans C. H0 est stable par multiplication. et donc que f g est dans H0 . Si f est bornée. On peut ainsi considérer H0 . Il contient les constantes puisque d’une part toute fonc- tion constante est dans C et donc dans H0 . et d’autre part parce que f est prise dans H0 .

On a donc H0 = f ∈C Hf . il contient aussi H0 . Si maintenant f est dans H0 . ce qui montre CH0 ⊂ H0 . nous déduisons de ce qui précède que. stable par convergence monotone bornée.

on a H0 ⊂ Hf . on note b(B) l’ensemble des fonctions B-mesurables bornées. ce qui montre que H0 H0 ⊂ H0 . Donc. par minimalité de H0 . C est inclus dans Hf .com i i i . 11 i www. H0 = f ∈H0 Hf .  Si B est une tribu.bibliomath. Ainsi.

ou autrement dit { f /t ≥ 1 } est dans A. A contient Ω. D’autre part. Puisque f + = (f +|f |)/2 et f − = −(−f )+ sont dans H0 .   Démonstration. Enfin. stable par multiplication. et donc appartient à H0 . { f ≥ t }. Puisque H0 contient les constantes. on peut supposer |f | ≤ 1. Puisque chacune de ces fonctions est dans H0 ainsi que les constantes. est une suite d’éléments de A. puis que H0 et b(A) coïncident aussi. A est stable par complémen- tation. Si H0 est un espace vectoriel monotone  de fonctions bornées. alors 1 − ½A est aussi dans H0 . La proposition I. vii) Montrons  enfin que H0 ⊂ b(A). ii) Montrons que H0 est stable par les opérations maximum ∨ et minimum ∧. il convient de montrer que toute fonction de H0 est A-mesurable. si An .1. D’après la définition I. il suffit de montrer que { f ≥ 1 } est dans A. Cela découle du point v) et de l’inclusion H0 ⊂ b σ(H0 ) .3. iv) Montrons que A ⊂ σ(H0 ).2. Quitte à remplacer f par f /f ∞ . Quitte à rempla- cer f par f + f ∞ . En écrivant toute fonction comme la différence de sa partie positive et sa partie négative.bibliomath. Donc les fonctions positives bornées et A-mesurables sont dans H0 . Si A est dans A. en remplaçant f par f /t. i i “barbe” — 2007/1/8 — 10:41 — page 12 — #20 i i Chapitre I. alors il coïncide avec b σ(H0 ) . En écrivant A comme l’image réciproque de { 1 } par ½A . Il suffit de montrer que pour tout t positif. Le reste de la démonstration consiste à montrer que A et σ(H0 ) coïncident. v) Montrons que σ(H0 ) ⊂ A.  12 i www.7 montre que toute fonction po- sitive A-mesurable est limite croissante de fonctions étagées A-mesurables. On a l’inclusion évidente H0 ⊂ b σ(H0 ) . Soit donc f dans H0 . Soit donc f une fonction non nulle dans H0 . i) Montrons que H0 est stable par l’application valeur absolue. C’est immédiat puisque ½{f ≥1} est limite monotone de la suite (f ∧ 1)n d’éléments de H0 . l’inclusion b(A) ⊂ H0 s’ensuit. iii) Montrons que l’ensemble A = { A ⊂ Ω : ½A ∈ H0 } est une tribu.7. on voit que A est dans σ(H0 ). vi) Montrons que b(A) ⊂ H0 . puisque si ½A est dans H0 . n ∈ N. la fonction |f | est aussi dans H0 . Donc. alors ½A est dans H0 . Pour cela. soient f et g deux fonctions de H0 . on peut supposer que f est positive. Observons que |f | = 1 − (1 − f 2 ) = 1 − αi (1 − f 2 )i i≥1 où les αi sont positifs. les représentations f ∨ g = g + (f − g)+ et f ∧ g = − (−f ) ∨ (−g) montrent la stabilité de H0 par maximum et minimum. Il s’ensuit que 1 − |f | est la limite croissante des fonctions bornées 1≤i≤n αi (1 − f 2 )i . ½∪n∈N An est la limite monotone bornée des fonctions maxi≤n ½Ai de H0 .com i i i . Théorie de la mesure Lemme I.11.

4. Proposition I.3. une famille finie ou dénombrable d’ensembles mesurables. A) un espace mesurable et (Ai )i∈I . L’inclusion C ⊂ H0 donne σ(C) ⊂  σ(H0 ).com i i i .  I.4.3. appelée masse de Dirac en ω. Exemples I. indexée par un ensemble I fini ou dénombrable. Soit Ω = { 1. 13 i www. On remarquera que si A ⊂ Ω. µ( i∈I Ai ) = i∈I µ(Ai ). 6 } les 6 faces possibles d’un dé. I ⊂ N. la mesure ω∈Ω δω est appelée mesure de comptage. On dit qu’une mesure µ est  σ-finie s’il existe une famille dénombrable An ∈ A. Un espace mesurable muni d’une mesure est appelé espace mesuré. On appelle mesure signée la différence de deux mesures (positives). Une telle famille est appelée une suite d’exhaustion de Ω. Une application µ de A dans R ∪ { ∞ } est σ-additive si pour toute fa-  Ai d’éléments mille de A. Soit (Ω. si µ(Ω) = 1.bibliomath. Enfin. On appelle mesure (positive) toute application µ de A dans R+ ∪ { ∞ }.4. (iii) Sur un ensemble dénombrable Ω muni de la tribu de ses parties. Mesures D´efinition I. µ(A) est le cardinal de A.4. (ii) Soit (Ω.4. on dit que µ est une mesure de probabilité ou simplement une probabilité. De plus.4. σ-additive. donc « compte » le nombre d’éléments de A.2. (i) Jeu de dé. et telle que µ(∅) = 0. 3. Mesures Nous pouvons à présent conclure ladémonstration   du théorème. 5. et donc b σ(C) ⊂ b σ(H0 ) . A) un espace mesurable et ω ∈ Ω. L’application δω : A ∈ A → δω (A) = ½A (ω) est une mesure de probabilité. i i “barbe” — 2007/1/8 — 10:41 — page 13 — #21 i i I.1. n ∈ N. telle que Ω = n∈N An et µ(An ) < ∞. 2.7 montre que b σ(H0 ) = H0 . Remarquer que µ(A) représente bien la probabilité que A survienne : c’est le nombre de faces qui provoquent A. le lemme I. A) un espace mesurable. Soit (Ω. muni de la tribu des parties. Vérifier que µ(A) = card(A)/6 est une probabilité. divisé par le nombre total de faces du dé. P(Ω). La proposition suivante regroupe quelques propriétés importantes des mesures. Une mesure de probabilité est σ-finie.

µ est croissante). Théorie de la mesure (i) Si A1 ⊂ A2 .e. alors µ( i Ai ) = limi→∞ µ(Ai ). µ est sous-additive). i i “barbe” — 2007/1/8 — 10:41 — page 14 — #22 i i Chapitre I. . alors µ(A1 ) ≤ µ(A2 ) (i.e.  (iii) Si Ai ⊂ Ai+1 pour tout i.  (ii) µ( i∈I Ai ) ≤ i∈I µ(Ai ) (i.

i k On utilise alors la σ-additivité pour obtenir   µ Ai = µ(A0 ) + µ(Bk ) i k≥0 = µ(A0 ) + lim µ(Bk ) i→∞ 0≤k≤i−1   = lim µ(A0 ) + µ(Bk ) i→∞ 0≤k≤i−1 = lim µ(Ai ) . alors µ( i Ai ) = limi→∞ µ(Ai ). on peut supposer I = N.4. i ≥ i0 .com i i i . Ainsi. 2. on procède par récurrence en remarquant que   µ(A1 ∪ A2 ) = µ A1 ∪ (A2 \ A1 ) = µ(A1 ) + µ(A2 \ A1 ) ≤ µ(A1 ) + µ(A2 ) . Si I est infini.    µ Ai ≤ µ(Ai ) . (i) A2 est la réunion disjointe des ensembles mesurables A1 et A2 \ A1 . par exemple I = { 1. Démonstration. k ∈ N. on a   Ai = A0 ∪ Bk . On a alors. (ii) Si I est fini. k = Ak+1 \ Ak . et comme (iii) Soit B Ai = A0 ∪ 0≤k≤i−1 Bk . . . est 14 i www.1 d’une mesure fournit µ(A2 ) = µ(A1 ) + µ(A2 \ A1 ) ≥ µ(A1 ). (iv) Si Ai ⊃ Ai+1 pour tout i et µ(Ai0 ) < ∞ pour un certain i0 . la suite µ(Bi ). 3. i ∈ N. Les Bi = Ai0 \ Ai . . puisque A1 et A2 \ A1 sont disjoints et A2 \ A1 ⊂ A2 . pour tout k ≥ 0. . et l’axiome principal de la définition I. Les ensembles Bk sont disjoints. i ≥ i0 forment une suite croissante et µ(Ai0 ) = µ(Bi ) + µ(Ai ) ≥ µ(Bi ). n }. 0≤i≤k i∈N  En considérant les ensembles croissants Bk = 0≤i≤k Ai .bibliomath. i→∞ (iv) Soit i0 tel que µ(Ai0 ) < ∞. le résultat se déduit de (iii) que nous montrons maintenant.

En particulier si 0 < µ(A) < ∞. la première égalité ci-dessous venant de (iii). Nous laissons au lecteur le soin de vérifier que µf est bien une mesure. B).bibliomath. i i “barbe” — 2007/1/8 — 10:41 — page 15 — #23 i i I.com i i i .6. alors λµ définie par (λµ)(A) = λµ(A).4. 15 i www. L’application µf de B dans R+ ∪ { ∞ } dé- finie par µf (A) = µ(f −1 (A)) définit une mesure sur (E.4. B). nous souhaitons pouvoir transporter une mesure d’un espace vers un autre. chapitre VI). 5. 2. A) et λ un réel positif. i. alors µA (·)/µ(A) est une probabilité. 4. i→∞ i→∞ i→∞ i≥i0 ce qui démontre l’assertion. Comme dans la section précédente où nous avons étudié le transport de struc- tures par des applications. On peut bien sûr remplacer ici la tribu A par la tribu trace de A sur A composée des ensembles mesurables A ∩ B. et 0 si ω est impair. C’est la probabilité conditionnelle sachant A (cf. Alors µA définie par µA (B) = µ(A ∩ B) est une mesure sur (Ω. Considérons le jeu de dé avec Ω = { 1. A. 6 } et µ la proba- bilité définie par µ(A) = card(A)/6. A).4.e. Elle est parfois notée µ ◦ f −1 . 1 } définie par f (ω) = 1 si ω est pair. µ) dans un espace mesurable (E. 3. Donc la limite limi→∞ µ(Bi ) existe et. appelée mesure image de µ par f . Exemple I. Cet exemple montre simplement que le formalisme utilisé n’est pas absurde et coïncide avec l’intuition que l’on peut avoir du hasard. (ii) Si µ est une mesure sur (Ω.4. D´efinition I. i→∞ i≥i0 i≥i0 i≥i0 Donc     µ Ai = µ(Ai0 ) − lim µ(Bi ) = lim µ(Ai0 ) − µ(Bi ) = lim µ(Ai ) . On vérifie que µf ({ 0 }) = µf ({ 1 }) = 1/2 .5. on a une chance sur deux d’obtenir un chiffre pair en jouant au dé. B ∈ A.  Exemples I.       lim µ(Bi ) = µ Bi = µ Ai0 \ Ai = µ(Ai0 ) − µ Ai . (i) Soit (Ω. Soit f : Ω → { 0. µ) un espace mesuré et A ∈ A. Mesures une suite croissante bornée.4. Soit f une application mesurable d’un espace mesuré (Ω. A ∈ A. est une mesure. A.

5). i i “barbe” — 2007/1/8 — 10:41 — page 16 — #24 i i Chapitre I. puis de l’étendre de façon canonique à l’ensemble de la tribu. Démonstration. §I. les réunions finies d’intervalles forment une algèbre de Boole C. L’ensemble M = { A ∈ A : µ(A) = ν(A) } est une classe mono- tone qui contient C.9 (de prolongement). Définissons  µ(] a. elle se prolonge de façon unique en une mesure sur (Ω. . bi ] disjoints. Proposition I. An ∈ C disjoints. Th´eor`eme I. b ]) = b − a et prolongeons µ par additivé à C. cette extension doit être unique. Soient µ. La démonstration de ce théorème est admise.) Un deuxième pas nous est fourni par le théorème de prolongement de Cara- théodory. Un premier pas dans cette direction est donné par la proposition suivante. A ⊃ M ⊃ M(C) = σ(C) = A et ainsi M = A.i. ν deux mesures sur (Ω. On peut se référer à Neveu (1964. la tribu sur Ω peut ne pas être donnée de façon très explicite (penser par exemple à la tribu borélienne sur R) et on ne peut pas vraiment définir une mesure en spécifiant sa valeur explicitement pour tout ensemble mesurable. En particulier. 1≤i≤n 16 i www. po- sitive. bi ] avec ] ai .3.10. Si µ et ν coïncident sur C. par le théorème I. Une application µ définie sur une algèbre  de Boole C à valeurs dans R+ ∪ { ∞ } est dite additive si µ(∅) = 0 et si µ( 1≤i≤n Ai ) = 1≤i≤n µ(Ai ) pour tous A1 .9 et I. définie sur une algèbre de Boole C de parties de Ω avec µ(Ω) < ∞.10. Elle montre que deux mesures coïncident si elles coïncident sur une algèbre qui engendre la tribu.  Exemple I.8.3 des classes monotones. alors elles sont égales. En pratique. une mesure est déterminée par sa valeur sur les pavés (voir définition I. (i) Sur R.7. Théorie de la mesure La construction de mesures est un point délicat.4. A).4.1.com i i i . µ(A) = (bi − ai ) . . . Il est donc souhaitable d’avoir un procédé permettant de définir une mesure sur une partie de la tribu. Précisément.1. ce qui ne peut être vrai que si la classe d’ensembles de départ est suffisamment riche.bibliomath. Sur un espace produit. . Puisque C est stable par intersection finie. Exemples I. Donc µ et ν coïncident bien partout. Si µ est une fonction additive d’ensembles.4. σ(C)). si A = 1≤i≤n ] ai . Soit C une algèbre qui engendre A.4. conséquence du théorème des classes monotones.

12. b ]. Sur (Ω1 × Ω2 . i i “barbe” — 2007/1/8 — 10:41 — page 17 — #25 i i I. On pourrait faire une construction analogue à l’aide de ces différents intervalles.3 et la définition de B(Rd ) (exemple I.9. Alors λ ⊗ · · · ⊗ λ coincide avec l’extension de la fonction additive d’ensembles µ définie d’abord sur les pavés par µ(] a1 .9. La classe  E = A =] a1 . Mesures Alors µ est une fonction additive d’ensembles et s’étend à la tribu borélienne sur R. 2. (ii) Soient (Ωi .bibliomath. 17 i www.1. ceci définit la famille des mesures dites de Stieltjes. Montrons que pour tout x ∈ Rd . b ]) = F (b) − F (a) .    λ ⊗ · · · ⊗ λ τx (A) = λ ⊗ · · · ⊗ λ(A) est stable par intersection finie et contient tous les pavés.4. on définit λ ⊗ · · · ⊗ λ sur Rd (mesure de Lebesgue sur Rd ). bd ] ⊂ Rd : ∀x ∈ Rd .1. La mesure produit s’étend de manière unique à la tribu produit par le théorème I.com i i i . Par linéarité.iii).4. ] a. On peut de plus démontrer que la mesure de Lebesgue est. et tout A ∈ B(Rd ). et étendue par additivité aux réunions finies de pavés. 2 deux espaces mesurés. on étend la définition aux ensembles élémentaires au sens de la définition I. Nous allons construire sur D une mesure analogue à la mesure de Lebesgue sur Rd . La mesure de Lebesgue d’un intervalle [ a. i = 1. (iv) Soit D l’ensemble des droites du plan. Plus généralement.3. b1 ] × · · · ×] ad . (iii) Si λ est la mesure de Lebesgue sur R. bd ]) = (b1 − a1 ) · · · (bd − ad ) . A un borélien de Rd . A1 ⊗ A2 ) on définit la mesure produit par µ1 ⊗ µ2 (A1 × A2 ) = µ1 (A1 ) × µ2 (A2 ) pour Ai ∈ Ai . Ai .   λ ⊗ · · · ⊗ λ τx (A) = λ ⊗ · · · ⊗ λ(A) . l’unique mesure invariante par translation sur Rd . b [ ou [ a. En effet. µi ). à une constante de proportionnalité près. La mesure de Lebesgue sur R ou Rd a la propriété importante d’être invariante par translation. b [ est sa longueur b − a. b1 ] × · · · ×] ad . notons τx (A) = { a + x : a ∈ A } le translaté de A par x. On appelle mesure de Lebesgue cette extension. pour une fonction croissante F : I → R sur un intervalle I de R. Donc M(E) = σ(E) = B(Rd ) d’après le théorème des classes monotones I. i = 1. si x est un vecteur de Rd . laquelle nous permettra de mesurer des ensembles de droites du plan. on peut poser µF (] a.

Signalons enfin la définition suivante qui sera très utile pour la suite. 2π [×[ 0. p) induit encore une translation sur (θ. p). e(θ) > 0 θ = θ+π mod 2π sinon et   p + x. e(θ)| sinon On voit donc qu’une translation τx se traduit par un translation sur (θ. c’est-à-dire les compo- sitions de translations τx et de rotations Rφ d’angle φ autour de l’origine. Cette mesure induit une mesure ν sur l’ensemble des droites par   ν(A) = µ (θ. De même ν est invariante par toute rotation Rφ d’angle φ. et notons x. On prendra θ dans [ 0.bibliomath. ∞ [ la mesure de Lebesgue µ définie à partir des pavés par   µ [ θ1 . on la repèrera par ses coordonnées polaires.com i i i . 0 ≤ p1 ≤ p2 < ∞ . p) = D(θ + φ mod 2π. La mesure ν est donc la mesure image de µ par l’application (θ. p) ∈ A . y ∈ R2 . p). à une constante de proportion- nalité près. θ2 ] × [ p1 . |p + x. On démontre que la mesure ν ainsi définie est. l’unique mesure sur les ensembles de droites qui est invariante par les mouvements euclidiens. Notons e(θ) le vecteur de coordonnées (cos θ. 0 ≤ θ1 ≤ θ2 ≤ 2π . Considérons sur D l’ensemble des mouvements euclidiens. y le produit scalaire de deux vecteurs x. p) : D(θ. p) = D(θ  . sin θ) dans R2 . Ainsi. i i “barbe” — 2007/1/8 — 10:41 — page 18 — #26 i i Chapitre I. θ est l’angle entre l’axe Ox et la droite perpendiculaire à D passant par O. p) où p est la distance entre la droite D et l’origine O. p ) avec   θ si p + x. p2 ] = (θ1 − θ2 )(p1 − p2 ) . Théorie de la mesure Si D est une droite du plan. e(θ) si p + x. Observons que   τx D(θ. 18 i www. 2π [ et p positif ou nul. e(θ) > 0 p = . Soit sur [ 0. ν est invariante par τx . p) → D(θ. on notera D = D(θ. p). Puisque la mesure µ est invariante par translation modulo 2π. puisque Rφ D(θ.

égale à 1 sur ] 0. i i “barbe” — 2007/1/8 — 10:41 — page 19 — #27 i i Exercices D´efinition I. on pose J = { A1 ∩ A2 : A1 ∈ A1 . Soit f la fonction f (ω) = 1 si ω est rationnel. 2. A. Exercice I.) si l’ensemble { ω : f (ω) ne vérifie pas P } est né- gligeable. Exercices Exercice I.2. Soit E une partie (fixée) d’un ensemble Ω. et soit E = { A ∈ P(Ω) : A ⊂ E } .p.4.p. λ({ x }) = 0 pour tout x ∈ R et puisque Q est dénombrable. Alors f est constante et égale à 1 µ-p. et f (ω) = 0 sinon (i. A = A1 ⊗ A2 ) un espace me- suré produit. Déterminer l’algèbre de Boole engendrée par E.11. la section Aω1 = { ω2 ∈ Ω2 : (ω1 . On dit qu’une fonction mesurable f sur (Ω. Exercice I.p. µ) un espace mesuré. On dit qu’un ensemble A est négligeable s’il existe un ensemble B ∈ A tel que A ⊂ B et µ(B) = 0. A. Alors f est égal à 0 λ-p. puis conclure à l’aide du théorème des classes monotones. ∞ [. la fonction signe. valant 0 à l’origine et −1 sur ] −∞. Exemples I.4. De même. Soit (Ω. (i) Soit Ω = { 1.  . ω2 ) ∈ A } est mesurable (élément de A2 ). Montrer que E ⊂ M.3.e. µ) vérifie une propriété P µ-presque partout (µ-p. puisque son seul point de discontinuité est 0 et λ({ 0 }) = 0. (ii) Soit R muni de la tribu borélienne et de la mesure de Lebesgue λ. que M est une classe monotone. Soit (Ω = Ω1 × Ω2 . 0 [.p. montrer que pour tout ω1 ∈ Ω1 .12. Si A ∈ A. Indication : considérer M = { A ∈ A : Aω1 ∈ A2 } et E la classe des unions finies de pavés. 3 } muni de la tribu de ses parties et µ définie par µ({ 1 }) = µ({ 2 }) = 1 et µ({ 3 }) = 0. A2 ∈ A2 } . Si A1 et A2 sont des tribus sur Ω. λ(Q) = 0. Démontrer que σ(J ) = σ(A1 ∪ A2 ) = σ(U ). A2 ∈ A2 } .1. Soit f la fonction mesurable f (1) = f (2) = 1 et f (3) = 0. est continue λ-p. f = ½Q ). En effet. U = { A1 ∪ A2 : A1 ∈ A1 .

Exercice I. 19 i www. Vérifier l’égalité f −1(U ) = r.m n≥m fn−1 (Ur ) de la démonstra- tion du théorème I.2.4.5.com i i i .bibliomath.

p. δp = α/2p .ε = 0 n m≥n et en déduire que limn→∞ µ(En. En utilisant l’axiome du choix (si A est une fonction sur un ensemble I telle que A(x) = ∅ pour tout x de I. d) Soit α> 0 . xn. a ∈ R.ε = { ω ∈ Ω : |fn (ω) − f (ω)| ≥ ε } et En. Remarquer que        1 = λ [ 0. Conclure.δ et tout n ≥ n0 .    µ Gm. on pose εp = 1/p. Démontrer que µ(A) ≤ α et que fn → f uniformément sur Ω \ A. . i.. il existe n0 ∈ N et Bε. 2 ≤ i ≤ n . 1 [ qui contient exactement un point de chaque classe d’équivalence. telles que fn → f µ-p.n ). . on note φ(x) le vecteur x ordonné par ordre croissant. telles que   µ { ω : fn (ω) → f (ω) } = 0 . Si x = (x1 . xn ) ∈ Rn . φ(x) = (x1. A. Théorème d’Egorov. .com i i i .ε . c) Déduire de la question précédente que pour tous ε.ε ) = 0. a) Pourn ∈ N et ε > 0.1 [ En utilisant la σ-additivité de λ. Indication : on pourra commencer par montrer que x → xi.ε = m≥n Gm. soit Gn. r∈Q∩] −1. on considère des applications f . Montrer que φ est mesurable. pour tout entier p ≥ 1. c’est-à-dire.5.e. 2 ] = 3 . . 1 ] ≤ λ (A + r) ≤ λ [ −1. et que λ(A + s) = λ(A). où A + x = { y + x : y ∈ A }.n ≤ a }. montrer que cette inégalité conduit d’une part à α = 0. et soit α = λ(A) sa mesure de Lebesgue.6.n = min { xi : 1 ≤ i ≤ n} \ { xj.n . . Supposons A mesurable. de Ω dans R.δp et A = p≥1 Ap . s ∈ Q et r = s. n ∈ N. µ) un espace mesuré tel que µ(Ω) soit fini . .n = min1≤i≤n xi et   xi. Exercice I. alors (A + s) ∩ (A + r) = ∅. Ap = Bεp . . il existe une fonction f telle que f (x) ∈ A(x) pour tout x ∈ I).δ ∈ A tels que µ(Bε.n : 1 ≤ j ≤ i − 1 } . Sur R on définit la relation d’équivalence x ∼ y si x − y ∈ Q. Soit (Ω. 20 i www.n est mesurable pour tout 1 ≤ i ≤ n en considérant les ensembles { xi. Démontrer que pour tout ε > 0. Théorie de la mesure Exercice I. construire un ensemble A ∈ [ 0. où x1.7. Un exemple d’ensemble non mesurable.δ ) ≤ δ et pour tout ω ∈ Ω \ Bε. Montrer que si r. Exercice I. δ > 0. . fn . i i “barbe” — 2007/1/8 — 10:41 — page 20 — #28 i i Chapitre I. d’autre part à α > 0.bibliomath. |fn (ω) − f (ω)| ≤ ε.

p. Exercice I. A.com i i i . on construira un ouvert V de X tel que f −1 (O) ∩ (X \ N ) ⊂ V ⊂ f −1 (O) . c’est-à-dire telle que l’ensemble N = {x ∈ X : f discontinue en x} soit µ-négligeable. µ) un espace mesuré. B X ) dans (Y.bibliomath.. Soient X et Y deux espaces topologiques munis respecti- vement des tribus boréliennes BX et BY . N ∈ N } . La tribu B est dite complète pour µ si elle contient tous les ensembles négligeables. et f : X → Y une fonction continue µ-p. Soit (Ω. A ∈ A .8. appelée la tribu µ-complétée de A. µ une mesure sur BX . Indication : Pour tout ouvert O de Y . i i “barbe” — 2007/1/8 — 10:41 — page 21 — #29 i i Exercices Exercice I. BY ) où B X est la tribu complétée de BX par rapport à µ. soit Aµ = { A ∪ N . et on montrera qu’alors f −1 (O) = V ∪ (f −1 (O) ∩ N ). Démontrer que f est me- surable de (X. Si N désigne l’ensemble des parties µ-négligeables. Une partie N ⊂ Ω est dite µ-négligeable si elle est contenue dans un ensemble mesurable A tel que µ(A) = 0. 21 i www. Montrer que Aµ est une tribu.9.

i i “barbe” — 2007/1/8 — 10:41 — page 22 — #30 i i i www.bibliomath.com i i i .

Si A ∈ A. Ces fonctions seront appelées boréliennes sur (Ω. est D´efinition II. b ]. i i “barbe” — 2007/1/8 — 10:41 — page 23 — #31 i i II INTÉGRATION Dans tout ce chapitre. l’intégrale de f = ½A sur B par rapport  ou B f (ω) dµ(ω).1. Cette i www. µ). nous considérons des fonctions d’un espace mesuré (Ω. A. on veut que si une suite croissante de fonctions positives fn converge simplement. C’est donc la longueur de l’intervalle. par ½B f dµ. µ) à valeurs dans R muni de sa tribu borélienne B(R). Les théorèmes importants de la théorie de l’intégration sont le théorème de convergence monotone et le théorème de convergence dominée de Lebesgue. Mais l’on veut aussi que l’intégrale coïncide avec ce que l’intuition attend lorsque l’on intègre des fonctions étagées. Plus généralement. ou. notée B f dµ équivalente. est définie comme étant µ(A). la fonction indicatrice mesurable.  si A = B(R). Intégrale de fonctions positives  de A.1. De fa- çon grossière.  si B ∈ A. En particulier. A. alors la limite des intégrales de fn est l’intégrale de la limite des fn . notée f dµ ou Ω f (ω) dµ(ω). nous obtenons ½A dµ = b − a.1. Cette nécessité conduit naturellement à prendre une définition de l’intégrale utilisant l’approximation des fonctions par des limites croissantes. II. est définie par µ(A ∩ B). en prenant µ la mesure de Lebesgue et A =] a.bibliomath.com i i i . Son intégrale par rapport à µ. f(ω) = ½A (ω). de façon à µ.

puisque.3. i i “barbe” — 2007/1/8 — 10:41 — page 24 — #32 i i Chapitre II. A. f (ω) = 1≤i≤n ai Ai (ω) ½ avec les Ai mesurables disjoints. R ½A (x) dx = a 1 dx = b − a.1. (i) Si 0 ≤ f ≤ g alors 0 ≤ B f dµ ≤ B g dµ. et A ⊂ N. alors A f dµ ≤ B f dµ. Soit f une fonction mesurable positive définie sur (Ω. L’un des avantages de la définition de l’intégrale de Lebesgue est de traiter de la même façon des exemples aussi différents que la mesure de Lebesgue et la mesure de comptage. D´efinition II.1. on pose   f dµ = ai µ(Ai ∩ B) = ai ½Ai dµ . Intégration définition de l’intégrale coïncide. Montrons que cette construction de l’intégrale d’une fonction positive réalise ce que l’on en attend. (αf + βg) dµ = α f dµ + β g dµ).   Proposition II. B B B   L’intégrale sur Ω est notée Ωf dµ = f dµ. On définit et note son intégrale par rapport à µ sur l’ensemble mesurable B par     f dµ = f (ω) dµ(ω) = sup g dµ : g étagée positive. Observons que l’intégrale d’une fonction positive peut être infinie. si µ est la mesure de comptage sur N.2. B 1≤i≤n 1≤i≤n B  Le lecteur peut alors vérifier que la valeur de l’intégrale B f dµ ne dépend pas de la décomposition de f en somme d’indicatrices et en déduire la linéarité de l’intégrale sur les fonctions étagées positives. ce qui conduit à étendre la définition par linéarité. Nous pouvons étendre la définition de l’intégrale aux fonctions positives.bibliomath. g ≤ f . b avec l’intégrale de Riemann.   (ii) Si A ⊂ B et f ≥ 0. µ).1. au sens de Riemann.com i i i . Si f est étagée positive.e. D´efinition II.  si A = P(N). alors ½A dµ = card(A).  ce qui est bien peu ! Nous souhaitons que l’intégrale soit linéaire (i. Maintenant.4. Nous savons maintenant intégrer les fonctions indicatrices d’ensembles me- surables. 24 i www.  sur les intervalles.

B 1≤i≤n 1≤i≤n B Montrons maintenant (viii). Ces propriétés sont encore vraies si les hypothèses sur f (et g) ont seulement lieu µ-presque partout. n ≥ 1. Puisque f ≥ 0.com i i i .  II.   (vii) Si f ≥ 0.   µ(An ) = ½An dµ ≤ n f dµ = 0 . Ses nombreuses applications justifient pleinement l’intérêt de la théorie de l’intégrale de Lebesgue.p. Considérons la suite croissante d’ensembles An = { ω ∈ Ω : f (ω) > 1/n } . Commencer par établir les assertions (i)–(vii) sur les fonctions étagées. Démonstration.3. Il permet en particulier d’étendre la définition de l’intégrale des fonctions positives aux fonctions de signe quelconque. Remarquons que si f = 1≤i≤n ai ½Ai alors   cf dµ = cai µ(B ∩ Ai ) = c ai µ(B ∩ Ai ) = c f dµ . Démontrons par exemple.bibliomath.p. alors B f dµ = ½B f dµ. (iii).  L’égalité { f > 0 } = n≥1 An et la proposition I.  (vi) Si µ(B) = 0.4. i i “barbe” — 2007/1/8 — 10:41 — page 25 — #33 i i II.  (viii) Si f ≥ 0 et B f dµ = 0.iii montrent alors que l’en- semble {ω : f (ω) > 0} est de µ-mesure nulle. alors B cf dµ = c B f dµ. d’après (i) et (iii). Donc. suivant ce schéma. on en déduit que f = 0 µ-p.  (v) Si f = 0 alors f dµ = 0. puis passer au supremum pour les fonctions positives.2. alors B f dµ = 0. 25 i www.2. Intégrale de fonctions quelconques et théorèmes de convergence Le théorème suivant est d’un intérêt considérable. Quitte à remplacer f par ½B f . il suffit de montrer le résultat pour B = Ω. Intégrale de fonctions quelconques et théorèmes de convergence   (iii) Si f ≥ 0 et c ≥ 0.    (iv) B (f + g) dµ = B f dµ + B g dµ. alors ½B f = 0 µ-p. On vérifie que ½An ≤ n−1 f .

3.i. donc admet une limiteα ≥ 0 (éventuellement α = +∞). Puisque fn ≤ f .1. n→∞ n→∞ 26 i www.bibliomath.2. Soit une fonction étagée g = 1≤j≤m bj ½Bj telle que 0 ≤ g ≤ f . n→∞ Démonstration. ceci pour toute fonction  étagée 0 ≤ g ≤ f . Or c étant arbitraire dans [ 0.iii et du fait que n { fn ≥ cg } = Ω. convergeant ponctuellement vers f . Alors.4.3 (Lemme de Fatou).1. on en déduit α ≥ f dµ. Intégration Th´eor`eme II. Le théorème II. Donc. La suite gn = 0≤m≤n fm est  croissante  et converge simplement vers f .1 (de convergence monotone). Soit 0 ≤ c < 1.4. Démonstration.4. Alors   lim inf fn dµ ≤ lim inf fn dµ . Par définition de l’intégrale f dµ. n→∞ 1≤i≤m 1≤i≤m  la seconde égalité résultant de I. A. Notons { fn ≥ cg} = {ω ∈ Ω : fn (ω) ≥ cg(ω) }. Alors f est mesurable et   lim fn dµ = f dµ . i i “barbe” — 2007/1/8 — 10:41 — page 26 — #34 i i Chapitre II.2.  Le résultat suivant est un exemple d’application du théorème de convergence monotone.2.2. ce qui est le résultat. Corollaire II. Soit (fn )n∈N une suite  de fonctions mesurables positives et soit f = n∈N fn .1. 1 [.    α≥c bj lim µ Bj ∩ { fn ≥ cg } = c bj µ(Bj ) = c g dµ .com i i i .1 implique limn→∞ gn dµ = limn→∞ gn dµ.4.2.2.i montre aussi que α ≤ f dµ. Alors f dµ = n∈N fn dµ. quand n → ∞.      fn dµ ≥ ½{fn ≥cg} fn dµ ≥ c g ½{fn ≥cg} dµ = c bj µ Bj ∩ { fn ≥ cg } 1≤j≤m d’après II. Soit (fn )n∈N une suite croissante de fonctions mesurables positives sur (Ω. Ainsi α = f dµ et le théorème est démontré. La fonction f est  mesurable en vertu du théorème I.i–iii et la définition de l’intégrale sur les fonctions étagées. Puisque fn est croissante et positive. µ).  Corollaire II. Soit (fn )n∈N une suite de fonctions mesu- rables positives. II. fn dµ est croissante et positive d’après II. on obtient α ≥  g dµ.5.

2. I.  Nous étendons maintenant l’intégrale des fonctions positives aux fonctions de signe quelconque. et note f dµ = Ω f dµ. En général. nous convenons  ici qu’une fonction de signe quelconque est inté- grable si et seulement  |f | dµ < ∞. D´efinition II. Exemple II. D’après la pro- position I. f est inté- grable par rapport à la masse de Dirac δω (cf. n ∈ N. Les fonctions f + et f − sont boréliennes si f l’est.2. de fonctions étagées positives qui convergent en croissant vers f et g respectivement.7. on note f + = f ∨ 0 sa partie positive et f − = −(f ∧ 0) sa partie négative. alors B f dµ = ½B f dµ. éventuel- lement infinie. Supposons d’abord f.   De plus.com i i i . si f est une fonction. Alors la suite αfn + βgn converge en croissant vers αf + βg. Alors que l’intégrale d’une fonction positive est toujours définie.5. les propriétés essentielles de l’intégrale sur les fonctions positives s’étendent à l’intégrale des fonctions de signe quelconque. Proposition II. Soit f = f + − f − une fonction mesurable. se déduit du théo- rème de convergence monotone. Il suffit alors d’appliquer le théorème II. β ≥ 0.4.2.ii) et f dδω = f (ω). on sépare parties positive et négative et on distingue selon les signes de α et β.bibliomath.i.   Si B = Ω. si f ≤ g alors f dµ ≤ g dµ. Démonstration. On vérifie sans peine que si (Ω. et le résultat. La suite gn est croissante. Il est aisé de vérifier que si f est intégrable et B ∈ A. on définit et écrit son intégrale par rapport à µ sur B par B f dµ = B f + dµ − B f − dµ.4. ai ≥ 0. Plus gé- néralement. Intégrale de fonctions quelconques et théorèmes de convergence Démonstration.1. ωi ∈ Ω. g ≥ 0 ainsi que α.2. et de plus gn ≤ fn . β ∈ R. Si le contexte est clair on dit aussi que f est intégrable. 27 i www. il existe des suites fn et gn .6. ce qui assure que f = f + − f − et |f | = f + + f − . si µ = 1≤i≤n ai δωi . On dit que f est µ-intégrable sur B si B |f | dµ < ∞. Pour cela. converge simple- ment vers lim inf n→∞ fn .4. B(R)). Si f est µ-intégrable   sur B. alors pour  tout ω ∈ Ω.2. A) est un espace mesurable et f est une fonction mesurable à valeurs dans (R. Soit gn = inf m≥n fm . alors f dµ = 1≤i≤n ai f (ωi ).2.2. Si f et g sont intégrables et si α. alors    (αf + βg) dµ = α f dµ + β g dµ . dans ce cas. i i “barbe” — 2007/1/8 — 10:41 — page 27 — #35 i i II. Par convergence monotone. on dit que f est µ-intégrable.1 et d’utiliser la proposition II.

1. le corollaire II. alors lim supn→∞ fn dµ ≤ lim supn→∞ fn dµ.   (i) Si g ≤ fn .7.8 (de convergence domin´ee de Lebesgue). le corollaire II. Th´eor`eme II. on a   lim inf (fn − g) dµ ≤ lim inf (fn − g) dµ n→∞ n→∞ ce qui démontre (i) par linéarité de l’intégrale. Donc (f − g) dµ ≥ 0 d’après la proposition II. et −g ≤ fn ≤ g.4. Démonstration. alors f − g ≥ 0.7 fournit   lim sup fn dµ ≤ lim sup fn dµ n→∞  n→∞ = f dµ  = lim inf fn dµ n→∞  ≤ lim inf fn dµ .  n→∞ n→∞ Le résultat suivant est encore un corollaire du théorème de convergence mo- notone. L’intégrabilité de f vient de ce que nécessairement |f | ≤ g et |g| = g est intégrable.3).   (ii) Si fn ≤ g. i i “barbe” — 2007/1/8 — 10:41 — page 28 — #36 i i Chapitre II. (i) D’après le lemme de Fatou (corollaire II.2.  n→∞ 28 i www. Corollaire II.2. (ii) De même.  L’énoncé suivant est une forme généralisée du lemme de Fatou. Soit g une fonction intégrable et soit (fn )n∈N une suite de fonc- tions intégrables.i. mais nous lui attribuons la valeur d’un théorème compte tenu de son importance. Puisque limn→∞ fn = f .com i i i . n→∞ Démonstration.2. et la conclusion s’ensuit par linéarité. Intégration  Si f ≥ g. Soit (fn )n∈N une suite de fonctions telles que |fn | ≤ g où g est intégrable et fn converge simplement vers f .bibliomath.2. Alors f est intégrable et   lim fn dµ = f dµ .3 donne   lim inf (g − fn ) dµ ≤ lim inf (g − fn ) dµ .2. alors lim inf n→∞ fn dµ ≤ lim inf n→∞ fn dµ.

9.2. la suite de fonc- tions fn = ½∪1≤i≤n Ai g converge simplement vers f = ½∪i≥1 Ai g et chaque fonction |fn | est majorée par la fonction intégrable |g|. De plus.2. la convergence simple de fn vers f peut être remplacée par la convergence µ-presque partout (i.10 (In´egalit´e de Jensen). alors    φ f dµ ≤ φ(f ) dµ . En effet. si l’égalité a lieu pour toute fonction f . dans les théorèmes de convergence monotone et de convergence dominée. alors la fonction φ est linéaire. Donc pour tout t ∈ R.e.2.2.bibliomath. et soit g une fonction intégrable.2. l’égalité φ( f dµ) = φ(f ) dµ n’a lieu que si f est µ-presque partout constante. b ] si pour tout ε > 0 il existe des fonctions en 29 i www. il existe β tel que φ(x) ≥ φ(t) + β(x − t) pour tout x (on peut prendre pour  β la dérivée à gauche ou à droite de φ en t). La conclusion s’ensuit puisque l’intégrale conserve le sens des inégalités (cf. Appliquons cette inégalité à t = f dµ et x = f (ω) pour tout ω.  La démonstration  de l’inégalité  de Jensen montre que si φ est strictement convexe. changement de variables. mentionnons que l’intégrale construite étend celle de Riemann et donc qu’en pratique le calcul d’une intégrale s’effectue à l’aide des techniques usuelles (calcul de primitives. rappelons qu’une fonction f est Riemann intégrable sur un intervalle fermé borné [ a. et si f est une fonction borélienne telle que f et φ(f ) sont intégrables par rapport à une mesure de probabilité µ. Intégrale de fonctions quelconques et théorèmes de convergence On peut vérifier simplement que. Dans le cas de la mesure de Lebesgue. La convexité de φ assure qu’en tout point le graphe de φ est au-dessus de sa tangente.com i i i . Ui≥1 Ai n→∞ n→∞ 1≤i≤n Ai L’inégalité suivante est très importante pour les applications. Démonstration. Elle ne concerne que les mesures de probabilité. Si φ est une fonction convexe de R dans R. i i “barbe” — 2007/1/8 — 10:41 — page 29 — #37 i i II. Alors ∪i≥1 Ai g dµ = i≥1 Ai g dµ. Soit Ai . et intégrons les deux membres. Exemple II. fn (ω) → f (ω) pour tout ω en dehors d’un ensemble de mesure nulle pour µ). proposition II.6). i ≥ 1. Le théorème de convergence domi- née II. inté- gration par parties). des ensembles mesurables  disjoints. Th´eor`eme II. En effet.8 montre que     g dµ = f dµ = lim fn dµ = lim g dµ .

b] f dλ = a f (x) dx.e. Théorème de Radon-Nikodym Étant donnée une mesure sur un espace. µ). L’abus usuel de notation confond alors les nota- tions dλ et dx. L’exemple II.5). est une mesure. la proposition II. g dν = gf dµ. définie sur A par un espace ν(A) = A f dµ. I.9 montre que la fonction d’ensembles ν est σ-additive : si les Ai .b] a  b et ainsi [a. Soit f une fonction mesurable. 30 i www. Enfin. g dν = gf dµ.4. alors ν(A) = 0.1.2. d’autre part. De plus. I. a g(x) dx = [a.bibliomath. A ∈ A. d’une part parce que l’on peut intégrer par rapport à d’autres mesures que celle de Lebesgue et sur d’autres espaces que R ou Rd . une barre d’un matériau homogène a un poids proportionnel à sa longueur. De  plus. et la masse des intervalles de cette barre définit une mesure proportionnelle à la mesure de Lebesgue. i ≥ 1.i).4. positive et intégrable sur  mesuré (Ω.b] g dλ et a h(x) dx = [a. par définition des intégrales de b  b  Riemann et de Lebesgue.10. Proposition II. A.v montre que ν(A) = Af dµ = 0. nous avons vu que l’on peut éven- tuellement construire de nouvelles mesures en considérant les mesures images (cf.3.     ν(Ai ) = f dµ =  f dµ = ν Ai . Intuitive- ment. Intégration b escalier g et h avec g ≤ f ≤ h et a (h−g)(x) dx ≤ ε.1. La construction de l’intégrale donnée ici est plus générale. Dans ce paragraphe.b] [a. exercice II. Nous considérons ici une nouvelle façon d’engendrer des mesures. parce que même sur R.com i i i .3. La proposition ci-dessous revient à peu près à considérer la masse d’une barre non homogène.b] [a.b] h dλ. La fonction d’ensembles ν.4. i≥1 i≥1 Ai i≥1 Ai i≥1  Si µ(A) = 0. si µ(A) = 0. g est ν-intégrable si et seule- ment si gf est µ-intégrable et dans ce cas. Pour les fonctions en escalier g et h. Soit λ la mesure de Lebesgue (cf. Donc  b     b g(x) dx = g dλ ≤ f dλ ≤ h dλ = h(x) dx a [a. intégrables au sens de ce chapitre) qui ne sont pas Riemann intégrables (cf. i i “barbe” — 2007/1/8 — 10:41 — page 30 — #38 i i Chapitre II.1). Démonstration. sont mesurables et disjoints. si g est positive. toutes les mesures sont supposées σ-finies. il existe des fonctions Lebesgue-intégrables (i. II.

i i
“barbe” — 2007/1/8 — 10:41 — page 31 — #39
i i

II.3. Théorème de Radon-Nikodym

Le dernier point résulte du schéma général de construction
 de l’intégrale. Si
g est étagée positive, il est clair par construction que g dν = gf dµ. Si g est
positive, on conclut en l’approximant par des fonctions étagées. Enfin, pour g
intégrable, on conclut en séparant parties positive et négative, et en utilisant la
construction de l’intégrale. 

La proposition précédente décrit en fait un phénomène général.

D´efinition II.3.2. Soient deux mesures µ et ν définies sur un espace mesurable
(Ω, A).
(i) On dit que ν est absolument continue par rapport à µ si tout ensemble
de mesure nulle pour µ est de mesure nulle pour ν (i.e. µ(A) = 0 ⇒ ν(A) = 0).
On note alors ν  µ. De plus, si ν  µ et µ  ν, on dit que ν et µ sont
équivalentes.
(ii) On dit que µ et ν sont étrangères s’il existe A ∈ A tel que µ(A) = 0 et
ν(Ac ) = 0.

La proposition II.3.1 founit une classe de mesures absolument continues par
rapport à µ. Le théorème suivant, appelé théorème de Radon-Nikodym, montre
que c’est la situation générale.

Th´eor`eme II.3.3 (de Radon-Nikodym). Si µ et ν sont deux mesures σ-finies, telles
 ν  µ, alors il existe une fonction mesurable positive f telle que ν(A) =
que
A f dµ pour tout ensemble mesurable A. La fonction f est appelée la densité de
ν par rapport à µ, notée f = dν .

Démonstration. Voir par exemple Neveu (1964), Rudin (1975) ou Malliavin
(1982). 

Th´eor`eme II.3.4. Soient µ, ν deux mesures σ-finies sur (Ω, A). Alors il existe une
unique décomposition ν = νac + ν⊥ avec νac  µ et ν⊥ étrangère par rapport à µ.
La mesure νac est appelée la partie absolument continue de ν par rapport à µ et
ν⊥ la partie étrangère de ν par rapport à µ.

Démonstration. On se reportera par exemple à Neveu (1964), Rudin (1975) ou
Malliavin (1982). 

31

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 32 — #40
i i

Chapitre II. Intégration

II.4. Intégration par rapport à une mesure image
Nous avons défini les mesures images (cf. I.4.5). Rappelons que si f est une
fonction mesurable de (Ω, A, µ) dans (E, B), on note µf la mesure sur B définie
par µf (B) = µ(f −1 (B)). En pratique, l’intégrale par rapport à une mesure image
s’effectue à l’aide du théorème suivant, qui est une formulation abstraite de la
formule classique du changement de variable.
Th´eor`eme II.4.1 (de transport). Soit f une application mesurable de (Ω, A, µ)
dans (E, B), et soit φ une fonction borélienne de E dans R. Alors si φ est à
valeurs positives,  
φ dµf = φ ◦ f dµ .
E Ω
Si φ est à valeurs quelconques, φ est µf -intégrable si et seulement si φ ◦ f est
µ-intégrable et, dans ce cas, l’identité précédente est encore satisfaite.
Démonstration. Elle répète le schéma général de construction de l’intégrale. Si
φ = ½B pour un B ∈ B,

   
½B dµf = µf (B) = µ f −1 (B) = µ { ω ∈ Ω : f (ω) ∈ B }
E 
= ½B ◦ f (ω) dµ(ω)

et la formule est vraie dans ce cas. Si φ est étagée, la formule est valide par li-
néarité (par rapport à φ). Si φ est positive, soit (φn )n∈N une suite de fonctions
étagées positives convergeant en croissant vers φ (I.2.7). Alors φ ◦ fn est éta-
gée et converge simplement en croissant vers φ ◦ f . En utilisant le théorème de
convergence monotone (II.2.1), à la fois pour la mesure µ et la mesure µf ,
   
f
φ dµ = lim f
φn dµ = lim φn ◦ f dµ = φ ◦ f dµ .
E n→∞ E n→∞ Ω Ω
Dans le cas général, remarquons que
 
|φ| dµ =
f
|φ ◦ f | dµ
E Ω

et donc φ ◦ f est µ-intégrable si et seulement si φ est µf intégrable. En posant
φ = φ+ − φ− , on conclut que
  
f
φ dµ = φ dµ −
+ f
φ− dµf
E E E  

= φ ◦ f dµ −
+
φ ◦ f dµ = φ ◦ f dµ .
Ω Ω Ω
Le théorème est établi. 

32

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 33 — #41
i i

II.4. Intégration par rapport à une mesure image

Exemple II.4.2. Continuons l’exemple I.4.10.iv en évaluant la mesure de l’en-
semble des droites qui coupent un segment S de longueur l donnée, i.e.
 
ν { D : D ∩ S = ∅ } .

Puisque ν est invariante par les mouvements euclidiens, ou peut supposer que S
est sur l’axe Ox, l’une de ses extrémités étant l’origine. Alors

 
ν { D : D ∩ S = ∅ } = ½{D∩S =∅} dν(D) (définition II.1.1 de l’intégrale)
 2π  ∞
= ½{D(θ,p)∩S =∅} dp dθ (par transport)
0 0
 π/2  ∞
=2 ½{0≤p≤l cos θ} dp dθ
0 0

= 2l .

Supposons
 maintenant que nous disposons de k segments S1 , . . ., Sk , et posons
S = 1≤i≤k Si . Soit card(D ∩ S) le nombre de points d’intersection de D avec S.
Alors  
1 1
card(D ∩ S) dν(D) = ½D∩Si dν(D)
2 2
1≤i≤k
1  
= ν { D : D ∩ Si = ∅ }
2
1≤i≤k

est la somme des longueurs des segments.
Enfin, si nous avons une courbe C régulière (i.e. une courbe paramétrée
α(t) = (x(t), y(t)), 0 ≤ t ≤ 1, avec x, y dérivables), celle-ci peut s’approximer
par des segments. En utilisant le théorème de convergence dominée, on peut mon-
trer que 
1
card(D ∩ C) dν(D) = longueur de C .
2
Ce résultat, loin d’être une abstraction, est tout à fait concret et utile. Il
permet par exemple de mesurer la longueur d’une chaîne plane de molécules.
Pour cela, il suffit de remarquer que
  
1 1 2π c  
card(D ∩ C) dν(D) = card D(θ, p) ∩ C dp dθ ,
2 2 0 0

où c est un majorant du diamètre de C (i.e. de sup0≤s,t≤1 |α(s) − α(t)|) et en
supposant que C est translaté de sorte que α(0) = 0 par exemple. En approxi-
mant l’intégrale par une somme de Riemann, on voit que pour une subdivision

33

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 34 — #42
i i

Chapitre II. Intégration

0 = p0 < p1 < · · · < pn de [ 0, c ] et 0 = θ0 < θ1 < · · · < θm = 2π

1 1  
card(D ∩ C) dν(D)  (θi − θi−1 ) (pj − pj−1 )card D(θi , pj ) ∩ C .
2 2
1≤i≤m 1≤j≤n

Lorsque pj − pj−1 = ε est constant, observons que

(pj − pj−1 )card(D(θi , pj ) ∩ C)
1≤j≤n

est ε fois le nombre d’intersections entre C et un réseau de droites parallèles
équidistantes de ε. On se rend compte assez facilement sur un dessin que pour
une courbe assez tortueuse, m = 8 (et θi − θi−1 = π/4) donnera une très bonne
approximation pourvu que c soit assez petit. Implémentons ceci pour mesurer la
longueur de la courbe fermée ci-dessous (dans le carré unité).

Prenons pj − pj−1 = 1/20 ce qui conduit à considérer un réseau de droites
espacées de 0, 05. Prenons aussi θi − θi−1 = π/4. Alors la longueur de la courbe
est à peu près
1 π 132 + 74 + 146 + 114
l  9,1 .
24 20

34

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 35 — #43
i i

II.5. Théorèmes de Fubini-Tonelli

II.5. Théorèmes de Fubini-Tonelli

Soient (Ω1 , A1 , µ1 ) et (Ω2 , A2 , µ2 ) deux espaces mesurés pour des mesures µ1
et µ2 σ-finies. Considérons l’espace produit Ω = Ω1 × Ω2 muni de la tribu produit
A = A1 ⊗ A2 et de la mesure produit µ = µ1 ⊗ µ2 (cf. I.4.10.ii). Si A ∈ A, on
peut montrer (exercice I.3) que les sections

   
Aω1 = ω2 ∈ Ω2 : (ω1 , ω2 ) ∈ A et Aω2 = ω1 ∈ Ω1 : (ω1 , ω2 ) ∈ A

sont mesurables (i.e. Aω1 ∈ A2 et Aω2 ∈ A1 ). De plus

 
µ(A) = µ2 (Aω1 ) dµ1 (ω1 ) = µ1 (Aω2 ) dµ2 (ω2 ) , (1)
Ω1 Ω2

ce qui peut être réécrit

 
 
µ(A) = ½A (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 )
 Ω1  Ω2
 
= ½A (ω1 , ω2 ) dµ1 (ω1 ) dµ2 (ω2 ) .
Ω2 Ω1

En effet, soit

   
M= A ∈ A : µ(A) = µ2 (Aω1 ) dµ(ω1 ) = µ1 (Aω2 ) dµ(ω2 )
Ω1 Ω2

et soit E la classe des pavés de la forme A1 × A2 , A1 ∈ A1 , A2 ∈ A2 . On vérifie
facilement que M est une classe monotone qui contient E. Donc, en utilisant le
théorème des classes monotones I.3.3 et la définition I.1.9 de la tribu produit,
A ⊃ M ⊃ M(E) = σ(E) = A, ce qui démontre (1).
Autrement dit, on peut dans ce cas permuter l’ordre d’intégration. La cons-
truction de l’intégrale montre que cette permutation reste licite lorsqu’on intègre
des fonctions à valeurs positives. C’est le théorème de Fubini-Tonelli. Le théorème
de Fubini étend ce fait aux fonctions µ-intégrables.

35

i www.bibliomath.com i

i i

36 i www.     f dµ = f (ω1 . qu’il est d’usage de noter L1 (Ω. Ω2 Ω1 Démonstration.  Dans la pratique. A-mesurable et µ-intégrable. on note Lp (Ω. on est alors en droit d’utiliser le théorème de Fubini pour le calcul de f dµ.  c’est-à-dire l’ensemble des fonctions f mesurables de Ω dans R. i i “barbe” — 2007/1/8 — 10:41 — page 36 — #44 i i Chapitre II. II. 0 < p < ∞. A. Si |f | dµ est finie. L0 est défini simplement comme étant l’ensemble des fonctions mesurables de (Ω. A. telles que |f |p dµ < ∞. ω2 ) dµ1 (ω1 ) dµ2 (ω2 ) . on pose     f ∞ = inf c > 0 : µ ω : |f (ω)| > c = 0 . Des exemples simples montrent en outre que la permutation de l’ordre d’intégration peut être en défaut si f n’est pas intégrable pour la mesure produit µ. Intégration Th´eor`eme II. µ) (ou simplement Lp si le contexte est clair) l’ensemble des fonc- tions réelles de puissance p-ième intégrable. les égalités sont sa- tisfaites lorsque f est positive. Pour 0 < p < ∞. Alors. de f . Si f ∈ Lp . Ω Pour f ∈ L∞ . on pose  1/p f p = |f | dµ p .com i i i . µ). D’après la remarque précédant le théorème. définie sur Ω. pour vérifier qu’une fonction f est intégrable par rapport à une mesure produit µ = µ1 ⊗µ2 . A.5. C’est l’ensemble des fonctions (mesurables) µ-essentiellement bornées. A. qui est appelé le supremum essentiel. A. µ) dans R telles qu’il existe c > 0 avec µ({ ω : |f (ω)| > c }) = 0 . ω2 ) dµ2 (ω2 ) dµ1 (ω1 ) Ω Ω1 Ω2    = f (ω1 . On étend les égalités aux fonctions intégrables en séparant parties positive et négative et en utilisant la linéarité de l’intégrale.bibliomath. µ) dans R.1 (de Fubini). ou la borne essentielle. µ). On définit L∞ comme étant l’ensemble des fonctions mesurables f de (Ω. Espaces Lp Nous avons défini la classe des fonctions intégrables (à valeurs dans R) sur un espace mesuré (Ω. on évalue |f | dµ par permutation des intégrales. Soit f une fonction réelle.6.

et l’inégalité de Hölder est triviale. 1 ≤ p ≤ ∞. q ≥ 1 sont conjugués si p−1 + q −1 = 1. Par homogénéité. En utilisant l’in- égalité triangulaire puis l’inégalité de Hölder. Soit alors la mesure de probabilité ν de densité |g|q par rapport µ. il conviendrait de travailler avec |f | |g|1−q ∧ n. alors f g = 0 µ-p. g ∈ Lq .  37 i www. Supposons donc f p gq = 0. Si f . Remarquons que p et p/(p − 1) sont conjugués.6. n ≥ 1. et f ∈ Lp .2 (In´egalit´e de H¨older). L’inégalité à établir devient alors  p  |f ||g|1−q dν ≤ |f |p |g|−q dν qui est une conséquence de l’inégalité de Jensen pour la fonction convexe φ(x) = xp (théorème II. Si f p gq = 0. afin d’as- surer l’hypothèse d’intégrabilité. Si p = 1 ou p = ∞ l’inégalité est évidente. et de conclure avec le théorème de convergence monotone.)  Th´eor`eme II. Deux réels p.6. g sont dans Lp . Soient p et q conjugués. (En toute rigueur. car (1 − q)p = −q. Soit p ≥ 1.10). alors f + g est aussi dans Lp et f + gp ≤ f p + gp .6.3 (In´egalit´e de Minkowski).1.com i i i . L’inégalité est triviale si f + gp = 0. Espaces Lp D´efinition II. Th´eor`eme II.bibliomath. C’est le résultat si f + gp = 0. Démonstration.2.p. Démonstration. on peut supposer que gq = 1. Alors f g ∈ L1 et f g1 ≤ f p gq . en lieu et place de |f | |g|1−q .  f + gp = |f + g|p dµ p    ≤ |f ||f + g|p−1 + |g||f + g|p−1 dµ    ≤ f p + gp  |f + g|p−1 p/(p−1)   = f p + gp f + gp−1 p .6. Il suffit donc de démontrer que  p  |f g| dµ ≤ |f |p dµ . i i “barbe” — 2007/1/8 — 10:41 — page 37 — #45 i i II. On convient que 1 et ∞ sont conjugués.

on utilise la σ-finitude de la mesure et on partitionne l’espace pour se ramener au cas fini. le dual de l’espace Lp est Lq .4.p.  38 i www. Alors   |g| ½[0.n] (|g|)p  q/p ≤ Λ g ½[0. Intégration De l’inégalité de Minkowski. l’espace Lp est complet. Alors (Lp . écrivons g = h|g| où |h| = 1 et h est mesurable. En passant à la limite lorsque n tend vers l’infini. Th´eor`eme II. La norme d’une telle forme linéaire p est donnée par l’égalité f p = sup{ f g dµ : gq ≤ 1 }.  · p ) est un espace vectoriel normé.6. cf.3.n] (|g|) dµ = |g|q−1 ½[0. et même est une mesure.p. Si µ(Ω) = ∞. Pour les énoncés suivants nous supposerons que la mesure µ est σ-finie. Pour montrer que g ∈ Lq .n] (|g|)h   ≤ Λ |g|q−1 ½[0.viii).5. et posons ν(A) = Λ(½A ).  Démonstration esquissée.bibliomath. A.n] (|g|)q et donc |g| ½[0. Il convient donc de montrer que toute forme linéaire continue sur Lp est nécessairement de cette forme.6.  les formes linéaires continues sur Lp sont les fonctions de la forme f ∈ L → f g dµ ∈ R pourg ∈ Lq . Lorsque µ(Ω) < ∞. La dernière affirmation découle du théorème de Hahn-Banach sur les duaux. Λ(f ) = f g dµ sur L∞ .  Il reste à montrer que si les formes linéaires f → f g dµ et Λ coïncident sur L∞ . l’application f → f g dµ définie sur Lp est linéaire et continue d’après l’inégalité de Hölder. Nous démontrerons ce théorème à la fin de la section V.n] (|g|)hg dµ q   = Λ |g|q−1 ½[0. D’après le théorème de Radon-Nikodym II.n] (|g|)q ≤ Λ.1. Si g ∈ Lq . on déduit que  · p est une semi-norme sur l’espace Lp (en effet f p = 0 n’implique pas f = 0 mais seulement f = 0 µ-p. On vérifie que ν est additive (i.3. Si µ(A) = 0. on montre que tout espace Lp est dense dans tout espace Lr et donc que deux formes linéaires continues coïncidant sur L∞ coïncident sur Lp . Par linéarité. En d’autres termes. un élément f de Lp s’identifie à un représentant de la classe de tous les éléments g de Lp tels que f = g µ-p. i i “barbe” — 2007/1/8 — 10:41 — page 38 — #46 i i Chapitre II. alors ½A = 0 (dans Lp ) et ν(A) = 0. alors elles coïncident sur Lp . Th´eor`eme II. ce qui montre que ν est absolument continue par rapport à µ. Autrement dit. Pour tout p ≥ 1. gq ≤ Λ < ∞. ν(A∪B) = ν(A)+ν(B) si A∩B = ∅).3. Soit Λ une telle forme linéaire.e. µ) le quotient de l’espace Lp par la relation d’équivalence f = g µ-p.com i i i . II.p.4. Notons Lp = Lp (Ω. Pour p et q conjugués et 1 ≤ p < ∞.  on a donc ν(A) = Λ(½A ) = g½A dµ pour g = dµ dν .

1 [.1.p. à support compact. démontrer que limn→∞ (f −fn )+ dµ = 0. A.com i i i . Exercice II. µ) est un espace de Hilbert pour le produit scalaire f. des fonctions me- surables positives intégrables.bibliomath.4. f2n+1 = ½B . A. x ∈ [ 0. µ) un espace mesuré. 1 [ et 0 si x ∈ ] 0. Soit µ une mesure de probabilité sur I = [ 0. I 2 I Exprimer v et b en fonction de a. Soit (Ω.2. et soient A et B deux éléments de A. majorées par 1. De ce qui précède nous déduisons le résultat suivant qui permet d’utiliser des arguments géométriques dans les espaces L2 (Ω.5. A. i i “barbe” — 2007/1/8 — 10:41 — page 39 — #47 i i Exercices On prendra garde au fait suivant : L∞ est le dual de L1 . Montrer que si A est intervalle ouvert. v = (x − m)2 dµ(x) . En déduire que fn → f dans L1 (µ). Soit C∞ K (R) l’ensemble des fonctions sur R. µ).3. On suppose que   fn → f µ-p. 1 ].7). 1 ]. Indication : on pourra d’abord considérer l’intervalle [ 0. alors ½A est limite simple de fonctions dans C∞ K (R). 39 i www. Un exemple de fonction Lebesgue intégrablequi n’est pas Riemann intégrable : f (x) = ½Q∩[0. 1 ]. I I  1 2  a = x dµ(x) − m . Exercices Exercice II. fn . Exercice II. Montrer que f dλ = 0 mais que f n’est pas Riemann intégrable sur [ 0. ∞  que σ(CK (R)) = B(R) et qu’une En déduire mesure µ est caractérisée par la donnée de f dµ pour toute fonction f ∈ C∞ K (R). Examiner le lemme de Fatou sur l’exemple suivant : f2n = ½A . et lim fn dµ = f dµ . n→∞  En utilisant l’inégalité (f −fn )+ ≤ f . µ) un espace mesuré.6. g = Ω f g dµ. Th´eor`eme II. On note   m = x dµ(x) . L’espace L2 (Ω. En déduire que a ≤ 1/4 et que a = 1/4 pour une unique mesure µ que l’on déterminera. A. Soit (Ω.1] (x). f . Exercice II. 1 ] et les fonctions exp(−ε/x(1 − x)) si x ∈ ] 0. mais le dual de L1 n’est pas (en général) L∞ (voir exercice II. n ∈ N.6. infiniment différen- tiables. Exercice II. 2 2 b= − m + x(1 − x) dµ(x) .

i i “barbe” — 2007/1/8 — 10:41 — page 40 — #48 i i Chapitre II.p. 1 ]. µ1 -p. n→∞ [ 0.1 ] [ 0. B([ 0. f  = f dδ0 = f (0). Cet exercice montre que le dual topologique de L∞ ([ 0. La masse de Dirac δ0 est dans le dual de C[ 0. 1 ] par la dualité δ0 . On définit les mesures (de probabilité) P et Q de densités f et g par rapport à µ.1]  2π où β = (2π)−1 0 (2 + sin u)−1 du. 1 ]. On considère la suite de fonctions an (t) = 2 + sin(nt) . µ3 -p. et µ2 -p.6. n ∈ N. λ). 1 ]. Intégration dµ1 dµ1 dµ2 Exercice II.9.p. Si de dµ3 dµ2 dµ3   dµ2 dµ1 −1 plus µ2  µ1 . C[ 0. λ) = L1 . 1 ]∗ est 1. µ).1 ] Indication : Utiliser la densité des fonctions de classe C1 dans L1 ([ 0. De plus la norme de δ0 ∈ C[ 0.1] an (t) [0. 1 ]. Exercice II. Indication : Utiliser la densité des fonctions en escalier dans L1 ([ 0. Sur un espace mesuré (Ω. alors = . Si µ1  µ2  µ3 .7. 1 ] ⊂ L∞ ⊂ (L1 )∗ où ∗ désigne ledual. 1 ]. 1 ]). Soit L1 ([ 0. 1 ]. on a   lim f (t)an (t) dλ(t) = 2 f (t) dλ(t) .bibliomath. Si P − Q désigne la distance en variation totale définie par   P − Q = sup P (A) − Q(A) .com i i i . λ) et intégrer par parties. c) Prouver que β = 1/2. 1 ]). on a   f (t) lim dλ(t) = β f (t) dλ(t) n→∞ [0. A∈A démontrer que  1 P − Q = |f − g| dµ . B([ 0. λ) = L∞ n’est pas L1 ([ 0. a) Démontrer que pour toute fonction f de L1 ([ 0. soient f et g deux fonctions inté- grables positives ou nulles telles que f dµ = g dµ = 1. dµ1 dµ2 Exercice II. λ). t ∈ R. Exercice II.  A. Par le théorème de Hahn-Banach. λ). montrer que = . 1 ].p. de norme 1. Prouver que Λ n’est pas dans L1 . 1 ]. λ) l’espace des fonctions réelles intégrables pour la mesure de Lebesgue λ sur [ 0. b) Démontrer que pour toute fonction f de L1 ([ 0. montrer que l’on peut prolonger δ0 en une forme linéaire Λ sur L∞ . 2 40 i www. En effet.8.

nous définissons les notions de base des probabilités. A) un espace mesurable. i i “barbe” — 2007/1/8 — 10:41 — page 41 — #49 i i III MESURES DE PROBABILITÉ Dans ce chapitre.1.1. ou simplement une loi. Soit (Ω. D´efinition III. Ce n’est pas la seule possible. III. nous verrons que le calcul des probabilités que l’on peut développer à partir de cette définition coïncide avec l’intuition que l’on peut avoir en observant des phénomènes qualifiés d’aléatoires. P ) est un espace probabilisé. C’est la plus communément utilisée.1. i www.bibliomath. On dit aussi que P est une loi de probabilité. A) toute mesure positive P sur A telle que P (Ω) = 1. définissant ainsi les notions fondamentales du calcul des probabilités. La définition mathématique d’une variable aléatoire est choquante à première vue. L’axiomatique que nous présentons ici est essentiellement due à Kolmogorov (1903–1987). Nous commençons par définir ce qu’est une probabilité. A. à savoir. On appelle probabilité (ou mesure de probabilité) sur (Ω. On dit que (Ω. Il ne faut pas perdre de vue que les mathématiques ne proposent au mieux qu’un modèle de certains mécanismes réels. puisque nous verrons qu’il n’y a absolument rien d’aléatoire et de variable dans cette définition ! Mais à l’usage.com i i i . Il en existe de nombreuses autres et l’on pourra utilement consulter l’ouvrage de Fine (1973) à ce propos. ce que sont une mesure de probabilité et une variable aléatoire. Définition et exemples L’objet de cette section est de transcrire une partie des notions introduites dans les chapitres précédents en termes probabilistes.

k! k∈N appelée loi de Poisson de paramètre λ. A) et (pk )k∈N des réels positifs de somme égale à 1.2. P (A) ≤ P (Ω) = 1. notée P(λ). et si xk = k. λ > 0. Mesures de probabilité En particulier. on obtient la probabilité λk P = e−λ δk . observons que P est à valeurs dans [ 0. (i) Soit (Ω. elle est utilisée par exemple pour modéliser le jet d’une pièce dans un jeu de pile ou face équilibré. P ({ i }) = 1/6 pour tout i ∈ Ω et. si µ est une mesure sur (Ω. 5. Si toujours Ω = N est muni de la tribu de ses parties. (ii) Soit Ω = { 1. Par exemple. Plus généralement. A) avec 0 < µ(Ω) < ∞. la probabilité de tirer un chiffre pair est P ({ 2. Une telle probabilité est absolument continue par rapport à la mesure de comptage sur l’ensemble E = { xk : k ∈ N }. En effet. 4. 6 }) = 1/2.bibliomath. 4. si xk = k et pk = e−λ λk /k!. Exemples III. proportionnelle à la mesure de comptage. Cette mesure est une probabilité. i i “barbe” — 2007/1/8 — 10:41 — page 42 — #50 i i Chapitre III. A) un espace mesurable. par exemple. si Ω = N est muni de la tribu des parties A = P(N). on voit que P = µ/µ(Ω) est une probabilité. en comptant 0 pour pile et 1 pour face. La masse de Dirac δx en x ∈ Ω est la probabilité définie par δx (A) = 1 si x ∈ A et 0 si x ∈ A. la probabilité P = (1 − p) k∈N pk δk est appelée loi géométrique de paramètre p ∈ [ 0. 1 ]. Donnons à présent quelques exemples de mesures de probabilité. 42 i www. Toute mesure de probabilité sur (E. P (A) est la probabilité que le jet du dé donne un chiffre appartenant à l’ensemble A.com i i i . (iv) Soit (xk )k∈N une suite de points d’un espace (Ω. Cette probabilité sert à modéliser le jet d’un dé. 6 } muni de la tribu de ses parties et de la mesure 1 P = 6 1≤i≤6 δi . si A ∈ P(Ω). P(E)) est de cette forme. toute mesure de probabilité concentrée en deux points distincts sera appelée probabilité de Bernoulli. (iii) Soit 0 ≤ p ≤ 1. De plus. En d’autres termes. La mesure de probabilité P = p δ1 + (1 − p) δ0 est appelé pro- babilité ou loi de Bernoulli de paramètre (de succès) p. Lorsque p = 1/2. L’appendice donne un inventaire des mesures de probabilité usuelles et de leurs caractéristiques principales. qui à toute partie de E associe son cardinal. On peut construire une probabilité P en posant P = k≥0 pk δxk . elle donne P ({ 0 }) = P ({ 1 }) = 1/2. Si P est une probabilité. δx (A) = ½A (x). Comme on l’attend intuitivement. Intuitivement. pk = (1 − p)pk .1. 1 ] puisque pour tout ensemble A mesurable. 2. P (∅) = 0. 3.

3. La loi B(1.2. B. Un événement A a lieu P -presque sûrement (P -p. xk = k et pk = Ckn pk (1 − p)n−k pour 0 ≤ k ≤ n. 2. pour noter des variables aléatoires.s. On appelle variable aléatoire toute application mesurable définie sur un espace probabilisé (Ω.1.s. Dans cet exemple. Dans tout ce qui suit. La fonction f est la densité de P (par rapport à λ) (cf. le seul événement qui a lieu presque sûrement est { 1. En reprenant l’exemple III. Pour l’es- sentiel. 43 i www.com i i i . . Il est d’usage d’utiliser X. . P ). A.) s’il a lieu P -p.s.1. n }. II. A) est mesurable. Nous verrons par la suite. δx ) où x ∈ Ω. . 1 ]. 3. An . 1.1.3.3). la mesure de Lebesgue sur [ 0. (i) Soit Ω = [ 0. P ). sont mesurables. Elles seront appelées variables aléatoires réelles ou vectorielles. 1 ] et de taille n. p). L’application identité de (Ω. Soit (Ω. P ) avec X = Y P -p. En reprenant les propriétés des mesures. A ∈ A (cf. on se contentera ici de variables à valeurs dans (R. A = B(R) et f est une fonction mesurable (v)  positive telle que f dλ = 1. 6 }. (i. . Un ensemble A ∈ A est appelé un événement. A) dans (Ω. n ∈ N. D´efinition III. 1 }. D´efinition III. Y. 4. . 4. II.bibliomath. alors (i) A ⊂ B ⇒ P (A) ≤ P (B) .1. que l’on notera U[0.e. 5. B(R)) ou (Rd . A) et si A. en particulier au chapitre V. on écrit aussi bien X = Y P -p. 1 ] et soit P (A) = λ(A).1] . A. En prenant Ω = { 0. constante. On appelle aussi P la probabilité uniforme sur [ 0. B(Rd )). Définition et exemples Soient les coefficients binomiaux Ckn = n!/k!(n − k)!.1.ii. . δx ({ ω : X(ω) = c }) = 1 si c = x et 0 sinon.s. A.  Si Ω = R. En effet.6.p.1. A ∈ B(R). C’est donc une variable aléatoire. 1 ]. Il modélise le tirage d’un chiffre pair lors d’un lancé de dé. notée B(n. si P (A) = 1).p. on obtient la loi dite binomiale de paramètre p ∈ [ 0. (ii) Sur l’espace probabilisé (Ω. on peut considérer la probabilité P (A) = A f dλ. toute variable aléatoire X est δx -p. P ) un espace probabilisé. on voit que si P est une probabilité sur (Ω.3. A. Exemple III. s’il n’y a pas d’ambiguïté sur P . des situations beaucoup moins triviales. A. on considère un espace probabilisé (Ω. 1 ]) la tribu borélienne de [ 0. 6 } est un évé- nement. Si X et Y sont deux variables aléatoires sur (Ω. p) est une loi de Bernoulli sur { 0.. i i “barbe” — 2007/1/8 — 10:41 — page 43 — #51 i i III. A = B([ 0.4. 1 ].1). .5. 0 ≤ k ≤ n. Exemples III. ou X = Y p. l’ensemble { 2.

l’espace (Ω. P ( lim An ) = lim P (An ) . En particulier le théorème de prolongement de Carathéodory (I. (iii) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) . n→∞ n→∞ (vi) De (iii) et (iv) nous déduisons l’inégalité de Bonferoni : pour tout k ∈ N. en notant que       P An = P A0 ∪ An 0≤n≤k 1≤n≤k       =P An + P (A0 ) − P A0 ∩ An 1≤n≤k 1≤n≤k      ≥P An + P (A0 ) − P A0 ∩ An .     P X (B) = P { ω ∈ Ω : X(ω) ∈ B } = P { X ∈ B } = P { X ∈ B } .      P (An ) − P An ∩ Am ≤ P An ≤ P (An ) .1. Mesures de probabilité (ii) P (Ac ) = 1 − P (A) .7. On appelle loi de X sous la probabilité P la mesure de probabilité image P X sur (E.bibliomath. En pratique.4. on peut toujours l’écrire comme une loi image par une application mesurable 44 i www. On notera parfois L(X) la loi de X. D´efinition III. B). A. 1≤n≤k 1≤n≤k Les énoncés sur les mesures peuvent être reformulés sur les probabilités. ou décroissants. B). P ) est un peu mythique. on peut définir les lois images. i i “barbe” — 2007/1/8 — 10:41 — page 44 — #52 i i Chapitre III. Soit X une variable aléatoire de (Ω. 0≤n≤k 0≤n≤m≤k 0≤n≤k 0≤n≤k La minoration se démontre par récurrence. La définition suivante introduit la notion fondamentale de loi d’une va- riable aléatoire. De même que nous avons défini les mesures images. P ) à valeurs dans (E. A.9) montre qu’une probabilité est définie si elle est donnée sur une algèbre qui engendre la tribu. (v) Si les ensembles An sont croissants.  (iv) P ( n∈N An ) ≤ n∈N P (An ) . Il est usuel et commode d’alléger les notations des lois images en posant pour tout B ∈ B.com i i i . Si l’on se donne une loi.

On peut aussi choisir Ω = [ 0. Souvent nous utiliserons les variables aléatoires. La définition suivante a pour but de résumer les deux classes fondamentales de lois rencontrées dans les exemples précédents. A. A. 1 } définie par X(ω) = ½[0. on écrira souvent « soit X une va- riable aléatoire de loi P » pour dire « soit X une variable aléatoire définie sur l’espace (Ω. l’un ou l’autre de ces points de vue est préférable. ou plus exactement P {X = 1} = 1 − P {X = 0} = p ». Il s’ensuit que l’on peut considérer de façon complémentaire les variables aléa- toires et leurs lois. Si une loi P est absolument continue par rapport à une mesure µ et si X est de loi P .e.2. 45 i www. on dira par abus de langage que X admet la densité f par rapport à µ si f = dP/ dµ. On dit qu’une loi est discrète si c’est une combinaison li- néaire finie ou dénombrable de masses de Dirac. P ) dans { 0. Selon le contexte.2. Fonctions de répartition Soit X une variable aléatoire réelle (i. i i “barbe” — 2007/1/8 — 10:41 — page 45 — #53 i i III. La mesure image P X est la loi de Bernoulli de paramètre p. Pour les applications.8. 1 ]). et l’on explicite rarement la variable aléatoire et l’espace (Ω. on peut choisir Ω = { 0. De même. Une variable aléatoire de loi discrète P = i∈I pi δxi ne prend (presque sûrement) qu’un nombre fini ou dénombrable de valeurs. Donc toute mesure de probabi- lité est la loi d’une variable aléatoire. 1 }. On écrira par exemple « soit X une variable de Bernoulli de para- mètre p. 1 ] (Lebesgue) et X : Ω → { 0. P ). pour la loi de Bernoulli B(1.bibliomath. A.com i i i . on dit simplement que X est de densité f . D´efinition III. Fonctions de répartition (prendre l’identité pour la variable aléatoire !). c’est-à-dire telle que P { X = 1 } = 1 − P { X = 0 } = p » au lieu de « soit X une variable aléatoire de l’espace (Ω. en général. P ). de loi de Ber- noulli.1. seule compte la mesure image. définie sur un espace probabilisé (Ω. X est à valeurs réelles). A = B([ 0. On prendra garde au fait que le langage aura souvent tendance à confondre les variables aléatoires et leurs lois. c’est-à-dire telle que P X ({ 1 }) = 1 − P X ({ 0 }) = p. 1 ]. 1 } dans lui-même. P la mesure uniforme sur [ 0. III. Par exemple. La représentation d’une loi par une variable aléatoire n’est pas unique. A. Si µ est la mesure de Lebesgue. p). µ) où µ est une mesure de probabilité telle que la mesure image µX est P ».p](ω). 1 } muni de la tribu des parties et de la probabilité P = p δ1 + (1 − p) δ0 et X l’application identité de { 0.

A ⊂ B ⇒ P (A) ≤ P (B)). Mesures de probabilité D´efinition III. t ]) = P ({ ω : X(ω) ≤ t }) = P { X ≤ t } . une fonction F vérifiant (i)–(iii) est la fonction de répartition d’une variable aléatoire réelle. La propriété . t ∈ R. Réciproquement. i i “barbe” — 2007/1/8 — 10:41 — page 46 — #54 i i Chapitre III. La croissance dans (ii) découle de la croissance des mesures (i. On appelle fonction de répartition de X. continue à droite avec une limite à gauche en tout point. 1 ]. (iii) limt→−∞ F (t) = 0 et limt→∞ F (t) = 1.2.2.2. (i) vient de ce que P est à valeurs dans [ 0.e. (ii) F est croissante. Propri´et´e III.4. et on note F X . h↓0 n→∞ La limite à gauche est également une conséquence de la croissance de F .1. La continuité à droite peut être vue comme une conséquence de la proposition I. Une fonction de répartition F vérifie les propriétés suivantes : (i) 0 ≤ F ≤ 1. Démonstration.iv en remarquant que {X ≤ t} = { X ≤ t + 1/n } n≥1 et que la croissance de F implique   lim F (t + h) = lim F t + n1 = F (t) . la fonction sur R définie par F X (t) = P X (] −∞. ou de sa loi P X .3.

3.4.iv en remarquant que l’intersection n≥1 { X ≤ −n } et vide.4.iii. comme dans l’exemple I.3.10. 46 i www.com i i i .2. (iii) vient encore de la proposition I. La fonction de répartition caractérise la loi.bibliomath. b ]) = F (b) − F (a). On étend la définition de µ à l’algèbre des unions finies d’intervalles.9 permet ensuite de conclure. Le théorème de prolongement I.4. c’est-à-dire F X = F Y si et seulement si P X = P Y .3. Soit maintenant une fonction F vérifiant (i)–(iii). et donc 0 = P (∅) = lim P { X ≤ −n } = lim F (−n) n→∞ n→∞ tandis que 1 = P (Ω) = limn→∞ P { X ≤ n } d’après I. Définissons pour a < b la fonction d’ensembles µF (] a.  Propri´et´e III.i. que µF s’étend en une mesure de Stieltjes de probabilité.4.

3. alors P X et P Y coïncident sur les in- tervalles. Une fonction de répartition admet au plus un nombre dénom- brable de points de discontinuité.4. Fc = 1−α 1 (F − Fd ) est une fonction de répartition continue.2.3. mais 47 i www. L’absolue continuité de Pac par rapport à λ permet d’exprimer   t Fac (t) = f dλ = f dλ . la fonction F est continue. Si α = 1.∞[ . i i “barbe” — 2007/1/8 — 10:41 — page 47 — #55 i i III.  Exemple III. Ainsi F est la moyenne αFd + (1 − α)Fc d’une fonction de répartition continue et d’une fonction de répartition discrète.t] −∞ pour une fonction de densité f ≥ 0 (théorème de Radon-Nikodym.5. donc tout point est de mesure nulle).e. Notons que le même raison- nement s’applique en fait à toute fonction croissante. ne contient aucune masse de Dirac. alors F = Fd est discrète. donc sur l’algèbre et la tribu engendrées par les intervalles. B(R)) de fonction de répartition Fc . et la partie donnée par F⊥ est continue (i. I ⊂ N. Démonstration. Ainsi. La tribu engendrée par les intervalles est la tribu borélienne et le résultat s’ensuit.com i i i . la suite des points de discontinuité de F et an = F (xn ) − F (xn −) le saut correspondant. L’ensemble des points de discontinuité est n≥1 Dn . Pac étant une mesure de probabilité absolument continue par rapport à la mesure de Lebesgue. F = (1 − α)βFac + (1 − α)(1 − β)F⊥ + αFd .2.3). Soit F une fonction de répartition. II. Notons Fac et F⊥ leur fonction de répartition. nécessairement card(Dn ) ≤ n. et P⊥ lui étant singulière. Soit Dn l’ensemble des points de discontinuité avec un saut d’am- plitude plus grande que 1/n .   Dn = t ∈ R : F (t) − F (t−) ≥ 1/n .2. En décomposant Pc suivant la mesure de Lebesgue λ par le théorème II. Fd = α1 Fd est une fonction de répartition discrète. 1 ]. Puisque 0 ≤ F  ≤ 1. La partie donnée par Fd est discrète. on pourra écrire Pc = βPac + (1 − β)P⊥ pour un β ∈ [ 0. Sinon.bibliomath. C’est 1 en fait la fonction de répartition de la mesure de probabilité α n∈I an δxn . et donc est dénombrable. t ∈ R .4. Si α = 0. Notons Pc la mesure de probabilité sur (R. En effet. Fonctions de répartition Démonstration. en notant F (t−) la limite à gauche de F en t.  Propri´et´e III. Sinon. ]−∞. si F X = F Y . Soit (xn )n∈I . On peut poser Fd = n∈I an ½[xn . Soit α = limt→∞ Fd (t).

on notera N (m. σ 2 ) la loi de Y = σX + m. On vérifie que R f dλ = 1 et donc que f 2 est une densité. Mesures de probabilité étrangère par rapport à la mesure de Lebesgue (un exemple classique d’une telle mesure étrangère est donné dans l’exercice V.p.  2  ∞ 2 −x2 /2 −x2 /2 e dλ(x) = e dx R −∞  ∞ ∞ e−(x +y )/2 dx dy 2 2 = −∞ −∞  2π  ∞  −r 2 /2 = re dr dθ = 2π . centrée. et la densité f s’obtient pratiquement comme la dérivée λ-p. Sa densité est θe−θt si t ≥ 0 et 0 si t < 0.∞[(t) est la fonction de répartition de la loi binomiale B(n. C’est la fonction de répartition de la loi exponentielle de paramètre θ. exemple III. de F .) 48 i www. t ∈ R.1. sa fonction de répartition s’écrit  t F (t) = f (x) dλ(x) . x ∈ R. (Faire un dessin. σ En particulier. i i “barbe” — 2007/1/8 — 10:41 — page 48 — #56 i i Chapitre III. alors pour m ∈ R et σ > 0.2.6. 0 0 t Sa fonction de répartition F (t) = (2π)−1/2 −∞ e−x /2 dx.bibliomath.  (iv) Soit f (x) = (2π)−1/2 e−x /2 . appelée loi normale de moyenne m et variance σ 2 . la variable aléatoire Y = σX + m a pour fonction de répartition F (t − m)/σ puisque    t−m P σX + m ≤ t = P X ≤ . par un changement de variables en coordonnées polaires. (i) Soit θ > 0 et soit F (t) = 1−e−θt si t ≥ 0 et F (t) = 0 si t < 0.com i i i . p) (cf. (La terminologie sera justifiée plus loin. (ii) F = ½[x.) (iii) F (t) = 0≤k≤n Cnk pk (1 − p)n−k ½[k.∞[ est la fonction de répartition de la masse de Dirac δx en x ∈ R. −∞ avec f = dP X / dλ. Exemples III.iv).2. réduite. C’est une fonction de répartition. notée N (0. 1). Si P X admet une densité par rapport à la mesure de Lebesgue. si X est de loi normale N (0. notée Exp(θ). 1). est la fonction 2 de répartition d’une loi appelée loi normale ou loi gaussienne. En effet.13). Si X est de fonction de répartition F .

appelée loi uniforme et notée U[0.2. on définit une loi uniforme U[a.    2 + 1 (1 − e−(t−2) ) si t ≥ 2. C’est la fonction de répartition de la mesure de Lebesgue sur [ 0. Plus généralement.com i i i .2. b ] quelconque.   t/4 si 0 ≤ t < 1.2. 49 i www. 1 ]. Fonctions de répartition Par un changement de variables. la densité de la loi de Y est 1  (x − m)2  √ exp − . (vi) Soit la fonction de répartition F d’une loi P . il suffit de savoir simuler une variable aléatoire uniforme sur [ 0. Une application intéressante des fonctions de répartition est donnée par la proposition suivante.bibliomath. 3 3 Le graphe de F comporte deux points de discontinuité en 1 et 2 d’amplitudes res- pectives 1/4 et 1/6. En particulier. F (t) =  1/2 si 1 ≤ t < 2. de densité 1 1 f (x) = ½[0. On pourrait tout aussi bien considérer les intervalles ouverts ou semi-ouverts.b] sur un intervalle borné [ a. 0) peut être vue comme la masse de Dirac en m. 4 3 La mesure de probabilité P se représente donc comme 1 1 P = δ1 + δ2 + µac 4 6 avec µac la mesure de densité f par rapport à la mesure de Lebesgue. 1 ]. 2πσ 2 2σ 2 La densité représente la “cloche gaussienne”. sy- métrique par rapport à m. 0 si t < 0 et 1 si t > 1 est une fonction de répartition (faire un dessin). 1 ]. d’autant plus pointue que σ est petit.∞[ (x) . La partie continue est dérivable presque partout par rapport à la mesure de Lebesgue. i i “barbe” — 2007/1/8 — 10:41 — page 49 — #57 i i III. donnée par   0 si t ≤ 0. Le résultat fournit également une preuve alternative à la réciproque de la propriété III. (v) F (t) = t si t ∈ [ 0. qui montre que pour simuler numériquement une variable aléatoire de fonction de répartition F .1[ (x) + e−(x−2) ½[2.1] . N (m.

est finie) sur ] 0. Vecteurs aléatoires Dans ce paragraphe. 1 [. De plus. i i “barbe” — 2007/1/8 — 10:41 — page 50 — #58 i i Chapitre III. F ← (u) > t. pour tout t ∈ R. alors F (t) ≥ u. et quand k tend vers l’infini. 1 [. d’après le raisonnement utilisé dans la démonstration de la proposition précédente. Mesures de probabilité Proposition III. Si F ← est une fonction de quantile.7.3. il existe η > 0 tel que lim supn→∞ F ← (u + n1 ) > t + η. F (t + η) ≤ u + n1k . Démonstration. 1 [. 1 [. F ← (u + n1k ) > t + η. d est un entier supérieur ou égal à 2. La limite à gauche en tout point provient de la croissance de F ← . 1 [ . On appelle fonction de quantile la fonction   F ← (u) = inf x : F (x) > u . alors t appartient à { x : F (x) > u } et donc F ← (u) ≤ t. en remarquant que F ← (1 − u) − F ← (u) < ∞ pour tout u < 1/2). alors F ← est l’inverse de F . Observons d’abord que pour tout u ∈ ] 0. F (t) = P { U < F (t) } ≤ P { F ← (U ) ≤ t } ≤ P { F (t) ≥ U } = F (t) . F (t+η) ≤ u. F (t) ≥ u. elle est continue à droite et admet une limite à gauche en tout point. 50 i www. ce qui est impossible puisque t = F ← (u). Démonstration. Par voie de conséquence. Le long d’une sous-suite (nk ).4. alors F ← (U ) a pour fonction de répartition F .com i i i . et par continuité à droite de F . Si U est de loi uniforme sur ] 0. montrons (ce qui suffit par croissance) que lim supn→∞ F ← (u + n1 ) ≤ F ← (u) = t. Soit F une fonction de répartition. Elle croissante.bibliomath. Sinon. et donc elle admet au plus un nombre dénombrable de points de discontinuité (par un argument tout à fait analogue à celui que nous avons utilisé dans la démonstration de la propriété III. u ∈ ] 0. La propriété suivante nous sera utile ultérieurement.8. ainsi F (s) > u.2.2. de sorte que P { F ← (U ) ≤ t } = F (t) et donc F ← (U ) a pour fonction de réparti- tion F . pour tout s > t il existe x < s tel que F (x) > u .  III. En particulier. Réciproquement. Pour démontrer la continuité à droite en un point u ∈] 0. Autrement dit. Proposition III. En effet. si F (t) > u. si F ← (u) ≤ t.e. si F ← (u) ≤ t.  Remarquons que la fonction de quantile est bien définie (i. on vérifie facilement que si F est inversible.2.

t1 . Xd ≤ td } . . −1). (Y1 . .iii. (0. Elle est donnée par F Xi (ti ) = lim F X (t) . Autrement dit. (0. . 0). . .bibliomath. X2 0 1/4 0 1/4 ayant les mêmes lois marginales. 1 0 1/4 0 lités sont données par le tableau ci-contre. 1 ≤ i ≤ d). L’exemple suivant montre que la réciproque est fausse en général.. .td →∞ Comme il ressort de cette définition.3. –1 0 1/4 0 On peut produire un autre vecteur.1. 4 4 4 4 ce qui se résume dans le tableau ci-contre.1. A. i i “barbe” — 2007/1/8 — 10:41 — page 51 — #59 i i III. P ) → (Rd .ti−1 . . .3. 1 1 1 1 PX = δ(−1. ou de la loi de X. . A.. On appelle fonction de répartition de X. et don. On pourra noter que l’on obtient les lois mar. Y2 0 1/8 1/4 1/8 sité par rapport à la mesure de Lebesgue sur Rd 1 1/16 1/8 1/16 51 i www.. .12.2. . B(Rd )) dont la den. Les lois X1 marginales P X1 et P X2 de P X sont égales. ..1) + δ(0.2. –1 0 1 nées par P X1 = P X2 = 14 δ−1 + 12 δ0 + 14 δ1 . dont les probabi. (i) Supposons que X = (X1 . Xd ) est un vecteur aléatoire si et seulement si ses composantes sont des variables aléatoires réelles. X2 ) soit de loi discrète dans R2 concentrée en les points (−1. Xd ) détermine chacune des lois marginales (loi de Xi .−1) + δ(1.0) + δ(0. –1 1/16 1/8 1/16 (ii) Soit X : (Ω.0) . Y2 ).. . Exemples III. P ) un espace probabilisé. on voit que X = (X1 . la fonction t = (t1 . td ) ∈ Rd → F X (t) = P {X1 ≤ t1 . 0) tous de probabilité 1/4. . .. 1).3. la loi d’un vecteur X = (X1 . D´efinition III.com i i i .3. . . Vecteurs aléatoires D´efinition III.. (1. On appelle vecteur aléatoire une variable aléatoire à valeurs dans Rd muni de sa tribu borélienne. La loi de la variable aléatoire Xi est appelée la i-ème loi marginale (ou i-ème marge) de X = (X1 .3. .2 et l’exemple I. Soit (Ω. Y1 ginales en sommant les probabilités respectivement –1 0 1 sur les lignes et les colonnes de la table.ti+1 .. . Xd ). En utilisant le lemme I. .

Y . a1 ] × · · · × ] −∞. y) dy. y) dy dx . ad ].  Si de plus f (x.3. (a1 . . et celle de Y a pour densité f Y (y) = R f (x. xd ) ∈ Rd et la norme euclidienne x2 = x21 + · · · + x2d . Comme pour la propriété III.bibliomath. . A. i i “barbe” — 2007/1/8 — 10:41 — page 52 — #60 i i Chapitre III. t2 ) = f (x. engendrent B(Rd ). y) dx. ad ) ∈ Rd . t1 . . y) = h(x)g(y) avec h(x) dx = 1. t2 ) = f (x. y) dx dy . P ).2.  t1  ∞  P {X ≤ t1 } = lim F (t1 . . y) par rapport à la mesure de Lebesgue sur R2 . on voit que f X = h et f Y = g. La propriété III. . t2 ∈ R . Alors P X = P Y si et seulement si F X = F Y . En effet. les lois marginales sont des lois N (0.5.com i i i . définis sur (Ω. Y ) admette une densité f (x. Mesures de probabilité (λ ⊗ · · · ⊗ λ d-fois) est donnée par 1 f (x) = exp(−x2 /2) (2π)d/2 avec x = (x1 .3 se généralise sans difficulté.5.1). Nous pouvons donc intégrer les variables aléatoires.4. (iii) Plus généralement. t2 →∞ −∞ −∞ et l’on conclut avec l’exemple III. Démonstration. −∞ −∞  La loi deX a pour densité f X (x) = R f (x. . à valeurs dans Rd .4. Soient deux vecteurs aléatoires X. . D’après le théorème de Fubini-Tonelli (II. .3.  III. 52 i www. remarquer que les pavés ] −∞. 1). Moyennes et inégalités Nous avons vu au chapitre II comment intégrer des fonctions mesurables. supposons que Z = (X.e.  t1  t2 F (t1 .2.2. Propri´et´e III. i.

p > 0.1. B(Rd ). Si p est entier. Ω R Remarque III. Ω Rd Si φ est à valeurs quelconques. Si X est intégrable. Com- mençons par le théorème de transport II. Rappelons quelques résultats du chapitre II sous une autre formulation.4.   E(X) = X dP = x dP X (x) .4.3.com i i i . on définit le moment absolu d’ordre p de X par E(|X|p ) = |X|p dP . on peut aussi définir le moment d’ordre p. 53 i www. Th´eor`eme III. P ) à va- leurs dans (Rd . si X est une variable aléatoire réelle. En particulier. on appelle espérance ou espérance mathématique de X (sous la probabilité P ) le nombre réel  E(X) = X dP . Moyennes et inégalités D´efinition III.4. Notons les deux faits importants suivants. définie sur (Ω. l’égalité précédente a lieu. L’espérance d’une variable aléatoire n’est donc rien d’autre que sa valeur moyenne. Nous le formulons ici. A. Soit X une variable aléatoire réelle. P ). P X ) . E(X p ) = X p dP . dans le langage probabiliste. l’espérance d’une variable aléatoire constante ou presque sûrement constante est égale à cette constante. i i “barbe” — 2007/1/8 — 10:41 — page 53 — #61 i i III. Ω On dit que X est centrée si elle est intégrable et E(X) = 0.4. φ(X) ∈ L1 (Ω. A. Soit X un vecteur aléatoire sur (Ω.2 (de transport).4. Une mesure de probabilité étant de masse totale égale à 1. P ) si et seulement si φ ∈ L1 (Rd . intégrable. A. Plus généralement si X ∈ Lp . Si φ est à valeurs positives.1. Dans ce cas.bibliomath.     E φ(X) = φ ◦ X(ω) dP (ω) = φ(x) dP X (x) . B(Rd )) et soit φ une fonction borélienne de Rd dans R. pour des vecteurs aléatoires.

Rd n∈N n∈N On voit donc qu’en pratique. la même formule s’applique si h est définie sur U .    E φ(X) = φ(x) dP X (x) = φ(xn )pn = φ(xn )P {X = xn } .       E ½A (X) = ½A X(ω) dP (ω) = ½A (x) dP X (x) Ω Rd = P (A) = P {X ∈ A} . Par définition de l’intégrale et par transport. la loi de X se décompose le plus souvent en une partie abso- lument continue par rapport à la mesure de Lebesgue. on a    E φ ◦ h(X) = φ ◦ h(x) dP X (x) R d = φ ◦ h(x)f (x) dx Rd    = φ(y)Jh−1 (y)f ◦ h−1 (y) dy . et une partie absolument continue par rapport à une mesure de comptage.     X E φ(X) = φ(x) dP (x) = φ(x)f (x) dx .2. sous les conditions d’intégrabilité du théorème III. Mesures de probabilité (i) Si X est un vecteur aléatoire à valeurs dans (Rd .bibliomath. la fonction ½A est mesurable. Dans la pratique.4. si φ est une fonction borélienne bornée (par exemple une indicatrice de borélien). admettant une densité f . de jacobien Jh (x) = 0 pour tout x. i i “barbe” — 2007/1/8 — 10:41 — page 54 — #62 i i Chapitre III. B(Rd )) et si A ∈ B(Rd ). le calcul de E(φ(X)) ne nécessite pas le calcul de la loi de φ(X). Soit h une bijection sur Rd . Si P X a une densité f par rapport à la mesure de Lebesgue. X (ii) Soit X un vecteur aléatoire à valeurs dans Rd . de classe C1 . Rd Si la densité f est nulle hors d’un ouvert U de Rd . d’après le théorème de transport et la formule de changement de variables pour des intégrales de Lebesgue. En effet.com i i i . Le vecteur Y = h(X) a pour densité   −1 g(y) = |Jh−1 (y)|f ◦ h−1 (y) = Jh h−1 (y)  f ◦ h−1 (y) . Rd Rd Si P X = n∈N pn δxn . 54 i www.

Alors E(X) = 1/2 : dans un jeu de pile ou face équilibré.2.∞[ (x). E(X) = m. 0≤k≤n−1 (iv) Si X suit une loi de Poisson P(λ). si X est une variable aléatoire réelle.4.  ∞  ∞ −θx 1 E(X) = xθe dx = e−θx dx = . alors.  dx xe−x /2 √ = 0 . Moyennes et inégalités Exemples III. (viii) Plus généralement. . par symétrie. alors 1 E(X) = xi n 1≤i≤n est la moyenne des xi . (iii) Si X est de loi binomiale B(n.iv). Alors X n’admet pas d’espérance. i i “barbe” — 2007/1/8 — 10:41 — page 55 — #63 i i III. la li- néarité de l’intégrale implique E(σX + m) = σE(X) + m pour tous σ. Elle a pour densité θe−θx ½[0. . mais admet tout moment absolu d’ordre p < 1. en intégrant par parties.6. t ≥ 0. intégrable.4. on tire en moyenne une fois sur deux pile (X = 1) et une fois sur deux face (X = 0) ! (ii) Soient x1 . 2 E(X) = R 2π Donc si X est de loi N (m. . III.com i i i . 55 i www. p). (vii) Si X est de loi N (0. . on vérifie comme dans l’exemple (iii) que E(X) = λ.4. Si X est de loi Pn . (v) Soit X de loi exponentielle de fonction de répartition 1 − F (t) = e−θt . xn des réels et Pn = n−1 1≤i≤n δxi . (i) Soit X de loi 12 δ0 + 12 δ1 . m ∈ R. 1). Ainsi. E(X) = kCkn pk (1 − p)n−k 0≤k≤n = pn Ck−1 n−1 p k−1 (1 − p)(n−1)−(k−1) 1≤k≤n = pn Ckn−1 pk (1 − p)(n−1)−k = pn . 0 0 θ (vi) Soit X de densité 1/π(1 + x2 ) par rapport à la mesure de Lebesgue sur R (loi de Cauchy). σ 2 ) (cf.bibliomath.

A. |E(X)| ≤ E(|X|) .5. p. et on note Var(X). On appelle variance de X.6.2. Une variable aléatoire d’écart type 1 est dite réduite. (iv)  · p = (E| · |p )1/p est une norme sur Lp (Ω. D´efinition III. La définition suivante décrit une mesure de la dispersion d’une variable aléa- toire ou de sa loi. Le point (iii) de ce théorème découle aussi bien de l’inégalité de Jensen ou de Hölder. Y ∈ Lq . alors     φ E(X) ≤ E φ(X) . q ≥ 1 et p−1 + q −1 = 1. appelée norme supremum essentiel. Hölder (II.bibliomath. Mesures de probabilité Nous rappelons à présent les inégalités de Jensen (II. x2 et 1/x lorsque x > 0.6. pour une variable aléatoire X intégrable. A. En particulier. la quantité  2  Var(X) = E X − E(X) . Soit X une variable aléatoire réelle dont le carré est inté- grable. pour une variable aléatoire X à valeurs strictement positives. Noter que l’inégalité triangulaire dans le point (iv) de ce théorème est équiva- lente à l’inégalité de Minkowski. P ). La racine Var(X) est appelée l’écart type. parfois noté σ(X).2) et Minkowski (II. alors XY ∈ L1 et     1/p   q 1/q E |XY | ≤ E |X|p E |Y | .4.6.   1/p (iii) L’application p → E |X|p est croissante. C’est une norme.3) pour des variables aléatoires. (ii) (Inégalité de Hölder) Si X ∈ Lp . sur L∞ (Ω.4. pour une  2 variable aléatoire X dont le carré est intégrable. E(X) ≤ E(X 2 ) .10). Dans la pratique. (v) On définit X∞ = limp→∞ Xp . (i) (Inégalité de Jensen) Si φ est convexe sur R et si X est une variable aléatoire réelle telle que X et φ(X) sont intégrables. l’inégalité de Jensen est le plus souvent utilisée pour les fonctions φ(x) = |x|.com i i i . Th´eor`eme III. p ≥ 1. 56 i www. i i “barbe” — 2007/1/8 — 10:41 — page 56 — #64 i i Chapitre III. E(1/X) ≥ 1/E(X). ou de sa loi P X . P ) = { X : X∞ < ∞ }. Une expression équivalente de la variance est Var(X) = E(X 2 ) − E(X)2 .

E(X) = 0 et donc  dx x2 e−x /2 √ = 1 2 2 Var(X) = E(X ) = R 2π (intégration par parties). En particulier. on a Var(X) = σ 2 et σ(X) = σ. plus la variable aléatoire est “dispersée”.  ∞  ∞   p E(X ) = p t P {X > t} dt = p p−1 tp−1 1 − F (t) dt . Une autre écriture de la variance. Moyennes et inégalités En effet. A. alors X est p. 0 0 De plus. P ). (iii) Si X suit une loi N (0. si X est de loi N (m. (ii) Si X est de loi de Bernoulli B(n. Soit X une variable aléatoire réelle positive.bibliomath. Proposition III. Exemples III. pour tout 0 < p < ∞. c’est-à-dire prend avec forte probabilité des valeurs éloignées de sa moyenne.s. mesurant la distance de X à son espérance : Var(X) = X − E(X)2 . Var(X + α) = Var(X) et Var(αX) = α2 Var(X).4. (iv) Si α est un nombre réel. i i “barbe” — 2007/1/8 — 10:41 — page 57 — #65 i i III. égale à sa moyenne E(X). (i) Si Var(X) = 0. E(X) < ∞ si et seulement si pour un ou tout ε > 0. constante. Les variances s’évaluent comme les espérances à partir du théorème de transport.com i i i . p). P {X > εn} < ∞ ou 2n P {X > ε2n } < ∞ . n∈N n∈N 57 i www. Alors. sa variance est np(1 − p). de contenu plus géométrique.7.4.8. de fonction de répartition F = F X . Il est parfois plus commode de calculer une espérance à partir de la fonction de répartition. est en terme de norme dans l’espace de Hilbert L2 (Ω.4. La définition et les exemples (iii)–(iv) montrent que plus la variance est grande. 1). le développement du carré et la linéarité de l’espérance montrent que   Var(X) = E X 2 − 2XE(X) + E(X)2 = E(X 2 ) − 2E(X)2 + E(X)2 puisque l’espérance d’une constante est cette constante. σ 2 ). 1). Ceci justifie la terminologie de loi normale centrée ré- duite pour N (0.

 Les inégalités suivantes sont essentielles dans l’analyse des variables aléatoires réelles. en découpant cette intégrale suivant les intervalles [ 2n .1). (i) Si X ∈ Lp . n∈N 0 n∈N On conclut en remplaçant X par X/ε.com i i i .  ∞  ∞   p t p−1 P {X > t} dt = p tp−1 E ½]t. Exemples III. 2n+1 [ .bibliomath. Mesures de probabilité Démonstration. 58 i www.5. n + 1 [ .  ∞ 2 P {X > 2 n n+1 }≤ P {X > t} dt ≤ 1 + 2n P {X > 2n } .9. alors E(|X|p ) P {X ≥ t} ≤ tp pour tout t > 0 puisque {X ≥ t} ⊂ {|X|p ≥ tp }. i i “barbe” — 2007/1/8 — 10:41 — page 58 — #66 i i Chapitre III. ∞ [ suivant les intervalles [ n. Si X est intégrable et t > 0. p > 0.4. De la même façon. Observer que X X+ |X| ½[t. t t Démonstration.∞[ (X) ≤ ≤ t t t et intégrer cette inégalité par rapport à P . D’après le théorème de Fubini-Tonelli (II. In´egalit´e de Markov III.4. Pour la seconde partie. soit pour |X|.∞[(X) dt 0 0   X  p−1 =E p t dt 0 p = E(X ) .  Cette inégalité est utilisée généralement soit pour X positive. prenons p = 1 et notons que  ∞ P {X > n + 1} ≤ P {X > t} dt ≤ P {X > n} n∈N 0 n∈N en découpant l’intégrale sur [ 0. alors E(X + ) E(|X|) P {X ≥ t} ≤ ≤ .10.∞[(X) ≤ ½[t. Elle n’est intéressante que si le second membre est plus petit que 1.

i i
“barbe” — 2007/1/8 — 10:41 — page 59 — #67
i i

III.4. Moyennes et inégalités

(ii) Si X ∈ L2 , l’inégalité de Markov implique l’inégalité de Tchebitchev
  Var(X)
P |X − E(X)| ≥ t ≤ , t > 0,
t2
puisque E(|X − E(X)|2 ) = Var(X).
(iii) Si maintenant E(eλX ) < ∞ pour λ > 0, ou seulement λ ∈ ] 0, λ0 [ , λ0 > 0,
alors, pour tout t ∈ R,

P {X ≥ t} ≤ inf e−λt E(eλX )
λ

puisque {X ≥ t} = {eλX ≥ eλt } pour tout λ > 0. Autrement dit,

P {X ≥ t} ≤ e−I(t)

où  
I(t) = sup λt − ln E(eλX ) , t ∈ R.
λ
Cette inégalité est l’inégalité de Bernstein, Cramér ou Chernoff. Elle est d’un
usage fréquent dans l’étude des sommes de variables aléatoires indépendantes et
dans la théorie des grandes déviations.

(iv) Nous présentons un exemple d’application du calcul des probabilités à l’ap-
proximation des fonctions. Le théorème de Stone-Weierstrass indique que l’en-
semble des polynômes est dense dans l’espace C[ 0, 1 ] des fonctions continues sur
[ 0, 1 ] à valeurs réelles, muni de la norme uniforme  · ∞ . Montrons ce résultat
de façon plus constructive.
À une fonction f ∈ C[ 0, 1 ], nous associons son n-ième polynôme de Bernstein,

Bn (f, x) = f (k/n)Ckn xk (1 − x)n−k , x ∈ [ 0, 1 ] .
0≤k≤n

Observons que Bn (f, x) = E(f (Z/n)) où Z est de loi binomiale B(n, x). Notons
 
ω(f, δ) = sup |f (x) − f (y)| , x, y ∈ [ 0, 1 ] , |x − y| ≤ δ

le module de continuité de f sur [ 0, 1 ]. Ce module est fini pour tout δ > 0
puisque f est continue sur le compact [ 0, 1 ], donc uniformément continue. Pour
tout x ∈ [ 0, 1 ],
    
f (x) − Bn (f, x) = f (x) − E f (Z/n) 
 
≤ E f (x) − f (Z/n)
   
≤ ω(f, δ)P |Z/n − x| ≤ δ + 2f ∞ P |Z/n − x| ≥ δ .

59

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 60 — #68
i i

Chapitre III. Mesures de probabilité

En utilisant l’inégalité de Tchebitchev (4.10.ii) pour la variable Z de moyenne
E(Z) = nx et de variance Var(Z) = nx(1 − x), il vient
 
f (x) − Bn (f, x) ≤ ω(f, δ) + 2f ∞ 1 Var(Z)
n2 δ 2
1
≤ ω(f, δ) + 2f ∞ 2 x(1 − x)

f ∞
≤ ω(f, δ) + .
2nδ2
Donc,
   f ∞ 
sup f (x) − Bn (f, x) ≤ inf ω(f, δ) + = o(1) (n → ∞) ,
0≤x≤1 δ>0 2nδ2

ce qui démontre le théorème de Weierstrass. En particulier, si f est höldérienne
d’indice α, ω(f, δ) = cδα , 0 < α ≤ 1, on obtient
 
sup f (x) − Bn (f, x) ≤ (2c)2/(α+2) f ∞
α/(α+2) −α/(α+2)
n .
0≤x≤1

Nous concluons ce paragraphe par les définitions d’espérance et de variance
pour des vecteurs aléatoires.

D´efinition III.4.11. Si X = (X1 , . . . , Xd ) ∈ Rd est un vecteur aléatoire sur
un espace probabilisé (Ω, A, P ), on dit que X est de puissance p-ième inté-
grable (p > 0) si chacune de ses composantes l’est, ce qui équivaut à dire que
E(Xp ) < ∞, où X est ici la norme euclidienne (X12 + · · · + Xd2 )1/2 du
vecteur X. Son espérance est le vecteur de Rd
 
E(X) = E(X1 ), . . . , E(Xd ) .

Sa (matrice carrée de) covariance est
  
Cov(X) = E (Xi − E(Xi ))(Xj − E(Xj )) 1≤i,j≤d .

À la variance se substitue à présent une matrice. C’est une matrice symétrique
semi-définie positive puisque pour tous réels α1 , . . . , αd ,
 2 
 
αi αj E (Xi − E(Xi ))(Xj − E(Xj )) = E αi (Xi − E(Xi )) ≥ 0.
1≤i,j≤d 1≤i≤d

60

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 61 — #69
i i

III.5. Fonctions caractéristiques

Elle est définie positive si aucune combinaison linéaire des composantes du
vecteur aléatoire n’est p.s. constante.

Exemple III.4.12. Soit X la variable aléatoire de loi décrite dans l’exemple
III.3.3.ii. Il est aisé de vérifier que le vecteur moyenne de X est le vecteur nul
(de Rd ), et que sa matrice de covariance est la matrice identité (de Rd ). On par-
lera plus loin de vecteurs gaussiens de moyenne m et de matrice de covariance Γ,
où m est un vecteur quelconque de Rd et Γ est une matrice symétrique semi-définie
positive (d, d).

III.5. Fonctions caractéristiques

Nous savons que la fonction de répartition d’une variable aléatoire réelle ou
vectorielle X sur (Ω, A, P ) caractérise sa loi. Autrement dit, sur R par exemple,
la donnée de  
F X (t) = E ½]−∞,t] (X) , t ∈ R ,
détermine la loi de X. Puisque les indicatrices sont des fonctions boréliennes
bornées, la donnée de E(φ(X)) pour toute fonction borélienne bornée φ caracté-
rise la loi P X . La fonction indicatrice ½]−∞,t] peut être approchée par la suite de
fonctions continues bornées


1 si x ≤ t,
φn (x) = 1 + n(t − x) si t ≤ x ≤ t + n1 ,


0 si x > t + n1

(faire un dessin). Il s’ensuit, d’après le théorème de convergence dominée, que la
donnée de E(φ(X)) pour toute fonction continue bornée sur R caractérise P X .
Plus généralement, les fonctions indicatrices peuvent être approchées simplement
par des fonctions C∞ bornées ; et donc la donnée de E(φ(X)) pour toute fonction
φ infiniment dérivable caractérise également P X . On pourrait même se restreindre
aux fonctions C∞ à support compact ! (cf. exercice II.5).
Ces raisonnements et conclusions s’appliquent de la même façon aux vecteurs
aléatoires.
Une autre caractérisation intéressante en pratique (voir IV.2, V.4 et V.5) est
celle des fonctions caractéristiques, ou transformées de Fourier, qui remplace la
classe des fonctions C∞ bornées par la famille des fonctions sinus et cosinus.

D´efinition III.5.1. Soit X un vecteur aléatoire sur (Ω, A, P ) à valeurs dans Rd .
On appelle fonction caractéristique de X ou de la loi de X, ou transformée de

61

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 62 — #70
i i

Chapitre III. Mesures de probabilité

Fourier, et on note ϕX , la fonction à valeurs complexes

t ∈ R → ϕ (t) = E(e
d X it,X
)= eit,x dP X (x)
 R d

X
= cost, x dP (x) + i sint, x dP X (x) .
Rd Rd

La fonction caractéristique est à valeurs complexes, de module majoré par 1
(d’après l’inégalité de Jensen), et ϕX (0) = 1. Si la loi de X a une densité f par
rapport à la mesure de Lebesgue sur Rd , alors

X
ϕ (t) = eit,x f (x) dx
Rd

est aussi appelée la transformée de Fourier de la fonction f .
Comme son nom l’indique, la fonction caractéristique caractérise la loi.
Th´eor`eme III.5.2. Si X et Y sont deux vecteurs aléatoires de lois P X et P Y telles
que ϕX = ϕY , alors P X = P Y .
Démonstration. La démonstration utilise le théorème des classes monotones fonc-
tionnelles (I.3.5). On note e1 , . . . , ed la base canonique de Rd . Pour tout
t ∈ Rd , l’égalité des parties réelles (resp. imaginaires) de ϕX et ϕY donne
E(cost, X) = E(cost, Y ) (resp. E(sint, X) = E(sint, Y )). Notons C
l’ensemble des combinaisons linéaires finies des fonctions x → cost, x et
x → sint, x. En particulier, la fonction x → n sinei /n, x appartient à C et
sa limite simple, la projection sur la i-ème coordonnée, est mesurable par rapport
à la tribu σ(C ) engendrée par C . Donc σ(C ) = B(Rd ) (cf. I.1.12.iii).
Soit maintenant H l’espace vectoriel des fonctions boréliennes bornées φ telles
que E(φ(X)) = E(φ(Y )). L’espace H contient les constantes et est stable par
convergence monotone bornée (d’après le théorème de convergence monotone
II.2.1). De plus C ⊂ H et C est stable par multiplication (linéariser un pro-
duit de sinus et de cosinus). Le théorème des classes monotones fonctionnelles
(I.3.5) montre alors que H contient toute fonction bornée mesurable par rapport
à σ(C ) = B(Rd ), donc toute fonction borélienne. Le résultat s’ensuit. 
Exemples III.5.3. (i) Si X = a p.s., i.e. P X = δa , a ∈ Rd , alors ϕX (t) = eit,a .
(ii) Si X est un vecteur aléatoire à valeurs dans Rd , Σ une matrice opérant sur Rd
et m ∈ Rd , alors Y = ΣX + m est un vecteur aléatoire de fonction caractéristique

ϕY (t) = eit,m ϕX (t Σt)

puisque t, ΣX + m =  t Σt, X + t, m.

62

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 63 — #71
i i

III.5. Fonctions caractéristiques

(iii) Si X suit une loi normale N (0, 1), alors

 it,X  dx
eitx−x /2 √ = e−t /2 .
X 2 2
ϕ (t) = E e =
R 2π
Une méthode pour calculer cette intégrale est donnée dans l’exercice III.12.
Si Y est de loi N (m, σ 2 ), Y a la même loi que σX + m, et donc
  2 2
ϕY (t) = E eit(σX+m) = eitm−σ t /2 .

(iv) Si X est de loi exponentielle de densité e−x sur R+ , alors

X 1
ϕ (t) = e(it−1)x dx = .
R+ 1 − it
(v) Si X est de loi de Poisson de paramètre λ,
P {X = k} = e−λ λk /k! , k ∈ N,
alors
λk (eit λ)k  
ϕX (t) = eitk e−λ = e−λ = exp λ(eit − 1) .
k! k!
k∈N k∈N
(vi) Si X est de loi binomiale de paramètres n et p,
P { X = k } = Ckn pk (1 − p)n−k , 0 ≤ k ≤ n,
alors
ϕX (t) = Ckn (eitp )k (1 − p)n−k = (1 − p + peit )n .
0≤k≤n

(vii) Si X = (X1 , . . . , Xd ) est un vecteur aléatoire dont la loi est le produit des
lois marginales, P X1 ⊗ · · · ⊗ P Xd , alors ϕX (t) = ϕX1 (t1 ) · · · ϕXd (td ). (Utiliser le
théorème de Fubini, II.5.1).
Puisque la transformée de Fourier caractérise la loi, il est souhaitable d’avoir
une formule d’inversion permettant d’obtenir effectivement la loi à partir de la
fonction caractéristique. Il existe plusieurs formules de ce type permettant de
calculer la densité si elle existe, ou la fonction de répartition (voir exercice V.9).
En voici une possible.
Th´eor`eme III.5.4 (Formule d’inversion de Fourier). Soit ϕX la fonction caracté-
ristique d’un vecteur aléatoire X, supposée intégrable par rapport à la mesure de
Lebesgue sur Rd . Alors, la loi de X admet une densité continue bornée f X par
rapport à la mesure de Lebesgue sur Rd , donnée, pour tout x ∈ Rd , par

1
X
f (x) = e−it,x ϕX (t) dt .
(2π)d Rd

63

i www.bibliomath.com i

i i

2 2π R 1 + t2 En changeant t et −t dans l’intégrale.    iu n−1   ≤ |u| . 2 1 − it 2 1 + it 1 + t2 (ii) Soit f (x) = 1/π(1 + x2 ).iv. n  e − 1 − iu − . on se reporte à l’exemple III. x ∈ R. si n est pair et si ϕ est n-fois dérivable en 0. par symétrie.4. en in- tégrant terme à terme (nous verrons plus loin des conditions permettant de le justifier). Pour le montrer. alors ϕ est n-fois dérivable.  Exemples III.5. eitX = n∈N (it)n X n /n! . Proposition III. alors X admet tout moment d’ordre plus petit ou égal à n.6. i i “barbe” — 2007/1/8 — 10:41 — page 64 — #72 i i Chapitre III. pour tout u ∈ R et tout n ∈ N.5. n! n∈N La formule de Taylor montre alors que les moments de la variable sont propor- tionnels aux dérivées de la transformée de Fourier. x ∈ R.9.5. sur R. Lorsque X est une variable aléatoire réelle.5.com i i i . . de fonction caractéristique ϕ = ϕX et de loi P X . il vient  1 −|x| 1 1 e = e−itx dt . densité de la loi dite de Laplace.bibliomath. (it)n ϕX (t) = E(X n ) . ϕ(k) (0) = ik E(X k ).5. de dérivée k-ième (k ≤ n)  (k) k ϕ (t) = i xk eitx dP X (x) = ik E(X k eitX ) . − (iu)  1! (n − 1)!  n! 64 i www. et on remarque que. Le résultat rigoureux est le suivant. En particulier. on constate que la tranformée de Fourier de f est e−|t| . la transformée de Fourier de f est 1 1 1 1 1 · + · = . . sa transformée de Fourier est ϕ(t) = 1/(1 + t2 ).3. (i) Si E(|X|n ) < ∞. Mesures de probabilité Démonstration. (i) L’inégalité. (ii) Réciproquement. Voir exercice V. Soit X une variable aléatoire réelle. En utilisant l’exemple précédent et le théorème III. la densité de la loi dite de Cauchy. (i) Si f (x) = 12 e−|x| . Démonstration.

d’après le point (i). la proposi- tion III.5.    itx eihx − 1 ϕ (t) = lim e dP X (x) = ixeitx dP X (x) = iE(XeitX ) . pour tout h réel.5.7). h→0 h   Utiliser le lemme de Fatou (II.4. D’après le théorème de conver- gence dominée (II.2 montrent que la loi P X est caractérisée par 65 i www. et par récurrence fn (u) = i 0 fn−1 (x) dx est de module plus petit que |u|n /n!.5.bibliomath. (ii) Démontrons par récurrence que E(X 2k ) est fini dès que 2k ≤ n. Comme.2. h→0 h Les dérivées d’ordre supérieur se calculent de la même façon.iii. Toutefois. Démontrons pour commencer que ϕ est dérivable en tout point t ∈ R lorsque E(|X|) < ∞.3) et la limite limh→0 1 − cos(hx) /h2 = x2 /2 pour conclure que  x2k dP X (x) ≤ (−1)k ϕ(2k) (0) < ∞ .com i i i . si ϕ = ϕX est analytique.5.  (2k−2) k−1 ϕ (h) = (−1) x2k−2 eihx dP X (x) . h h D’après l’inégalité précédente pour n = 1. La propriété est vraie pour k = 0. Supposons-la montrée pour k − 1.5. Pour tout h = 0. Fonctions caractéristiques  u ix se démontre en remarquant que f1 (u) u = i 0 e dx est de module plus petit que |u|. on a  2   (−1) k−1 (2k) ϕ (0) = lim 2 x2k−2 cos(hx) − 1 dP X (x) .8).  ϕ(t + h) − ϕ(t) eihx − 1 = eitx dP X (x) . Par hypothèse.7. i i “barbe” — 2007/1/8 — 10:41 — page 65 — #73 i i III.  Application III.    itx eihx − 1  e  ≤ |x| h qui est intégrable pour P X indépendamment de h.6 et le théorème III. Remarquons qu’en général une loi n’est pas caractérisée par ses moments (exercice III. la limite 1  (2k−2)  lim2 ϕ (h) + ϕ(2k−2) (−h) − 2ϕ(2k−2) (0) h→0 h existe et est égale à ϕ(2k) (0). ce qui suffit en vertu du théorème III.2.

i i “barbe” — 2007/1/8 — 10:41 — page 66 — #74 i i Chapitre III.6. en remplaçant les fonctions sin(tx) et cos(tx) par etx et en remarquant que la fonction identité est limite simple de combinaisons linéaires d’exponentielles de petits paramètres.X X la fonction L (s) = E e définie pour les valeurs de s pour lesquelles es. Ceci ayant lieu pour chaque réel t. Il existe des formules d’inversion de la transformée de Laplace (voir par exemple l’exercice V.  1! (n − 1)! n! ce qui fournit l’analyticité de h → ϕ(t + h) sur ] −α.10. Un exemple important est le cas particulier des lois concentrées sur un intervalle borné de R. b ]. La transformée de Laplace. La définition suivante est une variante de celle des fonctions caractéristiques. D´efinition III.5. Mesures de probabilité ses moments. En effet. comme la transformée de Fourier (pour les lois sur R+ .5.8 (des moments). caractérise la loi. P ) à valeurs dans un intervalle borné [ a. puisque x = limt→0 t−1 (etx − 1) et 1 = e0x !). Alors la transformée de Laplace LX est définie sur un intervalle ouvert contenant 0.bibliomath.5. Soient X.5.6. la démonstration est analogue à celle du théorème III.5.i. Th´eor`eme III. Soit X une variable aléatoire réelle telle que etX est intégrable pour t dans un intervalle ouvert contenant 0. Y deux variables aléatoires définies sur (Ω. α [. Une condition simple pour que ceci ait lieu est de supposer que E(eα|X| ) < ∞ pour un α > 0.8). on appelle transformée de Laplace (ou fonction génératrice des moments)  s.5. alors X et Y ont même loi.9. De plus elle est analytique dans un voisinage de 0 et tn LX (t) = E(X n ) n! n∈N 66 i www. il vient    n−1    |h|n  ϕ(t + h) − ϕ(t) − h ϕ(1) (t) − · · · − h ϕ(n−1) (t)  ≤ E |X|n . de proche en proche. si elle est finie dans un voisinage de 0. Proposition III.6 justifiant le nom de fonction génératrice des moments. Elle impose cependant des conditions d’intégrabilité sur la loi de la variable aléa- toire. P ) à valeurs dans Rd .i et en utilisant III.2.X est intégrable. ϕ est analytique sur tout R. Si E(X k ) = E(Y k ) pour tout k ∈ N. Si X est un vecteur aléatoire sur (Ω. On peut donner un énoncé analogue à la proposition III. A.com i i i . A. Ceci est résumé dans le théorème dit des moments.5. en intégrant l’inégalité utilisée pour démontrer III.

3. soit plus grande que le côté du triangle équilatéral inscrit dans le cercle. Exercice III. soit Mn = {x ∈ M : P {X = x} > 1/n}. Montrer que Mn est fini. Soit X une variable aléatoire à valeurs dans un ensemble M muni de la tribu de ses parties. Un tiroir contient n paires de chaussures. telle que P {X = x} > 0 pour tout x ∈ M . On choisit au hasard 2r chaussures (2r ≤ n). Supposons LX définie sur ] −ε. Soit C le cercle de centre O et de rayon 1 dans R2 . choisie “au hasard”. c) On choisit M dans le disque selon la probabilité uniforme . on lui associe la corde AB perpendiculaire à OI et passant par M .bibliomath. on choisit un point M sur le segment OI selon la probabilité uniforme . b) On fixe A sur le cercle et on choisit B selon la probabilité uniforme sur le cercle. Indication : Pour tout n ≥ 1. Puisque |tx|n = e|tx| ≤ etx + e−tx . 1   tn LX (t) = E(etX ) = E (tX)n = E(X n ) . 67 i www. Montrer que M est fini ou dénombrable. (Paradoxe de Bertrand). En particulier. (LX )(n) (0) = E(X n ) . AB est alors la corde passant par M et perpendiculaire à OM . Quelle est la probabilité qu’il n’y ait parmi ces 2r chaus- sures aucune paire complète ? Quelle est la probabilité qu’il y ait exactement k paire(s) complète(s) (1 ≤ k ≤ r) ? Exercice III. Faire le calcul dans les différents cas suivants : a) On fixe un point I du cercle .8 montre que pour tout |t| < ε.1. ε [ pour un ε > 0. i i “barbe” — 2007/1/8 — 10:41 — page 67 — #75 i i Exercices pour tout t dans ce voisinage.com i i i . On cherche à déterminer la probabilité pour que la corde AB de ce cercle.  Exercices Exercice III. Démonstration. n! n! n∈N n∈N ce qui démontre l’analycité de LX dans un voisinage de 0.2. n! n∈N le théorème de convergence dominée II.2. pour tout n ∈ N.

cn } et {u1 .bibliomath. Montrer que si Za est de densité fa .7. Mesures de probabilité Exercice III. . soit fa (x) = f Z (x)(1 + a sin(2π ln x)). 1). covariance de uσ(k) et uσ(l) (k = l). Soit X une variable aléatoire de loi N (0. . u =n 1≤k≤n uk .2. et F (x) = 0 si x ≤ 1 (loi de Paréto). 68 i www. c) Déterminer la variance de S en fonction de s2c et s2u . Montrer que Z = eX est de densité f Z (z) = (2π)−1/2 z −1 e−(ln z) /2 si z > 0 et f Z (z) = 0 si z ≤ 0. i i “barbe” — 2007/1/8 — 10:41 — page 68 — #76 i i Chapitre III. Calculer l’espérance et la variance de X en remarquant que 1 3 P {X = k} = P {Y = k} + P {T = k} 4 4 pour tout k.6. 1 1 s2c = n − 1 1≤k≤n (ck − c) . 1 1≤k≤n (uk − u) .5. . .7 pour simuler une variable aléatoire de loi (i) Exp(1). . .5. k ∈ N. Exercice III. Pour a ∈ [ −1. Exercice III. . La plupart des ordinateurs disposent d’un algorithme permettant de simuler des variables aléatoires uniformes sur [ 0.1] . de uσ(k) . 2 s2u = n − 2 a) Montrer que l’espérance de S est égale à nc u. Soit X une variable aléatoire à valeurs dans N telle que e−2 2k P {X = k} = (1 + αk) . . puis la b) Calculer la variance Indication : Noter que 1≤k≤n uσ(k) = 1≤k≤n uk . Supposons donc savoir tirer une variable aléatoire de loi U[0. Soit Ω l’ensemble des n! permutations σ des entiers de 1 à n muni de la probabilité uniforme.8).7 et le théorème III. où T = Z + 1 et Y et Z sont deux variables de loi de Poisson de paramètre 2. Utiliser la proposition III. La 2 loi de Z s’appelle la loi log-normale.5.com i i i .4. Exercice III. (ii) de fonction de répartition F (x) = 1 − x−α si x ≥ 1. alors Za et Z ont mêmes moments. 1 ]. 4k! où α > 0. (iii) de Cauchy de densité 1/π(1 + x2 ) . Déterminer la valeur de α. Posons c= n 1 1 1≤k≤n ck . un } des nombres réels. et donc que les moments ne caractérisent pas une loi de probabilité (comparer avec III. Soient {c1 . x > 0. On définit S(σ) = 1≤k≤n ck uσ(k) . 1].

. P ) et soit λ ∈ ] 0. . . . par l’inégalité de Cauchy-Schwarz. .∞[ (X) . i i “barbe” — 2007/1/8 — 10:41 — page 69 — #77 i i Exercices Exercice III. . on dé- Exercice III. X a même loi que (Xπ(1) . Démontrer que la mesure uniforme sur {1. Si P est une mesure finit l’entropie de P par H(P ) = − 1≤k≤n pk ln pk où pk = P ({k}). Xj ) = − . Déterminer x0 et g(x0 ).e. Démontrer qu’il existe un unique réel x0 tel que la fonction g(x) = E((X − x)2 ) soit minimum en ce point. n} réalise le maximum de H.11. On dit qu’un vecteur aléatoire X = (X1 . Indication : Établir que si a < b. Soit donc X un tel vecteur aléatoire. Montrer qu’alors E(Xi ) = 1/d et VarX1 Cov(Xi . échangeable. Exercice III. A. 2. n}. Montrer que H est à valeurs dans R+ et trou- ver P telle que H(P ) = 0.9. Démontrer qu’un tel réel existe toujours. E(X 2 ) de probabilité sur {1. . . d}.com i i i . que   E(X)2 P X ≥ λE(X) ≥ (1 − λ)2 . b) On appelle médiane de X un réel m tel que P {X ≥ m} ≥ 1/2 et P {X ≤ m} ≥ 1/2 . Exercice III. 1 [. P ).10. tel que de plus X1 + · · · + Xd = 1. Démontrer que   (1 − λ)E(X) ≤ E X ½[λE(X). i = j . d−1 Indication : étudier E(X1 + · · · + Xd ) et E(X1 (X1 + · · · + Xd )). . Xd ) est échangeable si la loi de X est invariante par permutation des coordonnées. 2. Soit X une variable aléatoire positive de carré intégrable sur (Ω.       E |X − m| = inf E |X − α| : α ∈ R . de carré intégrable. . mais qu’il n’est pas nécessairement unique. . 69 i www. a) On suppose que X est de carré intégrable. Soit X une variable aléatoire réelle sur (Ω. . et en déduire. pour toute permutation π de {1. . avec la convention 0 ln 0 = 0. . . A. i.      b E |X − b| − E |X − a| = ψ(x) dx a où ψ(x) = P {X ≤ x} − P {X ≥ x} et étudier le signe de la fonction ψ. Prouver que si X est intégrable et m est une médiane de X. Xπ(d) ).8. .bibliomath. 2. . . .

et approcher dans L1 une densité quel- conque par une densité étagée. 2 est solution d’une équation différentielle du premier ordre.bibliomath. B(R)) de densité f par rapport à la mesure de Lebesgue. Indication : on pourra considérer d’abord une densité uniforme. Montrer que limt→∞ ϕX (t) = 0.12. réalise le maximum d’entropie sur l’ensemble des mesures de probabilité sur N de moyenne inférieure ou égale à p/(1 − p). Si P est une mesure de probabilité sur  (R.b ] /(b − a).14. .3. En déduire que ϕ est dérivable en 0. 1) (cf. Trouver une fonction t → N (t) de ] 0. Pour tout entier N ≥ 2 et tout t > 0. Montrer que H est à valeurs dans R+ ∪ { ∞ }. f (k) intégrables. ln(f (x)/g(x))f (x) dx ≥ 0. de la forme ½[ a. gN (t) = . Soit P la mesure de probabilité sur Z définie par c P = (δn + δ−n ) n2 ln n n≥2 où c est la constante de normalisation faisant de P une probabilité. puis une densité étagée. . Montrer que la fonction ϕ(t) = (2π)−1/2 R eitx−x /2 dx. H(P ) = ∞ sinon. Calculer l’entropie de la loi normale N (0. on définit sin2 (nt/2) sin2 (nt/2) fN (t) = . Démontrer  qu’elle minimise  2 l’entropie de toute mesure de densité f vérifiant R xf (x) dx = 0 et R x f (x) dx = 1. 70 i www.13.com i i i . |ϕX (t)| Exercice III. En déduire que si f admet des dérivées f (1) . on définit de même son entropie par H(P ) = − n∈N pn ln pn .  Exercice III. III. t ∈ R. En déduire la fonction caractéristique de la loi N (0. .iii) ainsi que tous les moments de la loi N (0. puis prendre pour g la densité gaussienne. Quand s’annule-t-elle ? Démontrer que la loi géométrique de paramètre p. Mesures de probabilité Si P est une mesure de probabilité sur N. tn2 ln n tn2 ln n 2≤n≤N n>N Démontrer que fN (t) ≤ tN et que gN (t) ≤ 1/tN ln N . ∞ [ dans N telle que limt→0 fN (t) (t) = limt→0 gN (t) (t) = 0. 1). i i “barbe” — 2007/1/8 — 10:41 — page 70 — #78 i i Chapitre III. de densité f . . on note H(P ) = f (x) ln f (x) dx lorsque cette intégrale a un sens. (Lemme de Riemann-Lebesgue) Soit X une variable aléatoire réelle. 0 < p < 1. Exercice III. Cette mesure admet-elle un moment d’ordre 1 ? Soit ϕ la transformée de Fourier de la mesure P . Indication  : on pourra commencer par montrer que pour toute densité g.5. alors = o(|t|−k ) lorsque t → ∞. 1).

t Montrer que g est une densité dont la fonction caractéristique est t−1 0 ϕ(s) ds. soit g(x) = x t f (t) dt et poser g(−x) = g(x). de fonction  ∞ −1 caractéristique ϕ. i i “barbe” — 2007/1/8 — 10:41 — page 71 — #79 i i Exercices Exercice III. Pour x > 0.15. f (x) = f (−x)).com i i i . paire (i. Soit f une densité sur R.e. 71 i www.bibliomath.

com i i i .bibliomath. i i “barbe” — 2007/1/8 — 10:41 — page 72 — #80 i i i www.

2. i i “barbe” — 2007/1/8 — 10:41 — page 73 — #81 i i IV INDÉPENDANCE Dans ce chapitre. Cette description permet de développer une intuition claire des phénomènes aléatoires modélisés par des répétitions indépendantes d’épreuves (loi des grands nombres. Sur un espace probabilisé (Ω. B sont dit indépendants si P (A ∩ B) = P (A)P (B) . deux événements A. nous débutons véritablement les considérations probabilistes. théorème central limite).1. Exemple IV. On jette deux dés. les sommes de variables aléatoires indépendantes ont pour loi les produits de convolution de mesures.1. un bleu et un rouge. L’indépendance est aux probabilités ce que sont les mesures produit à la théo- rie de la mesure. IV. Les événements A = { on obtient un nombre inférieur ou égal à 4 avec le dé rouge } et B = { on obtient un 6 avec le dé bleu } i www.1.bibliomath.com i i i . Nous allons formaliser cette intuition. Si on jette deux fois un dé. Indépendance D´efinition IV. le résultat du second jet est intuitivement indé- pendant du premier.1. P ). A. ce qui nous permettra d’évaluer la probabilité de certains événements. En particulier.

6). Ω } et σ({B}) sont indépendantes au sens où tout élément de σ({A}) est indépendant de tout élément de σ({B}). 74 i www.1. pour tout n ≥ 1. Observons que   A ∩ B = (1. A. Ac . qui est bien le produit de P (A) et P (B). d’une part pour des familles quelconques d’événements. P ) un espace probabilisé. Nous pouvons modéliser le tirage des deux dés en prenant   Ω = (i. (4. Démontrons par exemple que A et B c sont indépendants. 1 ] muni de sa tribu borélienne et P la mesure de Lebesgue sur [ 0. (i) Une famille quelconque d’événements Ai ∈ A. j) : 1 ≤ i. est mutuellement indépendante si toute famille d’événements Ai ∈ Ai . i i “barbe” — 2007/1/8 — 10:41 — page 74 — #82 i i Chapitre IV.4. La définition suivante amplifie cette première idée intuitive de l’indépendance dans deux directions. 6). En effet. 6).1. i ∈ I.   2(k − 1) 2k − 1  An = .3. Exemples IV. P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B c ) . (3. Soit. . n−1 2n 2n 1≤k≤2 La famille (An )n≥1 est mutuellement indépendante (exercice IV. j∈J j∈J (ii) Une famille quelconque de sous-tribus (ou d’algèbres) Ai ⊂ A. est mutuellement indépendante si pour tout J ⊂ I fini    P Aj = P (Aj ) . 1 ]. (2. Soit (Ω. d’autre part pour des tribus.3). P (A) = 2/3 et P (B) = 1/6. Clairement. A. les tribus σ({A}) = { ∅. est mutuellement indépendante. Remarquons que si deux événements A et B sont indépendants.bibliomath. (i) Prenons Ω = [ 0. D´efinition IV.com i i i . i ∈ I. Indépendance sont intuitivement indépendants. j ≤ 6 muni de la tribu de ses parties et de la probabilité uniforme P . 6) est de probabilité 4/36 = 1/9. i ∈ I. puisque les deux jets le sont.

P (A) = P (B) = P (C) = 1/2 . Il est facile de constater que A. (iii) Soient (Ωi . Pi ). alors que P (A ∩ B ∩ C) = 0 car A ∩ B ∩ C = ∅ (la somme des dés ne peut être impaire si chacun des deux dés affiche un résultat impair). C sont indépendants deux à deux (c’est-à-dire A et B sont indépendants. B et C sont indépendants. P (A ∩ C) = 1/4 . i = 1.1. i i “barbe” — 2007/1/8 — 10:41 — page 75 — #83 i i IV. Indépendance (ii) Reprenons l’exemple du jet de dés. des espaces probabilisés. mais ne sont pas mutuellement indépendants au sens de la définition précédente. En identifiant tout ensemble A1 de A1 avec A1 × Ω2 et tout ensemble A2 de A2 avec Ω1 × A2 . Considérons les événements A ={ le résultat du dé rouge est impair } . B. C ={ la somme des deux dés est impaire } . 2. les tribus A1 et A2 deviennent des sous-tribus de A1 ⊗ A2 . A et C sont indépendants). Les tribus A1 et A2 sont alors indépendantes . P (B ∩ C) = 1/4 . P (A ∩ B) = 1/4 . En effet. Ai . B ={ le résultat du dé bleu est impair } .

Les tribus contenant parfois beaucoup d’éléments.5. Toute autre forme d’indépen- dance (plus faible) sera précisée explicitement. A1 ⊗ A2 . P ). Nous convenons pour la suite que l’indépendance d’une famille signifie l’indé- pendance mutuelle des événements ou des tribus.   P1 ⊗ P2 (A1 × Ω2 ) ∩ (Ω1 × A2 ) = P1 ⊗ P2 (A1 × A2 ) = P1 (A1 )P2 (A2 ) = P1 ⊗ P2 (A1 × Ω2 ) P1 ⊗ P2 (Ω1 × A2 ) . il peut être délicat de vé- rifier leur indépendance. dans (Ω1 × Ω2 . il suffit de vérifier l’indépendance des algèbres. Si C1 et C2 sont deux algèbres indépendantes dans l’espace pro- babilisé (Ω. Démonstration. En effet. P1 ⊗ P2 ). Soit A1 ∈ C1 . Dans le cas où elle sont engendrées par des algèbres. Proposition IV.com i i i . A.bibliomath.1. La classe monotone   M2 = A2 ∈ σ(C2 ) : P (A1 ∩ A2 ) = P (A1 )P (A2 ) 75 i www. observons que (A1 × Ω2 ) (Ω1 × A2 ) = A1 × A2 et que par définition de la mesure produit. alors les tribus σ(C1 ) et σ(C2 ) sont indépendantes.

5. 6) = 4/36 = 1/9 = P (A)P (B) . P ) et à valeurs dans (E.  Il suffirait de considérer dans la proposition précédente des familles C1 et C2 stables par intersection finie. 4.1. 6 }. 3. A1 ⊂ { 1. i.com i i i . Indépendance des événements indépendants de A1 contient C2 . 4 } ∩ X2−1 { 6 }   = P (1. D´efinition IV. 2. Une famille quelconque de variables aléatoires Xi . La classe monotone M1 = { A1 ∈ σ(C1 ) : P (A1 ∩ A2 ) = P (A1 )P (A2 ) } des événements indépendants de A2 contient C1 d’après le point précédent. engendrée par X1 . 2. j) = i et X2 (i. La définition d’indépendance se formule de façon équivalente en terme de variables aléatoires. 6 } } . i i “barbe” — 2007/1/8 — 10:41 — page 76 — #84 i i Chapitre IV.1. 5.    P { Xj ∈ Bj : j ∈ J } = P { Xj ∈ Bj } = P { Xj ∈ Bj } . 6).e. (3. (4. et donc σ(C1 ). 76 i www. 3.2. (i) Reprenons l’exemple IV. 3. comme on l’attend intuitivement si notre modèle représente bien la réalité. Soient X1 et X2 les projections de Ω sur la première et seconde composante (X1 (i. 2. σ(X2 ) = { { 1. j ∈ J. i ∈ I. A.3.1. Elle contient donc la classe mo- notone engendrée par C2 qui est égale à σ(C2 ) d’après le théorème I. est formée des ensembles A1 × { 1. 4.   P (A) = P X1−1 { 1. La conclusion s’ensuit. j∈J j∈J Exemples IV. De façon symétrique. observons que la tribu σ(X1 ). 6).3. 4. (2. 2. Alors. 3. Ces projections sont des variables aléatoires qui modélisent le tirage de chacun des deux dés. 6 }.7. 6). 3. sur (Ω. 5. 2. 5.bibliomath. j) = j). Soit à présent un élément A2 ∈ σ(C2 ). 6 } × B2 : B2 ⊂ { 1. pour tout J ⊂ I fini et tous les ensembles mesurables Bj ∈ B. B) est (mutuellement) indépendante si la fa- mille des tribus engendrées par les Xi est (mutuellement) indépendante. 4. Pour vérifier que X1 et X2 sont indé- pendantes.6. Donc A et B sont bien indépendants.

4. . . plus faible que l’indépendance mutuelle. 5.j)∈A1 ×B2 i∈A1 j∈B2 = P (A1 )P (B2 ) = P (A)P (B) . Y. Soit Z = XY .. La loi P (X1 .1. 77 i www.8. A.3. Z) est formée de variables indépendantes deux à deux. Réciproque- ment. 1≤k≤2n−1 2n .bibliomath. si la loi du vecteur est égale au produit des marges. i i “barbe” — 2007/1/8 — 10:41 — page 77 — #85 i i IV. mais que la réciproque est fausse en général (exemple III. mais n’est pas mutuellement indépendante.3.ii. c’est-à-dire la loi de chacune des Xi . Soient X et Y deux variables aléatoires in- dépendantes sur (Ω. B = { 1. Soit (X1 .4. A. alors les variables sont indépendantes.1. Indépendance Donc si A ∈ σ(X1 ) et B ∈ σ(X2 ) sont non vides. (ii) Poursuivons l’exemple IV. +1 } (P { X = −1 } = P { X = +1 } = 1/2).1. Cet exemple est une variation en terme de variables aléatoires de l’exemple IV.. . . 6 } × B2 . .4. A = A1 × { 1.. 6 }.. Nous reformulons maintenant l’indépendance des variables aléatoires en terme de lois de ces variables. n ≥ 1. . (iii) Il existe une notion de variables aléatoires indépendantes deux à deux. Le cas de variables aléatoires à valeurs vectorielles est similaire. Rappelons que si X = (X1 . Xd ) une famille finie de variables aléatoires réelles indépendantes sur (Ω.i. Il est aisé de vérifier que la loi de Xn est donnée par P { Xn = 0 } = P { Xn = 1 } = 1/2 (loi de Bernoulli de paramètre 1/2). La famille de variables aléa- toires (X. 1 ] dans { 0. chacune de loi de Bernoulli symétrique sur { −1. P ). et 1 1 1 P (A ∩ B) = P (A1 × B2 ) = = 36 6 6 (i. la loi de X détermine la loi des marges. Néanmoins. On ne considère dans l’énoncé suivant que le cas de variables aléatoires réelles. B(Rd )) est égale au produit des lois marginales P X1 ⊗ · · · ⊗ P Xd . 3.Xd ) du vecteur aléatoire sur (Rd . La famille de variables aléatoires Xn = ½An = ½ 2(k−1) 2k−1 . 1 } est indépendante. . C’est cette formulation qui permet de travailler avec les variables indépendantes. Proposition IV. 3. A. 2n de [ 0. P ). 5. Xn ) est un vecteur aléatoire sur (Ω. si les coordonnées sont indépendantes. 4. P ).1. 2. 2. .i).com i i i . le résultat suivant montre que la loi du vecteur est déterminée par celles des marges.

Ik forment une partition de { 1. . Soit (Jl )l∈L une partition arbitraire de l’en- semble I. de densité f (x)g(y) par rapport à la mesure de Lebesgue  sur R2 . En effet. d } avec nj = card(Ij ).5 et l’exemple IV. Alors X et Y sont indépen- dantes. La réciproque découle des identités précédentes et de la définition d’une loi puisque   P (X1 .. . .1. et si de plus φj est mesurable sur Rnj à valeurs dans R. si I1 .Xd ) (B) = P X1 (B1 ) · · · P Xd (Bd )  = P { Xi ∈ Bi } .1.10.1.bibliomath.. ! σ(Yj ) ⊂ σ(Xi : i ∈ Ij ) = σ(Xi ) . . .1. laquelle en- gendre la tribu borélienne produit B(Rd ). .9. i i “barbe” — 2007/1/8 — 10:41 — page 78 — #86 i i Chapitre IV. et de densité respective f et g si f (x) dx = 1 (et donc g(x) dx = 1). . ∩ Xd−1 (Bd )     = P X1−1 (B1 ) · · · P Xd−1 (Bd ) = P X1 (B1 ) · · · P Xd (Bd ) . 1 ≤ j ≤ k... Xd sont des variables aléatoires réelles indépendantes.. Proposition IV. . . (ii) Si X1 . soit (Ai )i∈I une famille de sous-tribus indépendantes de A.4.  1≤i≤d Exemples IV. . A. les tribus i∈Ij σ(Xi ). .com i i i . La proposition IV. alors   Yj = φj (Xi : i ∈ Ij ) 1≤j≤k est une famille de k variables aléatoires indépendantes.iii.ii suggèrent la véracité de la propo- sition suivante. . par hypothèse d’indépendance. Xd ) ∈ B1 × · · · × Bd = P (X1 . Si B = B1 × · · · × Bd est un pavé dans B(Rd ). par le même argument que dans l’exemple IV. Xd )−1 (B1 × · · · × Bd )   = P X1−1 (B1 ) ∩ . (i) Soit (X. sont indépendantes. . . Indépendance Démonstration. .. P ). . . 78 i www.9. .   P (X1 .1. Y ) ∈ R2 un couple de variables aléatoires. ..Xd ) (B) = P (X1 . . i∈Ij " et. Sur un espace probabilisé (Ω. . . L’identité s’étend à l’algèbre des réunions finies disjointes de pavés. La famille de tribus (σ(Ai : i ∈ Jl ))l∈L est une famille indépendante..

la classe M(F ) est toujours une classe monotone et contient E1 par le même argument . . que nous pouvons représenter par J = { 1.  De la proposition IV. Il suffit alors de montrer que σ(Ai : i ∈ J1 ) est indépendante de σ(Ai : i ∈ J2 ∪ . . j = 1. Fixons E ∈ E1 et notons   M(E) = A ∈ A : P (E ∩ A) = P (E)P (A) la classe des événements indépendants de E.  79 i www. indépendante. . J1 et J2 . n }. L = { 1. Pour j = 1. . i ∈ I. xn ) 1≤i≤n 1≤i≤n   = φi (xi ) dP X1 (x1 ) ⊗ · · · ⊗ dP Xn (xn ) 1≤i≤n   = φi (xi ) dP Xi (xi ) 1≤i≤n    = E φi (Xi ) .3)..11. nous sommes ramenés au cas d’une partition de I en deux sous-ensembles. Une famille quelconque de variables aléatoires réelles Xi .5. P ) est indépendante si et seulement si pour toute famille finie J ⊂ I et toute famille finie de fonctions boréliennes φi . . Autrement dit. il suffit de faire la démonstration lorsque L est fini. A. i ∈ J.1. .5. Si à présent F ∈ T2 . . i ∈ Jj .. ∪ Jn ).1. Notons Tj = σ(Ai : i ∈ Jj ). Indépendance Démonstration.Xn ) (x1 .1.      E φi (Xi ) = E φi (Xi ) . 1≤i≤n La réciproque s’obtient en considérant pour φi des indicatrices de boréliens. Alors M(E) est une classe monotone qui contient E2 . .1. .bibliomath. 2. .com i i i . Supposons la famille Xi . i ∈ I. donc elle contient M(E1 ) = T1 .. soit Ej la famille des intersections finies d’éléments des tribus Ai .3. D’après la définition IV. nous utilisons un argument de classe monotone. 2. n }.8 nous déduisons un autre critère d’indépendance.1) pour obtenir      E φi (Xi ) = φi (xi ) dP (X1 . .3. sur (Ω. théorème I. Corollaire IV.1. et donc M(Ej ) = Tj (cf. Utilisons alors le théorème de Fubini (II. Donc M(E) ⊃ M(E2 ) = T2 .. . i∈J i∈J Démonstration. Comme pour la démonstration de la proposition IV. i ∈ J. . Par définition Ej est stable par intersection finie. soient intégrables. telles que φi (Xi ). ce qui démontre le résultat. Soit J une partie finie de I. i i “barbe” — 2007/1/8 — 10:41 — page 79 — #87 i i IV. .

Indépendance Nous déduisons aussi du corollaire précédent un critère d’indépendance utili- sant les fonctions caractéristiques. Pour les variables non corrélées.13. Xn sont des variables indépendantes et intégrables. 1).. Démonstration. . . La famille (X1 ..Xn ) (t1 . On dit aussi que les variables centrées X − E(X) et Y − E(Y ) sont orthogonales (pour le produit scalaire dans L2 — cf. .6). tn ) ∈ Rn .5. . si E((X − EX)(Y − EY )) = 0. par exemple.6 pour calculer les moments de la loi normale. X et Y sont de carré intégrable et E(XY ) = E(X 3 ) = 0 = E(X)E(Y ) par application.1. de façon équivalente. ou. (ii) Si X est une variable aléatoire réelle de loi normale N (0. Y ≥ 1 } = P { X ≥ 1 } = P { X ≥ 1 }P { Y ≥ 1 } puisque P { Y ≥ 1 } < 1.  Comme cas particulier du corollaire IV. nous observons que si X1 . En effet. Y ∈ L2 (Ω. A. Xn ) de variables aléatoires réelles est in- dépendante si et seulement si pour tout (t1 .6. de la proposition III. II. Exemples IV. Il est clair intuitivement que X et Y ne sont pas indépendantes. .bibliomath. . ϕ(X1 . alors X et Y = X 2 sont non corrélées.1. Le produit ϕX1 · · · ϕXn est la fonction caractéristique de la loi produit P X1 ⊗ · · · ⊗ P Xn . i i “barbe” — 2007/1/8 — 10:41 — page 80 — #88 i i Chapitre IV.5. D´efinition IV. tn ) = ϕX1 (t1 ) · · · ϕXn (tn ) . Corollaire IV.. P ) sont non corrélées si E(XY ) = E(X)E(Y ) . deux variables aléatoires indé- pendantes de carré intégrable sont non corrélées. .12..com i i i .11. . E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ) . . . . .11. On prendra garde au fait que cette propriété ne caractérise pas en général l’indé- pendance.1. Elle décrit en fait une propriété plus faible de non corrélation. (i) D’après le corollaire IV.2).1.1. .14. on peut facilement évaluer la variance de leur somme. . ce qui est confirmé par le fait que P { X ≥ 1 . . C’est le résultat puisque la fonction caractéristique détermine la loi (III. 80 i www. Deux variables aléatoires réelles X. .

. Xn sont deux à deux non corrélées.j≤n  2  = E Xi − E(Xi ) 1≤i≤n = Var(Xi ) . des vecteurs de norme au plus 1. Comme Xi − E(Xi ) et Xj − E(Xj ). 1 ] peut être approximée à d/2 près par une combinaison linéaire à coefficients dans { 0. prenons (X1 . xd ) = pi i (1 − pi )1−xi .bibliomath. . . Montrons qu’il existe ε1 . . Si X1 . Xd ) = (x1 . . ud ∈ Rd . .com i i i . 1 } tels que   √   w − εi ui  ≤ d/2 . Indépendance Proposition IV. muni de la structure euclidienne. . . 1 ] et w = 1≤i≤d pi ui .      1 P  (Xi − E(Xi )) ≥ t ≤ 2 Var(Xi ) . elles vérifient l’identité de Bienaymé. . .1.    2  Var Xi =E Xi − E(Xi ) 1≤i≤n 1≤i≤n    = E Xi − E(Xi ) Xj − E(Xj ) 1≤i. . i = j. .1. . .4. 1 }. (i) Donnons une application du calcul des probabilités à l’étude de la géométrie des espaces vectoriels.  Exemples IV. dite de Bienaymé-Tchebitchev. Xd ) un vecteur aléatoire de loi    x P (X1 . toute √ combinaison linéaire des ui à coefficients dans [ 0. . 1≤i≤d Autrement dit. Pour cela. . . . . εd ∈ { 0. 1≤i≤d 81 i www. i i “barbe” — 2007/1/8 — 10:41 — page 81 — #89 i i IV. . .1. 1≤i≤n 1≤i≤n Nous en déduisons l’inégalité. . . .   Var Xi = VarXi . Soient u1 . Soient p1 .16. sont orthogonales dans L2 . 1≤i≤n L’inégalité de Bienaymé-Tchebitchev est une conséquence de l’inégalité de Tchebitchev (exemple III. t 1≤i≤n 1≤i≤n Démonstration. t > 0.ii).15.10. . . . . pd ∈ [ 0.

pour la plupart des entiers i ≤ n. 1≤i≤d Les Xi sont mutuellement indépendantes. (ii) Voici enfin un exemple d’application en théorie des nombres.j≤d = ui  pi (1 − pi ) 2 1≤i≤d ≤ d/4 . pour tout ε > 0. et soit X= Xi ui .   ν(i)   1   lim card i ≤ n :  − 1 ≥ ε = 0 . uj  1≤i.    E X − w2 ) = E (Xi − pi )2 ui 2 1≤i≤d   + 2E (Xi − pi )(Xj − pj )ui . En particulier. Soit ν(n) le nombre de diviseurs premiers de n. de loi de Bernoulli de paramètre pi . 1 }. Proposition. . Donc il existe une valeur de (X1 . . Xd ) pour laquelle X − w2 ≤ d/4 . i i “barbe” — 2007/1/8 — 10:41 — page 82 — #90 i i Chapitre IV. alors 1  √  lim card i ≤ n : |ν(i) − ln ln n| > a(n) ln ln n = 0 . Observons alors que si X − w2 > d/4 pour presque toute valeur de X. Nous allons montrer. considérons la suite d’espaces probabilisés (N∗ . Indépendance où xi ∈ { 0. P(N∗ ). Alors. ce qui est le résultat. . . alors E(X −w2 ) > d/4 (proposition II.com i i i . elles sont non corrélées. n→∞ n ln ln i Pour montrer cette proposition.6). qu’en un certain sens.2. Pn ) où 1 Pn = δi n 1≤i≤n 82 i www.bibliomath. Si a(n) est une suite qui tend vers l’infini. n→∞ n En particulier. ν(i) est de l’ordre de ln ln i.

i i “barbe” — 2007/1/8 — 10:41 — page 83 — #91 i i IV. Soit X = p premier Xp . p≤n La covariance de Xp et Xq sous la loi Pn est Cov(Xp . Observons que X(i) = ν(i) pour tout i ∈ N∗ et que 1  √  card i ≤ n : |ν(i) − ln ln n| ≥ a(n) ln ln n n  √  = Pn |X − ln ln n| ≥ a(n) ln ln n . . i ∈ N∗ . n }. sous Pn . P(N∗ ). Pn ).bibliomath. en notant  ·  la partie entière.1.com i i i . Les Xp sont des variables aléatoires sur (N∗ . n → ∞ . Indépendance est la loi uniforme sur { 1. p p p Le théorème des nombres premiers indique que le nombre de nombres premiers ne dépassant pas n est π(n) = (n/ ln n)(1 + o(1)). n 1≤i≤n En particulier. pour tout entier k ≥ 1 1 E(Xpk ) = Pn { Xp = 1 } = ½{p divise i} = n/p/n = p−1 + O(n−1 ) . . n p q 83 i www. Sous la loi Pn . sous Pn . . p premier p≤n Donc. Xp (i) = 0 sinon . Pour p premier. ce qui permet de montrer que 1/p = ln ln n + o(1) . 1 1 1 E(Xp ) = + O(n−1 ) et Var(Xp ) = 1− + O(n−1 ) . 2. E(X) = p−1 + O(n−1 ) = ln ln n + o(1) . . soit # 1 si p divise i. Xq ) = E(Xp Xq ) − E(Xp )E(Xq ) n/pq n/p n/q = − n n n 1  1  1 ≤ − p− q− pq n n 1 1 1 ≤ + .

la proposition IV. 1≤i≤n E(Xi ) = nE(X1 ) (de l’ordre de n si E(X1 ) = 0). Var(X) = Var(Xp ) + 2 Cov(Xp .1. t2 1≤i≤n √ Ainsi. Appliquons maintenant l’inégalité de Tchebitchev.q premiers p premier p.q premiers p≤n p<q≤n  1  1  1  1 1 1 ≤ 1− +O + + p p n n p q p≤n p =q≤n 1 1 1 1 ≤ ln ln n + + +O 1 n p q n p. sous Pn . Autrement dit. IV. plus un terme aléatoire de l’ordre au 84 i www. 1≤i≤n Xi ressemble à un terme déterministe.       √ Var(X1 ) P    Xi − E(Xi )  ≥ t n ≤ . Xq ) p premier p. Pour obtenir le second. il suffit de remarquer que pour tout ε > 0.bibliomath.   Pn |X − E(X)| ≥ t Var(X) ≤ 1/t2 . 1   lim card i ≤ n : | ln ln i − ln ln n| ≥ ε n→∞ n 1  −ε  = lim card i ≤ n : i ≤ ne n→∞ n = 0.com i i i .2. ce qui donne  √  lim sup Pn |X − ln ln n| ≥ t ln ln n ≤ 1/t2 n→∞ et termine la démonstration du premier point de la proposition. Pour t > 0. i i “barbe” — 2007/1/8 — 10:41 — page 84 — #92 i i Chapitre IV. Indépendance Donc. Sommes de variables aléatoires indépendantes Remarquons que pour des variables aléatoires indépendantes. de même loi et de carré intégrable.q≤n p≤n 2 π(n) = ln ln n + ln ln n + O(1) + O(1) n n = ln ln n + O(1) . l’ordre de grandeur de la somme 1≤i≤n (Xi − E(Xi )) est au plus n.15 montre que si t > 0.

y) = x + y. de nombreux travaux leur ont été consacrés. Historiquement. i i “barbe” — 2007/1/8 — 10:41 — page 85 — #93 i i IV. pour toute fonction borélienne bornée φ de R dans R. On écrit un théorème de transport sur le diagramme suivant : où U est la fonction U (x.Y ) R 2 = φ ◦ U d(P X ⊗ P Y )  R 2 = φ(x + y) dP X (x)dP Y (y) .2.com i i i . V. sur (Ω.bibliomath.4). Soient X et Y deux variables aléatoires réelles. Y ))  = φ ◦ U dP (X. d’autre part pour préciser au chapitre V le comportement du √ terme aléatoire de l’ordre de n (théorème limite central. Sommes de variables aléatoires indépendantes √ plus n. d’une part pour évaluer la loi de 1≤i≤n Xi . défini. Proposition IV. A. Nous en verrons quelques exemples dans cette partie où nous étudierons comment calculer la loi d’une somme de variables aléa- toires indépendantes.2. La loi de la somme X + Y est donnée par le produit de convolution P X ∗ P Y des lois P X et P Y . par     φ d(P X ∗ P Y ) = φ(x + y) dP Y (y) dP X (x) R R R  = φ(x + y) dP X (x) dP Y (y) . P ).    φ dP X+Y = E φ(X + Y ) R   = E φ(U (X. Les résultats de cette section nous servirons.5. Ainsi.1. indépendantes. Les sommes de variables aléatoires indépendantes et de même loi jouent un rôle essentiel dans le calcul des probabilités et en statistique. R R Démonstration. Elles interviennent également dans de nombreux problèmes pratiques.  R2 85 i www.

com i i i . donnée par ϕ(X.4. Indépendance Remarque IV. Démonstration. Y ) de variables indépendantes.2. Proposition IV. A..  On prendra soin de ne pas confondre la fonction caractéristique d’un couple (X. puisque pour tout t ∈ R.s. Le produit de convolution vérifie un certain nombre de proprié- tés algébriques issues de la description en terme de variables aléatoires (mais qui ne suffisent cependant pas à le caractériser) : (i) P ∗ δ0 = P (puisque X + 0 = X) .11. alors X et Y sont indépendantes et X + Y = a + b p. si φ est borélienne et bornée.s.3. et Y = b p. (iii) (associativité) (P ∗Q)∗R = P ∗(Q∗R) (puisque (X +Y )+Z = X +(Y +Z)) . P ). (i) Si X = a p.2. (iv) (distributivité) P ∗ (αQ + (1 − α)R) = α(P ∗ Q) + (1 − α)(P ∗ R) pour tout α ∈ [ 0.bibliomath. t ∈ R. 1 ] .Y ) (s. δa ∗ δb = δa+b .         ϕX+Y (t) = E eit(X+Y ) = E eitX eitY = E eitX E eitY = ϕX (t)ϕY (t) . Autrement dit. la fonction caractéristique de leur somme est donnée par le produit des fonctions caractéristiques ϕX+Y (t) = ϕX (t)ϕY (t) . Les fonctions caractéristiques fournissent un autre moyen de déterminer la loi de la somme de deux variables aléatoires indépendantes.       φ d P ∗ (αQ + (1 − α)R) = φ(x + y) dP (x) d αQ + (1 − α)R (y)  = α φ(x + y) dP (x) dQ(y)  + (1 − α) φ(x + y) dP (x) dR(y)   = α φ d(P ∗ Q) + (1 − α) φ d(P ∗ R)    = φ d αP ∗ Q + (1 − α)P ∗ R . C’est une conséquence du corollaire IV.s.1.2. Exemples IV. t) = ϕX (s)ϕY (t). avec la fonction caractéristique de la somme X + Y décrite ci-dessus. en effet. i i “barbe” — 2007/1/8 — 10:41 — page 86 — #94 i i Chapitre IV. t ∈ R. Si X et Y sont deux variables aléatoires réelles indépendantes sur (Ω. 86 i www. (ii) (commutativité) P ∗ Q = Q ∗ P (puisque X + Y = Y + X) .2. s.

(iii) Jetons une pièce n fois. Quelle est la loi du nombre de piles ? Modélisons n jets d’une pièce par n variables aléatoires indépendantes X1 . par indépendance de X et Y . les transformées de Fourier sont donc un outil très efficace pour l’étude des sommes de variables aléa- toires indépendantes. i. Y = n} 0≤n≤k = P { X = k − n }P { Y = n } 0≤n≤k λk−n −µ µn = e−λ e (k − n)! n! 0≤n≤k (λ + µ)k = e−(λ+µ) .e.iv. et Y suit la loi P(µ). consiste à écrire que pour tout k ∈ N. plus probabiliste. . p). Y indépendantes.bibliomath. Ainsi. . P { Xi = 1 } = 1 − P { Xi = 0 } = p 87 i www.2. { X + Y = k } est la réunion disjointe des événements { X + n = k . En effet. Xn chacune de loi de Bernoulli B(1. Alors X + Y est de loi P(λ + µ). P{X + Y = k } = P{X + n = k .3.5. Si t ∈ R. k! k∈N Une autre démonstration. et en appliquant IV. Sommes de variables aléatoires indépendantes (ii) Soient X.2 et l’exemple III. .com i i i . 0 ≤ n ≤ k. no- tée P(λ).v.2. où X suit la loi de Poisson de paramètre λ. i i “barbe” — 2007/1/8 — 10:41 — page 87 — #95 i i IV.5. n λn µm P(λ) ∗ P(µ) = e−λ e−µ δn ∗ δm n! m! n∈N m∈N λn µm = e−(λ+µ) δn+m n! m! n∈N m∈N  λn µm  −(λ+µ) =e δk n! m! k∈N m+n=k (λ + µ)k = e−(λ+µ) δk = P(λ + µ) .2. Y = n }. k! On peut utiliser enfin les fonctions caractéristiques. P(λ) = n∈N e−λ λn! δn . Sous réserve qu’elles soient calculables. . it −1) it −1) it −1) ϕX+Y (t) = ϕX (t)ϕY (t) = eλ(e eµ(e = e(λ+µ)(e est la fonction caractéristique de P(λ + µ) par le théorème III.

.xn ∈{0. Notons que S1 = X1 est de loi B(1. alors P { Sn = k } = (1 − p)Ckn−1 pk (1 − p)n−1−k + pCk−1 n−1 p k−1 (1 − p)n−1−(k−1) = Ckn−1 pk (1 − p)n−k + Ck−1 n−1 p (1 − p) k n−k = Ckn pk (1 − p)n−k . ou encore les fonctions carac- téristiques (voir III. . Xn = 0 } + P { Sn−1 = k − 1 . Indépendance (avec p = 1/2 si la pièce n’est pas truquée). 1. Si Sn−1 Pascal. i i “barbe” — 2007/1/8 — 10:41 — page 88 — #96 i i Chapitre IV. dans l’esprit de la proposition IV. .1. 2..bibliomath. observons d’abord que Sn prend les valeurs 0.3. . 1}n : x1 + · · · + xn = k pk (1 − p)n−k = Ckn pk (1 − p)n−k . dP Xn (xn )  = ½{k} (x1 + · · · + xn ) pxi (1 − p)1−xi x1 . . Xn = 0 } et { Sn−1 = k − 1 .com i i i . Montrons que cette somme suit une loi binomiale B(n. Xi = 1 représentant le tirage de pile au i-ème coup. On peut donc démontrer le résultat par récurrence.xn ∈{0. l’événement { Sn = k } est la réunion disjointe des deux événements { Sn−1 = k .. P { Sn = k } = P { Sn = k . . Ckn−1 + Ck−1 k est de loi B(n − 1.. pour 1 ≤ k ≤ n. p). n. par indépendance de Sn−1 et Xn (exemple IV... p). On peut aussi utiliser le produit de convolution. Ainsi..5.ii). À cet effet. Xn = 1 } = P { Sn−1 = k }P { Xn = 0 } + P { Sn−1 = k − 1 }P { Xn = 1 } = (1 − p)P { Sn−1 = k } + pP { Sn−1 = k − 1 } . p). Rappelons la formule de n−1 = Cn .   P { Sn = k } = E ½{k} (Sn )  = ½{k} (x1 + · · · + xn ) dP X1 (x1 ) . Xn = 0 } + P { Sn = k . La description de la loi binomiale comme loi de la somme de variables de Bernoulli indépendantes permet un calcul rapide de sa moyenne et de sa variance.1}   = card (x1 . 88 i www.1. .2. consiste à écrire. xn ) ∈ {0. Une autre démonstration. Pour tout 0 ≤ k ≤ n.1} 1≤i≤n = ½{k} (x1 + · · · + xn )pΣ1≤i≤n xi (1 − p)n−Σ1≤i≤n xi x1 . ... .9.vi). Xn = 1 }. Xn = 1 } = P { Sn−1 = k . et Xi = 0 le tirage de face. Le nombre de piles est donc Sn = X1 + · · · + Xn . .

pour tout t ∈ R. note sa couleur.bibliomath. (iv) Soient X. σ12 ) et N (m2 . n ε n ε2 n Donc la probabilité que Sn /n s’écarte de sa moyenne tend vers 0 lorsque n tend vers l’infini. et montre encore que l’axiomatique des probabilités que nous avons utilisée est raisonnable). Supposons qu’une urne contienne une proportion p de boules lapis-lazuli et 1 − p de boules vert fluorescent.com i i i .  S    S  p(1 − p)  n  1 n P  − p ≥ ε ≤ 2 Var = . En effet. indépendantes. Plus géné- ralement. on vérifie ainsi que N (0. R R En effet. puis la remet dans l’urne. Comme précédemment. On recommence ainsi n tirages avec remise. Il est aisé de constater que la loi de la somme X + Y a une densité h par rapport à la mesure de Lebesgue. donnée par le produit de convolution des fonctions f et g. ces relations peuvent se vérifier rapidement sur les fonctions caractéristiques. Alors. Observons que l’inégalité de Tchebitchev dans la version III. Y deux variables aléatoires réelles. Une autre interprétation de la loi binomiale peut être donnée en terme d’urne. Nn = X1 + · · · + Xn est une somme de variables aléatoires de Bernoulli de paramètre de succès p. σ12 ) ∗ N (0. p). φ d(P X ∗ P Y ) = φ(x + y)f (x)g(y) dx dy   = φ(z)f (z − y)g(y) dy dz  = φ(z)h(z) dz . et 0 sinon. 2 2 /2 2 2 /2 2 2 2 /2 ϕX1 +X2 (t) = ϕX1 (t)ϕX2 (t) = eim1 t−σ1 t eim2 t−σ2 t = ei(m1 +m2 )t−(σ1 +σ2 )t .4. On tire une boule. Si X1 et X2 sont indépendantes de lois respectives N (m1 . notons Xi = 1 si la boule est lapis-lazuli. N (m1 .ii montre que pour tout ε > 0.10. E(Sn ) = nE(X1 ) = np et Var(Sn ) = nVar(X1 ) = np(1 − p) . Ainsi si nous tirons un grand nombre de fois à pile ou face. σ12 + σ22 ). 89 i www. σ22 ). En particulier. σ22 ) = N (m1 + m2 .   h(x) = f ∗ g(x) = f (x − y)g(y) dy = g(x − y)f (y) dy . la propor- tion de pile sera avec forte probabilité à peu près 1/2 (c’est intuitivement clair. Sommes de variables aléatoires indépendantes puisque par linéarité de l’intégrale et par l’identité de Bienaymé. si φ est  une fonction borélienne   bornée. dont les lois admettent des densités respectives f et g par rapport à la mesure de Lebesgue. au i-ème tirage. Sn /n est le nombre moyen de piles sur les n jets. σ12 ) ∗ N (m2 . σ12 + σ22 ). x ∈ R . Le nombre Nn de boules lapis- lazuli ainsi tirées suit une loi binomiale B(n. i i “barbe” — 2007/1/8 — 10:41 — page 89 — #97 i i IV.2. σ22 ) = N (0. En particulier.

i ≥ 1. 90 i www. . qui à un point de Rn associe sa i-ème coordonnée. 1 ]) par Q(A) = P1 ⊗ · · · ⊗ Pn (Cn ) . λ). Bi ). 1/2) indépendantes. 1 ]). définies sur l’espace ([ 0. B([ 0. Sous P . cela ne pose pas de problème : on prend Ω = Rn muni de sa tribu borélienne. Dans la pratique. et telles que P Xi = Pi pour tout i ? Lorsque l’on a qu’un nombre fini P1 . soit Ω = i≥1 Ei et Xi la projection sur la i-ème coordonnée. pour tout A ∈ C (de base Cn ). Désignons par A la tribu produit des Bi . des fonctions aléatoires. Démonstration.com i i i . A. A. On peut définir sur C une fonction d’ensemble Q (à valeurs dans [ 0. On cherche à construire un espace probabilisé (Ω.1. Pi )i≥1 d’espaces probabilisés. ou de façon équivalente engendrée par les Xi . Indépendance IV. Bi .4. . sur (Ω.ii. La tribu A est engendrée par l’algèbre C dite des cylindres qui sont les ensembles A de la forme A = Cn × En+1 × En+2 × · · · où Cn ∈ B1 ⊗ · · · ⊗ Bn est appelé la base du cylindre. Soit en général une famille (Ei .7. Xi .1 (de Kolmogorov). tous les Ei sont égaux à R ou Rd . Puisque Q(Ω) est fini. A). Xi : Rn → R.3. Cette construction est spécifique à cet exemple. Afin d’établir la première partie. existe-t-il des variables aléatoires Xi sur un « certain » espace probabilisé (Ω. des processus stochastiques : étant données des lois Pi sur R (par exemple). Comme dans le cas fini. .bibliomath. . A. mais cette notation nous permet de distinguer plus facilement $ chacun des facteurs de l’espace produit. de façon plus générale. on utilise le théorème de prolongement I. les Xi sont indépendantes et de loi Pi . nous avons construit une suite infinie de variables de Bernoulli B(1. par exemple dénombrable. Th´eor`eme IV. P ) et une famille de variables aléatoires mutuellement indépendantes. La question suivante est motivée par le désir de modéliser des suites infinies de variables aléatoires. de Pi ? Dans l’exemple IV.9. i ≥ 1. Obser- vons que Q est une fonction d’ensembles additive sur A. La deuxième partie de l’énoncé est évidente par construction. telles que P Xi = Pi pour tout i ≥ 1. Applications de l’indépendance Nous étudions à présent quelques propriétés théoriques et pratiques de l’indé- pendance et leurs applications. Pn de lois. P = P1 ⊗ · · · ⊗ Pn et on considère les Xi comme les applications coordonnées. 1 ]. La fonction d’ensemble Q se prolonge en une unique probabilité P sur (Ω. Qu’en est-il cependant avec une infinité. P ) qui sont indépendantes. ou. P ) à valeurs dans (Ei . i i “barbe” — 2007/1/8 — 10:41 — page 90 — #98 i i Chapitre IV.3.

n→∞ n∈N Supposons le contraire. il suffit de montrer que si (An )n∈N est une suite décroissante dans C d’intersection vide. alors lim Q(An ) = inf Q(An ) = 0 . c’est-à-dire que pour une certaine suite (An )n∈N décrois- sante . i i “barbe” — 2007/1/8 — 10:41 — page 91 — #99 i i IV.3. Applications de l’indépendance pour montrer la σ-additivité de Q sur A.

1). on peut construire une fonction d’ensembles additive Qk sur E k = i≥k Ei à l’image de la définition de Q = Q1 sur Ω = E 1 . ω) ∈ An } est la section de An suivant ω1 ∈ E1 .   ε ≤ Q(An ) ≤ 2ε 1 − P1 (Bn ) + P1 (Bn ) ≤ 2ε + P1 (Bn ) . inf n∈N Q(An ) ≥ ε et montrons alors que n∈N n = ∅. Par définition de Bn .5.3). Ainsi. puisque Q2 (Aωn1 ) < ε/2 sur le complémentaire de Bn et Q2 (Aωn1 ) ≤ 1 partout. pour tout n  Q(An ) = Q2 (Aωn1 ) dP1 (ω1 ) où Aωn1 = { ω ∈ E 2 : (ω1 . Par le théorème de Fubini (II. P1 (Bn ) ≥ ε/2. Soit   Bn = ω1 ∈ E1 : Q2 (Aωn1 ) ≥ ε/2 . A Pour $ tout k ≥ 1. dans C et un certain ε > 0. (Aωn1 appartient à la tribu cylindrique sur E 2 par l’exercice I. La suite (B .

et donc. n )n∈N décroît dans E1 . . nécessairement.

puisque P1 est une probabilité, n Bn n’est pas vide. Soit ζ1 un élément de n Bn .
Ce que l’on a fait pour Q = Q1 et la suite (An )n∈N , nous le recommençons pour
la fonction d’ensembles Q2 et la suite (Aζn1 )n∈N , car inf n Q2 (Aζn1 ) ≥ ε/2. On
construit de cette façon un point ζ = (ζi )i≥1 dans Ω tel que pour tout k ≥ 1,
inf n Qk+1 (Aζn1 ,...,ζk ) > 0 où
 
Aζn1 ,...,ζk = ω ∈ E k+1 : (ζ1 , . . . , ζk , ω) ∈ An

(qui est un cylindre de E k+1 ). En particulier, à n fixé, pour tout k ≥ 1,
Aζn1 ,...,ζk = ∅. Mais An est un cylindre de la forme An = CN × E N +1 . Or on peut
vérifier, en s’appuyant sur un dessin par exemple, que Aζn1 ,...,ζN est non vide si et
N ) ∈ CN . Ainsi ζ ∈ An . Comme ceci à lieu pour n’importe
seulement si (ζ1 , . . . , ζ

quel n, l’intersection n∈N An n’est pas vide puisqu’elle contient ζ. Le théorème
est établi. 
En conséquence de ce théorème, nous pouvons parler plus librement d’une suite
(Xn )n∈N de variables aléatoires réelles indépendantes sur un espace probabilisé

91

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 92 — #100
i i

Chapitre IV. Indépendance

(Ω, A, P ). Un raisonnement similaire permet de construire des suites de vecteurs
aléatoires indépendants.
Dans de nombreux problèmes de probabilité, on est intéressé par le compor-
tement limite d’une suite de variables aléatoires. Un exemple élémentaire est la
suite des proportions de piles dans un tirage successif à pile ou face. Dans de
telles situations, les événements dans une tribu engendrée par un nombre fini de
variables ont peu d’intérêt, et on ne s’interesse en fait qu’aux événements définis
ultimement. Dans les bons cas, ceux-ci appartiennent à une tribu appelée tribu
terminale que nous introduisons maintenant.

D´efinition IV.3.2. Soit (Tn )n∈N une famille indépendante de tribus sur (Ω, A, P )
(par exemple Tn = σ(Xn ) où les Xn sont indépendantes).

On désigne par An
la tribu engendrée par Tn , Tn+1 , . . . et pose A∞ = n∈N An . La tribu A∞
est appelée tribu des événements terminaux ou tribu terminale (de la suite
(Tn )n∈N ).

La tribu terminale vérifie la loi du tout ou rien suivante, aussi appelée loi
du 0–1.

Th´eor`eme IV.3.3 (loi du 0–1). Si A∞ est une tribu terminale, alors tout A ∈ A∞
vérifie P (A) = 0 ou 1.

Démonstration. Soit A ∈ A∞ fixé. On considère la classe monotone des événements
indépendants de A,
 
M= B ∈ A : P (A ∩ B) = P (A)P (B) .

On se propose de montrer que M ⊃ A∞ . Si tel est le cas, A ∈ M et
(A) = 0 ou 1. Considérons les tribus Bn = σ(T0 , . . . , Tn ),
P (A) = P (A)2 , et donc P
n ∈ N, et posons B∞ = n Bn . En tant que réunion croissante, B∞ est une al-
gèbre. Nous savons, d’après la proposition IV.1.10, que les tribus Bn et An+1 sont
indépendantes. Il s’ensuit que tout élément de Bn est indépendant de A. Ainsi,
puisque A∞ ⊂ An+1 , il s’ensuit B∞ ⊂ M. Donc, en utilisant le théorème des
classes monotones I.3.3, σ(B∞ ) = M(B∞ ) ⊂ M. Il reste à voir que σ(B∞ ) ⊃ A∞ ,
ce qui est intuitivement clair. En effet, pour tout k,

Tk ⊂ Bk ⊂ B∞ ⊂ σ(B∞ ) .

Donc pour tout n, An = σ(Tk : k ≥ n) ⊂ σ(B∞ ), d’où le résultat. 

92

i www.bibliomath.com i

i i

i i
“barbe” — 2007/1/8 — 10:41 — page 93 — #101
i i

IV.3. Applications de l’indépendance

Exemples IV.3.4. (i) Soit (An )n∈N une suite d’événements indépendants de
(Ω, A, P ) ; alors

A= Am = { An a lieu une infinité de fois }
n∈N m≥n

est un événement terminal pour la suite de tribus Tn = σ(An ) = { ∅, Ω, An , Acn } ;
donc P (A) = 0 ou 1.
On abrège souvent l’expression « An a lieu une infinité de fois » par « An infini-
ment souvent » ou « An i.s. ». Remarquer que P (An i.s.) = 0 signifie que presque
sûrement seulement un nombre fini d’événements An surviennent. C’est-à-dire que
pour presque tout ω ∈ Ω, il existe un n(ω) fini tel que si n ≥ n(ω) alors ω ∈ An ,
i.e. An n’a pas lieu. On fera très attention au fait que l’entier n(ω) dépend de ω.

(ii) Soient Xn , n ∈ N, des variables aléatoires réelles indépendantes, Tn = σ(Xn ),
et soit an des réels positifs, tels que limn→∞ an = ∞. Considérons l’événement
 1  
A= ω∈Ω : X1 (ω) + · · · + Xn (ω) converge lorsque n → ∞ .
an
Alors A ∈ A∞ car, pour tout k,
 1  
A= ω∈Ω : Xk (ω) + · · · + Xn (ω) converge lorsque n → ∞ .
an
Donc A est soit de probabilité pleine, soit de probabilité nulle.
Le résultat suivant est connu sous le nom de lemme de Borel-Cantelli, mais le
statut de théorème est justifié par son importance pratique.

Th´eor`eme IV.3.5 (Lemme de Borel-Cantelli). Soit (An )n∈N une suite d’événe-
ments sur un espace probabilisé (Ω, A, P ).

(i) Si n∈N P (An ) < ∞ alors P (An i.s.) = 0.

(ii) Si la suite (An )n∈N est indépendante alors n∈N P (An ) = ∞ implique
P (An i.s.) = 1.

Démonstration. La partie (i) est évidente : pour tout n,
 
A= Am ⊂ Am ,
n∈N m≥n m≥n

et donc P (An i.s.) = P (A) ≤ m≥n P (Am ) qui tend vers 0 avec n si la série
converge.

93

i www.bibliomath.com i

i i

s. On s’inté- resse à P (An i. avec P { Xn = 1 } = P { Xn = 0 } = 1/2. A. Indépendance La partie (ii) s’obtient en remarquant d’abord que pour tout n et tout N ≥ n. vers l’infini par hypothèse. 94 i www. Posons An = { Xn = Xn+1 = 1 }. Il est clair que les An ne forment pas une suite indépendante.s. n≤m≤N n≤m≤N Lorsque N tend vers l’infini. si n P { Xn ≤ M } < ∞. } = 0.3. Autrement dit. pour tout n. i i “barbe” — 2007/1/8 — 10:41 — page 94 — #102 i i Chapitre IV. n∈N P { Xn ≥ M } < ∞. P { Xn ≥ M i. et donc   P Am = 1. n∈N m≥n Donc lim supn→∞ Xn ≤ M p.  n→∞ m≥n Il existe de nombreuses versions du lemme de Borel-Cantelli.   P { Xm < M } = 1 . d’après la partie (i) du lemme de Borel-Cantelli. P ). Quelle est la probabi- lité d’obtenir une infinité de fois deux piles consécutifs ? On représente le jeu par une suite (Xn )n∈N de variables aléatoires sur (Ω. n≤m≤N Comme 1 − x ≤ e−x pour tout x ≥ 0.s. Il suffit par exemple de supposer que les An sont indépendants deux à deux (voir aussi exer- cice IV.bibliomath. m≥n Il ne reste plus qu’à remarquer que   P (A) = lim P Am .6. indépendantes. Exemples IV. (i) Soit (Xn )n∈N une suite de variables aléatoires réelles telle que.com i i i . (ii) On jette une infinité de fois une pièce équilibrée.). alors lim inf n→∞ Xn ≥ M p. pour un M ∈ R.15). Alors.      P Am ≥ 1 − exp − P (Am ) .s. De la même façon. n≤m≤N P (Am ) tend.      P Am = 1 − P Amc n≤m≤N n≤m≤N    =1− 1 − P (Am ) .

En particulier. . 1 ]. En revanche. 1. Comme { A2n i. . 3.s. 1. P = λ).   P (U1 . 1. 0. 0. Pour ω ∈ [ 0. 1. . 4. Si (u1 . (iii) Donnons un nouvel exemple d’application du calcul des probabilités à l’étude des nombres. et soit U la fonction identité de [ 0. Pour tout nombre réel x. 1. 1.com i i i . 1. 1 ]. Le développement dyadique d’un nombre dans [ 0. 1 ] dans lui-même. on conclut que P (An i. . . puisque images de U par des applications mesurables. notons x sa partie entière. C’est une variable aléatoire de loi uniforme sur [ 0. . ) = 1. . P (A2n i. xn ) = (u1 . 1 ] est constitué de blocs de 0 et de 1. Ainsi par le lemme de Borel-Cantelli. . un ) ∈ { 0. écrivons le développement dyadique du nombre réel U (ω). . 95 i www. En outre. .s.. B([ 0. P (A2n ) = 1/4 pour tout n. . Par exemple le développement 0. .s. Applications de l’indépendance puisque par exemple la (n + 1)-ème variable détermine à la fois An et An+1 . et donc n P (A2n ) = ∞. Un ) = (u1 . U (ω) = 2−i Ui (ω) i≥1 avec Ui = 2i+1 U  − 2i U  ∈ { 0. . . 1. 0.. 0. 1 }. . . .1 puisque nous n’avons en fait montré l’indépendance des Ui que pour 1 ≤ i ≤ n et tout n ≥ 1). 0. est formé de blocs de longueur 2. 1. 0. 1.s. 1. . } ⊂ { An i. . un )   = λ x ∈ [ 0. 1 }n . 1/2) (ici nous utilisons le théorème de prolongement IV. P { Ui = 0 } = P { Ui = 1 } = 1/2 et les Ui . . forment une suite de variables aléatoires indépendantes de loi de Bernoulli B(1. 1 ] : (x1 . 0. . 3. i i “barbe” — 2007/1/8 — 10:41 — page 95 — #103 i i IV. un ) = 2−n .3. }. la sous-suite (A2n )n∈N forme une suite indépendante. 1 ]). . Les Ui sont mesurables. i ≥ 1. . 2.bibliomath.) = 1. Considérons l’espace probabilisé ([ 0. . Ce sont donc des variables aléatoires.3. 1 ].

nk ≤n ∩ { Un1 +1 = · · · = Un1 +n2 } ∩ { Un1 +n2 = Un1 +n2 +1 } . ∩ { Un1 +···+nnk−1 +1 = · · · = Un1 +. ... De plus.. Un−1 = 1 − u } 2 2 96 i www.. i i “barbe” — 2007/1/8 — 10:41 — page 96 — #104 i i Chapitre IV. Un−1 = 1 − u . 1 ]. . Un = u } + P { Nn−1 = k − 1 . 1 }. k≥1 Cette fonction est définie au moins sur l’intervalle ] −1. définissons la fonction génératrice Gn (s) = sk P { Nn = k } . Pour obtenir des informations sur Nn . On pourrait ainsi calculer la loi de Nn ... Un = u } 1 1 = P { Nn−1 = k .. P { Nn = k . mais c’est un peu lourd. C’est une variable aléatoire puisque pour tout entier k positif. ∩ { 1 = Ui+j } est mesurable. 1 [ puisque P { Nn = k } est dans [ 0. k! dsk n  s=0 Cette fonction peut être calculée comme suit. Indépendance Soit Nn le nombre de blocs dans les n premiers chiffres. et chaque ensemble   { Ui = · · · = Ui+j } = { 0 = Ui } ∩ .com i i i . l’événement { N = k } est égal à   { U1 = · · · = Un1 } ∩ { Un1 = Un1 +1 } 1≤n1 .+nk } ∩ { Un1 +···+nk = Un1 +···+nk +1 }  ∩ { Un1 +···+nk = · · · = Un } . Un−1 = u } + P { Nn−1 = k − 1 . pour tout k ≥ 1.  1 dk   P { Nn = k } = G (s)  .bibliomath. . . Un−1 = u .. ∩ { 0 = Ui+j }   ∪ { 1 = Ui } ∩ . Un = u } = P { Nn−1 = k . Observons que pour u ∈ { 0.

. De même. i i “barbe” — 2007/1/8 — 10:41 — page 97 — #105 i i IV. . et pour n assez grand. . pour cn tel que limn→∞ c2n /n = ∞. On a donc   Gn (s) = sk P { Nn = k . Un−1 = 1 } + P { Nn−1 = k − 1 . Un−1 = 0 } + P { Nn−1 = k − 1 . . 2 Nous pouvons maintenant encadrer Nn de la façon suivante. par récurrence.  n  P Nn ≤ − cn ≤ inf scn −n/2 Gn (s) = e−2cn /n(1+o(1)) 2 2 0≤s≤1 √ pourvu que limn→∞ c2n /n = ∞. Un−1 .  n  P Nn ≥ + cn ≤ inf s−cn−n/2 Gn (s) = e−2cn /n(1+o(1)) 2 2 s≥1 97 i www. Un−1 = 0 } 2 k≥1  + P { Nn−1 = k .iii. Un−1 = 1 } 1 k  = s P { Nn−1 = k } + P { Nn−1 = k − 1 } 2 k≥1 1+s = Gn−1 (s) .   1 + s n−1 Gn (s) = s. en optimisant en s.4. 2 n≥1 Donc. Applications de l’indépendance puisque Nn−1 est σ(U1 . n √ Nn (ω) ≥ − n ln n 2 pour n assez grand. 2 Ainsi.10. similaire à l’exemple III. n 2 Donc.bibliomath. Un = 0 } + P { Nn = k . Un = 1 } k≥1 1 k = s P { Nn−1 = k . Un−1 )-mesurable et que Un est indépendante de U1 . .com i i i . . . pour presque tout ω. En prenant cn = n ln n.  n  P Nn ≤ − cn ≤ P { sNn ≥ s 2 −cn } ≤ scn−n/2 Gn (s) . par le lemme de Borel-Cantelli.3. et puisque G1 (s) = s. on voit que  n  P Nn ≤ − cn < ∞ . . Observons que pour tout s ≤ 1 et tout cn ≥ 0.

Xd ) : (Ω. A. X = αi Xi 1≤i≤d est une variable aléatoire gaussienne. t ∈ R. P ) → (R.1. est dite gaussienne si pour tout α = (α1 .5. un nombre a de l’ordre de n/2 blocs dans les n premiers chiffres.4. IV. σ 2 ). 1 ]. n √ Nn (ω) ≤ + n ln n . 2 Ainsi. . On notera pour toutes ces définitions que. . . . les paramètres de moyenne m et de variance σ 2 caractérisent une loi donnée. 2πσ 2 2σ De façon équivalente. .6). alors X = m + σY suit une loi N (m. dans la famille des lois gaussiennes. . Rappelons aussi que si Y suit une loi N (0. . αd ) de Rd .4. Une variable aléatoire X = (X1 . D´efinition IV. à valeurs dans Rd . . 98 i www. B(Rd )) . sa transformée de Fourier est 2 t2 /2 ϕX (t) = eimt−σ . i i “barbe” — 2007/1/8 — 10:41 — page 98 — #106 i i Chapitre IV. Indépendance et presque sûrement pour n assez grand. σ 2 ) de moyenne m et de variance σ 2 si sa densité par rapport à la mesure de Lebesgue sur R est   1 1 √ exp − 2 (x − m) 2 . B(R)) suit une loi normale ou gaussienne N (m. le nombre de blocs√dans les n premiers √ chiffres du développement dyadique est compris entre n 2 − n ln n et n 2 + n ln n pour n assez grand. α. x ∈ R. On voit de plus que n+1 n Gn (1) = kP { Nn = 1 } = E(Nn ) = ∼ . 2 2 k≥1 Donc.bibliomath. P ) → (Rd . nous avons montré que pour presque tout nombre de [ 0. A. Nous allons nous intéresser à présent à des variables aléatoires gaussiennes à valeurs dans Rd .com i i i . Vecteurs aléatoires gaussiens et lois gaussiennes Rappelons qu’une variable aléatoire réelle X : (Ω. n → ∞. Une variable gaussienne a des moments de tous ordres (III. 1). « en moyenne ». ou vecteurs aléatoires gaussiens.

. Gd ) dont les composantes sont indépendantes. .1. 1). . εZ) n’est pas gaussien.bibliomath. . m − u Γ u . . . . la matrice de covariance s’écrit (E(Xi Xj ))1≤i. . . X 2 Notons que si X = (X1 . où A est une matrice carrée. en soustrayant simplement la moyenne . . i i “barbe” — 2007/1/8 — 10:41 — page 99 — #107 i i IV. . dans ce cas. 99 i www.j≤d On voit très simplement sur ces formules comment se ramener au cas d’un vecteur gaussien centré (E(X) = (0. . Le vecteur G est centré et sa matrice de covariance est la matrice identité. ses marges X1 . . E(Xd ) et sa matrice de covariance    Γ = E (Xi − E(Xi ))(Xj − E(Xj )) . 1≤i≤d 1≤i≤d et sa variance     Var αi Xi = αi αj E (Xi − E(Xi ))(Xj − E(Xj )) . X) = exp iu. Montrons alors l’existence de vecteurs gaussiens de matrice de covariance Γ. . Xd ) est un vecteur gaussien. . 1≤i. 1≤i≤d 1≤i. Toute matrice de covariance Γ étant symétrique et semi-définie positive peut être écrite Γ = A tA. Un exemple élémentaire.j≤d Ainsi.4.j≤d . sauf si elles sont indépendantes. 0)). . . La loi de G a pour densité (2π)−d/2 exp(−x2 /2) par rapport à la mesure de Lebesgue dx sur Rd (où l’on rappelle que x2 = x21 +· · ·+x2d pour tout x = (x1 .4. En terme de transformée de Fourier. le vecteur gaussien X = (X1 . X réelle gaussienne est caractérisée par sa moyenne   E αi Xi = αi E(Xi ) . Xd ) est entièrement caractérisé par son vecteur moyen   m = E(X) = E(X1 ). . . . . Xd ) est gaussien. . . . .1). mais fondamental. . Vecteurs aléatoires gaussiens et lois gaussiennes Dans la définition IV. la variable aléatoire α. . mais. alors (Z. et si le vecteur aléatoire X = (X1 .     1t ϕ (u) = E exp(iu.com i i i . . mais de marges gaussiennes). . Xd sont gaussiennes (considérer pour α le i-ème vecteur de base dans la défini- tion IV. On note N (0. . si u = (u1 . de loi N (0. la réciproque est fausse (par exemple si Z est gaussienne réelle de loi N (0. . est constitué par un vecteur G = (G1 . ud ) ∈ Rd . . nous le supposerons souvent par la suite. . indépendante de Z. . . . xd ) ∈ Rd ). 1) et ε est de loi de Bernoulli symé- trique P { ε = +1 } = P { ε = −1 } = 1/2.4. Id) la loi de G.

on voit immédiatement par changement de variable que.j )1≤i. Indépendance Proposition IV. 1). Γ) la loi de X. (Un cas extrême est par exemple   1 0 0 0 0 0 0 0 0 qui est la matrice de covariance du vecteur gaussien X = (X1 .   1  1 −1 −1 P{X ∈ B } = exp − A x. puisque toute combi- naison linéaire de ses coordonnées est une combinaison linéaire des coordonnées de G. Ayant simulé un vecteur aléatoire X de loi N (0. . . i i “barbe” — 2007/1/8 — 10:41 — page 100 — #108 i i Chapitre IV. Xd ) un vecteur gaussien centré de matrice de covariance Γ = A tA.  1≤k≤d En vertu de cette proposition. il suffit de savoir simuler des variables aléatoires réelles de loi N (0. A x dx .com i i i . On peut être plus précis sur la décomposition précédente de la matrice de covariance Γ. d’après la proposition précédente. X3 ) où X1 suit 100 i www. j ≤ d. si A est inversible.e.j = E(Xi Xj ) .2. P −1 = tP ) et ∆ est une matrice diagonale positive.bibliomath. ce qui se calcule en utilisant la densité de G. Notons A = (ai. on peut toujours l’écrire sous la forme Γ = P ∆tP où P est une matrice orthogonale (i. Γ). (2π)d/2 |détA| B 2 En effet. Γ).   P { X ∈ B } = P G ∈ A−1 (B) . Pour tous 1 ≤ i. pour tout borélien B de Rd .l Gl 1≤k≤d 1≤l≤d = ai. Remarquons aussi que la proposition IV. on peut simuler un vecteur de loi N (m.k aj.k = Γi. Γ) en considérant X + m. Le vecteur aléatoire AG est bien gaussien. X2 . Id).2 nous dit que pour simuler numé- riquement un vecteur X de loi N (0.4. . .j≤d . Même si celle-ci est dégénérée.      E (AG)i (AG)j = E ai. Alors X a même loi que AG où G est de loi N (0.k Gk aj. On note N (0.4. Soit X = (X1 . avec éventuellement des zéros sur la diagonale rendant compte des dégénérescences de Γ (ou de X). Démonstration.

Soit X = (Xi .12 montre alors que les variables aléatoires Xi sont indépendantes. On se ramène preque toujours à cette réduction.4. En terme de changement de base. . Démonstration. La diagonalisation de la matrice de covariance Γ d’un vecteur gaussien centré X nous a donc permis de déterminer une nouvelle base dans laquelle les compo- santes de X sont orthogonales. L’intérêt de cette observation provient du théorème suivant qui est une autre façon de formuler la proposition IV. Γ est diagonale). 0) i.e. i = j. √ et A = P ∆. . 1≤k≤d Ainsi la fonction caractéristique du vecteur X = (X1 .4. Pour tous u1 . Xd ) est mutuellement indépendante. Si les composantes de X sont deux à deux non corrélées (i.com i i i .1. √ √ √ √ Γ = P ∆ ∆ tP = P ∆ t(P ∆) . . qui a pour matrice de covariance ∆). . . .      2  1 E exp i uk Xk = exp − E uk Xk 2 1≤k≤d 1≤k≤d   1 = exp − 2 uk E(Xk ) 2 1≤k≤d    = E exp(iuk Xk ) .e. . Xd ) un vecteur gaussien dans Rd de matrice de covariance Γ. c’est que dans la nouvelle base de Rd . ud ∈ R. Xd ) est le produit des fonctions caractéristiques des lois marginales. . Comme ∆ peut avoir des zéros sur la diagonale. le nombre de termes diagonaux non nuls est en fait le rang de Γ ou le rang du vecteur gaussien X : il est en effet à valeurs dans un sous-espace de Rd de dimension égale à ce rang. est évidemment nécessaire. 101 i www. le nouveau vecteur gaussien est à composantes indépendantes.  Si donc tP X a pour covariance la matrice diagonale ∆. . i i “barbe” — 2007/1/8 — 10:41 — page 101 — #109 i i IV. . de matrice de passage tP . . On notera que l’orthogonalité E(Xi Xj ) = 0. alors la famille (X1 . Th´eor`eme IV. .2.) Ainsi. Vecteurs aléatoires gaussiens et lois gaussiennes la loi N (0. . donc tP X a même loi que ∆G.3. . 1) et X2 et X3 sont de loi N (0.bibliomath.s. Nous nous contentons du cas centré. . X2 = X3 = 0 p.4. on notera que le vecteur√gaussien tP X a √ diagonale ∆ (puisque P ∆G a même loi pour matrice de covariance la matrice que X. . Le corollaire IV.

G← (U )). Vérifier l’indépendance des An dans l’exemple IV.s.1. Exercice IV. Démontrer que       E f (X)g(X) ≥ E f (X) E g(X) . θ > 0.bibliomath. j = 1. En déduire que si |X| < 1 p. Deux joueurs A et B jouent une suite de parties indépendantes. A.6. y) = min(F (x). G(y)) est la fonction de répartition du vecteur aléatoire (F ← (U ).4. 102 i www. y2 . On suppose que E(f (X)2 ) < ∞ et E(g(X)2 ) < ∞. i i “barbe” — 2007/1/8 — 10:41 — page 102 — #110 i i Chapitre IV. Soient F et G deux fonctions de répartition et U une variable aléatoire de loi uniforme sur ] 0. i.i. Le vainqueur final est celui des deux joueurs qui le premier obtient 2 victoires de plus que son adversaire.. Exercice IV. Indication : remarquer que (f (x) − f (y))(g(x) − g(y)) ≥ 0 pour tous x. jusqu’à épuisement. Même question lorsque X et Y suivent la loi uniforme sur [ −1. quelle est la probabilité pour qu’exactement k boules blanches soient tirées avant la première boule rouge ? Exercice IV. Soient X et Y deux variables aléatoires indépendantes. En particulier.7. V est de marges F et G. Soit X une variable aléatoire réelle et soient f et g deux fonctions croissantes de R dans R. ne pouvant prendre que deux valeurs distinctes. sans remise. Une urne contient r boules rouges et b boules blanches. ils ont respectivement les probabilités p pour A et q = 1 − p pour B de gagner.5.1. Quelle est la probabilité pour que A soit vainqueur ? Exercice IV. On tire ces boules une à une. Indépendance Exercices Exercice IV.4.∞[(x). Montrer que V (x. |X − Y |. 2 . déduire de l’hypothèse que   E (X − xi )(Y − yj ) = E(X − xi )E(Y − yj ) . 1 [. min(X.3.com i i i . y ∈ R et utiliser le théorème de Fubini après avoir introduit une variable Y indépendante de X et de même loi que X.  1   1  1  E ≤ E . P ). de même loi exponentielle de densité fθ (x) = θe−θx ½[0. Indication : Si X prend les valeurs x1 . Lors de chacune d’elles. 1 − X2 1−X 1+X Exercice IV. Montrer que X et Y sont indépendantes si et seulement si E(XY ) = E(X)E(Y ).2. 1 ]. Soient X et Y deux variables définies sur (Ω. Déterminer les densi- tés des lois de X 3 . Exercice IV. Pour 0 ≤ k ≤ b. x2 et Y les valeurs y1 . Y 3 ).

1 ≤ i ≤ n. Montrer que la fonction M $ de répartition de Mn en x est F 1≤i≤n i (x). 1≤i≤n . des variables aléatoires indépen- dantes. Xi étant de fonction de répartition Fi . Soient Xi . Exercice IV. alors H ≤ V .8. i i “barbe” — 2007/1/8 — 10:41 — page 103 — #111 i i Exercices Montrer que si H est une fonction de répartition sur R2 de marges F et G. Soit mn = min1≤i≤n Xi et $n = max1≤i≤n Xi . que celle de m n est 1 − 1≤i≤n (1 − Fi (x)) et que  P { x1 < mn ≤ Mn ≤ x2 } = (Fi (x2 ) − Fi (x1 )) .

En déduire que Z et N sont des variables aléatoires indépendantes et préciser la loi de N . Exercice IV. k = 1. Xn des variables indépendantes de même loi ex- ponentielle de paramètre 1. Montrer que Γp ∗ Γq = Γp+q . . P ∗n est la loi d’une somme de n variables aléatoires indépendantes de loi P ). Exercice IV. . . montrer que N (t) suit une loi de Poisson de paramètre t. Montrer que la fonction caractéristique de la loi Γp est (1 − it)−p . 1≤i≤n Déterminer la loi de Z. Montrer que Γ(p) = (p − 1)Γ(p − 1) et que pour p entier.11. . Soit P ∗n la n-ième convoluée de P avec elle-même.10. définie par P ∗1 = P et P ∗n = P ∗(n−1) ∗ P (i. où Γ(p) assure que γp (x) dx = 1.10. Montrer que dP L(t) ∗n tx dP Pt∗n admet une densité par rapport à P ∗n donnée par t = e n. j : Xi = Xj } = 0. En déduire la loi de λ1 + · · · + λn où les λi sont des variables aléatoires indépendantes et de loi exponentielle de paramètre 1. Γ(p) = (p − 1)!. Soient X1 . dP ∗n L(t) Montrer que P ∗n ([ x. soit N (t) = card{ i : Si ≤ t }. On pose Z = min Xi et N = min{ 1 ≤ i ≤ n : Xi = Z } . Soit Sn = X1 + · · · + Xn leur somme. Soit P une  txloi sur R dont on suppose qu’elle admet une transfor- mée de Laplace L(t) = e dP (x) pour |t| petit. Soit t tel tx que L(t) existe et soit Pt la loi définie par sa densité dPt = e .com i i i . Montrer que P { ∃ i.e.bibliomath. . ∞ [) pour t > 0 (comparer cette inégalité avec celle de Chernoff. n . Z > t } = e−nt /n . Établir que P { N = k . III. Soit maintenant (Xi )i≥1 une suite de variables aléatoires indépendantes et de même loi exponentielle. . On appelle loi gamma de paramètre p > 0 et on note γp la loi de densité γp (x) = (Γ(p))−1 xp−1 e−x sur R+ . En évaluant P { N (t) ≥ k }.9. Pour t ≥ 0.4. 103 i www. Exercice IV. . ∞ [) ≤ e−tx L(t)n Pt∗n ([ x. Indication : { Mn ≤ x } = 1≤i≤n { Xi ≤ x }. . t > 0.iii).

n ≤ Xi+1. . . . . Ces variables. sont notées X1. . Un ) défini par Ui = Si /Sn+1 .n ≤ · · · ≤ Xn. . T2 − T1 . i = 1.n . . Xn+1 des variables aléatoires indépen- dantes de loi exponentielle de paramètre 1. . y ∈ R  n−i P { Xi. Montrer qu’alors Si+1. a une densité par rapport à la mesure de Lebesgue sur Rn donnée par n! ½D . Clairement les Xi.n > y } = Cin F (x)i 1 − F (y) . .13. et T0 = 0. 0 ≤ x1 ≤ · · · ≤ xn ≤ 1 . sont indépendantes et de même loi. . . s ≥ 0. ne sont pas indépendantes puisque par construc- tion Xi.n est de loi exponentielle de paramètre n − i. Démontrer que la loi du vecteur (U1 . . Tn − Tn−1 . Démontrer que les variables aléatoires T1 .n ). . . e) Soit Si+1.n .12.n ) admet pour densité  n−i−1 fi. . .n . Indépendance Exercice IV.n admet pour densité k  n−i fi. Calculer la loi de la somme Sk = X1 + · · · + Xk . n.14. Calculer la loi de T1 et sa fonction caracté- ristique. x ∈ R. i i “barbe” — 2007/1/8 — 10:41 — page 104 — #112 i i Chapitre IV. f) Supposons les Xi de loi exponentielle de paramètre 1. 1 ≤ k ≤ n+1. Xi+1. .n (x. .n ) admet pour densité  n−i−1 g(x. où   D = x = (x1 .n . Soit (Xn )n∈N une suite de variables aléatoires indépendantes. Soient X1 . c) En déduire la fonction de répartition du couple (Xi. d) Montrer que le couple (Xi. a) Montrer que la probabilité que k des variables X1 . . . Xn . . Xk = 1 } si cet infimum est fini. Exercice IV. xn ) ∈ Rn .n − Xi. Exercice IV.n . Xi+1. Xn soient inférieures à x et n − k soient supérieures à x est Ckn F (x)k (1 − F (x))n−k .com i i i . Soient X1 . indépen- dantes. . de même loi de Bernoulli de paramètre p. . ordonnées par ordre croissant. s) = i(n − i)Cin f (x)f (x + s)F (x)i−1 1 − F (x + s) . y) = i(n − i)Cin f (x)f (y)F (x)i−1 1 − F (y) . 104 i www.n .i+1. Tn = ∞ sinon.n (x) = i Cin f (x)F (x)i−1 1 − F (x) . et que Xi. .n ≤ x. . Xn des variables aléatoires réelles. Montrer que le couple (Xi. En déduire que P { Xi.n ≤ X2. on définit par récur- rence. b) Montrer par un argument analogue que pour x. Xi+1. . de même loi de fonction de répartition F ayant une densité f . Pour tout n ≥ 1. Si+1. . −∞ < x < y < ∞ . . . 1 ≤ i ≤ n. .n = Xi+1. x ∈ R.bibliomath. En déduire la loi de Tn . . Tn = inf{ k > Tn−1 .n .n ≤ x } = i≤k≤n Cn F (x)k (1−F (x))n−k .

18. Versions du lemme de Borel-Cantelli. Y ) un vecteur  gaussien. . Ak Exercice IV. (ii) Si n≥1 P (An ) = ∞ et P (Ai ∩ Aj ) ≤ cP (Ai )P (Aj ) pour un c > 0 et tous i = j. 3 6 de matrice de covariance Σ = .17. (x.16.com i i i . Indication : considérer les événements disjoints Ak = { |Sj | < t } ∩ { |Sk | ≥ t } .) > 0 (Kotska). i i “barbe” — 2007/1/8 — 10:41 — page 105 — #113 i i Exercices Exercice IV.  2 P (Ai ) (i) Si n≥1 P (An ) = ∞ et lim inf n→∞ 1≤i≤n = 1 alors 1≤i≤n 1≤j≤n P (Ai ∩ Aj ) P (An i. j<k et commencer par montrer la minoration  E(Sn2 ) ≥ Sk2 dP .s. Indication : Appliquer l’inégalité de l’exercice III. Exercice IV. alors P (An i. Xn des variables aléa- toires indépendantes d’espérance 0 et de variance finie. Soit Sn = X1 + · · · + Xn .bibliomath. .10 à X = 1≤i≤n ½Ai pour tout n ≥ 1 pour démontrer que i≥1 ½Ai = ∞ p.s. Exercice IV. y) ∈ R2 . 2π soit la densité de la loi d’un vecteur non gaussien de R2 . y) = e + h(x)h(y) . Inégalité de Kolmogorov. Trouver une fonction h de R dans R et un réel c > 0 tel que la fonction c2 −(x2 +y2 )/2 f (x. Soit (X.15. . ) = 1 (Rényi).s. 1 ≤ k ≤ n. Soient X1 .  P (Ak ) ≤ t−2 Sk2 dP .  centré. Montrer l’inégalité de Kolmogorov. 1≤k≤n Ak Puis utiliser l’inégalité de Markov. Démontrer que X et Y sont 6 12 proportionnelles.   P max |Sk | ≥ t ≤ t−2 Var(Xi ) 1≤k≤n 1≤i≤n pour tout t > 0. à valeurs dans R2 . dont les lois marginales sont gaussiennes. . 105 i www.

symétrique négative. a ∈ R .21. 106 i www. démontrer que µ(B + B) = 0 (où B + B = { x + y : x.20. Exercice IV. t ∈ Rd . P ). On désigne par ϕ la fonction caractéristique de la loi de X. . Exercice IV. t. (ii) µ est la loi gaussienne de moyenne m et de variance σ 2 . Démontrer qu’il existe m ∈ Rd tel que ψi (t) = im.n indépendantes et de même loi νn telles que la loi de la somme X1.bibliomath. (i) Si B est un intervalle ne contenant pas 0 et 1/2. θ ∈ [ 0. En déduire l’existence d’une fonction continue ψ sur Rd telle que ϕ = eψ .n soit µ.n + · · · + Xn. b) µ est-elle infiniment divisible dans les cas suivant : (i) µ = δa . ϕ(s + t)ϕ(s − t) = ϕ(s)2 |ϕ(t)|2 . a) Démontrer qu’une loi µ est infiniment divisible si et seulement si sa fonction caractéristique ϕ est. t) = ψp (s + t) − ψp (s) − ψp (t). tels que X + Y et X − Y sont indépendants. il existe des variables aléatoires réelles X1. t ∈ Rd . 2π ]. . (iv) µ est la loi de Cauchy (on rappelle que la fonction caractéristique de la loi de Cauchy est donnée par e−|t| ) ? c) Soit X de loi µ de Bernoulli sur { 0. soient également Y et Z des variables aléatoires indépendantes de loi commune ν telles que la somme Y + Z soit de loi µ. Démontrer que pour tout θ. 1). εX) est-il gaussien ? Exercice IV. la puissance n-ième d’une fonction caractéristique. On pose Xθ = X cos θ + Y sin θ et Xθ = −X sin θ + Y cos θ. y ∈ B }).com i i i .22. pour tout entier n ≥ 1. indépen- dante de X.n . Établir que Q est bilinéaire. pour chaque entier n ≥ 1. a) Montrer que pour tous s. Démontrer que Q est réelle. (ii) Déduire de la question précédente que Y ne peut prendre que les valeurs 0 et 1/2. En déduire que ν ⊗ ν(B × B) = 0. t ∈ Rd . . à valeurs dans Rd . Xn. Démontrer que εX et ε|X| ont même loi que X.19. (Lois infiniment divisibles) Soit X une variable aléatoire réelle sur un espace probabilisé (Ω. Le couple (X. . de même loi que X. (iii) µ est la loi de Poisson de paramètre λ . de loi µ . Xθ et Xθ sont indépendantes. s. A. c) Soit Q(s. t ∈ Rd . Soit X un vecteur gaussien centré. b) On pose ψp (t) = 12 (ψ(t) + ψ(−t)) et ψi (t) = 12 (ψ(t) − ψ(−t)). Indépendance Exercice IV. Soit X une variable aléatoire suivant une loi N (0. et soit Y une copie indépendante de X. on dit que µ est infiniment di- visible si. i i “barbe” — 2007/1/8 — 10:41 — page 106 — #114 i i Chapitre IV. d) Déduire de ce qui précède que la loi de X est gaussienne. et soit ε une variable de Bernoulli telle que P { ε = +1 } = P { ε = −1 } = 1/2. Soient X et Y deux vecteurs aléatoires de Rd . indépendants et de même loi. 1 } de paramètre 0 < p < 1 .

t ∈ R. indépendante de la suite (Xn )n∈N . On définit Φ(t) = eλ(ϕ(t)−1) .bibliomath. et soit λ > 0. A. d) Soit ϕ une fonction caractéristique. on considère une suite (Xn )n∈N de variables aléatoires indépen- dantes de même loi de fonction caractéristique ϕ. 107 i www. Démontrer que Y est une variable aléatoire de fonction caractéristique Φ. i i “barbe” — 2007/1/8 — 10:41 — page 107 — #115 i i Exercices (iii) Conclure que µ n’est pas infiniment divisible.com i i i . Montrer que la loi de Y est infiniment divisible. Pour chaque ω ∈ Ω. Sur (Ω. ainsi qu’un variable aléatoire N suivant une loi de Poisson de paramètre λ. P ). on pose Y (ω) = Xk (ω) 1≤k≤N (ω) (avec la convention 1≤k≤0 = 0).

i i “barbe” — 2007/1/8 — 10:41 — page 108 — #116 i i i www.com i i i .bibliomath.

Une suite de variables aléatoires réelles (Xn )n∈N . si p est inconnue (par exemple nous ne savons pas si la pièce est truquée). à partir desquelles on peut identifier certaines de leurs propriétés.s. Convergence presque sûre D´efinition V. A. est « proche » de la probabilité (déterministe) p d’obtenir pile. après n tirages. les suites de variables aléatoires (Xn )n∈N sont supposées construites sur un espace de probabilité (Ω.2.com i i i . Les énoncés et les résultats subsistent sans modifications pour des vecteurs aléatoires à valeurs dans Rd (pour l’essentiel. converge presque sûrement (p.4. Elle sont essentielles pour les applications. Dans tout ce chapitre. A.s.s.iii que la fréquence observée des piles dans un jeu de pile ou face. Par exemple. P ). nous avons vu à l’exemple IV. P ). P ). nous ne considérons que des variables aléatoires à valeurs réelles. nous avons là un moyen de l’approximer.1. remplacer les valeurs absolues par une norme sur Rd ). Pour plus de simplicité. n→∞ Dans ce cas.bibliomath. si   P ω ∈ Ω : lim Xn (ω) = X(ω) = 1 . i i “barbe” — 2007/1/8 — 10:41 — page 109 — #117 i i V CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES Il existe de nombreuses notions de convergence de variables aléatoires. Elles servent surtout à montrer que les phénomènes aléatoires présentent certaines régularités. i www.) vers la variable aléatoire X. définie sur (Ω. Donc. pourvu que n soit grand.1. ou Xn → X p. on note limn→∞ Xn = X p. V. définie sur (Ω. lorsque n → ∞. A.1.

la proposition . Convergence de suites de variables aléatoires Observons que l’événement { limn→∞ Xn = X } est bien mesurable puisque égal à    |Xn − X| < 1/p . p≥1 m∈N n≥m Or si (Ap )p∈N est une suite d’événements. i i “barbe” — 2007/1/8 — 10:41 — page 110 — #118 i i Chapitre V.

peut aussi être décrite à l’aide du critère de Cauchy. par passage au complémentaire. P |Xn − X| < ε =1 m∈N n≥m (prendre 1/(p + 1) < ε ≤ p). Un des outils classiques pour montrer la convergence presque sûre est le lemme de Borel-Cantelli. lim P sup |Xn − X| ≥ ε = 0 . Il s’ensuit que Xn converge vers X p. (2) m→∞ n≥m La convergence p.s.    ∀ε > 0 . Il s’ensuit que si φ est une fonction continue sur R.s. n∈N m≥n On peut aussi dire.bibliomath. m∈N n≥m Elle est alors équivalente à   ∀ε > 0 . alors φ(Xn ) converge vers φ(X) presque sûrement. si et seulement si    ∀ε > 0 .s. = 0 .4. P |Xn − Xm | < ε = 1.s.i et le fait qu’une mesure de probabilité est bornée par 1 montrent que P ( p∈N Ap ) = 1 si et seule- ment si P (Ap ) = 1 pour tout p. n ∈ N. P |Xn − X| ≥ ε i. quitte à enlever un ensemble de mesure nulle (celui pour lequel Xn (ω) ne converge pas vers X(ω)). En particulier.3. c’est encore équivalent à   ∀ε > 0 . Cette condition peut aussi s’écrire. si Xn et Yn . alors pour tous a et b réels. si et seulement si Xn converge ponctuellement vers X. Par exemple Xn → X p. sont deux suites de variables aléatoires réelles convergeant presque sûrement vers X et Y .s. que Xn → X p. I. en tant que suite de fonctions de Ω dans R. si et seulement si    ∀ε > 0 . 110 i www.com i i i . aXn + bYn converge presque sûrement vers aX + bY et Xn Yn converge presque sûrement vers XY . P |Xn − X| ≥ ε = 0. (1) Par convergence monotone.

des variables aléatoires indé- pendantes. 1≤i≤n 111 i www. alors Xn → 0 p. (ii) Souvent on ne peut appliquer le lemme de Borel-Cantelli que sur des sous- suites.1.3. P ).s. Soient Xn . Appliquons le lemme de Borel-Cantelli (IV.)  Exemples V.s. p). Convergence presque sûre Proposition V.i. alors Xn → X p. Soient Xi . n+1≤i≤m Ainsi     ω : |Un (ω) − Um (ω)| < ε ⊃ { ω : 2−n < ε } n∈N m≥n n∈N m≥n  = { ω : 2−n < ε } n∈N = Ω. ce qui fournit le résultat d’après (1). (Noter qu’il convient de supposer X nulle.bibliomath. Alors   P { Mn ≤ t } = P { Xi ≤ t } = (1 − e−t )n .1. Un exemple de cette situation est le suivant.3. A.3. P { Xi = 1 } = 1 − P { Xi = 0 } = p. et X. en remarquant que n < m implique |Um − Un | ≤ 2−i ≤ 2−n . soit ε > 0 et les événements   An = |Xn − X| ≥ ε . Pour montrer (i). n ∈ N. ou constante. Soit Un = 1≤i≤n 2−i Xi .2 (Lemme de Borel-Cantelli). on peut appliquer le critère de Cauchy. 1 ] puisque 0 ≤ U ≤ i≥1 2−i = 1.1.e.com i i i . Il vient P (An i. n∈N P { |Xn − X| ≥ ε } < ∞. (i) Si pour tout ε > 0. (i) Soit (Xi )i∈N une suite de variables aléatoires indépendantes et de même loi de Bernoulli B(1.s de Un . Soit Mn = max1≤i≤n Xi .5) aux An . i ≥ 1. sans quoi les événements An ne sont pas nécessairement indépendants. C’est une variable aléatoire à valeurs dans [ 0. Démonstration. des va- riables aléatoires réelles définies sur (Ω. Pour montrer la convergence p. t ≥ 0.6. (Voir aussi IV. (ii) Si les (X n )n∈N sont mutuellements indépendantes. si et seulement si n∈N P { |Xn | ≥ ε } < ∞ pour tout ε > 0.) = 0. n ∈ N. de loi exponentielle P { Xi > t } = e−t . i i “barbe” — 2007/1/8 — 10:41 — page 111 — #119 i i V. et un argument supplémentaire est nécessaire pour conclure. i. Notons U la limite i≥1 2−i Xi .s.) (ii) se démontre de façon analogue à partir de la partie indépendante du lemme de Borel-Cantelli.

k∈N Donc lim supk→∞ Mnk / ln nk ≤ 1 + ε p. i i “barbe” — 2007/1/8 — 10:41 — page 112 — #120 i i Chapitre V.s. il existe k ∈ N tel que nk ≤ n < nk+1 .5. indépendantes. Pour conclure la majoration. On a     P Mn ≥ (1 + ε) ln n = 1 − P Mn < (1 + ε) ln n  n = 1 − 1 − n−1−ε   = 1 − exp n ln(1 − n−1−ε )   = 1 − exp −n−ε (1 + o(1)) = n−ε (1 + o(1)) lorsque n tend vers l’infini. Alors   P Mnk ≥ (1 + ε) ln nk < ∞ . et par le lemme de Borel-Cantelli IV. Donc n P { Mn / ln n ≤ 1 − ε } < ∞ pour tout ε > 0. on conclut que lim sup Mn / ln n ≤ 1 + ε p. Et donc. ln n ln nk+1 ln nk Puisque limk→∞ (ln nk )/(ln nk+1 ) = 1. k ∈ N. Convergence de suites de variables aléatoires Montrons que Mn / ln n → 1 p. Mn Mnk+1 ln nk+1 ≤ · . on a une minoration Mn ≥ (1 − ε) ln n p..com i i i . avec δε > 1 où · est la fonction partie entière. n→∞ Établissons maintenant la majoration.s. c’est-à-dire que le maximum de n variables aléatoires exponentielles. n→∞ 112 i www.s. comme ln n lorsque n est grand. Commençons par la minoration.s. pour tout n assez grand. puis que l’on a une majoration Mn ≤ (1 + ε) ln n p.3. se comporte p. pour tout n ∈ N∗ .s. Soit 0 < ε ≤ 1. Mn / ln n ≥ 1− ε p. La démonstration consiste à prouver que pour tout ε > 0. pour tout n assez grand. En particulier. Soit la sous-suite nk = (k + 1)δ .s.s.bibliomath. On a    n P Mn ≤ (1 − ε) ln n = 1 − n−1+ε   = exp n ln(1 − n1−ε )   = exp −nε (1 + o(1)) lorsque n tend vers l’infini. en remarquant que la suite Mn est croissante. lim inf Mn / ln n ≥ 1 − ε p.s. pour n assez grand.

ou dans L0 (Ω. Soient Xn . des variables aléatoires réelles non corrélées. Alors leurs moyennes par- telles que E(X 2 tielles n−1 1≤i≤n Xi convergent en probabilité vers 0. il existe n0 tel que pour tout entier n ≥ n0 .      1  1 σ2 P    Xi  ≥ ε ≤ 2 2 Var Xi = 2 n n ε nε 1≤i≤n 1≤i≤n d’après l’inégalité de Tchebitchev (III. est définie comme suit. ou P − limn→∞ Xn = X.2. P { |Xn − X| ≥ ε } ≤ ε.2. pour tout 0 < ε ≤ 1. des variables aléatoires réelles sur P (Ω. On dit que Xn converge en probabilité vers X. C’est exactement ce que dit le résultat de convergence. pour tout ε > 0. n→∞ Autrement dit.ii). Il convient de comprendre que cette convergence a un sens tout à fait concret. implique la convergence en probabilité. A.4. P ). et on note Xn → X. presque sûrement. Exemples V.2. V. 110). n ∈ N. i ) = 0 et Var(Xi ) = σ pour tout i ≥ 1. On mesure tout de suite la différence avec la convergence presque sûre qui exige un supremum (voir (2).com i i i . L’argument que nous avons utilisé dans la majoration. Mn Mn 1 − ε ≤ lim inf ≤ lim sup ≤ 1 + ε. ou limn→∞ Xn = X en probabilité.2. (i) Soit Xi .s.2. la convergence p.10. il s’ensuit que Mn / ln n → 1 p. En particulier. P ). Ceci complète l’exemple IV. D´efinition V. 113 i www.1. Convergence en probabilité La convergence en probabilité. si pour tout ε > 0. i ≥ 1.   lim P |Xn − X| ≥ ε = 0 .2.iii et la discussion introduisant ce chapitre.4. En effet. nk+1 [ . p. pour tout ε > 0. Convergence en probabilité Ainsi. A. X. i i “barbe” — 2007/1/8 — 10:41 — page 113 — #121 i i V. consis- tant à découper l’ensemble N en des blocs [ nk . n→∞ ln n n→∞ ln n En choisissant ε → 0 le long d’une sous-suite dénombrable.s.bibliomath. appelée aussi convergence en mesure. Il suffit de tirer une pièce non truquée une cinquantaine de fois pour voir que la proportion de piles se stabilise vers 1/2 si l’on n’est pas trop malchanceux. s’appelle un argument de bloc.

i i “barbe” — 2007/1/8 — 10:41 — page 114 — #122 i i Chapitre V.s. 1 ]. définies sur (Ω. Si X et Y sont deux variables aléatoires. 1 ≤ k ≤ 2n . X) = 0 . ←→ P |Xn | ≥ ε < ∞ pour tout ε > 0 n→∞ n ce qui est équivalent à n∈N pn < ∞. lim inf i→∞ Xi (ω) = 0 et lim supn→∞ Xn (ω) = 1.4.1.bibliomath. On vérifie facilement que d(·. n→∞ Démonstration. X)/ε . pour tout ε ∈ ] 0.4. i = 2n +k−1. de sorte que la suite (Xi )i≥1 ne converge pas presque sûrement. Alors P Xn → 0 ←→ lim pn = 0 n→∞ puisque P { |Xn | ≥ ε } = pn si 0 < ε < 1. A.     P |Xn − X| ≥ ε = P |Xn − X| ∧ 1 ≥ ε ≤ d(Xn . Dans ce qui suit. Convergence de suites de variables aléatoires (ii) Soit Ω = [ 0. pour tout ε ∈ ] 0.1. 1 ≤ k ≤ 2n . 1 [. i = 2n + k − 1. A. Mais le lemme de Borel-Cantelli V. Puisque |X − Y | ∧ 1 ≥ 0. on pose. avec P { Xn = 1 } = 1 − P { Xn = 0 } = pn . de sorte que Xi converge en probabilité vers 0.k/2n ] (ω) .s. n ∈ N. P ). Xi (ω) = ½](k−1)/2n . Alors pour tout ω ∈ ] 0. 1 + |X − Y | Lemme V. Y ) = 0 si et seulement si X = Y p. P ). En utilisant l’inégalité de Markov (III. Cependant. de loi de Bernoulli. la proposition II. on a P { |Xi | ≥ ε } = 2−n . La suite (Xn )n∈N converge en probabilité vers X si et seulement si lim d(Xn . Y ) = E |X − Y | ∧ 1 . 1 ] muni de sa tribu borélienne et de la probabilité uniforme P (mesure de Lebesgue). 1 ].com i i i . Définissons pour ω ∈ Ω. (iii) Soit (Xn )n∈N une suite de variables aléatoires indépendantes.viii montre que d(X. Y ) = E .3. 114 i www.   d(X.2.2 montre que   lim Xn = 0 p. Il est possible de définir une distance qui métrise la convergence en probabilité des variables aléatoires définies sur un espace probabilisé (Ω. on pourrait aussi utiliser la distance  |X − Y |  d (X. ·) est une distance.9). et n ∈ N.

Convergence en probabilité D’autre part. Soient (Xn )n∈N . P ).    d(Xn .s. Suffisance : Soit (n ) une suite croissante d’entiers. Xnk → X.2. car si elle l’était. P Si Xn → X.5. Donc d(Xn . Proposition V. A. Supposons que Xn (resp.3. n ∈ N. Mais on a le résultat important suivant. Th´eor`eme V. X. Démonstration. des variables aléatoires réelles définies sur (Ω. P ).4.com i i i . P ). Alors Xn converge en probabilité vers X si et seulement si de toute suite déterministe croissante d’entiers (n ).  Il résulte de cette démonstration que la convergence presque sûre n’est pas métrisable. i i “barbe” — 2007/1/8 — 10:41 — page 115 — #123 i i V. P { |Xn − X| ≥ ε } ≤ ε. Or. par le lemme de Borel-Cantelli IV.   P |Xnk − X| ≥ 1/k < ∞ .s. Nécessité : Il suffit de considérer (n ) = (n). k≥1 En particulier. à partir d’un certain rang. on peut extraire une sous-suite (nk ) telle que Xnk → X p. et donc. il existe n0 tel que si n ≥ n0 . deux suites de variables aléatoires réelles définies sur un espace (Ω. X) ≤ 2ε pour n ≥ n0 . Soient Xn . Pour tout k ≥ 1. X) = 0. A. si de toute sous-suite on peut extraire une sous-suite convergente vers une même limite. soit nk le plus petit entier tel P { |Xnk − X| ≥ 1/k } ≤ 2−k . et limn→∞ d(Xn .s. 115 i www. A. Y ) définie sur (Ω. En particulier.2. limk→∞ Xnk = X p. elle coïnciderait avec la convergence en probabilité. La convergence en probabilité est stable par les opérations algébriques usuelles. Alors. |Xnk − X| < 1/k p. X) = |Xn − X| ∧ 1 dP {|Xn −X|≥ε}    + |Xn − X| ∧ 1 dP {|Xn −X|<ε}   ≤ P |Xn − X| ≥ ε + ε .2.bibliomath. Extrayons (nk ) P telle que Xnk → X p. la suite converge.  Répétons encore que la convergence en probabilité n’implique pas la conver- gence presque sûre. Yn ) converge en probabilité vers une variable aléatoire X (resp.s. pour tout ε > 0.5. (Yn )n∈N . On en déduit que Xn converge en probabilité vers X.

i i “barbe” — 2007/1/8 — 10:41 — page 116 — #124 i i Chapitre V. c’est-à-dire que   ∀ε > 0 . Yn  → X. Alors. P (iii) De plus. Soit (Xn )n∈N une suite de variables aléatoires réelles définies sur (Ω. αXn + βYn → αX + βY . Vérifions par exemple (ii). Convergence de suites de variables aléatoires P (i) Si φ est une application continue de R à valeurs dans R. Alors αXn + βYn → αX + βY p. ∃n0 . En considérant ε = 1/2k dans la condition de Cauchy en probabi- lité.com i i i . (Il peut être instructif de démontrer cette proposition sans l’aide du théorème V. Xn0 ) ≤ ε . De (n ). Démonstration. On peut extraire une sous-suite (n ) telle que Xn → X p. d(Xn . Supposons qu’elle vérifie le critère de Cauchy en probabilité. On conclut à l’aide du théorème V. que ∀ε > 0 . Alors le lemme de Borel-Cantelli (IV. Démonstration. on peut construire une suite d’indices nk telle que   P |Xnk − Xnk+1 | ≥ 2−k ≤ 2−k . alors φ(Xn ) → φ(X).)  Enfin. ∀n ≥ n0 .s. P ). l’espace L0 (Ω.4.6. la suite Xnk (ω) est de Cauchy. ou de façon équivalente.s. Xn . on peut extraire une sous-suite (n ) tel que Yn → Y p. |Xnk (ω) − Xnk+1 (ω)| ≤ 2−k . Alors Xn converge en probabilité .4.5) montre qu’il existe pour presque tout ω un entier k0 (ω) < ∞ tel que si k ≥ k0 (ω). P (ii) Pour tous α.s. A. Th´eor`eme V. soit ε > 0 et p > l > k0 (ω) . ∃n0 . A. Soit (n ) une suite partielle. k≥l 116 i www.2.bibliomath. Y . ∀n ≥ n0 P |Xn − Xn0 | ≥ ε ≤ ε .2.3.2. on a     Xn (ω) − Xnp (ω) ≤ Xn (ω) − Xn (ω) l k k+1 l≤k≤p−1 ≤ 2−k l≤k≤p−1 ≤ 2−k ≤ 2−l+1 . β ∈ R. P ) est complet pour la distance d métrisant la conver- gence en probabilité. En effet.

on peut définir une notion de convergence. 0 < p < ∞. vers une limite X. n ≥ 1.1/n] (ω) . En particulier. la convergence dans Lp implique la convergence en probabilité. Convergence dans Lp Ainsi. la suite (Xn )n∈N converge en probabilité vers X. une suite de Cau- chy dont une sous-suite converge est une suite convergente. p > 0.  Comme pour les suites usuelles (non aléatoires). P ) est métrisable. ou de façon équivalente.6 est qu’il assure l’existence d’une limite sans que nous ayons besoin de la calculer explicitement. ou même presque sûre. P ) est muni de la norme.4. Mais Xn ∈ Lp dès que αp ≥ 1 puisque  1/n  p E Xn = ω −αp dω = +∞ .3.3. nous avons P { |Xn | ≥ ε } = 1/n.1. Les exemples suivants montrent qu’en général la convergence en probabilité. A.3. P ). Par conséquent.   1/p Xp = E |X|p . V. X. si E(|X|p ) est fini. P ).2. Observons que dans un espace métrisable. qui en fait un espace complet (théorème II. A. pour tous p > l > l0 .3.4). Exemples V. A. définie sur (Ω. On dit que Xn converge vers p  X dansp L si limn→∞ Xn − Xp = 0. Soient (Xn )n∈N . Convergence dans Lp Nous avons introduit les espaces Lp au chapitre II. Rappelons qu’une variable aléatoire réelle X. Le lemme V. Soit α > 0 et Xn (ω) = ω −α ½]0. |Xnl (ω) − Xnp (ω)| ≤ ε. Donc Xnk converge p. 0 117 i www.bibliomath. En particulier. Pour tout ε ∈ ] 0.2.3 justifie la termi- nologie de convergence dans L0 pour cette dernière. i i “barbe” — 2007/1/8 — 10:41 — page 117 — #125 i i V. Puisque la convergence en probabilité dans l’espace L0 (Ω. L’inégalité de Markov III. n’implique pas la convergence dans Lp . D´efinition V.com i i i . L’espace Lp (Ω.10.i montre que pour tout p > 0.s.6. cette sous-suite converge en probabilité vers X. si l0 ≥ k0 (ω) et 2−l0 +1 < ε. limn→∞ E |Xn − X| = 0. (i) Soit Ω =] 0. 1 [. des variables aléatoires réelles dans Lp (Ω. est dans Lp (Ω.2. A. Xn converge en probabilité vers 0. A. l’intérêt du critère de Cauchy et du théorème V. P ). 1 ] muni de sa tribu borélienne et de la probabilité uniforme P .

soit Xn une variable aléatoire de loi (1 − n−p )δ0 + n−p δn . alors (Xi )i∈I est équiintégrable. i i “barbe” — 2007/1/8 — 10:41 — page 118 — #126 i i Chapitre V. Convergence de suites de variables aléatoires (ii) Soit Ω = R muni de sa tribu borélienne. p > 1. pour tout ε > 0 il existe η > 0 tel que si P (A) ≤ η alors A |X| dP ≤ ε. Rappelons que par convergence dominée. A. et comme p > 1.s.3.    |X| dP ≤ |X| dP + |X| dP A A∩{|X|>c} A∩{|X|≤c} ≤ ε/2 + cP (A) ≤ ε/2 + cη . E(|Xn |p ) = 1 pour tout n.  si X est intégrable. si |Xi | ≤ Y p. aussi appelée intégrabilité uniforme. Il suffit donc de prendre η = ε/2c.4.  |X| dP ≤ ε/2 .3. Pour tout n ≥ 1.2. c→∞ i∈I {|Xi |>c} Les théorèmes de convergence monotone (II. En revanche.s. P ) est dite équiinté- grable ou uniformément intégrable si  lim sup |Xi | dP = 0 . L’analogue uniforme est donné par la proposition suivante.com i i i . {|X|>c} De plus. définies et intégrables sur un espace probabilisé (Ω. A.3. D´efinition V. le théorème de convergence dominée (II.bibliomath. pour tout i ∈ I et Y est intégrable. Une famille quelconque (Xi )i∈I de variables aléatoires réelles. P { |Xn | ≥ ε } = n−p . pour tout n ≥ 1/ε. Xn → 0 p. Proposition V.8) montrent qu’une famille finie de variables aléatoires intégrables est uniformément intégrable. c’est-à-dire telle que P { Xn = n } = n−p = 1 − P { Xn = 0 } . De même.8) implique que pour c assez grand. La famille de variables aléatoires réelles intégrables (Xi )i∈I dé- finies sur (Ω. il faut utiliser la notion d’équiintégrabilité. Pour lier la convergence dans les espaces Lp à celle en probabilité. P ) est uniformément intégrable si et seulement si 118 i www. Si ε > 0.2. En effet. (lemme de Borel-Cantelli).2.1) ou de convergence domi- née (II.

2. Supposons l’intégrabilité uniforme. P ). Par le lemme de Fatou (II. il existe c > 0 tel que  sup |Xi | dP ≤ ε/2 . Pour tout c ≥ c0 et tout i. soit M = supi∈I |Xi | dP < ∞. k→∞ n∈N 119 i www.s.4 montre qu’on peut ex- traire une sous-suite (nk ) telle que Xnk converge vers X p. il existe η > 0 tel que pour tout A ∈ A.    |Xi | dP ≤ |Xi | dP + |Xi | dP A A∩{|Xi |>c} A∩{|Xi |≤c} ≤ ε/2 + cP (A) . Pour tout ε > 0. Soient Xn . P (A) ≤ η implique  ∀i ∈ I .       E |X| ≤ lim inf E |Xnk | ≤ sup E |Xn | < ∞ . (i)⇒(ii). |Xi | dP ≤ ε . A. III. P Démonstration.3) et la proposition V. ce qui démontre (i) en prenant η = ε/2c  et (ii) en prenant A = Ω. P { |Xi | > c } ≤ η (inégalité de Markov. La conclusion s’ensuit. Soit de plus ε > 0 et η > 0 fournis par (i).5. A et    (ii) supi∈I |Xi | dP < ∞ (ou supi∈I E |Xi | < ∞). pour tout i ∈ I.4.2. Si Xn → X. il y a équivalence entre les deux points suivants : P (i) Xn → X et la famille (Xn )n∈N est uniformément intégrable .4. X.  L’intérêt de la notion d’équiintégrabilité apparaît dans le théorème suivant. Alors. lequel peut être vu comme une amélioration du théorème de convergence dominée. le théorème V.bibliomath.3.com i i i .3. Supposons chaque Xn intégrable. des variables aléatoires réelles définies sur (Ω. Convergence dans Lp (i) pour tout ε > 0 . Appliquons alors (i) à A = { |Xi | > c } pour chaque i pour obtenir supi∈I {|Xi |>c} |Xi | dP ≤ ε. Réciproquement. i i “barbe” — 2007/1/8 — 10:41 — page 119 — #127 i i V.3. Démonstration.9). n ∈ N. i∈I {|Xi |>c} Si A ∈ A. (ii) X est intégrable et limn→∞ Xn − X1 = 0. Posons c0 = M/η. Th´eor`eme V.

4 à cette famille et désignons par η = η(ε) > 0 le réel interve- nant dans le point (i) de cette proposition.     E |Xn − X| ≤ |Xn − X| dP + |Xn | dP {|Xn −X|<ε} {|Xn −X|≥ε}  + |X| dP. pour tout ε > 0.4. (Xn . Soit ε > 0 et n0 tel que Xn − X1 ≤ ε pour n > n0 . montre donc que pour tout n assez grand. Pour tout c > 0. i i “barbe” — 2007/1/8 — 10:41 — page 120 — #128 i i Chapitre V. {|Xn −X|≥ε} {|Xn −X|≥ε} Alors E(|Xn − X|) ≤ 3ε. A. définies sur P un espace (Ω.3. Puisque X ∈ L1 . par l’inégalité triangulaire. Démonstration. P ).   |Xn |q dP ≤ c(q−p)/q |Xn |p dP {|Xn |q >c} {|Xn |q >c}   ≤c (q−p)/q sup E |Xk |p .3. Convergence de suites de variables aléatoires Donc X ∈ L1 . La proposition V.3. Lorsque n > n0 . Puisque ε est arbitraire.4. Le point (ii) est immédiat puisque par l’inégalité triangulaire E(|Xn |) est majoré par E(|Xn − X|) + E(|X|). {|Xn −X|≥ε} {|Xn −X|≥ε} Puisque X ∈ L1 . Maintenant.   |Xn | dP ≤ |X| dP + Xn − X1 ≤ 2ε . il existe η > 0 tel que si P (A) ≤ η. n ∈ N.3. Par hypothèse. Xn converge vers X dans L1 . Appliquons la proposition V. est uniformément intégrable. {|Xn −X|≥ε}   ≤ε+ |Xn | dP + |X| dP . telle que pour un p > 1. Xn . Si Xn → X. n ≤ n0 . limn→∞ Xn − Xq = 0. alors pour tout q < p.6. k∈N 120 i www. supn∈N E(|Xn |p ) < ∞.com i i i . (ii)⇒(i).3. Soit (Xn )n∈N une suite de variables aléatoires réelles. A A Il s’ensuit que la suite (Xn )n∈N vérifie le point (i) de la proposition V. D’après la proposition V.4. X) est encore uniformément intégrable. P { |Xn − X| ≥ ε } ≤ η pour n assez grand. avec A = { |Xn − X| ≥ ε }.bibliomath.   |Xn | dP ≤ ε et |X| dP ≤ ε . et tout entier n. Donc la suite (Xn )n∈N est uniformément intégrable.   |X| dP ≤ ε/2 et |Xn | dP ≤ ε/2 A A pour tout n ≤ n0 .  Corollaire V. la famille X.

121 i www. et donc converge p.  Démonstration du théorème II.com i i i . Donc Xn converge dans Lp . nous pouvons supposer que µ est une probabilité. A. vers une limite X. Nous montrons le résultat lorsque µ(Ω) < ∞. A. i. ϕX = ϕY .4. Le cas général s’en déduit en considérant une suite d’exhaustion (An )n∈N de (Ω.5) si pour toute fonction φ : R → R continue bornée   φ(X) dP = φ(Y ) dP . On remarque d’abord qu’une suite de Cauchy (Xn )n∈N dans Lp est équiinté- grable. i.6. la suite (|Xn − X|q )n∈N est aussi uniformément intégrable. Quitte à remplacer µ par µ/µ(Ω). ou (cf.5 montre alors que la suite (|Xn − X|q )n∈N converge vers 0 dans L1 . Convergence en loi Comme q < p. de Cauchy.5.3. III. Il est souvent utilisé dans les appli- cations.3).2. La limite est dans Lp puisque les Xn sont équiin- tégrables. uniformément en n. mais peut-être aussi le plus important. Ces diverses égalités donnent lieu à des définitions de convergence. C’est le plus faible. Si Xn converge en probabilité vers X. FX = FY . i i “barbe” — 2007/1/8 — 10:41 — page 121 — #129 i i V.4. µ) et en utilisant un argument diagonal. Convergence en loi C’est le quatrième type de convergence que nous étudierons. X.  V. si et seulement si leurs fonctions de répartition sont égales (III. Nous avons vu que deux variables aléatoires. P ) ont même loi. et donc aussi E(|X|q ) < ∞.s. en utilisant l’inégalité triangulaire pour la norme  · p . La limite ne dépend pas de la sous-suite considérée puisque la suite est de Cauchy. sur (Ω. ou encore si leurs fonctions caractéristiques sont égales (III. P Donc la suite (|Xn |q )n∈N est uniformément intégrable. par le lemme de Fatou.e. Y . E(|X|p ) < ∞. ou que les lois P X et P Y sont égales. Comme |Xn |p → |X|p . Par conséquent. Nous pouvons en extraire une sous-suite qui est p. et donc que la suite (Xn )n∈N converge vers X dans Lq .bibliomath.4.e. Le théorème V. alors |Xn − X|q converge en probabilité vers 0. le terme de droite tend vers 0 lorsque c → ∞.2).s.

et tout t.4. P ). vers X. pour tout ε > 0.8) et du point (ii) de la définition.bibliomath. Dans le même esprit. (iv) Il existe un espace probabilisé (Ω . Soient Xn .4. et limn→∞ Xn = X  p. En particulier. On dit que Xn converge en loi vers X. telles que Xn et Xn ont même loi pour tout n. Xn+1 ) ou de tout autre vecteur  formé à l’aide d’éléments des suites (Xn )n∈N et (Xn )n∈N .   (ii) limn→∞ φ(Xn ) dP = φ(X) dP pour toute fonction continue bornée φ : R → R. Avant de démontrer l’équivalence entre les points (i)–(iv) de cette définition. ou que les lois P Xn convergent étroitement vers la loi P X . (iii) limn→∞ ϕXn (t) = ϕX (t) pour tout t ∈ R . si Xn et Xn ont même loi pour tout n. Exemples V. si l’une des quatre conditions équivalentes suivantes est vérifiée : (i) limn→∞ F Xn (t) = F X (t) en tout point de continuité t de F X . la conver- gence presque sûre a lieu pour les nouvelles variables Xn .1.iv.2. X  . F Xn (t) = P { Xn ≤ t }   ≤ P { X ≤ t + ε } + P |Xn − X| ≥ ε ≤ F X (t + ε) + o(1) (n → ∞) et   F Xn (t) ≥ P { X ≤ t − ε } − P |Xn − X| ≥ ε ≥ F X (t − ε) + o(1) (n → ∞) 122 i www.iv que la convergence en loi n’implique pas la conver- gence presque sûre. X et X  ont même loi.4. Xn+1  ) et (Xn . il n’en est rien en général de (Xn . P  ) sur lequel sont définies des variables aléatoires Xn .2. (ii) Si Xn converge en probabilité vers X. alors Xn converge en loi vers X. définies sur (Ω. montrons que la convergence faible est bien le mode le plus faible de convergence que nous avons introduit jusqu’à présent. n ∈ N et X  . Convergence de suites de variables aléatoires D´efinition et th´eor`eme V. Cela se déduit par exemple du théorème de convergence dominée (II. L d On note alors Xn → X ou Xn → X (pour Xn converge « en distribution » vers X). i i “barbe” — 2007/1/8 — 10:41 — page 122 — #130 i i Chapitre V. n ∈ N et X.s. A . On prendra garde au fait que. A. alors Xn converge en loi vers X. nous verrons à l’exemple V. (i) Si Xn converge p.2.com i i i . En effet.s. dans la définition-théorème V. des variables aléatoires réelles.4.1.

Le même argument donne un petit résultat aussi utile en statistique. (v) Soient Xn . n ∈ N. et donc la convergence en loi. Notons F Xn = Fn et F X = F dans ce qui suit.4. (iv)⇒(iii) et (iv)⇒(ii) sont immédiats par   convergence dominée (II. Yn ) (voir par exemple (iii) ci-dessus). utile en statistique. mais ne converge pas p. alors Xn converge en probabilité vers c. vers X et ne converge pas en probabilité vers X. Il suffit pour s’en convaincre de choisir.i puisque ε > 0 est arbitraire.2. puis φ(x) = sin(tx). si Yn converge en loi vers une constante c. Si Xn et Yn convergent en loi vers X et Y . Si Xn converge en loi vers une variable constante c. par symétrie de la loi normale centrée. Alors Xn converge en loi vers X (puisque. De la même façon. Le couple (X. Xn a même loi que X pour tout n).1. Ainsi. Alors P { Xn = k } = F Xn (t) − F Xn (s) → F X (t) − F X (s) = P { X = k } . Il suffit de poser φ(x) = cos(tx). i i “barbe” — 2007/1/8 — 10:41 — page 123 — #131 i i V.. En utilisant le théorème de convergence do- minée II.8.     lim P −ε < Xn − c ≤ ε = lim F Xn (c + ε) − F Xn (c − ε) = 1 . respectivement E(φ(Xn )) = E(φ(Xn )) et E(φ(X  )) = E(φ(X)). Soit t un point de continuité de F .8) et en remarquant que ϕXn = ϕXn et ϕX = ϕX . entraîne la convergence en probabilité. P { X  = t } = 1. n→∞ n→∞ et donc limn→∞ P { |Xn − c| > ε } = 0.bibliomath. alors L Xn → X si et seulement si limn→∞ P { Xn = k } = P { Xn = k } pour tout k ∈ N. des variables aléatoires à valeurs entières .1.com i i i .t] (Xn ) = ½]−∞. des points s et t de continuité pour F X tels que k − 1 < s < k < t < k + 1.4. F Xn (t) = F Xn (k) = P { Xn = l } → P { X = l } = F X (k) = F X (t) .2. Par contre. p > 0. (iv) Nous notons cependant le résultat suivant. 1) et Xn = (−1)n X. (ii)⇒(iii) est clair. Donc. En particulier. c). limn→∞ ½]−∞. et X. (iii) Soit X de loi N (0. (iv)⇒(i).t] (X  ). Convergence en loi et l’on conclut à l’aide de V. En effet. 0≤l≤k 0≤l≤k Démonstration du théorème V. on ne peut rien dire en général sur la convergence du couple (Xn . Yn ) converge en loi vers le couple (X. presque sûrement. Xn Yn converge en loi vers cX et Xn + Yn vers X + c. on en déduit que limn→∞ Fn (t) = F (t).4. 123 i www. alors le couple (Xn .s. Rappelons que la convergence dans Lp . Xn ) ne converge pas non plus en loi. pour tout ε > 0. pour chaque k ∈ N.

2. n→∞ 124 i www. n→∞ n→∞ Or les points de discontinuité de F ←. i i “barbe” — 2007/1/8 — 10:41 — page 124 — #132 i i Chapitre V. il vient lim supn→∞ Fn← (u) ≤ F ← (u+) = F ← (u) puisque F ← est continue à droite. A . λ où λ est la mesure de Lebesgue. (t − x)+ (t + ε − x)+ ½]−∞. C’est la démons- tration.2. définie sur (Ω . Xn = Fn← (U ) et X  = F ← (U ) ont respectivement mêmes lois que Xn et X. Ainsi.7. en remplaçant u par u + η dans la seconde limite. Alors (proposition III. Pour cela. par + l’hypothèse (i). De la même façon. ε ε Donc.7).com i i i . Soient de plus ε > 0 arbitraire et t+ − ε .t+ε](x) . B( ] 0. tε − − des points de continuité de F tels que tε < t < tε et |tε − tε | ≤ ε (de tels points + + existent d’après la propriété III. lim inf Fn← (u + η) ≥ t = F ← (u) et lim sup Fn← (u − η) ≤ t = F ← (u) .7. F ← (u−) ≤ lim inf Fn← (u) ≤ lim sup Fn← (u) ≤ F ← (u) . Fn (t− ε ) < u + η et Fn (tε ) > u − η pour tout n assez grand. pour tout u ∈ ] 0. Ainsi. puisque ε > 0 est arbitraire. si (ii) a lieu. P  ) (par exemple la fonction identité !). Ainsi. Il suffit donc de montrer que limn→∞ Fn← (u) = F ← (u). Convergence de suites de variables aléatoires   (i)⇒(iv). 1 [.t] (x) ≤ ∧ 1 ≤ ½]−∞.bibliomath. Soit U une variable aléatoire uniforme sur ] 0. sont de mesure de Lebesgue nulle.2.t](Xn ) n→∞ = lim inf Fn (t) . t ∈ R. soit u ∈ ] 0. il vient lim inf n→∞ Fn← (u) ≥ F ← (u−).t−ε] (X) ≤ E ∧1 ε   (t − Xn )+ = lim inf E ∧1 n→∞ ε   ≤ lim inf E ½]−∞.t−ε](x) ≤ ∧ 1 ≤ ½]−∞. 1 [. D’après les mêmes propriétés appliquées + à Fn← .4). (ii)⇒(i) : Observons que pour tous ε > 0.2. 1 [ ). 1 [. n→∞ n→∞ En remplaçant u par u − η dans la première limite et en faisant tendre η vers 0. en nombre dénombrable d’après la remarque suivant la proposition III. nous en déduisons que     (t − X)+ F (t − ε) = E ½]−∞. pour tout η > 0 tel que 0 < u − η < u + η < 1. sauf peut-être sur un ensemble de mesure de Lebesgue nulle. 1 [ et t = F ← (u). Fn← (u + η) > t− ε ≥t−ε et Fn← (u − η) ≤ t+ ε ≤ t + ε. Soit l’espace probabilisé (Ω . P  ) = ] 0. D’après les propriétés de F ← utilisées lors de la démonstration de la proposition III. F (t− ε ) ≤ u et F (tε ) ≥ u. A . x ∈ R.

2.com i i i . Alors ϕXn +ε N (t) = ϕXn (t)e−ε t /2 (proposition IV. et prenons N indépendante de Xn et X.   F Z (t) ≥ P Z ≤ t . Convergence en loi De la même façon. Si Z est une variable aléatoire. pour chaque n. ε2 |N | ≤ ε (2) 2   ≥ F Z+ε N (t − ε) − εE |N | .5. 1). Soient donc.bibliomath. Xn de fonction de répartition F Xn et X de fonction de répartition F X . telles que. f Xn +ε N et f X+ε N . 2 2 f Xn +ε N (x) − f X+ε N (x) = 2π R 125 i www. rendant ainsi la suite équiintégrable. ε2 |N | ≤ ε + P ε|N | ≥ 1   ≤ P { Z + ε2 N ≤ t + ε } + P ε|N | ≥ 1 (1) Z+ε2 N   ≤F (t + ε) + εE |N | où nous avons utilisé l’inégalité de Markov (III. pour tout x ∈ R. De même. L’idée de la démons- tration est d’utiliser la formule d’inversion de Fourier III.4. Il ne nous reste plus qu’à montrer (iii)⇒(i) par exemple. i i “barbe” — 2007/1/8 — 10:41 — page 125 — #133 i i V.t](Xn ) n→∞ = lim sup Fn (t) .    (t + ε − X)+ F (t + ε) = E ½]−∞.9). Il est commode de prendre ce bruit gaussien. Pour cela il est nécessaire que Xn admette une densité et que l’on puisse passer à la limite en n dans les inversions des fonctions caractéristiques (ce qui impose a priori que les ϕXn soient équiintégrables). On no- tera donc N une variable aléatoire de loi N (0. et d’intégrer dans la convergence.    42 1 e−itx ϕXn (t) − ϕX (t) e−ε t /2 dt . L’astuce pour obtenir (iii)⇒(i) sans autre hypothèse consiste à multiplier ϕXn par une fonction caracté- ristique intégrable. observons que pour tout t ∈ R et tout ε > 0.t+ε](X) ≥ E ∧1 ε   (t + ε − Xn )+ ≥ lim sup E ∧1 n→∞ ε   ≥ lim sup E ½]−∞.5. Xn + ε2 N et X + ε2 N admettent des 2 2 densités.4.4. n→∞ ce qui implique (i) puisque ε est arbitraire. D’après 2 4 2 le théorème d’inversion de Fourier III.4. ε2 |N | ≤ ε   ≥ P Z + ε2 N ≤ t − ε .3). ce qui revient à ajouter à Xn un petit « bruit ». et de même pour X.     F Z (t) = P { Z ≤ t } ≤ P Z ≤ t .

par (2) et (4).8) implique que   lim supf Xn+ε N (x) − f X+ε N (x) = 0 . Convergence de suites de variables aléatoires    Puisque ϕn converge vers ϕ simplement et que e−itx ϕXn (t) − ϕX (t)  ≤ 2. n→∞ De façon analogue. le théorème de convergence dominée (II. t + ε ] n→∞ 2N ≤ F X+ε (t + ε) . 2 2 (3) n→∞ x∈R Soit a assez grand tel que P { |X +ε2 N | > a } ≤ ε. 126 i www. il vient pour tout t ∈ R.2. En intégrant sur le compact [ −a. nous déduisons de (3) que     lim sup P |Xn + ε2 N | ≥ a = 1 − lim inf P Xn + ε2 N ∈ [ −a. on conclut que   lim sup F Xn (t) ≤ F X (t + 2ε) + ε + 2εE |N | . 2   lim inf F Xn (t) ≥ lim inf F Xn +ε N (t − ε) − εE |N | n→∞ n→∞     ≥ lim inf P Xn + ε2 N ∈ [ −a. t − ε ] − ε − εE |N | n→∞   ≥ FX (t − 2ε) − ε − 2εE |N | . a ] n→∞ n→∞  a 2 = 1 − lim inf f Xn +ε N (x) dx n→∞ −a  a (4) 2 =1− f X+ε N (x) dx −a   = 1 − P X + ε2 N ∈ [ −a. a ]. t + ε ] n→∞     + lim sup P |Xn + ε2 N | > a + εE |N | . 2   lim sup F Xn (t) ≤ lim sup F Xn +ε N (t + ε) + εE |N | n→∞ n→∞   ≤ lim sup P Xn + ε2 N ∈ [ −a. n→∞ D’après la convergence uniforme des densités (3). a ] ≤ ε . i i “barbe” — 2007/1/8 — 10:41 — page 126 — #134 i i Chapitre V. t + ε ] = P X + ε2 N ∈ [ −a.     lim sup P Xn + ε2 N ∈ [ −a. En faisant usage de (1).com i i i . Ainsi.bibliomath.

1 se généralise à R . laquelle assure que la masse des mesures ne s’échappe pas à l’infini. puis on montre que l’ensemble des valeurs d’adhérence contient un unique point. et seule notre démons- d tration de (i)⇒(iv) doit être substantiellement modifiée. le théorème V. on dit aussi que (Xn )n∈N est une suite de variables aléatoires équitendues (ou tendues.3. La notion d’équiintégrabilité est donc aussi une notion de compacité relative. il existe un compact K tel que P (K) ≥ 1 − ε. F X (t−) ≤ lim inf F Xn (t) ≤ lim sup F Xn (t) ≤ F (t) . si (zn )n∈N est une suite dans (C[ 0. Dans l’espace L1 . D´efinition V. Si (Pn )n∈N est une suite de probabilités. Si (Xn )n∈N sont des variables de lois (Pn )n∈N équitendues. i i “barbe” — 2007/1/8 — 10:41 — page 127 — #135 i i V.3. ou uniformément tendues). Elle est définie comme suit.4. on dit que la suite est équitendue (ou parfois tendue. le théorème d’Arzela- Ascoli donne un critère de compacité relative de la suite (zn )n∈N (il faut et il suffit qu’elle soit bornée et équicontinue) et on peut identifier la limite éventuelle en démontrant une convergence ponctuelle de zn . tel que Pn (K) ≥ 1 − ε pour tout n. la notion correspondante est celle d’équitension. ou uniformément tendue) si. Dans un es- pace de mesures.  · ∞ ). On com- mence par montrer qu’elle est relativement compacte. que l’on identifie éventuellement. Convergence en loi Puisque ε > 0 est arbitraire et F est continue à droite et admet en tout point une limite à gauche.bibliomath. On dit que P est tendue si pour tout ε > 0.5 est l’exact analogue du théorème d’Arzela-Ascoli. De façon générale. c’est-à-dire que l’ensemble { zn : n ∈ N } est d’adhérence compacte . Par exemple. On pourra se référer par exemple au livre de Pollard (1984) pour une démonstration de l’équivalence entre convergence en loi et convergence presque sûre d’une version bien choisie des vecteurs aléatoires. sa convergence peut être démontrée en deux étapes. il existe un compact K.com i i i . Soit Ω un espace topologique muni de sa tribu borélienne et d’une probabilité P . Notre démonstration de (iii)⇒(i) aurait pu être remplacée par une preuve de l’implication (iii)⇒(ii) laquelle peut être obtenue en introduisant un point de vue plus proche de l’analyse fonctionnelle. nous obtenons. lorsque l’on dispose d’une suite (zn )n∈N dans un es- pace topologique. Une suite (zn )n∈N dans L1 est relativement compacte si elle est bornée et équiintégrable.  La démonstration du théorème V.4. important dans certains aspects théoriques des probabilités et statistiques. La démonstration du théorème est terminée. 1 ].4. n→∞ n→∞ ce qui est (i). 127 i www. et on peut identifier sa limite en démontrant alors seulement une convergence en probabilité. pour tout ε > 0.

n→∞ On munit l’espace M(Rd ) de la norme duale   µ = sup φ dµ : φ∞ ≤ 1 . Convergence de suites de variables aléatoires Sur Rd . Démonstration.) Soit donc (Pn )n∈N une suite de lois équitendue sur Rd .4. C’est donc une suite relativement compacte dans M(Rd ) et 128 i www. Le dual de l’espace des fonctions continues bornées sur Rd contenant des objets qui ne sont pas des me- sures. une suite (µn )n∈N d’éléments de M(Rd ) converge faiblement* vers µ si pour toute φ ∈ C0 (Rd ). c’est un espace es- pace de Banach séparable. (Cette structure métrique est importante car elle permet l’extraction de sous-suites convergentes. à l’aide de la dualité    µ. 1 ≤ i ≤ k. voir Rudin (1975).bibliomath. Th´eor`eme V. En particulier. φ = φ dµ = φ dµ+ − φ dµ− . . et qu’une mesure vérifie la proposition I. On peut munir M(Rd ) de la topologie faible* dont une base de voisinages est donnée par les ensembles        ν ∈ M(R ) :  φi dν − φi dµ ≤ ε . Son dual s’identifie avec l’espace M(Rd ) des mesures signées bornées µ = µ+ − µ− . Dudley (1989)). c’est-à-dire { µ ∈ M(Rd ) : µ ≤ 1 }. (Esquissée . il nous faut travailler avec l’espace C0 (Rd ) des fonctions continues sur Rd tendant vers 0 à l’infini. . La preuve s’appuie sur un argument de dualité.4. pour plus de détails. i i “barbe” — 2007/1/8 — 10:41 — page 128 — #136 i i Chapitre V. φi ∈ C0 (Rd ). Muni de la norme supremum  · ∞ . Elle est dans la boule unité de M(Rd ).4. indique que la boule unité de M(Rd ).iii. 1 ≤ i ≤ k d pour µ ∈ M(Rd ). Le théorème de Banach-Alaoglu.com i i i . toute loi de probabilité est tendue puisque Rd est la réunion des compacts KM = { x ∈ Rd : |x| ≤ M } pour M = 1. Toute suite de lois équitendue sur Rd admet une sous-suite convergeant étroitement. est compacte et métrisable pour la topologie faible*.   lim φ dµn = φ dµ . 2. où µ+ et µ− sont des mesures positives et bornées. . ε > 0.3. conséquence du théorème de Tyckhonov.

si φ est constante égale à 1.bibliomath. i i “barbe” — 2007/1/8 — 10:41 — page 129 — #137 i i V.    7 u  P |Z| ≥ 1/u ≤ 1 − e ϕZ (t) dt .   lim  φ dPn = φ dQ . Il va suffire de montrer que pour toute variable aléatoire réelle Z et tout u > 0. Pour tout M > 0. comme précédemment. ce qui contredit la positivité des lois Pn .    φ dPn ≤ φ dPn + ε ≤ ψM φ dPn + ε KM et donc.1. Il ne nous reste plus qu’à montrer que Q est une probabilité et que Pn converge étroitement vers Q. Ainsi    φ dQ ≤ φ dQ + ε ≤ ψM φ dQ + ε KM et donc.4. Montrons que la suite (Xn )n∈N (de variables aléatoires réelles) est uniformément tendue.com i i i .  Nous pouvons maintenant donner une démonstration directe de l’implication (iii)⇒(ii) dans le théorème V. Convergence en loi elle admet une sous-suite (Pn )n ∈N convergeant vers une mesure Q. n →∞ n →∞ La conclusion s’ensuit. il existe M tel que Pn (KM ) ≥ 1 − ε pour tout n. Q(Rd ) ≥ 1 − ε. En effet.  sinon on montre d l’existence d’une fonction positive φ de C0 (R ) telle que φ dQ < 0. Cette valeur d’adhérence Q de la suite (Pn )n∈N est nécessairement une mesure positive. En particulier. u 0 129 i www. soit KM le compact de Rd donné par KM = { x ∈ Rd : x ≤ M }. Pour tout ε > 0. n →∞ En particulier.4 est établi de cette façon. a priori si- gnée mais de norme inférieure ou égale à 1. et donc Q(Rd ) = 1 puisque Q est dans la boule unité de M(Rd ). l’on peut également choisir M tel que Q(KM ) ≥ 1 − ε. n →∞ Ceci est une conséquence de l’équitension de la suite (Pn )n∈N . et alors φ dPn < 0 pour n assez grand. Pour tout n. Il suffit de démontrer à cet effet que pour toute φ : Rd → R continue telle que 0 ≤ φ ≤ 1.4. puisque ψM φ ∈ C0 (Rd ).4.    lim sup φ dPn ≤ ψM φ dQ + ε ≤ φ dQ + ε . Soit ψM (x) = (M + 1 − x)+ ∧ 1. et le théorème V.    φ dQ − ε ≤ lim  inf ψM φ dPn ≤ lim  inf φ dPn . x ∈ Rd .

Enfin.1). Ainsi. Convergence de suites de variables aléatoires Pour cela. t ∈ R. La conclusion s’ensuit.s. de loi exponen- tielle Exp(1). Puis. alors X/n converge en loi vers 0 lorsque n → ∞. sauf si X = 0 p. d’après le théorème V. montrons que Zn = Mn − ln n converge en loi vers une variable Z de loi F Z (t) = exp(−e−t ).bibliomath.ii que Mn = max Xi = ln n + o(ln n) p. la suite des lois de (nX)n∈N n’est pas tendue. Cette mesure Q est la loi de X puisque ϕXn converge vers ϕX et que ϕX détermine la loi de X (théorème III. En effet (voir plus précisément la démonstration du 130 i www.4.5..5.s. 1≤i≤n Nous pouvons maintenant préciser un peu le contenu du terme o(ln n).com i i i . En ef- fet. Exemples V. par le théorème de Fubini-Tonelli (II.1.ii).  u   1  1 u   1 − e ϕ (t) dt = Z 1 − cos(tx) dP Z (x) dt u u 0 R 0    sin(ux) = 1− dP Z (x) R ux     ≥ 1 − sin(1) P |Z| ≥ 1/u . Par contre. (iii) Soit (Xi )i≥1 une suite de variables aléatoires indépendantes.1. Donc nX ne peut pas converger en loi.4. Nous avons vu à l’exemple V. notons d’abord que l’inégalité (sin x)/x ≤ sin 1 est vraie pour tout |x| ≥ 1.4.2).4. il existe une sous-suite (Pn )n ∈N de la suite (Pn )n∈N des lois des variables aléatoires (Xn )n∈N qui converge étroitement vers une mesure de probabilité Q. En conséquence de cette inégalité appliquée à Xn pour tout n.5. i i “barbe” — 2007/1/8 — 10:41 — page 130 — #138 i i Chapitre V. sin(1) ≤ 6/7. (ii) Si X est une variable aléatoire.3. (i) Une suite (xn )n∈N de réels converge vers x si et seulement si δxn converge vers δx étroitement (d’après V.    1/M   lim sup P |Xn | ≥ M ≤ lim sup 7M 1 − e ϕXn (t) dt n→∞ n→∞ 0  1/M   = 7M 1 − e ϕX (t) dt 0 et le majorant peut être rendu arbitrairement petit en prenant M arbitrairement grand puisque limt→0 e ϕX (t) = 1 et ϕX est continue.

iii et V. le théorème limite central théorème V. Observons que Sn /n est simplement la moyenne (dite empirique) des Xi . on peut approximer P { Zn ≤ t } par (2π)−1/2 −∞ e−x /2 dx (on applique ici l’équiva- lence entre V. i i “barbe” — 2007/1/8 — 10:41 — page 131 — #139 i i V.5.4. cela signifie  t que2 pour n assez grand.1. Par exemple si Xi modélise le fait qu’un individu vote (Xi = 1) ou ne vote pas (Xi = 0) pour un candidat dans une élection. 1).bibliomath. Sn /n est la proportion de personnes votant pour le candidat dans un sondage de n personnes tirées 131 i www.) C’est très utile en pratique puisque le calcul de P { Zn ≤ t } nécessite d’évaluer une somme pondérée de coefficients binomiaux (numériquement difficile pour n grand). (iv) Si Xn est de loi binomiale B(n. Les lois faible et forte des grands nombres. Cet exemple est un cas particulier du théorème limite central que nous allons voir dans le paragraphe suivant.1. ) np  √ n −it 1−p Zn ϕ (t) = e 1 − p + pe it/ np(1−p) )  n np −it 1−p itp t2 =e 1+ − + o(n−1 ) np(1 − p) 2n(1 − p) = e−t 2 /2 + o(1) (n → ∞) et donc ϕZn (t) converge vers la fonction caractéristique d’une loi N (0.5.5. tandis que l’approximation gaussienne ne nécessite que l’évaluation d’une intégrale. nous désignons par (Xi )i≥1 une suite de variables aléatoires réelles.4).   F Zn (t) = P max Xi ≤ t + ln n 1≤i≤n  n = 1 − exp(−t − ln n)    e−t = exp n ln 1 − = exp(−e−t ) + o(1) n lorsque n → ∞. On conçoit alors que l’étude des sommes de variables aléatoires soit importante pour les applications. V. Les lois faible et forte des grands nombres. le théorème limite central Dans toute cette section. Pour tout simple notation pour décrire n ≥ 1. 1). on pose Sn = 1≤i≤n Xi et l’on s’intéresse aux propriétés asympto- tiques de Sn . D’un point de vue pratique. indépendantes et de même loi qu’une variable X (X est une commodément la loi commune des Xi ).4. alors Zn converge en loi vers une variable aléatoire gaussienne N (0. p) et Zn = (Xn − np)/ np(1 − p).i. En effet.com i i i .

on peut supposer que E(Xi ) = 0. donc en probabilité vers 0 (voir exemple V.4.2.ii) et puisque les Xi sont indépendantes et toutes de même loi (que X). d’autre part que la théorie des probabilités que nous avons construite ne conduit pas à une modélisation absurde du réel. prix moyen etc). une population est souvent décrite statistiquement.5.i) et de plus (ϕX ) (0) = iE(X) = 0.iv).2. par exemple.s. Si la suite Sn /n converge p.iv). i i “barbe” — 2007/1/8 — 10:41 — page 132 — #140 i i Chapitre V. ou ré- sumée par la donnée d’une statistique moyenne (âge moyen.i) et √ avons de plus montré que la loi de (Sn − E(Sn ))/ n ressemble à une loi normale lorsque n est assez grand (exemple V.     P |X| ≥ εn = P |Xn | ≥ εn < ∞ . alors Sn /n converge en probabilité vers E(X) lorsque n → ∞. Convergence de suites de variables aléatoires au hasard dans la population.2.5. Th´eor`eme V. la fonction caractéristique ϕX est dérivable (proposition III. 132 i www. Nous avons vu dans ce cas particulier que Sn /n converge en probabilité vers l’espérance E(X) = P { X = 1 } (exemple V.2.. Puisque X ∈ L1 . Elle montre d’une part que l’intuition est correcte.4. cette loi des grands nombres peut être considérablement renforcée par le résultat suivant qui nécessite exactement les mêmes hypothèses.  En fait. (ii) limn→∞ Sn /n = E(X) p.1 (loi faible des grands nombres). alors Xn /n converge p. Démonstration.5.4. Notre premier résultat est la loi des grands nombres. vers 0. Or 1 est la fonction caractéristique de δ0 . la proportion de piles tend à se stabiliser vers 1/2. et enfin qu’une certaine régularité apparaît dans les phénomènes aléatoires. Si E(|X|) < ∞. Donc ϕSn /n (t) = (ϕX (t/n))n = (1 + o(n−1 ))n = 1 + o(1). taille moyenne.bibliomath. Démonstration. pour tout (ou seulement un) ε > 0. n≥1 n≥1 On conclut à l’aide de la proposition III.s. Les deux conditions suivantes sont équivalentes : (i) E(|X|) < ∞ . D’après le lemme de Borel-Cantelli (proposi- tion V. poids moyen. Donc Sn /n converge en loi vers la constante 0.8.1.s. c’est-à-dire.com i i i . Th´eor`eme V. que si l’on jette une pièce équilibrée un grand nombre de fois. De façon générale.5.6.2 (loi forte des grands nombres). La formule de Taylor donne ϕX (t) = 1 + o(t). Un sondage est donc un exemple typique où l’on est naturellement conduit à des sommes de variables aléatoires. Quitte à centrer les variables Xi . (ii)⇒(i).

(1) n n n 1≤i≤n 133 i www. δ 4 n4 Observons que Sn4 = Xi4 + 4 Xi3 Xj + 3 Xi2 Xj2 1≤i≤n 1≤i =j≤n 1≤i =j≤n +6 Xi Xj Xk2 + Xi Xj Xk Xl . La démonstration consiste à prouver dans un premier temps le résultat sous l’hypothèse plus forte que E(|X|4 ) < ∞ et E(X) = 0. puis on se ramène au cas traité.1.l distincts≤n distincts≤n Donc.5. telles que E(|Xi − Yi |) ≤ ε.j.l distincts≤n distincts≤n    2 = nE X 4 + 3n(n − 1) E(X 2 ) .bibliomath.k. on approxime toute variable de L1 par des variables de L4 (ou même des variables bornées).1. Supposons maintenant X intégrable et centrée. pour tout i ≥ 1. sans autre hypothèse. indépen- dantes et de même loi.   1   P |Sn | ≥ δn ≤ E Sn4 . dont on peut se contenter en première lecture. Donc n≥1 P { |Sn | > δn } < ∞. nous avons 1 1 1 |Sn | ≤ |Xi − Yi | + |Tn | .5.k 1≤i. des variables Yi étagées. 1≤i. ce qui permet de conclure grâce au lemme de Borel-Cantelli. l’inégalité de Markov (III.j. ce qui démontre la loi forte des grands nombres dans ce cas d’après le lemme de Borel-Cantelli V. P { |Sn /n| ≥ ε } peut être majoré en utili- sant l’inégalité de Markov. Les lois faible et forte des grands nombres. centrées. Commençons donc par montrer le résultat lorsque E(|X|4 ) < ∞ et E(X) = 0. Si Tn = 1≤i≤n Yi .com i i i . Dans ce cas.i) montre que pour tout n ≥ 1 et tout δ > 0.j. La borne ainsi obtenue est le terme général d’une série convergente.10. par linéarité de l’espérance. le théorème limite central (i)⇒(ii). on peut remplacer Xi par Xi − E(Xi ) et sup- poser les variables aléatoires centrées. Sous l’hypothèse plus faible du théorème.k 1≤i. E(Sn4 ) = E(Xi4 ) + 4 E(Xi3 )E(Xj ) + 3 E(Xi2 )E(Xj2 ) 1≤i≤n 1≤i =j≤n 1≤i =j≤n +6 E(Xi )E(Xj )E(Xk2 ) + E(Xi )E(Xj )E(Xk )E(Xl ) 1≤i. i i “barbe” — 2007/1/8 — 10:41 — page 133 — #141 i i V. Il existe. indépendance et centrage des Xi .k. Soit ε > 0 fixé.2.j. Dans ce cas. Comme dans le théorème V.4.

nous utilisons un argument de bloc. δ2 2k 134 i www. . 2.s. n→∞ n 1≤i≤n Pour cela. indépendantes et de même loi qu’une variable Z intégrable. Nous voulons borner 1 lim sup Zi . vers 0 d’après le point précédent.ii) au deuxième terme du majorant précédent. il suffit de montrer que 1 lim sup |Xi − Yi | n→∞ n 1≤i≤n peut être rendu arbitrairement petit en prenant ε arbitrairement petit. Convergence de suites de variables aléatoires Puisque Tn /n converge p. Notons Zi .10. 2k <n≤2k+1 n 1≤i≤n et donc aussi par   2k+1 P { Z > 2k } + P Zi ½[0.bibliomath.2k ] (Zi ) ≥ δ2k . . il vient  1  P max Zi ≥ 2E(Z) + δ 2k <n≤2k+1 n 1≤i≤n 1   ≤ 2k+1 P { Z > 2k } + 2k+1 E Z 2 ½[0.2k ] (Zi ) ≥ 2k+1 E(Z) + δ2k 1≤i≤2k+1     ≤ 2k+1 P { Z > 2k } + P Zi ½[0.2k ] (Zi ) − E Zi ½[0. . la probabilité  1  P max Zi ≥ 2E(Z) + δ 2k <n≤2k+1 n 1≤i≤n est majorée par   P ∃i ∈ { 1. 1≤i≤2k+1 En appliquant maintenant l’inégalité de Tchebitchev (III. i i “barbe” — 2007/1/8 — 10:41 — page 134 — #142 i i Chapitre V. On considèrera Zi = |Xi − Yi | pour conclure la démonstration.4.com i i i . des variables aléatoires positives. 2k+1 } : Zi > 2k  1  +P max Zi ½[0. i ≥ 1.2k ] (Z) δ2 22k 2   ≤ 2k+1 P { Z > 2k } + E Z 2 ½[0. .2k ] (Zi ) ≥ 2E(Z) + δ .2k ] (Z) . Pour tout k et tout δ > 0.

2k ] (Z) ≤ 4E(Z) k≥0 k≥0 puisque si 2l < Z ≤ 2l+1 pour un l ≥ 0.s.4.i).  2k+1   P { Z > t } dt ≥ 2k P Z > 2k+1 .8 implique   2k+1 P Z > 2k ≤ 4E(Z) . le théorème limite central Puisque pour tout k ∈ N. De (1) et (2) nous déduisons en effet 1 1 1 lim sup |Sn | ≤ lim sup Zi + lim sup Tn n→∞ n n→∞ n n→∞ n 1≤i≤n   ≤ 2E |X1 − Y1 | ≤ 2ε p. ceci conclut la démonstration.3.2k ] (Z) = E Z 2 2−k ½[0. alors Z2 2−k ½[0.s.  135 i www. 2k la démonstration de la proposition III.2k ] (Z) ≤ 22l+2 2−k ≤ 4Z k≥0 k≥l+1 (et de même si 0 ≤ Z ≤ 1). k≥0 De plus     2−k E Z 2 ½[0. k 2 <n≤2k+1 n k≥0 1≤i≤n D’après le lemme de Borel-Cantelli (proposition IV.5. Donc.bibliomath. Puisque ε est arbitraire.5. i i “barbe” — 2007/1/8 — 10:41 — page 135 — #143 i i V. 1 lim sup Zi ≤ 2E(Z) p.com i i i . n→∞ n 1≤i≤n Nous pouvons maintenant finir la démonstration en choisissant Zi = |Xi − Yi |.  1  P max Zi ≥ 2E(Z) + δ ≤ 4(1 + 2δ−2 )E(Z) . finalement. presque sûrement pour tout k assez grand 1 max Zi < 2E(Z) + δ . (2) 2k <n≤2k+1 n 1≤i≤n Puisque δ > 0 est arbitraire. Les lois faible et forte des grands nombres.

com i i i .s.6. Puisque les va- riables Ui sont indépendantes et de loi de Bernoulli B(1.bibliomath.iii.s. 1). Il permet d’approximer la loi de Sn /n lorsque n est grand. Il suffit alors de montrer que limn→∞ ϕSn / n (t) = e−t /2 2 pour tout t ∈ R. alors √ converge   n en loi vers une variable de loi N 0. précisant le comportement limite en loi du terme o(1) (modulo une hypothèse supplémentaire sur la loi des Xi ).6. Démonstration.. Nous avons de plus montré en IV. on démontre choisi en fonction de δ > 0 en lieu −1 directement que lim supn→∞ n 1≤i≤n Zi ≤ E(Z) p. (i) Si E(X 2 ) < ∞. Le fait remarquable est que sous la condition E(X 2 ) < ∞. lorsque n → ∞. presque tout nombre a de l’ordre de n/2 blocs de 0 et de 1 dans ses n premiers chiffres. Quitte à changer Xi en (Xi − E(Xi ))/ Var(Xi ). Supposons donc que X n’est pas constante p.5. le théorème limite central donne un terme de plus dans le développement asympto- tique de Sn /n.s. i i “barbe” — 2007/1/8 — 10:41 — page 136 — #144 i i Chapitre V. alors E(X) = 0 et E(X 2 ) < ∞ et la loi limite est normale centrée. Convergence de suites de variables aléatoires À noter qu’en travaillant avec une sous-suite (ρk )k∈N pour un ρ > 1 bien et place de la sous-suite (2k )k∈N . alors Sn /n = E(X)+o(1) p.e. √  √ n ϕSn / n (t) = ϕX (t/ n) 136 i www. de variance Var(X). le résultat est évident puisque N (0.3. En un certain sens. 0) est la masse de Dirac en 0. puisque e−t /2 est la fonction caractéristique de la loi normale 2 N (0.4 (limite central).iii que   P ω : lim Nn (ω)/n = 1/2 = 1 . Exemple V. Pour cela.3.3. presque tout nombre de [ 0. Une autre façon d’énoncer la loi forte des grands nombres est de dire que si E(|X|) < ∞.s. √ (ii) Si Sn / n converge en loi. 1 ] admet en moyenne autant de 0 et de 1 dans son développement dyadique. √ la loi limite de n(Sn /n − E(X)) ne dépend que de la variance des Xi . et du même coup le théorème. nous avons pour tout n ≥ 1. (i) Si X est constante p. la loi forte s’ap- plique et   1 P ω : lim Ui (ω) = 1/2 = 1 . on peut supposer que √E(Xi ) = 0 et Var(Xi ) = 1 pour tout i. Reprenons les notations de l’exemple IV. n→∞ i. 1/2). Var(X) .. Sn − nE(X) Th´eor`eme V. n→∞ n 1≤i≤n Autrement dit.5. par indépendance et équidistribution.

(i) Si Xi est de loi binomiale B(1.5.). nous faisons usage de la propriété suivante. 2 Lorsque n → ∞.5.5.5.8). Soit (zn )n∈N une suite de nombres complexes tendant vers 0 .  zn n  z k n 1+ −1= Ckn .com i i i . modèle des votes pour un candidat dans un sondage électoral etc. On peut se reporter par exemple à Feller (1971. n→∞ np(1 − p) a 2π 137 i www. p) (modèle de la proportion de piles dans n jets de pile ou face. alors  zn n lim 1 + = 1.i) et  X   X    ϕ (0) = E(X) = 0. ϕ (0) = −E X 2 = −1 . Donc u2 ϕX (u) = 1 − + o(u2 ) lorsque u → 0 . (ii) est admis ici. On peut donc dériver deux fois sa fonction caractéristique ϕX (proposition III. le théorème limite central où X est une variable ayant la loi des Xi .6. i i “barbe” — 2007/1/8 — 10:41 — page 137 — #145 i i V. 2 ϕ Sn / n (t) = 1− +o 2n n La fonction caractéristique étant à valeurs complexes. pour pleinement justifier la limite précédente.bibliomath. nous avons pour tout a < b. Les lois faible et forte des grands nombres. Or X est de carré intégrable. √   1  n t2 = e−t /2 + o(1) . en notant toujours Sn = X1 + · · · + Xn . n n 1≤k≤n Donc    zn n   |z | k n  1+ − 1 ≤ Ckn n n 1≤k≤n  |z | k+1 n = Ck+1 n n 0≤k≤n−1  |z | k |z | n n = Ckn−1 n k+1 0≤k≤n−1  |zn | n−1 ≤ |zn | 1 + n tend vers 0 quand n → ∞. n→∞ n En effet.  Exemples V. §IX.    b −t2 /2 Sn − np e lim P a ≤ ≤b = √ dt .

c’est-à-dire telle que P { Nλ = k } = e−λ λk /k!. ce qui conduit au résultat en approximant la somme sur k par une intégrale. le théorème limite central V. indépendante de (Sn ). k ∈ N. de même loi et de carré intégrable. Que peut-on-dire alors de SNλ . puis à écrire explicitement la probabilité   Sn − np P a≤ ≤b = Ckn pk (1 − p)n−k .2.4. Convergence de suites de variables aléatoires Ce théorème limite central pour des sommes de variables aléatoires de Bernoulli a été démontré initialement par de Moivre (1667–1754).np+b np(1−p)] Lorsque k ∈ [ np + a np(1 − p). Alors Sn vérifie le théorème limite central V. p). on voit qu’en observant des réalisations des Xi . on a aussi # *  b −t2 /2 Sn − np e lim P a ≤ )   ≤ b = √ dt . −√ 1− n n n n n n n n b contient p avec une probabilité voisine de (2π)−1/2 a e−t /2 dt lorsque n est grand. Prenons Sn une somme de variables aléatoires indépendantes. 2 Si maintenant p est inconnu.1 et de la pro- position III. De plus. on peut utiliser la formule de Stirling pour approximer le coefficient binomial Ckn . np(1 − p) √ √ k∈[np+a np(1−p). l’intervalle aléatoire  +   +    Sn b Sn Sn Sn a Sn Sn −√ 1− .2.7. puisque Sn /n converge vers p en probabilité d’après la loi des grands nombres. Soit maintenant Nλ une variable aléatoire de loi de Poisson de paramètre λ > 0. i i “barbe” — 2007/1/8 — 10:41 — page 138 — #146 i i Chapitre V. n λ On vérifie facilement à l’aide des fonctions caractéristiques que Nλ /λ converge en loi vers la constante 1 et que Tλ converge en loi vers une variable de loi N (0.iv. np + b np(1 − p) ]. 1).5.4 montre que Zn converge en loi vers 138 i www. Ce type de résultat est essentiel en statistique. lorsque λ → ∞? Soient Sn − nE(X1 ) Nλ − λ Zn = √ et Tλ = √ .bibliomath. (ii) Montrons maintenant l’intérêt du point (iv) du théorème V.com i i i . n→∞ S S 2π n n 1− n n n a Autrement dit. on peut construire un intervalle (puisqu’alors Sn /n est observée) qui contient p avec une probabilité assez grande. D’après l’exemple V.5.4.4. somme d’un nombre aléatoire de termes. La démonstration de de Moivre consiste à remarquer que Sn suit une loi binomiale B(n.

λ Ceci peut aussi être vérifié en écrivant que..1 ((iv)⇒(i)) montre que Zn converge p. 1). Alors Zn a même loi que Zn = F Zn ← (U ) et Tλ a même loi que Tλ = F Tλ ← (V ) d’après la proposition III. Ainsi. ayant une convergence presque sûre. la loi de Sn converge vers la loi de Poisson de paramètre λ. on peut travailler en fixant l’aléa ω. p) étudiée à l’exemple (i) dépend de n et est de l’ordre de λ/n.s.s. 139 i www. Soient maintenant U . Nλ = k } k∈N = P { Sk ≤ t}P {Nλ = k } k∈N = P { Sk ≤ t }P { Nλ = k } = P { SN   ≤ t}. P { S Nλ ≤ t } = P { SNλ ≤ t . par construction. De plus.  1 λ √ vers Z+T E(X1 ) qui est de loi N (0. donc. Il vient alors  − λE(X )  − N  E(X ) . λ λ √ Puisque Nλ → ∞ p. Un examen attentif de cet exemple montre que tout l’intérêt du point (iv) de la définition-théorème V.  SN  1 SN  λ 1 Nλ Nλ − λ λ √ = λ  + √ EX1 λ Nλ λ λ .1 est qu’il permet de transformer un problème de probabilité en un problème d’analyse . 1 [. Lorsque le paramètre p = pn de la loi binomiale B(n. (SN  −λE(X ))/ λ converge p. et limλ→∞ Nλ /λ = 1 p. Puique Z est σ(U )-mesurable et T est σ(V )-mesurable.5. Var(X1 )+E(X1 )2 ).7. Z et T sont indépendantes.s. Les lois faible et forte des grands nombres.s.  Nλ = ZN  + Tλ E(X1 ) . E(X12 )). (SNλ −λE(X1 ))/ λ converge en loi vers N (0. λ k∈N La démonstration du théorème V. Il s’ensuit √ que Sn a même loi  √    que Sn = nZn +nE(X1 ) et que Nλ a même loi que Nλ = λTλ +λ. V .bibliomath.s.s. en un certain sens. Var(X1 )) tandis que Tλ converge p. i i “barbe” — 2007/1/8 — 10:41 — page 139 — #147 i i V. Var(X1 )). SNλ a même loi que SN     puisque (Sn )n≥1 et Nλ sont indépendantes. vers +∞ lorsque λ → ∞.4. de loi uniforme sur ] 0.4. pour tout t ∈ R.2. Puisque Tλ converge p. sur des suites déterministes.com i i i . vers Z de loi N (0. observons aussi que Nλ converge p. le théorème limite central N (0. vers T de loi N (0. Nλ = k } k∈N = P { Sk ≤ t . deux variables aléatoires indépendantes. λ > 0. vers T .s.

il suffit de prouver que pour tout k ∈ N. n→∞ 2n ln ln n n→∞ 2n ln ln n 140 i www. Considérons encore que E(X) = 0 et E(X 2 ) = 1.6 (limite central poissonien). Si limn→∞ npn = λ > 0. n! →1 et (npn )k → λk . Soit Sn une variable aléatoire de loi B(n. vers 0. Que se passe-t-il pour √ des normalisations de Sn entre 1/n (loi des grands nombres) et 1/ n (théorème limite central) ? √ P On peut montrer que si limn→∞ an / n = ∞. λk lim P { Sn = k } = e−λ . En particulier.2.  npn n−k 1− → e−λ . n La conclusion s’ensuit.bibliomath. C’est encore vrai presque sûrement si an = n1/p avec 1 < p < 2. et lim sup √ = 1 p. pour chaque k ∈ N fixé. alors Sn /an → 0 (inégalité de Markov : P { |Sn | ≥ εan } ≤ E(Sn2 )/ε2 a2n = nE(X 2 )/ε2 an ). En vertu de l’exemple V. 1 n!  npn n−k P { Sn = k } = Ckn pkn (1 − pn )n−k = · · (np n )k · 1 − . La loi des grands nombres nous dit que Sn /n converge p.com i i i . la suite Sn / 2n ln ln n est relativement compacte et l’ensemble de ses valeurs d’adhérence est l’intervalle [ −1. Sn converge en loi vers une variable aléatoire de Poisson de paramètre λ.s. i i “barbe” — 2007/1/8 — 10:41 — page 140 — #148 i i Chapitre V. Mais ce n’est √ plus le cas si an √ est trop proche de n. k! (n − k)!nk n Lorsque n → ∞.v.5. Le cas limite est obtenu pour an = 2n ln ln√n où l’on obtient la loi. 1 ].s. pn ). en prenant le logarithme.5. mais le théorème limite √ central nous dit que Sn / n converge en loi vers N (0. (n − k)!nk et. Démonstration. dite du logarithme itéré : presque sûrement. Convergence de suites de variables aléatoires Th´eor`eme V. n→∞ k! Or.4. Sn Sn lim inf √ = −1 p. 1).  Commentaire V.s.7.

la convergence en loi. La loi du logarithme itéré implique lim supn→∞ Zn / 2 ln ln n =  1/2 √ E(X 2 ) p. . puisque Zn converge vers Z p.4. En fait. ce qui contredit le fait que limn→∞ Zn / 2 ln ln n = 0 p.bibliomath. j = 1.n Xj  S  S Zj   S   j. Le théorème limite central √ nous dit que si E(X 2 ) < ∞. Supposons que Zn converge en probabilité vers Z.n = X1 + · · · + Xj−1 + Zj+1 + · · · + Zn .n  Zj3    −√ φ √ − φ √ − 3/2 φ (τj. . Le théorème limite central peut être démontré de nombreuses autres façons.n j. . Soient Sj. Supposons. Il faut et il suffit de montrer √ que E(φ(Sn / n)) converge vers E(φ(Z)) où Z est de loi N (0. comme son nom l’indique et la définition le montre.s. Quitte à extraire une sous- suite. Zj   Sj. Alors √ (S1. on peut montrer qu’il suffit de ne considérer que les fonctions φ continues.s. vers Z ? La loi du logarithme itéré montre que non.4. bornées.n  Zj2   Sj. Elle n’en demeure pas moins extrêmement utile en pratique où l’on est souvent intéressé par les lois. tendant vers 0 à l’infini et à dérivées bornées (puisque ces fonctions sont denses dans l’ensemble des fonctions continues. Donc   √     E φ(Sn / n) − E φ(Z)      Sj. i i “barbe” — 2007/1/8 — 10:41 — page 141 — #149 i i V. bornées. n.n  Xj3  ≤ E √ φ √ + φ √ + 3/2 φ (θj.n √ j  E φ n n  1≤j≤n    Sj.com i i i .5.5.n . définition-théorème V.s.2. Ainsi.n  Xj2   Sj. nous pouvons supposer que Zn converge √ presque sûrement vers Z. en vertu du théorème V. Esquissons une démonstration due à Esséen. 1) et φ est une fonction continue bornée arbitraire (cf. Commentaire V.n + Z1 )/ n a même loi que Z et Sn = Xn + Sn. mais suppose que E(|X|3 ) < ∞. ne concerne que les lois et non les variables.n j. .8. Existe-t-il une variable Z gaussienne telle que Zn converge en probabilité ou p. qui ne fait pas appel aux fonctions caractéristiques. tendant vers 0 à l’infini).n )  n n 2n n 6n  141 i www.n + Xj   S + Z  ≤  √ −φ j.1).. alors Zn = (Sn − nE(X))/ n converge en loi vers une variable aléatoire gaussienne.s.n )  n n 2n n 6n 1≤j≤n . Soient donc φ une telle fonction et Zi des copies indépendantes de Z. et indépendantes des Xi . le théorème limite central La loi du logarithme itéré implique le fait suivant. Les lois faible et forte des grands nombres.n  = E φ √n + √n − φ √n − φ √n + √n + φ √n  1≤j≤n  -  Xj   Sj. tou- jours pour simplifier que E(X) = 0 et E(X 2 ) = 1.

2 Soit maintenant (Xn )n∈N une suite de variables aléatoires indépendantes. il vient   √    φ ∞    E φ(Sn / n) − E φ(Z)  ≤ 3/2 E |Xj |3 + |Zj |3 = o(1) n 1≤j≤n lorsque n → ∞. Soit (Xn )n∈N une suite de variables aléatoires réelles sur un espace probabilisé (Ω.2.n . 1).bibliomath. Soit (Xn )n∈N une famille de variables aléatoires gaussiennes. cen- trées.3. Convergence de suites de variables aléatoires où θj. Exercice V. i i “barbe” — 2007/1/8 — 10:41 — page 142 — #150 i i Chapitre V. de moyenne nulle et de variance 1. Démontrer que la série n Xn est p.1. P ) . Démontrer que Xn converge vers X dans tous les espaces Lp . a) Montrer que la suite (σn2 )n∈N est convergente et en déduire que X suit une loi gaussienne. Puisque Xj et Zj sont indé- pendantes de Sj. de variance (σn2 )n∈N convergeant en loi vers une variable aléatoire X. Exercice V. Il convient aussi de remarquer que la même démonstration fournit un théorème limite central pour des sommes de vecteurs aléatoires indépendants et de même loi.n sont donnés par la formule de Taylor.s. n→∞ 2 ln n Montrer également que max1≤i≤n Xi P √ → 1. Un raffinement de la méthode permet d’obtenir le théorème limite central sous la seule condition E(X 2 ) < ∞ (voir par exemple Pollard (1984)). Étudier le cas où les Xn ne sont pas centrées. convergente. b) On suppose que Xn → X en probabilité. Montrer que pour x > 0.    +∞ −x2 /2 1 1 1 e−t /2 dt ≤ e−x /2 .s. Montrer que Xn lim sup √ =1 p. toutes de même loi N (0. 2 ln n 142 i www. Exercices Exercice V. A.n et τj. on suppose qu’il existe une suite de réels (an )n∈N telle que les séries an et P { Xn = an } n n soient convergentes.com i i i . 2 2 e − 3 ≤ x x x x Indication : intégrer par parties t−1 te−t /2 .

i i “barbe” — 2007/1/8 — 10:41 — page 143 — #151 i i Exercices Exercice V.com i i i . ∞ [→ [ 0. Exercice V. ∞ [ vérifiant limt→∞ G(t)/t = ∞ telle que supi∈I E(G(|Xi |)) est fini. on lui associe une suite (Xn )n∈N de variables aléatoires indépendantes sur un espace probabilisé (Ω. Prouver que Xn + Yn converge en loi vers X et Xn Yn converge en loi vers 0.   1 si t > 1. Montrer que si P est de fonction de répartition F . À quelles conditions sur (αn )n∈N . A.6. Démontrer que Xn + Yn converge en loi vers X + Y . P ) dont les lois vérifient   0 si t < 0.8. A. à support compact.i–iv sont équivalents à limn→∞ φ dPn = φ dP pour toute fonction φ infiniment différentiable. Soient (Xn )n∈N et (Yn )n∈N deux suites de variables aléatoires réelles sur (Ω. Exercice V. Montrer que L(t) est infiniment dérivable. P ) . En déduire que # λθ k 0 si θ > x.4. a) Soit P(λ) = n∈N e−λ λn! δn la loi de Poisson de paramètre λ. la suite (Xn )n∈N converge-t-elle en loi ? en probabilité ? presque sûrement ?   Exercice V. Soit (Xi )i∈I une famille de variables aléatoires réelles sur (Ω. Donner un exemple montrant que l’hypothèse d’indépendance est indispensable. Démontrer que la fa- mille (Xi )i∈I est uniformément intégrable. Montrer que n si Xλ est de loi P(λθ) alors (Xλ − λθ)/λ converge en probabilité vers 0 lorsque λ → ∞. Soit (αn )n∈N une suite de nombres appartenant à [ 0. b) On suppose que Y = 0.5. alors (−1)k lim λk L(k) (λ) = F (x) λ→∞ k! k≤λx en tout point de continuité de F . Exercice V. 1 ] . on suppose qu’il existe une fonction G : [ 0. P ) convergeant en loi respectivement vers X et Y . A.bibliomath. P { Xn ≤ t } = αn + (1 − αn )tn si t ∈ [ 0. Montrer que 4. Une formule d’inversion de la transformée de Laplace. 143 i www. lim e−λθ = λ→∞ k! 1 si θ < x. 1 ].1. k≤λx ∞ b) Soit L(t) = 0 e−tx dP (x) la transformée de Laplace d’une loi P sur R+ . a) On suppose que pour tout n. Xn et Yn sont indépendantes et que X et Y sont indépendantes.7.

y et m > 0. σ 2 ) et supposer ϕX intégrable par rapport à la me- sure de Lebesgue.9. Convergence de suites de variables aléatoires Exercice V. Appliquer le théorème limite central à une suite (Xn )n∈N de va- riables aléatoires indépendantes de même loi de Poisson de paramètre 1 pour trouver la limite de la suite nk un = e−n . Notons f X la densité de X. et montre que ϕX caractérise F X et donc P X . Exercice V. Soit (Xi )i≥1 une suite de variables aléatoires. lorsque n → ∞. . 144 i www. c) Montrer que pour tous x. Une formule d’inversion de la transformée de Fourier. Y deux variables aléatoires réelles indépendantes. b) Prendre Y de loi N (0. montrer la formule donnée au théo- rème III. Montrer que presque sûrement Pn converge étroitement vers P . de loi uniforme sur [ 0. On appelle mesure empirique de X1 . Montrer que n min1≤i≤Nn Xi converge en loi. En considérant σ → ∞. Soit (Xi )i≥1 une suite de variables aléatoires réelles.5. 1 ].12.10. a) Montrer que E(e−itY ϕX (Y )) = E(ϕY (X − t)). Soit Nn une variable aléatoire de loi binomiale B(n. −∞ π 0 t π 0 t  ∞ sin(tx) On rappelle que dt = signe(x)π/2.bibliomath. k! 0≤k≤n Réponse : 1/2. .4.  1 e−itx − e−ity X m ϕ (t) dt 2π −m it  ∞  m   1 sin t(z − x) 1 m sin t(z − y) = dt − dt f X (z) dz . alors  1 m e−itx − e−ity X F (y) − F (x) = lim X X ϕ (t) dt . Soient X. n ∈ N. t ∈ R. m→∞ 2π −m it ce qui donne une formule d’inversion de Fourier. . . vers une variable aléatoire exponentielle de moyenne 1/p. Xn la loi de probabilité Pn = n−1 1≤i≤n δXi (cette mesure est aléatoire puisque les Xi le sont). Exercice V. i i “barbe” — 2007/1/8 — 10:41 — page 144 — #152 i i Chapitre V. indépen- dantes et de même loi P .11. p).com i i i . 0 t En déduire que si x et y sont des points de continuité de F X . Exercice V.

1 ]. n−1 1≤i≤n xi ) tend vers p. P ).14.3. Si Fn (resp. i ∈ N. on peut utiliser la monotonie et la bornitude de F . à cette fin.1..e. Indication : considérer la construction en triangle U1 = 2−1 X1 + 2−2 X2 + 2−3 X4 + 2−4 X7 + · · · U2 = 2−1 X3 + 2−2 X5 + 2−3 X8 + · · · U3 = 2−1 X6 + 2−2 X9 + · · · U4 = 2−1 X10 + · · · . Montrer que les lois L(p) n’ont pas de parties discrètes. indépendantes. 1 ]. Exercice V. n ≥ 1. sur R. Au théorème IV. 1 } la fonction de répartition de L(p) est continue. p) et soit L(p) la loi de U (p) . 1/2. .i et la loi forte des grands nombres. 1/2) construites à l’exemple IV.ii. En utilisant l’exercice V.7.13 et l’exemple V. Montrer alors que si l’on se donne une famille de loi Pi .bibliomath.1. 145 i www. les variables aléatoires de loi B(1. Exercice V.13.i. Notons −i x = i≥1 2 xi son développement en base 2. Indication : déterminer les mesures sous L(1/2) des intervalles dyadiques. on prendra garde au fait que l’ensemble de mesure nulle sur lequel limn→∞ Fn (t) = F (t) doit pouvoir être pris indépendant de t . telles que Zi est de loi Pi . mais pas ab- solument continue. la proportion de 1 dans le développement en base 2 (i.1 nous avons vu comment construire une suite infinie de variables aléatoires indépendantes. Donnons ici une construction plus explicite sur R. Soient Xn . Donc si p ∈ { 0.1. Soit x ∈ [ 0. pour presque tout x. 1 ] (loi uniforme sur [ 0. de loi B(1. montrer qu’on peut construire une suite (Un )n≥1 de variables aléatoires uni- formes sur [ 0. Notons U (p) la variable aléatoire réelle i≥1 2−i Xi où les Xi sont indépendantes. Nous avons donc dans ce cas une preuve constructive du théorème de Kolmogorov IV. i i “barbe” — 2007/1/8 — 10:41 — page 145 — #153 i i Exercices Indication : utiliser la définition V. indépendantes. b) Montrer que L(1/2) est la mesure de Lebesgue sur [ 0. En déduire que les lois L(p) sont étrangères les unes par rapport aux autres.3. F ) est la fonction de répartition de Pn (resp.4. montrer que sous L(p) .3. a) En utilisant la loi forte des grands nombres.com i i i . 1 ]). on peut construire une suite de variables aléatoires réelles (Zi )i∈N .1.

a) Montrer l’inégalité P X − P Y  ≤ P { X = Y }. P ) de lois respectives P X et P Y . Convergence de suites de variables aléatoires Exercice V. On s’intéresse à la probabilité de revenir une infinité de fois à son point de départ. La variable aléatoire Sn représente donc la position au temps n du marcheur parti de 0.bibliomath. b) Déduire de la question précédente que P (A) = 0 si p = 1/2. a) Démontrer que Sn /n converge presque sûrement vers une limite que l’on précisera. Soient µ et ν deux mesures de probabilité sur un espace mesu- rable (E. mutuellement indépendantes. Exercice V. Conclure. puis que P { supk |Zk | = ∞ } = 1. P { Zk ≥ M } = ∞ . i i “barbe” — 2007/1/8 — 10:41 — page 146 — #154 i i Chapitre V. On considère une marche aléatoire sur Z. Soit B − = { inf n≥1 Sn / n = −∞ }. que pour tout réel M . 1 } de paramètre 0 < p < 1 (autrement dit P { Xn = 1 } = 1 − P { Xn = −1 } = p pour tout n).com i i i . k≥0 ii) Conclure de la question précédente que P { supk Zk ≥ M } = 1 pour tout M . A. c) On suppose à présent que p = 1/2. soit Zk = (S 2k+1 − S2k )/ 2k . re- présentée par une suite (Xn )n≥1 de variables aléatoires sur un espace probabilisé (Ω. que P (B + ) = P (B − ) = 1. partant de l’origine. B). On appelle distance en variation totale la quantité µ − ν = sup |µ(B) − ν(B)| . en faisant usage du théorème limite central. A. iv) Déduire de ce qui précède que P (A) = 1. c’est-à-dire à la probabilité de l’événement A = { Sn = 0 pour une infinité de n } . à l’aide de la question ii). Démontrer que P (B + ) = P (B − ). √ i) Pour tout √ k ≥ 0. n ≥ 1. En déduire. et par convention S0 = 0. 146 i www.16. n≥1 n √ iii) Démontrer avec la loi du 0–1 que l’événement B + = { supn≥1 Sn / n = +∞ } √ est de probabilité 0 ou 1. Prouver que Zk a même loi k que S2k / 2 . et de même loi de Bernoulli sur { −1. En déduire que  S    n P sup √  = ∞ = 1 . P ).15. On pose Sn = X1 + · · · + Xn . B∈B Soient X et Y deux variables aléatoires sur (Ω.

Démontrer qu’il existe une variable aléatoire Z suivant une loi de Poisson de paramètre λ = 1≤i≤n pi telle que P S − P Z  ≤ p2i . .bibliomath. 147 i www. A. i = 1.com i i i . i i “barbe” — 2007/1/8 — 10:41 — page 147 — #155 i i Exercices b) Soient Y et ε deux variables aléatoires indépendantes sur (Ω. .6 pour pi = λ/n. 0 < pi < 1. . 1 ≤ i ≤ n (n ≥ λ). Soit X = 1 − ½{ε=Y =0} . . P ). Calculer la loi de X et démontrer que l’on a P { X = Y } ≤ p2 . λ > 0. c) Soit S une variable aléatoire de même loi qu’une somme de n variables aléatoires indépendantes de lois de Bernoulli de paramètre pi . Y de loi de Poisson de paramètre 0 < p < 1 et ε de loi de Bernoulli de paramètre 1 − (1 − p)ep .5. n. 1≤i≤n d) Retrouver le théorème V.

i i “barbe” — 2007/1/8 — 10:41 — page 148 — #156 i i i www.bibliomath.com i i i .

Imaginons maintenant que nous lancions le dé sans le regarder. sur un espace (Ω. à chaque jet. P ). Notons Ωpair = { 2. La variable aléatoire X. le nombre de façon d’obtenir ω dans Ωpair . alors P (A | B) = 0. si on admet que le poids d’un individu est une variable aléatoire continue. ce qui revient au même ici. A ∈ A. 6 }. A. nous pou- vons réévaluer nos chances d’obtenir un certain ω ∈ Ω. on peut construire une nouvelle mesure de probabilité P (A ∩ B) P (A | B) = . 6 }. Clairement. On peut modéliser le jet en se donnant l’espace Ω = { 1. et si ω est pair.com i i i . Par exemple. P (B) > 0). divisé par le cardinal de Ωpair . cette chance est nulle. Étant donnée cette information. Dans un jeu de dé. 2. et qu’un spectateur nous dise que nous avons obtenu un chiffre pair. 3. on pourrait chercher la loi de la taille étant donné le poids. i i “barbe” — 2007/1/8 — 10:41 — page 149 — #157 i i VI PROBABILITÉS ET ESPÉRANCES CONDITIONNELLES Commençons par un exemple. De façon plus générale.bibliomath. 5. si ω est impair. Nous verrons dans ce chapitre comment i www. chacune des six faces sont équiprobables. 4. si l’on sait effectivement qu’un événement B est réalisable (i.e. La façon dont nous évaluons la probabilité de ω sachant que ω ∈ Ωpair consiste à évaluer P ({ ω } ∩ Ωpair )/P (Ωpair ). 4. représentant le ré- sultat du jet. la tribu de ses parties P(Ω) et la loi de probabilité P définie par P ({ ω }) = 1/6 pour tout ω ∈ Ω. On peut imaginer des situations plus compliquées où l’on souhaite naturelle- ment conditionner par un événement de mesure nulle. P (B) appelée probabilité conditionnelle de A sachant B. ou. Observons que P (B | B) = 1 et si A ∩ B = ∅ ou P (A ∩ B) = 0. elle est 1/3. peut être prise comme étant l’identité de Ω sur lui-même.

VI. puis se prolonge. et soit B ∈ A tel que P (B) > 0. A. x ] | B) ∈ [ 0. A. dans le cas où Ω = Rd . (i) Soit X une variable aléatoire de loi exponentielle de para- mètre 1. on peut définir une fonction de répartition conditionnelle sachant B. Mais commençons par le cas simple où l’on conditionne par un événement de probabilité positive.1. X ≥ s} P{X ≥ s + t} P{X ≥ s + t | X ≥ s} = = P{X ≥ s} P{X ≥ s} e−(s+t) = = e−t . notée P ( · | B).1. son intégrale par rapport à la probabilité conditionnelle P ( · | B) est égale à   1 X dP ( · | B) = X dP . P ) un espace probabilisé. la mesure de probabilité définie par A ∈ A → P (A ∩ B)/P (B). une fonction caractéristique conditionnelle t ∈ Rd → eit. i i “barbe” — 2007/1/8 — 10:41 — page 150 — #158 i i Chapitre VI. (i) On appelle probabilité conditionnelle de l’événement A sachant B le nombre P (A ∩ B)/P (B). t > 0. remarquons que P (A | B)P (B) = P (B | A)P (A) = P (A ∩ B) . Conditionnement discret D´efinition VI.com i i i . 1 ]. (ii) On appelle loi conditionnelle sachant B.2. noté P (A | B). ceci se vérifie d’abord sur les variables indicatrices et étagées. puisque la probabilité conditionnelle P ( · | B) est une probabilité. Enfin. Soit (Ω.1. Probabilités et espérances conditionnelles formaliser cela. la probabilité que X dépasse s + t sachant que X dépasse s est donnée par P{X ≥ s + t. P ).x dP (x | B). Exemples VI. x ∈ Rd → P (] −∞. Observons que pour tous s. Observons que si et seulement si A et B sont indépendants. Si P (A) > 0. Ω P (B) B Comme pour la construction usuelle de l’intégrale.bibliomath. c’est-à-dire que la connaissance de l’événement B n’apporte aucune information sur la réalisation ou non de A.1. e−s 150 i www. Notons également que si X est une variable aléatoire réelle intégrable sur (Ω. P (A | B) = P (A). lesquelles caractérisent la loi conditionnelle P ( · | B).

. .1] ·  a ≤ mn ≤ Mn ≤ b = U[a. Mn ≤ b } = P { a ≤ mn . Soit (Bi )i∈I un système complet d’événements sur (Ω. L’objectif que nous poursuivons maintenant est d’essayer de généraliser cette définition dans deux directions.I ⊂ N. . . . .1. et tous 0 ≤ a < b ≤ 1. . . 1 ].3. P { U1 ≤ u1 .bibliomath. Soit (Ω. . b−a 1≤i≤n On constate que cette probabilité est égale à P { V1 ≤ u1 . nous débutons par une situation discrète. . Vn ≤ vn } où V1 . 151 i www. . (ii) Soit (U1 . i i “barbe” — 2007/1/8 — 10:41 — page 151 — #159 i i VI. . . et B par une sous-tribu de Ω. On essayera ainsi de remplacer A par une variable aléatoire. D´efinition VI. . A. . .b] ⊗n (·).  Observons que. .    ⊗n U[0. Soit Mn = max1≤i≤n Ui et mn = min1≤i≤n Ui . forme un système complet d’événements si les Bi sont disjoints et P ( i∈I Bi ) = i∈I P (Bi ) = 1. Pour tout A ∈ A. . Cette propriété caractéristique de la loi exponentielle est traditionnellement appelée l’absence de mémoire (penser à X comme mesurant un temps aléatoire). Un ≤ un | a ≤ mn ≤ Mn ≤ b } P { U1 ≤ u1 . 1 ]. . P ) un espace probabilisé. a ≤ mn . .4.b] . un ∈ [ 0. Mn ≤ b } P { a ≤ U1 ≤ u1 ∧ b . . . a ≤ Un ≤ b } $ 1≤i≤n P { a ≤ Ui ≤ ui ∧ b } = $ P{a ≤ U ≤ b} $ 1≤i≤n 1≤i≤n (ui ∧ b − a) = $ 1≤i≤n (b − a)  ui ∧ b − a = . Au- trement dit. . . a ≤ Un ≤ un ∧ b } = P { a ≤ U1 ≤ b . Alors pour tous u1 . Comme annoncé. P ). la famille (Bi )i∈I forme une partition de Ω. Un ) un vecteur de variables aléatoires indépendantes. Une famille d’événe- ments (Bi )i∈I . Proposition VI. . et soit I ∗ = { i ∈ I : P (Bi ) > 0 }. . . .1. toutes de loi uniforme sur [ 0. Un ≤ un . Vn sont des variables aléatoires indépendantes de même loi U[a. . quitte à ajouter l’événement de mesure nulle N = Ω \ i∈I Bi . .com i i i . suivant le schéma E(½A ) = P (A). . Conditionnement discret On constate que cette probabilité conditionnelle est égale à P { X ≥ t }. A.1. .

i i “barbe” — 2007/1/8 — 10:41 — page 152 — #160 i i Chapitre VI. quelle est la probabilité qu’il sache effective- ment la réponse ? On suppose qu’un candidat ne sachant pas la réponse répond « au hasard ». C’est immédiat puisque P (A) = i∈I ∗ P (A ∩ Bi ) et.5. On conçoit donc qu’un questionnaire d’une trentaine de questions. chacune à trois ou quatre réponses possibles. Sachant que le candidat a répondu correctement à la question. Remarquons que pour m = 3 et p = 1/2. Exemple VI. pour tout k. i∈I ∗ P (A | Bi )P (Bi ) Démonstration. Ceci conduit à la définition suivante. plus P (B | A) est grand .bibliomath. (ii) De plus.1. c’est assez intuitif . Voici une application de la règle de Bayes qui justifie pleinement l’utilisation des questionnaires à choix multiple aux examens. dite de Bayes. Considérons des questions où m réponses possibles sont proposées et suppo- sons qu’un candidat a une probabilité p de connaître la réponse à une question prise au hasard parmi un ensemble fini de questions. et donc que chacune des m réponses possibles sont équiprobables. P (B | A) = 3/4. si P (A) > 0. Appliquons la règle de Bayes. Soit A l’événement « le candidat répond correctement » et B l’événement « le candidat connaît la réponse ». soit à même de rendre compte du savoir d’un étudiant ! Observons maintenant que la tribu B engendrée par une partition (Bi )i∈I . tout ensemble A ∈ B peut être fractionné sur les ensembles élémentaires Bi . ce qui est somme toute assez grand. d’événements de A est décrite comme la collection de toutes les unions possibles d’événements Bi et de leurs complémentaires. I ⊂ N. P (A | Bk )P (Bk ) P (Bk | A) = . De ce point de vue.com i i i . 152 i www. mp + 1 − p Donc. P (Bk | A)P (A) = P (Bk ∩ A) = P (A | Bk )P (Bk ) . il est pro- bable que le candidat connaisse la réponse s’il a donné une bonne réponse parmi de nombreuses proposées.  L’intérêt de la règle de Bayes est qu’elle exprime P (Bk | A) en fonction des P (A | Bk ). on a la règle. plus m est grand. pour tout k tel que P (Bk ) > 0. P (A | B)P (B) P (A | B)P (B) P (B | A) = = P (A) P (A ∩ B) + P (A ∩ B c ) P (A | B)P (B) 1·p = = P (A | B)P (B) + P (A | B c )P (B c ) 1·p+ m 1 (1 − p) mp = . Probabilités et espérances conditionnelles (i) P (A) = i∈I ∗ P (A | Bi )P (Bi ) (formule des probabilités totales). et donc renverse les conditionnements.

soit C = B.   P (A | B) dP = P (A ∩ B) = ½A dP . A. I ⊂ N. P(E)) une variable aléatoire discrète.s. P ). au sens où. supposons au contraire qu’il existe ω. A. (i) Si (Bi )i∈I est une partition mesurable de (Ω. ce qui est impossible puisque Y −1 (C) ∩ Y −1 (C  ) = Y −1 (C ∩ C  ) = Y −1 (∅) = ∅. ω  ∈ Bi .8. P ) → (E. Il existe alorsdes boréliens C. Exemples VI. D´efinition VI. Nécessairement. soit C = ∅.6. A). et donc mesurable par rapport à B.1. Pour tout ω ∈ i∈I Bi . i i “barbe” — 2007/1/8 — 10:41 — page 153 — #161 i i VI. Or Y −1 (C) = j∈J Bj et Y −1 (C  ) = j∈J  Bj pour certains J et J  . l’application A ∈ A → P (A | B)(ω) est une mesure de probabilité telle que P (Bi | B)(ω) = 1 si ω ∈ Bi .bibliomath. Conditionnement discret D´efinition VI. Ainsi.1. les Bi sont les atomes de la tribu σ(Bi : i ∈ I) engendrée par les Bi .7. pour tout B ∈ B tel que P (B) > 0. Les événements Y −1 ({ bi }) = { Y = bi } = { ω ∈ Ω : Y (ω) = bi } forment un système complet. Soit B une sous-tribu dans (Ω. une variable aléatoire réelle Y . ω ∈ Bi tels que Y (ω) = Y (ω  ). Soit B une tribu. En effet. I ⊂ N. (ii) Soit E = { bi : i ∈ I ⊂ N } un ensemble fini ou dénombrable et soit Y : (Ω. Un événement B ∈ B est appelé un atome de B si pour tout événement C ∈ B qui est inclus dans B.com i i i . A.1. Réciproquement. définie sur (Ω. et ω. B B 153 i www. P ) et B-mesurable. notée aussi P (A | B). et P (A | B)(ω) = 0 si ω ∈ Bi et P (A ∩ Bi ) = 0. l’ensemble Y −1 (C) ∩ Y −1 (C  ) n’est pas vide. La probabilité conditionnelle de A sachant une sous-tribu B est donc une variable aléatoire. les ensembles d’indices J et J  contiennent tous les deux l’indice i puisque ω ∈ Y −1 (C) et ω  ∈ Y −1 (C  ). engendrée par un sys- tème complet d’événements (Bi )i∈I .1. appelle probabilité conditionnelle de A ∈ A sachant B la variable aléatoire On i∈I ∗ P (A | Bi )½Bi . et donc de la forme Y = i∈I αi ½Bi p. Il convient enfin de remarquer que P (A | B) est « proche » de la fonction ½A « sur B ». Soit I ∗ = { i ∈ I : P (Bi ) > 0 }. Ce sont les atomes de la tribu engendrée par Y . est nécessairement constante sur chaque atome de B. C  disjoints   tels que Y (ω) ∈ C et Y (ω  ) ∈ C  . constante sur les  atomes de cette sous-tribu. si B est une sous-tribu de A engendrée par un système complet d’événements (Bi )i∈I .

s. Probabilités et espérances conditionnelles  En effet. Y = P (A | B). En conséquence.s. On appelle espérance condi- tionnelle de X sachant B. (Y − X)+ = 0. c’est alors une conséquence de la défini- tion VI.bibliomath. {X≥Y } d’où (X − Y )+ = 0 p. d’où X = Y p. En effet. notée E(X | B). ce qui conduit à la définition suivante. la somme est sur l’ensemble d’indices I ∗ .9. et de la même façon. il suffit de montrer l’identité pour un atome . puisque B = i∈J Bi pour un certain ensemble d’indices J. i i “barbe” — 2007/1/8 — 10:41 — page 154 — #162 i i Chapitre VI. P (Bi ) Bi i∈I ∗ Il est tout à fait important de remarquer que dans la définition de l’espé- rance conditionnelle. On peut alors remplacer ½A par une variable aléatoire. I ⊂ N.1. puisque   P (A | B)(ω) dP (ω) = P (A | Bi )½Bi (ω) dP (ω) Bj Bj i∈I  = P (A | Bj ) ½Bj (ω) dP (ω) Bj = P (A | Bj )P (Bj ) = P (A ∩ Bj ) . Dans le cas de la probabilité  conditionnelle P (A | B). B Y dP = B X dP avec X = ½A . A. P ) et soit B une sous-tribu engendrée par un système complet d’événements (Bi )i∈I . il vient   0= (X − Y ) dP = (X − Y )+ dP . ∗ P (Bi ) ∗ P (Bi ) Bi i∈I i∈I Donc P (A | B) est la variable aléatoire étagée obtenue en moyennant ½A sur les atomes de B. Observons que l’on peut réécrire P (A ∩ Bi )  1   P (A | B) = ½Bi = ½A dP ½Bi .s. . deux variables aléatoires  réelles intégrables X et Y sur (Ω. A. Soit X une variable aléatoire réelle intégrable sur (Ω. À titre de comparai- son. nous avons pour tout B ∈ B ⊂ A. 154 i www. Il est important de comprendre cette notion de proximité. la variable aléatoire B-mesurable   1 X dP ½Bi . prenant A = {X ≥ Y }. si et seulement si A X dP = A Y dP pour tout A ∈ A. P ) sont égales p. Soit I ∗ = { i ∈ I : P (Bi ) > 0 }.1.com i i i .1. D´efinition VI.

1. Ceci changerait éventuellement l’espérance conditionnelle.10. Exemple VI. Soit Y = 2X/2.11. mais seulement sur un ensemble de mesure nulle.1. Re- marquons aussi que si B ∈ B. B B et que si X est B-mesurable. Soit X une variable aléatoire sur (Ω. 2n + 1 + λ Y +1+λ n≥0 155 i www. Puisque Y est X-mesurable. E(X | B) = X p. nous étudions les atomes de σ(Y ) . Si B est engendrée par une variable aléatoire discrète Y . Pour évaluer E(X | Y ). (2n)! (2n + 1)! De même.1.bibliomath.com i i i . On pourrait aussi altérer les événements Bi et leur adjoindre ou retrancher des événements de mesure nulle. P (Bn ) Bn 2n + 1 + λ Ainsi (2n + λ)(2n + 1) (Y + λ)(Y + 1) E(X | Y ) = ½{Y =2n} = . E(Y | X) = Y p. A. P ) suivant une loi de Poisson de paramètre λ > 0. ce sont les ensembles Bn = { Y = 2n }.s. Notation VI. on note E(X | Y ) = E(X | B). De même que E(½A ) = P (A). P (Bn ) = P { Y = 2n } = P { X = 2n } + P { X = 2n + 1 } λ2n λ2n+1 = e−λ + e−λ . (2n)! (2n + 1)! D’où  1 (2n + λ)(2n + 1) X dP = . n ≥ 0.s. par construction. où  ·  est la fonction partie entière. On évalue    X dP = X dP + X dP Bn { X=2n } {X=2n+1} = 2nP { X = 2n } + (2n + 1)P { X = 2n + 1 } λ2n λ2n+1 = 2ne−λ + (2n + 1)e−λ . Conditionnement discret  sa valeur en tout point ω ∈ I\I ∗ Bi n’est pas définie.   E(X | B) dP = X dP . Il convient donc de bien comprendre que l’espérance conditionnelle n’est définie que P -presque sûrement. i i “barbe” — 2007/1/8 — 10:41 — page 155 — #163 i i VI. Calculons les espérances conditionnelles E(X | Y ) et E(Y | X). E(½A | B) = P (A | B).

P ) un espace probabilisé.. X − QX. comme dans la situation générale. Montrons-la d’abord en supposant X de carré intégrable. on souhaite que si deux versions de l’espérance conditionnelle coïn- cident sur une partie de A. telle que (i) ω → E(X | B)(ω) est B-mesurable . A. puisqu’elle peut prendre n’importe quelle va- leur sur les atomes de mesure nulle. P ).10. Soit (Ω. elles soient encore considérées comme étant égales d’un point de vue probabiliste.s. On peut donc parler de la projection QX de X sur L2 (Ω. ii) Existence. généralisant la définition VI. i = 1.com i i i . telles que pour tout B ∈ B. i) Unicité. { Z2 ≥Z1 } et donc Z1 = Z2 p. Alors il existe une unique (p. Cette projection vérifie  ∀ U ∈ L2 (Ω. notée E(X | B). Z2 . P ) . Soit de plus X une variable aléatoire réelle sur (Ω. en remplaçant une tribu en- gendrée par un système complet d’événements par une tribu arbitraire. D´efinition et th´eor`eme VI. A.s. B. la B Zi dP = B X dP . appelée espérance condi- tionnelle de X sachant B. A. et soit B une sous-tribu de A.) variable aléatoire. Alors X est un élément de l’espace de Hilbert L2 (Ω.   (ii) pour tout B ∈ B. Ω 156 i www.1. Dans les définitions précédentes de l’espérance conditionnelle.bibliomath.2. L’intérêt de cette généralisation est que nous pourrons alors conditionner par la tribu en- gendrée par une variable aléatoire. P ). P ) est fermé dans L2 (Ω. 2. nous avons vu que celle-ci n’est définie que presque partout. U  = (X − QX)U dP = 0 . VI.1.s. i i “barbe” — 2007/1/8 — 10:41 — page 156 — #164 i i Chapitre VI.1. Probabilités et espérances conditionnelles On voit sur cet exemple. Ainsi. puisque { Z1 ≥ Z2 } est B-mesurable. que l’espérance condi- tionnelle est définie seulement p. L’espace L2 (Ω.8. Alors. B E(X | B) dP = B X dP . Donc si A est un événement de mesure nulle. B.2. P ). Démonstration.1. Soient Z1 . Nous reprenons le raisonnement utilisé à la suite de  définition VI. P ). l’espérance conditionnelle par rapport à une variable aléatoire continue pourra être définie.9 et la notation VI. A. B-mesurables. inté- grable. { Z1 ≥Z2 }   0= (Z2 − Z1 ) dP = (Z2 − Z1 )+ dP .   0= (Z1 − Z2 ) dP = (Z1 − Z2 )+ dP. B. Conditionnement (général) Nous pouvons généraliser les exemples précédents.

Supposons maintenant X intégrable. Il ne reste plus qu’à vérifier que E(X | B) vérifie (ii). Ceci termine la construction de l’espérance conditionnelle. Conditionnement (général) Puisque QX est une classe d’équivalence de fonctions de L2 (Ω.3. P ) tel que µ(B) = B Z dP ..   E(X | B) dP = lim E(Xn | B) dP n→∞ B B   = lim Xn dP = X dP .s. 157 i www. En prenant U = ½B . Un certain nombre de propriétés découlent immédiatement de la démonstra- tion de la définition VI. vers une variable aléatoire notée E(X | B). De plus E(Xn+1 | B) − E(Xn | B) = QXn+1 − QXn = Q(Xn+1 − Xn ) = E(Xn+1 − Xn | B) ≥ 0 d’après ce qui précède. B ∈ B. A. On peut ainsi définir E(Xn | B) vérifiant (i)–(ii). E(E(Xn | B)) = E(Xn ) ≤ E(X) < ∞. Il existe donc un élément Z ∈ L1 (Ω. on définit E(X | B) comme un représentant B-mesurable de la classe de QX.2. B ∈ B. D’après le théorème de convergence monotone II. Enfin. n→∞ B B Enfin. on voit que    0 = (X − QX)½B dP = X dP − E(X | B) dP . positive p. P ) et X ≥ 0 p. Pour étendre l’existence au cas des variables uniquement intégrables. ce qui est encore une conséquence du théorème de convergence monotone. la suite E(Xn | B) converge p.2. écrivons X = X + − X − et posons E(X | B) = E(X + | B) − E(X − | B) .s. En effet. Xn = X ∧ n est de carré intégrable. si B ∈ B. alors E(X | B) ≥ 0 p. notons que si X ∈ L2 (Ω.s. Il est immédiat de vérifier que Z est alors une version de l’espérance conditionnelle E(X | B). P ). B. B-mesurable et intégrable. la mesure µ(B) = B X dP .s.  Une autre preuve de l’existence de l’espérance conditionnelle E(X | B) peut être fournie  à l’aide du théorème de Radon-Nikodym II. est absolument continue par rapport à P restreinte à B.bibliomath.1.com i i i . En effet. B.1. i i “barbe” — 2007/1/8 — 10:41 — page 157 — #165 i i VI. Ω B B ce qui fournit (ii) et prouve l’existence dans ce cas.2.3. Pour tout n. (prendre B = { E(X | B) < 0 } ∈ B dans (ii)). si X est intégrable.

1. 158 i www. (Le conditionnement successif E(E(X | B) | C) sera noté par la suite E(X | B | C). Suivant le schéma général de l’intégration. P ) dans l’espace de Hilbert L2 (Ω. on peut commencer par projeter sur L2 (Ω.2.2. B Puisque E(X | B) est B-mesurable.2. P ). E(X | B) = E(X) p.2.2.2. (viii) Si B ∈ B.ii.s.ii. alors E(X | B) ≤ E(Y | B) p. |E(X | B)| ≤ E(|X| | B) et (E(X | B))2 ≤ E(X 2 | B) p. E(XY | B) = Y E(X | B). (iv) Si φ : R → R est convexe et φ(X) est intégrable. i i “barbe” — 2007/1/8 — 10:41 — page 158 — #166 i i Chapitre VI. Y des variables aléatoires réelles intégrables sur (Ω. puis on décompose parties positive et négative. E(X | B) est la projection orthogonale de X sur le sous espace L2 (Ω. P ) ⊂ L2 (Ω.ii.) (vii) E(E(X | B)) = E(X). ½B et X sont indépendantes et donc pour tout B ∈ B. (iii) vient de la construction dans la démonstration de VI.s. (i) vient essentiellement de la linéarité de la projection Q dans la démonstration de VI.1. (ii) Si X ≤ Y . (ix) Le résultat est clair si Y = ½B . E(X | B) = E(X) p. P ). on a l’inégalité de Jensen : φ(E(X | B)) ≤ E(φ(X) | B) p.bibliomath. et soit B une sous-tribu de A. (iii) Si Xn converge p. (viii) Si B est indépendante de σ(X). alors : (i) E(aX + bY + c | B) = aE(X | B) + bE(Y | B) + c p. et en croissant vers E(X | B). (ix) Si Y est B-mesurable et XY est intégrable.1.1 : si X ≥ 0. E(E(X | B) | C) = E(X | C). B. Soient de plus X. (vi) vient de ce que L2 (Ω.2.1.s.   E(X | B) dP = ½B X dP = E(X) P (B) . A. P ) ⊂ L2 (Ω. C. (vi) Si C ⊂ B ⊂ A. E(X | B) = E(X) p.s. A.2. P ) .10 en utilisant (ii). B. (v) vient de VI.s. et donc pour les variables aléatoires étagées.com i i i .s. C.s. (vii) Prendre B = Ω dans VI. Soit (Ω. en prenant B = { E(X | B) < 0 } dans VI. (x) Si X est de carré intégrable. B. et que pour projeter sur L2 (Ω. A. A.s.s.2. P ). Probabilités et espérances conditionnelles Proposition VI. En particulier. alors E(Xn | B) converge p. vers X en croissant.s. ∅ }. P ) un espace probabilisé. P ). (iv) se démontre comme l’inégalité de Jensen II. (v) Si B = { Ω. E(X | B) ≥ 0 p. (ii) a été démontré dans la démonstration de VI. on approxime ensuite les va- riables positives par des variables étagées. Démonstration.1. B ∈ B.

c’est-à-dire V = 0 p.s. Lois conditionnelles Le principe de conditionnement s’étend des espérances aux lois. . Par construction.3. D’après la proposi- tion I. . on note P (A | B) = E(½A | B). . Cette exten- sion s’appuie sur le résultat suivant connu sous le nom de lemme de Doob.bibliomath. Alors V est B-mesurable et E(U | B) = 0 d’après (i) et (vi) (avec B = C pour montrer que E(E(X | B) | B) = E(X | B)).7.  Notation VI. . telle que X = h(Y ). A) et soit X : Ω → R. Démonstration. en utilisant (vii)      E (X − Z)2 = E E (U + V )2 | B   = E E(U 2 | B) + 2E(U | B)V + V 2   = E E(U 2 | B) + E(V 2 ) . il suffit de démontrer le résultat pour une variable aléa- toire X positive ou nulle (écrire X = X + − X − ).3. et donc E(X | B) = Z p. Lemme VI.2. . X est limite croissante d’une suite de variables aléatoires étagées 159 i www.3. la notation P (A | B) = E(½A | B) est compatible avec la définition P (A | B) que nous avons donnée dans le cas d’un conditionnement discret. . Soit Y une variable aléatoire réelle sur (Ω. Réciproquement. Si X = (X1 . i i “barbe” — 2007/1/8 — 10:41 — page 159 — #167 i i VI. Si X = h(Y ) avec h borélienne.3. E(X | B) est le vecteur (E(X1 | B). on note E(X | Y ) pour E(X | B). .1 (de Doob). VI. Introduisons les variables aléatoires U = X −E(X | B) et V = E(X | B)−Z. Autrement dit. il faut et il suffit qu’il existe une application borélienne h : R → R. Pour que X soit mesurable par rapport à σ(Y ) (et la tribu boré- lienne). E(Xd | B)). Si B = σ(Y ) est la tribu engendrée par Y . Donc. . alors X est σ(Y )-mesurable. Ainsi.com i i i .s. X − Z2 est minimal pour Z = E(X | B). ce qui est la définition de la projection orthogonale. Lois conditionnelles (x) Soit Z une variable B-mesurable. Si X = ½A .2. E((X −Z)2 ) est minimal lorsque E(V 2 ) = 0. Xd ) est un vecteur aléatoire intégrable.

y) dx h(y) = E(X | Y = y) = R . R f (x. il existe une fonction borélienne h telle que E(X | Y ) = h(Y ). d’après VI. i ∈ I. L’espérance conditionnelle E(X | Y ) est σ(Y )-mesu- rable.1. l’image de Y .   1 E(X | Y = yi ) = X dP = X dP ( · | Y = yi ) P { Y = yi } {Y =yi } Ω où P ( · | Y = yi ) est la probabilité conditionnelle sachant { Y = yi }.9. Vérifions que l’on peut choisir  xf (x. une variable aléatoire étagée σ(Y )-mesurable est de la forme ai ½Y −1 (Bi ) = ai ½Bi ◦ Y . la suite (hn )n∈N converge en tout point de Y (Ω). si i ∈ I ∗ . La fonction h : R → R est borélienne et X = h(Y ).1.bibliomath. par le lemme VI. A. (i) Si Y prend un nombre fini ou dénombrable de valeurs yi . i i où la somme est finie. (ii) Supposons que la loi du couple (X. Probabilités et espérances conditionnelles σ(Y )-mesurables. Il existe donc une suite (hn )n∈N de fonctions boréliennes (étagées. Y ) ∈ R2 ait une densité f (x. Exemples VI. Y ) de variables aléatoires réelles sur (Ω. les Bi sont des boréliens et les ai ≥ 0. notée h(y) = E(X | Y = y). Elle s’écrit donc h(Y ) où h : R → R est la fonction borélienne i ai ½Bi . positives) telle que X = limn→∞ hn (Y ). D’après la définition de la tribu σ(Y ). y) par rapport à la mesure de Lebesgue. On notera le caractère abusif de cette notation puisque P { Y = y } peut être nul. En particulier. Ainsi.  Soit à présent un couple (X. y ∈ R.com i i i . l’espérance condition- nelle de X sachant Y = y. On conviendra d’appeler h(y).  1 E(X | Y ) = X dP P { Y = yi } {Y =yi } i∈I ∗   où I ∗ = i ∈ I : P {Y = yi } > 0 .3. i i “barbe” — 2007/1/8 — 10:41 — page 160 — #168 i i Chapitre VI. P ) tel que X soit intégrable.2. Poser alors (par exemple) h = lim supn→∞ hn . y) dx 160 i www.3. Ainsi.

En remplaçant.s. Ces exemples conduisent à la définition suivante. et par unicité. Y −1 (C) Donc h(Y ) vérifie VI. De la même façon. C un borélien et B = Y −1 (C). Il s’ensuit que la densité conditionnelle de X sachant Y = y est f (x. 161 i www.   φ(x)f (x. y) dx chant Y = y. y) dy dx R {y∈C}  = ½C (Y )X dP Ω = X dP .bibliomath. y) dx. Cette formule permet le calcul pratique des lois conditionnelles. h(Y ) = E(X | Y ) p. Ω Ainsi. puisque la loi de Y a pour densité R f (x. y)/f Y (y) où f Y est la densité de Y .     E φ(X)  Y = yi = φ(X) dP ( · | Y = yi ) .com i i i . Y ) dx E(φ(X) | Y ) =  = φ(x)K Y ( dx) f (x. y) dx où K y (dx) =  s’interprète comme la loi conditionnelle de X sa- f (x.i–ii. Pour tout borélien B. X par φ(X). la mesure image P ( · | Y = yi ) peut s’interpréter comme la loi de X « conditionnellement à Y = yi ». Soit.     h(Y ) dP = h(y) f (x.2.3. i i “barbe” — 2007/1/8 — 10:41 — page 161 — #169 i i VI. Lois conditionnelles  lorsque f (x. si φ est borélienne bornée. on a P ( · | Y = yi )X (B) = P { X ∈ B | Y = yi } . l’on voit que si P { Y = yi } > 0. y) dx dy Y −1 (C) {y∈C} R   = xf (x. pour l’exemple VI. (iii) Les deux exemples précédents peuvent être en fait approfondis quant à l’ex- pression des lois. En pratique. ceci permet de ramener le calcul des lois condi- tionnelles à un calcul d’intégrales. d’après la formule du transport. dans (i).3. y) dy > 0. Alors. à cet effet.1.2.ii. où φ est borélienne bornée. Y ) dx f (x.

s. Observons que pour toute fonction φ continue bornée.s. B) = K y (B) est une mesure de probabilité. On pose alors K Y (ω) (φ) = limk→∞ K Y (ω) (φik ).4.     E φ(X)  Y = φ dK Y p. Pour définir K Y (ω) (φ). Le théorème suivant fournit l’existence d’un noyau de transition d’un couple de variables aléatoires réelles.3.∞ ). On vérifie que la limite des K Y (ω) (φik ) ne dépend pas de la sous-suite ik choisie. Réciproquement. Y ) un vecteur aléatoire dans (R2 . (ii) pour tout y ∈ R. . exercice I. y → K(y. On note aussi L(X | Y ) ou L(X | Y = y) cette loi conditionnelle. On appelle transition. on considère une sous- suite (dépendant de φ) (ik )k∈N telle que limk→∞ φ − φik ∞ = 0. i i “barbe” — 2007/1/8 — 10:41 — page 162 — #170 i i Chapitre VI. où B(R2 )P est la tribu borélienne de R2 . de loi P .3.1.2. mais seulement de φ. et K Y (ω) (φi )(ω) = E(φi (X) | Y )(ω) est défini sur Ω \ N pour tout i ∈ N. Alors N = i∈N N (φi ) est de mesure nulle.4.1 et VI. Soit (X. La mesure K y (dx) est appelée la loi conditionnelle de X sachant Y . par VI. Il existe un noyau de transition K tel que pour toute fonction borélienne bornée φ. c’est-à-dire sauf sur un ensemble de mesure nulle dépendant a priori  de φ. ou sachant Y = y.3. la loi du couple peut être obtenue à partir de K et de la loi de Y : si φ et ψ sont deux 162 i www. B(R2 )P ). laquelle peut être identifiée à une mesure de probabilité.com i i i .3. Il généralise les exemples précédents. (Esquissée) La démonstration est dans le même esprit que celle du théorème V.4. puisque         E (φi − φj )(X)  Y (ω) ≤ E |φi − φj |(X)  Y (ω) ≤ φi − φj ∞ p.8). On pourra se référer à Dudley (1989) pour une démonstration complète. Th´eor`eme VI. B → K(y. la variable aléatoire E(φ(X) | Y ) est définie p. Probabilités et espérances conditionnelles D´efinition VI.s. On définit ainsi pour tout ω ∈ Ω \ N une forme linéaire continue sur C0 (R). P -complétée (cf.  Le noyau K dépend évidemment de la loi du couple (X. 1 ] telle que (i) pour tout B ∈ B(R). Démonstration. Y ). Soit maintenant φ ∈ C0 (R). B) = K y (B) est mesurable .bibliomath. toute fonction K : R × B(R) → [ 0. noté N (φ). ou noyau de transition. Soit(φi )i∈N une famille dense dans (C0 (R).

si X et Y sont indépendantes. A. dx) . R Si K y (·) désigne la loi de h(X. la loi conditionnelle de h(X. A.bibliomath. E(φ(h(X)) | X) = φ(h(X)). par les points (vii) et (ix) de la proposition VI. y). i i “barbe” — 2007/1/8 — 10:41 — page 163 — #171 i i VI.2. Y ) f (x.     E φ ◦ h(X. pour toute fonction φ borélienne bornée. Exemples VI. Y )  Y = φ ◦ h(x.     φ(u)K ( du) = E φ ◦ h(X. (i) Soit X une variable aléatoire et h : R → R mesurable .5. théorème III. la classe des fonctions boréliennes bornées φ qui déterminent une loi conditionnelle dans le théorème VI.2.3.3. Lois conditionnelles fonctions boréliennes bornées. Le paragraphe suivant décrit d’autres exemples de calculs d’espérances et de lois conditionnelles de variables gaussiennes. P ). Y ) sachant Y = y est la loi de h(X. Y ) dP X (x) . y) = y φ ◦ h(x. (ii) Soit un couple (X.      E ψ(Y )φ(X) = E E(ψ(Y )φ(X)  Y )   = E ψ(Y )E(φ(X) | Y )    = E ψ(Y ) φ(x)K(Y.2. D’après le théorème de Fubini et l’indépendance de X et Y . R R Ainsi. P ). indépendan- tes .3. f (Y ) R f (u. y) sur R2 . (iii) Soit un couple (X. Y ) de variables aléatoires réelles sur (Ω.3.com i i i . y) dP X (x) . Il suffit par exemple de ne considérer que les exponentielles complexes (cf.3. y). soit également h une fonction mesurable de R2 dans R. L’exemple VI.iii et le théorème VI. des énoncés et des propriétés précédentes relatives à des vecteurs aléa- toires de Rd . Y ) f X|Y (x) = Y = . quelle est la loi conditionnelle de h(X) sachant X = x ? Pour toute fonction φ borélienne bornée. de loi admettant une densité f (x. Il est aisé de constater sur un exemple que tel n’est plus le cas sans l’hypothèse d’indépendance. Y ) de variables aléatoires réelles défini sur (Ω.4 peut être considérablement restreinte.4 montre que la loi de X sachant Y admet une densité donnée par f (x.5. Il y est fait implicitement usage des conditions. Testons à présent notre compréhension des lois conditionnelles sur quelques situations simples. 163 i www.2) (fonctions caractéristiques). Y ) du À l’image de la théorie usuelle de l’intégration et des lois. et φ(h(X)) est aussi l’intégrale de φ contre la masse de Dirac en h(X). Il s’ensuit que L(h(X) | X = x) = δh(x) .

(Démonstration dans le cas centré. X est indépendante de Y . Il est commode de présenter cette application avec la notion d’espace gaussien. A.4. P ). . le vecteur (X1 . Probabilités et espérances conditionnelles VI. puisque si H est gaussien. (iii) X est indépendante de la tribu σ(H1 ) engendrée par les variables de H1 . Xn ) est gaussien (autrement pour tous X1 . . centré) et H1 un sous- espace (fermé) de H. Dans le cas gaussien. . . Un sous-espace vectoriel H de L2 (Ω. . . ces calculs sont relativement explicites. . . Xn ∈ H et tous α1 .1. . . . P ).com i i i . Xn ) est un vecteur aléatoire (Ω. i i “barbe” — 2007/1/8 — 10:41 — page 164 — #172 i i Chapitre VI. on dit que H est centré si toutes les variables de H sont centrées. Le théorème suivant décrit les propriétés d’indépendance dans les espaces gaussiens. . Proposition VI. la variable aléatoire dit. alors H0 = { X − EX : X ∈ H } est un espace gaussien centré. .4. De plus.) Il suffit de remarquer que si Xn est de loi N (0. . P ) est dit gaussien si pour tous X1 . X engendre l’espace gaussien (fermé) { 1≤k≤n αk Xk : αk ∈ R }. Pour plus de simplicité. Soient H un espace gaussien (fermé. Démonstration.3. Les propriétés suivantes sont équivalentes : (i) pour tout Y de H1 . . σn2 ) et converge dans L2 vers X. Th´eor`eme VI. et soit H sa fermeture dans L2 (Ω. E(XY ) = 0 . . on ne s’intéresse plus désormais qu’aux espaces gaussiens fermés. si réelle 1≤k≤n αk Xk est gaussienne). le cas général s’en déduit trivialement. . Soit H un espace gaussien.4. Espérances conditionnelles dans les espaces gaussiens Nous terminons ce chapitre par un exemple d’application de calcul d’espérance conditionnelle pour les vecteurs aléatoires gaussiens. D´efinition VI.2.  Par convention. Xn ∈ H. E(X 2 )). 164 i www. . (ii) pour tout Y de H1 . Soit X ∈ H fixé. gaussien à valeurs dans Rn sur Si X = (X1 . αn ∈ R. . nous les supposerons aussi toujours cen- trés . et on voit sur les transformées de Fourier que X suit une loi N (0. alors σn2 converge vers E(X 2 ). Alors H est encore gaussien.bibliomath. A. C’est l’exemple canonique qu’il convient de garder à l’esprit. .4. A.

d’où le résultat. Xip ).2. . . . on note que (i) implique que le couple (X. Espérances conditionnelles dans les espaces gaussiens Démonstration. Yn ∈ H1 .     M = E ∈ A : P { X ∈ B } ∩ E = P { X ∈ B }P (E) . pour (i)⇒(iii). . donc X et Y sont indépendantes par le théorème IV. On voudrait calculer E(Xn | Xi1 . . et soit X un élément de H. L’ensemble M est une classe monotone qui contient la classe E des intersections finies de Y −1 (C). . .3). Donc X est indépendante de σ(H1 ). . De la même façon. il suffit de montrer que si Y1 . ce qui se fait de façon identique. .3. .4. cette espérance conditionnelle est un élément de H1 et donc E(Xn | Xi1 .bibliomath. On écrit alors. En effet. . Xn ) soit un vecteur gaussien centré.4. Y ) est gaussien. Soit H1 comme précédemment.4. Yn ) est indépendant de X. . donc indépendante de σ(H1 ) (théorème VI.2. . par la propriété des espérances condi- tionnelles VI. D’après la proposition VI.4. . On désigne par σ(H1 ) la tribu engendrée par H1 (c’est-à-dire la plus petite tribu qui rend tous les éléments de H1 mesurables). Démonstration. E(X | σ(H1 )) = E(Y | σ(H1 )) + E(Z | σ(H1 )) = Y + E(Z) = Y . ip < n.2. Soit Y la projection de X sur H1 . posons pour tout borélien B. .viii.4. . i i “barbe” — 2007/1/8 — 10:41 — page 165 — #173 i i VI. Alors. c’est-à-dire E(Xn | σ(Xi1 . Xn ). . Donc M ⊃ M(E) = σ(E) = σ(H1 ). . . En particulier.4.com i i i . H étant engendré par (X1 . . . si tel est alors le cas. c’est une variable gaussienne. . .i et VI. Xip ). .  Comment utiliser ce résultat dans un calcul pratique ? Supposons par exemple que (X1 . . Cette projection est σ(H1 )-mesurable et X = Y + Z où Z est orthogonale à H1 . Clairement (iii)⇒(ii)⇒(i). Xip ) = αj Xij 1≤j≤p 165 i www. . . . Pour montrer (i)⇒(ii).  Le résultat précédent autorise des calculs d’espérances conditionnelles. . et soient i1 .2. . . Proposition VI. . de matrice de covariance diagonale . . C borélien. l’espérance conditionnelle E(X | σ(H1 )) est simplement la projection orthogonale (dans L2 ) de X sur H1 . Xip )) = E(Xn | σ(H1 )) où H1 est engendré par (Xi1 . . . le vecteur (Y1 .4. . Y ∈ H.

. Z) = X + Z. On a E(X | Y − X) = α(Y − X) et         E X(Y − X) = E E X(Y − X)  Y − X = αE (Y − X)2 . Pour la déterminer. . αp . . et intégrer. . Soit (Z1 . et soient pour 1 ≤ k ≤ n. Probabilités et espérances conditionnelles pour des coefficients réels α1 . β = 1 et donc E(Y | X. pour obtenir E(Xn Xi1 ) = αj E(Xij Xi1 ) 1≤j≤p et ainsi de suite avec Xi2 . . (i) Soit (X.bibliomath. conduisent au système # 0=α−β 3 = −α + 4β . . Y. . . Zn ). αp qu’il convient de calculer. . −1 3 4 Calculons E(Y | X. Xn ) permet ensuite de résoudre le système linéaire de p équations à p inconnues α1 . . i i “barbe” — 2007/1/8 — 10:41 — page 166 — #174 i i Chapitre VI. . il nous suffit de connaître sa transformée de 166 i www. Exemples VI. . . .   4/3 −1 (ii) Soit (X. . À cet effet. . Zk ) et Y = (Zk+1 . . . Xip . d’où −7/3 = α11/3 et E(X | Y − X) = − 11 7 (Y − X). .com i i i . La donnée de la covariance du vecteur (X1 . Zn ) un vecteur aléatoire gaussien. qui est une variable gaussienne centrée de variance 49/33. . Il vient α = 1. . Les égalités E(XY ) = αE(X 2 ) + βE(XZ) E(Y Z) = αE(XZ) + βE(Z 2 ) . Y ) un couple gaussien centré de matrice de covariance .5. . . Le calcul des espérances conditionnelles gaussiennes est en un certain sens suf- fisant pour la connaissance plus précise des lois conditionnelles. cette espérance conditionnelle est de la forme αX + βZ. . .4. Z). X = (Z1 . . On s’intéresse à la loi conditionnelle de X sachant que Y = y (∈ Rn−k ). centré. on peut par exemple commencer par multiplier cette identité par Xi1 . D’après ce qui précède. Z) un vecteur gaussien centré de matrice de co- variance   1 0 −1  0 5 3 . . . −1 1 Calculons E(X | Y − X).

c b La loi conditionnelle de X  sachant Y = y est donnée par la densité (cf.com i i i . En fait. y) 1 b b  c 2  =√ exp − x− y . de matrice de covariance   a c Γ= .iii) f (x. j ≤ k .3. y) dx 2π γ 2γ b de sorte que la loi de X conditionnelle à Y = y est N (m.X|Y ) E ei(t.X | Y ).X | Y ) = eiE(t. f (x. 2 Ainsi la loi conditionnelle de X sachant Y = y est une loi gaussienne de moyenne E(X | Y = y) (vecteur dans Rk ) et de matrice de covariance (k × k)   E (Xi − E(Xi | Y ))(Xj − E(Xj | Y )) . y) dx.     E(eit. On a      1 1 1 c2  2 b  c 2 f (x. X | Y ))2 . puisque t. exemple VI.2. Soit par exemple (X. On notera que. X − E(t. σ ne dépend pas de y. 2π γ 2γ b Ainsi +   f (x. X − E(t. Or. Espérances conditionnelles dans les espaces gaussiens Fourier conditionnelle E(eit. X  Y − E (t. y) = √ exp − Γ . 1 ≤ i. où  /    0  1 1 1 −1 x x f (x.4. X | Y ) et Y sont orthogonales et donc indépendantes. i i “barbe” — 2007/1/8 — 10:41 — page 167 — #175 i i VI. 167 i www. σ 2 ) avec m = (c/b)y et σ 2 = γ/b. y)/ f (x. y) dx = √ exp − a− y exp − x− dx 2π γ 2γ b 2γ b   1 1 1 c2  2 = √ exp − a− y . 2π γ 2 y y 1 1  1  = √ exp − (bx2 − 2cxy + ay 2 ) 2π γ 2γ avec γ = détΓ = ab − c2 > 0.X|Y ))  Y   = eiE(t.X−E(t. t ∈ Rk .bibliomath.X|Y ))     1   = exp iE t.X|Y ) E ei(t. comme précédemment. On peut également travailler directement sur les densités.X−E(t. Ceci explique qu’il suffit de calculer des espérances conditionnelles pour connaître les lois conditionnelles gaussiennes. Y ) un couple gaussien centré sur R2 .

. Soit X une variable aléatoire suivant une loi exponentielle de paramètre θ > 0. Montrer que pour tout k ∈ N. a) On pose P { X = 0 } = a.com i i i . .bibliomath. . En effet. telle que pour tous m. Probabilités et espérances conditionnelles on retrouve le résultat obtenu précédemment sous une autre méthode. . Soit X une variable aléatoire à valeurs dans N. Exercice VI. Soit X une variable aléatoire réelle quelconque. . . intégrables.5. et S étant leur somme. 1). . ainsi. p ∈ N. . Soit N une variable aléatoire à valeurs dans N. et soit a une constante réelle. t ≥ 0 .4. .7. indépendante de la suite X. Xn des variables aléatoires indépendantes suivant chacune la loi N (0.6. Xp des variables aléatoires indépendantes suivant des lois de Poisson de paramètres respectifs λ1 . σ 2 = E((X − E(X | Y ))2 ) = E((X − (c/b)Y )2 ) = γ/b. . . 1 − 1/n). Interpréter le résultat. Xp ) sachant que 1≤i≤p Xi = n. Soient X1 . Montrer que XN est une variable aléatoire. Le cas b = 0 (et donc c = 0) est trivial. i i “barbe” — 2007/1/8 — 10:41 — page 168 — #176 i i Chapitre VI. et donc α = c/b . 168 i www. de même loi. Démontrer que la loi de X1 sachant Sn = 1≤i≤n Xi est la loi N (Sn /n. Déterminer la loi de X. . E(X | Y ) = αY où α est tel que E(XY ) = αE(Y 2 ). Exercices Exercice VI. Soient X et Y des variables aléatoires indépendantes. Établir que P{X ≥ t + s | X > t} = P{X > s}. . Déterminer la loi condi- tionnelle du vecteur aléatoire (X1 . Comparer les lois des couples (X.2. Exercice VI. En déduire que E(X | X + Y ) = E(Y | X + Y ) = (X + Y )/2.8. X + Y ) et (Y. b) Soit Y une copie indépendante de X. s. X1 et X2 étant les résultats indépendants de deux jets de dés. X et Y sont indépendantes et E(X | Y ) = E(X) = 0 (puisque X est centrée). λp . quelle est la loi de X1 sachant que S est paire ? Exercice VI. la loi de XN sachant N = k est la loi de Xk . . Exercice VI. . Déterminer la loi de X conditionnée par X ∧ a. Exercice VI.3.1. À noter que si c = 0. Exercice VI. Soit X = (Xn )n∈N une suite de variables aléatoires. Soient X1 . . Exercice VI. n ∈ N. Quelle est la loi de S = X + Y ? Déterminer la loi conditionnelle de X sachant S = p. X + Y ). P{X ≥ m + n | X ≥ m} = P{X ≥ n} (on dit que X est sans mémoire).

Démontrer que la loi de Y se représente par le vecteur tPM . Soit F X|y (x) la fonction de répartition de la loi conditionnelle L(X | Y = y). Y ) de loi P .14. b) Montrer que R et θ sont indépendantes et en déduire la loi de R2 sachant que θ = π/4 ou 5π/4 (c’est-à-dire sachant que Y = X). Exercice VI. i ∈ N. 1 ]). de marges P X et P Y .13. on désigne par M le vecteur de Rn représentant la loi de X : Mi = P { X = i }.9. F (x) 169 i www. 1 ]. . i. . j = 1. . 1 ].bibliomath.n ≥ s | Xi. Déterminer à quelle condition sur P il existe des variables aléatoires X et Y à valeurs dans { 1. Exercice VI. Exercice VI. s ≥ 0. Exercice VI. On appellera une telle matrice.com i i i . Indication : on pourra écrire R2 = 12 ((X + Y )2 + (X − Y )2 ). . λ).j = P { Y = j | X = i } .j≤n . données sur R2 .13. 1). a) Montrer que X + Y et X − Y sont indépendantes et en déduire la loi de R2 sachant que Y = X. . i i “barbe” — 2007/1/8 — 10:41 — page 169 — #177 i i Exercices Montrer que cette propriété caractérise la loi exponentielle parmi les lois à den- sité. Nous avons vu à l’exercice V. Ceci donne un procédé de simulation d’un vecteur aléatoire. Montrer que  1 − F (x + s) n−i P { Si+1. Prouver que limh→0 h−1 P { t < X < t + h | X > t } = θ pour tout t. Y← Montrer que le couple (F Y ← (U ).n = x } = . n } telles que Pi. n . F X|F (U ) (V )) est de loi P . On se donne une matrice carrée P = (Pi. x ∈ R.j )1≤i. . n.n ≥ s | Xi+1. . P étant une matrice de transition (loi conditionnelle de Y sachant X). Soient X et Y deux variables aléatoires réelles indépendantes de loi N (0. c) Pour montrer que les résultats ne sont pas contradictoires. V deux variables aléatoires indépendantes et de loi uniforme sur [ 0. s ≥ 0. matrice de transition (voir chapitre VIII). . préciser les sous- tribus de conditionnement dans les deux questions. i = 1. Exercice VI. .11. . . 1 − F (x) et que  F (x − s) i P { Si+1.10. et (X. . On pose X = R cos θ et Y = R sin θ. x ∈ R. On reprend les notations de l’exercice IV.n = x } = .12.14 comment construire une suite infinie de variables aléatoires indépendantes sur l’espace probabilisé ([ 0. Soit P une loi sur R2 . construire sur cet espace une suite de vecteurs aléatoires indépendants de loi Pi . B([ 0. À l’aide de l’exercice V. Soient U.

b) Montrer que 1 − Ln (x) = (n − 1) −1 1≤i≤n Ii. ce résultat donne une idée sur la taille des écarts entre les points aléatoires adjacents X1.n = 1 }.n .n ces va- riables aléatoires ordonnées. Xn. .x] (nSi. laquelle compte la pro- portion d’espacements plus petits que x/n. c) Montrer que Ii. Ij.1. c’est-à-dire que sa loi est invariante par permutation des coordonnées (voir aussi exercice III.4. la bornitude et la monotonie de L.n .n − Xi−1. Observons que L est la fonction de répartition d’une loi Q. indépendantes et de même loi admettant une densité f . Soient X1 .n . Xn des variables aléatoires réelles. R Soit enfin Ii. . Xn ne tombe dans l’intervalle ] Xi .bibliomath. et définissons les espacements Si. . Xi + x/n ] et Ii. Montrer que e) implique  1 lim h(nSi. qui mesurent les distances entre les variables adjacentes (faire un dessin).n ) = h dQn . . . i i “barbe” — 2007/1/8 — 10:41 — page 170 — #178 i i Chapitre VI. montrer que lim sup |Ln (x) − L(x)| = 0 en probabilité.n .n = 1.n) n−1 2≤i≤n la fonction de répartition empirique des espacements. .n = Xi. d) Évaluer P { Ii.n = 1 . Notons  L(x) = 1 − f (z)e−xf (z) dz . g) Soit maintenant h une fonction continue bornée sur R. . Soit 1 Ln (x) = ½[0.n suit une loi de Bernoulli de paramètre  n−1  E 1 − F (X1 + x/n) + F (X1 ) .n = 0 sinon. 2 ≤ i ≤ n. . Indication : Penser au théorème de convergence dominée ! En déduire que Ln (x) converge vers L(x) en probabilité f) En utilisant la continuité. Re- marquer que (n − 1)−1 2≤i≤n h(nSi. .n ) = h dQ en probabilité.8). . a) Montrer que le vecteur (I1. Soit X1. In.14. si aucune des variables X1 . . . .n ) est échangeable.n . n→∞ n − 1 2≤i≤n Indication : Soit Qn la loi de probabilité de  fonction de répartition Ln . . puis utiliser la définition- théorème V. .com i i i . n→∞ x∈R Pour n assez grand. e) Montrer que limn→∞ E(Ln (x)) = L(x) et que limn→∞ E(Ln (x)2 ) = L(x)2 . . 170 i www. Probabilités et espérances conditionnelles Exercice VI.n ≤ · · · ≤ Xn.

U ) un couple de variables aléatoires indépendantes.7 nous donne une façon d’engendrer des variables aléatoires réelles.com i i i . x ≥ 0.15.n ) est une n-statistique d’ordre sur [ 0. Expliquer comment simuler des variables aléatoires indépendantes de loi Γp à partir d’une suite de variables aléatoires indépendantes et uniformes sur [ 0. U ). On note X1.n ). On dit alors que (X1. Xi ) des couples indépendants. Soient f .n ≤ · · · ≤ Xn. (Processus de Poisson) a) On considère une famille de variables aléatoires (X1 . t ]. ∀A ∈ B(R2 ) . . La proposition III. i ≥ 1. 1 ].16. b) Soient (Ui . est une suite de variables aléatoires indépendantes. Xn ). On souhaite simuler une variable de den- sité g.n ≤ · · · ≤ Xn. Soit (X. P { (X. Ce n’est pas toujours le cas en pratique. En déduire que L(X | cU f (X) ≤ g(X)) a pour densité g. a) Montrer que le couple (X. cU f (X)) ∈ A } = λ(A ∩ f ). Ni = min{ i ≥ Ni−1 : cUi f (Xi ) ≤ g(Xi ) } . cU f (X)) est uniformément distribué sous le graphe de f f = { (x. y) ∈ R2 : 0 ≤ y ≤ f (x) } .n la famille réarrangée dans l’ordre croissant. et qu’il existe une constante c telle que g ≤ cf . c) Soit maintenant γp (x) = Γ(p)−1 xp−1 e−x . 1 ]. de lois de densité g. t ]. i i “barbe” — 2007/1/8 — 10:41 — page 171 — #179 i i Exercices Exercice VI. . respectivement de lois de densité f et uniforme sur [ 0. cuf (x))f (x) du dx = ½Ax cuf (x) duf (x) dx où Ax est la section de A selon x. de même loi que (X. Soit f (x) = e−x . indépendantes et uniformément distribuées sur [ 0. .n ≤ · · · ≤ Xn. Donner la loi de (X1. Montrer que P { N1 = k } = (1 − c−1 )k−1 c−1 et que E(N1 ) = c. la densité de la loi Γp . . Montrer que XNi .bibliomath. p ≥ 1. Une méthode assez efficace est la méthode dite du rejet qui fonctionne comme suit. pourvu que la fonction de quantile soit facile à cal- culer. 171 i www. g. Soit N0 = 0 et.2. x ≥ 0. Expliquer pourquoi en pratique il faut prendre c le plus petit possible. en supposant qu’on sache facilement simuler une variable de densité f . Exercice VI. deux densités sur R. i ≥ 1. Indication : Remarquer que     ½A(x. c’est-à-dire qu’en notant λ la mesure de Lebesgue sur R2 .

tj+1 ] n!  (tj+1 − tj )kj+1 −kj = . . xi. .n ≤ · · · ≤ Xn. . pour tous 0 ≤ t1 ≤ · · · ≤ tn . puis la loi de Sn .n ) est une n-statistique d’ordre sur [ 0. i i “barbe” — 2007/1/8 — 10:41 — page 172 — #180 i i Chapitre VI. . tn (kj+1 − kj )! 0≤j≤p−1 Indication : On pourra utiliser a) et comparer le résultat cherché à une loi multinomiale. En utilisant c) et d). . kj+1 . Montrer que la variable Nt est finie presque sûrement. e) On pose Nt = n ½[0. .t] (Sn ). alors la loi conditionnelle de (X1. t ].n ≤ · · · ≤ Xn. . . n ≥ 1. Probabilités et espérances conditionnelles Indication : on pourra introduire les ensembles   Aσ = (X1. ki ! 1≤i≤n En déduire que les variables Nti+1 − Nti sont indépendantes et suivent des lois de Poisson de paramètre λ(ti+1 − ti ). p − 1. indé- pendantes. . .n ) = (Xσ(1) ≤ · · · ≤ Xσ(n) ) pour toute permutation σ à n éléments. . kn . Considérons des réels 0 = t0 ≤ t1 ≤ · · · ≤ tp ≤ t et des entiers 0 = k0 ≤ k1 ≤ · · · ≤ kp = n. (Tk )k≥1 . Ntn − Ntn−1 = kn    λ(ti − ti−1 ) ki   = exp −λ(ti+1 − ti ) . Sn ) sachant Sn+1 = s est la loi d’une n-statistique d’ordre sur [ 0. .n ) sachant { Xn. Calculer la loi de (S1 . pour tous entiers k1 . . .n ≤ · · · ≤ Xn. . x ]. . on a   P Nt1 = k1 . . Nt2 − Nt1 = k2 . c) Supposons que (X1. t ].n ) est une n-statistique d’ordre sur [ 0.n ∈] tj . Montrer que   P ∀j = 0. . d) On considère une suite de variables exponentielles de paramètre λ.com i i i . montrer que. .n ≤ · · · ≤ Xn. . et on note Sn = T1 + · · · + Tn . b) Montrer que si (X1. s ]. . . 172 i www.n = x } a la loi d’une (n − 1)-statistique d’ordre sur [ 0. Sn ).bibliomath. Montrer que la loi conditionnelle de (S1 . ∀i = kj + 1. .

1. Généralités D´efinition VII. Sur un espace probabilisé (Ω.1. Dans cette étude. Intuitivement. VII. Sa donnée fondamentale est celle d’une famille croissante (Ft )t≥0 de tribus représentant l’évolution de l’information avec le temps. nous nous contenterons de l’examen de modèles à temps discret. la tribu Fn contient tous les événements qui peuvent survenir avant l’instant n. n ∈ N). De plus.2. Elle a son origine en théorie des jeux et introduit le temps dans l’analyse probabiliste. Une suite de variables aléatoires réelles (Xn )n∈N définies sur (Ω. D´efinition VII.com i i i .1. F.bibliomath.1. i i “barbe” — 2007/1/8 — 10:41 — page 173 — #181 i i VII MARTINGALES (À TEMPS DISCRET) La notion de martingale est une notion fondamentale du calcul des probabi- lités. i www. A. P ). notée F∞ . P ) est appelée un processus. engendrée par les tribus Fn . on dit que le processus est adapté à la filtration (Fn )n∈N si pour tout n ∈ N la variable aléatoire Xn est Fn -mesurable. on appelle filtration toute suite croissante (Fn )n∈N de sous-tribus de F (on pourra prendre pour F la tribu.

resp. sous- martingale) si et seulement si E(Xn − Xm | Fn ) = 0 (resp.3 pour tous n et m = n − 1. Fn )0≤n≤k indexées sur un nombre fini d’instants. ≤ 0. En effet. (iii) une sous-martingale. ce qui équivaut à ce que pour tout A ∈ Fn . A (Xn − Xm ) dP = 0 (resp. des sur-martingales ou des sous-martingales (Xn . On voit que (Xn . ≥ 0) pour tous m ≤ n. décroissante. Fn )n∈N est une martingale si et seule- ment si c’est à la fois une sur.s. E(Xn | Fm ) ≥ Xm p. Parfois. ≥ E(Xn−1 )). ≤ E(Xn−1 ). d’après les propriétés de conditionnements successifs des espérances condition- nelles. resp. si pour tous 0 ≤ m ≤ n. (ii) une sur-martingale. ≥ 0. si pour tous 0 ≤ m ≤ n. Soit un processus adapté (Xn . sous-martingale). ≤ 0. Fn )n∈N tel que Xn est inté- grable pour tout n.com i i i . une sur-martingale.. ≥ 0). i i “barbe” — 2007/1/8 — 10:41 — page 174 — #182 i i Chapitre VII.bibliomath. 174 i www. E(Xn | Fm ) ≤ Xm p.1. nous ne considèrerons que des martingales. Par conséquent. la suite (E(Xn ))n∈N est constante (resp.. Fn )n∈N est une martingale (resp.s. croissante) car E(Xn ) = E(E(Xn | Fn−1 )) = E(Xn−1 ) (resp. Fn )n∈N est une sur-martingale. Martingales (à temps discret) D´efinition VII. E(Xn | Fm ) = Xm p.et une sous-martingale. Fn )n∈N est une martingale (resp. nous nous contenterons parfois d’énoncer des résultats pour des sur- ou des sous-martingales. E(Xn − Xm | Fm ) = E(Xk − Xk−1 | Fm ) m+1≤k≤n = E(Xk − Xk−1 | Fk−1 | Fm ) = 0 m+1≤k≤n (resp. si pour tous 0 ≤ m ≤ n. On dit que le processus est (i) une martingale. sur-martingale.3. On peut aussi démarrer ces processus à n = 1 au lieu de n = 0. si m < n. resp.) Il suffit de vérifier la définition VII. ≤ 0.1.s. C’est une sous-martingale si et seulement si le processus adapté (−Xn . Observons aussi que si (Xn . En particulier. un processus adapté (Xn .

n ≥ 1. décroissant).1. idéalement. (ii) Soient Zn . tels que (i) (Yn . si n ≥ 2. Alors (Xn . Par définition. Il existe des processus (Yn )n∈N et (Zn )n∈N uniques presque sûrement. Fn )n≥1 est une martingale (resp. Fn )n∈N une sous- martingale.com i i i . F. . Ω }. Fn )n∈N est une sous-martingale et si φ est en outre croissante. M < 0. resp. Alors (Xn . resp. Fn )n∈N est une martingale. Th´eor`eme VII. nous dit qu’une sous-martingale (resp. n ≥ 1.iv fournit. Fn )n∈N est une sous- martingale . La suite (Fn )n≥1 est une filtration. sur-martingale) est un processus croissant (resp. par les propriétés des espérances conditionnelles (IV. P ). Noter en particulier le choix de φ(x) = |x| ou φ(x) = x2 . inté- grables et de moyenne M (i.2. En effet.1.2. . sur-martingale) peut toujours être vue comme une martingale à laquelle est ajou- tée un processus croissant (resp.2. . (i) Soit Z une variable aléatoire intégrable sur (Ω. Zn .5 (d´ecomposition de Doob). pour n ≥ m. On désigne par Fn la tribu engen- drée par Z1 . M > 0). la valeur de Zn peut être parfaitement prédite à l’instant n − 1. Posons Xn = E(Z | Fn ). Alors (φ(Xn ). F. sous-martingale) si M = 0 (resp. Fn )n∈N est une martingale . i i “barbe” — 2007/1/8 — 10:41 — page 175 — #183 i i VII. la décomposition de Doob. Soit (Xn . où l’on convient que F−1 est la tribu triviale { ∅. Considérons les sommes Xn = Z1 + · · · + Zn .      E φ(Xn )  Fm ≥ φ E(Xn | Fm ) = φ(Xm ). Exemples VII. d’avantage pour la partie à venir. 175 i www. en moyenne. l’inégalité de Jensen VI. P ) et (Fn )n∈N une filtration de F. n ∈ N. (iii) Soit (Xn . Le résultat est bien sûr encore vrai si (Xn .2). soit φ une fonction convexe sur R telle que φ(Xn ) soit intégrable pour tout n ∈ N.4.e. Généralités Si Xn représente la fortune d’un joueur à l’instant n. De plus. ce processus monotone (Zn )n∈N peut être pris non seulement adapté à (Fn )n∈N mais à (Fn−1 )n∈N .bibliomath. Fn )n∈N une martingale . Le résultat suivant. décroissant) en moyenne conditionnelle. E(Xn | Fn−1 ) = E(Z1 + · · · + Zn−1 + Zn ) | Fn−1 ) = E(Xn−1 | Fn−1 ) + E(Zn | Fn−1 ) = Xn−1 + M . en effet. une sous-martingale (resp. Autrement dit. et donc en moyenne. des variables aléatoires indépendantes sur (Ω. E(Zn ) = M ).1. . dire que (Xn ) est une martingale signifie que le jeu est équilibré. sur- martingale. au sens où la connaissance des parties passées ne donne pas.

176 i www. donc aussi Fn−1 -mesurable). n ≥ 1. une variable aléatoire T : Ω → N ∪ { ∞ } est appelée un temps d’arrêt si l’on a { T ≤ n } ∈ Fn pour tout n ∈ N. et donc  Yn+1 = Yn+1 p.1. i. (iii) Xn = Yn + Zn pour tout n ∈ N. i i “barbe” — 2007/1/8 — 10:41 — page 176 — #184 i i Chapitre VII. Zn ) une autre décom- position vérifiant (i)–(iii). Ω }) et presque sûrement croissant.com i i i . Y0 = X0 et pour tout n ≥ 1. En utilisant l’hypothèse de récurence.6. Alors    Zn+1 = E(Zn+1 | Fn ) = E(Xn+1 − Yn+1 | Fn ) = E(Xn+1 | Fn ) − Yn = E(Yn+1 + Zn+1 | Fn ) − Yn = Yn − Yn + Zn+1 . soit (Yn .bibliomath. Donc le processus Zn doit cumuler les sauts de la sous-martingale Xn . D´efinition VII. Alors Z0 = Z0 = 0 et donc Y0 = Y0 . Zn ≤ Zn+1 p. ce qui prouve l’unicité de la décomposition. Il est immédiat que l’on pourrait définir un temps d’arrêt T comme étant une variable aléatoire à valeurs dans N telle que { T =  n } ∈ Fn (puisque { T = n } = { T ≤ n } ∩ { T ≤ n − 1 }c et { T ≤ n − 1 } = 1≤i≤n−1 { T = i }). pour tout n ∈ N. Ceci conduit à considérer les différences ∆n = Xn − Xn−1 . Zn = E(∆i | Fi−1 ) et Yn = Xn − Zn . supposons Zj = Zj et Yj = Yj pour tout 0 ≤ j ≤ n.s.. Démonstration. F. Sur (Ω..s. P ) muni d’une filtration (Fn )n∈N . et le fait que Zn−1 est Fn−2 -mesurable. Une martingale est en moyenne constante.s. Par récurrence. Pour démontrer l’unicité de la décomposition. 1≤i≤n Le processus Zn est croissant (car E(∆n | Fn−1 ) ≥ 0) et Yn est une Fn -martingale puisque E(Yn | Fn−1 ) = E(Yn − Yn−1 | Fn−1 ) + Yn−1   = E ∆n − (Zn − Zn−1 ) | Fn−1 + Yn−1 = E(∆n | Fn−1 ) − (Zn − Zn−1 ) + Yn−1 = Yn−1 (nous avons utilisé la Fn−1 -mesurabilité de Zn . Soit Z0 = 0. il vient Zn+1  = Zn+1 p.e. Martingales (à temps discret) (ii) Z0 = 0 et Zn est Fn−1 -mesurable pour tout n ∈ N (avec la convention F−1 = { ∅.  Intimement liée à la notion de martingale se trouve être celle de temps d’arrêt.

i i “barbe” — 2007/1/8 — 10:41 — page 177 — #185 i i VII. on définit.9. Dans la suite.1. Alors XT est FT -mesurable.e.7. on définit la tribu des événements antérieurs à T en posant   FT = A ∈ F : A ∩ { T ≤ n } ∈ Fn pour tout n ∈ N . Généralités Néanmoins cette seconde définition ne se généralise pas convenablement au cas des martingales à temps continu (i. c’est-à-dire au processus (Xn )n∈N vu à l’instant aléa- toire T . une variable S constante étant un temps d’arrêt.1.   A ∩ {T ≤ n} = A ∩ {S ≤ n} ∩ {T ≤ n} est bien élément de Fn car intersection de deux éléments de Fn . Puisque S ≤ T . Lemme VII. Soit A ∈ FS . on ne dispose plus d’une suite (Xn ) indexée par les entiers mais d’une fonction Xt indexée par R). pour tout m ∈ N. Si (Xn . Démonstration. Proposition VII. Exemple VII. Soit (Xn . une variable aléatoire XT en po- sant XT (ω) = XT (ω) (ω) si T (ω) < ∞ (la valeur F-mesurable de XT (ω) quand T (ω) = +∞ est indifférente). Soient S et T deux temps d’arrêt. tels que S ≤ T (partout) . On vérifie immédiatement que FT est ef- fectivement une tribu et que T est FT -mesurable. On obtient bien sûr une définition équivalente en remplaçant l’événement { T ≤ n } par l’événement { T = n }.bibliomath. alors FS ⊂ FT . pour tout n ∈ N. Si T est un temps d’arrêt.8.com i i i . T ∧ m est un temps d’arrêt. Soit t un nombre réel et T = min{ n ∈ N : Xn ≥ t } avec T = ∞ s’il n’existe pas de tel n.1. lorsque nous parlerons de temps d’arrêt. En particulier.  Montrons maintenant que d’un point de vue probabiliste il est raisonnable de s’intéresser à l’objet XT . Fn )n∈N un processus adapté. On a aussi la proposition suivante. il sera toujours sous- entendu par rapport à une filtration (Fn )n∈N . alors S ∨ T et S ∧ T sont aussi des temps d’arrêt. Alors T est un temps d’arrêt puisque { T ≤ n } = { ∃ m ≤ n : Xm ≥ t } ∈ Fn et { T ≤ ∞ } = Ω ∈ F∞ .1. Notons à présent quelques propriétés des temps d’arrêt : si S et T sont deux temps d’arrêt. Fn )n∈N est un processus adapté et si T est un temps d’arrêt de la filtration (Fn )n∈N . 177 i www.

puis la notion de temps d’arrêt. Une classe naturelle de martingales à considérer pour conserver la propriété d’intégrabilité par arrêt est la classe des martingales dites L1 . Fn )n∈N une martingale L1 et T un temps d’ar- rêt fini p. b ∈ R . Pour le temps d’arrêt T ∧ m. cette variable aléatoire n’a aucune raison d’être intégrable.∞[(T ) = 0 . 178 i www. Il est naturel d’étudier l’intégrabilité de XT . alors XT est une variable aléatoire.  { XT ∈ B } ∩ { T ≤ n } = { Xk ∈ B .   E (Xi+1 − Xi )signe(Xi )½]i.1.∞[ (T )    = E E(Xi+1 | Fi ) − Xi signe(Xi )½]i. Fn )n∈N est une martingale et signe(Xi ) et ½]i. Soit la fonction ψ(a. En géneral. P { T < ∞ } = 1). Soit m ∈ N.10. i i “barbe” — 2007/1/8 — 10:41 — page 178 — #186 i i Chapitre VII. Remarquons que la définition d’une martingale (Xn ) suppose que chaque Xn est intégrable. 0≤i≤m−1 et donc   |XT ∧m | − |X0 | = |Xi+1 | − |Xi | ½]i. 0≤i≤m−1 Puisque (Xn .e. observons que |XT ∧m | = |Xi |½{i} (T ) + |Xm |½[m. a.1. (i.∞[(T ) . Soit (Xn .∞[(T ) sont Fi -mesurables.11.  Nous avons commencé par définir les martingales. b) = |a| − |b| − (a − b) signe(b) = |a| − a signe(b) ≥ 0 . T = k } 0≤k≤n qui est clairement mesurable par rapport à Fn puisque Xk est Fk -mesurable pour tout k. Une martingale (Xn .bibliomath. et venons de montrer que si T est un temps d’arrêt de la martingale. n∈N n∈N Proposition VII. D´efinition VII.∞)(T ) . Si B est un borélien de R et n un entier. Alors XT est intégrable et de plus E(|XT |) ≤ supn∈N E(|Xn |). Martingales (à temps discret) Démonstration.com i i i .s. Fn )n∈N est dite L1 si   sup Xn 1 = sup E |Xn | < ∞ . Démonstration.

dans ce cas.. Soit (Xn . une martingale). Th´eor`eme VII. Xi )½]i. il suffit que la martingale soit L1 . resp.       E |XT | ≤ lim inf E |XT ∧m | ≤ sup E |Xn | < ∞ .bibliomath. En effet. et en utilisant le lemme de Fatou II. est fondamental.s. Alors. Fn )n∈N une sous-martingale (resp. en utilisant la positivité de ψ. m→∞ n∈N ce qui démontre l’intégrabilité de XT . une sur-martingale. Pour les sur- ou les sous-martingales.11 donne une condition suffisante pour vérifier la condition d’intégrabilité E(|XTm |) < ∞ .s. une martingale).1. le théorème d’arrêt de Doob. où tm est une suite déterministe. Il exprime qu’un jeu reste équilibré à tout temps (d’arrêt) aléatoire. et soit (Tm )m∈N une suite de temps d’arrêt bornés de la filtration (Fn )n∈N .       E |XT ∧m | ≤ E |Xm | ≤ sup E |Xn | . FTm )m∈N est une sous-martingale (resp.      E |XTm | ≤ |Xn | dP ≤ E |Xn | < ∞ .3. Donc pour tout m ∈ N.1. le processus (XTm .1.2.com i i i .  Pour une martingale (Xn . et tels que Tn ≤ Tm pour tous n ≤ m. 1≤n≤tm {T =tn } 1≤n≤tm Le théorème suivant. une sur-martingale.∞[ (T ) 0≤i≤m−1   ≤ E ψ(Xi+1 . Xi ) 0≤i≤m−1   = E |Xi+1 | − |Xi | 0≤i≤m−1     = E |Xm | − E |X0 | . Fn )n∈N et une suite de temps d’arrêt (Tn )n∈N . limm→∞ |XT ∧m | = |XT | p. resp.12 (d’arrˆet de Doob). n∈N Puisque T < ∞ p.     E |XT ∧m | − |X0 | = E ψ(Xi+1 . i i “barbe” — 2007/1/8 — 10:41 — page 179 — #187 i i VII. une condition suffisante (et plus restrictive) est d’avoir Tm < tm < ∞ p. la proposition VII. Généralités Ainsi.s. 179 i www.

A ∩ { S = n } ∈ Fn et { T = n } = { T = n }c ∈ Fn .1. il suffit de considérer une sous-martingale (Xn .bibliomath. Nous nous contentons du cas des sous-martingales. Le théorème suivant est une conséquence du théorème d’arrêt par l’inter- médiaire de ce corollaire. Fn )1≤n≤k et deux temps d’arrêt S et T de la filtration (Fn )1≤n≤k tels que S ≤ T et de montrer que E(XT | FS ) ≥ XS . Martingales (à temps discret) Démonstration.12 implique E(X1 ) ≤ E(XT ) ≤ E(Xk ). on écrit pour tout A ∈ FS . i i “barbe” — 2007/1/8 — 10:41 — page 180 — #188 i i Chapitre VII. des sur-martingales.   (XT − XS ) dP = (XT − Xn ) dP A 1≤n≤k A∩{S=n}  = (Xn+1 − Xn ) dP 1≤n≤k A∩{S=n}∩{T =n} ≥0 puisque (Xn . alors A ∈ FRl (proposition VII. D’après le lemme VII. A 1≤l≤k A Le théorème est établi. le théorème d’arrêt VII. Fn )1≤n≤k est une sous-martingale. les autres cas se traitant de façon tout à fait identique. Il ne reste plus qu’à vérifier l’inégalité des sous-martingales (resp. C’est un énoncé faisant partie des inégalités dites maximales. Nous examinons d’abord le cas où la différence T − S ∈ { 0.com i i i . si A ∈ FS .  Si (Xn . des martingales).1. les XTm sont FTm -mesurables. d’après le premier cas.   (XT − XS ) dP = (XRl+1 − XRl ) dP ≥ 0 . S + l). Fn )1≤n≤k est une sous-martingale. De plus Rl+1 ≥ Rl et Rl+1 − Rl ∈ { 0. Nous montrons à cet effet que pour tout A ∈ FS .9. 180 i www. Comme les temps d’arrêt Tm sont bornés. on pose Rl = min(T.8) et. Les Rl sont des temps d’arrêt de (Fn )1≤n≤k . Maintenant. Pour en déduire le cas général. 1 }. Observons en outre que R0 = S et Rk = T . et si T est un temps d’arrêt de la filtration (Fn )1≤n≤k . resp.  (XT − XS ) dP ≥ 0 A (prendre A = { E(XT | FS ) < XS } pour conclure). 1 }.1. Dans ce cas. 1 ≤ l ≤ k.

12. alors XT ≥ t.13.1. et converge presque sûrement vers ½[t. Fn )1≤n≤k une sous-martingale . Fn )n∈N est une martingale. (Xn2 .8) que pour une martingale L1 . 1≤n≤k 1≤n≤k t Par exemple.  Si (Xn . pour tout k ∈ N et tout t > 0. Soit (Xn . et si max1≤n≤k Xn < t.iii). Le théorème VII.1.1.12 fournit dans ce cas. 1   P { sup |Xn | ≥ t } ≤ sup E |Xn | . On déduit donc de l’in- égalité précédente et du théorème de convergence dominée (II.   E(Xk ) ≥ E(XT ) = XT dP + XT dP { max1≤n≤k Xn <t } {max1≤n≤k Xn ≥t}    ≥ Xk dP + tP max Xn ≥ t .16). 181 i www.∞[ (max0≤n≤k |Xn |))k∈N est croissante et majorée par 1. On notera que si max1≤n≤k Xn ≥ t.s. Généralités Th´eor`eme VII. alors XT = Xk .1.2. si Xn = Z1 + · · · + Zn où les Zi sont indépendantes centrées et de carré intégrable. et donc. par le théorème d’ar- rêt VII.   E(Xk+ ) P max Xn ≥ t ≤ . Ainsi. on retrouve par ces méthodes l’inégalité de Kolmogorov (exer- cice IV. 1≤n≤k t Démonstration.1. {max1≤n≤k Xn <t} 1≤n≤k Par conséquent. i i “barbe” — 2007/1/8 — 10:41 — page 181 — #189 i i VII. n∈N t n∈N En particulier.com i i i . supn∈N |Xn | < ∞ p. pour tout t > 0. Lorsque de plus Xn est de carré intégrable.     1 P max |Xn | ≥ t ≤ P max Xn2 ≥ t2 ≤ 2 E(Xk2 ) .bibliomath. plus précisément sa conséquence ci-dessus.4.∞[ (supn∈N (|Xn |)). Fn )n∈N est une sous-martingale (exemple VII. alors (|Xn |. Fn )n∈N est une sous- martingale. 0≤n≤k t Observons que la suite (½[t.   E |Xk | P { max |Xn | ≥ t } ≤ .    tP max Xn ≥ t ≤ Xk dP ≤ E(Xk+ ) 1≤n≤k {max1≤n≤k Xn ≥t} puisque Z ½A ≤ Z+ pour toute variable Z et tout événement A. On considère le temps d’arrêt T = min{ 1 ≤ n ≤ k : Xn ≥ t } ou T = k si cet ensemble est vide.

Toujours par analogie avec l’étude des suites réelles. nous utilisons une troncature.2. La condition de minoration des suites réelles (inf n xn > −∞) implique la bornitude et deviendra ici une condition de bornitude d’espérance.1. Fn )n∈N une mar- tingale L1 .1 (de convergence des martingales).s. si (x ) n n∈N ne converge pas. Th´eor`eme VII. Soit (Xn .2.s. conditionnellement au passé. Démonstration.. j ∈ N. En suivant le commentaire précédent.com i i i . définie par # x2 si |x| ≤ p. Théorèmes de convergence Il convient de remarquer que la définition d’une sur-martingale est à peu près celle d’une suite qui en tendance.11. elle ne vérifie pas le critère de Cauchy . L’étude de la convergence des martingales fournira dans certaines situations une alternative à l’utilisation du lemme de Borel-Cantelli V. On peut imaginer alors l’importance d’un tel théorème de convergence. montrons d’abord que pour toute suite presque sûrement croissante de temps d’arrêt bornés.1. on ait (x j∈N nj+1 − xnj )2 < ∞. L’un des buts de cette partie est de démontrer le résultat analogue pour les sur-martingales. nous montrerons celle des martingales L1 . la série n∈N (XTn+1 − XTn )2 converge p. avec T0 = 0 p. dérivable. Martingales (à temps discret) VII. soit φp la fonction positive. i i “barbe” — 2007/1/8 — 10:41 — page 182 — #190 i i Chapitre VII.. La démonstration est alors dans le même esprit que celle de la proposition VII. L’analogue de la suite crois- sante nj est naturellement une suite croissante de temps d’arrêt. et donc j∈N (xnj+1 − xnj )2 = ∞. convexe. Alors limn→∞ Xn existe p. observons que pour qu’une suite réelle (xn )n∈N converge. supn E(|Xn |) < ∞.2. 182 i www. il suffit (mais ce n’est pas nécessaire) que toute suite strictement pour croissante d’entiers nj . Puisque le développement (XTn+1 − XTn )2 = XT2n+1 + XT2n − 2XTn+1 XTn fait apparaître des carrés et que nous supposons seulement que les Xn sont intégrables. Nous pouvons maintenant énoncer puis démontrer la convergence des martingales L1 . En effet. Pour tout p > 0. Si nous voulons qu’une martingale converge p.bibliomath. Avant de montrer la convergence des sur-martingales. φp (x) = 2p|x| − p2 si |x| ≥ p.s.s. (Tn )n∈N . et conclurons grâce à la décomposition de Doob. avec n0 = 0. nous pouvons tenter d’utiliser ce critère de convergence pour presque tout aléa ω. Il est bien connu en analyse qu’une suite décroissante minorée converge. décroît. alors il existe ε > 0 et une suite croissante nj avec par exemple n0 = 0 telle que |xnj+1 − xnj | ≥ ε.

y) = φp (y) − φp (x) − (y − x)φ (x) . y) = (y − x)2 si |x| ∨ |y| ≤ p et que de plus φp (x) ≤ 2p|x| pour tout x ∈ R.12. 183 i www.1 montre qu’il existe ε > 0 tel que P (A) > 2ε. Considérons l’événement   A= |Xm − Xn | > ε .1. n∈N m≥n La discussion suivant la définition V. x. Fn )n∈N ne converge pas presque sûrement. XTn+1 ) (puisque ψp ≥ 0) 0≤n≤k   =E φp (XTn+1 ) − φp (XTn ) − (XTn+1 − XTn )φp (XTn ) 0≤n≤k       = E φp (XTk+1 ) − E φp (XT0 ) − E (XTn+1 − XTn )φp (XTn ) .2. Pour tout k.13.p] (X ∗ ) 0≤n≤k   =E ψp (XTn . P (A ∩ { X ∗ ≤ p }) > ε pour tout p assez grand.   E (XTn+1 − XTn )2 ½[0.p] (X ∗ ) 0≤n≤k   ≤E ψp (XTn . Par convergence monotone. y ∈ R .        E (XTn+1 − XTn )φp (XTn ) = E E XTn+1 − XTn  FTn φp (XTn ) = 0 .1. FTn )n∈N est une martingale. Ainsi. (XTn . XTn+1 )½[0.bibliomath. 0≤n≤k D’après le théorème d’arrêt VII. Il s’ensuit que       E (XTn+1 − XTn )2 ½[0. (1) n∈N Supposons alors que la martingale (Xn . Observons que ψp (x. Considérons la variable aléatoire X ∗ = supn∈N |Xn | qui est bien définie d’après la discussion suivant l’inégalité maximale VII.1.com i i i . Théorèmes de convergence Soit de plus la fonction positive ψp (x.p] (X ∗ ) ≤ E φp (XTk+1 ) − E φp (X0 ) 0≤n≤k   ≤ 2pE |XTk+1 |   ≤ 2p sup E |Xn | < ∞ . i i “barbe” — 2007/1/8 — 10:41 — page 183 — #191 i i VII.

La convergence presque sûre de la sous-martingale (Xn . telle que supn∈N E(|Xn |) < ∞. Comme Zn ≥ 0 p. Soit (Xn )n∈N une suite de variables aléatoires adaptées à la filtration (Fn )n∈N .  Comme annoncé.. Alors limn→∞ Xn existe p.s. Corollaire VII.5 de la sous- martingale (Xn . par conver- gence monotone. Fn )n∈N une sous-martingale (resp..s. il faut et il suffit qu’il existe une variable aléatoire intégrable Y telle que Xn = E(Y | Fn ) p. donc converge p. n n Ainsi. L’égalité (1) appliquée aux temps d’arrêt Tn ∧ N montre que     2p sup E |Xn | ≥ E ½A ½[0. Soit (Xn .  L’énoncé suivant décrit les martingales uniformément intégrables.     ε2 E ½A ½[0.com i i i .   Tn+1 = min m > Tn : |Xm − XTn | > ε si Tn < ∞ (et Tn+1 = ∞ si Tn = ∞). pour que (Xn ) soit une martingale uniformément intégrable (relativement à (Fn )n∈N ). i i “barbe” — 2007/1/8 — 10:41 — page 184 — #192 i i Chapitre VII. 184 i www.2. ce qui contredit (2). Th´eor`eme VII.s. d’après le théorème VII.1. nous déduisons de la convergence des martingales L1 celle des sous-martingales. le processus (Zn ) est croissant et borné p.3.2. donc converge p. or si l’événement A a lieu. Démonstration.2.s. Fn )n∈N . Soit N un entier positif. ∗ Par convergence monotone (en k et N ). Martingales (à temps discret) Définissons alors la suite croissante de temps d’arrêt (Tn )n∈N par T0 = 0 et pour tout n ≥ 0. sur-martingale).p] (X )card{ 0 ≤ n ≤ k : Tn+1 ≤ N } .s. Soit Xn = Yn + Zn la décomposition de Doob 1.p] (X ∗ ) (XTn+1 ∧N − XTn ∧N )2 n∈N 0≤n≤k   ≥ε E2 ½A ½[0. La martin- gale (Yn ) est quant à elle dans L1 . (2) n∈N Nous avons montré que l’événement A ∩ {X ∗ ≤ p} a une probabilité positive . Fn )n∈N s’en déduit. pour tout n. supn E(|Yn |) < ∞ et. alors l’ensemble { n ∈ N : Tn < ∞ } est infini.p](X ∗ )card{ n ∈ N : Tn < ∞ } ≤ 2p sup E |Xn | .bibliomath. E(sup Zn ) = sup E(Zn ) < ∞ .s.2.

Or. si c0 = E(|Y |)/η. Réciproquement.2. n et la conclusion s’ensuit. Xn converge p.bibliomath.s.com i i i .   1   1   1   P |Xn | > c ≤ E |Xn | = E E(Y |Fn ) ≤ E |Y | . sur-martingale.  On peut aussi démontrer des théorèmes de convergence presque sûre pour des ensembles d’indices filtrant à gauche. si.        |Xn | dP ≤ E |Y |  Fn dP ≤ E |Y |½]c. resp. Une telle situation est par exemple le cas des entiers négatifs. pour tout c > c0 .s. D´efinition VII. Sur (Ω. Fn )n∈N est une martingale (resp.s. lorsque m ≤ n.4. F. E(Xm | Fn ) ≤ Xn . vers X∞ et aussi dans L1 . Or pour tout m ≥ n. E(Xm | Fn ) = Xn p. pour lequel il faut vérifier que E(Y | Fn ) = Xn p. Le théorème suivant se démontre en utilisant le même schéma que pour l’ordre habituel. il existe η > 0 tel que P (A) ≤ η assure A |Y | dP ≤ ε. resp. (resp. soient une suite décroissante (Fn )n∈N de sous-tribus de F. C’est l’analogue du théo- rème d’analyse affirmant que toute suite de réels croissante et majorée converge. Les hypothèses sont quelques peu modifiées. Comme  Y est intégrable.   sup E |Y |½]c. c c c Donc. i i “barbe” — 2007/1/8 — 10:41 — page 185 — #193 i i VII. Pour tout n ∈ N et tout c > 0. 185 i www. pour chaque n. pour tout ε > 0.∞[ (|Xn |) ≤ ε . pour tout n. de l’ensemble des entiers naturels avec un ordre renversé. On choisit Y = X∞ .2.VII. Si (Xn ) est uniformément intégrable. et ceux-ci sont parfois bien utiles. par le corollaire VII. Cela se fait en revenant à la définition.5. il faut montrer l’uniforme intégrabilité de toute suite du type (E(Y | Fn ))n∈N .3. E(Xm | Fn ) = Xn et     E E(Y |Fn ) − E(Xm |Fn ) ≤ E |Y − Xm | qui tend vers 0 lorsque m → ∞. et (Xn )n∈N une suite de variables aléatoires intégrables adap- tées à (Fn )n∈N . Soit Xn = E(Y | Fn ). E(Xm | Fn ) ≥ Xn ). ou de façon équivalente. sous-martingale) renversée.2. P ).∞[(|Xn |) {|Xn |>c} {|Xn |>c} puisque Xn est Fn -mesurable. La suite (Xn .2 et le théorème V. Théorèmes de convergence Démonstration.

3. Il est possible de démontrer que sous les hypothèses du théorème. il nous suffit de montrer que pour tout n ≥ 1. La convergence a donc aussi lieu dans L1 . vers une variable aléatoire intégrable X∞ . Pour tout n ≥ 1. Or.).2..bibliomath. n ≥ 1. 1≤i≤n 1≤i≤n 186 i www. . Elle est tout à fait semblable à celle du théorème VII.2.s. Notons en particulier qu’une martingale renversée est toujours p.5.   E |Xn | = E(Xn ) + 2E(Xn− ) ≤ sup E(Xk ) + 2E(X0− ) . . VII. Cette hypothèse suffit alors pour appliquer le schéma usuel.2. pour tout n. . Sn+1 .) = E(Zi | Sn ) . . convergente (puisque la suite (E(Xn ))n∈N est constante).com i i i . Zn+1 . la proposition VI. Notons en outre que X1 = Z1 . . F. il suffit de noter que. on peut écrire. Soit (Xn . puisque Xn− est une sous-martingale renversée.viii montre que Sn = E(Zi | Sn . indépendantes. k∈N et donc supn∈N E(|Xn |) < ∞. pour tout m ≤ n. n ≥ 1. Zn+2 . E(Xm | Fn ) = E(X1 | Fm | Fn ) = E(X1 | Fn ) = Xn . des variables aléatoires réelles.2.s. n ≥ 1.5. définies sur (Ω. Alors les variables aléatoires Xn convergent p. pour tout n ≥ 1. Comme les Zi sont indé- pendantes. Zn+2 . Nous allons vérifier que Xn = Sn /n. posons Sn = Z1 + · · · + Zn . la suite (Xn )n∈N est uniformément intégrable. 1≤i≤n La tribu Fn est aussi engendrée par Sn . E(X1 | Fn ) = Xn p. . Fn )n∈N une sur-martingale renversée telle que supn∈N E(Xn ) < ∞. P ). . i i “barbe” — 2007/1/8 — 10:41 — page 186 — #194 i i Chapitre VII.2. Nous omettons la démonstration du théorème VII. Sn = E(Sn | Fn ) = E(Zi | Fn ) . de même loi. À cet effet. par linéarité.s. Remarque. . est une martingale renversée pour la filtration Fn = σ(Sn . car si c’est le cas. Application à la loi des grands nombres Soient Zn . Martingales (à temps discret) Th´eor`eme VII.1 . et telles que E(|Z1 |) < ∞. . Zn+1 .

si et seulement si E |Z1 | < ∞ . Par la loi du 0–1 (IV. La démonstration est identique à la deuxième partie du théorème VII.   |Xn | dP ≤ |Z1 | dP ≤ ε . En vertu du théorème VII. Il ne reste plus qu’à montrer que a = E(X1 ). Application à la loi des grands nombres Les Zi ayant même loi.3.    1 |Xn | dP ≤ |Zi | dP = |Z1 | dP . Soit (Zi )i≥1 une suite de variables aléatoires indépendantes et de même loi et soit Sn = Z1 + · · · + Zn . nous n’avons fait que démontrer une partie de la loi des grands nombres. Cela fournira le résultat puisque E(Xn ) = E(X1 ) pour tout n. En résumé. que E(|Z1 |) < ∞ implique la loi forte. nc c de sorte que si c0 = E(|Z1 |)/η.2. {|Xn |>c} n {|Sn /n|>c} {|Sn /n|>c} 1≤i≤n  Soit ε > 0 fixé.3.5.bibliomath.1.   1   1   P |Sn /n| > c ≤ E |Sn | ≤ E |Z1 | . i i “barbe” — 2007/1/8 — 10:41 — page 187 — #195 i i VII. Ceci sera en particulier le cas si la suite (Xn )n≥1 est uniformément intégrable puisqu’alors Xn convergera dans L1 vers a.com i i i . 187 i www. Pour tout c > 0 et tout n ≥ 1.e. nous venons de démontrer la loi forte des grands nombres : Th´eor`eme VII. Xn converge p. pour tout c ≥ c0 et tout n ≥ 1.2.3. 1≤i≤n d’où le résultat. Alors Sn   lim = E(Z1 ) p. la limite est non aléatoire.5.5. il vient ensuite E(Zi | Sn ) = nE(Z1 | Sn ) = nE(Z1 | Fn ) = nE(X1 | Fn ) . i. n→∞ n En fait. et donc E(Xn ) → a. n ≥ 1.2. Notons la a.3. {|Xn |>c} {|Sn /n|>c} La suite (Xn )n≥1 est donc bien uniformément intégrable.s. La réciproque a été éta- blie dans le théorème V. D’après la remarque suivant le théorème VII. Pour tout c > 0 et tout n.s.3).2. une martingale renversée est toujours uniformément intégrable. et soit η > 0 tel que si P (A) ≤ η alors A |Z1 | dP ≤ ε.

1 ≤ n ≤ k.1. . . . (Urne de Polya) Une urne contient n boules noires et b boules blanches. π(n − 1)) est la loi uniforme sur { 1. π(n)). Exercice VII. . Elle est remise dans l’urne. . Xk ). on désigne par Fn la tribu engendrée par X1 . de même loi de Bernoulli P { Xn = 0 } = P { Xn = 2 } = 1/2. 188 i www. . . . . Martingales (à temps discret) Exercices Exercice VII. et l’on pose Zn = 1≤k≤n Xk . . i i “barbe” — 2007/1/8 — 10:41 — page 188 — #196 i i Chapitre VII. . . . Montrer que cette martingale converge. Fn )1≤n≤k est une martingale. Une boule est tirée au hasard. Démontrer que (Zn )n≥1 est une martingale par rapport à la filtration (Fn )n≥1 qui n’est pas uniformément intégrable. . . Pour tout $ n ≥ 1. mais cela demande un peu de calcul. et donc que la proportion de boules noires converge vers une proportion a priori aléatoire Y . . k−n k−n+1 n≤i≤k puis montrer que pour tout n ≤ i ≤ k. 2. . Soit k Xn = cπ(i) k−n 1≤i≤n et soit la suite de tribus Fn = σ(π(1). Montrer que (Xn . ck des réels tels que 1≤i≤k ci = 0. n b a 0<x<1 Γ a Γ a (voir par exemple Feller (1971)). . et on ajoute aussi a boules de la couleur tirée. que Y a pour loi une loi de densité   Γ n+b  n   b  (1 − x) a −1 x a −1 . Indication : Montrer que k  1  Xn − Xn−1 = cπ(n) − cπ(i) . . Soit X0 = n/(n + b) la proportion de boules noires initialement dans l’urne.2. . et soit Xk la proportion de boules noires à la k-ième étape du tirage-ajout. L(π(i) | π(1). . 2. pour la suite de tribus Fk = σ(X1 . . n } \ { π(1). . Soit (Xn )n≥1 une suite de variables aléatoires indépendantes. Montrer que Xk est une martingale. . . Xn . Soient c1 . Soit π une permutation aléatoire de { 1.bibliomath. . . . Exercice VII. . selon une probabilité uniforme sur les boules dans l’urne.com i i i .3. Note : On peut montrer. . c’est-à-dire telle que pour toute permutation τ de k éléments. . P { π = τ } = 1/k!. k } uniformément répartie sur le groupe des permutations de k éléments. . π(n − 1) }. On itère cette procédure de tirage-ajout.

b) Déduire de la question précédente que pour toute fonction borélienne bornée φ sur R. Fn )1≤n≤k une martingale de carré intégrable. de loi géométrique P { T = n } = a(1 + a)−n−1 . On note les sommes partielles Sn = X1 + · · · + Xn . On convient que S0 = 0 et. 189 i www.6. P ) telles que Hn soit mesurable par rapport à Fn−1 . pour tout x ∈ R.) Soit (Xn )n≥1 une suite de variables aléatoires indépendantes. pour tout n = 1. pour tout n ≥ 1.      E φ(Sn+T )  FT = E ST φ(Sn ) p. . Démontrer que. Exercice VII. P ). . Ω }). N } de la filtration (Fn )1≤n≤N .5. Exercice VII. On pose. . n ≥ 1. et tout n ≥ 1. .s. Démontrer que (Xn )1≤n≤k est une martingale de (Fn )1≤n≤k . F. pour tout n ≥ 1. de même loi. F. Sur un espace probabilisé (Ω. . Démontrer que T est un temps d’arrêt de la filtration (Fn )1≤n≤k . En utilisant l’inégalité maximale de Doob. F.7. . Xn . on désigne par E x l’espérance définie par E x (·) = E(· + x). . . Exercice VII. Exercice VII. On dé- finit X ∗ = max1≤n≤k |Xn |.com i i i . i i “barbe” — 2007/1/8 — 10:41 — page 189 — #197 i i Exercices Exercice VII. (Lemme de Wald.8. Démontrer que E(ST ) = E(X1 )E(T ). on définit T = min{ 1 ≤ n ≤ k − 1 : |Hn+1 | > a } et T = k si l’ensemble dont on prend le minimum est vide. . de même loi. On parle alors de la marche aléatoire Sn partant de x au temps 0. k. Sur (Ω.4. P ). . On considère une variable aléatoire T à valeurs dans N.bibliomath. . Pour tout n ≥ 1. a) Soit N ≥ 1 un entier fixé et soit T un temps d’arrêt à valeurs dans { 1. . k (avec la convention F0 = { ∅. soit (Mn )1≤n≤k une mar- tingale par rapport à une filtration (Fn )1≤n≤k et soit (Hn )1≤n≤k une famille de variables aléatoires sur (Ω. soit Fn la tribu engendrée par X1 . Xn = Hi (Mi − Mi−1 ) 1≤i≤T ∧n (M−1 = 0). . Sn = X1 + · · · + Xn . pour tout n = 1. Soit (Xn . soit (Xn )n≥1 une suite de variables aléatoires réelles indépendantes. . démon- trer que   E (X ∗ )2 ≤ 4E(Xk2 ) . Soit a > 0 . . n ∈ N. . et soit. Sn+T − ST est indépendant de FT et de même loi que Sn . Soit en outre T un temps d’arrêt intégrable relatif à la filtration engendrée par cette suite.

. Martingales (à temps discret) où a est un réel positif donné. . .       E Sn − Xi   Ai = E Sn − Xi   Ai−1 . . . . 1 ≤ i ≤ n. Xi et par A0 la tribu triviale composée de ∅ et Ω. . . Soient X1 . a) Établir que   Sn  − E Sn  = di . n. b) Déduire de la question précédente que   E T ∧ (n + 1) | Fn = T ∧ n + (1 + a)−1 ½{T ≥n} . et on suppose que E(Xi 2 ) < ∞ pour tout i = 1. . est-il une martingale par rapport à la filtration (Fn )n∈N ? d) En prenant pour α la valeur trouvée à la question c).bibliomath. . A. . 1≤i≤n Démontrer que pour tous i < j. . de plus. . Pour tout i = 1. calculer l’espérance conditionnelle E((Xn+1 − Xn )2 | Fn ). i i “barbe” — 2007/1/8 — 10:41 — page 190 — #198 i i Chapitre VII. c) Pour quelle valeur du paramètre réel α le processus Xn = α(T ∧ n) + ½{T ≥n} . Désignons par Ai . . .com i i i . n ∈ N. n ∈ N. . . . Vérifier que la famille de tribus (Fn )n∈N est une filtration. n. et que. b) Démontrer que pour tout i = 1. n. les variables di . 190 i www. . est une martingale par rapport à la filtration (Fn )n∈N . . posons       di = E Sn   Ai − E Sn   Ai−1 . sont orthogonales. P ). En déduire que le processus Xn2 − a(T ∧ (n − 1)) .   E ½{T ≥n+1} | Fn = (1 + a)−1 ½{T ≥n} . pour tout n. On appelle Fn la plus petite tribu rendant mesu- rable la variable T ∧ n. n ≥ 1.9. a) Démontrer que. . . Posons Sn = X1 + · · · + Xn . la sous-tribu de A engendrée par les variables X1 . Xn des variables aléatoires indépendantes sur (Ω. . n. E(dj | Ai ) = 0. Démontrer que Fn est engendrée par une partition de n + 1 atomes que l’on précisera. . i = 1. on considère une norme quelconque  ·  sur Rd . Exercice VII. à valeurs dans Rd .

. établir que  E(d2i | Ai−1 ) ≤ E Xi 2 ) . c) Par l’inégalité du triangle et la question précédente. En conclure. . k = 1. sur ([ 0. poser P (Ank ) Xn = ½Ank . alors E(X | T1 ) = E(X | T ) où T est la tribu engendrée par T1 et T2 . . Si P est une mesure de probabilité sur [ 0. et T1 . (Xn )n≥1 est une martingale par rapport à la suite de tribus Fn = σ(Ank . T2 sont deux sous-tribus de A telles que T2 est indépendante de la tribu engendrée par T1 et X. . 2n−1 . que     Var Sn  ≤ E Xi 2 . i = 1. . 1 ]. n ≥ 1. Soit Ank . P ).10.com i i i . 1 ≤ k ≤ 2n−1 ). A. Démontrer par l’absurde qu’elle est uniformément intégrable et en conclure l’existence de la densité de Radon-Nikodym de P par rapport à λ. n ≥ 1. n ≥ 1. 191 i www. la famille des intervalles dya- diques de l’intervalle [ 0. i i “barbe” — 2007/1/8 — 10:41 — page 191 — #199 i i Exercices Indication : On pourra utiliser le fait que si X est une variable aléatoire in- tégrable sur (Ω. En déduire que       di = E Sn  − Sn − Xi   Ai − E Sn  − Sn − Xi   Ai−1 .bibliomath. λ(Ank ) 1≤k≤2n−1 Démontrer que. à l’aide de la première question. n . 1 ] absolument continue par rapport à λ. 1≤i≤n Exercice VII. . λ). . . 1 ] muni de la mesure de Lebesgue λ.

i i “barbe” — 2007/1/8 — 10:41 — page 192 — #200 i i i www.com i i i .bibliomath.

1. A. décrit un processus stochastique qui évolue avec le temps. à va- leurs dans (E. est une chaîne . VIII. E est un ensemble dénombrable . La propriété de Markov. P(E)) et définies sur un espace probabilisé (Ω. P ).1.1. On dit qu’une suite de variables aléatoires (Xn )n∈N . P(E) est l’ensemble de ses parties. à la base de ce chapitre. La dépendance simple vis-à-vis du passé autorise de nombreux développements qui font la richesse de ces modèles. D´efinition VIII. i i “barbe” — 2007/1/8 — 10:41 — page 193 — #201 i i VIII CHAÎNES DE MARKOV (À ESPACE D’ÉTATS DÉNOMBRABLE) Le but de ce chapitre est de définir et de construire dans un cadre simple (ensemble d’indices et espace d’états discrets) des évolutions markoviennes et d’étudier leur comportement asymptotique. La propriété de Markov Dans tout ce chapitre. La définition suivante présente l’objet fondamental de cette étude.

Xn−1 ) et la loi de Xn conditionnellement à Xn−1 sont identiques.com i i i . in ) de points de E tel que P 0≤j≤n−1 { Xj = ij } > 0. pour  tout (n + 1)-uplet (i0 . la loi de Xn conditionnellement à (X0 . . La loi de X0 est appelée la loi ou la mesure initale. . . (1) 0≤j≤n−1 Autrement dit. .        P Xn = in  {Xj = ij } = P Xn = in  Xn−1 = in−1 . . i www. . On appelle E l’espace des états. de Markov si. . .bibliomath.

P(Zd)). (i) Marche aléatoire sur Zd .1. Soit (Yn )n∈N une suite de variables aléatoires indépendantes sur (Zd . i i “barbe” — 2007/1/8 — 10:41 — page 194 — #202 i i Chapitre VIII. Chaînes de Markov (à espace d’états dénombrable) L’égalité (1) s’appelle propriété de Markov. Nous verrons (proposi- tion VIII. Exemples VIII. .1.2. Les exemples suivants montrent qu’il existe des chaînes de Markov.3) qu’elle traduit le fait que le futur du processus ne dépend du passé qu’à travers le présent.

. . . in ∈ Zd tels que l’on ait P 0≤j≤n−1 { Xj = ij } > 0. n ∈ N. . Soit Xn = Y0 + · · · + Yn .     P Xn = in  { Xj = ij } 0≤j≤n−1 . Pour tous i0 .

 P 0≤j≤n { Xj = ij } = .

 P 0≤j≤n−1 { Xj = ij }  .

 P { Yn = in − in−1 } ∩ 0≤j≤n−1 { Xj = ij } = .

. Lorsque de plus p = 1/2. On définit        τ = min n ≥ 0 :   Yk  = N . et donc (Xn )n∈N est bien une chaîne de Markov à valeurs dans (Zd . Lorsque d = 1 et Yn suit une loi de Bernoulli sur { −1. on parle de la marche aléatoire symétrique. 1 } de paramètre p. Soit (Yn )n≥1 une suite de variables aléatoires de Bernoulli sy- métriques sur { −1. 1 }. De façon analogue. .bibliomath. Xn−1 ) ∈ σ(Y0 . . à valeurs dans E. 0≤k≤n 194 i www. . P(Zd )). (ii) Marche aléatoire sur Z avec barrières absorbantes. et Y0 une variable aléatoire indépendante de cette suite. .  P 0≤j≤n−1 { Xj = ij } = P { Yn = in − in−1 } puisque Yn est indépendante de (X0 . . . . on appelle (Xn )n∈N la marche aléatoire sur Z.com i i i . Soit N ≥ 1 et considérons E = [ −N.    P Xn = in  Xn−1 = in−1 = P { Yn = in − in−1 } . N ] ∩ Z. Yn−1 ).

et si |i| = N . . Soit (Yn )n∈N une suite de variables aléatoires indépendantes et de même loi à valeurs dans { 0. 1. Soient i0 . . . . . . n ∈ N. On veut calculer P { Xn = j | Xn−1 = i. m − 1 } .bibliomath. . Z/mZ est identifié à l’ensemble e : k ∈ { 0. . et pour tout n ≥ 1. . . où Sn = 0≤k≤n Yk et montrons que (Xn )n∈N est une chaîne de Markov à valeurs dans E.  2iπ  Xn = Y0 exp Yk . in−2 . . X0 = i0 } . n∈N n n 1≤k≤n Cette dernière quantité est nulle d’après le théorème limite central (V.com i i i . . p 1≤k≤n 195 i www. Dans  2ikπ/m  cet exemple. Pour tout n ≥ 0. . . . Distinguons deux cas. Si |i| = N . définissons Xn = Sn∧τ . i et j des éléments de E. .     P Xn = j  { Xn−1 = i } ∩ { Xj = ij } 0≤j≤n−2     = P Yn = j − i  {Xn−1 = i } ∩ { Xj = ij } 0≤j≤n−2 = P { Yn = j − i } = P { Xn = j | Xn−1 = i } . Xn−2 = in−2 .5.     P Xn = j  { Xn−1 = i } ∩ { Xj = ij } 0≤j≤n−2 = δij = P { Xn = j | Xn−1 = i } . (iii) Marche aléatoire sur Z/mZ. .1. . 1.4). On définit X0 = Y0 . . Yn ). i i “barbe” — 2007/1/8 — 10:41 — page 195 — #203 i i VIII. p − 1 }. Ce temps d’arrêt est fini presque sûrement puisque       P { τ = ∞ } = P ∀n ∈ N :  Yk  < N 0≤k≤n       ≤ P ∀n ∈ N :  Yk  < 2N 1≤k≤n     1  2N ≤ inf P  √ Yk  < √ . . La propriété de Markov La variable aléatoire τ est un temps d’arrêt relativement à la filtration naturelle Fn = σ(Y0 .

La proposition suivante réexprime la propriété de Markov en montrant qu’elle équivaut d’une part à l’indépendance du présent au passé non immédiatement antérieur. Xn+1 = Xn exp(2iπYn+1 /m) . d’autre part à l’indépendance du présent et futur au passé non immé- diatement antérieur. .    P Xn = in  Xn−1 = in−1 . . et enfin à l’indépendance du futur et du passé du processus. . . . n ∈ N. . . . Chaînes de Markov (à espace d’états dénombrable) Puisque Xn est une fonction de X0 . . . Xk = ik } > 0. . . . . Yn )-mesurable. . X0 = i0    in  = P exp 2iπYn+1 /m = in−1 = P { Xn = in | Xn−1 = in−1 } . . 0≤j≤m 196 i www.3. . . . 1. Proposition VIII. P ). Yn .     P Xn+j = in+j  {Xj = ij } 0≤j≤m k≤j≤n−1     =P {Xn+j = in+j }  Xn−1 = in−1 . . in ∈ E tels que P { Xn−1 = in−1 . l’égalité suivante à lieu :     P Xn = in  {Xj = ij } = P { Xn = in | Xn−1 = in−1 } .1. A. . . c’est une variable aléatoire σ(Y0 . De plus. . . . . X0 = i0      = P in−1 exp 2iπYn+1 /m = in  Xn−1 = in−1 . in+m ∈ E tels que P { Xn−1 = in−1 . . P(E)). in ∈ e2ikπ/m : k ∈ { 0. . . Xk = ik } > 0 . k≤j≤n−1 (ii) Pour tout 1 ≤ k ≤ n. . . . m − 1 } . .bibliomath. . . et donc indépendante de Yn+1 .com i i i . . tout m ≥ 0 et tous points ik . . est une chaîne de Markov si et seulement si l’une des trois propriétés équivalentes suivantes est vérifiée : (i) Pour tout 1 ≤ k ≤ n et tous ik . à valeurs dans (E.   D’où pour tout i0 . i i “barbe” — 2007/1/8 — 10:41 — page 196 — #204 i i Chapitre VIII. conditionnellement à son présent. Une suite de variables aléatoires (Xn )n∈N définies sur (Ω. . Y1 . . .

i i “barbe” — 2007/1/8 — 10:41 — page 197 — #205 i i VIII.     P {Xn+j = in+j } ∩ {Xj = ij }  Xn = in 1≤j≤m 0≤j≤n−1         =P {Xj = ij }  {Xn = in } P {Xj = ij }  Xn = in .   P { Xn = in | Xn−1 = in−1 } = P Xn = in | { Xj = ij } 0≤j≤n−1 . Pour montrer sa nécessité. 1≤j≤m 0≤j≤n−1 Démonstration. (i) En prenant k = 0. . .1. in+m ∈ E tels que P { Xn = i0 } > 0. La propriété de Markov (iii) Pour tous points i0 . . par définition d’une chaîne de Markov. on voit que la condition est clairement suffisante. .

 P 0≤j≤n { Xj = ij } = .

(2) P 0≤j≤n−1 { Xj = ij }  . .

alors       P Aj = P Aj  Aj P (A0 ). . . An sont des événements tels que Par P 0≤j≤n−1 Aj > 0.récurrence. en vertu de (2). on montre que si A0 . (3) 0≤j≤n 1≤l≤n 0≤j≤l−1 En utilisant cette formule avec Aj = { Xj = ij }. P { Xn = in | Xn−1 = in−1 } $  . . .

  1≤l≤n P Xl = il  0≤j≤l−1 { X j = ij } =$  .

  1≤l≤n−1 P X l = i l  0≤j≤l−1 { X j = ij } $  .

  k+1≤l≤n P X k = i k  0≤j≤l−1 { X j = ij } P { Xk = ik } =$  .

le membre de droite de l’égalité précédente est P { Xn = in .com i i i .  k+1≤l≤n−1 P Xk = ik  0≤j≤l−1 { Xj = ij } P { Xk = ik } En utilisant encore (3). . Xk = ik } k≤j≤n−1 (ii) Là encore. Xk = ik } entraîne 197 i www. . . la condition est clairement suffisante en prenant m = 0 et k = 0.bibliomath. . observons d’abord que. P { Xn−1 = in−1 . .  . Xk = ik }     = P Xn = in  Xj = ij . . Pour montrer qu’elle est nécessaire. . . . la positivité de P { Xn−1 = in−1 . . par σ-additivité de la mesure de probabilité. . .

X0 = i0 } > 0. . . . .     P {Xj = ij }  Xn−1 = in−1 n≤j≤n+m . . . Pour un tel (i0 . . ik−1 tels que P { Xn−1 = in−1 . in−1 ). . Chaînes de Markov (à espace d’états dénombrable) qu’il existe i0 . i i “barbe” — 2007/1/8 — 10:41 — page 198 — #206 i i Chapitre VIII. . . . .

n≤l≤n+m k≤j≤l−1 c’est-à-dire     P {Xl = il }  {Xj = ij } . n≤l≤n+m k≤j≤n−1 (iii) La condition est nécessaire puisque     P {Xj = ij } ∩ {Xj = ij }  Xn = in n+1≤j≤n+m 0≤j≤n−1 . ce produit est égal à (pour tout k ≤ n)      P Xl = il  {Xj = ij } . n≤l≤n+m n−1≤j≤l−1 D’après le premier point.  P n−1≤j≤n+m {Xj = ij } = P { Xn−1 = in−1 }      = P Xl = il  {Xj = ij } .

 P 0≤j≤n+m {Xj = ij } = P { Xn = in } .

.

 .

  P n+1≤j≤n+m {Xj = ij }  0≤j≤n {Xj = ij } P 0≤j≤n {Xj = ij } = . ce rapport est égal à . P {Xn = in } Or. d’après le point (ii).

  .

bibliomath.   P n+1≤j≤n+m { Xj = i } j  Xn = in P 0≤j≤n { Xj = ij } P { Xn = in }         =P {Xj = ij }  Xn = in P { Xj = ij }  Xn = in .com i i i . n+1≤j≤n+m 0≤j≤n−1 198 i www.

La propriété de Markov Si maintenant la condition est vérifiée.1.     P Xn+1 = in+1  { Xj = ij } 0≤j≤n . i i “barbe” — 2007/1/8 — 10:41 — page 199 — #207 i i VIII.

 P 0≤j≤n+1 { X j = ij } = .

 P 0≤j≤n { Xj = ij }  .

   P { Xn+1 = in+1 } ∩ 0≤j≤n−1 { Xj = ij }  Xn = in P { Xn = in } = .

6. On note alors Pij la valeur commune des P { Xn+1 = j | Xn = i } et P = (Pij )i. j ∈ E. Ainsi. On dit qu’une chaîne de Markov (Xn )n∈N est homogène si. et sa matrice de transition est   q0 q1 .4. . pour tout couple (i.  P=  . . q0 199 i www.j )i. La matrice P est appelée matrice de transition de la chaîne (nous utilisons encore le terme de matrice lorsque E est infini). supposer que ce cas ne se produit pas.1.bibliomath.com i i i .    P 0≤j≤n−1 { X j = ij }  Xn = in P { Xn = in } = P { Xn+1 = in+1 | Xn = in } . n décrivant l’ensemble des entiers pour lesquels P { Xn = i } > 0. Une matrice M = (Mi. Observons que pour un état i donné. qp−1  .1.j∈E (éventuellement de taille in- finie) est une matrice stochastique si elle vérifie (i) Mij ≥ 0 pour tous i.5. (i) La marche aléatoire sur Z/mZ est homogène. P { Xn+1 = j | Xn = i } est indépendant de n. Exemples VIII. On peut donc.1. ... D´efinition VIII. en remplaçant au besoin E par E \ { i }. .   . . .  qp−1 q0 . la matrice de transition d’une chaîne de Markov est une matrice sto- chastique. la chaîne est à valeurs dans E \ { i } avec probabilité 1.  D´efinition VIII. j) de points de E.  q1 .. si l’ensemble des entiers n pour lesquels P { Xn = i } = 0 est vide.j∈E. . (ii) j∈E Mij = 1 pour tout i ∈ E.

Distinguons deux cas : 200 i www. En effet. Clairement. . .2.  j∈E j∈E l∈E l∈E j∈E l∈E j∈E l∈E Remarquons alors que la suite (Xn )n∈N est une chaîne de Markov homogène de matrice de transition P si et seulement si. d d Proposition VIII. P(E)). d } et sa matrice de transition. Proposition VIII. . (P Q)ij = Pil Qlj = Pil Qlj = Pil Qlj = Pil = 1 . . . i ∈ { 1. .com i i i . pour tout n ≥ 1 et tous i0 . . Chaînes de Markov (à espace d’états dénombrable) (ii) Chaîne d’Ehrenfest. Soit Xnd le nombre de boules dans l’urne A après n tirages indépendants. La propriété est vraie pour n = 0 par définition de µ0 . Soient P et Q deux matrices stochastiques.7. la série (PQ)ij = l∈E Pil Qlj converge puisque la série l∈E Pil converge et que les (Qlj )l. . et de plus.bibliomath. . On répartit d boules numérotées dans deux urnes A et B.   P { X0 = i0 . in ∈ E. 0≤k≤n 0≤k≤n−1 VIII. Alors.2.i.i+1. Démonstration. . Supposons la vraie au rang n − 1. . Démonstration. Soit (Xn )n∈N une chaîne de Markov homogène. de matrice de transition P et de loi initiale µ0 . définie sur (Ω. in ∈ E. . pour tous i0 . est donnée par la formule d−i i+1 Pd. On tire un nombre i au hasard (c’est-à-dire suivant la probabilité uniforme) entre 1 et d et on change la boule numérotée i d’urne. . PQ est une matrice à coefficients positifs. Soit d un entier supérieur ou égal à 1.j∈E sont bornés par 1. . .     P { Xk = ik } = Pin−1 in P { Xk = ik } . Elle se fait par récurrence sur n. P ).i = . . . d − 1 } . Calcul des lois marginales La proposition suivante prolonge la dernière remarque de la section précédente. Le produit de deux matrices stochastiques est encore une ma- trice stochastique. . Pd.1.1. P.i+1 = . . à valeurs dans (E. Leur produit est bien défini. Xn = in } = µ0 { i0 } Pi0 i1 · · · Pin−1 in . A. en montrant que la donnée de la matrice de transition et de la loi initiale suffit à caractériser la loi de la chaîne jusqu’à tout instant fixé. . i i “barbe” — 2007/1/8 — 10:41 — page 200 — #208 i i Chapitre VIII. La suite (Xnd )n∈N est une chaîne de Markov homogène à valeurs dans l’ensemble E = { 0.

Généralisation de la propriété de Markov (i) Si P { X0 = i0 . . . EN = { x = (xn )n∈N : xn ∈ E }. . . P(E)). X0 = i0 P { Xn−1 = in−1 . considérons la tribu cylindrique B. et donc   µ0 { i0 } Pi0 .j Corollaire VIII. Bn ∈ P(E) .2. P(E)).bibliomath. X0 = i0 }       = P Xn = in  { Xj = ij } P { Xj = ij } 0≤j≤n−1 0≤j≤n−1     = P Xn = in | Xn−1 = in−1 µ0 { i0 } Pi0 i1 · · · Pin−2 in−1   = µ0 { i0 } Pi0 i1 · · · Pin−1 in . Xn−1 = in }   = P Xn = in | Xn−1 = in−1 .   n (i) P { Xn = j } = µ0 { k } Pkj . il résulte de l’hypothèse de récurrence que µ0 ({ i0 })Pi0 i1 · · · Pin−2 in−1 = 0.i1 · · · Pin−1 in = 0 . . . . n ∈ N . . Pour tous entiers n. . P ). . A. i i “barbe” — 2007/1/8 — 10:41 — page 201 — #209 i i VIII. B1 . à valeurs dans (E. ce qui démontre la proposition. à valeurs dans (E.com i i i .  D’après la proposition VIII. Soit (Xn )n∈N une chaîne de Markov définie sur (Ω. (iii) P { Xm+n = j | X0 = i } = P { Xm = j | X0 = k }P { Xn = k | X0 = i }.7. Or P { X0 = i0 . k∈E L’égalité (iii) est appelée équation de Chapman-Kolmogorov. . . . . . . k∈E (ii) P { Xm+n = j | Xm = i } = Pijn . On notera Pi. . On peut voir X comme un élément de l’espace des suites sur E. . . . Sur EN .1. .3. . 201 i www. Généralisation de la propriété de Markov Soit X = (Xn )n∈N une chaîne de Markov définie sur (Ω. il vient P { X0 = i0 . Xn−1 = in−1 } > 0. m et tous états i. P ). (ii) Si maintenant P { X0 = i0 . la matrice Pn = P × · · · × P (n fois) est une n ses éléments. j ∈ E.3. . matrice stochastique.2. A. . c’est-à-dire la tribu engendrée par les parties (cylindres) de la forme B0 × · · · × Bn × E × E × · · · . . Xn = in } = 0 et la propriété est vraie dans ce cas. . VIII. Xn−1 = in−1 } = 0. . .

X −1 (C) = X −1 (Bi ) ∈ A . Si C = B0 × · · · × Bn × E × E × · · · est un cylindre. . .. puisque si C = B0 × · · · × Bn × E × E × · · · est un cylindre. . c’est-à-dire de la mesure image P X de P par X (cf.. k ≥ 1. ik ∈ E. . . P(E)).. .. . Xk+n = jn  Xk = ik (j0 . Sur EN . n ∈ N. pour tous les états i0 .1.j2 . Xn = jn  X0 = j0 . Autrement dit. III.1. on définit l’opérateur de translation (ou décalage). . 0≤i≤n On peut donc parler de la loi de X.7). .        L θ k (X)  { Xj = ij } = L X  X0 = ik . . .1. à valeurs dans (E..com i i i . En observant qu’une union de cylindres se décompose en une union disjointe de cylindres (puisque l’intersection de deux cylindres est un cylindre).. .14. A. ce qui donne θ k (x) = (xn+k )n∈N .jn (j0 . a même loi que la chaîne initialisée à X0 = 0. Th´eor`eme VIII. . B) d’après la proposition I.bibliomath.jn )∈B0 ×···×Bn Donc les lois considérées coïncident sur les cylindres. Soit X = (Xn )n∈N une chaîne de Markov homogène. Le théorème suivant montre qu’une chaîne de Markov homogène considérée à partir de l’instant n et conditionellement à Xn .3.jn )∈B0 ×···×Bn = P { θk (X) ∈ C | Xk = ik } = ½{ik } (j0 )Pj0 . .. (θ(x))n = xn+1 . θ : x = (xn )n∈N ∈ EN → θ(x) = (xn+1 )n∈N ∈ EN .. 0≤j≤k Démonstration. θ k ..     P { θ k (X) ∈ C }  { Xj = ij } 0≤j≤k    = P Xk ∈ B0 . . P ). par θ k = θ ◦ θ k−1 . On peut définir les itérés. . définie sur (Ω. . Alors.j1 Pj1 . Chaînes de Markov (à espace d’états dénombrable) La fonction X est mesurable de (Ω. (j0 . . . Xk = ik    = P Xk = j0 . . Pjn−1 . P ) dans (EN . . Xk+n ∈ Bn  X0 = i0 . A. . i i “barbe” — 2007/1/8 — 10:41 — page 202 — #210 i i Chapitre VIII....jn )∈B0 ×···×Bn    = ½{ik } (j0 )P X1 = j1 . on voit que les lois considérées coïncident sur 202 i www.

 à valeurs dans (E. A. Th´eor`eme VIII. P ). Démonstration. .     L θ T (X) | FT = L X | X0 = i . n∈N En utilisant le théorème VIII. On voit en effet que la loi d’une chaîne de Markov homogène (en tant qu’élément de EN ) est entièrement déterminée par la donnée de la mesure initiale et de la matrice de transition.4. Xn ) n∈N . C’est ce qu’exprime le théorème suivant.3.1.bibliomath. i i “barbe” — 2007/1/8 — 10:41 — page 203 — #211 i i VIII. Comme pour démontrer le théorème VIII.com i i i . . on en déduit       P θ T (X) ∈ C  XT = P X ∈ C  X0 = i ½{n} (T ) n∈N = P { X ∈ C | X0 = i } . 203 i www. P(E)).2. Donc elles sont égales d’après la proposition I.3.3.1 permet d’étendre la proposition VIII. Sur l’événement { XT = i } ∩ { T < ∞ }. et cela sera utile pour la suite. que ce résultat reste vrai si l’on considère un temps non plus fixe mais aléatoire. il vient     T   P θ T (X) ∈ C  XT = P θ (X) ∈ C  Xn = i ½{n} (T ) n∈N    = P θ n (X) ∈ C  Xn = i ½{n} (T ).3.  Le contenu du théorème précédent est essentiellement que la loi de la trajec- toire d’un processus de Markov homogène après le temps n est donnée par la loi de la chaîne au temps n.  On remarquera que l’argument final dans la démonstration du théo- rème VIII.1. pour peu que celui-ci soit un temps d’arrêt.2 (Propri´et´e de Markov forte). Généralisation de la propriété de Markov l’algèbre de Boole engendrée par les cylindres. . pour peu bien sûr que la matrice de transition soit fixée. soit un cylindre C = B0 × · · · × Bn × E × E × · · · Sur { XT = i } ∩ { T < ∞ }.3. Soit T un temps d’arrêt pour la filtration Fn = σ(X0 .7. Soit X = (Xn )n∈N une chaîne de Markov définie sur (Ω. .1. Il est remarquable.

est une mesure inva- riante de la chaîne si t Pµ = µ.com i i i . P ). Ceci justifie la terminologie. D´efinition VIII. définie sur un espace probabilisé (Ω. Si µ est une probabilité sur E. t Pµ est un vecteur . En particulier. On note X = (Xn )n∈N une chaîne de Markov homogène. Xn est de loi µ pour tout n ∈ N. µ n’étant pas fixée. i i “barbe” — 2007/1/8 — 10:41 — page 204 — #212 i i Chapitre VIII. Observons que si µ est une mesure invariante de la chaîne et que si X0 est de loi µ. puisque µ est vue comme un vecteur.4. la matrice P est fixe et on se contentera de noter Pµ . probabilité sur E. alors Pµ { X1 = j } = i∈E Pi. de matrice de transition P et de mesure initiale µ. On prendra garde au fait que µ n’est pas nécessairement une probabilité. mesure positive sur E. Chaînes de Markov (à espace d’états dénombrable) VIII. On dit que µ. P(E)). D´efinition VIII. L’ensemble EN est muni de sa tribu cylindrique et de la probabilité image Pµ.2.4. on note µi = µ({ i }). en particulier une mé- thode de type totalement algébrique lorsque E est fini et une méthode totalement probabiliste dans le cas général . La notion déterminante dans cette recherche est celle de mesure invariante.j µi = µj pour tout j ∈ E. puisque l’on permet µ(E) = 1. alors (Xn )n∈N converge en loi vers µ.4.3. Notation VIII. Le but de ce chapitre est de déterminer les mesures asymptotiques d’une chaîne de Markov et leur dépendance par rapport à la loi initiale. nous avons choisi d’exposer en partie ces deux méthodes. pour tout i ∈ E. est une mesure asympto- tique de la chaîne (Xn )n∈N s’il existe une probabilité µ0 sur E telle que si µ0 est la loi de X0 . il est associé à une mesure aussi notée t Pµ. Donc X1 est aussi de loi µ.1. On dit que µ. 204 i www. Une mesure asymptotique est donc une probabilité. Dans toute la suite du chapitre. P est une matrice stochastique. Dans ce qui suit.4. Mesures invariantes L’objet des paragraphes suivants est l’étude de la convergence en loi d’une chaîne de Markov : le système qui évolue selon cette chaîne converge-t-il vers un « état d’équilibre » ? Il y a plusieurs méthodes pour résoudre ce problème. A. Comportement asymptotique.bibliomath. et par récurrence. On désignera encore par µ le vecteur de composantes (µi )i∈E .P de P par la chaîne X. à valeurs dans (E.

ce qui est équivalent à p(µi+1 − µi ) = (1 − p)(µi − µi−1 ) . Il résulte du lemme de Fatou (II. (iii) L(X0 ) = µ ⇒ L(Xn ) = µ pour tout n ∈ N. i i “barbe” — 2007/1/8 — 10:41 — page 205 — #213 i i VIII.5. Puisque i∈E ( j∈E Pji µj ) = i∈E µi = 1.k Pkj n j∈E k∈E n+1 = lim inf Pki µ0.4. il existe donc une probabilité µ0 telle que lim Pµ0 { Xn = j } = µj pour tout j ∈ E .i Pijn = µj pour tout j ∈ E .bibliomath.1. (i) Marches aléatoires sur Z.k Pkj n→∞ j∈E j∈E k∈E ≤ lim inf n Pji µ0. Supposons µ asymptotique .4. pµi+1 + (1 − p)µi−1 = µi .2. Les assertions suivantes sont équivalentes. (ii) µ est une mesure invariante de la chaîne . 205 i www.4. Démonstration.4. n→∞ i∈E Soit i ∈ E. Une mesure µ est une mesure invariante de la marche aléatoire de paramètre p sur Z si et seulement si pour tout i ∈ Z. n→∞ ce qui s’écrit encore lim µ0. Montrons que (i) implique (ii).  Exemples VIII. (i) µ est une mesure asymptotique de la chaîne . Mesures invariantes Proposition VIII. Il est clair que (iii) et (ii) sont équivalentes et que (ii) implique (i). Soit µ une probabilité sur E. Nous reprenons les exemples donnés en VIII. Comportement asymptotique.k n k∈E = µi .3) que n Pji µj = Pji lim µ0.com i i i .2. on en déduit que j∈E Pji µj = µi pour tout élément i de E.

Donc. Une mesure µ est invariante pour cette marche si et seulement si 1 2 µi+1 + 12 µi−1 = µi si i ∈ [ −N + 2. µN = 12 µN −1 + µN et µ−N = 12 µ−N +1 + µ−N .com i i i . p  1 − p i  µi = µ0 + − 1 (µ1 − µ0 ) 1 − 2p p et p   p i−1  µ−i = µ0 + 1− (µ1 − µ0 ) 2p − 1 1−p pour tout i ≥ 1. 1−p k=1 Donc. N − 2 ] ∩ Z . c’est-à-dire si et seulement si µi = 0 pour tout i ∈ [ −N + 1. N }. Si p = 1/2. (ii) Marche aléatoire sur Z avec barrières absorbantes. sont donc les multiples de la mesure de comptage sur Z. Les mesures invariantes sont donc les mesures positives portées par { −N. Les mesures invariantes. si p = 1/2. on a µi = µ0 + i(µ1 − µ0 ) pour tout i ∈ Z. p 0 1 0 La chaîne n’admet donc aucune probabilité invariante. et par suite. Chaînes de Markov (à espace d’états dénombrable) On en déduit que  1 − p i µi+1 − µi = (µ1 − µ0 ) p pour tout i ∈ Z. i i “barbe” — 2007/1/8 — 10:41 — page 206 — #214 i i Chapitre VIII. 206 i www. µN −1 = 12 µN −2 et µ−N +1 = 12 µ−N +2 . la mesure µ est positive si et seulement si  µ0 ≤ µ1 ≤ 1 − p p µ0 si p < 1/2 1 − pµ ≤ µ ≤ µ si p > 1/2.bibliomath. dans ce cas. N − 1 ] ∩ Z. pour i ≥ 1. i−1  1 − p k µi − µ0 = (µ1 − µ0 ) p k=0 et i  p k µ−i − µ0 = − (µ1 − µ0 ) . Une telle mesure µ n’est positive que si µ1 = µ0 .

n+1 La suite (µn )n∈N d’éléments du compact M1 (E) admet une sous-suite convergente (µnk )k∈N . . une ou des mesures invariantes mais pas de probabilité invariante. 207 i www. Méthode topologique. Le cas où E est infini est plus complexe . + t Pn µ0 µn = . . à une constante de proportionnalité près. Nous donnons deux méthodes de démonstration. tous les cas sont possibles : aucune mesure invariante. il y a toujours au moins une mesure (et par suite une probabilité) invariante. Mesures invariantes (iii) Marches aléatoires sur Z/mZ. La somme des colonnes de la matrice t P − I est nulle. 12 ). d d µ = 1 et µ = 1 µ . µ est la loi binomiale B(d. . Comportement asymptotique. . lorsque E est fini. pour tout n ≥ 1. on définit µ0 + t Pµ0 + . une ou des probabilités invariantes.4. M1 (E) est un compact de RcardE . i. l’une topologi- que.e. µi ≥ 0 . p − 1 }. Toute chaîne de Markov homogène à valeurs dans un en- semble fini admet au moins une mesure invariante. Dans la suite. 0 d d d d−1 On en déduit aisément par récurrence que µi = Cid µ0 . i i “barbe” — 2007/1/8 — 10:41 — page 207 — #215 i i VIII. c’est-à-dire si µ est la mesure uniforme. c’est une mesure invariante puisque t Pnk +1 µ 0 − µ0 t Pµ − µ = lim (t Pµnk − µnk ) = lim = 0.bibliomath. .4. Th´eor`eme VIII. et µi = 1 . Soit µ la limite de cette sous-suite .com i i i . . La matrice t P admet donc 1 comme valeur propre. Une mesure µ est invariante pour la chaîne d’Ehrenfest si et seulement si  µi = d − i + 1 µi−1 + i + 1 µk+1 si 0 < k < d. µi = 0≤k≤p−1 qp−k µk .6.   M1 (E) = µ = (µi )i∈E : ∀i ∈ E . pour tout i ≤ d. l’autre algébrique. Une mesure µ est invariante si et seulement si pour tout i ∈ { 0. i∈E Puisque E est fini. (iv) Chaîne d’Ehrenfest. Soit µ0 ∈ M1 (E) . Démonstration. Donc. nous allons montrer comme le suggèrent ces exemples que. On note M1 (E) l’ensemble des probabilités sur E. Le résultat cherché résulte du lemme suivant. k→∞ k→∞ nk + 1 Méthode algébrique.

elle finira par en partir et n’y reviendra plus. 3 } et { 4. Chaînes de Markov (à espace d’états dénombrable) Lemme VIII. 5 }. . i∈E i j∈E On en déduit que αi = 0 pour tout i ∈ E.bibliomath. w est un vecteur propre de la matrice t P associé à la valeur propre 1. D’autre part. µ2 = 0 .  Remarque VIII.4. Soit (Xn )n∈N une chaîne de Markov homogène à valeurs dans l’ensemble E = { 1. le premier ne faisant intervenir que les variables µ1 .      0 0 0 1/2 1/2 0 0 0 1/2 1/2 La matrice de transition étant une matrice diagonale par blocs. Les mesures invariantes de la chaîne sont donc les combinaisons linéaires à coefficients positifs des mesures uniformes sur les ensembles { 1. 5 } de matrice de transition   1/2 0 1/2 0 0   1/4 1/2 1/4 0 0    1/2 0 1/2 0 0  . On a     αi = Pji wj − wi =  Pji |vj | − |vi | ≥  Pij vj  − |vi | = 0 j∈E j∈E j∈E car t Pv = λv. 208 i www. même si la chaîne démarre dans l’état 2. Démonstration. Il n’y a donc pas uni- cité de la mesure invariante. µ4 = µ5 . Soit P une matrice stochastique de di- mension n et v un vecteur propre complexe de la matrice t P associé à la valeur propre λ de module 1 . Intuitivement.   αi = Pji wj − wi = 0 . le second µ4 . Plus précisément. . ce qui provient du fait qu’il n’est pas accessible par la chaîne si X0 ∈ { 1. Le problème de l’unicité de la mesure invariante demande une étude plus fine des communications entre états.4. Pour tout i ∈ E. on note w le vecteur de composantes (|v1 |. Alors. i i “barbe” — 2007/1/8 — 10:41 — page 208 — #216 i i Chapitre VIII.4. 4. µ3 .com i i i . . µ est une mesure invariante si et seulement si µ1 = µ3 . µ2 .9. 5 }. Nous pouvons reformuler ce lemme en disant qu’une matrice stochastique indexée par un ensemble fini admet toujours un vecteur propre as- socié à la valeur propre 1 dont les composantes sont positives. Le point 2 n’est pas chargé par les mesures invariantes. . Exemple VIII. .7 (de Perron-Froebenius). µ5 . soit αi = (t Pw − w)i . 3. |vN |). . . .8. l’équation t Pµ = µ est donc équivalente à un couple de systèmes autonomes.

D´efinition VIII.4.4. deux points de E étant joints par une arête si l’un d’eux conduit à l’autre. (i) Dans l’exemple précédent. On appelle classe de la chaîne. On dit qu’une chaîne de Markov est irréductible si elle n’admet qu’une classe. On peut représenter cette relation de communication entre états par un graphe.iii. dit graphe de Markov.13. noté i ↔ j. Si P { Y0 = 1 } et P { Y0 = −1 } sont non nuls. i i “barbe” — 2007/1/8 — 10:41 — page 209 — #217 i i VIII. Exemple VIII. Dessinons le graphe de Markov associé à la chaîne décrite dans l’exemple VIII.4.10. la chaîne est irréductible puisque chaque élément de E communique avec ses deux voisins. soit un singleton de E \ E .4. Nous utilisons les notations de l’exemple VIII. a) Considérons le cas où les variables (Yn )n∈N prennent leurs valeurs dans l’ensemble { −1. on vérifie que E \ E = { 2 } et que les classes d’équivalence de la relation ↔ restreinte à { 1. On dit que i conduit à j.1. noté i → j. L’arête joignant i à j est orientée de i à j si i conduit à j. si i conduit à j et j conduit à i. Soient i et j deux éléments de E. 5 }.12. Dans ce cas. s’il existe n > 0 tel que Pijn > 0 .4. on dit que i et j communiquent. elle est réflexive sur le sous- ensemble de E. Comportement asymptotique.11. 3. Mesures invariantes D´efinition VIII. soit une classe d’équivalence de la relation ↔ restreinte à E .10. on dit aussi que la matrice de transition de la chaîne est irréductible. dont les sommets sont les points de E.bibliomath. des éléments qui communiquent avec un autre état (qui peut être lui-même). (ii) Marches aléatoires sur Z/mZ. La relation ↔ est symétrique et transitive . noté E . 5 } sont les ensembles { 1.4.com i i i . 209 i www. 1 }.2. 3 } et { 4. Exemples VIII. 4.

comme le montre le lemme suivant. pour n > 1. Si P { Y0 = 2 } et P { Y0 = −2 } sont non nuls. n ≥ 1. la chaîne est irréductible si et seulement si m est impair . on est alors assuré d’y revenir infiniment souvent.jk } est σ(X1 .bibliomath. (v) La chaîne d’Ehrenfest est irréductible puisque chaque élément de E commu- nique avec ses deux voisins. . i ∈ E. elle admet deux classes si m est pair. En effet. On définit les instants successifs de passage en i. on note Pi la loi de la chaîne conditionnée à débuter à l’état i. Chaînes de Markov (à espace d’états dénombrable) b) Considérons le cas où les variables (Yn )n∈N prennent leurs valeurs dans l’ensemble { −2.com i i i . .5. τi = τi1 = τi1 (X) = inf{ n > 0 : Xn = i } et.. D´efinition VIII. On note Ni = Ni (X) = card{ n ≥ 0 : Xn = i } le nombre de passages de la chaîne en i. 2 }. c’est-à-dire l’espérance condionnelle à X0 = i.5. Xm )-mesurable. De plus. i i “barbe” — 2007/1/8 — 10:41 — page 210 — #218 i i Chapitre VIII.5.. Pour une chaîne homogène. Il est dit transient dans le cas contraire. Soit i un élément de E. le point i est récurrent si lorsque l’on en part. (iv) La marche aléatoire symétrique avec barrières absorbantes admet 3 classes : { N }. Les τin . VIII.     { τin ≤ m } = { Xjl = i } { Xj = i } n≤k≤m 1≤j1 ≤···≤jk ≤m 1≤l≤k j ∈{j1 . Nous allons classifier les points de E suivant que ces temps sont finis ou non. Autrement dit..2. { −N } et l’ensemble des entiers relatifs compris entre −N + 1 et N − 1.. . on est assuré d’y revenir en un temps fini. Soit X = (Xn )n∈N une chaîne de Markov à valeurs dans un espace dénombrable discret E. Un point i de E est dit récurrent pour la chaîne de Markov (Xn )n∈N si Pi { τi < ∞ } = 1. τin = τin (X) = inf{ k > τin−1 : Xk = i } . 210 i www. (iii) Les marches aléatoires sur Z de paramètres différents de 0 et 1 sont irréduc- tibles puisque chaque élément de E communique avec ses deux voisins. Récurrence et transience Notation VIII.1. sont des temps d’arrêt relativement à toute filtration par rapport à laquelle la chaîne est adaptée. On note aussi Ei l’espérance sous Pi . .

On en déduit que i  n Pi { Ni ≥ n + 1 } = Pi { Ni ≥ n }Pi { τi < ∞ } = Pi { τi < ∞ } . P(E)). Soit (Xn )n∈N une chaîne de Markov définie sur (Ω. Nous procédons par récurrence sur n. Il résulte donc de la propriété de Markov forte (VIII.bibliomath. nous donnons quelques caractérisations de cette notion de récurrence fondées sur le nombre de visites de l’état i. A.s. P(E)).4.5. La démonstration se fait par récurrence en utilisant la propriété de Markov forte VIII. Lemme VIII. A. Supposons la vérifiée au rang n. Récurrence et transience Lemme VIII. Soit (Xn )n∈N une chaîne de Markov définie sur (Ω.3. Démonstration. Alors. P ).com i i i . P ). i Or τin (X) = τi ◦ θ τin−1 (X) sur { τin−1 < ∞ }. finis. sous Pi . La propriété est de toute évidence vérifée pour n = 1 puisque Pi { Ni ≥ 1 } = 1.3.  Avant d’étudier la chaîne issue d’un de ses points récurrents. Pour tout i ∈ E et tout entier n ≥ 1.5.  n−1 Pi { Ni ≥ n } = Pi { τi < ∞ } .3. i i “barbe” — 2007/1/8 — 10:41 — page 211 — #219 i i VIII.  211 i www. Un point i de E est récurrent si et seulement si Pi { Ni = ∞ } = 1 . à va- leurs dans (E. C’est une conséquence du lemme suivant. à valeurs dans (E. Démonstration.2) que P { τin < ∞ | Fτ n−1 } = Pi { τi < ∞ } i puisque Xτ n−1 = i sur { τin−1 < ∞ }. la variable aléatoire Ni suit une loi géométrique de para- mètre Pi { τi < ∞ }. Supposons que τin soit presque sûrement fini.5. d’après l’hypothèse de récurrence. les (τin )n≥1 sont des temps d’arrêt Pi -p.5. On peut écrire   Pi { Ni ≥ n + 1 } = Pi { Ni ≥ n } ∩ { τin < ∞ }   = Ei ½{Ni ≥n} P { τin < ∞ | Fτ n−1 } . Th´eor`eme VIII. Si i est un point récurrent.2. τi est presque sûrement fini. Autrement dit. Par hypothèse. Démonstration.  n    Pi { τin+1 = ∞ } = Ei Pi { τi ◦ θ τi = ∞ | Fτin } = Ei Pi { τi = ∞ } = 0 .5.

L’état i est récurrent si et seulement si la série n≥0 Pii diverge. d’après la formule de Stirling. Chaînes de Markov (à espace d’états dénombrable) Corollaire VIII. la chaîne X ◦ θ τi est indépendante de la tribu Fτin .5. pour tout entier n non nul.  Exemple VIII. une chaîne de Markov homogène se renouvelle. la loi de la chaîne n n X ◦ θ τi est la même que la loi de la chaîne X sous Pi . Soit i un point de E.com i i i .5. égale à elle-même en loi. Nous allons en déduire qu’il en est de même de tous les états de la chaîne en montrant que la récurrence est une propriété de classe. Démonstration.8. # Cm2m p (1 − p) m m si n = 2m. Soit (Xn )n∈N une chaîne de Markov homogène et i un point récurrent de cette chaîne . La variable aléatoire Ni est Pi -intégrable si et seulement si i est un point transient de E. Pour cela. Soit n un entier non nul .i. indépendante de son passé. n P00 = 0 si n est impair.2. Étudions la récurrence du point 0 pour la marche aléatoire de paramètre p.7. πm Il s’ensuit que 0 est un état récurrent si p = 12 .6. On en déduit que  2m 2m √  m −2m 1 2m P00 ∼ 4πm pm (1 − p)m e e 2πm 22m m =√ p (1 − p)m πm  m 4p(1 − p) = √ . de prendre l’es- pérance et d’utiliser le corollaire VIII. nous utilisons la propriété dite de renouvellement d’une chaîne de Markov énoncée ci-dessous. Alors Pi { Ni = ∞ } = 1 ⇐⇒ Pi { Ni = ∞ } > 0 . Marches aléatoires sur Z. Ainsi. Proposition VIII. De plus. Il suffit de remarquer que Ni = n≥0 ½{i} (Xn ). transient sinon. alors.bibliomath. 212 i www.2.5. i i “barbe” — 2007/1/8 — 10:41 — page 212 — #220 i i Chapitre VIII. Elle exprime que sur un point récurrent. la marche issue de 0 est de nouveau en 0 à l’instant n si elle a effectué autant de pas vers la gauche que vers la droite. √ Or n! ∼ ( ne )n 2πn.10.9.5.5. Corollaire VIII. n Corollaire VIII.

Sous Pi .5.5. Pi { Nj = ∞ } = Pi { τj < ∞ } = 1 . 213 i www. Supposons que i est récurrent et démontrons que j l’est aussi.com i i i .3.  D´efinition VIII. Soient i et j des états qui communiquent. C’est une conséquence directe de la propriété de Markov forte VIII. Soit i un point récurrent et j un point de E distinct de i tel que i conduit à j. il résulte alors de la loi des grands nombres V. Récurrence et transience Démonstration. La propriété de récurrence (ou de transience) d’un état est une propriété de classe. Th´eor`eme VIII.12. On définit le nombre de visites du point j avant la première visite i en i.5.5. Une chaîne de Markov est irréductible s’il n’existe qu’une seule classe de points récurrents. i i “barbe” — 2007/1/8 — 10:41 — page 213 — #221 i i VIII. il i résulte de la propriété de Markov forte que les variables aléatoires Nji ◦ θ τn sont indépendantes et de même loi sous Pi . Nous sommes donc ramenés à montrer que Pi { Nj = ∞ } > 0. alors µ({ i }) = 0. Une mesure asymptotique ne charge pas les points tran- sients. Nous pouvons maintenant étudier les mesures invariantes pour la chaîne.∞[ (τi ) = Pi { Nj = ∞ }Pj { τi < ∞ } . n ≤ τi }. Démonstration. c’est-à-dire si µ est une mesure asymptotique et i un point transient.bibliomath. Démonstration. Nji = card{ n > 0 : Xn = j.13.14.2 appliquée aux temps d’arrêt presque sûrement finis (τin )n∈N .5. Nj = n≥0 Nji ◦ θ τn . On a   Pj { Nj = ∞ } ≥ Ej Pj { Nj ◦ θ τi = ∞ | Fτi }½{τi <∞}   = Ej Pi { Nj = ∞ }½[0. On en déduit que E(Nji ) > 0 . Lemme VIII. De plus.2 que Nj = ∞ presque-sûrement.11. Or.5. Ei (Nj ) ≥ Pi { Nj ≥ 1 } = Pi { τj < ∞ } > 0 puisque i conduit à j. Alors.  Th´eor`eme VIII.

il suffit de montrer que.com i i i . La construction d’une mesure invariante est fondée sur l’idée suivante : un point de E est d’autant plus chargé par une mesure invariante qu’il est plus visité par la chaîne . Pour cela. 214 i www. nous réduirons donc notre étude des mesures invariantes à celles qui ne chargent pas les classes transientes. Rappelons que Nji = card{ n > 0 : Xn = j.4 que Ni est une variable aléatoire Pi -p. τi = m } 1≤m≤n = Pj { τi = m }Pi { Xn−m = i } . pour toute mesure initiale µ et tout point transient i de E. Pour cela.5.s. Soit An = { ∀p ≥ n . 1≤m≤n Il suffit donc de montrer que limn→∞ Pi { Xn = i } = 0. On en déduit que lim Pi { Xn = i } ≤ lim Pi (Ω \ An ) = 0 . d’où Pi n≥1 An = 1. les mesures invariantes peuvent charger les classes transientes. Soient i et j des éléments de E. Nous allons montrer que. Chaînes de Markov (à espace d’états dénombrable) Démonstration. les mesures invariantes chargent tous les points de E. i i “barbe” — 2007/1/8 — 10:41 — page 214 — #222 i i Chapitre VIII. Rappelons que. limn→∞ Pµ { Xn = i } = 0. Comme nous ne sommes intéressés que par les mesures asymptotiques. c’est-à-dire à celles qui sont portées par les classes récurrentes. L’état i étant transient. pour normaliser ce nombre de passages en un point. L’événement { Xn = i } est inclus dans Ω \ An . pour tout point j de E.bibliomath. étudions la loi de Nji sous Pi et Pj . Or Pj { Xn = i } = Pj { Xn = i. lorsque la chaîne est irréductible. comme nous l’avons vu pour les marches aléatoires sur Z. Nous allons montrer que le vecteur ν i de composantes (νji )j∈E est un vecteur propre de la matrice t P associé à la valeur propre 1.  n→∞ n→∞ Contrairement aux mesures asymptotiques. n ≤ τi } et définissons νji = Ei (Nji ). Xp = i } . il ré- sulte  du théorème  VIII. on se restreint à une excursion de la chaîne entre deux passages en un point i fixé de E. finie. On travaille désormais sous l’hypothèse que la chaîne de Markov (Xn)n est irréductible et récurrente. limn→∞ Pj { Xn = i } = 0.

15.5. Pour tout k ≥ 1 Pj { Nji = k } = Pj { Nji = k. c’est-à-dire Pj -presque sûrement. Démonstration. On en déduit que Pj { τi = ∞ } = 1. Lemme VIII. On en déduit que pour tout entier k.16. Pj { Nji = n } = Pj { τi < τj }Pj { τj ≤ τi }n . i i “barbe” — 2007/1/8 — 10:41 — page 215 — #223 i i VIII.bibliomath.5. Soit à présent m un entier non nul. Soient i et j deux points de E. τj ≤ τi } = Pi { τj ≤ τi }Pj { Nji = m − 1 } . leur intersection est donc de probabilité 1.3. Pour tout entier n. τj ◦ θτ n−1 ≤ τi ◦ θτ n−1 } j j = Pj { τjn−1 ≤ τi }Pj { τj ≤ τi } = Pj { τjn−1 ≤ τi } . Pj { Nji = k } = Pj { τi < τj }Pj { τj ≤ τi }k . ce qui contredit le lemme VIII.com i i i . il vient Pi { Nji = m } = Pi { Nji ◦ θτj = m − 1. Remarquons tout d’abord que { Nji = 0 } = { τi < τj } . Démonstration.5.5. τi ≥ τjn pour tout entier n ≥ 1. Soient i et j deux points distincts de E. Pi { Nji = n } = Pi { τj ≤ τi }Pj { τi < τj }Pj { τj ≤ τi }n−1 si n>0.2. Supposons que Pj { τj ≤ τi } = 1. la suite des temps d’arrêt (τjn )n≥1 est strictement croissante.  Montrons maintenant que si l’on part d’un état j. on ne peut pas être sûr d’atteindre l’état i = j avant de revenir à l’état j. Calculons Pj { Nji = k } par récurrence sur k en utilisant le même conditionnement.  215 i www. pour tout entier n ≥ 2. En conditionnant par la tribu Fτj et en appliquant la propriété de Markov forte VIII. et # Pi { τi < τj } si n=0.   Les événements { τjn ≤ τi } n≥1 forment une suite décroissante d’événements de Pj -probabilité 1 . Or. Alors. Alors Pj { τj ≤ τi } < 1. τj ≤ τi } = Pj { τj ≤ τi }Pj { Nji = k − 1 } .12. donc elle tend vers ∞. Pj { τjn ≤ τi } = Pj { τjn−1 ≤ τi . Récurrence et transience Lemme VIII. Observons l’appartenance de l’événement { τj ≤ τi } = Ω \ { τi < τj } à Fτj . En effet. Pj { τjn ≤ τi } = 1.

  ( Pν )l = Ei t i ½{l} (Xm ) = νli .com i i i . 1≤m≤τi C’est le résultat. Soit µ une probabilité invariante de la chaîne.17. 0≤n≤τi −1 En effet Pi { Xτi +1 = l } = Pi { X1 = l }. Xn = j } = P Xn+1 = l  Xn = j Pi { τi ≥ n.  On déduit du théorème précédent que si l∈E νli est convergente. Pour tout élément i de E. Xn ) .τi ] (n)½j (Xn ) = ½[n. Xn = j } n≥1 puisque Nji = ½{ j } (Xn ) = ½[0. i i “barbe” — 2007/1/8 — 10:41 — page 216 — #224 i i Chapitre VIII. (t Pν i )l = Pjl Ei (Nji ) .bibliomath. la chaîne admet une probabilité invariante. Re- marquons auparavant que l∈E νli = Ei ( l∈E Nli ) = Ei (τi ) pour tout i.5. Xn+1 = l } = Ei ½{l} (Xn+1 ) n≥1 1≤n≤τi   = Ei ½{l} (Xn+1 ) .5. Xn+1 = l } . 216 i www.18. Xn = j } = Pi { τi ≥ n. µj = νji µi . Démonstration. Nji est Pi -intégrable. 1≤n≤τi n≥1 n≥1 Donc    Pjl Pi { τi ≥ n. Alors. en posant m = n + 1. Th´eor`eme VIII. j∈E n≥1 De plus. On en déduit. Ei (Nji ) = Pi { τi ≥ n. Chaînes de Markov (à espace d’états dénombrable) Corollaire VIII. Xn = j. Remarquons d’abord que pour tout l ∈ E. pour tout élément i et j de E.19. D’où   ( Pν )l = t i Pi { τi ≥ n. Nous allons montrer que cette condition est nécessaire et suffisante à l’existence et l’unicité d’une probabilité invariante.∞]×{ j } (τi .5. t Pν i = ν i . Th´eor`eme VIII.

où Gkn est la tribu engendrée par les variables aléatoires Xn .  n    n   µj Pµ Xk+1 = j  Gkn = Pµ Xk+1 = j  Xkn = Pji µi sur { Xkn = i }. Alors.5. Pµ { τi ≥ n. Xn−k . X0 = i } Pi { τi ≥ n. µi Pour tout entier k ≤ n. Xn−1 . Pµ { τi ≥ n. Xn = j } = Pµ { X0 = i } Pµ { τi ≥ n. . il vient  n     n  Pµ { Xk+1 n =j} Pµ Xk+1 = j  Xkn = i = Pµ Xkn = i  Xk+1 =j Pµ { Xk = i } n    Pµ { Xn−k−1 = j } = Pµ Xn−k = i  Xn−k−1 = j Pµ { Xn−k = i } µj = Pji . . . Plus précisé- ment. ik sont des éléments de E. Nous allons utiliser.20. Pµ { Xn−k−1 = j. Lemme VIII. . .5. . pour démontrer ce théorème. . En utilisant la formule de Bayes (VI. . . Xn = i0 . . µik 217 i www.1. et soient i et j des éléments de E. Remarquons d’abord que pour tout n. introduisons Xkn = Xn−k . Démonstration. Soient k et n des entiers tels que k ≤ n. . Xn = j. X0 = i } = . Xn = j. une technique de retournement du temps. i i “barbe” — 2007/1/8 — 10:41 — page 217 — #225 i i VIII. Xnn = i } Pi { τi ≥ n. . . Récurrence et transience Démonstration.4). Xn−k = ik } . Xn = j } = . X0n = j.com i i i .bibliomath. nous allons montrer qu’elles possèdent la propriété de Markov relativement à la famille de tribus (Gkn )0≤k≤n . µi Nous allons étudier la loi jointe des variables aléatoires (Xkn )0≤k≤n . . . µi Il suffit à présent de montrer que si i0 . . Xn−k = ik } µj = Pjik Pµ { Xn = i0 . Alors.

démontrons par ré- currence sur n que µj Qnij = Pjin . . c’est-à-dire divergente. Xn−k = ik } = Pjik Pik ik−1 · · · Pi1 i0 µj µj = Pjik Pi i · · · Pi1 i0 µik µik k k−1 µj = Pjik Pµ { Xn = i0 .Q . si i est un élément de E. Supposons le vrai pour n. D’autre part. µi La matrice Q est stochastique. récurrente et admettant une probabilité invariante µ. irréductible. on en déduit que Qij > 0 et. j ∈ E . calculons les puissances successives de Q .2.20. Soit P une matrice stochastique indexée par un ensemble E. irréductible. . . . i. j ∈ E. On en déduit que i est récurrent pour toute chaîne de matrice de transition Q. Pour montrer que Q est irréductible et récurrente.P est identique à celle du vecteur aléatoire (Xk )0≤k≤n sous Pµ.21. Démonstration. Xn−k = ik } .  218 i www. il résulte de la proposition VIII.1 et de l’invariance de µ que Pµ { Xn−k−1 = j. la série n∈N Qnii est de même nature que la série n∈N Piin . de matrice de tran- sition P sur EN et n un entier non nul. Chaînes de Markov (à espace d’états dénombrable) Or.  Proposition VIII. µi C’est vrai pour n = 1.5. µj n n µl µj µj n+1 Qn+1 ij = Q n il Q lj = Pli Pjl = Pli Pjl = P .5. récurrente et admet µ comme probabilité invariante. si (Xn )n∈N est une chaîne de Markov homogène. . Pour i. µi µl µi µi ji l∈E l∈E l∈E Soient i et j deux éléments de E .com i i i . La fin de la proposition résulte du lemme VIII. . On définit une matrice Q indexée par E en posant µj Qij = Pji . . plus précisément. par suite que Q est irréductible. µik ce qui démontre le lemme. i i “barbe” — 2007/1/8 — 10:41 — page 218 — #226 i i Chapitre VIII. la loi du vecteur aléatoire (Xn−k )0≤k≤n sous Pµ. On vérifie aisément que Q est une matrice stochastique qui admet µ comme mesure invariante. . Xn = i0 . puisque P est irréductible il existe un entier N tel que PN N ij > 0 .bibliomath. De plus.

et ceci conclut la démonstration du théo- rème VIII. µi En sommant par rapport à n.19. Pµ { τi ≥ n.23.5.5.Q { τi ≥ n.Q { τi < ∞ } . Xn = i } .5. X0 = i } Pi { τi ≥ n. Xn = i } µi n≥1 µj = Pj.22. on obtient µj Ei (Nji ) = Pj.Q (τi = n) µi n≥1 µj = Pj. la chaîne admet une unique probabilité invariante µ donnée pour tout i élément de E par : Ei (Nji ) Pi (τj ≤ τi ) 1 µj = = = pour tout j ∈ E . j ∈ E. Récurrence et transience Nous pouvons conclure à présent la démonstration du théorème VIII. i i “barbe” — 2007/1/8 — 10:41 — page 219 — #227 i i VIII. Les assertions suivantes sont équivalentes : (i) la chaîne (Xn )n∈N admet une probabilité invariante . pour tout n.bibliomath. (iii) Ei (τi ) < ∞ pour tout élément i de E.19.5. Ei (τi ) Ei (τi ) Ej (τj ) Terminons ce paragraphe par une définition immédiatement issue de ce qui précède. Xn = j } = µi Pµ.12 montre que Pj.5. X0 = j. Un point i de E est dit récurrent positif pour la chaîne (Xn )n∈N si et seulement si Ei (τi ) < ∞. Il résulte en effet de ce qui précède que si i.  Corollaire VIII.Q { τi ≥ n.5.Q { τi < ∞ } = 1. La classe d’un élément récurrent positif est dite récurrente positive. (ii) il existe un élément i de E tel que Ei (τi ) < ∞ . D´efinition VIII. Le lemme VIII. Le fait d’être récurrent positif est une propriété de classe. 219 i www.com i i i . Xn = j. µi L’état i est récurrent pour la chaîne de matrice de transition Q.Q { τi ≥ n. Lorsqu’elles sont vérifiées. Xn = i } = µi µj = Pj.

la période de chaque point est 2. Alors P n+k+l ≥ P k P n P l > 0.bibliomath.5. 1 }. La classe d’un élément récurrent nul est dite récurrente nulle. Puisque la marche aléatoire symétrique sur Z n’admet pas de probabilité invariante.22.com i i i .24. i i “barbe” — 2007/1/8 — 10:41 — page 220 — #228 i i Chapitre VIII.  220 i www. Montrons que la période d de j est égale à d. On a l’équivalence i ↔ j ⇐⇒ ∃ k.6. Cet exemple nous conduit à la définition de la période d’un point. Pijk > 0 et Pjil > 0 . Exemple VIII. dans ce paragraphe. D´efinition VIII. 3 } pour n impair.6. Nous allons voir sur un cas très simple que ceci n’est pas toujours vérifié. On dit qu’un point i ∈ E est de période d pour la chaîne (Xn )n∈N si d = pgcd{ n ≥ 1. 2 } pour n pair et par { 1.1. l ≥ 1 . Dans l’exemple VIII. nous nous inté- resserons.6. On en déduit que d divise d et par symétrie d = d . D’où d divise n + k + l et par suite.5. Soit n ≥ 1 tel que n > 0. Piin > 0 }. Reprenons l’exemple de la marche aléatoire sur Z/mZ avec m = 4 et les (Yn )n≥1 suivant la loi uniforme sur { −1. Le résultat attendu est le suivant : pour toute loi initiale. Alors la loi de Xn est portée par { 0.3. Soit i ∈ E un point de période d et j ∈ E tel que i ↔ j.6. Le fait d’être de période d est une propriété de classe. au comportement asymptotique d’une chaîne de Markov (Xn )n∈N admettant une et une seule classe récurrente positive. Comportement asymptotique d’une chaîne de Markov Pour les raisons exposées dans les paragraphes précédents.2. par suite. Prenons Y0 = 0. VIII. Proposition VIII. les éléments de Z sont récurrents nuls pour cette chaîne en vertu du corollaire VIII. On en déduit que Piik+l > 0 et. d Pjj ii ij jj ji divise n.6. Démonstration. Exemple VIII. la chaîne de Markov converge vers la mesure invariante. Chaînes de Markov (à espace d’états dénombrable) Un point récurrent de E qui n’est pas récurrent positif est dit récurrent nul.1. que d divise k + l. Il ne peut donc y avoir convergence en loi de la chaîne. Une classe de période 1 est dite apériodique.

n = r mod d tel que 221 i www. Par hypothèse. . nk ). elle possède exactement d classes que l’on peut désigner par C0 . Avant de décrire les propriétés de cette chaîne auxiliaire. Il existe alors des entiers relatifs α1 . Pour 0 ≤ r < d. on a m + nij ≡ 0 mod d et m + n ≡ 0 mod d.  Proposition VIII. No- tons nk les éléments de Di rangés par ordre croissant. Démontrons que pour tout n ∈ Dij . Si Di est infini. . . si la loi de X0 est portée par Ci . . . Soit n un entier non nul multiple de di : alors n = aq  + rdi avec rdi < q  . ce plus petit élément est di . lorsqu’une chaîne est de période d = 1. Remarquons tout d’abord que si m. En effet Piim+n ≥ Piim Piin > 0. c’est-à-dire que Di est un semi-groupe pour l’addition dans N.5. Pijn > 0 }. . Pour i ∈ E. Donc. il existe un entier m > 0 tel que Pjim > 0. . αp tels que p .6. Cd−1 sont les classes de la chaîne de matrice de transition Pd . k ≥ 1. on note Dij = { n ≥ 1 . notons Cr = { j ∈ E. . fixons r et démontrons que deux éléments j et k de Cr communiquent pour cette chaîne. Il existe donc une famille finie d’éléments de Di dont le pgcd est di . Son plus petit élé- ment est donc atteint à partir d’un certain rang. Cd−1 de telle façon que. m+nij si Pii > 0 et Piim+n > 0. Alors. n ∈ Di . Comportement asymptotique d’une chaîne de Markov Comme il apparaît dans l’exemple ci-dessus. Notons et  = α n i=1 i i = di q = α n i|αi >0 i i q i|αi <0 αi ni . Alors q et q sont  éléments de Di et q − q = di . Lemme VIII. alors celle de X1 est portée par Ci+1 (avec Cd = C0 ). la matrice Pd n’est pas irréductible . Supposons la matrice P irréductible et de période d = 1. .6. est une suite décroissante d’entiers. alors Di contient tous les entiers multiples de di et supérieurs à ni . nous énonçons un résultat technique très utile dans la suite.com i i i . . np . Soit nij le plus petit élément de Dij et rij le reste de sa division euclidienne par d. . notons les n1 . On pose ni = q  (q  + di ) . . d’étudier la chaîne de matrice de transition Pd . Si j est un autre élément de E. . Alors. il est naturel. . . . la suite pgcd(n1 . notons Di = { n ≥ 1.bibliomath. rij = r }. Soit i un élément fixé de E. Démontrons que C0 . . . i i “barbe” — 2007/1/8 — 10:41 — page 221 — #229 i i VIII. .6. Démonstration. D’où n = (a − r)q  + rq ∈ Di si a ≥ q  . il existe un entier ni non nul tel que Di contienne tous les entiers multiples de di supérieurs à ni . . alors m + n ∈ Di . d’où n ≡ nij mod d. Par hypothèse. le pgcd des éléments de Di est di . La chaîne étant irréductible. Or j ∈ Cr si et seulement si il existe n ≥ 1. Piin > 0 } et di la période de i. n = rij mod d.4. Pour cela. Démonstration.

6.6. Montrons tout d’abord que (i) implique (ii). j ∈ E. P ). Soit θ ∈ R et v ∈ RcardE tels que t Pv = eiθ v. k conduit à i . Re- N marquons d’autre part que. N n−N Soit n = maxi. d − 1 }. Soit n ∈ Dij . pour tous i. donc il existe l > 0 tel que Pki > 0. Il existe n > 0 tel que Pjkdn > 0. On a. Chaînes de Markov (à espace d’états dénombrable) Pijn > 0 et de la même façon k ∈ Cr si et seulement si il existe m ≥ 1. . de plus.com i i i . Démonstration. j ∈ Cr et k ∈ Cr . pour tout élé- ment i de E. .4 et N = maxi∈E ni . . l l+n Pkj ≥ Pki l P n > 0 avec l + n = l + m − m + n ≡ 0 mod d. Pijn > 0 . m = r mod d tel que Pik m > 0. il existe Nij > 0 tel que Pij ij > 0. (ii) pour tout n assez grand. d’où l’on dé- duit que k est un élément de Cr+1 . Supposons que j conduit à k pour la chaîne de matrice de transition Pd . j ∈ E. ij m+dn Pik ≥ Pijm Pjk dn > 0 ⇒ m + dn ∈ Dik ⇒ m + dn ≡ r  mod d ⇒ m = r  mod d . n+1 Pik ≥ Pijn Pjk > 0.j∈E(Nij ) et n = N + N  .8) que t Pn |v| = |v|. A. Les propriétés suivantes sont équivalentes : (i) la chaîne est apériodique . Th´eor`eme VIII. On en déduit que      P n  v Pjin |vj |  ji j = j∈E j∈E 222 i www. Soit (Xn )n∈N une chaîne de Markov sur (Ω. alors. D’où n + 1 ∈ Dik et n + 1 = r + 1 mod d. soient j ∈ Cr et k ∈ E tels que Pjk > 0. d’où k conduit à j ij pour la chaîne de matrice de transition P d . Soient r et r  deux éléments distincts de { 0. à valeurs dans un ensemble fini E et irréductible. pour tous i. D’autre part. ce qui est absurde puisque j ∈ Cr .6. Il résulte alors du lemme de Perron-Froebenius (VIII. (iii) 1 est la seule valeur propre de module 1 de la matrice t P. Soit. Pijn ≥ Pij ij Pj. Supposons à présent (ii) vérifié et démontrons (iii).j ij > 0 puisque n − Nij ≥ n − N  = N . i i “barbe” — 2007/1/8 — 10:41 — page 222 — #230 i i Chapitre VIII. Alors t Pn v = einθ v pour tout n ∈ N. Alors.bibliomath. Soit m ∈ D . .4. si i. ni l’entier construit dans le lemme VIII.  Ces deux lemmes vont nous permettre de donner une caractérisation algé- brique des chaînes de Markov apériodiques à valeurs dans un espace fini. j ∈ E. On en déduit que m + l ∈ Di et donc que d divise m + l. Enfin.

Il énonce que les moyennes en temps (i. Comportement asymptotique d’une chaîne de Markov pour tout i ∈ E. vj = eiα |vj |. pour toute condition initiale X0 . soit µ l’unique mesure invariante de la chaîne de matrice de transition Pd restreinte à C0 (on identifie µ à une probabilité sur E).6. Donc r ν= e2iπ d (t Pr )µ 0≤r≤d−1 est non nul et vérifie de plus t Pν = e2iπ/d ν.e. nous allons nous ramener à la loi des grands nombres classique en utilisant les excursions de la chaîne entre deux passages en un même point. Ceci étant vrai pour une infinité d’entiers n. les (Pijn )j∈E sont non nuls .6.6. sur l’indice n) convergent vers les moyennes en espace (i. il s’ensuit que θ = 0. Il reste à prouver que (iii) implique (i). Alors pour tout 0 ≤ r ≤ d − 1. Nous allons utiliser la proposition VIII. Nous allons le faire par l’absurde. la suite (Xn )n∈N converge en loi vers µ.5 pour construire un vecteur propre de la matrice t P associé à la valeur propre e2iπ/d . On en déduit que einθ = 1. On a donc. n Pour cela. Une chaîne de Markov est ergodique si elle est irréductible. En effet. Si n ≥ N .7. 223 i www. i i “barbe” — 2007/1/8 — 10:41 — page 223 — #231 i i VIII. On dit qu’une chaîne de Markov (Xn )n∈N est ergodique s’il existe une probabilité µ telle que. lequel décrit la conver- gence des chaînes de Markov vers une mesure limite.  Nous concluons ce chapitre par le théorème ergodique. d’autre part einθ v = ein(θ+α) |v| = ein(θ+α) (t Pn )|v| = einθ (t Pn )v . Supposons que la période d est strictement supérieure à 1.com i i i .e. t Pr µ est portée par Cr . On pourra se reporter à Revuz (1975). par rapport à la mesure invariante µ).6. D´efinition VIII.bibliomath. c’est-à-dire du type 1  f (X1 ) + · · · + f (Xn ) . Démonstration. Th´eor`eme VIII.8. il existe donc α ∈ R tel que.  Nous étudions à présent le comportement asymptotique de moyennes tempo- relles. récurrente positive et apériodique. d’une part t Pn v = einθ v. pour tout j ∈ E.

Zn = Z0 ◦ θ τi . n→∞ Nous utiliserons pour finir le lemme suivant. n Démonstration. n ≥ 1. On a alors τi ≤ n < τi . on définit Ni (n) = 1≤k≤n ½{i} (Xk ). Remarquons que Zn est Gn -mesurable. Ainsi.       E φ(Zn ) = E E(φ(Zn ) | Fτin ) = Ei φ(Z0 ) . 224 i www.6. n→∞ n E k=0 Démonstration. i i “barbe” — 2007/1/8 — 10:41 — page 224 — #232 i i Chapitre VIII.com i i i . sont donc de même loi.  1 n lim f (Xk ) = f dµ p.10.bibliomath.s. Lemme VIII. On peut supposer la fonction f positive. sont indépendantes. pour toute fonction φ : E → R bornée. de même loi et de moyenne E f dµ/Ei (τi ). n ≥ 1. Montrons à présent leur indépendance. le nombre de fois où la chaîne est Ni (n) Ni (n)+1 passée en i avant l’instant n. Alors. n ∈ N. Soit (Xn )n∈N une chaîne de Markov irréductible et récurrente positive. Alors i i Zk ≤ f (Xk ) ≤ Zk . pour n > 0.s. Remarquons tout d’abord que pour tout n ≥ 1. D’où f (Xk ) ≤ f (Xk ) ≤ f (Xk ). où Gn = Fτ n+1 . On fixe i ∈ E et.6. N (n) 0≤k≤τi i 0≤k≤n N (n)+1 0≤k≤τi 1 les variables aléatoires Zn . 0≤k≤Ni (n)−1 0≤k≤n 0≤k≤Ni (n) Les temps d’arrêt (τin )n≥1 étant p. Chaînes de Markov (à espace d’états dénombrable) Th´eor`eme VIII.s. pour toute fonction f ∈ L1 (µ) et toute loi initiale µ0 . l’indépendance est donc i une conséquence de la relation      E φ(Zn )  Gn−1 = E φ(Zn ) . finis. on a lim Ni (n) = ∞ p.9 (loi forte des grands nombres). définies par Z0 = Introduisons 1≤k≤τi f (Xk ) et Zn = τ n +1≤k≤τ n+1 f (Xk ) pour tout entier n ≥ 1. Soit µ l’unique mesure invariante de la chaîne. Les variables  aléatoires Zn . Les Zn .

x1 )g1 (x1 . . Pour quelles valeurs de m et k la chaîne est-elle récurrente irréductible ? Donner. alors on connaît la loi du couple (X. pour tous x0 .i+k = Pi. ∞ [. Xn ) est une chaîne de Markov à va- leurs dans un ensemble fini E si et seulement si il existe des fonctions gi : E × E → [ 0. Y ). 0 ≤ i ≤ n − 1. . 225 i www. xn ∈ E. Pi. dans tous les cas. D’où 1   lim f (Xk ) = f dµ (Ei (τi ))−1 p. on obtient Ni (n) lim = Ei (τi ) n→∞ n ce qui conduit au résultat annoncé.j = 0 sinon. i i “barbe” — 2007/1/8 — 10:41 — page 225 — #233 i i Exercices Enfin. ses classes de récurrence et la mesure invariante de ses classes.i−k = 1/2.com i i i . Sur l’ensemble fini E = Z/mZ. Montrer que (X0 .s. n→∞ Ni (n) E 0≤k≤n Prenant f ≡ 1. . .2. Xn = xn } = g0 (x0 . déterminer quand elle est apériodique.  Exercices Exercice VIII. P { X0 = x0 . on considère la chaîne (Xn )n≥0 de générateurs Pi. . . . . Montrer que l’on peut réaliser la chaîne (Xn )n≥0 sous la forme Xn+1 = f (Xn . Lorsque la chaîne est récurrente irréductible. on a   µj Ei (Z0 ) = f (j)Ei ½{j} (Xk ) = f (j)Ei (Nji ) = f (j) .3. telles que. . . xn ) . εn ) avec une fonction f et une suite (εn )n≥0 de variables aléa- toires dans { −1.1. . . où 1 ≤ k < m.2) que  1 1 f dµ lim Zk = lim Zk = Ei (Z0 ) = E n→∞ Ni (n) n→∞ Ni (n) Ei (τi ) 0≤k≤Ni (n)−1 0≤k≤Ni (n) presque sûrement.bibliomath. Exercice VIII.  Ei (τi ) j∈E 0≤k≤τi j∈E j∈E Il résulte de ce lemme et de la loi forte des grands nombres (V. +1 } que l’on déterminera. x2 ) · · · gn−1 (xn−1 . À quelles conditions deux matrices P = (Pij )1≤i≤n.1≤j≤n sont-elles les lois conditionnelles L(X | Y ) et L(Y | X) de deux variables aléatoi- res X et Y prenant respectivement n et m valeurs ? Montrer que si l’on connaît L(X | Y ) = P et L(Y | X) = Q. Exercice VIII.5.1≤j≤m et Q = (Qij )1≤i≤m.

4. Soit (Xi )i∈N une suite de variables aléatoires réelles et de même loi de fonction de répartition continue F . j) un poids wi. j). Soit T = inf{ n ≥ 1 : Xn = j } . Soit (V. Considérons les temps de record Tn .com i i i . Exercice VIII. Démontrer que (Tn )n∈N et (XTn )n∈N sont deux chaînes de Markov non homo- gènes. Exercice VIII.bibliomath. E) un graphe connexe non orienté d’ensemble de som- mets fini V et d’ensemble d’arètes E ∈ V ×V . définis par T0 = 0 et Tn+1 = min{ i > Tn : Xi ≥ XTn } .5.j /wi .i > 0 et l’on pose wi = j wi.6. i i “barbe” — 2007/1/8 — 10:41 — page 226 — #234 i i Chapitre VIII. n ≥ 1. 226 i www. Soit (Xn )n≥0 une chaine de Markov de matrice de transition Pij avec Pij > 0 pour tout couple (i. Démontrer qu’il existe ρ ∈] 0. Chaînes de Markov (à espace d’états dénombrable) Exercice VIII. et l’on choisit j = i.j .j = wj. On associe à chaque arète (i.s. On suppose que X0 = i p. 1[ tel que P { T > n } ≤ ρn pour tout n ≥ 1.j = wi. Déterminer la mesure invariante de la chaîne de Markov sur V de matrice de transition Pi. et les records XTn .

T. Grimmett.M. M. i i “barbe” — 2007/1/8 — 10:41 — page 227 — #235 i i BIBLIOGRAPHIE Dacunha-Castelle. Intégration et probabilités. Dudley. Revuz. Cambridge University Press. R. (1982). Bases mathématiques du calcul des probabilités. Functional Analysis. (1998). North Holland. Wadsworth. (1982).R. J. D. Markov Chains. W. (1997). W. Academic press. Springer. Probabilités et statistiques. Williams. Neveu. (1984). Masson. D. D. Cambridge University Press. Convergence of Stochastic Processes. McGraw-Hill. Rudin. Revuz. (1991). D. Malliavin. Norris. Probability Theory. (1971). (1973). Fine.L.. Wiley. Real Analysis and Probability.com i i i . Markov Chains. Dunod. (1989). D. analyse de Fourier et analyse spectrale. P. Hermann. Foata. (1964). Probabilités. (1975). (1975). Masson..bibliomath. Duflo. Fuchs. Cambridge University Press. An Introduction to Probability Theory and its Applications. (1993). J. Theories of Probabilities : An Examination of Foundations. Feller. Pollard. G. D. Cours de probabilités pour la licence (2e édition). i www. A. Masson. (1997). Probability with Martingales.

com i i i .bibliomath. i i “barbe” — 2007/1/8 — 10:41 — page 228 — #236 i i i www.

k!(n − k)! D´efinition. suit une loi de Bernoulli de paramètre p ∈ [ 0. . à valeurs dans { 0. Une variable aléatoire X. 1 }. Une variable aléatoire X. . Espérance : np Variance : np(1 − p) Fonction caractéristique : (1 − p + peit )n i www. p). p). 1 ]. notée B(1. Loi de Bernoulli D´efinition.com i i i .bibliomath. k = 0. Espérance : p Variance : p(1 − p) Fonction caractéristique : 1 − p + peit 2. . 1. si P { X = k } = Ckn pk (1 − p)n−k . si P{X = 1} = p = 1 − P{X = 0}. Loi binomiale Soit Ckn le coefficient binomial n! . notée B(n. 1 ]. à valeurs entières. . i i “barbe” — 2007/1/8 — 10:41 — page 229 — #237 i i APPENDICE LOIS DE PROBABILITÉS USUELLES 1. suit une loi binomiale de taille n ≥ 1 et de paramètre p ∈ [ 0. n .

n1 ! . p)∗B(m. p). 1 − p étant blanches. 4. Loi multinomiale D´efinition. . le nombre de boules noires tirées suit une loi B(n. pd ). et si l’on tire au hasard sans remise n boules. . si (Xi )1≤i≤n est une suite de variables de Bernoulli indépendantes. nd ∈ N . p). p) et B(m. Autrement dit. 230 i www. si λk P { X = k } = e−λ . 1). . pn ) avec limn→∞ npn = λ. . n1 + · · · + nd = n . √ Proposition. pd ∈ [ 0. alors (Xn − np)/ np(1 − p) converge en loi quand n → ∞ vers une variable de loi normale centrée réduite N (0. p). à valeurs entières. . si   n! P X = (n1 . Y sont indépendantes et de lois respectives B(n. alors X1 + · · · + Xn est de loi B(n. (i) Si Xn suit une loi B(n. . λ > 0. Xd ). suit une loi multinomiale de paramètres n ∈ N. . p1 . 3. p1 . k ∈ N. 1 ]. . pnd d . Il en résulte que si une urne contient n boules. . p). . . . alors (X − λ)/ λ converge en loi quand λ → ∞ vers une variable de loi normale N (0. Loi de Poisson D´efinition. alors Xn converge en loi quand n → ∞ vers une variable de loi de Poisson de paramètre λ. i i “barbe” — 2007/1/8 — 10:41 — page 230 — #238 i i Probabilité Stabilité par convolution : B(n. .bibliomath. si X.com i i i . . Proposition. suit une loi de Poisson P(λ) de paramètre λ > 0. . . . à valeurs dans Nd . 1). . nd ) = pn1 . . alors X + Y est de loi B(n + m. . . (ii) Si Xn suit une loi B(n. k! Espérance : λ Variance : λ   Fonction caractéristique : exp λ(eit − 1) Stabilité par convolution : P(λ) ∗ P(µ) = P(λ + µ). si X et Y sont indépendantes et suivent respectivement des lois P(λ) et P(µ). p). . nd ! 1 n1 . Une variable aléatoire X. Un vecteur aléatoire X = (X1 . p). . Si Xλ suit une loi P(λ). p) = B(n+m. ou de façon équivalente. une proportion p d’entre elles étant noires. p1 + · · · + pd = 1. En particulier. alors X + Y est de loi P(λ + µ). notée M(n. .

. . p1 . Si XN suit une loi hypergéométrique de paramètres (N. d. Une variable aléatoire X. 1 ] si n+k−1 p (1 − p) . N p) . pd ). n − N (1 − p) ≤ k ≤ min(n. Nd ) de boules dans les boîtes 1. suit une loi binomiale négative de paramètres (n. max 0.bibliomath. P { X = k } = Cn−1 n k k ∈ N. p) ∈ N∗ × [ 0. . p). . . Proposition. alors XN converge en loi quand N → ∞ vers une variable de loi binomiale B(n. . . i i “barbe” — 2007/1/8 — 10:41 — page 231 — #239 i i Appendice : Lois de probabilités usuelles Espérance : (np1 . . 5. une proportion p étant noires. . Une variable aléatoire X. n. Loi binomiale négative D´efinition. les nombres (N1 . . chaque boule ayant la probabilité pi d’être jetée dans la i-ème boîte. 6. npd ) Covariance : cov(Xi . suit une loi hypergéo- métrique de paramètres (N. Xj ) = −npi pj . n. le nombre de boules noires tirées suit une loi hypergéométrique de paramètres (N.com i i i . . i = j Variance : Var(Xi ) = npi (1 − pi )   itj n Fonction caractéristique : 1≤j≤d pj e Si l’on dispose de n boules que l’on jette une par une aléatoirement dans d boîtes différentes. suivent une loi multinomiale M(n. 1 ] si CkN p Cn−k N (1−p)   P{X = k } = . Loi hypergéométrique D´efinition. . p). à valeurs entières. n. . à valeurs entières. . p) avec N p ∈ N∗ et p ∈ [ 0. . Espérance : n(1 − p)/p Variance : n(1 − p)/p2  n p Fonction caractéristique : 1 − (1 − p)eit 231 i www. 1 − p étant blanches. p). CnN Espérance : np Variance : N −n N − 1 np(1 − p) Si on tire n boules sans remise dans une urne en contenant N . .

b ]. Une variable aléatoire X. p). Loi uniforme continue D´efinition.com i i i . à valeurs réelles. suit une loi de Paréto de paramètre p > 1 si sa densité par rapport à la mesure de Lebesgue sur R est (p − 1) f (x) = ½[1. à valeurs positives.b] . i i “barbe” — 2007/1/8 — 10:41 — page 232 — #240 i i Probabilité Si (Xi )i≥1 est une suite de variables aléatoires indépendantes et de même loi de Bernoulli B(1. si sa densité par rapport à la mesure de Lebesgue sur R est 1 f (x) = ½ (x) . on parle aussi de loi géométrique. suit une loi uniforme sur [ a. Une variable aléatoire X. notée U[a. Loi de Paréto D´efinition. 7. p).∞[ (x) . b − a [a. Loi gamma  ∞ Pour p > 0. on définit l’intégrale « gamma ».bibliomath.b] Espérance : (a + b)/2 Variance : (b − a)2 /12 Fonction caractéristique : eita e − e itb ita it(b − a) 8. a < b. le nombre total d’échecs avant le n-ième succès suit une loi binomiale négative de paramètres (n. un échec si Xi = 0. 0 232 i www. Γ(p) = xp−1 e−x dx. représentant un succès si Xi = 1. xp p−1 Espérance : p − 2 si p > 2 p−1 Variance : si p > 3 (p − 3)(p − 2)2 9. Lorsque n = 1.

√ Proposition. si X et Y sont deux variables aléatoires indépendantes. Espérance : p/θ Variance : p/θ 2 Fonction caractéristique : 1 (1 − iθt)p Stabilité par convolution : γ(p. à valeurs positives. i i “barbe” — 2007/1/8 — 10:41 — page 233 — #241 i i Appendice : Lois de probabilités usuelles D´efinition. Si X et Y sont indépendantes et suivent respectivement une loi γ(p) et γ(q). θ) et γ(q. Loi béta Pour p. q). alors X/(X + Y ) suit une loi β(p.com i i i .1[ (x) . q). Une variable aléatoire X. θ) = γ(p + q. si sa densité par rapport à la mesure de Lebesgue est xp−1 (1 − x)q−1 f (x) = ½]0. à valeurs sur ] 0. 233 i www. notée Exp(θ). alors X + Y est de loi γ(p + q. q > 0. Si Xp suit une loi γ(p. notée γ(p. θ). notée β(p. 10. on définit l’intégrale « béta » par  1 Γ(p)Γ(q) B(p. 1). Une variable aléatoire X.∞[ (x) . θ) ∗ γ(q. q) Espérance : B(p + 1. B(p. q)/B(p. Γ(p) La loi γ(1. suit une loi gamma de paramètres p > 0 et θ > 0. θ). si sa densité par rapport à la mesure de Lebesgue sur R est θ p −θx p−1 f (x) = e x ½[0.bibliomath. θ). θ) est appelée loi exponentielle de paramètre θ. q > 0. q) = xp−1 (1 − x)q−1 dx = . θ). de lois respectives γ(p. q) pq Variance : (p + q)2 (p + q + 1) Proposition. alors (Xp − p)/ p converge en loi quand p → ∞ vers une variable aléatoire de loi N (0. 0 Γ(p + q) D´efinition. suit une loi béta de première espèce de paramètres p. 1 [. Autrement dit. En outre X/(X + Y ) et X + Y sont indépendantes. 1).

σ12 ) ∗ N (m2 . 2 Γ(d/2) En particulier. de lois respectives N (m1 . σ22 ).bibliomath. Une variable aléatoire X. σ 2 ) de moyenne m et variance σ 2 > 0 si sa densité par rapport à la mesure de Lebesgue est 1  (x − m)2  f (x) = √ exp − . suit une loi de Laplace (ou double exponentielle) si sa densité par rapport à la mesure de Lebesgue est 1 −|x| f (x) = e . 1/2). à valeurs réelles.∞[ (x) . 2 Espérance : 0 Variance : 2 Fonction caractéristique : 1/(1 + t2 ) 12. Loi normale unidimensionnelle D´efinition. x ∈ R. à valeurs réelles. i i “barbe” — 2007/1/8 — 10:41 — page 234 — #242 i i Probabilité 11. si X1 et X2 sont indépendantes. 234 i www. Au- trement dit. 13. Une variable aléatoire X. σ12 + σ22 ). Loi de Laplace D´efinition. X/2 suit une loi γ(d/2. σ12 + σ22 ). σ12 ) et N (m2 . suit une loi normale N (m. 2πσ 2 2σ 2 Espérance : m Variance : σ 2  2 2 Fonction caractéristique : exp itm − 2t σ Stabilité par convolution : N (m1 .com i i i . σ22 ) = N (m1 + m2 . x ∈ R. suit une loi du chi- deux χ2 (d) à d ∈ N∗ degrés de liberté si sa densité par rapport à la mesure de Lebesgue est 1 f (x) = d/2 x(d/2)−1 e−x/2 ½[0. Une variable aléatoire X. Loi du chi-deux D´efinition. alors X1 + X2 est de loi N (m1 + m2 . à valeurs positives.

Proposition.bibliomath. x ∈ R. la loi de Student à d degrés de liberté s’appelle loi de Cauchy. dB(1/2. et si Y et Z sont indépendantes. . alors Y / Z/d suit une loi de Student à d degrés de liberté. .com i i i . 14. 1). (i) Si X1 . √ (ii) Si Xd suit une loi du chi-deux à d degrés de liberté. alors (Xd −d)/ d converge en loi quand d → ∞ vers une variable aléatoire de loi N (0. En particulier. . si Z suit une loi du chi-deux à d degrés de liberté. Xd sont des variables gaussiennes centrées réduites indépendantes. et sa densité est 1 f (x) = . . Autrement dit. 235 i www. Loi de Student D´efinition. i i “barbe” — 2007/1/8 — 10:41 — page 235 — #243 i i Appendice : Lois de probabilités usuelles Espérance : d Variance : 2d Fonction caractéristique : (1 − 2it)−d/2 Stabilité par convolution : χ2 (d1 ) ∗ χ2 (d2 ) = χ2 (d1 + d2 ). alors X12 + · · · + Xd2 suit une loi du chi-deux à d degrés de liberté. Si Y est une variable normale centrée réduite. 1). la variable aléatoire Y /|Y  | suit une loi de Cauchy. d/2) d Lorsque d = 1. de lois respectives χ2 (d1 ) et χ2 (d2 ). si Y et Y  sont indépendantes de loi N (0. alors X1 + X2 est de loi χ2 (d1 + d2 ). Une variable aléatoire X. x ∈ R. π(1 + x2 ) Espérance : 0 pour d > 1 Variance : d/(d − 2) pour d > 2 Fonction caractéristique : e−|t| pour la loi de Cauchy Proposition. si X1 et X2 sont des variables aléatoires indépendantes. suit une loi de Student à d ∈ N∗ degrés de liberté si sa densité par rapport à la mesure de Lebesgue est 1  x2 − d+1 f (x) = √ 2 1+ . Par symétrie. à valeurs réelles. lorsque d = 1. il en va de même de Y /Y  .

. x ∈ Rd . Γ1 ) et N (m2 . . Autre- ment dit. à valeurs dans Rd . Γ2 ) = N (m1 + m2 . i i “barbe” — 2007/1/8 — 10:41 — page 236 — #244 i i Probabilité 15. Loi normale multidimensionnelle D´efinition. si X et Y sont deux vecteurs aléatoires indépendants. Γ1 + Γ2 ). . 236 i www. . Γ2 ). Un vecteur aléatoire X = (X1 . m − 1t 2 t Γt Stabilité par convolution : N (m1 . Γ) de moyenne m ∈ Rd et de matrice de covariance inversible Γ si sa densité par rapport à la mesure de Lebesgue est   1 1 f (x) = √ exp − t(x − m)Γ−1 (x − m) . de lois respectives N (m1 . Xd ). Γ1 ) ∗ N (m2 . suit une loi normale N (m.com i i i . (2π)d/2 détΓ 2 Espérance : m Covariance : Γ   Fonction caractéristique : exp it. alors X + Y est de loi N (m1 + m2 .bibliomath. Γ1 + Γ2 ).

44 cylindre. 154 décomposition de Doob. 2. i i “barbe” — 2007/1/8 — 10:41 — page 237 — #245 i i INDEX TERMINOLOGIQUE A convergence p. 69 classe (d’une chaîne de Markov). 134 D atome. 9. 159. 89. 193 convergence monotone. 64. 90 distance en variation. 43. 209 équiintégrabilité. 113 adapté. 207 ensemble négligeable. 119 espace produit. 160. 118. 113.a. 201 ensemble non mesurable.com i i i . 223 compacité relative. 145 corélation. 69. 86. 122 espérance. 120. 80. 11 équitension. 103 absolument continue. 166 algèbre.bibliomath. 160. 31. 28 espacements. 128 état. 173 covariance. 117 conjugué. 115. 127 communiquer. 167. 45. 146 Borel-Cantelli. 19. 119. 48 i www. 156. 56 échangeable. 37 espace mesurable. 154. 101. 164 conduire. 16. 213 équiintégrable. 26. 35 convergence dominée (théorème). 122 convolution. 3 argument de bloc.). 80 convergence en loi. 99. 170 convergence en distribution. convergence en probabilité. 95. 109. 20 chîne de Markov. 10 chaîne d’Ehrenfest. 200. 119. 175 B densité. 152 distance en variation totale. 116 ensemble élémentaire. 120. 119 classe (Markov).. 116 borélien. 16. 111. 85. 209 ergodique. 78. 101. 2 convergence dans Lp . 53. 153 barrière absorbante.s. 127 espace gaussien. 121 espérance conditionnelle. 4 centré. 165. 36. 193 entropie. 31. 209 espace Lp . 153. 117. 113. 4 E C écart type. 164 ensemble monotone. 194. 170 Cauchy (critère de). 45. 127 classe monotone. 122 espace probabilisé. 21. 79. 155 base (d’un cylindre). 165. 90 algèbre engendrée. 60. 41 convergence dominée. 110. 171 discrète (loi). 123 166 convergence étroite. 31 Chapman-Kolmogorov (équation de). 206 discrète (v. 40 Bayes (formule de). 122. 158 étrangère (loi).

37 inégalité de Tchebitchev. 51. 151. 48 inégalité de Jensen. 122. 121. 105. 70 indépendance. 87. fonction caractéristique. 145 132. 57. 209 inégalité maximale. 70 loi. 50. 213 L2 . homogène. 64. 140. 205. 103. 194. 166. 48. 73. 103 loi uniforme. loi). 95. 203 filtration. 87. 29 médiane. 155 fonction indicatrice. 173 loi (d’une variable). 75. 144. 195. 55. 81 123. 86 intégrable (fonction). 102. 101. 96 loi de Paréto. 94. 43. 194 in´ galité de Bienaymé-Tchebitchev. loi gamma. 121. 69 irréductible. 114. 136. 158 loi gaussienne. 74. inégalité de Hölder. 130. 44 loi produit. 187 loi géométrique. 31 lemme de Borel-Cantelli. 55. 144. 23. mesure). fonction de répartition. 164. 111. 81 marge. 27. 95. 164. 199. 8 loi de Laplace.bibliomath. 63. 162. 66 loi de Poisson. 23. 88. 137 169 loi de Cauchy. 162 loi du 0–1. 51. 159 lemme de Fatou. 80 inégalité de Chernoff. 64 fonction génératrice. 144. 89–91. 137. 24. 113 marche aléatoire. 45. 106 inégalité de Kolmogorov. 167 loi conditionnelle. 140. 80. 117. 28 F lemme de Riemann-Lebesgue. 106. 102 initiale (loi. 26. 150. 56.com i i i . 51 inégalité de Bernstein. 13. 41. 63. 57. Cramér. 48. 77. 205. 30. 29. 55. 131. 68 inégalité de Tchebitchev. 5. inégalité de Bienaymé. 13. 24 matrice stochastique. 62. 61. 213 mesurable. 93. 208 intégrale de Riemann. 158 loi log-normale. 105. 165 inégalité de Bonferoni. 70. 50. 30 loi dicrète. 45. 42 Lp . 118 masse de Dirac. 37 171 inégalité de Hólder. 55. 99. 42. 150 loi faible. 76. 89. 81 loi marginale. 186. 55. 57. 199. 89. i i “barbe” — 2007/1/8 — 10:41 — page 238 — #246 i i Probabilité étrangère (mesure). 51. 60 matrice de transition. 42. 42. 204. 167. 64. 40. 131 I loi forte des grands nombres. 43. 68 fonction génératrice des moments. 13. 145. 68. 59 loi normale. 132. Chernoff. 48. 122. 44 fonction borélienne. 169 fonction de quantile. 59. 5 L mesure. 111. 131. 203 intégrale. 45. 6 loi binomiale. 43. 30 mesure asymptotique. 171 loi de Bernoulli. 193 martingale. 174 initiale (mesure. 186 fonction intégrable. 178 intégrabilité uniforme. 63. 104. 199 144. 203 martingale L1 . 63. 47. 53 mesure de Lebesgue. 46. 86. 5 loi des grands nombres. 63. loi forte des grands nombres. 173. 43. 156 mesure de comptage. 44–46. 171 169. 92 loi du logarithme itéré. 180 marche aléatoire symétrique. 182 événement. 105. 140 H loi exponentielle. 145. 103. 111. 98. 131. 103. 181 inégalité de Markov. 145 238 i www. 77. 45 fonction mesurable. 48. 42. 77. TCL. 68 fonction élémentaire. 58 M inégalité de Minkowski. 56 lois infiniment divisibles. 209. 80. 43 lemme de Doob. 80.

36 théorème de Kolmogorov. sur-martingale. 39 tribu complète. 196. 151. 176 moyenne. 53 tension. 36 tension uniforme. 136 sous-martingale). 131 mesure image. 15. 57. 219 réduite (variable). 44 sous-additivité. 35 tribu terminale. 208 théorème limite central. 152 transient. 151. 43 transformée de Fourier. 31 partition. 174 mesure produit. 61–63 probabilité. 4. 105. 205 sous-martingale. 9. 201 tribu engendrée. 32.. 2. 68 T moment absolu. 43 théorème limite central poissonien. 212. 43. 77. 64. 44. 13 mesures équivalentes. 17. 164 propriété de Markov forte. variance. 174 mesures étrangères. 66 Peron-Froebenius (lemme). 81. 141 presque partout. 220 récurrent. 145 P théorème de prolongement (de Kolmogorov). 103. 164. 21 propriété de Markov. 152 théoréme de transport. 20 orthogonales (variables). 153. 213 probabilité invariante. 154 méthode de rejet. 220 théorème des moments. 84. 213 récurrence nulle. 45 renversée (martingale. 206 transition. 150. 2 mesure de Lebesgue (sur R d ). 203 tribu produit. 80 théorème de Fubini. 152 Processus de Poisson. 143 probabilité conditionnelle. 92 théorème d’arrêt. 15. 56 temps d’arrêt. 171 tribu borélienne. 6 produit scalaire (dans L2 ). 15 tribu triviale. 98. 185 vecteur aléatoire. 21 prolongement. 13. 213 probabilités totales (formule des). 162 processus. 145 système complet. 210–212. 92 R tribu trace.bibliomath. 56. 4. 44 tribu complétée. 173 tribu. 90 théorème de Radon-Nikodym. 66.com i i i . 13 suite d’exhaustion. 53 moment centré. 127 terminal (événement). 2 récurrence. 171 mesure signée. 179 orthogonale. 35 statistique d’ordre. 31. 14 mesure invariante. 16 σ-algèbre.a. 53. 210. 56 variable aléatoire. 162 transformée de Laplace. 136. 92 O terminale (tribu). 204. 17 somme de v. 81. 57. 159. 50. 93. 5. 53 période. 127 µ-essentiellement borné. 19 Wald (lemme de). 189 σ-additif. 164 théorème d’Egorov. 31 sur-martingale. 16. i i “barbe” — 2007/1/8 — 10:41 — page 239 — #247 i i Index terminologique mesure de Lebesgue (sur R). 149. 13 239 i www. 213 V récurrent positif. 171 moment. 153. 169 S W section. 66. 32. 139 presque sûrement. 19. 153 transience. 41.

com i i i . i i “barbe” — 2007/1/8 — 10:41 — page 240 — #248 i i i www.bibliomath.

31 Cov(X). 31 Var(X).. 17 F X . 193 p. 158 M(E). 21  F X . 46 XT . 159 δx . 53 Ni . 50 i ↔ j. 92 P(Ω). 2 Lp (Ω. 18 Exp(θ). 43 E( · | Y ). 30  · ∞ . 56 τi . 162 µf . 7 Ckn . 156 f −. 93 P ∅. 23 E(X). 36 A∞ . 149 σ(f ). 41 E( · | B). 177 x. 155 f +. 3 Lp . 31 ϕX (t). µ ◦ f −1 .s. 5 P(λ).1] . 19 F ← . 43 E( · | Z). 2 f p . 155 x ∨ y. 48 i → j. 43 E( · | B). 51 E . resp. i i “barbe” — 2007/1/8 — 10:41 — page 241 — #249 i i INDEX DES NOTATIONS La référence est celle du premier emploi de la notation. 209 Aω . 122 Ac .p. 210 µ  ν.s.. 38 L →. 210 dµ. 66 Ω \ A. 210 dx. 38 d →. 122 f −1 (B). 8 B(n. 2 f ∞ . 44 L( · | ·). 1). g. τi (X). 10 P X . 39 P (· | B). 2 Lp . 213 dν . 13 L(X). y. 15 P { X ∈ B }. 60 µ⊥ . 44 FT . A. signifie respectivement N = ensemble des entiers naturels Z = ensemble des entiers relatifs Q = ensemble des rationnels R = ensemble des réels ∨ = maximum ∧ = minimum Ω \ A. 3 Lp (Ω. 210 dµ Nji . 56 Pi . 159  · ∞ .. 209 Aµ .com i i i . 5 f. 56 Ei . µ). A. 9 U[0.bibliomath. τin (X). 154 ½A . 36 →. 36 i. 48 E. µ). 30  · p . τin . 44 P ( · | B). p). 8 p.. 5 P . 214 i www. 42 S. 36 LX (s). 209 f dµ. 113 resp. 43 E(X | B | C). 62 νji . 19 N (0. Ni (X). 177 µ1 ⊗ µ2 .

enveloppes et developpées . mais aussi l'analyse complexe ou la topolo- gie algébrique.Pub dans Probabilité 7/12/06 13:31 Page 1 Dans la même collection : Géométrie L3M1 Michèle Audin Ce livre est destiné aux étudiants de Licence ou Master de Mathématiques (L3M1) et à ceux qui préparent le CAPES ou l'agrégation. L'ouvrage est découpé en 11 chapitres : Mesure et intégrale . Transformation de Fourier . des angles inscrits. de la "vraie" géométrie : des triangles. • Avril 2006 • 2-86883-883-9 • 428 pages • 35 € Calcul intégral L3M1 Jacques Faraut Cet ouvrage traite du calcul intégral. des paraboles. des enveloppes. des inversions.. outil essentiel de l'analyse mathématique et du calcul des probabilités. Intégration sur Rn . Intégration sur un espace produit . • Octobre 2006 • 2-86883-912-6 • 208 pages • 21 € Retrouvez tous nos ouvrages sur www.org www. Elle est spécialiste de géométrie symplectique et de systèmes intégrables.edpsciences. projective. Mesure de Lebesgue . L'ouvrage se découpe en 8 chapitres : la géométrie affine . en même temps. des sujets sur lesquels elle a publié des articles de recherche et plusieurs livres. L'ouvrage traite de géométrie affine. la géométrie euclidienne plane . des sphères. de géométrie différentielle des courbes et des surfaces. Mesures de Lebesgue- Stieltjes . basé sur l'algèbre linéaire et. Fonctions définies par des intégrales . Jacques Faraut est professeur de mathématiques à l'université Pierre et Marie Curie de Paris. des polyèdres. la géométrie pro- jective . Séries de Fourier . où il a enseigné l'analyse à tous les niveaux. coniques et quadriques . Michèle Audin est professeur de mathématiques à l'Université Louis Pasteur de Strasbourg où elle a enseigné la géométrie à tous les niveaux. Espaces Lp . Il contient un exposé rigoureux. Il est spécialiste de l'analyse des groupes de Lie et a publié plusieurs ouvrages sur le sujet.com . la géométrie euclidienne (généralités) . la géométrie euclidienne dans l'espace . euclidienne. Ce livre est illustré de 195 figures et de 411 exercices avec indications de solution. de coniques et quadratiques. surfaces dans l'espa- ce de dimension 3.bibliomath. courbes. Convolution . Applications et compléments..