795

Probabilités et Statistique
Jean-Michel JOLION
Département Génie Industriel∗
3ème Année
Version électronique : http://rfv.insa-lyon.fr/˜jolion/STAT/poly.html
May 26, 2006
∗
INSA Lyon - Bât. J. Verne - 69621 Villeurbanne Cedex - tél : 04 72 43 87 59 - Fax : 04 72 43 80 97 - Email :
Jean-Michel.Jolion@insa-lyon.fr
1
Sommaire
1 Probabilités I-1
1.1 Notions de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2 Analyse combinatoire (rappels) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.1 Factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.2 Arrangements de p objets parmi n . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.3 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-1
1.2.4 Combinaisons de p parmi n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2
1.2.5 Répétitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2
1.3 Epreuves et Evènements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-2
1.4 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3
1.4.1 Axiomatique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3
1.4.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-3
1.5 Probabilité conditionnelle - Théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . . I-4
1.5.1 Théorème des probabilités composées . . . . . . . . . . . . . . . . . . . . . . . . . I-4
1.5.2 Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-4
1.5.3 Théorème de Bayes - Probabilités des causes . . . . . . . . . . . . . . . . . . . . . I-5
1.6 Le paradoxe de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I-5
2 Variables aléatoires II-1

2.1 Variable aléatoire : définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-1
2.2.3 Fonction de répartition d’une v.a. discrète . . . . . . . . . . . . . . . . . . . . . . . II-2
2.3 Fonction de répartition d’une v.a. continue . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4 Couple de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4.2 Cas d’un couple de v.a. continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-2
2.4.3 Cas d’un couple de v.a. discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-3
2.4.4 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-3
2.5 Loi d’une fonction d’une ou plusieurs variables aléatoires . . . . . . . . . . . . . . . . . . . II-3
2
2.5.1 Transformation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . II-3
2.5.2 Densité de probabilité d’une somme de V.A. indépendantes . . . . . . . . . . . . . II-4
2.6 Moyenne et espérance mathématique d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . II-4
2.6.1 Notion de moyenne pour une v.a. discrète . . . . . . . . . . . . . . . . . . . . . . . II-4
2.6.2 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-5
2.7 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-6
2.7.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-6
2.7.2 Quelques moments particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-7
2.7.3 Variance, covariance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . II-7
2.7.4 Variable centrée réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-8
2.7.5 Coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-8
2.7.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-9
2.7.7 Inégalités de Bienaymé - Tchebyshev - Markov . . . . . . . . . . . . . . . . . . . . II-9
2.8 Quelques lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10
2.8.1 Les valeurs principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10
2.8.2 Liaisons entre lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-10
2.9 Quelques relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-13
2.10 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-14
2.10.1 Convergence stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-14
2.10.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-15
2.11 Simulation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16
2.11.1 Méthode générale par transformation inverse . . . . . . . . . . . . . . . . . . . . . II-16
2.11.2 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16
2.11.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-16
2.11.4 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.11.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.11.6 Loi normale : ℵ(µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.12 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.12.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-17
2.12.2 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18
2.12.3 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18
2.12.4 Autres moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II-18
3
3 Estimation III-1
3.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-1
3.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-1
3.1.2 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-2
3.1.3 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-2
3.1.4 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-4
3.1.5 Robustesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-5
3.2 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-5
3.3 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-7
3.3.1 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-8
3.3.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-9
3.3.3 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-9
3.4 Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-10
3.4.1 Interprétation de données: l’approche bayésienne . . . . . . . . . . . . . . . . . . . III-10
3.4.2 Le traitement de l’a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-11
3.4.3 Le traitement de l’a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-11
3.4.4 Le cas monodimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-12
3.4.5 Le cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-12
3.4.6 Estimation itérative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-14
3.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-14
3.5.1 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-15
3.5.2 Résolution dans le cas d’une distribution normale des écarts . . . . . . . . . . . . . III-15
3.5.3 Le cas de la droite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-16
3.5.4 Intervalle de confiance sur le coefficient de corrélation . . . . . . . . . . . . . . . . III-17
3.6 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-17
3.7 Estimation d’un mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-18
3.8 Estimation d’une densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III-19
4 Tests d’hypothèse IV-1

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1
4.1.1 Hypothèses et erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1
4.1.2 Tests bilatéral et unilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-1
4.1.3 Région d’acceptation et région critique . . . . . . . . . . . . . . . . . . . . . . . . . IV-2
4
4.1.4 Choix d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-2
4.1.5 Influence de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3
4.2 Test entre deux hypothèses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3
4.2.1 La méthode de Neyman et Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-3
4.2.2 Test de la moyenne d’une loi normale d’écart-type connu . . . . . . . . . . . . . . IV-4
4.2.3 Test de la moyenne d’une loi normale d’écart-type inconnu . . . . . . . . . . . . . IV-5
4.2.4 Test d’une variance de loi normale, la moyenne étant connue . . . . . . . . . . . . IV-6
4.2.5 Test d’une variance de loi normale, la moyenne étant inconnue . . . . . . . . . . . IV-6
4.2.6 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7
4.3 Test entre hypothèses composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7
4.3.1 Tests UMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-7
4.3.2 Test d’une moyenne de loi normale, l’écart-type étant connu . . . . . . . . . . . . . IV-8
4.3.3 Test d’une moyenne de loi normale, l’écart-type étant inconnu . . . . . . . . . . . . IV-9
4.3.4 Test d’une variance de loi normale, la moyenne étant connue . . . . . . . . . . . . IV-9
4.3.5 Test d’une variance de loi normale, la moyenne étant inconnue . . . . . . . . . . . IV-10
4.3.6 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-10
4.4 Test de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-10
4.4.1 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-11
4.4.2 Comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-12
4.4.3 Comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-12
4.5 Test du rapport des vraisemblances maximales . . . . . . . . . . . . . . . . . . . . . . . . IV-12
4.6 Test d’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-13
4.6.1 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-13
4.6.2 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-14
4.6.3 Test de Cramer-Von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-14
4.7 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15
4.7.1 Test des différences premières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15
4.7.2 Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-15
4.8 Test de comparaison d’échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-16
4.8.1 Test des variances de Fisher-Snédécor . . . . . . . . . . . . . . . . . . . . . . . . . IV-16
4.8.2 Test de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-17
4.8.3 Test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-17
5
4.9 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-18
4.9.1 Les données de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-18
4.9.2 Le test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-19
4.9.3 Analyse des contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV-19
5 Le Contrôle Statistique de Process: SPC V-1

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-1
5.2 Capabilité d’un processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-2
5.2.1 Etude de la capabilité des processus . . . . . . . . . . . . . . . . . . . . . . . . . . V-2
5.2.2 Indicateurs généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-3
5.2.3 Les cartes de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V-4
6 Tables T-1
T-1 Fonction de répartition de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . T-1
T-2 Fractiles de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . T-2
T-3 Fractiles de la loi du χ2 à ν degrés de liberté . . . . . . . . . . . . . . . . . . . . . . . . . T-3
T-4 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.10 d’être dépasséesT-5
T-7 Table de distribution de T (Loi de Student) . . . . . . . . . . . . . . . . . . . . . . . . . . T-10
T-8 Table du coefficient de corrélation des rangs de Spearman de deux variables aléatoires
indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . T-11
T-9 Fonction de répartition de la statistique de Cramer-Von Mises . . . . . . . . . . . . . . . . T-13
T-10 Table du test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . T-14
7 Exercices VII-1
7-1 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-1
7-2 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-4
7-3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-9
7-4 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-13
7-5 SPC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-16
7-6 Sujets généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-17
7-6 .1 Problème 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-17
7-6 .2 Problème 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-19
6
7-6 .3 Problème 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-21
7-6 .4 Problème 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII-24
8 Bibliographie Bib-1
7
Introduction
Ce polycopié est un support du cours de “Probabilités-Statistique” de 3ème année du département
Génie Industriel de l’INSA de Lyon. Il regroupe les éléments fondamentaux vus dans ce cours. Il couvre
plus que ce qui est réellement abordé en cours car il a également vocation à introduire des concepts plus
avancés (comme les statistiques robustes ou la maı̂trise des systèmes) en termes de culture générale.
Il n’existe pas de recueil des annales des examens des années précédentes car les exercices et problèmes
figurant dans ces examens sont introduits chaque année dans la nouvelle liste des exercices fournies en
fin de polycopié, avec le plus souvent des élements de correction.
Le contenu de ce polycopié n’engage que son auteur, dans le cadre de ce cours de l’INSA de Lyon.
Toute reproduction partielle ou totale, pour toute utilisation est assujétie à la demande formulée
auprès de l’auteur.
Une version électronique est disponible sur le site web http://rfv.insa-lyon.fr/ jolion/STAT/poly.html
8
1 Probabilités
1.1 Notions de probabilités
Il existe plusieurs manières de définir une probabilité. Principalement, on parle de probabilités inductives
ou expérimentales et de probabilités déductives ou théoriques. On peut les définir comme suit :
Probabilité expérimentale ou inductive : la probabilité est déduite de toute la population concernée.
Par exemple, si sur une population d’un million de naissances, on constate 530000 garçons et 470000
filles, on dit que P[garçon] = 0.53
Probabilité théorique ou déductive : cette probabilité est connue grâce à l’étude du phénomène sous-
jacent sans expérimentation. Il s’agit donc d’une connaissance a priori par opposition à la définition
précédente qui faisait plutôt référence à une notion de probabilité a posteriori. Par exemple, dans le cas
classique du dé parfait, on peut dire, sans avoir à jeter un dé, que P[”obtenir un 4”] = 16 .
Comme il n’est pas toujours possible de déterminer des probabilités a priori, on est souvent amené à
réaliser des expériences. Il faut donc pouvoir passer de la première à la deuxième solution. Ce passage
est supposé possible en terme de limite (i.e. avec une population dont la taille tend vers la taille de la
population réelle).
1.2 Analyse combinatoire (rappels)
1.2.1 Factorielle
Si une action peut être obtenue de n1 façons différentes, puis suivant cette action, de n2 façons différentes
indépendantes des précédentes, puis . . . alors, le nombre de possibilités correspondant à l’ensemble de ces
actions est N = pi=1 ni
Q
Qn
On appelle factorielle n et l’on note n! le nombre : n! = i=1 i
R ∞ x−1 −u
On peut aussi définir la factorielle grâce à la fonction Γ : Γ(x) = 0 u e du
qui a les propriétés suivantes : Γ(n + 1) = n! pour n entier et Γ(x + 1) = xΓ(x).
La formule
√ de Stierling permet de construire une estimation de la factorielle très valable pour n ≥ 10 :
n
n! ≈ n e −n 1 1
2πn(1 + 12n + 288n 2 + . . .)
1.2.2 Arrangements de p objets parmi n
Nombre de possibilités de ranger p objets choisis parmi n : Apn = n!

(n−p)! = n(n − 1) . . . (n − p + 1).
1.2.3 Permutations
Arrangement de n objets parmi n en tenant compte de l’ordre : Pn = Ann = n!.

Par exemple, il y a 6 = 3! permutations possibles de 3 symboles a, b, c : (a, b, c), (a, c, b), (b, a, c),
(b, c, a), (c, a, b), (c, b, a).
I-1
1.2.4 Combinaisons de p parmi n
Apn Apn
On ne tient pas compte de l’ordre des objets dans le rangement : Cpn = n!
p!(n−p)! = p! = Pp .
La notation anglosaxonne pour les combinaisons est un peu différente : Cnp ≡ (np ).
Propriétés :
• Cn0 = Cnn = 1
• Cnp = Cnn−p
p−1 p
• Cnp = Cn−1 + Cn−1
Pn p
• p=1 Cn = 2n
1.2.5 Répétitions
Soient n objets dont on dispose une infinité d’exemplaires. On en choisit p parmi ces n classes d’objets.
Il peut donc y avoir répétitions du même objet. Dans ce cas, on obtient de nouveaux indicateurs :
0
Anp = np
0 p (n+p−1)!
Cnp = Cn+p−1 = p!(n−1)!
Toujours dans le même contexte, on cherche le nombre de possibilité d’avoir a fois le 1er objet, b
0
fois le 2ème objet, . . . k fois le nème objet. Le nombre de permutations est donné par : Pn (a, b, . . . , k) =
(a+b+...+k)!
a!b!...k!
1.3 Epreuves et Evènements
Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des
conditions initiales.
On appelle épreuve la réalisation d’une expérience aléatoire.
On appelle évènement la propriété du système qui une fois l’épreuve effectuée est ou n’est pas
réalisée.
Exemple : Soient l’expérience aléatoire ”lancer deux dés discernables” (et non pipés si l’on veut
vraiment une expérience aléatoire) et l’évènement A ”obtenir un total des nombres > 10”.
A se réalise pour les épreuves (6,5), (5,6), (6,6).
Correspondance entre les opérateurs logiques et les ensembles (la relation liant ces notations est un
isomorphisme, on peut donc employer n’importe laquelle).
I-2
Logique Ensemble
état du système élément w ∈ Ω
évènement A partie {A} ⊂ Ω
évènement certain espace entier Ω
évènement impossible partie vide ∅
évènement contraire A ou Ac partie complémentaire {A} = CA/Ω
l’évènement B entraine l’évènement A {B} ⊂ {A}
A et B intersection {A} ∩ {B}
évènements incompatibles A ⇒ BetB ⇒ A parties disjointes {A} ∩ {B} = ∅
A ou B (ou non exclusif) réunion {A} ∪ {B}
ou exclusif somme {A} + {B} = ({A} ∪ {B}) − ({A} ∩ {B})
A partir de ces notions, on peut préciser le calcul de probabilités d’un évènement A :

nombre de cas f avorable
probabilité théorique : P (A) = nombre total de cas .
0
probabilité expérimentale : P (A) = nombre d épreuves qui réalisent A
nombre total d0 épreuves . Cette approche (aussi appellée ap-
proche fréquentiste) ne permet pas de donner une valeur ni même un sens à la probabilité d’un évènement
non répétable du genre ”neigera-t-il le 25 octobre 2990” ce qui limite de fait le champ d’application du
calcul des probabilités.
Pour les fréquentistes, seules ont un sens les probabilités calculées a posteriori sur la base de la
répétition d’un grand nombre d’évènements identiques; pour les subjectivistes, au contraire, la notion de
probabilité a priori, évaluable en fonction d’un sentiment individuel d’incertitude, peut avoir un sens.
1.4 Espace probabilisé
1.4.1 Axiomatique de Kolmogorov
A chaque évènement, on associe un nombre positif compris entre 0 et 1, sa probabilité. Afin d’éviter
toute discussion sur cette notion, la théorie moderne des probabilités repose sur l’axiomatique suivante :
Définition 1
On appelle probabilité sur (Ω,=) (où Ω est l’ensemble des évèvements et = une classe de parties de Ω),
ou loi de probabilité, une application P de = dans [0, 1] telle que :
- P (Ω) = 1
S P
- pour tout ensemble dénombrable d’évènements incompatibles A1 , A2 , . . . , An on a P ( Ai ) = P (Ai ).
Définition 2
On appelle espace probabilisé le triplé (Ω,=,P )
Une loi de probabilité n’est donc rien d’autre qu’une mesure positive de masse totale 1. On peut donc
relier la théorie des probabilités à celle de la mesure.
1.4.2 Propriétés élémentaires
De l’axiomatique de Kolmogorov, on peut déduire les propriétés suivantes :
I-3
Propriété 1 : P (∅) = 0
Propriété 2 : P (A) = 1 − P (A)
Propriété 3 : P (A) ≤ P (B) si A ⊂ B
Propriété 4 : P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Propriété 5 : P ( Ai ) ≤
S P
i P (Ai ) (Il n’y a stricte égalité que si les évènements Ai sont deux à deux
incompatibles.)
Propriété 6 : Continuité monotone séquentielle. Soient A1 ⊃ A2 ⊃ . . . ⊃ An ⊃ ∅.
Si lim An = ∅ alors lim P (An ) = 0

n→∞ n→∞
S
Propriété 7 : Théorème des probabilités totales : Soit Ω = Bi un système complet d’évènements (i.e.
tel que {Bi } constitue une partition de Ω). ∀A : P (A) = i P (A ∩ Bi )
P
Remarque : P (A) = 0 6⇒ A = ∅. De même, P (A) = 1 6⇒ A = Ω.
1.5 Probabilité conditionnelle - Théorème de Bayes
1.5.1 Théorème des probabilités composées
Soient deux évènements A et B réalisés respectivement n et m fois au cours de N épreuves. On a donc

n m
P (A) = N et P (B) = N . Si de plus A et B sont réalisés simultanément k fois, on a P (A ∩ B) = Nk .
Que peut-on déduire sur la probabilité de l’évènement B sachant que l’évènement A est réalisé ? Cette
probabilité est appellée probabilité conditionnelle de B sachant A et se note P(B/A). Dans notre
cas, on a P (B/A) = nk .
P(A∩B) P(A∩B)
Par définition, on a P(B/A) = P(A) et P(A/B) = P(B) .
1.5.2 Conséquences
Deux évènements A et B sont dits indépendants si P (A ∩ B) = P (A).P (B) ou encore si P (B/A) = P (B)
(l’information sur la réalisation de A n’apporte rien à l’évènement B) et P (A/B) = P (A).
Attention :
1) indépendant 6= incompatible.
2) P (A ∩ B) = P (A).P (B) ↔ A et B sont indépendants uniquement si vous pouvez prouver que
P (A ∩ B) = P (A).P (B) théoriquement. En pratique, i.e. sur des valeurs numériques, on ne peut pas
induire l’indépendance à partir de cette égalité constatée numériquement. On ne peut que supposer très
probable cette indépendance.
Si deux évènements A et B sont indépendants, alors il en est de même de A et B c , Ac et B, Ac et B c .
Tn
Soit A0 , A1 , . . . , An une suite d’évènements ayant une intersection commune non nulle, i.e. P ( k=0 Ak ) 6=
∅, on a alors
n
!
\
P Ak = P (A1 |A0 )P (A2 |A0 ∩ A1 ) . . . P (An |A0 ∩ A1 . . . ∩ An−1 )P (A0 )
k=0
I-4
1.5.3 Théorème de Bayes - Probabilités des causes
Soit un évènement A qui peut dépendre de N causes Ci différentes et incompatibles deux à deux (on ne
peut avoir deux causes réalisées simultanément). Etant donnée la réalisation de l’évènement A, quelle
est la probabilité que ce soit Ci qui en soit la cause ?
On peut écrire que A = N i=1 A ∩ Ci car {Ci } constitue un système complet (les causes sont incompat-
S
ibles deux à deux et toutes les causes possibles à A sont supposées connues). Donc d’après le théorème
des probabilités totales, on a P (A) = i P (A ∩ Ci ).
P
En appliquant le théorème des probabilités conditionnelles, on a

P (A ∩ Ci ) = P (A).P (Ci /A) = P (Ci ).P (A/Ci ) donc
P(Ci /A) = PNP(Ci )P(A/Ci )

k=1
P(Ck )P(A/Ck )
Exemple : Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1 produit 5% de

pièces défectueuses et M2 en produit 6%. Quelle est la probabilité pour qu’un objet défectueux ait été
fabriqué par la machine M1 ?
L’évènement constaté, A, est donc la présence d’une pièce défectueuse et les causes sont les machines
M1 et M2 . Compte tenu des productions de ces machines, on a P (M1 ) = 13 et P (M2 ) = 23 . De plus, les
5 6
probabilités conditionnelles de l’évènement A selon les machines sont P (A|M1 ) = 100 et P (A|M2 ) = 100 .
En reportant ces valeurs dans la formule générale, on obtient
1 5
3× 100 5
P (M1 |A) = = ≈ 0.29
5
( 13 × 100 ) + ( 23 × 6
100 )
17
1.6 Le paradoxe de Bertrand
Ce paradoxe est un exemple classique permettant de mesurer la limite des définitions de probabilités.
Considérons un triangle équilatéral et son cercle circonscrit. On tire une corde au hasard. Quelle est
la probabilité que sa longueur soit supérieure à celle du côté du triangle ?
On doit à Renyi les remarques suivantes :
Première solution. Comme la longueur de la corde est déterminée par la position de son milieu,
le choix de la corde peut consister à marquer un point au hasard à l’intérieur du cercle. La probabilité
pour que la corde soit plus longue que le côté du triangle équilatéral inscrit est alors égale à la probabilité
pour que le milieu de la corde soit intérieur au cercle inscrit dans ce triangle qui est de rayon moitié.
Si on admet que la répartition de ce point est uniforme dans le cercle, on trouve pour la probabilité
demandée :
π(r/2)2 1
πr2
= 4
Deuxième solution. La longueur de la corde est déterminée par la distance de son milieu au centre
du cercle. Par raison de symétrie, nous pouvons considérer que le milieu de la corde est pris sur un rayon
donné du cercle et supposer que la répartition de ce point sur le rayon est uniforme. La corde sera plus
longue que le côté du triangle équilatéral inscrit si son milieu est à une distance du centre inférieure à
r/2; la probabilité recherchée est alors 1/2.
I-5
Troisième solution. Par raison de symétrie, nous pouvons supposer qu’on a fixé une des extrémités
de la corde en P0 . L’autre sera choisie au hasard sur la circonférence. Si on admet que la probabilité que
l’autre extrémité P tombe sur un arc donné de la circonférence est proportionnelle à la longueur de cet
arc, la corde P0 P est plus grande que le côté du triangle équilatéral inscrit quand P se trouve sur l’arc
P1 P2 (tel que P1dP0 P2 = π3 ) dont la longueur est le 1/3 de celle de la circonférence; la probabilité est donc
de 1/3.
Il est clair que les trois hypothèses de répartition sont également réalisable. Il n’y a pas cependant de
réel paradoxe car il s’agit simplement d’un choix de conditions expérimentales de tirage des cordes qui
conduisent à des évènements différents.
Pour en savoir plus : http://www-ensps.u-strasbg.fr/enseignants/harthong/Hist/BERTRAND.HTM
I-6
2 Variables aléatoires
2.1 Variable aléatoire : définitions
Une variable aléatoire (V.A.) est une application de l’ensemble des épreuves dans le corps des réels. Elle
est caractérisée par l’ensemble des probabilités associées à tous ses états possibles.
Définition 1 Tout ensemble de parties d’un ensemble Ω, stable par réunion, intersection et complémentarité
s’appelle une tribu sur Ω.
Soit A une tribu de parties de Ω. Le couple (Ω, A) s’appelle un espace probabilisable ou mesurable
et A est l’ensemble des évènements.
Si Ω peut être muni d’une topologie, alors la tribu engendrée par la classe des ouverts de Ω est appellée
tribu borélienne.
Définition 2 Une variable aléatoire X est une application mesurable d’un espace probabilisé
(Ω,=,P ) dans le corps des réels < muni de sa tribu borélienne (<,B) (i.e. ensemble des intervalles de la
forme ] − ∞, a[).
Définition 3 Pour tout borélien B (i.e. B ∈ B), on définit une loi de probabilité de X sur (<,B)
et l’on note PX :
PX (B) = P ({w|X(x) ∈ B}) = P ({X −1 (B)})
Définition 4 Une v.a. X est discrète si Card[=] est fini ou dénombrable.

Dans ce cas, X ne peut prendre, avec une probabilité non nulle, qu’un nombre fini de valeurs partic-
ulières x1 , x2 , . . . , xn . On note généralement les probabilités par P (X = xi ) = pi .
Définition 5 Une v.a. X est continue si elle peut prendre toute valeur sur un segment de la forme
[a, b], ] − ∞, a], [b, +∞[, ] − ∞, +∞[ et telle que ∀x0 , P (X = x0 ) = 0.
Définition 6 Une v.a. X est mixte si 1) ∀i ∈ I ⊂ N , P (X = xi ) = pi 6= 0, 2)
P
i∈I pi < 1 et 3)
∃i P (X ∈]xi , xi+1 [6= 0
2.2 Fonction de répartition
2.2.1 Définition
La fonction de répartition (FR) d’une v.a. X est l’application F de < dans [0, 1] définie par
F(x) = P(X < x)
2.2.2 Propriétés
• F est non décroissante.

• F est continue à gauche.
• F est continue à droite dans le cas des v.a. continues.
II-1
• F (−∞) = 0 et F (+∞) = 1
• P (a ≤ X < b) = F (b) − F (a)
2.2.3 Fonction de répartition d’une v.a. discrète
Soit X une v.a. discrète pouvant prendre les valeurs x1 , x2 , . . . , xn de probabilités respectivement
p1 , p2 , . . . , pn avec x1 < x2 < . . . < xn .
Pi=k
F (x) = i=1 pi où k est donné par xk ≤ x < xk+1 .
2.3 Fonction de répartition d’une v.a. continue
Soit X une v.a. continue. Sa fonction de répartition est continue à gauche et à droite. Il existe donc une
fonction f telle que l’on puisse écrire :
Z x
dF (x)
f (x) = ou F (x) = f (u)du
dx −∞
Par définition, f est appellée densité de probabilité de X, ou en abrégé, ddp de X. Cette fonction
a les propriétés suivantes :
R +∞
• −∞ f (x)dx = 1
• ∀x, f (x) ≥ 0
R x2
• P (X ∈]x1 , x2 [) = F (x2 ) − F (x1 ) = x1 f (u)du
R x0
• P (X = x0 ) = x0 f (u)du = 0
R x0 +dx0
• P (X ∈]x0 , x0 + dx0 [) = x0 f (u)du = f (x0 )dx0 = dF (x0 )
2.4 Couple de variables aléatoires
2.4.1 Définitions
Soient X et Y deux v.a. définies sur le même espace probabilisé. On appelle fonction de répartition
conjointe de X et Y , la fonction F définie par :
F (X, Y ) = P (X ∈] − ∞, x] ∩ Y ∈] − ∞, y]) = P (X < x et Y < y)
On a par définition, F (−∞, −∞) = 0 et F (+∞, +∞) = 1.
2.4.2 Cas d’un couple de v.a. continues
On note f la ddp conjointe de X et Y et l’on a par définition :

Z x Z y
F (x, y) = f (u, v)dudv
−∞ −∞
II-2
avec les propriétés suivantes :
• ∀x, y : f (x, y) ≥ 0
R +∞ R +∞
• −∞ −∞ f (u, v)dudv = 1
On peut également définir une fonction de répartition marginale de X, notée FX par FX (x) =
P (X < x) = F (x, +∞) (idem pour Y , FY (y) = F (+∞, y)).
2.4.3 Cas d’un couple de v.a. discrètes
On note Pij = P (X = xi ∩ Y = yj ) pour i ∈ I et j ∈ J.
2.4.4 Distribution conditionnelle
Soient X et Y deux v.a. continues de FR conjointe F et de ddp conjointe f . Comment peut-on évaluer
la probabilité conditionnelle P (X ∈ I1 /Y ∈ I2 ) ?
On définit la fonction de répartition conditionnelle F (x/Y = y0 ) par
Rx
f (u, y0 )du
F (x/Y = y0 ) = R −∞
+∞
−∞ f (v, y0 )dv
et la densité de probabilité conditionnelle f (x/Y = y0 ) par
dF (x/Y = y0 )
f (x/Y = y0 ) =
dx
Si les deux v.a. sont indépendantes, alors on a
F (x/Y = y0 ) = FX (x)
f (x/Y = y0 ) = fX (x)
2.5 Loi d’une fonction d’une ou plusieurs variables aléatoires
Dans la pratique, on est souvent amené à manipuler des variables aléatoires qui sont des transformations
ou des combinaisons de variables aléatoires connues. C’est pourquoi on dispose de règles de passage d’une
loi à une autre, pour des transformations simples.
2.5.1 Transformation d’une variable aléatoire
Transformation d’une loi discrète Soit X une v.a. discrète de loi PX . Alors, la loi de la v.a.
U = ψ(X) est définie par :
P (U = k) = P (ψ(X) = k) = P (X = ψ −1 (k)) = PX (ψ −1 (k))
II-3
où ψ −1 désigne la fonction réciproque de ψ.
Transformation d’une loi continue Soit X une v.a. continue dont la loi admet la densité de prob-
abilité fX et ψ une fonction monotone et dérivable. Alors, la densité de la loi de la v.a. U = ψ(X) est
définie par :
fU (u) = |(ψ −1 )0 (u)|fX (ψ −1 (u))
où ψ −1 désigne la fonction réciproque de ψ.
On peut par ces propriétés montrer en particulier que la v.a. U = F (X) où F est la fonction de
répartition de la loi de la v.a. X, suit une loi uniforme sur l’intervalle [0, 1].
Exemple : Soit U = ψ(X) = X 2 . On a ψ −1 (u) = (u) et donc (ψ −1 )0 (u) = 12 u−1/2 . En application de
p
la propriété précédente, on obtient

√

1
fU (u) =
√ fX ( u)
2 u
2.5.2 Densité de probabilité d’une somme de V.A. indépendantes
Soient X et Y deux v.a. continues de ddp f (x) et g(y). Si X et Y sont indépendantes, alors la densité
de probabilité h(z) de la v.a. Z définie par Z = X + Y est donnée par
Z +∞ Z +∞
h(z) = f ? g(z) = f (x)g(z − x)dx = f (z − y)g(y)dy
−∞ −∞
Cette propriété se généralise quel que soit le nombre de variables dans la somme. On peut aussi
additionner des variables aléatoires discrètes.
Soient X et Y deux v.a. discrètes à valeurs dans DX et DY . La loi de S = X + Y est définie par :
 P
i∈DX ,k−i∈DY P (X = i, Y = k − i)
P

 i∈DX P (X = i, S = k) =
P (S = k) = ou
 P P (X = k − j, Y = j)
 P
j∈DY P (S = k, Y = j) = j∈DY ,k−j∈DX
En particulier, si X et Y sont indépendantes, on a :

 P

 i∈DX ,k−i∈DY P (X = i)P (Y = k − i)
P (S = k) = ou
 P P (X = k − j)P (Y = j)

j∈DY ,k−j∈DX
On peut aussi passer par les propriétés de l’opérateur espérance mathématique (voir section suivante).
2.6 Moyenne et espérance mathématique d’une v.a.
2.6.1 Notion de moyenne pour une v.a. discrète
Soit X une v.a. discrète prenant ses valeurs dans {x1 , . . . , xn } et dont les probabilités associées sont
P (X = xi ) = pi .
Par définition, on appelle moyenne théorique ou espérance mathématique de X, et l’on note
E(X), la valeur E(X) = ni=1 xi pi .
P
II-4
On ne connait cette v.a. que par le moyen d’un échantillon de taille N (dont on supposera qu’il est
significatif par rapport au nombre de valeurs possible, n, de la v.a., i.e. N n). Chaque évènement
P
X = xi se réalise ki fois dans l’échantillon (N = i ki ).
1 Pn
La moyenne expérimentale est définit par N i=1 ki xi .
Si on admet que la proportion kNi tend vers la propabilité théorique pi pour un échantillon de taille
infinie (N → ∞) alors on peut estimer la moyenne théorique par la limite de la moyenne expérimentale.
2.6.2 Espérance mathématique
Soit X une v.a. On définit l’espérance mathématique de X et l’on note E(X) la valeur
R +∞ R +∞
E(X) = −∞ x dF(x) = −∞ x f (x) dx
où F est la fonction de répartition de X.

Cette intégrale est dite au sens de Stieljes. Soit X une v.a. définie sur [a, b[. On peut discrétiser
la v.a. X en introduisant une nouvelle v.a. discrète Y en découpant l’intervalle [a, b] en n intervalles
[xi−1 , xi ] tels que
X ∈ [xi−1 , xi [→ Y = ξi , ξi ∈ [xi−1 , xi ] et donc
R xi
P (Y = ξi ) = P (X ∈ [xi−1 , xi [) = xi−1 f (u)du = F (xi ) − F (xi−1 )
Grâce à un échantillon de taille N , on peut calculer une moyenne expérimentale de Y ( N1 ni=1 ξi ki )

P
qui tend vers la moyenne théorique ni=1 ξi P (Y = ξi ) si N → ∞. Si de plus, on découpe en une infinité
P
d’intervalles de la forme [xi−1 , x [ (n → ∞), alors on obtient la moyenne théorique de la v.a. X par
Rb i
Pn
ξ
i=1 i |F (x i ) − F (xi−1 )| → a xdF (x) = E(X)
Remarque : L’espérance mathématique n’est pas toujours définie. C’est en particulier le cas de la loi de
1 R +∞ 1
Cauchy dont la ddp est donnée par f (x) = π(1+x 2 ) car l’intégrale −∞ π(1+x2 ) dx diverge.
Propriétés : Les propriétés de l’espérance mathématique proviennent de celle de l’opérateur intégral et

en particulier la linéarité. Soit X une v.a. et a une constante.
E(a) = a
E(aX) = aE(X)
E(X + a) = E(X) + a
Soient X1 et X2 deux v.a. et a et b deux constantes.
E(a1 X1 + a2 X2 ) = a1 E(X1 ) + a2 E(X2 )
Plus généralement, pour toute fonction h, positive, continue, à support compact

Z ∞ Z ∞
E[h(X)] = h(x)dFX (x) = h(x)fX (x)dx
−∞ −∞
Exemple : Soient X et Y deux v.a. continues indépendantes de même loi f . On souhaite trouver la loi
X
de la variable aléatoire U = X+Y . On a donc
II-5
X x
Z Z
E[h( )] = h( fX,Y (x, y)dxdy
X +Y <2 x+y
Les deux variables étant indépendantes, on a fX,Y (x, y) = fX (x)fY (y). Soit le changement de vari-
ables suivant :  
x
 u = x+y
  x = uv

v =x+y ⇔ y = v(1 − u)
 (x, y) ∈ D ⊂ <2
  (u, v) ∈ ∆ ⊂ <2

+ +
dont le jacobien est

∂x ∂x v u
∂(x, y) ∂u ∂v
j(u, v) = = = =v

∂(u, v) ∂y ∂y −v 1−u

∂u ∂v
Ce qui nous donne
Z Z Z
E[h(U )] = h(u)|j(u, v)|f (uv)f (v(1 − u))dudv = h(u)fU (u)du
<2
d’où l’on déduit la densité de probabilité fU

Z
fU (u) = vf (uv)f (v(1 − u))dv
<+
Supposons maintenant que ces deux variables aléatoires suivent une loi exponentielle de paramètre
λ = 1, f (x) = e−x . On a alors
Z ∞ Z ∞
fU (u) = ve−uv e−v(1−u) dv = ve−v dv = 1
0 0
La v.a. U suit donc une loi uniforme. Comme on doit avoir uv > 0 et v(1 − u) > O, cela donne v > 0 et
u ∈]0, 1[.
2.7 Moments
La notion de moment permet d’introduire celle d’indicateur résumant et/ou caractérisant une variable
aléatoire. On y retrouvera la moyenne comme cas particulier.
2.7.1 Définitions
Moment
R +∞ n
d’ordre n. On appelle moment d’ordre n de la v.a. X et l’on note αn la valeur αn = E(X n ) =
−∞ x dF (x).
Pour les v.a. discrètes, cela donne : αn =

P n
i xi P (X = xi )
Moment d’ordre n rapporté à l’abscisse a. On appelle moment R +∞
d’ordre n de la v.a. X rapporté
à l’abscisse a , et l’on note αa,n , la valeur αa,n = E((X − a) ) = −∞ (x − a)n dF (x).
n
Moment centré d’ordre n. R +∞

On appelle moment centré d’ordre n de la v.a. X et l’on note µn la
valeur µn = E((X − E(X)) ) = −∞ (x − E(x))n dF (x). Le moment centré d’ordre n d’une v.a. est donc
n
le moment d’ordre n de cette v.a. rapporté à l’abscisse particulière qu’est sa moyenne (µn = αE[X],n ).
II-6
2.7.2 Quelques moments particuliers
• µ1 = E(X − E(X)) = E(X) − E(X) = 0

• α1 est la moyenne.
• µ2 = α2 − α12 • µ2 est la variance (voir plus loin).
Très souvent, pour des raisons d’efficacité, les moments souhaités, i.e. µk , sont calculés à partir
des moments simples, i.e. αk . En effet, le calcul d’un moment centré nécessite le calcul préalable de
l’espérance mathématique, il y a donc 2 pas de calculs au lieu d’un seul pour les moments non centrés.
• µ3 = α3 − 3α1 α2 + 2α13
• µ4 = α4 − 4α1 α3 + 6α12 α2 − 3α14
µ2 , µ3 et µ4 sont utilisés pour caractériser la forme d’une distribution. Pour cela, on construit des
indicateurs sans dimension :
µ3
Le coefficient d’asymétrie (skewness) : γ1 = 3 . Ce coefficient est nul pour une distribution parfaite-
(µ2 ) 2
ment symétrique, inférieur à zéro si la distribution est plus étendue vers la gauche (les valeurs inférieures
à la moyenne), et supérieur à zéro dans le cas contraire.
Le coefficient d’aplatissement (kurtosis) : γ2 = (µµ24)2 . γ2 est toujours supérieur à 1. De plus, on a
toujours γ2 ≥ 1 + (γ1 )2 . Plus que l’aplatissement, le coefficient γ2 mesure l’importance des “queues” de
distribution. Cet indicateur vaut 3 dans le cas de la loi de Gauss (cf chapitre sur les principales lois de
probabilité). Il est inférieur à 3 pour une distribution moins large que la loi de Gauss et supérieur à 3
pour une distribution plus large.
Remarque : Ces indicateurs ne sont utilisables, i.e. n’ont de sens, que dans le cas d’une distribution
unimodale (un seul maximum).
2.7.3 Variance, covariance et écart-type
La variance est définie par
µ2 = E((X − E(X))2 ) = σ 2 = variance de X = V(X) = E(X2 ) − E(X)2
Elle traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Etant un carré,
la dimension de la variance n’est pas celle de la moyenne. C’est pourquoi on utilise plus souvent l’écart
type, noté σ, qui est la racine de la variance.
On dit aussi que la variance traduit la notion d’incertitude. Plus la variance est faible, moins le
résultat de l’expérience aléatoire est incertain. A la limite, une v.a. de variance nulle conduit à des
expériences strictement identiques (i.e. le phénomène est complètement déterministe, il n’y a donc plus
aucune raison de garder la notion de variable aléatoire).
La variance a également des propriétés intéressantes vis à vis de la combinaison linéaire de v.a. :
Soient X1 et X2 deux v.a.
V(X1 + X2 ) = V(X1 ) + V(X2 ) + 2cov(X1 , X2 )
où cov(X, Y ) est la covariance des v.a. X et Y définie par :
II-7
cov(X, Y ) = µ1,1 = E(XY ) − E(X)E(Y ) = E[(X − E(X))(Y − E(Y ))]
La covariance peut être vue comme le moment centré conjoint d’ordre 1 de deux v.a. Si les deux v.a.
sont indépendantes, alors leur covariance est nulle (mais la réciproque n’est pas vraie en général).
Par ailleurs, soit X une v.a. et a et b deux constantes. On a V(aX + b) = a2 V(X)
2.7.4 Variable centrée réduite
On appelle variable aléatoire centrée réduite, une v.a. Y construite par : Y = X−E[X]
√ .
V [X]
C’est le moyen le plus classique pour normaliser une v.a. Par construction, on obtient E[Y ] = 0 et
V [Y ] = 1.
2.7.5 Coefficient de corrélation
La relation entre deux v.a. peut être quantifiée par la covariance comme vue précédemment. Cependant,
à l’image de la moyenne et de la variance, la covariance est un moment donc possède une dimension
ce qui la rend plus difficile à interpréter. C’est pourquoi on utilise plus généralement le coefficient de
corrélation, indicateur sans dimension, défini par
cov(X,Y ) µ1,1
ρ(X, Y ) = σX σY =√
µ2 (X) µ2 (Y )
Le coefficient de corrélation mesure la qualité de la relation linéaire entre deux variables aléatoires X
et Y (i.e. de la forme Y = aX + b). On a les propriétés suivantes :
• ∀X, Y : ρ(X, Y ) ∈ [−1, 1].
• Si X et Y sont indépendantes, alors ρ(X, Y ) = 0 (la réciproque n’est pas vraie en général).
• ∀X, Y ∀a1 , a2 , b1 , b2 ∈ < (a1 a2 6= 0) : ρ(a1 X + b1 , a2 Y + b2 ) = sign(a1 a2 )ρ(X, Y )
• Si il existe une relation linéaire entre X et Y alors ρ(X, Y ) = ±1.
On peut réécrire la relation sur la variance d’une somme de v.a. en utilisant le coefficient de
corrélation :
σ 2 (X1 + X2 ) = σ 2 (X1 ) + σ 2 (X2 ) + 2ρ(X1 , X2 )σ(X1 )σ(X2 )
Et en généralisant, on obtient
i=n
X i=n
X X j=n
i=n−1 X
σ2( Xi ) = σ 2 (Xi ) + 2 ρ(Xi , Xj )σ(Xi )σ(Xj )
i=1 i=1 i=1 j>i
II-8
2.7.6 Exemple
Soit X une v.a. continue et uniforme sur [− a2 , a2 ] (i.e. équiprobabilité de toutes les valeurs). L’uniformité
de X conduit à une densité de probabilité constante :

 0
 si x < − a2
1
f (x) = a si − a2 ≤ x ≤ a
2
si x > a2

 0
Le calcul des moments donne :

a
R +∞ n 1 R +2 n 1 a n+1
αn = E(X n ) = −∞ x dF (x) = a − 2 x dF (x) = a(n+1) [( 2 )
a − (− a2 )n+1 ]
1
donc α2p+1 = 0 et α2p = 2p+1 × ( a2 )2p
a2
La moyenne (n = 1, p = 0) de X est donc nulle et la variance (n = 2, p = 1) est égale à 12 .
2.7.7 Inégalités de Bienaymé - Tchebyshev - Markov
E[g(X)]
Inégalité de Tchebyshev : P (g(X) ≥ k) ≤ k où k est un réel positif et g une fonction positive.
E(X n )
En posant, g(X) = X n , on obtient l’inégalité de Markov : P (X n ≥ k n ) ≤ kn .
De même, si l’on pose g(X) = (X − E(X))2 et k = t2 σ 2 , on obtient l’inégalité de Bienaymé-

Tchebyshev : P ((X − E(X)) ≥ tσ) ≤ t12 .
Cette inégalité est la plus connue des trois. Elle est valable quelle que soit la v.a. X, ce qui est une
propriété très intéressante. Malheureusement, elle n’a que peu d’applications pratiques car la majoration
qu’elle fournit est la plupart du temps excessive.
II-9
2.8 Quelques lois de probabilités
2.8.1 Les valeurs principales
Loi Type Prob. ou ddp Moyenne Variance

0-1 D P (X = 0) = 1 − p et P (X = 1) = p p p(1 − p)
n2 −1
Uniforme D P (X = x) = n1 , x ∈ [1, n] n+1
2 12
Binomiale D P (X = x) = Cnx px (1 − p)n−x pour x ∈ [0, n] np np(1 − p)
1 1−p
Géométrique D P (X = x) = p(1 − p)x−1 pour x = 1, 2, . . . p p2
n−1 n n n(1−p)
Pascal D P (X = x) = Cx−1 p (1 − p)x−n p p2
e−λ λx
Poisson D P (X = x) = x! pour λ > 0 et x = 1, 2, . . . λ λ
1 a+b (b−a)2
Uniforme C f (x) = b−a avec a ≤ x ≤ b 2 12
(x−µ)2
Gauss C f (x) = √2πσ1
e− 2σ2 pour x ∈ < µ σ2
Cauchy C f (x) = π(a2a+x2 ) non défini non défini
k k−1 −λx
Gamma C f (x) = λ x Γ(k)e , x > O k
λ
k
λ2
x
Exponentielle C f (x) = a1 e− a pour x > 0 et a > 0 a a2
x2 q
Rayleigh C f (x) = σx2 e− 2σ2 pour x > 0 σ π
2 σ 2 (2 − π2 )
Laplace C f (x) = a2 e−a|x| 0 2
a2
m x
χ2 C f (x) = m 1 m x 2 −1 e− 2 m 2m
2 2 Γ( 2 )
n+1
n
Student C f (x) = √
2
(n+1)/2 0 n−2 ; n>2
2
nπΓ( n
2
) 1+ xn
β
Weibull C f (x) = βxβ−1 e−x Γ(1 + β1 ) Γ(1 + β2 ) − E 2 (x)
Type : D ≡ loi discrète ; C ≡ loi continue.
2.8.2 Liaisons entre lois de probabilités
Loi 0-1 : on appelle aussi cette loi, loi de Bernoulli. La v.a. associée à une telle loi est considérée comme
la fonction indicatrice d’un évènement de probabilité p. C’est un cas particulier de la loi Binomiale.
Loi binomiale : On obtient une v.a. de loi binomiale B(n, p) par une somme de n v.a. de loi 0-1 (p).
En d’autres termes, la loi binomiale est la loi associée à n répétitions, dans des conditions identiques
et indépendamment, d’une expérience aléatoire dont l’issue est l’apparition ou la non apparition d’un
évènement. La somme de deux lois binomiales de même paramètre est une loi binomiale.
Loi géométrique : La loi géométrique est la loi du nombre d’essais nécessaires pour faire apparaı̂tre un
évènement de probabilité p.
Loi de Pascal d’ordre n : C’est la loi du nombre d’essais nécessaires pour observer exactement n fois
un évènement de probabilité p. Cette loi est la somme de n lois géométriques indépendantes
Loi de Poisson (magistrat français du XIXème siècle) : On obtient une v.a. de loi de Poisson à partir
d’une v.a. de loi binomiale B(n, p) pour laquelle on a n → ∞ et p → 0 et np → λ 6= ∞. On peut aussi
introduire la loi de Poisson par la notion de processus de Poisson. Soit un phénomène tel qu’un seul
évènement puisse se produire à la fois (non simultanéı̈té des réalisations) et que le nombre d’évènements
se produisant pendant une période T ne dépend que de la durée de cette période. Supposons enfin
l’indépendance des évènements. Soit E(N ) = cT l’espérance mathématique d’un nombre N d’évènements
pendant la période de durée T avec la cadence c. c désigne donc le nombre moyen d’évènements par
II-10
unité de temps. nOn démontre alors que la probabilité d’obtenir n évènements pendant un temps T est
P (N = n) = (cTn!) e−cT .
Figure 1: Densité de probabilité de la loi de Poisson de paramètre λ = 10.
La somme de deux lois de Poisson de paramètres λ1 et λ2 est une loi de Poisson de paramètre λ1 + λ2 .
Loi Normale ou loi de Gauss-Laplace : C’est incontestablement la loi la plus connue. On la doit
à Moivre qui, en 1738, a trouvé cette loi comme limite de la loi binomiale. On utilisera la notation
suivante : ℵ(moyenne, variance) = ℵ(µ, σ 2 ). On la retrouve comme modèle le plus courant pour les
distributions d’erreurs de mesure autour d’une valeur “vraie”. Elle joue aussi un rôle important en terme
de comportement asymptotique des autres lois de probabilités, comme le montre le théorème central
limite. Une propriété intéressante de cette loi est sa conservation vis à vis de la combinaison linéaire :
Soient {Xi } un ensemble de p v.a. normales de paramètres (µi , σi2 ) deux à deux indépendantes, leur
somme pondérée par les coefficients αi est une v.a. normale de paramètres la somme pondérée des
paramètres ( αi µi , αi2 σi2 )
P P
Loi exponentielle : Si Y suit une loi de Poisson, et traduit le nombre d’apparitions d’un certain
phénomène aléatoire dans un intervalle de temps t, alors la variable aléatoire 1/Y représente l’intervalle de
temps séparant deux apparitions d’un évènement donné. Cette nouvelle variable suit une loi exponentielle
de paramètre a où a est le paramètre de la loi de Poisson. En fiabilité, cette loi est très utilisée pour
représenter la durée de vie de circuits électroniques. L’espérance a est souvent appelée le MTBF (Mean
Time Between Failure) et a1 le taux de défaillance. La loi exponentielle est un cas particulier de la loi
Gamma pour k = 1.
La loi exponentielle est souvent utilisée pour son caractère sans mémoire. Soit X une variable aléatoire
suivant une loi exponentielle. Soient u et t deux réels strictement positifs, on a
P (X > t + u|X > t) = P (X > u)
Cela signifie que la probabilité d’être dans un intervalle [t, t + u] dépend uniquement de la largeur de
l’intervalle et pas de sa position absolue (d’où le vocable “d’effet sans mémoire“).
II-11
Figure 2: Densité de probabilité de la loi normale centrée réduite.
Figure 3: Densité de probabilité de la loi exponentielle de paramètre a = 3.
Loi de Weibull : Cette loi est aussi très utilisée pour caractériser la fiabilité des matériels. Elle est
reliée à la loi exponentielle par la relation suivante : X suit une loi de Weibull de paramètre β si X β suit
une loi exponentielle. On dit que β est le paramètre de forme : β > 1 correspond à un matériel qui se
dégrade avec le temps (usure); β < 1 à un matériel qui se bonifie avec le temps; β = 1 (cas où la loi est
exponentielle) à un matériel sans usure (pannes purement accidentelles).
II-12
Figure 4: Densité de probabilité de la loi de Weibull de paramètre β = 2.
Loi Gamma : Soit une v.a. normale X de paramètres (µ, σ) et soit Y une v.a. construite par
2
Y = 12 (X−µ)σ2
. Y suit une loi Gamma de paramètres (λ, k) = ( 21 , 1). La distribution gamma est une
généralisation de la loi exponentielle. En effet, si la loi exponentielle corrrespond à la distribution de
probabilité du temps séparant l’apparition de deux évènements donnés, la loi gamma fournit la distri-
bution de probabilité du temps qui s’écoule entre la Kème et la (K+r)ème apparition de l’évènement.
La loi gamma est appliquée comme modèle de probabilité pour prévoir la durée de vie des appareils qui
subissent une usure tels les véhicules automobiles ou les appareils mécaniques.
Loi du χ2 : Le paramètre m est le nombre de degrés de liberté de cette loi. Cette distribution permet
de définir la loi de la v.a. χ2m = m 2
P
1 xi où les xi sont des v.a. normales centrées réduites indépendantes.
Pour m tendant vers l’infini, cette loi tend asymptotiquement vers une loi normale. La somme de deux
v.a. du χ2 à respectivement a et b degrés de liberté, est une nouvelle v.a. de loi du χ2 à a + b degrés de
liberté. On peut aussi relier cette loi à la loi Gamma avec (k, λ) = (m/2, 1/2).
q
Loi de Rayleigh : C’est la loi de la norme, i.e. R = x21 + x22 où x1 et x2 sont des v.a. normales
centrées. C’est aussi la loi de la dérivée de la loi normale. La loi de Rayleigh apparaı̂t souvent pour
décrire le bruit en sortie de certains récepteurs de transmissions.
Loi de Student : Si X : ℵ[0, σ 2 ], et si Y (indépendante
√
de X) est telle que Y 2 /σ 2 suit une loi du χ2
X n
à n degrés de liberté, alors la variable T = Y suit une loi de Student à n degrés de liberté. Cette loi
sert essentiellement pour les tests statistiques d’hypothèses.
2.9 Quelques relations
En statistique, on est souvent amené à construire les variables aléatoires suivantes :
II-13
X̄ = n1 i=n
P
i=1 Xi
1 Pi=n
S 2 = n−1 i=1 (Xi − X̄)
2
√ X̄−µ
T = n S
Dans le cas, fréquent, où l’on admet ou vérifie, que les Xi sont des lois normales de même paramètrage
(µ, σ), alors
X̄ suit une loi normale ℵ(µ, √σn ).
S 2 suit une loi du χ2 à n − 1 degrés de liberté.
T suit une loi de Student n − 1 degrés de liberté.
Par ailleurs, on sait que seules les affinités (et en particulier les sommes) conservent les lois normale,
binomiale, uniforme et Gamma (à paramètres entiers).
Xi : B(ni , p)
Pk
(Xi ) indépendantes Y : B( i=1 ni , p)
Y = ki=1 Xi
P
Xi : P(λi )
Pk
(Xi ) indépendantes Y : P( i=1 λi )
Y = ki=1 Xi
P
Xi : N (µi , σi2 )
Pk Pk 2 2
(Xi ) indépendantes Y : N( i=1 ai µi , i=1 ai σi )
Y = ki=1 ai Xi
P
Xi : E(λ)
(Xi ) indépendantes Y : G(k, λ)
Y = ki=1 ai Xi
P
Xi : G(a, pi )
Pk
(Xi ) indépendantes Y : G(a, i=1 pi )
Y = ki=1 Xi
P
Xi : χ2 (γi )
Pk
(Xi ) indépendantes Y : χ2 ( i=1 γi )
Y = ki=1 Xi
P
2.10 Loi des grands nombres
2.10.1 Convergence stochastique
On s’intéresse à la loi d’une suite de v.a. indentiques, et plus particulièrement à la convergence à l’infini.
Pour étudier cette convergence, il existe de nombreux outils dont nous résumons ici les principaux.
Convergence en loi. Soit une suite de v.a. Xn de F.R. Fn (x), et soit X une v.a. de FR F (x). On dit
que la suite Xn converge en loi vers la v.a. X ssi Fn (x) converge vers F (x).
Convergence en probabilité. On dit que la suite Xn converge en probabilité vers la v.a. X ssi ∀η,
(donnés arbitrairement petits) ∃n0 tel que n > n0 ⇒ P (|Xn − X| > ) < η
Cette définition est une généralisation du théorème de Bernouilli (dans le cas où X est une constante).
En conséquence de ce théorème, on sait que dans une série d’épreuves indépendantes, la fréquence relative
de l’évènement A converge en probabilité vers P(A) quand le nombre d’épreuves croit indéfiniment.
II-14
Convergence en moyenne. On dit que la suite Xn converge en moyenne d’ordre p vers la v.a. X ssi
E(|Xn − X|p ) → 0 pour n tendant vers l’infini. La plus utilisée de ces convergences est la convergence
en moyenne quadratique (p = 2).
La convergence moyenne d’ordre 2 implique la convergence en moyenne d’ordre 1 (ou convergence en
moyenne) qui implique la convergence en probabilité qui implique la convergence en loi. Cette dernière
est donc la convergence la plus stricte.
Exemple : Théorème de De Moivre-Laplace : Soit Xn une suite de v.a. binomiales B(n, p). √Xn −np
np(1−p)
converge en loi vers une loi normale centrée réduite ℵ(0, 1). On admet généralement que cette convergence
est bonne si np > 5 et n(1 − p) > 5. Par exemple, soit une v.a. X : B(40, 0.3). Le critère est validé.
Soit à approximer la valeur de P (X = 11). La valeur exacte est 0.1319 d’après les tables. D’après le
x− 1 −np x+ 1 −np
théorème, on obtient une valeur approchée de P (X = x) par P (X = x) ≈ P ( √ 2 <N < √ 2 )
np(1−p) np(1−p)
√
Cette formule d’approximation avec une loi ℵ(12, 8.4) donne
P (X = 11) ≈ P ( 10.5−12
√
8.4
< N < 11.5−12
√
8.4
) = P (−0.52 < N < −0.17) = P (0.17 < N < 0.52) =
0.6895 − 0.5675 = 0.131 Soit une erreur de moins de 1%.
2.10.2 Théorème central limite
Le théorème central limite est l’un des résultats les plus importants de la théorie des probabilités. De
façon informelle, ce théorème donne une estimation très précise de l’erreur que l’on commet en approchant
l’espérance mathématique par la moyenne arithmétique. Ce phénomène a d’abord été observé par Gauss
qui l’appelait loi des erreurs; mais ce dernier n’en a pas donné de démonstration rigoureuse. La preuve
du théorème a été apportée part Moivre et Laplace; le théorème porte donc parfois leurs noms.
Ce théorème est fondamental car il justifie toutes les approximations par la loi normale.
Théorème :
Soit Xn une suite de v.a. de même loi d’espérance µ et d’écart type σ. Alors la v.a. √1 ( X1 +X2 +...+Xn −nµ )
n σ
converge en loi vers une v.a. normale centrée réduite ℵ(0, 1).
Exemples : La moyenne expérimentale ou arithmétique ( X1 +X2n+...+Xn ) converge donc vers une loi
normale de moyenne µ, la moyenne théorique, et d’écart-type √σn .
q Une proportion Fn tend vers une loi normale de moyenne la proportion théorique p et d’écart-type
p(1−p)
n .
Comme cas particulier de ce théorème, on retrouve également la convergence d’une suite de loi bi-
nomiale vers la loi normale (théorème de Bernoulli). Ce théorème justifie l’utilisation de la loi normale
lorsqu’il y a répétition d’expériences identiques. Par contre, ce théorème reste strict sur les conditions
d’applications. On considère souvent que ce théorème reste valable même si les distributions individuelles
sont différentes, pour autant que la variance de chacun des termes individuels soit négligeable vis-à-vis
de la variance de la somme. C’est en fait un théorème plus général du à Lindeberg.
Théorème :
Soient X1 , X2 , . . . , Xn des v.a. indépendantes, pas forcément de même loi, centrées et de variance σi2 .
Pi=n
Xi , s2n = i=n 2
P
Soient Sn = i=1 i=1 σi et Fi (x) la fonction de répartition de la v.a. Xi . Si la condition
suivante est réalisée
II-15
n Z
!
1 X
∀ > 0 lim X 2 dFi (x) =0
n→∞ s2n i=1 |Xi |>sn i
alors
Sn L
→ ℵ(0, 1)
sn
La condition de Lindeberg exprime que les v.a. XiS−µ i

i
sont “uniformément petites” avec une grande
probabilité. Le résultat veut dire qu’à force d’ajouter de telles variables, on finit par obtenir une loi
normale. Autrement dit, si une variable est la résultante d’un grand nombre de causes, petites, à effet
additif, cette variable suit une loi normale. C’est à cause de cette interprétation que la loi normale est
très souvent employée comme modèle (malheureusement pas toujours à raison).
Enfin, notons que ces théorèmes supposent l’existence des moments des v.a. On ne peut donc pas les
utiliser par exemple pour des v.a. suivant une loi de Cauchy (dans ce cas particulier, la somme produit
une v.a. qui a toujours une loi de Cauchy et cela quel que soit le nombre d’éléments dans la somme).
2.11 Simulation d’une variable aléatoire
Très souvent en simulation, on est amené à utiliser des échantillons fictifs de réalisations d’une v.a. de
loi déterminée. Nous abordons ici un ensemble de méthodes de construction de tels échantillons
2.11.1 Méthode générale par transformation inverse
Soit à construire un échantillon de n réalisations d’une v.a. X de fonction de répartition F . Soit Y la v.a.
définie par Y = F (X). Cette v.a. suit une densité de probabilité uniformément distribuée sur l’intervalle
[0, 1]. Sa fonction de répartition G est telle que G(y) = P [Y < y] = y.
Soient y1 , . . . , yn un échantillon de taille n d’une v.a. uniformément distribuée sur [0, 1]. Les yi
peuvent être considérés comme des réalisations de la v.a. Y . Pour calculer les réalisations de xi , il
suffira alors de calculer la valeur de xi qui correspond à une valeur yi de sa fonction de répartition :
X = F −1 (Y ) ⇒ xi = F −1 (yi )
2.11.2 Loi uniforme
La construction d’un échantillon fictif d’une v.a. de loi quelconque nécessite en premier lieu la construction
d’un échantillon fictif d’une v.a. uniforme entre 0 et 1. Pour une loi uniforme, on ne pourra donc pas se
servir de la méthode générale. On utilisera alors soit des tables de nombres au hasard, soit des algorithmes
de génération de nombres pseudo-aléatoires (fonction random classique sur les machines par exemple).
2.11.3 Loi exponentielle

x x
f (x) = a1 e− a pour x > 0 et a > 0. On a le résultat suivant F (x) = 0x f (u)du = 1 − e− a . La méthode
R
générale par transformation inverse nous donne x = F −1 (y). Si on remplace y par 1 − y (ce qui est
x
possible sans conséquence car la distribution uniforme est symétrique), alors on obtient 1 − y = e− a . On
a donc xi = −a Ln yi .
II-16
2.11.4 Loi binomiale
f (k) = Cnk pk (1 − p)n−k . p et n doivent être connus. On pose alors k0 = 0 et on génère n nombres
aléatoires yi uniformément distribués et pour chaque yi , on fait le test
si yi ≤ p alors faire ki = ki−1 + 1
si yi > p alors faire ki = ki−1
kn sera la valeur de la réalisation d’une v.a. binomiale de paramêtres n et p. Cet algorithme utilise
la propriété qui relie la loi binomiale à la loi 0-1 (p).
2.11.5 Loi de Poisson

k
f (k) = e−λ λk! . On utilise le fait que les intervalles de temps séparant deux évènements successifs suivant
une loi de Poisson sont distribués exponentiellement. On génère donc les intervalles t1 . . . tn distribués
suivant une loi exponentielle de moyenne 1. La réalisation k de la variable aléatoire de Poisson de
paramètre λ sera alors déterminée par l’inégalité
k
X k+1
X
ti < λ < ti
i=0 i=0
avec ti = −Ln yi ( yi : v.a. uniforme [0,1] et ti v.a. exponentielle de moyenne 1).
2.11.6 Loi normale : ℵ(µ, σ 2 )
On utilise le théorème central limite. La distribution de la moyenne Ȳ d’une v.a. Y tend vers une loi
normale lorsque la taille n de l’échantillon est suffisamment grande, et ceci quelle que soit la distribution
de la v.a. YP. On peut donc prendre Y : v.a. uniforme sur [0,1]. Donc E(Y ) = 12 et V (Y ) = 12 1
. La v.a.
n
y −n
définie par √ ni
i=1 2
tend vers une loi normale centrée réduite.
12
Pour obtenir une échantillon de v.a. normale de moyenne µ et de variance σ 2 , on utilisera la relation
n
r " #
12 X n
xi = µ + σ yi −
n i=1 2
En pratique, on utilise n ≈ 100.
2.12 Autres indicateurs
Il existe d’autres indicateurs permettant de caractériser une v.a. Ils ne sont pas issus du calcul des
moments.
2.12.1 Histogramme
L’histogramme est analogue à la courbe de densité. L’ordonnée associée à chaque abscisse est égal à la
fréquence d’apparition de la valeur dans l’échantillon. Dans le cas d’une v.a. discrète, la construction de
II-17
l’histogramme ne pose pas de problème. Par contre, pour une v.a. continue, il est nécessaire de résumer
les valeurs à reporter sur la courbe en classes.
La détermination du nombre de classes d’un histogramme est délicate et il n’existe aps de règle
absolue. Un trop faible nombre de classes fait perdre de l’information et aboutit à gommer les différences
pouvant exister entre des groupes de l’ensemble étudié. En revanche, un trop grand nombre de classes
aboutit à des graphiques incohérents où certaines classes deviennent vides ou presque car n, la taille de
l’échantillon, est fini.
Sturges propose comme limite maximale du nombre de classes
nc = [1 + Log2 (n)]
où [ ] désigne la partie entière. Ainsi pour 100 mesures, il ne faudrait pas construire d’histogrammes de
plus de 7 classes.
2.12.2 Médiane
Par définition, la médiane est la valeur correspondant au milieu de la fonction de répartition d’une v.a.
Z x̃
1
x̃ : dF (x) =
−∞ 2
Si la loi de la v.a. est symétrique, alors la médiane est égale à l’espérance mathématique. la médiane
n’est pas unique. C’est une indicateur insensible aux valeurs extrèmes ce qui en fait un outil très
intéressant dans le domaine des statistiques robustes.
Si l’on part d’un échantillon de n réalisations triées par ordre croissant, la médiane sera obtenue par
x +x
x̃ = x(n+1)/2 si n est impair. Si n est pair, on prend conventionnellement x̃ = n/2 2 n/2+1
Exemple : La médiane de la série {1, 3, 2, 19, 6, 7, 0} est 3 (la valeur 3 est la 4ème dans la série triée
({0, 1, 2, 3, 6, 7, 19}) alors que la moyenne est 5.43.
Lorsque l’on ne connait qu’une répartition en classes, on cherche la classe médiane [ei−1 , ei ] telle que
F (ei−1 ) < 0.5 et F (ei ) > 0.5. On détermine alors x̃ par une interpolation linéaire de la forme
0.5 − F (ei−1 )
x̃ = ei−1 + (ei − ei−1 )
F (ei )
2.12.3 Mode
Par définition, le mode d’une v.a. est sa valeur la plus probable

xmode : P (X = xmode ) = M axx P (X = x)
Le mode n’est pas unique. Il n’est strictement défini que pour une v.a. discrète car pour toute v.a.
continue, on a ∀ x P (X = x) = 0. Cependant, nous verrons dans le chapitre sur l’estimation qu’il est
possible de trouver une valeur que l’on assimile au mode pour les v.a. continues.
2.12.4 Autres moyennes
Dans la pratique, il peut arriver que la nature des réalisations d’un échantillon ne soit pas adaptée à
l’utilisation de la moyenne classique. Il existe d’autres possibilités
II-18
pQ n
• La moyenne géométrique : µg = i=1 xi
Qn
n i=1 xi
• La moyenne harmonique : µh = Pn
x i=1 i
Il est très dur de connaı̂tre les lois de comportements de ces indicateurs particuliers. Il doivent donc
être utilisés avec précaution.
II-19
3 Estimation
On considère généralement deux types d’estimation: l’estimation ponctuelle (on cherche à estimer une
valeur) et l’estimation par intervalle de confiance où l’on estime la probabilité que la valeur vraie d’un
paramètre appartienne à un intervalle donné.
3.1 Estimation ponctuelle
3.1.1 Introduction
A partir de données d’échantillons représentatifs, on va induire des résultats sur la population-mère (i.e.
population dans laquelle les échantillons ont été prélevés).
Plus exactement, soit θ un paramètre inconnu 1 intervenant dans la loi de probabilité d’une variable
aléatoire X. La loi de probabilité de cette variable aléatoire doit être connue analytiquement (on choisit
parmi les modèles existants la loi la plus appropriée au phénomène observé). Seule la valeur numérique
du paramètre θ intervenant dans cette loi de probabilité est inconnue.
Soient x1 , . . . , xi , . . . , xn les n valeurs prises par la v.a. X dans un échantillon de taille n prélevé dans
la population-mère.
On appelle estimateur de θ, et l’on note Tn , la fonction qui aux valeurs xi de l’échantillon fait
correspondre la valeur du paramètre θ. On note la valeur numérique de cette estimation par
θ̂ = Tn (x1 , . . . , xn )
Par définition, Tn est une fonction des réalisations d’une v.a., Tn est donc une v.a. dont on peut
chercher à déterminer les caractéristiques (loi, ddp, FR, moments, . . . ).
Exemple: On observe un phénomène de production de pièces manufacturées. Chaque pièce est associée
à une mesure (un indicateur de qualité par exemple). Comme on ne peut pas vérifier chaque mesure, on
procède à un échantillonnage qui nous fournit donc un échantillon. Supposons que la connaissance de la
nature de cet indicateur nous permet de faire l’hypothèse qu’il obéit à une loi de probabilité normale. Le
problème est maintenant, au vue de l’échantillon {xi }, de proposer une valeur pour la moyenne de cette
loi normale. Il faut procéder à une estimation du paramètre vrai µ qui se traduit par la valeur µ̂. Il y a
une infinité de manière possible parmi lesquelles on peut citer
1
• µ̂ =
P
n i xi
• µ̂ =médiane{xi }
• µ̂ =mode{xi }
• µ̂ = x7
Quel est le meilleur estimateur de la moyenne ? Existe-t-il ?
Sur ce simple exemple, est résumé le problème fondamental de l’estimation: quelle est la définition
mathématique de meilleur?
La réponse est simple, il n’en existe pas. Alors comment comparer les estimateurs. Pour cela, on se
sert de plusieurs critères, le plus souvent liés au bon sens:
1
Dans la suite, nous considèrerons que θ est un scalaire mais les raisonnements peuvent bien sûr être étendus au cas de
l’estimation d’un vecteur de paramètres, par exemple le vecteur (moyenne,variance) définissant une loi normale.
III-1
le biais: On souhaite que l’estimation ne soit pas systématiquement décalée par rapport à la valeur
vraie.
la précision: Si l’on répète l’estimation sur un autre échantillon, on souhaite obtenir une estimation
cohérente, donc peu de variation d’un échantillon à l’autre. On parlera aussi d’efficacité.
la convergence: Si l’on peut estimer la valeur du paramètre sur toute la population-mère, la valeur de
l’estimation obtenue doit être la valeur vraie du paramètre.
la compléxité: Toute estimation nécessite un calcul donc un temps. On s’attachera donc à évaluer la
complexité du calcul en fonction de la taille des données (i.e. n).
la robustesse: Dans tout cas concrèt, il existe des sources de perturbations. On souhaite que l’estimation
ne soit pas sensible à la présence de valeurs abérantes (outliers en anglais).
Ces différents critères ne sont pas forcément compatibles entre eux, et l’on retrouve des dilemmes
classiques, précision vs robustesse, convergence vs complexité.
3.1.2 Estimateur convergent
Un estimateur Tn est convergent si la valeur estimée tend en probabilité vers la valeur vraie du paramètre,
soit:
∃n0 : ∀n > n0 ∀ξ, ν (arbitrairement petits) P (|Tn (x1 , . . . , xn ) − θ| < ξ) > 1 − ν
Si l’estimation est exhaustive (l’échantillon est égal à la population-mère), alors la valeur vraie du
paramètre est connue.
3.1.3 Estimateur sans biais
Un estimateur Tn est dit sans biais lorsque son espérance mathématique est égale à la valeur vraie du
paramètre.
E(Tn ) = θ
Un estimateur Tn est dit asymptotiquement sans biais si le biais diminue si la taille de l’échantillon
augmente:
lim E(Tn ) = θ
n→∞
Exemples:
1
• X : N (θ, 1): X̄ =
P
n xi est un estimateur convergent sans biais de la moyenne vraie de cette v.a.
1
• X : N (4, θ): S 2 = (xi − 4)2 est un estimateur convergent sans biais de la variance vraie de cette
P
n
v.a.
• X : N (µ, θ) (µ est supposée inconnue): S 2 = n1 (xi − X̄)2 est un estimateur convergent avec biais de
P
la variance vraie de cette v.a. Cet estimateur est considéré sans biais asymptotiquement.
1
• X : N (µ, θ) (µ est supposée inconnue): S 2 = (xi − X̄)2 est un estimateur convergent sans biais
P
n−1
de la variance vraie de cette v.a.
La différence entre ces deux derniers exemples se limite au dénominateur de la formule de calcul de S.
Le deuxième estimateur est sans biais car il prend en compte par le terme n − 1 le fait qu’il faut utiliser
une estimation préalable de la moyenne pour pouvoir faire l’estimation de la variance, i.e. il n’y a donc
III-2
plus n données disponibles (ou degrés de libertés) mais n − 1. Cette appréciation intuitive peut bien sûr
être démontrée.
Soit S 2 = n1 (xi − X̄)2 un estimateur de la variance. On pose comme hypothèse que l’échantillon
P
{xi } est constitué de n réalisations de V.A. indépendantes 2 à 2 et de même nature que la V.A. X inconnue
et dont on veut estimer la variance. Pour estimer le biais de S 2 , on calcule l’espérance mathématique de
l’estimateur  2
1 X 1X 
V̂ [X] = Xi − Xj
n n j
où Xi est la V.A. associée à la réalisation xi .

 2
1 X 1X 
E[V̂ [X]] = E[ Xi − Xj ]
n n j
Soit µ = E[X].
 2
h 1 X i 1X
E V̂ [X] = E[ Xi − µ − (Xj − µ) ]
n n j
En posant Yi = Xi − µ, on obtient une V.A. centrée et de même variance que Xi .

2 
 
1 X 1X  
h i
E V̂ [X] = E  Yi − Yj 
n n j
On simplifie l’équation précédente en tenant compte de la linéarité de l’opérateur espérance mathématique.

 2 
h 1 X  i 1X  
E V̂ [X] = E  Yi − Yj 
n i
n j
 
h 1X  2 2 X
i 1 X
E V̂ [X] = E Yi − Yi Yj + 2 ( Yj )2 
n i n j
n j
   
h i 1X h i 2 X X 1 X X
E V̂ [X] = E Yi2 − E Yi Yj  + E ( Yj )2 
n i
n2 i j
n3 i j
 
h i 1 X h 2i 2 XX 1 X X
E V̂ [X] = E Yi − 2 E [Yi Yj ] + 2 E Yi Yj 
n i
n i j
n i j
h i 1 X h 2i 1 XX
E V̂ [X] = E Yi − 2 E [Yi Yj ]
n i n i j
Pour aller plus loin, on tient compte de quelques propriétés :
• ∀i 6= j, E[Yi Yj ] = 0 car les V.A. sont indépendantes 2 à 2.
• V [Y ] = E[Y 2 ] car Y est centrée.
• ∀i, V [Yi ] = V [Y ] d’après la propriété énoncée sur Xi et V [Y ] = V [X] par propriété de la variance.
III-3
h i 1X 1 X h 2i
E V̂ [X] = V [Yi ] − 2 E Yi
n i n i
h i 1 n−1 n−1
E V̂ [X] = V [Y ] − V [Y ] = V [Y ] = V [X]
n n n
On constate bien un biais qui se traduit par le facteur n−1 n . Pour le compenser, on multiplie
n
l’estimateur V̂ par n−1 et on obtient un nouvel estimateur sans biais (car E[aV̂ ] = aE[V̂ ])
 2
n
1 X
xi −
1X
V̂ [X] = xj 
n−1 i
n j
♦
En développant cette formule, on obtient une forme plus efficace
!2
1 X 2 1 X
V̂ [X] = xi − xi
n−1 i n(n − 1) i
3.1.4 Estimateur efficace
La variance d’un estimateur représente sa précision. Pour tous les estimateurs (ayant même moyenne),
il est possible de trouver celui dont la précision sera la meilleure, i.e. dont la variance sera la plus faible.
On parle alors d’estimateur à variance minimum.
Lorsque l’on compare deux estimateurs, on dira également que Tn est plus efficace que Tn∗ si V (Tn ) <
V (Tn∗ ).
Une estimation est liée à un échantillon de taille finie. Si la population-mère est de taille infinie,
il n’est pas possible d’avoir accès à la valeur vraie θ. La précision que l’on pourra obtenir sur Tn ne
pourra donc pas descendre en deça d’une certaine limite (borne inférieure de la variance de l’estimateur
ou Minimum Variance Bound (MVB)) qui est déterminée par l’inégalité de Cramer-Rao:
τ 0 (θ)2
V (Tn ) ≥
I(θ)
où I(θ), appelée quantité d’information de l’échantillon, est définie par:

" 2 #
∂LnL(X, θ)
I(θ) = E
∂θ
L(X, θ) est appelée fonction de vraisemblance et se calcule par:

n
Y
L(x1 , . . . , xn , θ) = f (x1 , θ)f (x2 , θ) . . . f (xn , θ)
i=1
f désignant la ddp de la v.a. X et
∂τ (θ)
τ (θ) = E[Tn ] τ 0 (θ) =
∂θ
III-4
Si un estimateur atteint la limite inférieure, on parle alors de MVB estimateur. On démontre aussi
que cet estimateur est obligatoirement convergent et sans biais.
Remarque: La notion d’information a été proposée dans les années 20 par le chercheur anglais Ronald
A. Fisher (considéré comme le père de la statistique mathématique). La démarche de Fisher est la
suivante: si l’on s’intéresse aux caractéristiques d’une population nombreuse (voire infinie, c’est le cas
limite auquel on est en permanence ramené), on ne peut ni connaı̂tre ni traiter les informations trop
abondantes relatives à chacun des individus qui la composent. Le problème devient donc d’être capable
de décrire correctement la population au moyen d’indicateurs de synthèse pouvant être fournis par des
échantillons issus de la population à étudier. Plus les données chiffrées que l’on peut extraire d’un
échantillon représentent correctement la population de référence et plus l’information contenue dans cet
échantillon doit être considérée comme élevée.
Partant de cette hypothèse, Fisher a définie techniquement l’information comme la valeur moyenne
du carré de la dérivée du logarithme de la loi de probabilité étudiée. La célèbre inégalité de Cramer
permet alors de montrer que la valeur d’une telle information est proportionnelle à la faible variabilité
- c’est à dire au fort degré de certitude - des conclusions qu’elle permet de tirer. Cette idée, qui est à
la racine de toute la théorie de l’estimation et de l’inférence statistique, est exactement celle que l’on
retrouvera vingt ans plus tard chez Shannon, exprimée cette fois en des termes non plus statistiques mais
probabilistes.
3.1.5 Robustesse
Le terme “robuste” a été pour la première fois introduit en statistique par G.E.P. Box en 1953. Un
estimateur est dit robuste si il est insensible à des petits écarts sur les hypothèses pour lesquelles il a été
optimisé. Il y a deux sens au terme “petit”: de petites variations sur toutes les données, ou des écarts
importants sur un petit nombre de données. C’est le deuxième aspect qui est le plus mal pris en compte
par les estimateurs classiques.
Ainsi, la robustesse traduit le plus souvent la résistance de l’estimation aux données abérentes. On
la définit mathématiquement par le plus petit nombre de données extrèmes qui modifie la valeur de
l’estimation ramené à la taille de l’échantillon.
Considérons un échantillon constitué de n valeurs identiques a, auquel on ajoutera une perturbation
sous la forme de valeurs extrèmes b a. Pour estimer l’espérance mathématique, on peut utiliser la
moyenne arithmétique qui donne bien sûr a sur l’échantillon. Cependant, cette estimation est modifiée
dès l’introduction d’une nouvelle valeur, b, sa robustesse est donc de n1 . Par contre, la médiane de cet
échantillon n’est pas modifiée si l’on ajoute une valeur extrème. En fait, la médiane ne sera modifiée
que si le nombre de valeurs extrèmes est supérieur au nombre de valeurs initiales. On en déduit que la
n
−1
robustesse de l’estimateur médiane est égale à 2 n dont la valeur asymptotique est 21 .
3.2 Méthode du maximum de vraisemblance
Le critère d’efficacité permet de comparer des estimateurs. On peut aussi s’en servir pour construire
un estimateur. Soit X une variable aléatoire de densité de probabilité f (x, θ) connue analytiquement
mais dont l’un des paramètres θ est inconnu (numériquement). Le problème consiste donc à construire
une expression analytique fonction des réalisations de cette variable dans un échantillon de taille n,
permettant de trouver la valeur numérique la plus vraisemblable pour le paramètre θ.
Si {x1 , . . . , xn } sont des réalisations indépendantes de la v.a., on peut dire que
III-5
x1 X1
   
 ..  ~  .. 
~x =  .  est une réalisation d’un vecteur aléatoire X =  .  dont les composantes Xi sont
xn Xn
indépendantes deux à deux.
L’approche retenue consiste à chercher la valeur de θ qui rend le plus probable les réalisations que
l’on vient d’obtenir. La probabilité d’apparition a priori de l’échantillon en question peut alors être
caractérisée par le produit des probabilités d’apparition de chacune des réalisations (puisque celles-ci
sont supposées indépendantes deux à deux).
n
~ = ~x) =
Y
P (X f (xi , θ)
i=1
La méthode du maximum de vraisemblance consiste à rechercher la valeur de θ qui rend cette prob-
abilité maximale. Comme nous l’avons vu plus haut, le produit des valeurs f (xi , θ) est aussi noté
L(x1 , . . . , xn , θ) et appelé fonction de vraisemblance. La valeur θ̂ qui rend maximum la fonction de
vraisemblance L est donc la solution de:
∂LnL ∂ 2 LnL
= 0 ⇒ θ̂ : <0
∂θ ∂θ2
L’emploi du logarithme sur la fonction L permet de passer de la maximisation d’un produit à celle d’une
somme, le résultat restant le même car la fonction logarithme est monotone strictement croissante.
Propriétés de la fonction de vraisemblance:
R
• <n L(~x, θ)d~x = 1
R ∂L(~
x,θ)
• <n ∂θ d~ x =0
h i
∂LnL(~x,θ)
•E ∂θ =0

x,θ) 2 ∂ 2 LnL(~
h i
1 ∂L(~ x,θ)
•E L(~
x,θ) ∂θ = −E ∂θ2
Théorème: Si il existe un estimateur efficace sans biais, il sera donné par la méthode du maximum de
vraisemblance.
∂L(~
x,θ)
Théorème: L’estimateur efficace Tn existe si ∂θ = A(θ)[Tn − τ (θ)] où A(θ) ne dépend pas des
observations xi . On peut alors montrer que
0
τ (θ)
V [Tn ] =

A(θ)
Cette approche est très théorique mais possède l’avantage d’être parfaitement formalisée.
Exemple 1: Soit X une loi normale N (µ, σ) avec σ connu mais µ inconnue. L’objectif est de construire
un estimateur de la valeur µ, étant donné un échantillon de réalisation ~x = (x1 , . . . , xn ). Pour cela, on
part de la fonction de vraisemblance de cet échantillon:
n n xi −µ 2
1 1

e− 2
Y Y
L(~x, µ) = f (xi , µ) = √ σ
i=1 i=1 2πσ
n xi −µ 2

− 12
Y
L(~x, µ) = K e σ
i=1
III-6
n 2
1X xi − µ

LnL(~x, µ) = K 0 −
2 i=1 σ
n
∂LnL 1X xi − µ̂

= 0 ⇒ µ̂ : =0
∂µ σ i=1 σ
n
1X
µ̂ = xi
n i=1
La moyenne arithmétique est l’estimateur le plus efficace de l’espérance mathématique dans le cas de
la loi normale. Quel est le biais de cet estimateur ?
n
~ = 1X
µ̂n (X) Xi
n i=1
où Xi est une v.a. N (µ, σ).
n n
1X 1X
E[µ̂] = E[ Xi ] = E[Xi ] = µ
n i=1 n i=1
de part la propriété de linéarité de l’opérateur espérance mathématique. L’estimateur est donc sans
biais.
♦
3.3 Estimation par intervalle de confiance
Cette nouvelle approche est souvent préférée dans la pratique car elle introduit la notion d’incertitude.
On cherche à déterminer l’intervalle [a, b] centré sur la valeur numérique estimée du paramèter inconnu θ
contenant la valeur vraie avec un probabilité α fixée a priori. Cette probabilité permet de s’adapter aux
exigences de l’application.
P [a < θ < b] = α
L’intervalle [a, b] est appelé intervalle de confiance et α est le coefficient de confiance. Une
estimation par intervalle de confiance sera d’autant meilleure que l’intervalle sera petit pour un coefficient
de confiance grand.
La donnée de départ, outre l’échantillon, sera la connaissance de la loi de probabilité du paramètre à
estimer. Comme il n’existe pas de résolution générale de ce problème, nous allons aborder successivement
les cas les plus fréquents (estimation d’une proportion, d’une moyenne, d’une variance de loi normale).
III-7
3.3.1 Estimation d’une proportion
Soit une population dont les individus possèdent un caractère A avec une probabilité p (loi 0/1). On
cherche à déterminer cette probabilité inconnue en prélevant un échantillon de taille n dans cette popu-
lation. On constate que x parmi les n individus possèdent le caractère A. Que peut-on en déduire, i.e.
la proportion fn = nx approxime la valeur vraie p, mais avec quelle confiance.
Soit Fn = nx ; Fn est une v.a. construite par la somme de n variables aléatoires 0/1 et de même
paramètre, p. C’est donc, d’après le théorème central limite, une
q variable aléatoire dont la loi de proba-
bilité tend vers une loi normale de moyenne p et d’écart-type p(1−p)n . Cette approximation est valable
uniquement si la taille de l’échantillon est suffisamment grande (i.e. n > 30 en pratique).
Construisons l’intervalle de confiance autour de p sous la forme:
P (|fn − p| < t) = 1 − α
où α q
est le risque (a priori, on construit un intervalle symétrique). fn est une réalisation d’une v.a.
N (p, p(1−p)
n ). donc on peut par normalisation et centrage obtenir une nouvelle v.a. U
fn − p
u= q : N (0, 1)
p(1−p)
n
On en déduit donc l’intervalle de confiance sous la forme:

 s s 
p(1 − p) p(1 − p) 
P [a < θ < b] = P  fn − u < p < fn + u =1−α
n n
q
La valeur t = u p(1−p)n est donc un résultat de calcul. La valeur de u sera lue sur une table de loi
normale N (0, 1). Il existe par ailleurs différentes manières pour approximer la valeur de p:
• soit par la proportion fn :
 s s 
fn (1 − fn ) fn (1 − fn ) 
P [a < θ < b] = P  fn − u < p < fn + u =1−α
n n
• soit par majoration: en effet, quelle que soit la valeur de p, le produit p(1 − p) est majoré par 14 .
u u

P [a < θ < b] = P fn − √ < p < fn + √ ≥1−α
2 n 2 n
Exemple: Soit un échantillon de taille n = 100 et une proportion estimée fn = 0.6. Quelle est la
confiance dans cette valeur ou bien quel intervalle donne une confiance de 0.9 (risque de 10%?
r r
0.6 × 0.4 0.6 × 0.4 p − 0.6
t : P (0.6 − u < p < 0.6 + u ) = P (−t < < t) = 0.9
100 100 0.049
Par lecture dans la table de la loi normale, on obtient P (X < u) = 0.95 → u = 1.645. L’intervalle à
90% de confiance autour de la proportion estimée est donc [0.5194; 0.6808].
♦
III-8
3.3.2 Estimation d’une moyenne
Deux cas sont à envisager:

• La variable aléatoire mesurée est normale et le nombre de réalisations est quelconque.
• La variable aléatoire mesurée n’est pas normale et le nombre de réalisations est supérieur à 30 (dans
ce cas, la distribution de la moyenne tend vers une loi normale d’après le théorème central limite).
Soit donc une v.a. X suivant une loi normale de moyenne µ inconnue et d’écart-type σ. On dispose
d’un échantillon de n réalisations xi de cette v.a. Comme précédemment, l’intervalle de confiance sur la
moyenne est:
σ σ

P [a < µ < b] = P m − t √ < µ < m + t √ =α
n n
où m est la moyenne arithmétique calculée à partir de l’échantillon. Pour aller plus loin, nous devons
considérer deux cas
1- La variance σ 2 est connue.
La valeur
√ σ joue le rôle d’une constante dans la formule de l’intervalle de confiance et la nouvelle v.a.
Y = (m−µ)
σ
n
suit toujours une loi normale. La valeur de t est donc lue dans une table de la loi normale.
2- La variance σ 2 est inconnue.
Dans ce cas, σ joue le rôle d’une v.a. Soit s2 l’estimation de σ 2 que l’on obtient par:
n
1 X
s2 = (xi − m)2
n − 1 i=1
2
Comme X suit une loi normale, on sait que la quantité n Sσ2 suit une loi du χ2 à n − 1 degrés de liberté.
√
(M −µ) n
La nouvelle variable aléatoire Y = S suit donc une loi de Student à n − 1 degrés de liberté.
L’intervalle de confiance est alors:
s s

P [a < µ < b] = P m − t√ < µ < m + t√ =α
n n
où t est lue dans une table de Student pour n − 1 degrés de liberté.
A posteriori, on peut être intéressé par la taille minimale de l’échantillon tel que l’intervalle de
confiance, pour un coefficient de confiance α donné, soit tel que ses bornes inférieures et supérieures ne
s’écartent pas de plus de k% de la valeur moyenne. On impose donc t √σn ≤ kµ, ce qui conduit à
2
t2 σ
n≥
k2 µ
On approche µ par m et σ par s si l’écart-type est inconnu.
3.3.3 Estimation d’une variance
Nous n’aborderons que le cas de l’estimation de la variance σ 2 d’une v.a. X normale de moyenne µ à
partir d’un échantillon de n valeurs.
III-9
Si µ est connue (très rare), alors l’intervalle de confiance à α% (risque) est définit par
 
nν nν 

2 ; 2
χ1− α (n) χ α (n)
2 2
avec ν = n1 (xi − µ)2 et où χ21− α (n) et χ2α (n) sont les quantiles d’ordre 1 − α α
de la loi du χ2 à n
P
2 et 2
2 2
degrés de liberté.
2
Si µ est inconnue. La quantité n Sσ2 définie dans le paragraphe précédent suit une loi du χ2 à n − 1 degrés
de liberté. L’intervalle de confiance à α% (risque) est définit par
 
ns2 ns2
 ; 
χ21− α (n − 1) χ2α (n − 1)
2 2
où χ21− α (n − 1) et χ2α (n − 1) sont les quantiles d’ordre 1 − α2 et α

2 de la loi du χ2 à n − 1 degrés de liberté.
2 2
On obtient le résultat suivant :

" #
h
2 nS 2 i
P χ <k =P <k =α
σ2
(attention, α représente ici la confiance) avec k lu sur une table du χ2 pour n − 1 degrés de liberté, d’où
l’on tire : " #
2 nS 2
P σ > =α
k
1 Pn
avec S 2 = n i=1 (xi − m)2 .
3.4 Estimation robuste
Nous allons dans ce paragraphe reprendre le problème de l’estimation au tout début afin de montrer
qu’il est possible de dériver des estimateurs très différents de ceux que nous avons abordés jusque là.
Ces estimateurs relèvent du domaine que l’on nomme les statistiques robustes et dont Legendre (le
créateur de la méthode des moindres carrés) a été le précurseur puisque parlant des écarts entre les
données et l’interprétation, il déclarait (en 1805 dans sa première publication sur les moindres carrés):
Si parmi ces erreurs, certaines apparaissent trop importantes pour être admises, alors les observations qui
ont générées ces erreurs seront rejetées, comme provenant d’expériences trop peu fiables, et les inconnues
seront déterminées grâce aux autres observations, qui de ce fait induiront moins d’erreurs.
3.4.1 Interprétation de données: l’approche bayésienne
Soient g un ensemble de données, i.e. un échantillon, et C un contexte (C englobera tout ce qui n’est
pas directement en relation avec le processus sous-jacent aux données). Le problème de l’estimation est
un cas particulier d’un problème plus général qui est celui de l’interprétation des données. Soit i cette
interprétation. Notre problème est donc de déterminer i connaissant g et C. Une approche possible
est de choisir l’interprétation la plus probable. C’est à dire chercher i qui maximise la probabilité
conditionnelle P [i|g, C]. Cette probabilité n’est pas directement évaluable mais on peut se servir du
théorème de Bayes.
III-10
P [i, g, C] = P [i|g, C]P [g, C] = P [g|i, C]P [i, C] = P [g|i, C]P [i|C]P [C]
P [g|i,C]P [i|C]P [C]

d’où l’on déduit P [i|g, C] = P [g,C]
La maximisation de cette expression se faisant sur l’interprétation i, on peut supprimer le dénominateur

et ne pas tenir compte de la probabilité du contexte P [C]. Si de plus on suppose que le contexte
est indépendant des données, on trouve l’interprétation la plus probable en maximisant le produit
P [g|i]P [i|C].
Dans cette expression, P [g|i] est la validation a posteriori des données par l’interprétation. P [i|C] est
l’a priori, indépendant des données. Ce deuxième terme traduit le biais qui fait que l’on ne part jamais
avec tous les modèles équiprobables (soit parce que l’on tient compte de l’application sous-jacente, soit
par habitude ou connaissance).
3.4.2 Le traitement de l’a priori
Malheureusement, on ne sait pas traduire l’a priori et donc sa probabilité, c’est pourquoi, on suppose
toujours qu’il est soit négligeable soit qu’il contraint suffisamment l’application pour que toutes les in-
terprétations possibles soient de la même catégorie.
Prenons le cas de l’interprétation de données bruitées. Dans ce cas, on suppose que les données g
sont des prélèvements d’un phénomène f perturbé par un bruit additif b, ce qui nous donne g = f + b.
Dans ce cas, la probabilité traduisant l’a priori s’écrit P [f, b|C]. Si le bruit n’est pas corrélé avec le
phénomène f , on obtient en fait un produit de deux probabilités P [f |C]P [b|C]. La maximisation de ce
produit ne conduit pas à une solution unique car les complexités de f et b s’équilibrent. En effet, pour
un jeu de données fixé, plus le modèle sera d’ordre faible plus il faudra supposer un modèle de bruit
complexe. A l’inverse, pour n données, on peut toujours envisager une forme polynomiale de degré n − 1
qui prédit exactement tous les points, et dans ce cas, le bruit b est nul, donc de complexité très faible.
Mais avons-nous l’habitude de manipuler des modèles d’ordre très élevé ?
3.4.3 Le traitement de l’a posteriori
L’a posteriori traduit l’écart entre les données et la prédiction faite par l’interprétation / modèle. Afin
de formaliser cet écart, il est nécessaire de faire des hypothèses sur la distribution des données et plus
particulièrement sur la distribution des écarts entre les données et le modèle. Les hypothèses minimales
sont généralement au nombre de trois. Soient gj une donnée de l’échantillon et ĝj la prédiction du modèle.
• Symétrie: P [gj − ĝj > 0] = P [gj − ĝj < 0]
• Décroissance avec le module: P [|gj − ĝj |] décroit quand |gj − ĝj | croit.
Qn
• Indépendance des erreurs: P [g|i] = j=1 P [gj − ĝj ]
Pour aller plus loin, on suppose le plus souvent que la distribution des erreurs suit une loi normale
de moyenne nulle (pas de biais) et d’écart-type σ. On peut donc construire la fonction de vraisemblance
e2
j
− 12
P
par L(i) = Ke σ2
où ej = gj − ĝj .
On peut alors en déduire un estimateur par la recherche du maximum de vraisemblance, ce qui conduit
à la méthode des moindres carrés qui est abordée dans la suite de ce chapitre.
III-11
Depuis l’origine des statistiques, les statisticiens ont toujours adoré le fait que la distribution de la
somme d’un très grand nombre de petites variations aléatoires converge toujours vers une distribution
normale (cf Théorème central limite).
Le principal problème de ce choix est que la probabilité d’un écart égal à 20 fois σ est de l’ordre de
2 × 10−88 ce qui est beaucoup trop faible pour traduire la fréquence d’apparition d’un écart très fort du
à une donnée abérente. De plus, dans le cas de la loi normale, 95% des écarts doivent se trouver à au
plus 2 fois l’écart type.
On peut donc être amené à choisir des distributions dont la décroissance est moins rapide. Par
exemple, on peut utiliser la distribution de Cauchy, ou une distribution exponentielle.
3.4.4 Le cas monodimensionnel
Prenons le cas de l’estimation d’un paramètre représentant un échantillon. Soit a ce paramètre. Si l’on
fait l’hypothèse d’une distribution normale des écarts, on aboutit à l’estimateur moyenne. Par contre,
si l’on suppose que la distribution est exponentielle (f (x) = Ke−|x| ), on aboutit à un autre estimateur
(toujours par la méthode du maximum de vraisemblance) tout aussi simple, la médiane.
Ces deux estimateurs peuvent être comparés grâce aux indicateurs que nous avons évoqués au début
de ce chapitre. Ils sont tous les deux convergents et sans biais. La complexité de la moyenne est de O(n)
alors que celle de la médiane est de O(n log n) car il faut faire un tri des données, la moyenne est donc
plus rapide à calculer. Par contre, la robustesse de la moyenne est asymptotiquement nulle alors que celle
de la médiane est asymptotiquement de 0.5 ce qui traduit une bien meilleure résistance au bruit, i.e. aux
données abérentes.
3.4.5 Le cas général

Qn
Reprenons le cas général. On veut maximiser la probabilité P [g|i] = j=0 J(ej ) où ej est l’écart sur la
jème donnée et J la distribution des écarts.
La maximisation de cette probabilité peut se réécrire sous la forme d’une minimisation d’une fonction
de coût C(a) où a est le vecteur des paramètres du modèle / interprétation i.
n
!
X gj − ĝ(j, a)
C(a) = ρ
j=1
σj
avec ρ = log(J −1 ) et où σj traduit l’incertitude sur la jème donnée et permet de relativiser la valeur de
chaque écart.
dρ
Soit ψ(x) = dx (x). La minimisation de C conduit à résoudre le système de k (nombre de paramètres)
équations:
n
!
X 1 gj − ĝ(j, a) ∂ĝ(j, a)
ψ =0
j=0
σj σj ∂ak
Ce système n’a bien sur pas de solution générale et il convient de l’étudier en fonction du choix de ρ,
ce qui donne une classe d’estimateurs connus sous le nom de M-estimateurs.
• Modèle de Legendre:
C’est le cas le plus connu car il correspond à l’hypothèse de normalité de la distribution des écarts.
On pose ρ(x) = x2 et ψ(x) = 2x
III-12
• L-estimateur:
Egalement très utilisé, cet estimateur utilise ρ(x) = |x| et donc ψ(x) = sgn(x) ce qui conduit à
l’estimateur médian.
• Modèle de Cauchy / Lorentz:
Comme nous l’avons vu précédemment, ce modèle permet de par la plus lente décroissance de la loi
de Cauchy, de mieux rendre compte des apparitions de données abérentes.
ρ(x) = ln(1 + 12 x2 ) et ψ(x) = x
1+ 21 x2
. La système à résoudre est alors non linéaire et il faut avoir
recours à des résolutions itératives.
• Modèle de Huber:
(
0.5x2 si |x| ≤ w
ρ(x) =
w|x| − 0.5w2 sinon

 −w
 si x < −w
ψ(x) = x si |x| ≤ w

 w si x > w
Dans ce modèle, on utilise un seuil w qui permet d’avoir à la fois une décroissance rapide (i.e.
quadratique) si l’écart x est faible et de réduire la décroissance (donc augmenter l’importance) des écarts
forts (au delà du seuil). Il réalise un bon compromis entre le modèle de Legendre et celui du L-estimateur.
• Modèle de Tuckey:
Le modèle de Tuckey est du même type que celui de Hubert mais un peu plus complexe car il permet
de s’affranchir de la sensibilité au choix du seuil w.

 1 1 − 1 − x 2 3

6 cS si |x| ≤ cS
ρ(x) =
 1
6 sinon
 2
x 2
x 1− si |x| < cS

ψ(x) = cS
 0 sinon
La valeur cS est appelée point de rejet (rejection point) et joue le rôle du seuil de Hubert. La
valeur c est la constante de confiance est vaut 2.795 (cette valeur a été déterminée pour obtenir une
bonne adéquation à des écarts distribués normalement). La valeur S est un facteur de dimension qui
permet d’adapter le seuil à l’étalement de la distribution des écarts. On peut assimiler S à un écart-type
et utiliser l’estimateur correspondant mais Tuckey propose un estimateur plus robuste, la médiane des
écarts absolus (Median of Absolute Deviation) qui vaut
S = 1.4826 med (|ej − med(ej )|)
On peut aussi déterminer le point de rejet en pourcentage du volume de données. Par exemple, on
ellimine les α % plus grandes et plus petites valeurs des écarts. Une valeur généralement recommandée
est α = 15%. La médiane est le cas extrème de cet estimateur tronqué avec α = 50%.
• R-estimateur (Jaeckel, 1972):
Le R-estimateur est un cas particulier car il ne s’appuie plus sur des relations linéaires mais tient
III-13
compte essentiellement du classement des écarts. La fonction de cout C est la suivante:
X
C(a) = a(Rj )ej
j
où Rj est le rang de l’écart ej dans la liste triée des écarts. La fonction a(Rj ) est normalisée telle que
a(Rj ) = 0. Par exemple, Wilcoxon a proposé la fonction suivante a(Rj ) = Rj − n+1
P
2 .
Les tests de Kolmogorov-Smirnov et de Spearman sont d’autres exemples de R-estimateurs.

• Le modèle L.M.S. (Least Median of Squares, Rousseeuw, 1984):
Le vecteur de paramètres a est la solution de M ina med{e2j }. Si la robustesse de cet estimateur,
n−p+2 1 p+1 log n).
2n+1 , est asymptotiquement égale à 2 , sa complexité est relativement élevée O(n
3.4.6 Estimation itérative
Tous les estimateurs que nous avons abordés sont des méthodes directes, et, le plus souvent, il faut faire
un compromis entre efficacité et faible complexité d’une part, et robustesse d’autre part.
Pour cela on peut procéder en plusieurs étapes pour essayer de combiner tous les avantages. Dans un
premier temps, un estimateur classique non robuste permet de quantifier l’adéquation de chaque donnée
au modèle, i.e. par l’écart. Chaque donnée est alors affectée d’un poids, le plus souvent inversement
proportionnel à l’écart. On peut alors itérer le processus d’estimation. L’hypothèse sousjacente est qu’une
donnée abérente aura un écart initial fort et donc une adéquation et un poids faibles. Il n’interviendra
donc que très peu dans la deuxième phase d’estimation. Le processus peut être itéré jusqu’à convergence
de l’estimation.
Prenons pour exemple l’estimation de l’espérance mathématique par la moyenne arithmétique à partir
d’un échantillon {xi , i = 1 . . . n}. On peut résumer le processus par l’algorithme suivant:
1 Pi=n
1. Première estimation (k = 1): mk = n i=1 xi
2. Calcul des écarts: ei = xi − mk
ψ(ei )
3. Calcul des poids: wi = ei (cf le chapitre précédent pour diverses possibilités pour ψ).
Pi=n
w i xi
4. Nouvelle estimation (itération k + 1): mk = Pi=1
i=n
i=1
wi
|mk −mk+1 |
5. test de convergence: Si non convergence (par exemple mk > et k < kmax ) alors retour au pas
2.
Dans cet exemple, on augmente la robustesse au bruit avec comme coût une complexité un peu plus
forte (O(kn) au lieu de O(n)). En pratique, on utilise peu d’itérations car le processus a tendance à
rejeter de nouveaux points (i.e. wi ≈ 0) à chaque itération. Le risque est donc non négligeable de voi
le processus converger vers une estimation reposant sur très peu de données (une seule réalisation à la
limite). On peut, pour éviter cet écueil, arréter le processus lorsque α% de la population initiale a un
poids nul ou quasi-nul. Puisque l’objectif de l’itération est de recherche la robustesse, on fixe le plus
souvent αmax = 50%.
3.5 Régression linéaire
La régression linéaire est un cas particulier d’estimation très usité car très bien formalisé et correspondant
à des modèles simples (car linéaires). C’est l’outil de base de la modélisation de données. Une approche
III-14
très générale de ce problème est fournit dans le cours d’approche conceptuelle des systèmes. Nous ne
traiterons ici que de la facette statistique de ce problème mathématique.
3.5.1 Formalisation
Soit une fonction f de <p → < telle que f (~x) = f (x1 , . . . , xp ) = y.
On souhaite modéliser f par une approximation linéaire fˆ caractérisée par un vecteur de paramètres
a (a ∈ <p ) telle que fˆ(~x, a) = pi=1 ai xi .
P
L’objectif sera d’estimer le vecteur a à partir d’un jeu de données {(~xj , yj ), j = 1 . . . n}. Pour cela,
on peut donc reprendre la formalisation du chapitre précédent. a sera obtenu par minimisation de la
fonction de coût C(a):
n n
ρ fˆ(~xj , a) − yj =
X X
C(a) = ρ(ej )
j=1 j=1
(On supposera par simplicité que toutes les données ont la même incertitude, ce qui permet de ne pas
faire intervenir les termes σj .)
3.5.2 Résolution dans le cas d’une distribution normale des écarts
Nous avons vu qu’il est nécessaire dans ce type de problème de faire un choix sur la nature de la
distribution des écarts. Nous adopterons le choix classique de la distribution normale. Dans ce cas, nous
avons vu que cela revient à utiliser ρ(x) = x2 . On obtient alors le système d’équations linéaires suivant:
n
X ∂ fˆ(~xj , a)
2 ej = 0 k = 1, . . . , p
j=1
∂ak
Soit n
fˆ(~xj , a) − yj xjk = 0 k = 1, . . . , p
X
j=1
n
X n
X
(xj1 xjk a1 + xj2 xjk a2 + . . . + xjp xjk ap ) = yj xjk
j=1 j=1
Ce système étant linéaire, il a une solution unique â sauf si le déterminant du système est nul. On
peut montrer que ce cas intervient si il existe une relation linéaire d’ordre m < p entre les vecteurs ~xj . On
dit alors que le système est surdimensionné et un traitement des données est nécessaire afin d’elliminer
préalablement cette dépendance. La dimension du nouveau vecteur de paramètres recherché est alors de
p − m.
Le système à résoudre est de plus symétrique. On peut donc faire appel à des techniques spécifiques
telles que la décomposition LU (méthode directe de complexité O(p3 )) ou les algorithmes Gauss-Seidel
ou Jacobi (méthodes itératives de complexité O(bp2 ) où b est le nombre d’itérations nécessaires à la
convergence). Pour plus de détails sur ces techniques, référez vous au cours d’analyse numérique ou à
tout bon livre sur la résolution de systèmes linéaires.
III-15
3.5.3 Le cas de la droite
Nous abordons ici le cas limité où le modèle est une droite. On parle aussi de regression linéaire simple.
On a alors f (x) = y et fˆ(x, a) = αx + β. Le système linéaire à résoudre s’écrit:
 P P
n n
x2j α + xj β = nj=1 xj yj
P

Pj=1 j=1
n
xj α + nβ = n yj
P

j=1 j=1
xj − ( xj )2 6= 0.
P 2 P
Ce système a une solution unique si et seulement si n
 P P P
n xi yi −( xi )( yi )
 â =
 P 2 P 2
P n2 P xi −(P xi ) P
 b̂ = xi
Pyi −( Pxi )( xi yi )
x2i −(

n xi ) 2
On peut considérer que les données {xj } constituent un échantillon d’une v.a. X que l’on peut
caractériser par sa moyenne Ê[X] et sa variance V̂ [X] estimées. La condition d’existence d’une solution
est donc Ê[X 2 ] − Ê[X]2 = V̂ [X] 6= 0 ce qui équivaut à dire qu’il faut simplement que les données de
l’échantillon ne soient pas toutes identiques. Le système peut alors se réécrire sous la forme:
(
Ê[X 2 ] α + Ê[X] β = Ê[XY ]
Ê[X] α + β = Ê[Y ]
dont la solution analytique est:


 â = Ê[XY ]−

2
Ê[X]Ê[Y ]
2
= Cov(X,Y )
Ê[X ]−Ê[X] V̂ [X]
2
 b̂ = Ê[Y ]Ê[X 2]−Ê[X]Ê[XY

2
]
= Ê[Y ] − âÊ[X]
Ê[X ]−Ê[X]
Les v.a. X et Y sont reliées par

p la relation Y = ā X + b̄ où ā et b̄ sont les valeurs vraies. On a vu dans
ce cas que Cov(X, Y ) = ρ(X, Y ) V [X] V [Y ] et V [Y ] = ā2 V [X]. On peut donc relier la valeur estimée
â à la valeur vraie ā par: s
V [Y ]
â = ρ(X, Y ) = ρ(X, Y ) |ā|
V [X]
L’estimation sera donc parfaite si les v.a. X et Y sont parfaitement corrélées (i.e. ρ(X, Y ) = ±1).
Plus cette corrélation sera faible, moins bonne sera l’estimation. Le coefficient de corrélation est donc un
bon indicateur de la qualité de la régression linéaire simple. De même, pour le paramètre b, on sait que
E[Y ] = ā E[X] + b̄. Donc,
b̂ = ā Ê[X] + b̄ − â Ê[X] = (1 − ρ(X, Y ))Ê[X]ā + b̄
Là encore, l’estimation sera d’autant meilleure que la corrélation sera proche de 1. Cependant, on
constate que Ê[X] et ā interviennent comme un gain sur l’erreur due à la corrélation non parfaite.
L’estimation de b̄ sera donc plus vite dégradée que celle de ā.
III-16
3.5.4 Intervalle de confiance sur le coefficient de corrélation
On peut déterminer un intervalle de confiance sur le coefficient de corrélation r (afin de quantifier la

qualité de la régression) grâce à l’introduction de la transformation zr donnée par :
1 1+r

zr = log
2 1−r
et
e2zr − 1
r=
e2zr + 1
L’intervalle de confiance est défini par

 s s 
1 1 
1 − α = confiance = P zr − zα/2 < ξ < zr + zα/2 = P (zinf < ξ < zsup )
n−3 n−3
avec P (Y < zα/2 ) = 1 − α/2 où Y est une loi normale centrée réduite.
Grâce à la relation liant les variables z et r, on peut obtenir l’intervalle de confiance sur r.
Exemple : Soit r = 0.54 obtenu sur un échantillon de taille n = 69. On souhaite construire l’intervalle
de confiance à 99% autour de cette valeur.
On obtient successivement zr = 0.604. Dans la table de la loi normale, on lit z0.995 = 2.575 et donc
P (0.293 < ξ < 0.927) = 0.99. Par inversion, on obtient l’intervalle de confiance sur l’estimation du
coefficient de corrélation : P (0.285 < ρ < 0.729) = 0.99.
3.6 Filtre de Kalman
Dans tous les problèmes d’estimation que nous venons d’aborder, on suppose toujours connu et fixe un
échantillon de données. L’estimation est un travail a posteriori à partir de cet échantillon. Dans certains
contextes (lorsque l’échantillon est très grand, ou qu’il correspond à un échantillonnage continu donc sans
fin réel) on peut être amené à estimer les paramètres sans attendre d’avoir la totalité de l’échantillon. A
chaque nouvelle donnée disponible, on cherchera donc à mettre à jour la valeur de l’estimation (il n’est
bien sûr pas question de recommencer l’estimation à chaque fois, ce qui serait trop couteux). On parle
alors d’estimation incrémentale.
Nous aborderons dans ce chapitre la technique la plus classique qui réalise une régression linéaire
incrémentale, le filtre de Kalman.
Soit (θ1 , S1 ) l’estimation initiale et son incertitude (θ ∈ <p , et S est une matrice p × p). De même,
soit (θi , Si ) l’estimation courante (calculée grâce aux i premières données) et son incertitude. On suppose
l’arrivée d’une nouvelle donnée yi+1 (yi+1 ∈ <n ) pour laquelle on connait aussi son incertitude notée Wi+1
(Wi+1 est une matrice n × n). Le problème est donc le maintenant de trouver la nouvelle estimation θi+1
et son incertitude, Si+1 .
Le principe de cette mise à jour est traduit par la relation:
θi+1 = θi + K(yi+1 − Mi+1 θi )
Comment cela s’interprète-t-il? La matrice Mi+1 est une matrice n × p qui permet de passer de
l’estimation θi au domaine des données. Le terme Mi+1 θi est la prédiction de la (i + 1)ème donnée à
III-17
partir de l’estimation calculée sur les i premières. Le terme yi+1 − Mi+1 θi traduit donc l’écart entre la
prédiction et la donnée réelle. On peut aussi dire que cet écart est l’innovation apportée par la nouvelle
donnée. Cette innovation va servir à mettre à jour l’estimation. Cette mise à jour est une simple addition
où l’on fait cependant intervenir un gain sur la partie innovation, la matrice K appelée gain de Kalman.
Le gain de Kalman doit tenir compte des incertitudes relatives de l’estimation courante et de la
donnée. Si l’incertitude de la donnée Wi est négligeable devant celle du modèle Si , on devra avoir un gain
fort, i.e. la donnée est fiable. A l’inverse, si l’incertitude de la donnée est grande par rapport à celle de
l’estimation, le gain doit être très faible, i.e. la donnée étant peu fiable, il est normal qu’elle ne modifie
pas ou peu l’estimation courante. Ces remarques se traduisent par la relation suivante:
t
K = Si Mi+1 t
(Wi+1 + Mi+1 Si Mi+1 )−1
L’emploi de la matrice M est rendu nécessaire par le fait que les matrices d’incertitudes ne sont pas
de même rang.
Il ne reste plus qu’à mettre à jour l’incertitude de l’estimation qui tient compte de l’incertitude
courante et du gain de Kalman par la relation:
Si+1 = (I − KMi+1 )Si
Prenons un exemple simple, p = n = 1 et Mi = 1 ∀i. On obtient les formules suivantes:
θi+1 = θi + K(yi+1 − θi ) = (1 − K)θi + Kyi+1

Wi+12 S
i
Si+1 = 2 +S 2
Wi+1 i
Si2
K= 2 +S 2
Wi+1 i
On peut montrer que l’estimation obtenue par ce processus après m données est égale à celle que l’on
obtiendrait si l’on estimait directement le vecteur θ sur l’échantillon de m données.
3.7 Estimation d’un mode
Nous avons vu dans un des chapitres introductifs que la notion de mode n’était définie que pour les
variables aléatoires discrètes. Il existe cependant une généralisation au v.a. continue.
Rappel: xmode est le mode de la v.a. discrète X ssi P (X = xmode ) = M axx P (X = x).
Définition: Soit X une v.a. continue. On appele mode de X la valeur xmode qui satisfait à
xsup − xinf
xmode =
2
avec Z xsup Z xi+T
f (x)dx = M axi f (x)dx
xinf xi
et T = sup − inf .
Ce qui veut dire que xmode est le milieu de l’intervalle [xinf , xsup ] le plus dense dans la distribution
des valeurs de X.
III-18
Comment peut-on estimer cette valeur à partir d’un échantillon? On choisit dans un premier temps
la valeur de T (le plus souvent, on fixe T = n2 ). On recherche ensuite l’intervalle le plus dense, i.e.
M ini (xi+T −xi ), la liste des réalisations xi étant préalablement triée par valeurs croissantes. L’estimation
finale du mode est obtenue conformément à la définition, par le mileu de l’intervalle retenu.
Les principaux inconvénients de cette estimation sont la compléxité O(nlogn) et surtout la très forte
dépendance entre l’estimation et la valeur choisie a priori pour T . Afin de tester cette sensibilité, on peut
bien sûr faire varier légèrement T (au prix d’une complexité accrue) et tester la variance de l’estimateur.
3.8 Estimation d’une densité
Nous avons vu précédemment que les tests d’adéquation ne permettait que de valider ou non une hy-
pothèse sur la nature d’une loi de probabilité en s’appuyant essentiellement sur une distribution em-
pirique, c’est à dire le plus souvent sur l’histogramme. Si il existe des règles simples sur la détermination
du nombre de classes, il peut arriver que la nature de la loi soit difficile à déduire a priori de la forme de
l’histogramme.
La théorie de l’estimation permet de proposer des solutions visant à obtenir une bien meilleure ap-
proximation de la densité réelle à partir d’un histogramme.
La première approche consiste à estimer la densité de la v.a. X en x par ni , le nombre d’occurences
de réalisations xi appartenant à la ième classe associée à la valeur x. La densité est donc la même quelque
soit la position de x entre les extrémités de cette classe.
Une première amélioration consiste à utiliser une fenêtre mobile. On construit autour de x une classe
de longueur h: Ix = [x − h2 , x + h2 [, et on compte de nouveau le nombre d’occurences appartenant à cette
fenêtre: fˆ(x) = Card{xi : x − h2 ≤ xi < x + h2 }. On peut également écrire
n
1X x − xi
fˆ(x) = K( )
n i=1 h
1
où K est la fonction indicatrice de l’intervalle [−1/2, 1/2[: K(u) = 0 si u ≥ 2 ou u < − 21 , et K(u) = 1 si
− 21 ≤ u < 21 . K( x−x
h ) vaut donc 1 si xi ∈ Ix .
i
Cette méthode donne une estimation peu régulière. Si l’on veut une fonction lisse, il est alors possible
de généraliser la formule précédente en utilisant des noyaux, i.e. fonctions K, plus continus. En pratique,
u 2
on utilise souvent des noyaux symétriques et très fréquemment un noyau gaussien K(u) = √1 e− 2 ou
2π
3

u2
√
parabolique K(u) = 4√ 5
1 − 5 pour |u| < 5.
Ce dernier noyau est appelé noyau d’Epanechnikov. Il a des propriétés mathématique intéressantes.
La constante h est appelée constante de lissage. Son rôle est déterminant, à l’image de la largeur des
classes de l’histogramme: si h est faible, fˆ sera très peu régulière, si h est grand, fˆ sera très (trop) lisse.
Bien que l’on sache que h doit être proportionnel à n−1/5 , sa valeur optimale se détermine souvent
empiriquement.
Il n’est pas nécessaire que K soit une densité positive en tout point. On peut tout à fait envisager
d’utiliser des noyaux prenant des valeurs négatives, par exemple le noyau proposé par M.Lejeune: K(u) =
105 2 2 1 − 3u2 pour |u| ≤ 1.

64 1 − u
III-19
4 Tests d’hypothèse
4.1 Introduction
4.1.1 Hypothèses et erreurs
Une utilisation courante des statistiques est la notion de test. Un test est un mécanisme qui permet de
trancher entre deux hypothèses au vu des résultats d’un échantillon. Dans les cas qui nous intéressent,
ces hypothèses porteront sur des estimations (valeur d’un moment, égalité de variances, nature d’une loi
de probabilité . . . ). Soient H0 et H1 ces deux hypothèses, dont une et une seule est vraie. La décision
aboutira à choisir H0 ou H1 . Il y a donc 4 cas possibles dont les probabilités sont résumées dans le
tableau suivant:
H0 vraie H1 vraie
H0 décidée 1−α β
H1 décidée α 1−β
α et β sont les erreurs de première et deuxième espèce:

• α est la probabilité de décider H1 alors que H0 est vraie.
• β est la probabilité de décider H0 alors que H1 est vraie.
Ces deux erreurs sont antogonistes, plus α sera grand (resp. petit), plus β sera petit (resp. grand).
Le fait d’imposer un α faible conduit à une règle de décision plus stricte qui aboutit le plus souvent à
n’abandonner l’hypothèse H0 que dans des cas rarissimes et donc à conserver cette hypothèse quelque
fois à tort. Le compromis entre les valeurs de α et β est donc souhaitable bien que difficile à réaliser.
On appelle puissance d’un test la quantité 1 − β.
Dans la pratique des tests statistiques, il est de règle de se fixer α comme donné (les valeurs les plus
courantes sont 0.05, 0.01 ou 0.1) de préférence en fonction du risque de première espèce. En effet, H0
joue le plus souvent un rôle prédominant par rapport à l’hypothèse H1 . Cela est la conséquence du fait
que H0 joue le rôle d’hypothèse de référence alors que H1 est souvent limitée à l’hypothèse contraire. Par
exemple, on peut avoir H0 : m = m0 ce qui est relativement facile à tester et dans ce cas, H1 est tout
simplement m 6= m0 .
Cette pratique est liée au fait que l’évaluation d’un test passe par l’évaluation de fonctions complexes
qui ont été tabulées pour de nombreuses valeurs de α mais ne sont pas connues ∀ α. On est donc
amené à choisir a priori α. Cependant, l’apparition de plus en plus fréquente de processus numériques
d’approximation rapides et précis permet une autre approche consistant à rechercher la plus petite valeur
de α pour laquelle l’hypothèse H0 reste vraie.
4.1.2 Tests bilatéral et unilatéral
Avant d’appliquer tout test statistique, il s’agit de bien définir le problème posé. En effet, selon les
hypothèse formulées, on applique soit un test bilatéral, soit un test unilatéral.
Un test bilatéral s’applique quand on cherche une différence entre deux estimations, ou entre une
estimation et une valeur donnée sans se préoccuper du signe ou du sens de la différence. Dans ce cas, la
zone de rejet (cf section suivante) de l’hypothèse principale se fait de part et d’autre de la distribution
de référence.
IV-1
Un test unilatéral s’applique quand on cherche à savoir si une estimation est supérieure (ou inférieure)
à une autre ou à une valeur donnée. La zone de rejet de l’hypothèse principale est située d’un seul côté
de la distribution de probabilité de référence.
Certains test comme l’analyse de la variance ou le test du χ2 sont pratiquement toujours unilatéraux.
4.1.3 Région d’acceptation et région critique
Quelle est la démarche générale? α étant fixé, il faut choisir une variable de décision, variable qui
doit apporter de l’information sur le problème posé, à savoir le choix entre les deux hypothèses. La loi
de cette variable doit être parfaitement connue dans au moins une hypothèse (le plus souvent H0 ) afin
de ne pas introduire de nouvelles inconnues dans le problème. On appelle alors région critique, et l’on
note W , l’ensemble des valeurs de la variable de décision qui conduisent à écarter H0 au profit de H1 .
On peut relier W à α par P (W |H0 ) = α.
On appelle région d’acceptation, et l’on note W la région complémentaire de la région critique.
On a également des relations avec les erreurs de première et deuxième espèce: P (W |H0 ) = 1 − α et
P (W |H1 ) = 1 − β. La zone ou région d’acceptation correspond à l’intervalle dans lequel les différences
observées entre les réalisations et la théorie sont attribuables aux fluctuations d’échantillonnage. La
région critique ou zone de rejet correspond donc aux intervalles dans lesquels les différences sont trop
grandes pour être le fruit du hasard d’échantillonnage.
La construction d’un test est la détermination a priori de la région critique sans connaitre le résultat
de l’expérience. On peut donc résumer cette démarche de la manière suivante:
• Choix de H0 et H1
• Détermination de la variable de décision
• Allure de la région critique en fonction de H1
• Calcul de la région critique en fonction de α
• Calcul éventuel de la puissance du test 1 − β
• Calcul expérimental de la variable de décision
• Conclusion du test: rejet ou acceptation de H0
4.1.4 Choix d’un test
Plusieurs tests de conception très différente sont souvent disponibles pour soumettre à une épreuve de
vérité une hypothèse principale. Dans un tel cas, le test qui fournit l’erreur β la plus petite, pour une
même valeur de α, est par définition le plus puissant (celui ayant la plus grande valeur de la puissance de
test 1 − β). En effet, il peut détecter les plus petites différences entre les populations sans pour autant
augmenter l’erreur de première espèce.
La majorité des tests statistiques repose sur le respect d’un certain nombre de conditions. Selon le
degré de respect de ces conditions d’application, la validité des résultats se trouve plus ou moins affectée
et elle l’est d’autant plus que le test est moins robuste. Ainsi, la robustesse d’un test équivaut à sa
tolérance vis-à-vis du respect des conditions.
Si le statisticien dispose de plusieurs tests pour vérifier une hypothèse, il choisira bien sûr le plus
puissant et le plus robuste.
IV-2
Les tests peu puissants augmentent la probabilité de commettre une erreur de deuxième espèce.
Or, cette erreur peut s’avérer particulièrement grave. En effet, en médecine par exemple, une analyse
qui classerait comme malade un individu bien portant peut avoir des conséquences aussi graves qu’une
analyse qui classerait comme bien portants des individus malades (erreur de première espèce). Dans de
tels cas, il y a intérêt à tracer la courbe de puissance du test, aussi appelée courbe caractéristique
d’efficacité qui indique la probabilité de prendre une bonne décision si H1 est vraie. La puissance est
mesurée par la valeur de 1 − β pour un α donné.
4.1.5 Influence de l’échantillonnage
Pour comparer les moyennes, les variances ou les autres paramètres estimés de deux échantillons, il faut
prendre en considération la technique conduisant à la constitution des deux échantillons. Si la sélection
des éléments est aléatoire, et si le choix des éléments du premier échantillon n’a aucune influence sur le
choix des éléments du second, les deux échantillons sont alors appelés indépendants.
Si l’on prélève aléatoirement des paires d’éléments, et non les éléments eux-mêmes, on constitue deux
échantillons appariés. Dans ce cas, le premier élément de chaque paire appartient au premier échantillon
et le deuxième est affecté au second. Parfois, la paire déléments peut se rapporter au même individu sur
lequel on mesure la même variable à deux occasions différentes, par deux moyens différents par exemple.
La technique de l’échantillonnage apparié présente l’avantage d’éliminer un maximum de sources de
variations non reliées au facteur que l’on étudie. En règele générale, plus les critères d’appariement des
données sont nombreux, plus grand sera cet avantage.
Dans ce qui suit, nous allons aborder quelques tests classiques. Cette liste ne se veut pas exhaustive.
Reportez-vous à des ouvrages plus spécialisés pour une approche plus systématique des tests statistiques.
4.2 Test entre deux hypothèses simples
4.2.1 La méthode de Neyman et Pearson
Soit X une v.a. de densité f (x, θ) où θ est un paramètre réel inconnu. L(x, θ) désignera la densité de
l’échantillon x.
Un test entre deux hypothèses simples se traduit par:
(
H0 : θ = θ 0
H1 : θ = θ 1
Supposons l’erreur de première espèce α connu. On a vu que l’on peut relier α à une région de l’espace
<n par: Z
P (W |H0 ) = α = L(x, θ0 )dx
W
On cherche par ailleurs le test le plus puissant, donc celui qui maximise:
Z
P (W |H1 ) = 1 − β = L(x, θ1 )dx
W
La solution est donnée par le théorème de Neyman et Pearson.
IV-3
Théorème: La région critique optimale est définie par l’ensemble des points x de <n tels que:
L(x, θ1 )
> kα
L(x, θ0 )
En conséquence de ce théorème, on peut montrer:

• 1 − β > α (le test est alors dit sans biais).
• si n → ∞ alors 1 − β → 1 (le test est convergent).
4.2.2 Test de la moyenne d’une loi normale d’écart-type connu
Soit X une v.a. normale de moyenne m et d’écart-type σ connu. Au vu d’un échantillon de n réalisations
indépendantes xi , on désire savoir si la moyenne m est égale à m0 ou à m1 , ce qui se résume par:
(
H 0 : m = m0
H 1 : m = m1
Les fonctions de vraisemblance, ou densité, de l’échantillon sont:
n
1

1
P
− (xi −m0 )2
L(x, m0 ) = √ e 2σ 2 i
2πσ
n
1

1
P
− (xi −m1 )2
L(x, m1 ) = √ e 2σ 2 i
2πσ
La région critique est définie par le ratio de ces deux fonctions. En passant par un opérateur loga-
rithme, on obtient facilement:
X X
(xi − m1 )2 − (xi − m0 )2 ≤ 2σ 2 Ln(k)
i i
1 P
En posant: x̄ = n i xi , on obtient:
m0 + m1 σ 2 Ln(k)

x̄ − (m0 − m1 ) ≤
2 n
Si m0 < m1 , on aboutit à:
m0 + m1 σ2
x̄ ≥ − Ln(k) =λ
2 n(m1 − m0 )
La région critique est donc définie par l’inégalité x̄ ≥ λ qu’il faut maintenant déterminer. Pour cela,
nous introduisons l’erreur α. Cette erreur est définie par: α = P (H1 |H0 ). Nous décidons H1 si x̄ ≥ λ,
donc α = P (X ≥ λ|H0 ) où X est la v.a. dont x̄ est une réalisation. X étant une v.a. normale, la
distribution de X est également normale de moyenne m et d’écart-type √σn .
On a alors (la condition H0 étant vraie)

α = P (X ≥ λ) avec X : ℵ[m, √σn ].
IV-4
√
X−m (λ−m0 ) n
α=P √0
σ/ n
≥ σ
X−m
La quantité Y = √0
σ/ n
suit une loi normale centrée réduite donc:
√
(λ−m0 ) n
α=P Y ≥ σ avec Y : ℵ[0, 1].
Si la
√ valeur de α est fixée, on peut par lecture dans une table de la loi normale, trouver la valeur de
(λ−m0 ) n
σ et donc celle de λ.
La règle de décision du test est donc:
Si x̄ > λ Alors décider H1 Sinon accepter H0
Par un raisonnement équivalent, on peut évaluer l’erreur de deuxième espèce et donc la puissance du
test. √ !
(λ − m1 ) n
β = P (X < λ|H1 ) = P Y <
σ
X−m
avec Y = √1
σ/ n
v.a. normale centrée réduite.
4.2.3 Test de la moyenne d’une loi normale d’écart-type inconnu
Le raisonnement précédent s’applique jusqu’à la détermination de λ.
√ !
X − m0 (λ − m0 ) n
α=P √ ≥
s/ n s
où s désigne l’estimation de l’écart-type inconnu σ.
La quantité Y = X−m√ 0 ne suit plus une loi normale centrée réduite car le dénominateur n’est plus
s/ n
une constante mais une réalisation de l’estimateur de la variance de la variable X. s est obtenue par
1 X
s2 = (xi − x̄)2
n−1 i
Par construction, S 2 suit une loi du χ2 . Y est donc une v.a. suivant une loi de Student à n − 1 degrés
de liberté. Ce qui nous donne:
√
(λ−m0 ) n
α=P Y ≥ σ avec Y : Student(n-1).
Là encore, il est possible grâce à une table de la loi de Student de trouver la valeur du seuil et donc
celle de λ. La règle de décision est toujours la même.
De même, par un raisonnement analogue, on accède à l’erreur de deuxième espèce et à la puissance
du test.
√ !
(λ − m1 ) n
β = P (X > λ|H1 ) = P Y <
s
X−m
avec Y = √ 1
s/ n
v.a. de Student à n − 1 degrés de liberté.
IV-5
4.2.4 Test d’une variance de loi normale, la moyenne étant connue
Soit X une v.a. normale de moyenne m connue. On suppose que l’écart-type inconnu ne peut prendre
que deux valeurs σ0 et σ1 . Au vu d’un échantillon de n réalisations indépendantes xi , on désire savoir si
la variance σ 2 est égale à σ02 ou à σ12 , ce qui se résume par:
(
H0 : σ = σ 0
H1 : σ = σ 1
L’estimateur de la variance sera

1X
s2 = (xi − m)2
n i
(On utilise 1/n et non pas 1/(n − 1) car la moyenne est connue.)
Les fonctions de vraisemblance, ou densité, de l’échantillon sont:
h i
n 1
P
1 − (x −m)2

2σ 2 i i
L(x, σ0 ) = √ e 0
2πσ0
h i
n 1
P
1 − (xi −m)2

2σ 2 i
L(x, σ1 ) = √ e 1
2πσ1
La région critique est définie par le ratio de ces deux fonctions. En passant par un opérateur loga-
rithme, on obtient facilement:
σ1 1X 1 1

nLn + (xi − m)2 2 − 2 ≤ Ln(kα )
σ0 2 i σ1 σ0
Dans le cas σ1 > σ0 , on obtient
ns2 2σ12 σ1

2 ≥ 2 2 Ln(kα ) − nLn( )
σ0 σ0 − σ1 σ0
nS 2
La valeur de kα est déterminée à partir de l’erreur de première espèce. La quantité σ02
suit une loi
du χ2 à n degrés de liberté. La valeur seuil sera donc lue dans une table du χ2n .
4.2.5 Test d’une variance de loi normale, la moyenne étant inconnue
Ce cas est plus fréquent que le précédent. Toujours grâce au raisonnement induit par le théorème de
Neyman et Pearson, on aboutit aux résultats suivants:
1 nS 2
La variable de décision est S 2 = n−1 2 2
i (Xi − X) qui est telle que σ 2 suit une loi du χ à n − 1
P
2
degrés de liberté. La région critique est définie par S > k et k est déterminé par
nk
P (S 2 > k) = P (χ2n−1 > )=α
σ02
La règle de décision du test est donc:
Si S 2 > k Alors décider H1 Sinon accepter H0
IV-6
4.2.6 Test d’une proportion
Soit une population très grande où la proportion d’individus possédant le caractère A est égale à p. On
pense que cette proportion ne peut avoir que deux valeurs p0 ou p1 . Au vu d’un échantillon de taille n,
on désire prendre une décision quant à la valeur de cette proportion, avec une signification α.
x
A partir de l’échantillon, l’estimateur de la proportion théorique sera la fréquence empirique fn = n
où x est le nombre d’individus possédant le caractère A dans l’échantillon.
Les hypothèses sont donc
(
H 0 : p = p0
H 1 : p = p1
La règle de décision est donnée par

(
si fn ≥ π alors H1
si fn < π alors H0
où π désigne la région critique.

fn est une réalisation d’une v.a. Fn dont la loi de probabilité peut être déterminée grâce au théorème
central limite. Si la taille de l’échantillon est suffisamment grande (en
q pratique, n > 30), on admet que
p(1−p)
la loi de Fn tend vers une loi normale de moyenne p et d’écart-type n . Ce qui nous conduit à
α = P (Fn ≥ π|H0 vraie)

q
p(1−p)
avec Fn : ℵ[p, n ].
Sous l’hypothèse H0 , on obtient

" √ √ # " √ #
(Fn − p0 ) n (π − p0 ) n (π − p0 ) n
α=P p ≥p =P Y ≥ p
p0 (1 − p0 ) p0 (1 − p0 ) p0 (1 − p0 )
√
√n −p0 )
où Y = (F n
est une v.a. normale centrée réduite.
p0 (1−p0 )
La valeur du seuil critique est lue dans une table de la loi normale.
L’erreur de seconde espèce et la puissance du test sont données par:
" √ #
(π − p1 ) n
β=P Y ≤ p
p1 (1 − p1 )
√
√n −p1 )
où Y = (F n
est une v.a. normale centrée réduite.
p1 (1−p1 )
4.3 Test entre hypothèses composées
4.3.1 Tests UMP
Dans un premier temps, considérons que la formulation générale reste la même pour l’hypothèse princi-
pale:
H0 : θ = θ 0
IV-7
Par contre, l’hypothèse H1 est formée d’un ensemble d’hypothèse simples.
H1 : θ ∈ Ξ avec θ0 6∈ Ξ
Les exemples les plus courants sont:

)
H1a : θ > θ0
tests unilatéraux.
H1b : θ < θ0
H1c : θ 6= θ0 test bilatéral.

L’erreur de première espèce étant fixée, on pourra déterminer une région critique W0,i associée à
chaque valeur θi de Ξ, et une valeur βi de l’erreur de seconde espèce. La courbe βi = g(θi ) pour toutes
les valeurs θi de Ξ est appelée courbe d’efficacité.
Le test est dit uniformément le plus puissant (Uniformely Most Powerful) ou UMP si les régions
critiques W0,i ne dépendent pas des valeurs θi de Ξ.
Théorème: S’il existe un test UMP, la puissance de ce test est supérieure à la puissance associée à tout
autre test.
Plus généralement, H0 peut elle-même être composée. α dépend alors de θ selon les valeurs de θ ∈ Ξ0 .
On devra donc exiger α(θ) ≤ α donné.
Le théorème de Lehmann assure l’existence de tests UMP dans les cas suivants:
( (
H0 : θ < θ0 H0 : θ ≤ θ1 ou θ ≥ θ2
et
H1 : θ ≥ θ 0 H1 : θ 1 < θ ≤ θ 2
Par contre, il n’existe pas de tests UMP pour les cas : H0 : θ1 ≤ θ ≤ θ2 contre H1 : θ > θ2 ou θ < θ1 ,
et a fortiori, H0 : θ = θ0 contre H1 : θ 6= θ0 .
Nous allons maintenant introduire quelques exemples. Pour une liste plus exhaustive, reportez-vous
à la bibliographie.
Les règles de décision ne changent pas dans le principe. Il s’agit toujours de trouver une valeur seuil
et de décider H1 au delà du seuil et H0 en deça du seuil.
4.3.2 Test d’une moyenne de loi normale, l’écart-type étant connu
Test unilatéral
Soit X une v.a. normale de moyenne m et de variance σ 2 connue. Au vu d’un échantillon de n
réalisations indépendantes xi , on veut choisir entre les deux hypothèses:
H 0 : m = m0
H1 : m < m 0
Comme toujours, l’erreur de première espèce α est fixée. Par ailleurs, la moyenne m sera estimée par
la moyenne arithmétique x̄. La construction du test est similaire à ce que nous avons vu pour le cas du
test simple d’une moyenne. On aboutit à:
" √ √ #
(X − m0 ) n (λ − m0 ) n
α=P ≤
σ σ
IV-8
avec X : ℵ[m0 , √σn ].
On remarque que la valeur du seuil de décision λ est indépendante de la valeur de m sous l’hypothèse
H1 . Il s’ensuit que le test est uniformément le plus puissant.
La variable Y = X−m √ 0 suit une loi normale (en effet σ est connue et joue donc le rôle d’une constante)
σ/ n
centrée et réduite. La valeur du seuil sera donc déduite d’une table de la loi normale. Il en est de même
pour l’erreur de deuxième espèce et pour la puissance du test.
Test bilatéral
Soit X une v.a. normale de moyenne m et de variance σ 2 connue. Au vu d’un échantillon de n
réalisations indépendantes xi , on veut choisir entre les deux hypothèses:
H 0 : m = m0
H1 : m 6= m0
Comme toujours, l’erreur de première espèce α est fixée. Par ailleurs, la moyenne m sera estimée par
la moyenne arithmétique x̄. La construction du test est obtenue en remarquant que l’hypothèse H1 peut
se décomposer en deux hypothèses élémentaires:
H10 : m < m0
H100 : m > m0
A chacune de ces deux hypothèses sera associé un seuil de décision λ0 et λ00 . On peut conclure que le
test ne sera pas UMP puisque le seuil de décision λ dépend du sens de l’inégalité.
La détermination des seuils est simple puisque les deux hypothèses H10 et H100 sont disjointes. On a
α = P ((X ≥ λ00 ) ou (X ≤ λ0 )) = P (X ≥ λ00 ) + P (X ≤ λ0 ) = α00 + α0
Il en résulte une infinité de valeurs possibles pour λ0 et λ”. Cependant, la loi de X étant symétrique
(loi normale), on prend généralement α00 = α0 = α2 ce qui conduit naturellement à des valeurs de λ
symétriques par rapport à m0 . Chaque cas est en fait une application du test précédent mais pour une
valeur moindre de α.
" √ √ #
α (X − m0 ) n (λ − m0 ) n
=P Y = ≥
2 σ σ
avec X : ℵ[m0 , σ] Y ℵ[0, 1].

La valeur du seuil est donc déduite d’une table de la loi normale. Il en est de même pour l’erreur de
deuxième espèce et pour la puissance du test.
4.3.3 Test d’une moyenne de loi normale, l’écart-type étant inconnu
Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision
seront lues dans des tables de Student à n − 1 degrés de liberté.
4.3.4 Test d’une variance de loi normale, la moyenne étant connue
seront lues dans des tables du χ2 à n degrés de liberté.
IV-9
4.3.5 Test d’une variance de loi normale, la moyenne étant inconnue
seront lues dans des tables du χ2 à n − 1 degrés de liberté.
4.3.6 Test d’une proportion
seront lues dans des tables de loi normale.
Dans le cas du test bilatéral, on s’appuie sur le fait que la proportion empirique
q Fn suit approxi-
p(1−p)
mativement une loi normale de moyenne p, la proportion théorique, et d’écart-type n . La région
critique du test est alors:
s
p(1 − p)
|Fn − p| > uα/2
n
où uα/2 est lu dans une table de la loi normale N (0, 1).
Exemple: Sur un échantillon de 200 individus d’une commune, 30% sont favorables à l’implantation
d’un centre commercial. Ceci contredit-il l’hypothèse selon laquelle un habitant sur trois y est favorable
?
Cet ennoncé conduit à la construction d’un test bilatéral d’hypothèses de proportion:
H0 : p = 0.33
H1 : p 6= 0.33
q
0.33×0.67
avec α = 0.05, on lit u = 1.96 d’où la région d’acceptation: |Fn − 0.33| > 1.96 200 = 0.065 soit
W̄ = [0.265, 0.395].
Comme |fn − 0.33| = 0.03 < 0.065, on ne peut pas rejeter H0 au seuil α = 0.05.
4.4 Test de comparaison
Soient X1 et X2 deux variables aléatoires définies sur deux populations mères comparables (éventuellement
égales). La loi de X1 (resp. X2 ) dépend d’un paramètre inconnu θ1 (resp. θ2 ). On souhaite tester
l’hypothèse ”ces deux paramètres sont égaux” contre l’hypothèse complémentaire ”ces deux paramètres
son différents”, soit
H0 : θ1 = θ2 contre H1 : θ1 6= θ2
Pour effectuer ce test, on dispose d’un échantillon de taille n1 (resp. n2 ) de X1 (resp. X2 ) permettant
une estimation ponctuelle Tn1 (resp. Tn2 ) de θ1 (resp. θ2 ). On suppose de plus que les v.a. X1 et X2
sont normales ou approximativement normales.
En supposant H0 vraie, on détermine un risque de première espèce α, une zone de rejet associée à
deux valeurs critiques c1 et c2 telles que
IV-10
α
P (Z < c1 ) = P (Z > c2 ) =
2
où Z est une fonction de Tn1 et Tn2 .
Si Z appartient à la zone de rejet, on rejette H0 sinon, on accepte H0 au risque α.
4.4.1 Comparaison de deux moyennes
Soient X1 et X2 deux lois normales de moyennes µ1 et µ2 , et d’écart types σ1 et σ2 . On teste
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 au risque α
On utilise le test de Student (dans sa version la plus générale).

On dispose de deux échantillons de tailles n1 et n2 sur lesquels on peut faire des estimations de
moyennes m1 et m2 et de d’écart types s1 et s2 .
Si les écart types σ1 et σ2 sont connus, on calcule
m1 − m2
z=r
σ12 σ22
n1 + n2
On rejette H0 au risque α si z 6∈ [−t1− α2 , t1− α2 ] où la valeur t1− α2 est lue dans la table de la loi normale
centrée réduite.
Si les écart types σ1 et σ2 sont inconnus, il faut tenir compte de la taille des échantillons
a) Si n1 et n2 sont tous les deux supérieurs à 30, on calcule
m1 − m2
z=r
s21 s22
n1 −1 + n2 −1
b) Si n1 ou n2 est inférieur à 30 et σ1 = σ2 on calcule
m1 − m2
z= q
σ̂ n11 + n12
où s
n1 s21 + n2 s22
σ̂ =
n1 + n2 − 2
On rejette H0 au risque α si z 6∈ [−t1− α2 ;n1 +n2 −2 , t1− α2 ;n1 +n2 −2 ] où la valeur t1− α2 ;n1 +n2 −2 est lue dans
la table de Student à n1 + n2 − 2 degrés de liberté.
c) Si n1 ou n2 est inférieur à 30 et σ1 6= σ2 on calcule
m1 − m2
z=r
s21 s22
n1 −1 + n2 −1
IV-11
On rejette H0 au risque α si z 6∈ [−t1− α2 ;ν , t1− α2 ;ν ] où la valeur t1− α2 ;ν est lue dans la table de Student
à ν degrés de liberté; ν est l’entier le plus proche de
i2
s21 s22
h
n1 −1 + n2 −1
s41 s42
(n1 −1)n21
+ (n −1)n 2
2 2
Le test de Student est assez robuste mais si l’on s’éloigne trop des conditions de normalité, il est
préférable d’utiliser un test non paramétrique.
4.4.2 Comparaison de deux variances
Avec les mêmes notations que précédemment, on teste
H0 : σ1 = σ2 contre H1 : σ1 6= σ2 au risque α
n1 s21 n2 s22 ŝ21

On calcule ŝ21 = n1 −1 , ŝ22 = n2 −1 et z = ŝ22
.
On rejette H0 au risque α si z 6∈ [F α2 (n1 − 1, n2 − 1), F1− α2 (n1 − 1, n2 − 1)] où la valeur Fα est lue
dans la table de Fisher-Snédécor à n1 − 1 et n2 − 1 degrés de liberté.
1
Remarque : F α2 (n1 − 1, n2 − 1) = F1− α (n1 −1,n2 −1)
2
4.4.3 Comparaison de deux proportions
Soit p1 (respectivement p2 ) la proportion d’individus d’une certaine modalité A dans la population mère
M1 (resp. M2 ). On extrait un échantillon de taille n1 (resp. n2 ) dans la population M1 (resp. M2 ). On
teste à partir de ces échantillons, on dispose d’une estimation f1 (resp. f2 ) de p1 (resp. p2 ) qui suit une
loi F1 (resp. F2 ).
H0 : p1 = p2 contre H1 : p1 6= p2 au risque α.
On suppose que n1 F1 et n2 F2 suivent approximativement des lois normales. On calcule
n1 f1 +n2 f2 f1 −f2
p̂ = n1 +n2 puis z = q
p̂(1−p̂)( n1 + n1 )
1 2
4.5 Test du rapport des vraisemblances maximales
Ce test est fort utile là où les méthodes précédentes ont echoué.
Test de H0 : θ = θ0 contre H1 : θ 6= θ0 où θ est un paramètre vectoriel de dimension p.
On construit la quantité suivante:
L(x, θ0 )
λ=
supθ L(x, θ)
IV-12
On a donc 0 ≤ λ ≤ 1. λ est intuitivement une statistique convenable pour un test car plus il est fort,
plus l’hypothèse H0 est vraisemblable. Cela revient à remplacer dans H1 θ par son estimation θ̂ par la
méthode du maximum de vraisemblance. La région critique du test sera donnée par : λ < K.
Théorème: La distribution de −2ln(λ) est asymptotiquement celle d’un χ2p dans l’hypothèse H0 .
De ce théorème, on déduira le procédé d’estimation de la région critique.
On peut étendre cette approche au test entre deux hypothèses composées. Il suffit de former la
quantité suivante:
supθ∈Ξ0 L(x, θ)
λ=
supθ∈Ξ1 L(x, θ)
pour laquelle le théorème précédent est toujours valable.
4.6 Test d’adéquation
Dans cette partie, on suppose que la loi de probabilité de la variable aléatoire X, dont on dispose d’un
échantillon, est inconnue. Une première remarque s’impose: les tests d’adéquation ne permettent
pas de trouver la loi d’une v.a., mais seulement d’accepter ou de rejeter une hypothèse
simple émise a priori.
Ainsi, il est nécessaire de faire une étude sommaire préalable de l’échantillon afin de formuler des
hypothèses plausibles quant à la loi de probabilité de X: la v.a. X est-elle discrète ou continue? Est-elle
définie pout tout x, ou seulement pour x > 0? L’histogramme en fréquence obtenu est-il symétrique
par rapport à la valeur moyenne? Existe-t-il une relation simple entre moyenne estimée et variance
estimée? Les réponses à ces différentes questions, de même que la nature de la variable représentée par
X permettent dans la plupart des cas d’émettre une hypothèse plausible.
4.6.1 Test du χ2
Soit {x1 . . . xn } un échantillon de n réalisations indépendantes de la v.a. X. Soit L(x) la loi de distribution
inconnue de X. L’hypothèse de départ sera que la loi de distribution est L∗ (x). Ceci permet de formuler
le test:
H0 : L(x) = L∗ (x)
H1 : L(x) 6= L∗ (x)
Les paramètres de L∗ seront soient connus soit estimés.

A partir de l’échantillon, on construit un histogramme en fréquence de k classes Ci . On note Oi le
nombre d’observations de X faites dans la classe Ci (avec bien sûr i Oi = n). Si la v.a. suit la loi L∗
P
alors l’effectif théorique Ei de la classe Ci est donné par: Ei = np∗i où p∗i est la probabilité pour que la
v.a. X suivant la loi L∗ prenne une valeur sur le domaine définissant la classe Ci .
L’écart entre la réalité issue de l’échantillon et la théorie issue de l’hypothèse H0 est mesurée par
l’indicateur
k k
X (np∗i − Oi )2 X Oi2
I= = −n
i=1
np∗ i np∗
i=1 i
Sous l’hypothèse H0 , on peut considérer que l’écart Ei −Oi entre distribution théorique et distribution
empirique est distribué normalement. Dans ces conditions, I tend vers une loi du χ2 à ν degrés de liberté
(ν = nombre de classes - 1 - nombre de paramètres nécessaires à la spécification complète de p∗i ).
IV-13
La région d’acceptation du test est l’intervalle (0, χ2ν,1−α ) tel que la probabilité d’une variable du χ2
à ν degrés de liberté prenne une valeur dans cet intervalle soit égale à 1 − α (α étant l’erreur de première
espèce relative au test). Si la valeur de l’indicateur est supérieure à χ2ν,1−α , alors on décide l’hypothèse
H1 .
Il n’est guère possible de déterminer l’erreur de deuxième espèce (et donc la puissance du test), la loi
de probabilité de X n’étant pas spécifiée sous l’hypothèse H1 . On ne peut donc pas déterminer la loi de
probabilité de l’indicateur sous cette hypothèse.
Pour que la loi (sous l’hypothèse H0 ) de l’indicateur d’écart tende effectivement vers une loi du χ2 ,
il est nécessaire que l’effectif 0i d’une classe Ci soit en pratique supérieur à 5. Dans le cas
contraire, il faudra procéder à un regroupement des classes jusqu’à ce que cette contrainte soit satisfaite.
4.6.2 Test de Kolmogorov
Soit {x1 . . . xn } un échantillon de n réalisations indépendantes de la v.a. X. Soit L(x) la loi de distribution
inconnue de X. L’hypothèse de départ sera que la loi de distribution est L∗ (x). Ceci permet de formuler
le test:
H0 : L(x) = L∗ (x) ∀x
H1 : ∃ x L(x) 6= L∗ (x)
On suppose que tous les paramètres de la loi L∗ sont connus.

Soit S(x) la fonction de répartition empirique aléatoire à partir de l’échantillon. S(x) qui est
l’histogramme cumulé peut être considéré comme une estimation de la fonction de répartition de L(x)
notée FL . L’indicateur d’écart de ce test est la valeur absolue de la distance maximum entre S(x) et
FL (x):
I = maxx |FL (x) − S(x)|
La valeur de α étant fixée, on acceptera l’hypothèse H0 si I < w1−α,n . Les valeurs w1−α,n sont lues
sur les tables de Kolmogorov (il existe aussi des procédures numériques pour les estimer).
4.6.3 Test de Cramer-Von Mises
Soit {x1 . . . xn } un échantillon de n réalisations indépendantes de la v.a. X de fonction de répartition F

inconnue. L’hypothèse de départ sera que la fonction de répartition est F ∗ (x). Ceci permet de formuler
le test:
H0 : F (x) = F ∗ (x) ∀x
H1 : ∃ x F (x) 6= F ∗ (x)
On suppose que tous les paramètres de la fonction F ∗ sont connus.

L’indicateur d’écart de ce test est:
Z +∞
I= [F ∗ (x) − F (x)]2 dF (x)
−∞
La distribution de cet indicateur a été tabulée. On démontre que
n 2
1 2i − 1

− F ∗ (xi )
X
I= +
12n i=1 2n
IV-14
où les valeurs de l’échantillon sont ordonnées en ordre croissant.
On rejette H0 si la valeur de cet indicateur est supérieure à une valeur que la v.a. I a une probabilité
α de dépasser.
Le test de Cramer-Von Mises a les mêmes applications que le test de Kolmogorov. La différence
entre ces deux tests réside dans le fait que pour le test de Kolmogorov seul l’écart maximum entre la
distribution empirique et la distribution d’ajustement entre en considérarion alors que l’indicateur d’écart
du test de Cramer-Von Mises prend mieux en compte l’ensemble des données en ce sens que la somme des
écarts intervient. Le test de Kolmogorov est donc beaucoup plus sensible à l’existence de points abérents
dans un échantillon que le test de Cramer-Von Mises. On pense généralement que ce dernier test est plus
puissant, mais cela n’a pas été démontré théoriquement.
4.7 Test d’indépendance
Dans la plupart des tests que nous venons de présenter, on suppose toujours les valeurs de l’échantillon
indépendantes. C’est une condition nécessaire. Il est donc souvent utile de vérifier cette hypothèse par
un test.
4.7.1 Test des différences premières
Soit un échantillon de n valeurs xi successives d’une v.a. X. On désire tester l’indépendance des
réalisations xi . Cette indépendance constitue l’hypothèse principale H0 .
Le principe de ce test consiste à calculer les différences successives xi − xi−1 , puis à compter le nombre
de différences positives et négatives. Si H0 est vraie alors il doit y avoir autant de différences positives
que de différences négatives.
On construit donc la v.a. Y par
yi = 1 si xi+1 − xi > 0
yi = 0 si xi+1 − xi < 0
P
A priori, on suppose qu’il n’y a pas de différences nulles. On note S = i Yi le nombre de différences
premières positives.
Sous l’hypothèse H0 , P (Yi = 0) = P (Yi = 1) = 12 . L’espérance mathématique de la v.a. S est donc
E(S) = n−1 n+1
2 et l’on peut montrer que sa variance vaut V (S) = 12 . Pour n suffisamment grand (en
pratique, on fixe n > 12), la quantité S−E(S)
√ est approximativement une loi normale centrée réduite.
V (S)
Pour une erreur de première espèce α, on accepte l’hypothèse H0 si la quantité

S − n−1
2 √

√ 12
n+1
est inférieure à la valeur K1− α2 lue dans une table de la loi normale.
4.7.2 Test de Spearman
Soit xi une réalisation de la v.a. X. Nous désirons savoir si les xi peuvent être considérés comme des
réalisations indépendantes les unes des autres. Pour cela, Spearman propose le raisonnement suivant:
IV-15
si les réalisations sont indépendantes, l’échantillon ne présente pas de structure, i.e. d’ordre privilégié.
On testera donc la présence de dépendance en comparant l’ordre de l’échantillon recueilli avec celui issu
d’une procédure de tri. Cette comparaison se fait grâce au coefficient de corrélation. Sous l’hypothèse
H0 d’indépendance, le coefficient de corrélation doit être nul. Ce test est souvent utilisé comme test de
tendance de séries chronologiques.
Soit R(xi ) le rang occupé par la réalisations xi dans la série ordonnée des xi (le rang initial étant bien
sur i). On note ρS le coefficient de corrélation de Spearman, donné par
P h n+1
ih
n+1
i
Cov(R(Xi ), i) i R(Xi ) − 2 i− 2 6T
ρS = p = n(n2 −1)
=1−
V (R(Xi ))V (i) n(n2 − 1)
12
− i]2 .
P
où T = i [R(Xi )
Soit rS la valeur prise par ρS pour l’échantillon considéré. La distribution de ρS sous l’hypothèse H0
est
√ tabulée. Cependant, pour un échantillon de grande taille (n > 30) on peut considérer que la quantité
n − 1ρS est approximativement distribuée selon une loi normale centrée réduite.
Si la quantité |rS | est inférieure au quantile α du coefficient de corrélation de Spearman, alors on
accepte l’hypothèse H0 , sinon il y a rejet.
Si n > 30, on peut se servir des valeurs d’une table de la loi normale centrée réduite.
4.8 Test de comparaison d’échantillons
Toujours en considérant la propriété d’indépendance, on va maintenant s’intéresser au cas de la com-

paraison de deux échantillons, par le biais de paramètres estimés (le plus souvent la moyenne et/ou la
variance). L’hypothèse est : relativement à la variable étudiée, ces deux échantillons ont-ils été prélevés
indépendamment l’un de l’autre. Par soucis de simplicité de formulation des hypothèses, on retiendra,
pour H0 , l’hypothèse négative qui se traduit par le fait que les variables observées ne sont pas significa-
tivement différentes.
De plus, on supposera que les échantillons ont des tailles comparables. Des tests entre populations
de tailles très différentes peuvent être trouvés dans la littérature, et en particulier dans l’ouvrage de
B.Scherrer (cf Bibliographie).
4.8.1 Test des variances de Fisher-Snédécor
Ce test ne s’applique qu’au cas de deux échantillons gaussiens:
X1 : ℵ[m1 , σ1 ] et X2 : ℵ[m2 , σ2 ]
On choisit le plus souvent de tester les variances avant les moyennes. Ces dernières ne sont testées
que si le premier test retient l’hypothèse de non indépendance.
ni Si2
On construit les quantités σi2
où Si2 est l’estimateur de la variance de la variable aléatoire Xi . Cette
quantité suit une loi du χ2ni −1 . Sous l’hypothèse H0 d’égalité des variances (σ1 = σ2 ), la quantité
n1 S12
n1 −1
Fn1 −1;n2 −1 = n2 S22
n2 −1
IV-16
suit une loi de Fisher-Snédécor.
En pratique, on met toujours au numérateur la plus grande des deux quantités afin d’obtenir une
variable de décision dont la valeur est supérieure à 1. La région critique est de la forme F > k (avec
donc k > 1). La valeur de k est reliée à l’erreur de première espèce et peut être lue dans une table de
Fisher-Snédécor.
4.8.2 Test de Student
Ce test s’applique à la comparaison de deux échantillons gaussiens de même variance. Il est donc souvent
la suite logique du test de Fisher-Snédécor. On dispose des données suivantes:
ni Si2
• Les v.a. σi2
suivent une loi du χ2 à ni − 1 degrés de liberté.
• La moyenne arithmétique x̄1 (resp. x̄2 ) est une réalisation d’une v.a. X 1 (resp. X 2 ) suivant une loi
normale de moyenne m1 (resp. m2 ) et d’écart-type √σn1 (resp. √σn2 ).
n1 S12 +n2 S22

• La quantité σ2
suit une loi du χ2 à n1 + n2 − 2 degrés de liberté.
q
1 1
• La v.a. X 1 − X 2 est une v.a. normale de moyenne m1 − m2 et d’écart-type σ n1 + n2 .
La variance σ étant inconnue, on construit une variable de Student définie par

X 1 −X
q2 −(m1 −m2 )
1
σ n1
+ n1
2
Tn1 +n2 −2 = r
n1 S12 +n2 S22
σ 2 (n1 +n2 −2)
d’où l’on peut faire disparaı̂tre le paramètre inconnu σ
X 1 − X 2 − (m1 − m2 ) √
Tn1 +n2 −2 = r n1 + n2 − 2
1 1 2 2
n1 + n2 (n1 S1 + n2 S2 )
Sous l’hypothèse H0 , la région critique est de la forme |T | > k. Comme habituellement, la valeur
seuil k est reliée à l’erreur de première espèce et peut être trouvée dans une table de Student.
Il faut noter pour finir que le test de Student est robuste car il s’applique également lorsque l’hypothèse
d’égalité des variances n’est plus valide. Il faut cependant pour cela que les tailles des échantillons soient
grandes (quelques dizaines d’observations pour chaque échantillon).
4.8.3 Test de Spearman
On peut ici réutiliser le coefficient de corrélation de Spearman qui va indiquer le degré de liaison existant
entre le classement des éléments d’un échantillon selon la variable x et le classement des mêmes éléments
selon la variable y. Une forte valeur du coefficient de corrélation de Spearman indiquera une liaison entre
les deux variables (puisqu’induisant des classements linéairement liés). Cette approche n’a de sens que
si les échantillons des v.a. X et Y sont appariés.
Pour calculer le coefficient de corrélation de Spearman, il s’agit de calculer le rang de chaque élément
dans la série croissante de valeurs de x et de y puis de calculer la différence de classement di où i dénote
IV-17
le i-ème élément de l’échantillon. L’indicateur de Spearman est donné par :
Pi=n 2
d
i=1 i
rs = 1 − 6
n(n2 − 1)
Il existe des versions plus sophistiquées de cet indicateur qui tiennent compte des ex-aequos dans les
classements (cette correction n’est nécessaire que si ce nombre d’ex aequos devient important).
Sous l’hypothèse d’indépendance entre les deux variables, on peut montrer que
1
E[Rs ] = 0 et V [Rs ] =
n−1
où Rs est la variable aléatoire associée à l’indicateur de Spearman. De plus, si l’effectif est grand (n ≥ 30),
cette vatiable aléatoire suit approximativement une loi normale. On peut donc construire un test sur la
variable √
ZRs = Rs n − 1
qui suit une loi normale centrée réduite. On retrouve un test équivalent à un test de moyenne de loi
normale. Dans le cas d’un test bilatéral, avec un risque de α, la règle de décision est
√
Si | n − 1rs | > zα/2 alors H1 sinon H0 et P (Y < zα/2 ) = 1 − α/2 où Y désigne la loi normale centrée
réduite.
Pour les petits échantillons, il est nécessaire d’avoir recours à une table spécifique de Spearman.
4.9 Analyse de la variance
L’analyse de la variance est un ensemble de techniques permettant de comparer plusieurs échantillons

de données. Cette comparaison est le plus souvent limitée à celle des moyennes dans un cas gaussien.
On l’utilise également pour étudier l’effet d’un facteur qualitatif externe. Nous nous limiterons ici à une
présentation résumée dans le cas où il y a un seul facteur explicatif.
4.9.1 Les données de l’analyse
Pour chaque réalisation Ai (i = 1 . . . k) d’un facteur explicatif A, on dispose d’un échantillon x1i , . . . , xni i
P
dont la moyenne est x̄i . La taille totale de la population est donc n = i ni .
On considère que chaque échantillon est issu d’une v.a. Xi suivant une loi ℵ[mi , σi ]. En terme de
test, nous avons donc
H 0 : m1 = m2 = . . . = mk = m
H1 : ∃i, j mi 6= mj
On pose xji = mi + ji où ji est une perturbation dont la variation obéit à une v.a. normale centrée et
d’écart-type σ. On peut aussi adopter un modèle similaire mais plus général de la forme xji = µ + αi + ji
où µ est une valeur moyenne constante et αi l’effet du niveau i du facteur explicatif.
Dans le cas où l’hypothèse H0 est rejetée, l’étude se poursuit par l’estimation des valeurs moyennes
mi (ou µ et αi selon le modèle utilisé).
IV-18
4.9.2 Le test
On note X la moyenne totale que l’on obtient par

k X n
i k
1X 1X
X= xji = ni X i
n i=1 j=1 n i=1
La variance totale S 2 est estimée par

k X n
i
1X
S2 = (xj − X)2
n i=1 j=1 i
On montre facilement que cette variance totale peut se décomposer en la somme de la variance des
moyennes, SA 2 (aussi appelée variance inter-classes) plus la moyenne des variances, S 2 (aussi appelée
R
variance intra-classes).
k k X i n
1X 1X
S 2 = SA
2 2
+ SR = ni (X i − X)2 + (xj − X i )2
n i=1 n i=1 j=1 i
La variance SA2 représente la variation du au facteur explicatif A, la variance S 2 est elle considérée
R
comme la variabilité résiduelle.
On peut réécrire cette variance résiduelle en faisant intervenir les variances de chaque échantillon
k
2 1X 2
SR = ni S i
n i=1
n S2 nSR2
Chaque quantité iσ i suit une loi du χ2 à ni −1 degrés de liberté. Donc la quantité σ suit également
une loi du χ2 à n − k degrés de liberté.
nS 2
Sous l’hypothèse H0 , les v.a. Xi sont de même loi donc on a également le fait que la quantité σ
2
nSA
suit une loi du χ2 à n − 1 degrés de liberté, et σ , une loi du χ2 à k − 1 degrés de liberté.
On peut donc construire l’indicateur de notre test par
2
SA
k−1
F (k − 1, n − k) = 2
SR
n−k
dont la loi est celle de Fisher-Snédécor.

Si la valeur de l’indicateur est supérieure à la valeur critique d’une variable de Fisher-Snédécor (pour
une erreur de première espèce α), alors on conclut à l’influence du facteur explicatif A, i.e. on rejete
l’hypothèse H0 .
4.9.3 Analyse des contrastes
Le rejet de l’hypothèse H0 ne signifie pas que toutes les moyennes sont différentes. Il est possible qu’un
seul couple (mi , mj ) ne valide pas l’hypothèse. On est alors intéressé par une analyse plus fine des
différences mi − mj que l’on appele souvent contraste.
IV-19
Une approche possible repose sur un résultat du à Scheffé: l’évènement
s s
1 1 1 1
mi − mj − S σ̂ + ≤ x̄i − x̄j ≤ mi − mj + S σ̂ +
ni nj ni nj
a lieu avec une probabilité 1 − α donnée par
S2
P (Fk−1;n−k ≤ )=1−α
k−1
où σ̂ est le carré moyen résiduel que l’on peut estimer par la quantité
s
2
nSR
σ̂ =
n−k
On peut montrer que l’hypothèse H0 a été rejetée si au moins un des contrastes est significativement
différent de 0.
Le test de chaque contraste est donc
s
1 1
si |x̄i − x̄j | > S σ̂ + alors mi 6= mj
ni nj
p
S sera estimé par S = (k − 1)Fα (k − 1; n − k)
Attention, ce test est parallèle, il n’y a donc pas nécessairement de transitivité des résultats. On peut
donc tout à fait avoir la configuration m1 = m2 et m2 = m3 et m1 6= m3 .
IV-20
5 Le Contrôle Statistique de Process: SPC
5.1 Introduction
La notion de qualité est bien sûr très importante dans la production et les statistiques y contribuent en
fournissant des outils de mesure mais aussi de décision les plus objectifs possibles. Si l’on suit Montgomery,
la qualité est inversement proportionnelle à la variabilité. L’accroissement de la qualité s’obtient donc par
la réduction de cette variabilité. Celle-ci s’exprime bien en termes statistiques par le biais de la variance
même si cela n’est pas suffisant. C’est pourquoi il existe de nombreux indicateurs. Afin de les utiliser au
mieux il est nécessaire d’en bien connaı̂tre et comprendre les hypothèses sousjacentes.
Dans un système de production quel qu’il soit (production de produits manufacturiers, de services ou
d’information), la variabilité provient de l’absence de répétitivité parfaite. Les causes principales en sont
l’usure des machines et des matériaux, les opérateurs, les méthodes de transformation et l’environnement.
On considère le plus souvent deux classes de variabilité
• la variabilité inhérente au processus (et peu modifiable) qui induit la notion de distribution des
mesures (le plus souvent admise par les entreprises comme étant une distribution normale);
• la variabilité externe qui induit le plus souvent un biais dans les distributions par rapport à cette
hypothèse de normalité.
Le contrôle statistique de process (SPC : Statistical Process Control) tente de modéliser ces causes
et leurs effets. Il s’agit plus d’une méthodologie que d’une simple liste d’outils. Cette méthodologie est
composée de trois objectifs:
1. Process control qui tente de maintenir le processus sur sa cible en termes de positionnement nominal
et de tolérances.
2. Process capability qui tente de déterminer la variabilité inhérente à un processus pour établir des
spécifications réalistes utilisables en particulier à des fins de comparaisons.
3. Process change qui induit des modifications du processus dans un but d’amélioration (c’est la partie
action du SPC).
Le SPC est associé à une grande liste d’outils dont les plus connus sont:
• flowchart;
• run charts;
• pareto charts and analysis;
• cause and effect diagrams;
• frequency histograms;
• control charts;
• process capability studies;
• acceptance sampling plans;
V-1
• scatter diagrams.
Tous ces outils utilisent des données de type échantillon et propose une visualisation (le plus souvent
graphique) de la variabilité du processus étudié. Ce chapitre ne va évoquer que la notion de capabilité.
La bibliographie contient les références principales introduisant tous ces outils.
5.2 Capabilité d’un processus
Le contrôle statistique de process permet de garantir par des outils statistiques que le processus est sous
contrôle. Il permet ainsi de garantir à tout moment des conditions de travail satisfaisantes. Il est basé
sur une connaissance et un suivi du processus. Un processus est sous contrôle s’il est statistiquement
stable. Pour une fabrication comportant différents process, l’étude porte sur chacun des process pris
séparemment, sur le principe d’éléments placés en série.
La mise en place de ce système de contrôle requiert au préalable:
1. Une étude de la capabilité des différents process sur lesquels se basent les contrôles.
2. La détermination de la loi de probabilité pour chaque processus.
3. La réalisation de cartes de contrôle pour un suivi de l’évolution du processus.
4. La détermination des réactions à adopter pour chacun des phénomènes défaillants mis en évidence
par les autocontrôles.
5. Une formation sur les autocontrôles pour les opérateurs directement concernés.
6. La mise en place définitive des autocontrôles dans les ateliers.
5.2.1 Etude de la capabilité des processus
Pour qu’un processus puisse être déclaré sous contrôle, il est indispensable de connaı̂tre sa capabilité
et que cette valeur soit acceptable. Cet indicateur permet de déterminer si le processus est capable de
produire dans l’intervalle de tolérance requis.
Les indicateurs de capabilité les plus courants sont:
• Cp = U SL−LSL
6σ . Le CAP (coefficient d’aptitude process) est calculé à partir d’un film de production
traçant l’évolution de 50 à 100 valeurs mesurées de manière consécutive. Il représente le rapport
entre l’intervalle de tolérance (U SL = Upper Specification Limit et LSL = Lower Specification
Limit) et 6 fois l’écart type (σ) de l’échantillon.
• Cpk = min(U SL−µ,µ−LSL)

3σ où µ est l’espérance mathématique de la distribution sousjacente (i.e. la
valeur théorique).
U SL−LSL
• Cpm = √ où ξ est la moyenne expérimentale et T la valeur nominale (sauf contrindication,
2
6 σ +(ξ−T )2
on prendra T = µ).
min(U SL−ξ,ξ−LSL)
• Cpmk = √ .
3 σ 2 +(ξ−T )2
V-2
Dans la pratique, la valeur nominale T est le plus souvent la valeur de l’espérance mathématique µ.
Tous ces indicateurs ont été construits et tabulés sous l’hypothèse de la loi normale pour la distribution
sousjacente.
Par exemple, pour implanter un contrôle statistique, le coefficient Cp doit être égal ou supérieur à
1.33. Ce coefficient, très utilisé dans le monde industriel, est assujéti à des hypothèses qui ne sont pas
toujours vérifiées. Tout d’abord, on ne compare que des écarts à la valeur moyenne sans tenir compte
de la répartition de ces écarts. On fait donc une hypothèse de symétrie de la distribution des mesures.
Il faut donc, au moins par un tracé, s’assurer de la validité de cette hypothèse. Ensuite, les valeurs de
référence (cf. tableau ci-dessous) sont obtenues dans le cas de la Loi normale et ne sont bien sûr valables
que dans ce contexte.
Capabilité Classement
< 0.67 Très mauvaise
0.67 Très mauvaise
1 Mauvaise
1.33 Très moyenne à moyenne
1.67 Moyenne à bonne
2 Bonne à très bonne
>2 Excellente
L’amélioration de la capabilité peut donc être obtenue soit par une révision de l’intervalle de tolérance
dans le sens d’un élargissement, soit par la fiabilisation du process pour diminuer la dispersion sur les
valeurs mesurées.
L’importance des hypothèses peut être montrée sur le coefficient Cp . Lorsque celui-ci est faible, cela
n’induit pas obligatoirement que la qualité du processus l’est également. En effet, cela peut provenir
de la non adéquation de l’hypothèse de normalité (ou au minimum de l’hypothèse de symétrie). Le
raisonnement est également valable pour les fortes valeurs de Cp . En particulier, ce coefficient n’est pas
adapté à des distributions de type Gamma pourtant fréquentes dans les cas réels (sauf si le coefficeint
d’asymétrie est proche de 0, i.e. la valeur de référence de la loi normale). Un test d’adéquation préalable
à toute interprétation est donc requis.
5.2.2 Indicateurs généralisés
Compte tenu des limitations des indicateurs classiques de capabilité, des indicateurs généralisés ont été
proposés. Ils permettent de prendre en compte la non normalité de la distribution. Cependant, ils sont
moins connus et donc moins bien acceptés par le milieu professionnel.
Soit un échantillon de valeurs {xi , i = 1 . . . n} trié en ordre croissant. Les indicateurs de Chang et Lu
sont définis par
0 U SL−LSL
• Cp = Up −Lp
0 U SL−m
• CpU = Up −m
0 m−LSL
• CpL = m−Lp
0 0 0
• Cpk = min(CpU , CpL )
V-3
0 U SL−LSL
• Cpm = r 2
Up −Lp
6 6
+(m−T )2
0 min(U SL−T,T −LSL)

• Cpmk = r 2
Up −Lp
3 6
+(m−T )2
avec
x n +1 +x n
• m, la médiane qui remplace la moyenne (m = x n+1 si n est impair et m = 2
2
2
si n est pair).
2
• Up et Lp sont les valeurs correspondant aux quantiles 99.865% de l’échantillon, c’est à dire
99.865n + 0.135
Up = xku + ( − ku )(xku +1 − xku )
100
99.865 + 0.135n
Lp = xkl + ( − kl )(xkl +1 − xkl )
100
avec ku = b 99.865n+0.135
100 c et kl = b 99.865+0.135n
100 c (bc est l’opérateur partie entière).
Ces indicateurs donnent les mêmes résultats que les précédents en présence de la loi normale et une
meilleure appréhension lorsque celle-ci n’est pas vérifiée. En effet, la valeur de référence 6σ correspond
au quantile 99.865% mais uniquement dans le cas de la loi normale. Ces indicateurs sont donc bien des
généralisations.
5.2.3 Les cartes de contrôle
Deux types de cartes sont possibles.

Cartes de contrôle à valeurs individuelles Elles se composent de relevés des valeurs sous forme
de graphique. Ces cartes sont composées de trois zones: bon, surveillance, rejet (au delà des valeurs
extrèmes U SL et LSL). La valeur cible est mise en évidence. L’objectif est de se situer au plus proche
de cette valeur. Dans la zone de surveillance, on accepte la production mais on est plus attentif à des
phénomènes tels que la stagnation dans la zone (plusieurs points consecutifs), une tendance vers le seuil
rejet, . . . L’outil graphique est un plus donnant les moyens de régler au mieux le process en se basant sur
un suivi.
Cartes de contrôle par attribut On utilise un calibre. Elles sont à caractère qualitatif (bon, mauvais
par défaut, mauvais par excès). L’atout est de pouvoir suivre plusieurs caractéristiques sur une même
carte.
V-4
Figure 5: Exemple de carte de contrôle où figurent les valeurs de référence ansi que le résultat de la
mesure m(x).
V-5
5B
6 Tables
T-1 Fonction de répartition de la loi normale centrée réduite
Probabilité de trouver une valeur inférieure à u.
T-1
T-2 Fractiles de la loi normale centrée réduite
Valeur de u telle que P rob(X < u) = P , P est donnée.
T-2
T-3 Fractiles de la loi du χ2 à ν degrés de liberté
T-3
Fractiles de la loi du χ2 à ν degrés de liberté (suite)
T-4
T-4 Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.10
d’être dépassées
T-5
T-6
Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.05 d’être
dépassées (suite)
T-7
T-8
Valeurs f de la variable de Fisher-Snédécor F (ν1 ; ν2 ) ayant la probabilité 0.01 d’être
dépassées (suite)
T-9
T-7 Table de distribution de T (Loi de Student)
Valeurs de T ayant la probabilité P d’être dépassées en valeur absolue.
T-10
T-8 Table du coefficient de corrélation des rangs de Spearman de deux variables
aléatoires indépendantes
Valeurs r de RS ayant une probabilité α d’être dépassée en valeur absolue: P (|RS | > r) = α
T-11
Table du coefficient de corrélation des rangs de Spearman de deux variables aléatoires
indépendantes (suite)
Valeurs r de RS ayant une probabilité α d’être dépassée en valeur absolue: P (|RS | > r) = α
T-12
T-9 Fonction de répartition de la statistique de Cramer-Von Mises
Valeurs de z telles que P (I < z) = 1 − α.
T-13
T-10 Table du test de Kolmogorov-Smirnov
Valeurs de dn telles que P = P rob(supx |Fn∗ (x) − F (x)| < dn )
T-14
Table du test de Kolmogorov-Smirnov (suite)
Valeurs de dn telles que P = P rob(supx |Fn∗ (x) − F (x)| < dn )
T-15
7 Exercices
Ce chapitre regroupe quelques excercices d’application des concepts illustrés dans les chapitres de ce
polycopié. Ils constituent une base pour vous permettre de tester vos connaissances.
7-1 Probabilités
1- Trois personnes entrent dans une pièce où se trouvent 7 chaises différentes. De combien de manières
différentes peut-on placer les 3 personnes?
7!
Réponse : A37 = 4! = 210

2- Quel est le nombre maximum d’immatriculations qu’il est possible de réaliser dans le cas des imma-
triculations de véhicules français?
3- Un train de marchandises se compose de 14 wagons dont 6, 3, 4 et 1 sont à laisser respectivement en
4 gares différentes, A, B, C, D. De combien de manières ces wagons peuvent-ils être disposés pour que
les wagons à retirer soient toujours en queue de train?
4- Soient A, B et C des évènements aléatoires définis sur une même épreuve. On considère maintenant
deux nouveaux évènements : E1 = A B c C c et E2 = A (B C). (a) Montrer que E1 et E2 sont
T T T S
S
incompatibles. (b) Que signifie l’évènement E1 E2 ? (c) Calculer P (E1 ) et P (E2 ) sachant que P (A) =
T T T T T
0.6, P (B) = 0.4, P (C) = 0.3, P (A B) = 0.2, P (B C) = 0.1, P (A C) = 0.1 et P (A B C) = 0.05.
5- Un circuit électronique est composé de 10 blocs identiques en série, chacun de ces blocs peut être
formé d’un élément unique ou de deux éléments identiques en parallèle (dans ce cas on supposera qu’il
suffit qu’un des deux éléments fonctionne pour que le bloc fonctionne). On admet que chaque élément a
une probabilité égale à 0.02 de tomber en panne pendant les 5000 premières heures de fonctionnement
et que les pannes des divers éléments sont des évènements indépendants. Calculer les probabilités d’une
panne de circuit pendant les 5000 premières heures de fonctionnement, si chaque bloc est formé d’un seul
élément(a), si chaque bloc est formé de deux éléments(b), si n blocs sont fomés d’un seul élément(c).
Combien faut-il de blocs à 2 éléments pour garantir une probabilité de panne du circuit inférieure à
10%(d).
Réponse : (a) 0.18 (b) 0.004 (c) 1 − (1 − 0.022 )10−n (1 − 0.02)n (d) 5

6- On dispose de N boules dont D sont rouges. On tire (sans remise) n boules. Quelle est la probabilité
de tirer d boules rouges ?
d C D−d
Cn N −n
Réponse : p = CND

7- La demande d’un produit P pendant 1 mois peut prendre les valeurs d suivantes avec les probabilités
P (d):
(d, P (d)) ∈ {(0, 0.1), (1, 0.1), (2, 0.2), (3, 0.3), (4, 0.2), (5, 0.1)}
a) Pourquoi peut-on parler de probabilité ?

b) De quel stock minimum doit-on disposer en début de mois pour que le risque de rupture de stock
soit inférieur ou égal à 0.3 ?
VII-1
8- On sait que les jumeaux peuvent être de vrais jumeaux, dans ce cas ils ont même sexe, ou de faux
jumeaux, et dans ce cas la probabilité pour qu’ils aient même sexe est 0.5. On suppose connue la
probabilité p pour que deux jumeaux soient de vrais jumeaux. (a) Déterminer en fonction de p la
probabilité pour que deux jumeaux soient de même sexe. (b) Déterminer la probabilité pour que deux
jumeaux soient de vrais jumeaux sachant qu’ils ont même sexe.
1+p 2p
Réponse : (a) 1 ; (b) 1+p

9- Les clients d’une entreprise ont été répartis en plusieurs catégories en fonction du volume d’affaires
annuel traité avec eux et en fonction du fait que l’on a déjà eu pour eux ou non des créances impayées.
Les résultats de ce décompte sont donnés dans le tableau ci-dessous:
Volume d’affaire annuel 0 à 10 000 (C1 ) 10 000 à 100 000 (C2 ) + de 100 000 (C3 )
Clients ayant déjà eu des 100 25 10
impayés (I)
Clients n’ayant jamais eu 1 200 350 150
d’impayés (I)
Déterminez pour un client choisi au hasard les probabilités suivantes: P (C1 ), P (C2 ), P (C3 ), P (I|C1 ),
P (I|C2 ), P (I|C3 ), P (C1 |I), P (C2 |I), P (C3 |I). Y a-t-il dépendance entre le volume d’affaires et l’existence
d’impayés ?
Réponse : P (C1 ) = 0.708, P (C2 ) = 0.204, P (C3 ) = 0.088, P (I|C1 ) = 0.08, P (I|C2 ) = 0.07, P (I|C3 ) =
0.06, P (C1 |I) = 0.74, P (C2 |I) = 0.19, P (C3 |I) = 0.07. Il y a dépendance entre le volume d’affaires et
l’existence d’impayés d’après l’analyse des termes P (Ci et I) et P (Ci )P (I).

10- Pour juger de l’efficacité d’une campagne publicitaire ayant porté sur un produit P , on a sondé 1500
personnes, 1000 dans une région R1 et 500 dans une région R2 . Seule la région R2 avait été concernée
par la campagne. Les résultats sont les suivants:
Connaissent le produit P et Connaissent le produit P et Ne connaissent pas le pro-

le consomment ne le consomment pas duit P
Région R1 80 150 770
Région R2 50 130 320
a) Déterminer pour chacune des régions: la probabilité qu’une personne connaisse le produit P , la
probabilité qu’une personne consomme le produit P et la probabilité qu’elle consomme le produit P
sachant qu’elle le connait.
11- La probabilité pour qu’une ampoule électrique ait une durée de vie supérieure à 2 ans est de 0.2.
Sachant qu’un lustre est formé de 5 ampoules, donnez la loi modélisant le phénomène ”il faut changer n
ampoules en 2 ans” et les probabilités correspondant aux valeurs 0 et 5 de n.
Réponse : L’évènement ”une ampoule à changer” peut être modélisé par une loi (0, 1)p=0.8 . La
loi de l’évènement ”il faut changer une ampoule en 2 ans” est donc une loi binomiale (si l’on suppose
l’indépendance entre les 5 ampoules). P (0) = C50 0.80 0.25 = 0.00032 et P (5) = 0.32768.

12- Soient deux urnes contenant respectivement 100 boules rouges et 100 boules noires. On prend 32
boules rouges de la première urne pour les mettre dans la seconde, puis on mélange et on reprend 32
VII-2
boules de la 2ème urne pour les remettre dans la première. Quelle est la probabilité qu’il y ait plus de
boules rouges dans la première urne que dans la deuxième ?
13- Un lot de n articles présente un mélange des produits de trois usines : n1 articles de l’usine U1 ,
n2 de l’usine U2 et n3 de l’usine U3 . Pour les articles de l’usine U1 , la probabilité de fonctionner sans
défaillance pendant un temps τ est p1 , p2 pour l’usine U2 et p3 pour l’usine U3 . On tire au hasard un
article, calculer la probabilité que l’article fonctionnera sans défaillance pendant un temps τ .
14- On considère trois lots d’articles de même type, le premier compte d1 articles défectueux parmi les
n1 articles. De même, on compte d2 (resp. d3 ) articles défectueux parmi les n2 (resp. n3 ) articles du
deuxième (resp. troisième) lot d’articles. On choisit au hasard l’un des lots pour en tirer au hasard deux
articles. Le premier article est défecteux. Quelle est la probabilité que le second article soit défecteux lui
aussi ?
Réponse : Soient les états D1 et D2 indiquants que les premier et deuxième articles sont défecteux.
Ce que l’on cherche est donc P (D2 |D1 ).
En se servant de la formule de Bayes, on a
T
P (D1 D2 )
P (D2 |D1 ) =
P (D1 )
Les deux articles provenant d’un des trois lots, on introduit les lots par
\ 3
X \ \ 3
X \
P (D1 D2 ) = P (D1 D2 Li ) = P (D1 ) P (Li |D1 )P (D2 |D1 Li )
1 1
donc
3
X \
P (D2 |D1 ) = P (Li |D1 )P (D2 |D1 Li )
1
De la même manière, on estime les autres probabilités conditionnelles par

P (Li )P (D1 |Li )
T
P (D1 Li )
P (Li |D1 ) = = P3
P (D1 ) 1 P (Li )P (D1 |Li )
Les probabilités qui nous sont nécessaires sont
∀i, P (Li ) = 31
P (D1 |Li ) = ndii
di −1
P (D2 |D1 Li ) =
T
ni −1
donc
di
P (Li |D1 ) = Pn3i di
1 ni
Le tout recombiné donne P3 di (di −1)

1 ni (ni −1)
P (D2 |D1 ) = P3 di
1 ni

!
0
15- Soient deux v.a. discrètes indépendantes Xi de type (P (Xi = 1) = pi ). (a) Déterminez la
1
pi
loi de la v.a. Z1 = min(X1 , X2 ). (b) Déterminez la loi de la v.a. Z2 = max(X1 , X2 ). (c) Déterminez la
loi du couple (Z1 , Z2 ). (d) Les v.a. Z1 et Z2 sont elles indépendantes ?
VII-3
7-2 Variables aléatoires
1- On admet que le nombre de défauts sur le verre d’une ampoule obéit à une loi de Poisson de paramètre
λ = 4. Calculer les probabilités des évènements suivants: (a) Aucun défaut. (b) Plus de 2 défauts. (c)
Entre 3 et 7 défauts.
Réponse : (a) 0.018 (b) 0.762 (c) 0.711

2- Soit une loi uniforme continue U définie sur l’intervalle symétrique [−a, +a]. Quels sont la moyenne
et l’écart type de cette variable aléatoire. On procède à une accumulation d’expériences identiques
(n réalisations indépendantes de la loi U ). Que se passe-t-il quand n devient grand pour la variable
U1 +U2 +...+Un
n ?
3- Dans une entreprise de 200 salariés, il se produit en moyenne 4 accidents du travail par mois. On
suppose que tous les salariés ont la même probabilité d’avoir un accident. Quelle loi peut modéliser le
nombre mensuel d’accidents du travail ?
4- Soit X une v.a. N (1, σ) (où σ = 2). Calculer P (X > 5). Donner une borne de cette probabilité en
utilisant l’inégalité de Bienaymé-Tchebyshev. Commentaire.
q x2
√ 1 e− 2σ2 dx
π R +∞
5- Montrer par le calcul que E(X) = σ 2 pour X v.a. de Raleigh. (On rappelle que −∞ 2πσ
=
1.)
Réponse: Soit X la v.a. suivant une loi de Raleigh
Z ∞
x − x22
E[X] = x. e σ dx
0 σ2
Posons
x − x22
U 0 (x) = e σ dx
σ2
et
V (x) = x
On en déduit
x2
U (x) = −e− σ2
et
V 0 (x) = dx
Donc 2 Z ∞
x x2
E[X] = [−xe− σ2 ]∞
0 + e− σ2 dx
0
√ Z ∞
1 x2
E[X] = σ 2π √ e− σ2 dx
0 σ 2π
La forme intégrale est égale à P (Y > 0) pour une loi normale de moyenne nulle et d’écart type σ.
Par symétrie de cette loi, cette probabilité vaut 0.5. Donc le résultat final est
r
π
E[X] = σ
2
VII-4
6- Soit Y = i=10 2
i=1 Xi avec Xi : N (0, 1) deux à deux indépendantes. Quelle est la loi de Y ? Donner les
P
valeurs de E(Y ) et V ar(Y ).

Réponse : Par définition, Y suit une loi du χ2 dont l’espérance mathématique est 10 et la variance
20.

7- On envisage l’achat d’une machine de valeur 140000 euros et dont la durée de vie est 2 ans. Les
dépenses de fonctionnement de ce matériel seraient de 43050 euros par an. On pourrait fabriquer 1000
pièces par an. L’entrepreneur estime que chaque année, la probabilité d’écouler cette production est de
0.9. Par contre, en cas de récession, l’une ou l’autre des années, on ne pourra écouler plus de 750 pièces.
Le prix de vente d’une pièce (imposé par la concurence) est de 500 euros la première année. Pour la
seconde année, il y a une probabilité de 0.5 pour qu’il se maintienne, une probabilité 0.1 pour qu’il monte
de 10% et une probabilité 0.4 pour qu’il baisse de 5%. Dans les questions suivantes, il vous est demandé
de formaliser chaque question en termes de v.a. avant de procéder aux calculs.
a) Calculer l’espérance mathématique et la variance du nombre de pièces écoulées pour l’ensemble des
deux années.
b) Calculer l’espérance mathématique du chiffre d’affaires réalisé la première année, puis la seconde année
(les quantités écoulées et le prix de vente sont supposés indépendants).
c) Quelle est l’espérance mathématique du gain procuré par cet investissement sur l’ensemble des deux
années ?
8- La demande d’un produit P par mois à une entreprise suit une loi normale. Elle a une probabilité 0.1
d’être inférieure à 15000 unités, et une probabilité 0.1 d’être supérieure à 25000.
a) Déterminer les paramètres de la loi normale.
b) La marge sur coût variable unitaire est de 10 euros. Les charges fixes mensuelles sont de 175000 euros.
Déterminer la loi de probabilité suivie par le résultat mensuel. En déduire la probabilité que le seuil de
rentabilité mensuel soit atteint.
c) Quelle est la loi de probabilité du résultat trimestriel ? Quelle est la probabilité que le seuil de
rentabilité trimestriel soit atteint ? Quelle commentaire peut-on faire en comparant les probabilités
mensuelles et trimestrielles ?
Réponse : (a) (µ, σ) = (20000, 3901) (b) Loi normale de paramètres (µ, σ) = (25000, 39010). Prob(seuil
de rentabilité atteint) = 0.7389. (c) Loi normale de paramètres (µ, σ) = (75000, 67567). Prob(seuil de
rentabilité atteint) = 0.8665. Il est plus simple d’atteindre un objectif sur 3 mois que 3 fois sur 1 mois.

9- Au contrôle de la fabrication, une pièce est rejetée si une au moins de ses deux dimensions ne répond
pas aux normes tolérées, soit une variation de 0.1mm en plus ou en moins pour la longueur X, et 0.02mm
en plus ou en moins pour la largeur Y . Les normes de fabrication sont pour X: 4cm et pour Y : 0.3cm.
Les moyennes de X et Y sur des échantillons de 300 pièces sont respectivement 4.1cm et 0.301cm. Les
5 0.4
écarts types sont égaux à: σX = 100 mm et σY = 100 mm. Quel pourcentage de rebus obtient-on à la
sortie de l’atelier de production ?
10- Donnez la valeur de P rob(|X| < 5) sachant que X est une variable aléatoire normale de moyenne 1
et d’écart-type 2.
Réponse : P (|X| < 5) = P (−5 ≤ X ≤ 5) = P (X ≤ 5) − P (X ≤ −5). Par centrage réduction, on
pose Y = X−1
2 . P (|X| < 5) = P (Y < 2) − P (Y < −3) = P (Y < 2) + P (Y < 3) − 1. Par lecture dans la
VII-5
table de la loi normale (0,1), on obtient P (|X| < 5) = 0.9772 + 0.99865 − 1 = 0.9759.

11- Une usine produit 9000 unités d’un produit sur un intervalle de temps t. Pour cette même période, la
demande, exprimée en milliers d’unités, concernant ce produit peut être considérée comme une variable
aléatoire suivant une loi exponentielle de paramètre 3. Quelle est la probabilité que la demande dépasse
la production ? Quelle devrait être la production pour que cette probabilité soit inférieure à 4% ?
Réponse : P (Dde > P rod) = 0.05. Pour descendre cette probabilité à 0.04, la production doit être
supérieure à 9657 unités.

12- Soient Xi , i = 1 . . . n, n V.A. continues, uniformes sur [0, t[. On construit une nouvelle variable par
Mn = M ax(X1 , X2 , . . . , Xn ).
a) Calculez P (Mn < a) pour a < t. Que se passe-t-il quand n tend vers l’infini ?
b) Démontrer la nature de Mn par une convergence en probabilité.
13- Une machine déréglée produit des pièces dont 31 sont défectueuses. Donnez la loi qui modélise le
nombre de pièces défectueuses. Dans un lot de 39 pièces fabriquées par cette machine, calculez le nombre
moyen de pièces défectueuses et la probabilité associée à ce nombre.
Réponse : Une pièce est défectueuse ou non. Ce comportement peut tout à fait se modéliser par
une variable de type binaire de paramètre P (X = 1) = 1/3. Dans un lot, si on suppose l’indépendance
entre les évènements, l’apparition de pièces défectueuses s’apparente alors à une somme de lois binaires
indépendantes 2 à 2. On obtient une loi binomialeB(n, p) = B(39, 13 ). Le nombre moyen théorique de
pièces défectueuses est donc E[B] = n × p = 13.
De même, la probabilité de ce nombre est donnée par
13 1 13 2 26
P (B = 13) = C39 ( ) ( ) = 0.135
3 3

14- Donnez la valeur de t telle que P rob(X < t) = 0.90 sachant que X est une variable aléatoire de
Student à 20 degrés de liberté.
Réponse : La table de Student ne donne que P (|X| < t). Cependant, comme la loi de Student est
symétrique, nous avons
P (X < t) = 0.9 ↔ P (|X| < t) = 0.8
d’où t = 1.325.

15- Montrez que la variance théorique d’une v.a. suivant une loi de Rayleigh de paramètre σ est σ 2 (2− π2 ).
(intégration par partie U V = [U V ] − U V 0 ).
R 0 R
p
Réponse: L’espérance mathématique d’une loi exponentielle est E = σ π/2et sa densité de proba-
2 2
bilité est f (x) = σx2 e−x /(2σ ) . La variance est définie par
Z ∞
V = E[X 2 ] − E[X]2 = x2 f (x)dx − E 2
0
Z ∞ 3
x 2 /(2σ 2 )
V = e−x dx − E 2
0 σ2
VII-6
On fait une intégration par partie
x −x2 /(2σ2 )
V (x) = −x2 et U 0 (x) = − e dx
σ2
Ce qui nous donne
2 /(2σ 2 )
V 0 (x) = −2xdx et U (x) = e−x
et Z ∞
2 2 2 /(2σ 2 )
V = [−x2 e−x /(2σ ) ]∞
0 + 2xe−x dx − E 2
0
2 /(2σ 2 ) π
V = 2σ 2 [−e−x ]∞ 2 2
0 − E = 2σ − σ
2
2
Donc
π
V = σ 2 (2 − )
2

16- Donnez la valeur de t telle que P rob(X > t) = 0.70 sachant que X est une variable aléatoire de
Student à 20 degrés de liberté.
Réponse : Cette probabilité n’a de sens que si t est négatif. En effet, la loi de Student est symétrique
autour de 0 et donc P (X > 0) = 0.5. On a donc P (X < t) = 0.3) et par symétrie, P (X > |t|) = 0.3).
Donc la valeur de t est donc obtenue par la lecture de la probabilité P (|X| < |t|) = 0.4 ce qui nous donne
t = −0.533

17- Donnez la valeur de α telle que P rob(|X| < 1.25) = α sachant que X est une variable aléatoire
normale de moyenne 0.5 et d’écart-type 1.
Réponse :
α = P (X < 1.25) − P (X < −1.25)
α = P (Y < 0.75) − P (Y < −1.75)
où Y est une variable aléatoire normale centrée réduite.
α = P (Y < 0.75) − 1 + P (Y < 1.75) = 0.7734 − 1 + 0.9599
α = 0.7333

18- Donnez la valeur de t telle que P rob(X < t) = 0.90 sachant que X est une variable aléatoire du χ2
à 25 degrés de liberté.
Réponse : Lectude directe dans la table du χ2 à 25 ddl : t = 34.382.

VII-7
19- Donnez la valeur de f telle que P rob(F < f ) = 0.95 sachant que F est une variable aléatoire de
Fisher-Snédécor F (10, 25).
Réponse : Lecture directe dans la table de Fisher-Snédécor : f = 2.24.

20- On considère la fonction f définie par
2
f (x) = Ce−αx
Déterminez C de sorte que f soit une densité de probabilité sur <.

Réponse : Pour intégrer cette fonction, on va construire d’abord la solution d’une intégrale double
associée à un couple de variables indépendantes. Soit la fonction fX,Y définie par
2 +y 2 )
fX,Y (x, y) = fX (x)fY (y) = C 2 e−α(x
Définissons un domaine Pη du plan par x ≥ 0, y ≥ 0 et x2 + y 2 ≤ η 2 (un quart de disque).

Calculons tout d’abord l’intégrale de fX,Y sur ce domaine
RR
I(η) = Pη fX,Y (x, y) dx dy
2 −α(x2 +y 2 ) dx dy
RR
= C Pη e
Faisons le changement de variables polaires (x, y) = (ρcos(θ), ρsin(θ)) dont le jacobien est
∂x ∂x

cos(θ) −ρsin(θ)
∂(x, y) ∂ρ ∂θ
j(ρ, θ) = = = =ρ

∂(ρ, θ) ∂y ∂y
sin(θ) ρcos(θ)

∂ρ ∂θ
L’intégrale devient donc

R π/2 R
η 2 2
I(η) = C 2 0 −αρ dρ dθ
0 ρe
π/2 η 2
= C 2 0 dθ 0 ρe−αρ dρ
R R
−αρ2
= C 2 π2 [ −e2α ]η0
2
π
= C 2 4α (1 − e−αη )
Afin de couvrir le plan, nous pouvons passer d’abord à la limite par

π
lim I(η) = C 2
η→∞ 4α
L’intégrale sur le plan entier est donc

π
C2
α
Dans cette intégrale double, les deux variables sont indépendantes, donc cette intégrale double est le
carré de l’intégrale simple et nous avons
Z ∞ √
C π
f (x)dx = √
−∞ α
La fonction f sera une densité de probabilité si cette intégrale est unité, d’où l’on déduit
α
C=
π
VII-8
1
Dans le cas d’une loi normale, α = 2σ 2
ce qui nous redonne bien
1
C= √
σ 2π
7-3 Estimation
1- Soit X une loi normale d’espérance µ connue et de variance σ 2 inconnue. Construisez l’estimateur σ̂ 2
de cette variance par la méthode du maximum de vraisemblance. Quel est son biais ?
2- Construisez l’estimateur λ̂ du paramètre d’une loi de Poisson par la méthode du maximum de vraisem-
blance.
3- Une machine fabrique des pièces à une cadence qui ne permet pas de faire un controle qualité total.
On procède donc à un prélèvement d’un échantillon de n pièces qui sont testées. Sur cet échantillon,
n = 30, on constate un pourcentage de 5% de pièces défectueuses. L’entreprise ayant commandée ces
pièces impose un pourcentage maximum de rebut de 6%. Que pouvez-vous conseiller au fabricant des
pièces ?
4- Soit l’échantillon {(xi , yi ), i = 1, . . . , n} avec xi = i et yi = 3.13, 5.26, 5.5, 7.47, 8.1, 9.39, 9.86, 10.59, 12.1, 12.94.
Déterminer les paramètres d’un modèle linéaire de la forme y = ax+b approximant au mieux ces données.
Quelle est la confiance dans ce modèle ?
5- On dispose d’un échantillon provenant d’une loi normale N (µ, σ). On estime les paramètres par
µ̂ = n1 xi et σ̂ 2 = n−1 1 P
(xi − µ̂)2 . Les valeurs obtenues sont, n = 30 et σ̂ 2 = 80. Quelle est la
P
probabilité pour que la valeur vraie de l’écart type soit supérieure à 8 ?

6- On dispose d’un ensemble de 101 mesures provenant d’un échantillonnage que l’on associe à une v.a.
N (µ, σ), µ et σ étant inconnus. La variance estimée est s2 = 20. Donner l’intervalle de confiance sur σ 2
pour α = 0.1.
7- A partir d’un échantillon de 10 réalisations, on estime la moyenne d’une variable aléatoire normale.
L’écart-type étant également inconnu, on l’estime. On obtient les valeurs 3 pour la moyenne et 9 pour
l’écart-type. Quel est l’intervalle de confiance (α = 0.9) autour de la moyenne ?
Réponse : [−2.21, 8.21]

8- A partir d’un échantillon de 30 valeurs, on estime la moyenne d’une variable aléatoire normale. L’écart-
type étant inconnu, on l’estime également et on obtient les valeurs m = 5 et s = 5. Quelle est la confiance
d’un intervalle de largeur 1 autour de la moyenne ?
Réponse : P (4 < µ < 6) = 0.7158

9- Un quotidien publie tous les mois la cote du chef du gouvernement à partir d’un sondage réalisé
sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de 38% d’opinions
favorables, en février de 36%. Un journaliste commente alors ces valeurs par ”Le chef du gouvernement
perd 2 points !!” Commentez ce commentaire.
Réponse: On construit un intervalle de confiance autour des proportions. Avec un seuil de 95%, on
obtient respectivement [35, 41] et [33, 39] pour les valeurs 38% et 36%. Les deux intervalles ayant une
VII-9
intersection non vide, on ne peut pas conclure qu’il y ait eu baisse ou augmentation
q de la cote du chef
pn (1−pn )
de gouvernement. La largeur de l’intervalle de confiance est donnée par t n avec t = 1.96 pour
un seuil de sonfiance de 0.95, n = 1000 et pn = 0.36 ou 0.38.

10- Le chiffre d’affaires mensuel de l’entreprise JET suit une loi normale de moyenne µ inconnue mais
dont l’écart type est connu et égal à 50 Keuros. Sur les douze derniers mois, la moyenne des chiffres
d’affaires mensuels a été de 200 Keuros. Donnez une estimation de µ par intervalle de confiance au niveau
0.98.
Réponse : µ ∈ [166.37; 233.63]

11- Dans une station service, on suppose que le montant des chèques essence suit une loi normale de
moyenne µ et d’écart type σ. On considère un échantillon de taille 50 et on obtient une moyenne de 20
euros et un écart-type de 5 euros. Donnez une estimation de µ par intervalle de confiance au niveau 0.95.
Réponse : On doit procéder au calcul d’un intervalle de confiance sur une moyenne d’une loi normale
dont l’écart-type est inconnu et estimé. Cet intervalle est définit par
u×s
P (|m − µ| < √ ) = α
n
où m (respectivement s) est la moyenne (respectivement l’écart-type) estimée et u est lue dans une table
de la loi de Student à n − 1 = 49 degrés de liberté.
Ce qui donne, u = 2.02 et comme intervalle de confiance
µ ∈ [18.57, 21.43]

12- Dans une production continue de pièces manufacturières, on fait un contrôle de qualité par prélèvement
avec un échantillon de 100 pièces.
1. Pour chaque pièce, on procède à un contrôle de poids. On admet que cette mesure peut être modélisée
par une variable aléatoire exponentielle de paramètre a. Le paramètre de cette loi étant inconnu, on
estime les moments et l’on obtient respectivement, 5 g et 3. g pour la moyenne expérimentale, m, et
l’écart-type, s. Quelle est la confiance d’un intervalle de largeur 0.2 ?
Réponse: La variable aléatoire poids suit une loi exponentielle de paramètre a qui est aussi sa moyenne
théorique. On accède à ce paramètre par l’estimation de la moyenne. L’on a donc à déterminer un
intervalle de confiance autour de la moyenne estimée, i.e. IC(a) = IC(m). On est pas dans le cas d’une
loi normale mais l’échantillon est de grande taille, on peut donc appliquer la règle standard
ts
ICα : P (|a − m| < √ ) = α
n
La largeur de cet intervalle est 0.1 donc

ts
0.1 = √ ⇒ t = 0.3333
n
Dans la table de la loi de Student à 99 ddl, on constate que pour des ddl de 80 et 120, il n’y pas de
changements notables et l’on repère
VII-10
0.387 − 0.333
α = 0.3 − 0.1 × ≈ 0.26
0.387 − 0.254

2. Sur cet échantillon, on estime à 5% le taux de pièces défectueuses. Quel est l’intervalle de confiance à
90% autour de cette valeur ? Conclusion.
Réponse: Il s’agit de déterminer un intervalle de confiance d’une proportion qui est donné par
s
p(1 − p)
α = P rob(|p − fn | < u )
n
On utilisera l’approximation p = fn dans l’évaluation de la racine car la valeur expérimentale est

loin de 0.5. La valeur de u est lue dans une table de la loi normale centrée réduite et correspond à
P (|Y | < u) = 0.9 soit P (Y < u) = 0.95 avec Y : ℵ(0, 1). La lecture donne u = 1.645 et l’on obtient
l’intervalle de confiance suivant :
IC90% = 5% ± 3.6%
La fluctuation est très importante (du même ordre que l’estimation) et rend difficilement interprétable
la valeur obtenue pour la proportion. Il faut soit réduire la confiance, soit augmenter la taille de
l’échantillon. Ces remarques restent relatives aux attendus de l’application.

3. Donnez la taille minimale de l’échantillon pour que la largeur de cet intervalle soit au plus égale à 2%.
Réponse: En reprenant les résultats de la question suivante, on a
s
fn (1 − fn )
2u ≤ 0.02
n
avec fn = 0.05 et u = 1.645. Donc on obtient
n ≥ 1285

13- Sur un échantillon de 20 valeurs, on procède à une régression linéaire et on obtient les valeurs suivantes
pour les moyennes expérimentales : X = 6., Y = 9.7, XY = 60., X 2 = 52.5 et Y 2 = 95. Calculer les
paramètres â et b̂ de la droite de régression. Quelle est la confiance dans le modèle ? Conclusion.
Réponse : D’après les formules, on a
â = 60−6×9.7
52.5−36 = 0.109
b̂ = 9.7 − â × 6 = 9.05
ρ̂ = √ 60−6×9.7 2 = 0.46
(52.5−36)(95−9.7 )
La qualité du modèle estimée par le coefficient de corrélation ρ̂ est très faible, le modèle linéaire n’est
pas adapté.

VII-11
14- Dans une production continue de pièces manufacturières, on fait un contrôle de qualité par prélèvement
avec un échantillon de 80 pièces.
1. Pour chaque pièce, on procède à un contrôle dimensionnel. On admet que cette mesure peut être
modélisée par une variable aléatoire normale ℵ(µ, σ 2 ). Les paramètres de cette loi étant inconnus, on
les estime et l’on obtient, respectivement, 10 cm et 0.20 cm pour la moyenne expérimentale, m, et
l’écart-type, s. Quelle est la confiance d’un intervalle de largeur 0.1 autour de la moyenne ?
Réponse: Il s’agit de déterminer un intervalle de confiance d’une moyenne d’une loi normale, son
écart-type étant inconnu. Donc cet intervalle est donné par
s s
α = P rob(m − t √ < µ < m + t √ )
n n
avec 0.1 = 2t √sn d’où t = 2.236. On sait par ailleurs que t est à lire dans la table de la loi de Student
pour 79 degrés de liberté. Compte tenu de la faible variation autour de 80 on approxime la lecture par
celle de la ligne 80 degrés de liberté. On obtient
0.05 2.
1−α=p 2.236
0.02 2.39
et donc
2.39 − 2.236
p = 0.02 + (0.05 − 0.02) = 0.032
2.39 − 2.
La confiance de l’intervalle de largeur 0.1 autour de la moyenne expérimentale est 96.8%.

2. Sur cet échantillon, on estime à 4% le taux de pièces défectueuses. Quel est l’intervalle de confiance à
90% autour de cette valeur ? Conclusion.
Réponse: Il s’agit de déterminer un intervalle de confiance d’une proportion qui est donné par
s
p(1 − p)
α = P rob(|p − fn | < u )
n
On utilisera l’approximation p = fn dans l’évaluation de la racine car la valeur expérimentale est

loin de 0.5. La valeur de u est lue dans une table de la loi normale centrée réduite et correspond à
P (|Y | < u) = 0.9 soit P (Y < u) = 0.95 avec Y : ℵ(0, 1). La lecture donne u = 1.645 et l’on obtient
l’intervalle de confiance suivant : IC90% = 4% ± 3.6%.
La fluctuation est très importante (du même ordre que l’estimation) et rend difficilement interprétable
la valeur obtenue pour la proportion. Il faut soit réduire la confiance, soit augmenter la taille de
l’échantillon. Ces remarques restent relatives aux attendus de l’application.

3. Sur le même échantillon, quelle est la probabilité que la valeur vraie de σ soit supérieure à 0.25 cm ?
Réponse: Il s’agit de déterminer un intervalle de confiance d’une variance d’une loi normale. Donc
cet intervalle est donné par
VII-12
nS 2
P rob(σ 2 > = 0.252 ) = α
k
où S 2 est la variance expérimentale avec biais donnée par
n
1X
S2 = (xi − m)2
n 1
On sait que v
u n
u 1 X
s = 0.2 = t (xi − m)2
n−1 1
donc
79
S 2 = 0.22 × = 0.0395
80
nS 2
k = 0.252 donc k = 50.56. La valeur k est reportée dans la table de la loi du χ2 à 79 degrés de
liberté.
0.005 50.376
α 50.56
0.01 52.725
et donc
50.56 − 50.376
α = 0.005 + (0.01 − 0.005) = 0.00539
52.725 − 50.376
La probabilité que l’écart-type vrai soit plus grand que 0.25 est donc 0.54%.

7-4 Tests d’hypothèses
1- La répartition des durées de 670 vols Paris-Alger est donnée dans le tableau suivant:
Durée Nombre % % cumulé

1.9-1.95 19 2.8 2.8
1.95-2. 19 2.9 5.7
2.-2.05 39 5.8 11.5
2.05-2.1 48 7.2 18.7
2.1-2.15 87 12.9 31.6
2.15-2.2 94 14.1 45.7
2.2-2.25 104 15.5 61.2
2.25-2.3 92 13.7 74.9
2.3-2.35 57 8.5 83.4
2.35-2.4 44 6.6 90.0
2.4-2.45 28 4.2 94.2
2.45-2.5 26 3.9 98.1
2.5-2.55 13 1.9 100
VII-13
Cette distribution est-elle normale ?
2- Soit la suite de valeurs: 23, 14, 41, 50, 43, 70, 63, 91, 85, 113, 122, 134, 117, 108, 96. Cette suite constitue-
t-elle un échantillon formé de réalisations indépendantes ?
Réponse : On peut tout d’abord utiliser le test de Spearman. Pour cela, on construit la table suivante
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
SI 23 14 41 50 43 70 63 91 85 113 122 134 117 108 96
R 2 1 3 5 4 7 6 9 8 12 14 15 13 11 10
ST 14 23 41 43 50 63 70 85 91 96 108 113 117 122 134
où i est le rang initial des valeurs de la séquence initiale SI et R le rang final de la valeur de la deuxième
6×64
ligne dans séquence triée ST. L’indicateur de Spearman a donc pour valeur 1 − 15×224 = 0.886. D’après
la table de Spearman, on rejete l’hypothèse d’indépendance quelque soit la valeur du risque.
On peut aussi utiliser le test des différences premières. On construit alors la table suivante
SI 23 14 41 50 43 70 63 91 85 113 122 134 117 108 96

yi - + + - + - + - + + + - - -
où les yi sont les signes des différences

√ entre deux valeurs consécutives. L’indicateur des différences
premières est donc Ind = |7−7|
√
16
12 = 0. On accepte donc l’hypothèse d’indépendance quelque soit le
risque.
Si les deux tests sont contradictoires, c’est qu’ils ne testent pas la même nature d’indépendance.

3- On dispose d’un échantillon de 500 valeurs dont on veut savoir si il correspond à une distribution de
type loi normale. On procède à un test du χ2 et la valeur de l’indicateur est 30. Sachant que l’on a
constitué 17 classes, déterminer si l’adéquation est acceptable.
Réponse : Le nombre de degrés de liberté du test est ν = 17 − 3 = 14 (on doit estimer les deux
paramètres de la loi normale). Par lecture dans la table du χ2 on obtient les valeurs suivantes
p v
0.99 29.141
p 30
0.995 31.319
Par une approximation locale, on a alors

30 − 29.141
p = 0.99 + (0.995 − 0.99) × = 0.992
31.319 − 29.141
L’hypothèse est donc acceptable jusqu’à un risque de 0.8% ce qui est très faible.

4- On dispose de deux échantillons dont on sait qu’ils sont liés à deux variables aléatoires X1 et X2 dont
les lois sont, respectivement, N (µ1 , σ1 ) et N (µ2 , σ2 ). Quel test proposez-vous pour tester l’indépendance
de ces deux échantillons ?
5- On introduit une modification sur une chaı̂ne de production et l’on souhaite en mesurer l’impact. Pour
cela, on utilise un indicateur de performance lié au nombre de clients servis dans les délais. On obtient
les valeurs suivantes au cours de l’expérimentation:
VII-14
Indicateur
Mesure avant après
1 148 165
2 155 155
3 144 132
4 129 152
5 154 133
6 144 145
7 132 151
8 147 145
9 151 144
10 119 143
Commenter l’impact de la modification sur la chaı̂ne de production.

6- On dispose d’un échantillon de n matériels identiques et on note les durées de vie en heures x1 , x2 , . . . , xn .
On obtient les valeurs:
x1 = 133 x2 = 169 x3 = 8 x4 = 122 x5 = 58
Tester le caractère exponentiel de la loi de fiabilité par les tests de Kolmogorov-Smirnov et Cramer-Von
Mises.
7- Le temps X mis par une machine A pour fabriquer une pièce suit une loi normale de paramètres
µ = 48min et σ = 5min. La machine A tombant en panne, on fabrique la même pièce avec une machine
B. On suppose que le temps de fabrication suit une loi normale de même écart type. Pour un échantillon
de 25 pièces réalisées, on a obtenu un temps moyen de fabrication, m = 51min. La machine B est-elle
aussi performante que la machine A au risque 0.05 ?
Réponse : On teste l’hypothèse H0 : m = 48 avec un test bilatéral ou unilatéral. Dans les deux cas,
la conclusion est que la machine B est moins performante.

8- Après une enquète sur un échantillon de 500 ménages, on a constaté que 415 ménages possèdaient une
voiture. Au risque 5%, cela contredit-il l’hypothèse que 80% des ménages possèdent une voiture ? Quel
est l’intervalle de confiance au risque 5% autour de la valeur trouvée ?
Réponse : Il s’agit dans un premier temps de réaliser un test bilatéral sur un proportion. L’hypothèse
H0 porte sur la valeur vraie 0.8 (H0 : p = 0.8 contre H1 : p 6= 0.8).
La région critique du test est donnée par
r
0.8 × 0.2
|fn − 0.8| > u α2 = 0.018u α2
500
où u α2 est lu dans la table de la loi ℵ(0, 1).
Pour α = 5%, on obtient u = 1.96 et donc
|fn − p| > 0.035
Dans notre exemple, fn = 0.830, donc |fn − p| = 0.03 < 0.035, on peut donc accepter l’hypothèse H0 .
Cependant, on se trouve au voisinage de la valeur seuil.
L’intervalle de confiance à 95% autour de la valeur trouvée fn est définie par
r
0.83 × 0.17
P (|p − 0.83| < u )=α
500
VII-15
où u est lu dans la table de la loi ℵ(0, 1). On trouve u = 1.96 et donc l’intervalle [0.797, 0.863].
La valeur vraie 0.8 est bien dans l’intervalle mais de justesse de même que pour le test précédent. Il
y a donc une sensibilité à envisager en fonction de la valeur du risque dans les deux cas.

9- Une entreprise fait un test de conformité sur un produit qu’elle fabrique par une analyse de sa chaı̂ne de
production. Une étude théorique permet de conduire à un pourcentage de conformité C = 97%. Compte
tenu de la valeur marchande des pièces, on veut procéder à un test bilatéral sur cette proportion par
rapport à la valeur nominale au risque 0.5%. Commentez le choix de ce risque. On réalise le prélèvement
d’un échantillon de taille n = 30 et on obtient Cn = 0.933. Doit-on rejeter la valeur théorique ?
Réponse : Le risque de 0.5% est très très faible et conduira très vraisemblablement à une acceptation
systématique sans réelle signification. Ce risque peut cependant se justifier par la valeur marchande
élevée des pièces qui pousse à ne pas les mettre au rebut sauf si on est sûr de leur non conformité.
On construit le test suivant :
H0 : C = 0.97
H1 : C 6= 0.97
La région critique est donnée par
s
C(1 − C)
|Cn − C| > uα/2
n
où la valeur de uα/2 est lue dans une table de la loi normale N (0, 1).
Dans notre cas, on a P (Y < u) = 0.9975 → u = 2.81 et donc l’écart maximal entre estimation et
valeur théorique est s
0.97(1 − 0.97)
|Cn − C|max = 2.81 = 0.0875 = λ
30
L’écart constaté sur l’échantillon est 0.97 − 0.933 = 0.037 < λ, on accepte donc l’hypothèse H0 sur la
valeur théorique.

7-5 SPC
1- Sur une chaı̂ne de production, on procède à une campagne de mesures (n = 100). Cet échantillon
est caractérisé par sa moyenne x̄ = 70 et son écart-type σ = 5. Les spécifications de cette production
sont (LSL, µ, T, U SL) = (50, 70, 75, 100). Calculer les 4 indicateurs de capabilité. Que pouvez-vous en
déduire ? Interprétation.
Réponse : Les indicateurs sont
Cp 1.67
Cpk 1.33
Cpm 1.18
Cpmk 0.94
VII-16
Cp est supérieur à 1.33, on peut donc envisager d’implanter un contrôle statistique. Mais les trois
autres indicateurs sont moins satisfaisant. Une campagne plus approfondie est nécessaire.

2- On souhaite construire une carte-contrôle pour une fabrication dans laquelle on considère comme
acceptable une proportion de pièces défectueuses p1 = 0.02.
(a) Sachant qu’on prélève un échantillon de taille n, quelle est la loi de la v.a. K, nombre de pièces
défectueuses contenue dans l’échantillon ?
(b) Déterminer les nombres k1 et k2 tels que
Prob(K < k1 ) = 0.95
Prob(K < k2 ) = 0.99
sachant que n = 100.

(c) Construisez la carte de contrôle. Indiquez en le mode d’emploi.
(d) En utilisant cette carte contrôle, quelle est la probabilité de laisser la fabrication se poursuivre alors
que la proportion de défecteux est en réalité p2 = 0.04 ou p2 = 0.08 ? Qu’en pensez-vous ?
7-6 Sujets généraux
7-6 .1 Problème 1
1- (8 pts) Une machine fabrique des pièces rectangulaires dont les deux côtés sont X et Y . Cette machine
est sujette à des dérèglements qui induisent, indépendamment, des variations dans les cotes théoriques
qui rendent aléatoires les cotes mesurées. Une analyse systématique des pièces a montré que ces erreurs
sont faibles en valeur, symétriques et de même amplitude et variation pour les deux cotes.
1.1 (1 pt) Proposer un modèle (loi) pour les deux variables X et Y .
Compte tenu des hypothèses sur les erreurs, on peut faire une hypothèse de répartition selon des lois
normales. On posera X : ℵ(E[X], σ 2 ) et Y : ℵ(E[Y ], σ 2 ). Les amplitudes et variations des deux variables
étant les mêmes, on peut faire l’hypothèse d’égalité des variances.
A partir de ces deux variables, on construit deux nouvelles variables aléatoires d’erreur EX et EY par
EX = X − E[X] et EY = Y − E[Y ]. Afinqde simplifier le test de validité des pièces, on impose une seule
tolérance sur la norme de l’erreur, N = EX 2 + E 2 . On supposera par la suite que V ar[X] = V ar[Y ].
Y
1.2 (2 pts) Quelles sont les lois (avec moyennes et écarts types) des variables aléatoires EX et EY ?
Par simple propriété de la loi normale, on obtient EX : ℵ(0, σ 2 ) et EY : ℵ(0, σ 2 ).
1.3 (2 pts) Quelle est la loi de la variable aléatoire N ?
Compte tenu de l’hypothèse d’indépendance entre les variables et par définition, la variable N suit une
loi de Raleigh.
1.4 (3 pts) On prélève un échantillon relatif à la variable aléatoire N . Cependant, celui-ci est perturbé
par des données non significatives. On ne peut pas se fier au calcul de la moyenne empirique ni à celui
de la variance pour déterminer le paramètre σN de la loi. Proposez une autre méthode pour estimer le
paramètre de la loi.
VII-17
La densité de probabilité de la loi de Raleigh est donnée par
2
x − x2
f (x) = 2 e 2σN
σN
La densité de Raleigh est une fonction unimodale (courbe de Gauss légèrement asymétrique). Elle a
donc un seul maximum qui est situé à la valeur qui annule sa dérivée donnée par
2
0 1 − x2 2x2
f (x) = 2 e 2σN (1 − 2 )
σN 2σN
qui s’annule pour x = σN .
On peut donc, à partir de la densité empirique, repérer la valeur maximale, i.e.,
q le mode, et en déduire
une estimation de σ et de fait de la moyenne empirique puisque celle-ci vaut σ π2 .
2- (6 pts) On considère une unité de production organisée en ı̂lots. Sur chacun, on résume la qualité de
la production par une mesure calibrée entre -1 et 1. On désire tester l’architecture et particulièrement les
effets de propagation des dysfonctionnements d’approvisionnement en provenance du stock central. Sous
l’hypothèse de répartition uniforme des dysfonctionnements, on peut déterminer les valeurs théoriques de
la moyenne et de la variance de l’indicateur de qualité. Pour la configuration concernée, composée de
250 ı̂lots, et sous cette hypothèse, on obtient les valeurs vraies suivantes : E[Q] = 0., V [Q] = 0.05. Une
série de mesures sur les ı̂lots conduit à l’estimation suivante : Ê[X] = 0.035. Que pouvez-vous conclure ?
L’estimateur d’une moyenne peut être considéré comme une variable aléatoire de loi normale (l’échantillon
est de taille significative). Soit M cet estimateur, on a donc M : ℵ(E[X], V [X]
n ).
Pour tester la valeur l’hypothèse, on va se ramener à un test sur la valeur de la moyenne théorique,
variance connue. On procède au test bilatéral suivant :
H0 : E[X] = 0
H1 : E[X] 6= 0
Nous choisissons un risque de 5%.
La règle de décision fait intervenir P (Y > t) = 0.025 avec Y loi normale centrée et réduite. La table
correspondante nous donne t = 1.96. La détermination du seuil de la région critique du test donne
tσ
λ = E[X] + √ = 0 + 0.028
250
La règle de décision est donc
si |E[X] − Ê[X]| < 0.028 alors E[X] = 0 sinon E[X] 6= 0.
Donc dans notre cas, on conclut au rejet de l’hypothèse H0 .

On peut aussi raisonner à l’envers en recherchant la valeur du risque associée à l’hypothèse H0 . Dans
ce cas,
tσ
λ = 0.035 = E[X] + √ → t = 2.475
250
Par lecture dans la table de la loi normale, on obtient P (Y > 2.475) = 1 − 0.9933 = 0.67%. L’erreur de
première espèce est donc très très faible (inférieure à 1%) ce qui revient à dire que l’on est dans un cas
où l’on serait amener à ne jamais rejeter l’hypothèse H0 .
VII-18
Ces deux approches donne donc un même raisonnement qui conduit à conclure que l’hypothèse de
distribution uniforme des dysfonctionnements n’est pas validée par les données empiriques.
3- (3 pts) Une machine fabrique des pièces dont la longueur suit une loi normale de paramètres µ et
σ. On veut procéder à un test bilatéral sur la moyenne pour tester cette valeur par rapport à la valeur
nominale qui est 100 cm au risque 5%. Pour cela, on réalise un prélèvement d’un échantillon de taille
n = 100 et on obtient µ̂ = 99 cm et σ̂ = 2 cm. Doit-on rejeter H0 ?
On procède au test bilatéral suivant :
H0 : µ = 100
H1 : µ 6= 100
La règle de décision fait intervenir P (Y > t) = 0.025 avec Y loi de Student à 99 degrés de liberté. La
table correspondante nous donne t = 1.99. La détermination du seuil de la région critique du test donne
tσ̂
λ=µ+ √ = 100 + 0.398
100
La règle de décision est donc
si |µ − µ̂| < 0.398 alors µ = 100 sinon µ 6= 100.
Donc dans notre cas, on conclut au rejet de l’hypothèse H0 .
5- (3 pts) Afin de tester l’adéquation d’une loi à la loi exponentielle à partir d’un échantillon (de 50
valeurs), on procède à deux tests. Le test du χ2 (8 classes) accepte l’adéquation. Par contre, sur le même
échantillon, le test de Kolmogorov-Smirnov rejette l’hypothèse. Que pouvez-vous conclure ?
On peut préférer le test du KS qui est plus contraignant car pour le test du χ2 , on a 8 classes pour un
échantillon de taille 50 soit en moyenne 6 valeurs par classes ce qui est peu.
7-6 .2 Problème 2
1- (8 pts) Une machine fabrique des pièces rectangulaires dont les deux côtés sont X et Y . Cette machine
est sujette à des dérèglements qui induisent, indépendamment, des variations dans les cotes théoriques
qui rendent aléatoires les cotes mesurées. Une analyse systématique des pièces a montré que ces erreurs
sont indépendantes, faibles en valeur, symétriques et de même moyenne et variation pour les deux cotes.
1.1 (2 pts) Proposer un modèle (loi) pour les deux variables X et Y .
Compte tenu des hypothèses sur les erreurs, on peut faire une hypothèse de répartition selon des lois
normales. On posera X : ℵ(E[X], σ 2 ) et Y : ℵ(E[Y ], σ 2 ). Les amplitudes et variations des deux variables
étant les mêmes, on peut faire l’hypothèse d’égalité des variances.
A partir de ces deux variables, on construit une variable aléatoire d’erreur normalisée par
1 (X + Y − E[X + Y ])2
N=
2 V ar[X + Y ]
1.2 (3 pts) Quelle est la loi (avec moyenne et écarts type) de la variable aléatoire N ?
On obtient une loi Gamma de paramètres (λ, k) = (0.5, 1). Par définition, nous avons
k
E[N ] = λ =2
k
p
V [N ] = λ2
=4 ⇒ V [N ] = 2
VII-19
La densité de probabilité est donnée par
λk xk−1 e−λx 1 x
f (x) = = e− 2
Γ(k) 2
1.3 (3 pts) On prélève un échantillon relatif à la variable aléatoire N dont on souhaite vérifier la
loi. Cependant, celui-ci est perturbé par des données non significatives. On ne peut pas se fier au calcul
de la moyenne empirique ni à celui de la variance pour valider l’adéquation de la loi au modèle établit.
Proposez, en la justifiant, une autre méthode.
Puisque l’on connait la loi théorique avec ses paramètres, on peut construire, pour chaque valeur de
l’échantillon, une mesure de validité pourt rejeter ou accepter cette valeur. Ensuite, sur les données non
perturbées, on pourra procéder à un test de type KS ou χ2 .
2- (6 pts) On considère une unité de production organisée en n ı̂lots. Sur chacun, on résume la qualité
de la production par une mesure. Une analyse a montré que cette mesure, sur chaque ı̂lots, i suit une
loi normale Xi de paramètres µi et σi . Pour tester le comportement global, on construit une mesure
Mn = ni Xi2 . On utilise le carré pour se ramener à une mesure d’amplitude sans prendre en compte le
P
signe.
2.1 (1 pt) Quelle est la loi de la variable Mn ?
Il n’y a pas de loi connue pour cette variable aléatoire.
2.2 (3 pts) Proposez, en le justifiant, une nouvelle mesure Tn dont on pourrait exploiter la loi.
Si on procède à un centrage réduction des Xi donnant ainsi les variables Yi avant d’en faire la somme,
alors la nouvelle loi n X
Tn = Xi2
i
suivrait une loi du χ2 à n degrés de liberté. Cette opération peut se justifier si on veut compenser des
problèmes de calibrage entre les mesures Xi .
2.3 (2 pts) Sur une campagne de mesures, on obtient une réalisation de cette variable aléatoire,
tn = 137. Sachant qu’il y a 100 ı̂lots, donnez la valeur que cette nouvelle variable prenne une valeur
inférieure à cette mesure.
Pour une loi du χ2 à 100 degrés de libertés, on a les valeurs suivantes :
P (Tn < 135.8) = 0.99
P (Tn < 140.16) = 0.995
Par approximation linéaire entre ces deux valeurs, on obtient

137 − 135.8
P (Tn < 137) = 0.99 + 0.005 × = 0.9914
140.16 − 135.8
3- (3 pts) Une entreprise fait un test de validité sur un produit qu’elle fabrique. Une étude théorique
donne un pourcentage de rebuts p = 0.05. On veut procéder à un test bilatéral sur cette proportion par
rapport à la valeur nominale au risque 5%. Pour cela, on réalise un prélèvement d’un échantillon de
taille n = 100 et on obtient fn = 0.065 cm. Doit-on rejeter H0 ?
Le test d’hypothèse est donc :
H0 : p = 0.05
H1 : p 6= 0.05
VII-20
au risque 5%.
La région critique du test est alors
s
p(1 − p)
|Fn − p| > uα/2
n
où uα/2 est lu dans la table de la loi normale centrée réduite. Pour α = 0.05, on lit u = 1.96 d’où la
q
0.05×0.95
région critique |Fn − 0.05| > 1.96 100 = 0.0218. Comme |fn − 0.05| = 0.015, on peut accepter H0
au risque 5%.
4- (3 pts) Afin de tester l’adéquation d’une loi à la loi binomiale à partir d’un échantillon (de 80 valeurs),
on procède à deux tests. Le test du χ2 (10 classes) accepte l’adéquation. Par contre, sur le même
échantillon, le test de Kolmogorov-Smirnov rejette l’hypothèse. Que pouvez-vous conclure ?
L’application du test du χ2 se fait dans de bonnes conditions puisque le nombre d’échantillons et
le nombre de classes sont significatifs. On peut donc accepter le résultat du test. Le rejet du test du
KS indique simplement qu’une approche plus restrictive donne un résultat contraire. Une analyse de
l’échantillon est donc nécessaire pour savoir si il n’a pas été perturbé.
7-6 .3 Problème 3
1- (6 pts) On souhaite établir un contrôle statistique de fabrication sur une unité de production. Sur
un échantillon de taille 100, on procède à une estimation de la mesure de référence. On obtient une
moyenne de 70 et un écart type de 7.
1.1 (3 pts) Construisez l’intervalle de confiance à 90% autour de l’estimation de l’écart type.
On doit tout d’abord faire une hypothèse sur la distribution des mesures. Afin de pouvoir faire un
intervalle de confiance sur la moyenne, on supposera que les données sont distribuées selon une loi
normale.
Comme la moyenne est inconnue (et donc estimée), l’intervalle de confiance est donné par
 
ns2 ns2
 ; 
χ21− α (n − 1) χ2α (n − 1)
2 2
avec n = 100 et α = .90

D’après la table du χ2 on obtient
χ21− α (n − 1) = χ20.95 (99) = 123.25

2
χ2α (n − 1) = χ20.05 (99) = 77.046

2
et donc l’intervalle de confiance sur l’écart type est
7 × 10 7 × 10

√ ;√ = [6.31; 7.98]
123.25 77.05
VII-21
1.2 (1 pt) On définit la capabilité Cp de l’unité de production par Cp = 50/(6σ̂) où σ̂ est l’estimation
de l’écart-type. Quelles sont les valeurs extrèmes de cette capabilité à 90% de confiance ?
Les valeurs extrèmes sont données par
50
Cp (min) = = 1.045
6 × 7.98
et
50
Cp (max) = = 1.32
6 × 6.31
1.3 (2 pts) En vous référant à la table page V-3, qualifiez les capabilités obtenues.
En se référant à la table de la page V-3 du polycopié, on déduit que les capabilités min et max sont entre
mauvaises (1) et très moyennes (1.33). Il est donc difficile d’implanter un contrôle statistique sur cette
unité de production. Ce commentaire, interprétant la capabilité, est rendu possible par l’hypothèse de
loi normale formulée au début.
2- (6 pts) Dans un processus de production, un système de surveillance arrète le processus si un indicateur
de sécurité atteint une valeur de référence. On estime à p la probabilité que cet indicateur atteigne la
valeur de référence sur une unité de temps. Après chaque unité de temps, l’indicateur est réinitialisé.
Celui-ci est sans mémoire. On note X la variable aléatoire qui donne la durée de fonctionnement (en
nombre d’unités de temps) du processus sans interruption.
2.1 (2 pts) Quelle est la loi de la variable X ?
La loi de X est une loi géométrique de paramètre p (loi du nombre d’essais pour faire appraı̂tre un
évènement de probabilité p).
2.2 (2 pts) On constate que P rob(X = 10) = 0.0165. Sachant que p est très petit, proposez une
estimation de p.
La probabilité d’une loi géométrique de paramètre p est
P (X = x) = p(1 − p)x−1
Pour p très petit, on peut approximer cette probabilité par P (X = x) ≈ p(1 − (x − 1)p). Donc
0.0165 = p − 9p2
d’où
p ∈ {0.02; 0.09}
Par remplacement, on trouve aisément que la deuxième valeur constitue une erreur d’approximation
car ne redonnant pas la probabilité correcte (P (X = 10) = 0.039). C’est donc l’approximation p = 0.02
que l’on retiendra.
2.3 (2 pts) Quelle est la probabilité que le processus se déroule sans interruption sur 23 unités de
temps ?
En application des résultats précédents, on trouve
P (X = 23) = 0.02 × (1 − 0.02)22 = 0.0128
3- (3 pts) Une entreprise fait un test de conformité sur un produit qu’elle fabrique par une analyse
de sa chaı̂ne de production. Une étude théorique permet de conduire à un pourcentage de conformité
VII-22
C = 97%. Compte tenu de la valeur marchande des pièces, on veut procéder à un test bilatéral sur cette
proportion par rapport à la valeur nominale au risque 0.5%. Commentez le choix de ce risque. On réalise
le prélèvement d’un échantillon de taille n = 30 et on obtient Cn = 0.933. Doit-on rejeter la valeur
théorique ?
Le risque de 0.5% est très très faible et conduira très vraisemblablement à une acceptation systématique
sans réelle signification. Ce risque peut cependant se justifier par la valeur marchande élevée des pièces
qui pousse à ne pas les mettre au rebut sauf si on est sûr de leur non conformité.
On construit le test suivant :
H0 : C = 0.97
H1 : C 6= 0.97
La région critique est donnée par

s
C(1 − C)
|Cn − C| > uα/2
n
où la valeur de uα/2 est lue dans une table de la loi normale N (0, 1).
Dans notre cas, on a P (Y < u) = 0.9975 → u = 2.81 et donc l’écart maximal entre estimation et
valeur théorique est s
0.97(1 − 0.97)
|Cn − C|max = 2.81 = 0.0875 = λ
30
L’écart constaté sur l’échantillon est 0.97 − 0.933 = 0.037 < λ, on accepte donc l’hypothèse H0 sur la
valeur théorique.
4- (2 pts) Afin de tester l’adéquation d’une loi à la loi binomiale à partir d’un échantillon, on dispose de
25 valeurs. Quel test préconisez-vous ? Pourquoi ?
Dans ce cas, avec un très faible échantillon, il n’est pas envisageable de réellement utiliser le test du χ2 .
On préfèrera donc un test de Kolmogorov-Smirnov. On peut aussi préférer le test de Cramer-Von Mises
qui est plus puissant (au sens de la puissance du test, 1 − β).
5- (3 pts) Démontrez que l’estimateur du maximum de vraisemblance du paramètre λ d’une loi de Poisson
est la moyenne expérimentale.
La fonction de vraisemblance de la loi de Poisson est donnée par
i=n
Y λxi e−λ
L(~x, λ) =
i=1
xi !
Soit en passant par le logarithme,

i=n
X
log L(~x, λ) = (xi × log(λ) − λ − log(xi !))
i=1
En dérivant par rapport au paramètre λ, on obtient
∂ log L(~x, λ) i=n

Pi=n
X 1 i=1 xi
= (xi × − 1) = −n
∂ i=1
λ λ
VII-23
L’estimateur de λ au sens du maximum de vraisemblance est obtenu en annulant cette expression, on
retouve donc bien la formule de la moyenne expérimentale
Pi=n
i=1 xi
λ̂ =
n
7-6 .4 Problème 4
1- (6 pts) Le merle à plastron est un oiseau qui en automne erre dans les bois clairs et les buissons des
montagnes. En 1968, une station ornithologique du Col de la Golèze située dans les Alpes françaises, a
capturé 48 merles à plastron au filet durant les 89 jours d’ouverture de la station. On note X la variable
aléatoire qui donne le nombre de merles capturés en fonction du nombre de jours.
1.1 (2 pts) Quelle est la loi de la variable X ?
Réponse : Si la répartition dans le temps des captures de merles à plastron est aléatoire, la distribution
de probabilité obéit à une loi de Poisson. En effet, chaque épreuve consiste en la capture d’un merle.
Cette capture se produit ou non un jour J donné. La probabilité qu’elle se produise le jour J est donc
1/89 = 0.011. Cette probabilité est faible et le nombre d’épreuves est important (48). Si ces épreuves
sont indépendantes (pas de phénomène d’habituation chez les merles), on peut faire l’hypothèse de la loi
de Poisson.
1.2 (2 pts) Quelle est la valeur du paramètre de cette loi ?
Réponse : Dans le cas de la loi de Poisson, le paramètre λ est obtenu par
1
λ = n × p = 48 × = 0.539
89
1.3 (2 pts) Quelle est la probabilité de capturer 2 merles en une journée ?

Réponse : La valeur est donnée par
e−0.539 0.5392
P (X = 2) = = 0.085
2!
2- (4 pts) Une entreprise fait un test de conformité sur deux machines. Sur des échantillons de tailles
respectivement pour les deux machines, 75 et 55, les nombres de défauts sont, respectivement pour les
deux machines, 7 et 5. Les deux machines sont-elles aussi fiables au risque 5% ?
Réponse : On veut tester l’hypothèse d’égalité des proportions théoriques de défauts sur les deux ma-
chines.
H 0 : p1 = p2
H1 : p1 6= p2
Pour cela, on construit l’indicateur

f1 − f2
z=q
p̂(1 − p̂)( n11 + 1
n2 )
avec
n1 f1 + n2 f2
p̂ =
n1 + n2
VII-24
Dans notre cas, on obtient
5+7
p̂ = = 0.0923
55 + 75
et
0.0909 − 0.0933
z=q = −0.0467
1 1
0.0923(1 − 0.0923)( 55 + 75 )
La région d’acceptation est définie par
[−t1− α2 , t1− α2 ]
où t1− α2 = t0.975 est lue dans la table de la loi normale centrée réduite par P (Y < t0.975 ) = 1.96.
Sans ambiguı̈té (0.0467 << 1.96), les deux machines sont équivalentes.
3- (4 pts) Soit X, une variable représentant le résultat des étudiants à un examen de mathématique. Sur
les 500 étudiants, on en a choisi 50 au hasard (sans remise). Leurs points sont les suivants : 40 élèves
ont eu 60 points; 5 élèves ont eu 50 points et les autres 30 points. Donner un intervalle de confiance
pour la moyenne échantillon à un niveau de confiance de 99%.
Réponse: Comme on ne sait rien sur la variable, on ne peut pas faire d’hypothèse de loi normale mais on
a plus de 30 valeurs pour faire les estimations. Donc on peut procéder aux estimations des moments.
40 5 5
m= × 60 + × 50 + × 30 = 56
50 50 50
40 5 5
s2 = × (60 − 56)2 + × (50 − 56)2 + × (30 − 56)2 = 84
50 50 50
50
On peut aussi utiliser un estimateur sans biais qui donne, s2 = 49 84 = 85.71
Pour la moyenne, cela donne m = 56 et pour l’écart type, on a s = 9.26.
On veut P (a < µ < b) = 0.99. On prend un intervalle symétrique de la forme P (m− √tsn < µ < m+ √tsn )
où t est lue dans une table de la loi de Student à 49 degrés de libertés, soit environ t = 2.69 ce qui nous
donne finalement un intervalle de confiance de la forme:
I99% = [52.5; 59.5]
4- (3 pts) Déterminez la valeur de l’espérance mathématique de la loi Gamma. (On rappelle que le
domaine de définition de cette loi est <+ .)
Réponse : La loi Gamma a pour densité de probabilité
λk xk−1 e−λx
f (x) =
Γ(k)
Et son espérance mathématique est
λk xk−1 e−λx
Z +∞
E[] = x dx
0 Γ(k)
Z +∞ k k −λx
λ x e
E[] = dx
0 Γ(k)
VII-25
On rappelle de plus que Z +∞
Γ(x) = ux−1 e−u du
0
On pose tout d’abord y = λx, avec dy = λdx. On obtient alors

Z +∞ k −y Z +∞
y e 1 1
E[] = dy = y k e−y dy = Γ(k + 1)
0 λΓ(k) λΓ(k) 0 λΓ(k)
La fonction Γ() est telle que

Γ(k + 1) = kΓ(k)
Donc
k
E[] =
λ
On peut aussi obtenir ce résultat par intégration par partie, en posant
U 0 (y) = e−y dy U (y) = −e−y

V (y) = y k V 0 (y) = ky k−1
On obtient alors
ky k−1 e−y
Z +∞
E[] = [−y k e−y ]+∞
0 + dy
0 λΓ(k)
Soit
ky k−1 e−y
Z +∞
k
E[] = dy = Ik−1
0 λΓ(k) λΓ(k)
où Z +∞
Ik = y k e−y dy
0
Par récurrence, on obtient alors

Z +∞
k.(k − 1) . . . 1 k! k k
E[] = I0 = e−y dy = [−e−y ]+∞
0 =
λΓ(k) λΓ(k) 0 λ λ
k
E[] =
λ
5- (3 pts) Dans l’hôpital Hiks, la salle Igrec contient 30 patients contaminés par le virus Zed. Le traitement
que l’on fournit, guérit avec une probabilité de réussite de 4/7. Quelles sont les probabilités de ne pas
guérir 10 patients ? Et 25 patients ?
Réponse : On suppose que tous les patients sont équivalents en regard du traitement. Soit la variable
aléatoire X, vrai/faux, associé à l’évènement ”ne pas guérir un patient”. On construit, par répétition,
une variable aléatoire Y de type binomiale. Y = n est donc associé à l’évènement, ”ne pas guérir n
patients”. On peut donc dire que
10 4 20 3 10
P (ne pas guérir 10 patients) = P (Y = 10) = C30 ( ) ( ) = 0.0865
7 7
De même, on obtient
25 4 5 3 25
P (ne pas guérir 25 patients) = P (Y = 25) = C30 ( ) ( ) ≈ 5.5 × 10−6
7 7
VII-26
8 Bibliographie
Cette bibliographie ne se veut pas représentative des centaines de livres couvrant le domaine des prob-
abilités et statistiques. Il s’agit simplement de la liste des documents qui ont été utilisés lors de la
réalisation de ce polycopié.
[Cha 94] P.Chang & K.Lu (1994) PCI Calculations for Any Shape of Distribution with Percentile, Qual-
ity World-Technical Supplement, Sep., 110–114.
[Deh 96] O.Deheuvels (1996) La probabilité, le hasard et la certitude, Presses Universitaires de France,
Que sais-je, 3.
[Dio 97] E.Dion (1997) Invitation à la théorie de l’information, Edition du Seuil, Collection Point Sci-
ences.
[Dud 73] R.O.Duda & P.E.Hart (1973) Pattern Classification and Scene Analysis, John Wiley & Sons,
New York.
[Gho] D. Ghorbanzadeh (1998) Probabilités : Exercices corrigés, Editions Technip.
[Gou 81] C.Goujet & C.Nicolas (1981) Mathématiques Appliquées: probabilités, initiation à la recherche
opérationnelle, Masson.
[Iso 95] ISO Standard (1995) Statistical methods for Quality Control, 4th edition, ISO Standards Hand-
book.
[Joh 93] N.L.Johnson & S.Kotz (1993) Process Capability Indices, Chapman & Hall.
[Kun 91] M.Kunt (1991) Techniques modernes de traitement numérique des signaux, Presses polytech-
niques et universitaires romandes.
[Mon 96] D.C.Mongomery (1996) Introduction to Statistical Quality Control, 3rd edition, Wiley and sons,
Inc.
[Per 00] G.Perrin (2000) Effects of non-normality on Cost of Quality, University of Nottingham, Divi-
sion of Manufacturing Engineering and Operations Management.
[Pre86] W.H.Press, B..Flannery, S.A.Teukolsky & W.T.Vetterling, Numerical Recipes: The Art of
Scientific Computing, Cambridge University Press, 1986.
[Rea96] J.P.Reau & G.Chauvat, Probabilités et statistiques. Excercices et corrigés, Armand Colin, Col-
lection cursus TD, série économie, 1996.
[Sap 90] G.Saporta (1990) Probabilités, Analyse des données et statistique, Edition Technip.
[Sch 84] D.Schwartz (1984) Méthodes statistiques à l’usage des médecins et des biologistes, Flammarion,
Médecine-Sciences, Collection Statistique en biologie et médecine.
[Sch 80] J.J.Schwarz (1980) Combinatoire et Probabilités, Polycopié de cours, Département Informa-
tique, INSA Lyon.
[Sch 80b] J.J.Schwarz (1980) Statistique: rappels de cours et exemples, Polycopié de cours, Département
Informatique, INSA Lyon.
[Sch 88] B.Scherrer (1988) Biostatistique, Edition Gaetan Morin.
Bib-1
De même, les liens suivants (valides au moment du tirage du polycopié) sont quelques points d’entrée
sur le Web. Cette liste s’intensifiera si vous trouvez des liens intéressants et que vous m’en faites part.
• http://www.statsoft.com/textbook/stathome.html : une bible en anglais de tout ce que vous pouvez

réver en statistique.
• http://www.fourmilab.com/rpkp/experiments/contents.html : pour ceux qui s’intéressent au pou-

voir de la pensée sur les nombres.
• http://www.dagnelie.be : une introduction sur les livres de statistiques de Pierre Dagnelie.
• http://www.cons-dev.org/elearning/stat/St1.html : un cours très complet sur les tests.
Bib-2

795

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

795

Uploaded by

Copyright:

Available Formats

Probabilités et Statistique

May 26, 2006

2 Variables aléatoires II-1

4 Tests d’hypothèse IV-1

5 Le Contrôle Statistique de Process: SPC V-1

1.1 Notions de probabilités

1.2 Analyse combinatoire (rappels)

1.2.2 Arrangements de p objets parmi n

Nombre de possibilités de ranger p objets choisis parmi n : Apn = n!

Arrangement de n objets parmi n en tenant compte de l’ordre : Pn = Ann = n!.

1.3 Epreuves et Evènements

A partir de ces notions, on peut préciser le calcul de probabilités d’un évènement A :

1.4 Espace probabilisé

1.4.1 Axiomatique de Kolmogorov

1.4.2 Propriétés élémentaires

De l’axiomatique de Kolmogorov, on peut déduire les propriétés suivantes :

Si lim An = ∅ alors lim P (An ) = 0

Remarque : P (A) = 0 6⇒ A = ∅. De même, P (A) = 1 6⇒ A = Ω.

1.5 Probabilité conditionnelle - Théorème de Bayes

1.5.1 Théorème des probabilités composées

Soient deux évènements A et B réalisés respectivement n et m fois au cours de N épreuves. On a donc

En appliquant le théorème des probabilités conditionnelles, on a

P(Ci /A) = PNP(Ci )P(A/Ci )

Exemple : Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1 produit 5% de

1.6 Le paradoxe de Bertrand

2.1 Variable aléatoire : définitions

PX (B) = P ({w|X(x) ∈ B}) = P ({X −1 (B)})

Définition 4 Une v.a. X est discrète si Card[=] est fini ou dénombrable.

2.2 Fonction de répartition

F(x) = P(X < x)

• F est non décroissante.

2.2.3 Fonction de répartition d’une v.a. discrète

2.3 Fonction de répartition d’une v.a. continue

2.4 Couple de variables aléatoires

F (X, Y ) = P (X ∈] − ∞, x] ∩ Y ∈] − ∞, y]) = P (X < x et Y < y)

On a par définition, F (−∞, −∞) = 0 et F (+∞, +∞) = 1.

2.4.2 Cas d’un couple de v.a. continues

On note f la ddp conjointe de X et Y et l’on a par définition :

2.4.3 Cas d’un couple de v.a. discrètes

On note Pij = P (X = xi ∩ Y = yj ) pour i ∈ I et j ∈ J.

2.4.4 Distribution conditionnelle

et la densité de probabilité conditionnelle f (x/Y = y0 ) par

Si les deux v.a. sont indépendantes, alors on a

2.5 Loi d’une fonction d’une ou plusieurs variables aléatoires

2.5.1 Transformation d’une variable aléatoire

P (U = k) = P (ψ(X) = k) = P (X = ψ −1 (k)) = PX (ψ −1 (k))

la propriété précédente, on obtient

2.5.2 Densité de probabilité d’une somme de V.A. indépendantes

En particulier, si X et Y sont indépendantes, on a :

2.6 Moyenne et espérance mathématique d’une v.a.

2.6.1 Notion de moyenne pour une v.a. discrète

2.6.2 Espérance mathématique

où F est la fonction de répartition de X.

Grâce à un échantillon de taille N , on peut calculer une moyenne expérimentale de Y ( N1 ni=1 ξi ki )

Propriétés : Les propriétés de l’espérance mathématique proviennent de celle de l’opérateur intégral et

Soient X1 et X2 deux v.a. et a et b deux constantes.

E(a1 X1 + a2 X2 ) = a1 E(X1 ) + a2 E(X2 )

Plus généralement, pour toute fonction h, positive, continue, à support compact

dont le jacobien est

d’où l’on déduit la densité de probabilité fU

Pour les v.a. discrètes, cela donne : αn =

Moment centré d’ordre n. R +∞

• µ1 = E(X − E(X)) = E(X) − E(X) = 0

2.7.3 Variance, covariance et écart-type