You are on page 1of 26

Année universitaire 2022-2023

COURS DE STATISTIQUES

SEMESTRE 4
CPP-INP Bordeaux

Auteur : Florent ARNAL


Adresse électronique : florent.arnal@u-bordeaux.fr
Site : http://flarnal.e-monsite.com
Table des matières

1 Statistique descriptive 1
I Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.1 Notion de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2 Statistique descriptive à 1 variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
I.2.3 Quartiles d’une série statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I.3 Représentation graphique d’une série à l’aide d’un boxplot . . . . . . . . . . . . . . . . 4
II Statistique descriptive à 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.1 Méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.2 Equations des droites de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.3 Résidus de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
II.4 Coefficients de corrélation et de détermination . . . . . . . . . . . . . . . . . . . . . . . 8

2 Statistique inférentielle 13
I Estimateurs, estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.2 Échantillon d’une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.3 Erreur d’estimation et biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.4 Estimateur et estimation ponctuelle d’une moyenne . . . . . . . . . . . . . . . . . . . . 14
I.5 Estimateur et estimation ponctuelle d’une variance . . . . . . . . . . . . . . . . . . . . 15
I.5.1 Estimation de σ 2 lorsque µ est connue . . . . . . . . . . . . . . . . . . . . . . . . 15
I.5.2 Estimation de σ 2 lorsque µ est inconnue . . . . . . . . . . . . . . . . . . . . . . . 15
I.6 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
II Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
II.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
II.2 Intervalle de confiance d’une moyenne lorsque la variance est connue . . . . . . . . . . . 17
II.3 Intervalle de confiance d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . 18
III Tests de conformité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
III.1 Un peu d’histoire : Neyman, Pearson et Fisher . . . . . . . . . . . . . . . . . . . . . . . 19
III.1.1 Les tests selon Fisher : 1 hypothèse et 1 probabilité . . . . . . . . . . . . . . . . 19
III.1.2 Les tests selon Neyman-Pearson : 2 hypothèses et 1 région critique . . . . . . . . 19
III.2 Les tests des nos jours : l’approche N-P-F . . . . . . . . . . . . . . . . . . . . . . . . . . 19
III.3 Risques de première et de deuxième espèce . . . . . . . . . . . . . . . . . . . . . . . . . 20
III.4 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3
4 TABLE DES MATIÈRES
Chapitre 1

Statistique descriptive

I Rappels
I.1 Notion de variable
Les données statistiques se présentent sous la forme d’individus auxquels on associe des caractères (appelés
également “variables statistiques”). L’ensemble des individus constitue un échantillon (ou encore une série sta-
tistique), formant ainsi un sous-ensemble d’un groupe appelé “population”.
Les caractères statistiques peuvent être de plusieurs natures :

• Les variables qualitatives :


Les valeurs possibles d’une variable qualitative sont appelées les modalités.
Exemples : couleur de cheveux, sexe.
Remarque : On qualifie d’ordinale une variable qualitative pour laquelle la valeur mesurée sur chaque individu
est numérique (par exemple, une appréciation où l’on qualifie le produit de Passable (1) à très bon (5)).

• Les variables quantitatives (que l’on peut mesurer) ;


⋆ Les variables quantitatives discrètes prenant des valeurs (isolées) dans un ensemble fini ou dénombrable
(par exemple N).
Exemple : Notes.
⋆ Les variables quantitatives continues prenant leurs valeurs dans un intervalle de R (voire R).
Exemples : taille d’un individu, pH, masse.

I.2 Statistique descriptive à 1 variable


I.2.1 Paramètres de position
1. Médiane d’une série

Définition 1 : La médiane notée Me est un nombre réel tel que la moitié des observations lui sont
inférieures (ou égales) et la moitié supérieures (ou égales).

Remarque 1 : La médiane partage la série statistique (xi )1≤i≤N en deux groupes de ”même effectif”
(les valeurs du caractère étant rangées par ordre croissant).
Cas d’une série discrète d’effectif total N (les observations étant rangées par ordre croissant).
On convient que :
• Si N impair, la médiane est telle que Me = x N +1 .
2
x N +x N +1
• Si N est pair, on convient que la médiane est Me = 2
2
2
.

Exemple 1 : La série (1; 3; 4; 6; 8; 8) admet pour médiane Me = 5.

1
2 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

2. Moyenne d’une série


p
P
Définition 2 : La moyenne (pondérée) d’une série statistique (xi ; ni )1≤i≤p telle que ni = n est le
i=1
réel noté x défini par :
p
1X
x= ni xi
n i=1

Remarque 2 : La moyenne et la médiane d’une distribution statistique s’expriment dans la même unité
que les valeurs prises par le caractère étudié.
Il est à noter que la médiane présente l’avantage par rapport à la moyenne de ne pas dépendre des valeurs
extrêmes qui peuvent être suspectes voire aberrantes.

Proposition 1 : Soit (xi )1≤i≤n une série statistique. On a :


X
(xi − x) = 0
1≤i≤n

I.2.2 Paramètres de dispersion


1. L’étendue

Définition 3 : L’étendue d’une série statistique est la différence entre la plus grande et la plus petite
valeur observées. On la note souvent R voire e.

Exemple 2 : Les séries (1; 3; 4; 6; 8; 8) et (1; 7; 7; 8; 8; 8) ont la même étendue R = 7.

Remarque 3 : Comme l’étendue ne permet pas de différencier les séries, elle n’est pas ici une très
bonne mesure de la dispersion. D’une façon générale, quand il existe des valeurs extrêmes, l’étendue est
une mesure médiocre de la dispersion. Il est donc utile de faire appel à de nouveaux paramètres comme
la variance et l’écart-type.

2. La variance et l’écart-type

p
P
Définition 4 : La variance de la série (xi ; ni )1≤i≤p telle que ni = n est définie par :
i=1

p
2 1X 2
σX = ni (xi − x)
n i=1

Le réel σX est appelé écart-type de la série (xi ).


p
P 2
Le réel SCEX = ni (xi − x) est appelé Somme des Carrés des écarts (à la moyenne). On note :
i=1

2 SCEX
σX =
n

Remarque 4 : La variance d’une série statistique correspond à la moyenne des carrés des écarts
à la moyenne.
L’écart-type permet ainsi de mesurer la dispersion autour de la moyenne d’une série statistique.
Plus l’écart-type est faible, plus la série est homogène.
Il s’exprime dans la même unité que les valeurs observées.
I. RAPPELS 3

Remarque 5 : [Formule de Koenig-Huygens]


En développant la somme des carrés des écarts, on a :
n n n n n
(xi − x)2 = xi 2 + x2 − 2xxi = xi 2 + nx2 − 2x xi 2 + nx2 − 2xnx
P P  P P P
xi =
i=1 i=1 i=1 i=1 i=1
n n
(xi − x)2 = xi 2 − nx2 ce qui implique
P P
On a donc :
i=1 i=1

n
2 1X 2
σX = xi − x2 (1.1)
n i=1

Exemple 3 : Considérons la série (5; 7; 9; 11; 13).


On a : x = 9 et SCE = (5 − x)2 + · · · + (13 − x)2 = 40.
2 SCE √
Ainsi : σX = = 8 et σX = 2 2.
N

I.2.3 Quartiles d’une série statistique


Les valeurs étant rangées par ordre croissant, on rappelle que la médiane partage la population en deux popu-
lations (basse et haute).

Définition 5 : On appelle premier quartile Q1 la médiane de la partie basse de la population, troisième


quartile Q3 la médiane de la partie haute de la population.

Remarque 6 : Les quartiles correspondent aux valeurs prises par le caractère qui partagent la série en quatre
groupes de même effectif.
Le premier quartile peut être considéré comme la plus petite valeur du caractère telle qu’ au moins 25 % des
valeurs lui sont inférieures ou égales.

Définition 6 : L’intervalle [Q1 ; Q3 ] est appelé intervalle interquartile.


La longueur de cet intervalle Q3 − Q1 , parfois noté EIQ, est appelée écart interquartile.

Remarque 7 : L’intervalle interquartile est un paramètre de dispersion qui élimine les valeurs extrêmes qui
peuvent être douteuses, ce qui est un avantage par rapport à l’étendue.
Cependant, il ne tient compte que de 50 % de la population ce qui engendre une perte parfois conséquente
d’information.

Les quartiles ne sont qu’un cas particulier de la notion de quantiles (https://fr.wikipedia.org/wiki/Quantile).

Bilan : Résumés d’une série statistique par ses paramètres

• Le couple (médiane ; étendue) est le plus ”simple” à déterminer mais ne permet pas de situer les valeurs
extrêmes par rapport à la moyenne.
• Le couple (médiane ; intervalle ou écart interquartile) est plus précis que le précédent car il est insensible
aux valeurs extrêmes.
4 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

I.3 Représentation graphique d’une série à l’aide d’un boxplot


Pour représenter une série (variable) quantitative, il est souvent utile d’utiliser un boxplot (boı̂te à moustaches).
On repère sur la boı̂te à moustaches d’une variable :

• l’échelle des valeurs de la variable, située sur l’axe vertical ;

• la valeur du premier quartile Q1 , correspondant au trait inférieur de la boı̂te ;

• la valeur de la médiane Me , représentée par un trait horizontal à l’intérieur de la boı̂te ;

• la valeur du troisième quartile Q3 , correspondant au trait supérieur de la boı̂te ;

• les 2 ≪moustaches≫ inférieure et supérieure délimitent les valeurs dites adjacentes qui sont déterminées
à partir de l’écart interquartile (Q3 − Q1 ). La valeur extrême de la moustache inférieure correspond à la
plus petite des valeurs supérieures ou égales à Q1 − 1, 5 ∗ (Q3 − Q1 ). La valeur extrême de la moustache
supérieure correspond à la plus grande des valeurs inférieures ou égales à Q3 + 1, 5 ∗ (Q3 − Q1 ) ;

• d’éventuelles valeurs suspectes situées au-delà des valeurs extrêmes définies ci-dessus peuvent apparaı̂tre
et sont représentées par des marqueurs (rond, étoile, etc.). Dans le cas où il n’existe pas de valeur suspecte,
les valeurs extrêmes des moustaches correspondent aux valeurs minimales et maximales.

Exemple 4 : Considérons la série suivante : (1; 3; 4; 5; 6; 7; 9; 10; 17).


On a : Me = 6 ; Q1 = 4 ; Q3 = 9. Ainsi, Q3 − Q1 = 5 ce qui induit que :
Q1 − 1, 5 ∗ (Q3 − Q1 ) = −3, 5 et Q3 + 1, 5 ∗ (Q3 − Q1 ) = 16, 5. Il y a donc une valeur suspecte (17). Les valeurs
extrêmes des ”moustaches” étant égales à 1 et 10.
On obtient la représentation graphique suivante :

Représentation de la série

0 1 3 5 7 910 12 15 18 20

Remarque 8 : Dans la boı̂te à moustaches définie par TUKEY, la boı̂te a pour longueur la distance inter-
quartile (Q3 − Q1 ), et les moustaches sont basées usuellement sur 1,5 fois la longueur de la boı̂te. Dans ce cas,
une valeur est suspecte (atypique) si elle dépasse de 1, 5 fois l’écart interquartile au dessous du premier quartile
ou au dessus du troisième quartile.
Le choix de la valeur 1, 5 par TUKEY a une justification probabiliste.
En effet, si une variable suit une distribution normale, alors la zone délimitée par la boı̂te et les moustaches de-
vrait contenir 99,3 % des observations. On ne devrait donc trouver que 0,7% d’observations suspectes (outliers).
II. STATISTIQUE DESCRIPTIVE À 2 VARIABLES 5

II Statistique descriptive à 2 variables


II.1 Méthode des moindres carrés
On considère une série statistique double représentée par un nuage de points Mi (xi ; yi )1≤i≤n .
Soit (D) une droite d’ajustement. Pour tout entier naturel i tel que 1 ≤ i ≤ n, on note Pi le projeté de Mi sur
la droite (D) parallèlement à l’axe des ordonnées.
Ajuster ce nuage de point par la méthode des moindres carrés, c’est déterminer la droite (D) pour que la somme
n
Mi Pi 2 soit minimale.
P
i=1
Illustration graphique :

Mi (xi ; yi )
+ (D) : y = ax + b
Pn

M1 (x1 ; y1 )
+ +
Pi Mn (xn ; yn )
P2

P1
+
M2 (x2 ; y2 )

II.2 Equations des droites de régression


n
Mi Pi 2 .
P
Déterminons la droite d’équation y = ax + b rendant minimale la somme
i=1
n
Mi Pi 2 revient à déterminer le minimum de la fonction ϕ définie sur R2 par
P
Ainsi, minimiser
i=1
n
2
X
ϕ(a, b) = [(axi + b) − yi ]
i=1

On admet que si la fonction ϕ admet un extremum en (x0 ; y0 ) alors ses dérivées partielles s’y annulent.
dϕ Pn
(a, b) = 2 xi [(axi + b) − yi ]
da i=1
dϕ Pn
(a, b) = 2 [(axi + b) − yi ]
db i=1
dϕ n n n n
axi 2 + bxi − xi yi = 0 soit a xi 2 + b
P  P P P
(a, b) = 0 implique xi − xi yi = 0.
da i=1 i=1 i=1 i=1
dϕ Pn n
P n
P
(a, b) = 0 implique [(axi + b) − yi ] = 0 soit a xi + nb − yi = 0.
db i=1 i=1 i=1
On a donc :
n n n n n
xi 2 + b
P P P P P
xi yi = a xi et yi = a xi + nb
i=1 i=1 i=1 i=1 i=1
n n
xi 2 et β =
P P
En posant α = xi , on a :
i=1 i=1
n
 
P
   xi y i
α β a  i=1 
= n

β n b  P 
yi
i=1
 n 
P
    xi yi
α β a 
i=1

En notant M la matrice définie par M = , on a : M = n
.
β n b  P 
yi
i=1
6 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

On rappelle que :
1 Pn 1 Pn
x= xi et y= yi .
n i=1 n i=1
n n n n n
2
xi 2 + x2 − 2xxi = xi 2 + nx2 − 2x xi 2 + nx2 − 2xnx
P P  P P P
(xi − x) = xi =
i=1 i=1 i=1 i=1 i=1
n n
P 2 P 2 2
On a donc : (xi − x) = xi − nx ce qui implique
i=1 i=1

n n
1X 2 1X 2
V(X) = (xi − x) = xi − x2 (1.2)
n i=1 n i=1

La matrice M est inversible si et seulement si nα − β 2 6= 0 soit nα − (nx)2 6= 0 .


1
M inversible équivaut donc à α − x2 6= 0. D’après ce qui précède, on en déduit que :
n
1 Pn
M inversible ssi (xi − x)2 6= 0.
n i=1
n
P 2
Or : (xi − x) = 0 ⇐⇒ ∀i ∈ {1; 2; ...; n}, xi − x = 0 ⇐⇒ ∀i ∈ {1; 2; ...; n}, xi = x.
i=1
Ainsi : M inversible si et seulement si les xi ne sont pas tous égaux.
n
 
P
    xi y i
1 n −β a  i=1 
Dans ce cas, on a : M −1 = avec = M −1  n
. Ainsi :
nα − β 2 −β α b  P 
yi
i=1
n n
2
P P
 n n
 n xi yi − n xy xi yi − nxy
1
yi = i=1 i=1
P P
a= n xi yi − β n = n
nα − β 2 i=1 i=1
xi 2 − (nx)2 xi 2 − nx2
P P
n
i=1 i=1
Quant à b, on a :
n n n n
xi 2 xi 2
P P P P
 n n
 −nx xi yi + ny −x xi yi + y
1 P P i=1 i=1 i=1 i=1
b= −β xi yi + α yi = n = n .
nα − β 2 i=1 i=1
P 2 2
P 2 2
n xi − (nx) xi − nx
n i=1  n i=1
xi − nx2 − x
P 2 P
y xi yi − nxy
i=1 i=1
Cette relation peut s’écrire : b = n = y − ax.
xi 2 − nx2
P
i=1
En conclusion, ϕ peut admettre un extremum uniquement en (a; b) tel que
n
P
xi yi − nxy
i=1
a= n et b = y − ax
x2i − nx2
P
i=1

En considérant b = y − ax, on obtient :


n n 2
2
a2 (xi − x)2 + (y − yi )2 + 2a(xi − x)(y − yi ) .
P P
ϕ(a, b) = (a(xi − x) + (y − yi )) =
i=1 i=1
ϕ(a, b) peut donc s’écrire sous la forme :
n
X n
X n
X
ϕ(a, b) = a2 (xi − x)2 + 2a (xi − x)(y − yi ) + (y − yi )2
i=1 i=1 i=1

On constate que, si b = y − ax alors ϕ(a, b) est un polynôme du second degré avec un coefficient du terme
dominant positif. Cette fonction admet donc un minimum ce qui permet de conclure que les réels a et b obtenus
n
Mi Pi 2 .
P
précédemment permettent de minimiser
i=1
II. STATISTIQUE DESCRIPTIVE À 2 VARIABLES 7

n
P
A noter que, tout comme la formule de la variance (1.2) , (xi − x)(y − yi ) peut s’écrire autrement en
i=1
n
P n
P n
P n
P
développant : (xi − x)(yi − y) = (xi yi − xi y − xyi + x y) = xi yi − nxy − nxy + nxy = xi yi − nx y
i=1 i=1 i=1 i=1
On a donc :
n n
1X 1X
(xi − x)(yi − y) = xi yi − nx y (1.3)
n i=1 n i=1

Une équation de la droite d’ajustement de Y en X est donc Y = aX + b avec


n
P n
P 1Pn
xi yi − nxy (xi − x) (yi − y) (xi − x) (yi − y)
n
a = i=1
n = i=1
n = i=1 P et b = y − ax
2 2 1 n 2
x2i
P P
− nx (xi − x) (xi − x)
i=1 i=1 n i=1

Théorème-Définition 1 :
On considère deux variables X et Y prenant respectivement les valeurs (xi )1≤i≤n et (yi )1≤i≤n .
La covariance de X et Y est le réel, noté Cov (X, Y ) voire σXY , défini par :
n
1X
Cov (X, Y ) = (xi − x) (yi − y)
n i=1

ou encore n
1X
Cov (X, Y ) = xi yi − xy = xy − x.y
n i=1

Proposition 2 : La droite de régression de Y en X a pour équation Y = aX + b avec


Cov (X, Y )
a= et b = y − ax
V(X)

Exemple 5 : Considérons le nombre d’acheteurs potentiels d’un produit en fonction de son prix de vente.

Prix xi en euros 9 10 11 12 13 14 15 16
Nombre yi d’acheteurs éventuels 120 100 90 70 60 50 40 30
Le nuage de points associé à la série (xi ; yi ) laisse apparaı̂tre un relation linéaire entre le nombre Y d’acheteurs
potentiels et le prix X.
120
100
80
y
60
40

9 10 11 12 13 14 15 16
x

Calculons les coefficients de la droite de régression de Y en X :


n n
x = 12, 5 ; y = 70 ; Cov(X, Y ) = n1 (xi − x) (yi − y) = n1 2
P P
xi yi − xy = −66, 25 et σX = 5, 25.
i=1 i=1
Cov(X, Y ) −66, 25
Ainsi : a = 2 = ≃ −12, 62 et b = y − ax ≃ 227, 74.
σX 5, 25
La droite de régression de Y en X a pour équation

Y = −12, 62X + 227, 74


8 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

II.3 Résidus de la régression


Définition 7 : [Résidus]
On considère deux variables X et Y prenant respectivement les valeurs (xi )1≤i≤n et (yi )1≤i≤n .
On appelle résidus de Y par rapport à X les écarts , notés ei , entre les valeurs observées de la variable
dépendante yi et les valeurs correspondantes ŷi = axi + b calculées à l’aide de l’équation de la droite de
régression de Y en X . On a donc, pour tout i ∈ J1; nK :

ei = yi − ŷi
Illustration graphique :

Mi (xi ; yi )
+ (D) : y = ax + b

ei = yi − yˆi Pn
M1
+ +
Pi (xi ; yˆi ) Mn
P2

P1
+
M2

Remarque 9 : Les valeurs ŷi sont aussi appelées valeurs estimées de la variable dépendante Y .

Proposition 3 : Les résidus sont de somme et de moyenne nulle.


En effet :
n
P n
P n
P
ei = (yi − ŷi ) = (yi − (axi + b)) = ny − anx − nb = n (y − ax − b) = 0
i=1 i=1 i=1

Remarque 10 : Les séries (yi )1≤i≤n et les estimations (ŷi )1≤i≤n ont donc la même moyenne. On a donc :

y = ŷ

Exemple 6 : Calculons les résidus associés à l’exemple précédent.


Dans un premier temps, nous déterminons les estimations en utilisant l’équation yˆi = −12, 62xi + 227, 74.
On obtient : 114, 16 ; 101, 54 ; 88, 92 ; 76, 30 ; 63, 68 ; 51, 06 ; 38, 44 ; 25, 82.
Ainsi, les résidus étant définis par ei = yi − ŷi , on obtient :

5, 84 ; −1, 54 ; 1, 08 ; −6, 30 ; −3, 68 ; −1, 06 ; 1, 56 ; 4, 18

II.4 Coefficients de corrélation et de détermination


Ces coefficients permettent d’apprécier (partiellement) la pertinence et la qualité d’un ajustement.

Définition 8 : [Coefficient de corrélation]


On appelle coefficient de corrélation linéaire de la série (xi , yi )1≤i≤n le nombre réel, noté R ou ρ(X, Y ),
défini par :
Cov(X, Y )
R=
σX σY

Proposition 4 : Comme σX et σY sont positifs alors R, a et Cov(X, Y ) sont de même signe.


II. STATISTIQUE DESCRIPTIVE À 2 VARIABLES 9

Définition 9 : (Les différentes SCE)

On considère (xi ; yi )1≤i≤n une série statistique à deux variables constituée de n couples.
• La variabilité totale (des yi ) est définie par :
n
2
X
SCEtotale = (yi − y)
i=1

• La variabilité expliquée SCEexp (par l’ajustement affine) est définie par :


n
(ŷi − y)2
X
SCEexp =
i=1

Elle correspond à la SCE des estimations ŷi .


• La variabilité résiduelle, associée aux résidus et notée SCEres , est définie par :
n
X
SCEres = ei 2
i=1

P 2 P 2
SCEtotale = (yi − y) = (yi − ŷi + ŷi − y) .
i i
En développant,
P on a : 2 P 2 P
SCEtotale = (yi − ŷi ) + (ŷi − y) + 2 (yi − ŷi ) (ŷi − y).
i i i
P P P
Or, (yi − ŷi ) (ŷi − y) = [(yi − y) − a(xi − x)] [a(xi − x)] = a (yi − y − a(xi − x)) (xi − x).
i i i
Il
Ps’avère que :
(yi − y − a(xi − x)) (xi − x) = nCov(X, Y ) − anV(X) = 0.
i

On en déduit la propriété suivante.

Proposition 5 :
SCEtotale = SCEexp + SCEres

On peut dès lors expliciter les différentes SCE ainsi :


n
P 2
SCEtotale = (yi − y) = nV(Y )
i=1
2
Cov 2 (X, Y )
n n

Cov(X, Y )
(ŷi − y)2 = a2 (xi − x)2 = na2 V(X) = n = nR2 V(Y )
P P
SCEexp = V(X) = n
i=1 i=1 V(X) V(X)
n n
2
(yi − ŷi )2 = nV(Y )(1 − R2 ).
P P
SCEres = ei =
i=1 i=1
La dernière égalité découle de la relation SCEres = SCEtotale − SCEexp .
10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

Définition 10 : [Coefficient de détermination]


Le coefficient de détermination d’une série statistique à deux variables X et Y correspond à R2 ou
ρ2 (X, Y ).

Il s’avère que :

SCEexp
=
SCEtotale

La définition du coefficient de détermination conduit à la propriété suivante :

Proposition 6 : [Coefficient de détermination et SCE ]


Le coefficient de détermination R2 d’une série statistique à deux variables X et Y vérifie :
SCEexp
R2 =
SCEtotale

Il correspond ainsi à la part de variabilité de Y expliquée par la régression.

La relation SCEtotale = SCEexp + SCEres induit la propriété suivante :

Proposition 7 : Le coefficient de détermination R2 d’une série statistique à deux variables X et Y


vérifie :
• R2 ≤ 1
• −1 ≤ R ≤ 1

À retenir :
L’ajustement sera d’autant meilleur que R2 est proche de 1.
En pratique : on considère que si 0, 8 ≤ |R| ≤ 1, il y a une forte corrélation.
Si R2 est proche de 1, on peut dire qu’il existe une corrélation importante entre les deux variables.
Mais ceci n’implique pas nécessairement l’existence d’une relation directe de cause à effet entre les deux variables.
La pertinence d’un ajustement affine peut être vérifiée par l’étude des résidus dont la représentation graphique
ne doit faire apparaı̂tre aucune tendance.
Sinon, malgré un coefficient de corrélation linéaire (ou de détermination) élevé, un autre ajustement sera souvent
plus cohérent ...

Exemple 7 : Voici ci-dessous une représentation graphique des résidus calculés précédemment. Il ne laisse
apparaı̂tre aucune tendance.
6
2
residus
−2
−6

9 10 12 14 16
x

Le coefficient de détermination ρ2 (X, Y ) est environ égal à 0, 98. L’ajustement affine est donc pertinent.
II. STATISTIQUE DESCRIPTIVE À 2 VARIABLES 11

Exemple 8 : Le graphique ci-dessous représente les résidus associés à un ajustement affine avec un coefficient
de détermination ρ2 (X, Y ) est environ égal à 0, 99.

10
5
resid
0
−5
−10
9 10 11 12 13 14 15 16
x

On voit clairement que les résidus sont positifs aux extrêmités et négatifs au centre.
Le modèle linéaire n’est pas pertinent (un ajustement quadratique le serait).

À retenir (Covariance et indépendance) :


1. Si X et Y sont indépendantes alors Cov(X, Y ) = 0 (on a également ρ(X, Y ) = 0).
2. Par contre, la réciproque n’est pas vraie comme le montre l’exemple ci-dessous.
Si Cov(X, Y ) = 0 alors cela n’implique pas que X et Y sont indépendantes.

Exemple 9 :
Considérons deux variables X et Y définies par le tableau ci-dessous :

xi -2 -1 0 1 2
yi 5 2 1 2 5

Le nuage de points associé à la série (xi ; yi ), représenté ci-dessous, ne laisse apparaı̂tre aucune liaison linéaire
entre X et Y .
5
4
3
y
2
1

−2 −1 0 1 2
x

On a : Cov(X, Y ) = 0 mais X et Y ne sont pas indépendantes car Y = X 2 + 1.


12 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
Chapitre 2

Statistique inférentielle

I Estimateurs, estimation ponctuelle


I.1 Introduction
En statistique, comme dans la théorie des probabilités le hasard intervient fortement.
En probabilité, on suppose la loi connue précisément et on cherche à donner les caractéristiques de la variable
qui est distribuée suivant cette loi.
L’objectif de la statistique est différent :
À partir de réalisation.s d’une variable (sur un échantillon), que peut-on dire de la loi de cette variable ? de
paramètres associés ?

Soit X une variable aléatoire dont la densité de probabilité f dépend d’un paramètre θ appartenant à I ⊂ R.
À l’aide d’un échantillon issu de X, on souhaite déterminer une estimation de la valeur de θ.
On pourra utiliser deux méthodes :
• l’estimation ponctuelle : on calcule une valeur vraisemblable de θ (liée à l’échantillon obtenu) ;
• l’estimation par intervalle : on cherche un intervalle dans lequel on ”espère” que le paramètre θ appartient.

I.2 Échantillon d’une variable


Définition 11 : [échantillon]
Soit n ∈ N∗ et X une variable aléatoire.
Un n-échantillon de X est un n-uplet (X1 , X2 , ...Xn ) de variables aléatoires réelles définies sur le même
espace probabilisé, indépendantes et de même loi que X.
Une réalisation de l’échantillon est alors un n-uplet (x1 , x2 , ..., xn ) de valeurs prises par l’échantillon.

Définition 12 : [Estimateur et estimation]


Une statistique de l’échantillon est une variable aléatoire ϕ(X1 , X2 , ..., Xn ) où ϕ est une application de
Rn dans R.
Un estimateur T d’un paramètre θ est une statistique à valeurs dans I.
Une estimation (ponctuelle) de θ est alors la valeur (réalisation) de cet estimateur correspondant à une
réalisation de l’échantillon.

n
1X
Exemple 10 : Tn = Xi appelé moyenne empirique est utilisé comme estimateur de la moyenne.
n i=1
Ainsi, si X est distribuée suivant la loi B(p) où p ∈]0, 1[ alors Tn est un estimateur de p.

I.3 Erreur d’estimation et biais


Définition 13 : Soit n ∈ N∗ et Tn un estimateur d’un paramètre θ.
Le biais de l’estimateur Tn de θ, note bθ (Tn ), est défini par :

bθ (Tn ) = E(Tn − θ) = E(Tn ) − θ

Si ce biais est nul, on dit que Tn est un estimateur sans biais (non biaisé) de θ.

13
14 CHAPITRE 2. STATISTIQUE INFÉRENTIELLE

Exemple 11 : Si X est distribuée suivant la loi exponentielle de paramètre λ, la moyenne empirique est un
estimateur biaisé de λ mais sans biais de λ1 .

Définition 14 : [Estimateur convergent]


L’estimateur est dit convergent si la suite (Tn )n>0 converge en probabilité vers θ i.e.
pour tout ε > 0, on a :
P (|Tn − θ| ≥ ε) → 0
n→+∞

Proposition 8 : [Estimateur convergent]


Si Tn est un estimateur sans biais de θ tel que V(Tn ) → 0 alors l’estimateur est convergent.
n→+∞

En effet, d’après l’inégalité de Bienaymé-Tchebytchev, on a :


V(Tn )
P (|Tn − E(Tn | ≥ ε) ≤ .
ε2
Ainsi, si V(Tn ) → 0 alors P (|Tn − θ| ≥ ε) → 0.
n→+∞ n→+∞

Définition 15 : [Risque quadratique d’un estimateur]


Le risque quadratique d’un estimateur T d’un paramètre θ est défini, sous réserve d’existence, par :

R(T, θ) = E (T − θ)2
 

Proposition 9 : Le risque quadratique d’un estimateur T d’un paramètre θ est défini, sous réserve
d’existence, par :
2
R(T, θ) = V(T ) + bθ (T )
En effet, on h: i h i h i
2 2 2
R(T, θ) = E (T − θ) = E ([T − E(T )] + [E(T ) − θ]) = E ([T − E(T )] + bθ (T )) .
R(T, θ) = E [T − E(T )]2 + bθ (T )2 + 2bθ (T )[T − E(T )]
 

R(T, θ) = E [T − E(T )]2 + E bθ (T )2 + E (2bθ (T )[T − E(T )])


Comme E ([T − E(T )]) =0, il vient :
R(T, θ) = E [T − E(T )]2 + bθ (T )2
Ce risque quadratique permet de comparer deux estimateurs.

Définition 16 : [Comparaison d’estimateurs]


Soient T1 et T2 deux estimateurs d’un paramètre θ ∈ I.
T1 est un meilleur estimateur que T2 si

∀θ ∈ I, R(T1 , θ) ≤ R(T2 , θ)

et
∃θ0 ∈ I, R(T1 , θ0 ) < R(T2 , θ0 )

Ainsi, dans le cas d’estimateurs non biaisés d’un paramètre θ, T1 est un meilleur estimateur que T2 si

∀θ ∈ I, V(T1 ) ≤ V(T2 )

et
∃θ0 ∈ I, V(T1 ) < V(T2 )

I.4 Estimateur et estimation ponctuelle d’une moyenne


On considère une variable aléatoire X d’espérance µ et de variance σ 2 (inconnues).
Théorème 1 :
n
1X
La moyenne empirique X = Xi est un estimateur non biaisé et convergent de µ.
n i=1
La moyenne observée x est donc une estimation ponctuelle de la moyenne µ. On note :

µ̂ = x
I. ESTIMATEURS, ESTIMATION PONCTUELLE 15

En effet : !
n n
1X 1X
E(X) = E Xi = E(Xi ) = µ.
n i=1 n i=1

Il est à noter que l’on peut déterminer la loi de X.


Si (Xn ) est une suite de variables aléatoires indépendantes et identiquement distribuées suivant la loi N (µ; σ)
alors  
σ
X ∼ N µ; √
n
De plus, d’après le TCL, si (Xn ) est une suite de variables aléatoires indépendantes et de même loi (i.i.d.),
d’espérance µ et d’écart type σ alors
X −µ
σ converge en loi vers une variable aléatoire distribuée suivant la loi N (0, 1).

n
Cette approximation peut être utilisée dès lors que n ≥ 30.

I.5 Estimateur et estimation ponctuelle d’une variance


I.5.1 Estimation de σ 2 lorsque µ est connue
n
1X
Théorème 2 : La variable V = (Xi − µ)2 est un estimateur non biaisé de σ 2 .
n i=1

En effet : !
n n n
1X 1X 1X
(Xi − µ)2 E [Xi − µ]2 = E [Xi − E(X)]2 = V(X) = σ 2 .
 
E(V ) = E =
n i=1 n i=1 n i=1
Remarque 11 : V est un estimateur convergent de σ 2 .

I.5.2 Estimation de σ 2 lorsque µ est inconnue


Ce cas est beaucoup plus fréquent que le précédent car, en général, la moyenne de la population est inconnue.
n
1X
Théorème 3 : La variable S 2 = (Xi − X)2 est un estimateur biaisé de σ 2 .
n i=1

En effet : ! !
n n
1X 1X 2 2
E S2 = E (Xi − X)2 = E

X −X
n i=1 n i=1 i
n
 1X  2
E S2 = E Xi2 − E X .

n i=1
 2  σ2
Il s’avère que : E(Z 2 ) = V(Z) + E(Z)2 donc E Xi2 = σ 2 + µ2 et E X = + µ2 . Ainsi :

n
n  2   2 
 1X σ σ
E S2 = (σ 2 + µ2 ) − + µ2 = σ 2 + µ2 − + µ2 . On a donc :
n i=1 n n
 n−1 2
E S2 = σ
n
Il en résulte que :  
n
E S2 = σ2
n−1
n
n 1 X
où S2 = (Xi − X)2 .
n−1 n − 1 i=1
Théorème 4 : n
1 X
La variable Sˆ2 = (Xi − X)2 est un estimateur non biaisé de σ 2 .
n − 1 i=1
sˆ2 est donc une estimation ponctuelle de la variance µ. On note :
n
1 X
σˆ2 = sˆ2 = (xi − x)2
n − 1 i=1
16 CHAPITRE 2. STATISTIQUE INFÉRENTIELLE

Remarque 12 :
SCE SCE
• On a : s2 = et sˆ2 = .
n n−1
• Ŝ 2 est un estimateur convergent de σ 2 alors que Ŝ est un estimateur biaisé de σ.

Exemple 12 : On considère un échantillon extraite d’une population de moyenne µ et d’écart-type σ :

98 ; 99 ; 100 ; 101 ; 102

Donner une estimation ponctuelle de µ et σ 2 .


I.6 Estimation d’une proportion


n
1X
Théorème 5 : Considérons F = Xi où (X1 , X2 , ...Xn ) est un n-échantillon de X de loi B(p).
n i=1
F est un estimateur non biaisé et convergent de p.
La fréquence observée, f , réalisation de F , est une estimation ponctuelle de p. On note :

p̂ = f
Justification et lien avec
! la loin binomiale :
n
1X 1X
E (F ) = E Xi = E(Xi ) = p.
n i=1 n i=1
Xn
On peut utiliser que Xi est distribuée suivant la loi B(n, p) d’espérance np.
i=1

II Estimation par intervalle de confiance


II.1 Généralités
Principe général :
On souhaite déterminer un intervalle de confiance d’un paramètre θ avec un niveau de confiance 1 − α.
On considère une famille de variables aléatoires (X1 , X2 , ...Xn ) de variables aléatoires réelles définies sur le
même espace probabilisé, indépendantes et de même loi que X associée au paramètre θ.

Pour obtenir un intervalle de confiance de θ, on peut essayer de déterminer une nouvelle variable aléatoire
Y = ϕ (X1 , X2 , · · · , Xn , θ) à partir des précédentes et du paramètre à déterminer, dont la loi soit connue et
dont on puisse trouver des valeurs k1 et k2 tels que

P (k1 ≤ Y ≤ k2 ) ≥ 1 − α

On peut alors en déduire un encadrement de la forme [θmin ≤ θ ≤ θmax ] conduisant à un intervalle de confiance
de θ au niveau de confiance 1 − α. On a alors :

P (θmin ≤ θ ≤ θmax ) ≥ 1 − α

Ainsi, 100 × (1 − α)% des intervalles contiennent le paramètre θ.


Usuellement, on prend α = 0, 05 soit 1 − α = 0, 95.
II. ESTIMATION PAR INTERVALLE DE CONFIANCE 17

Remarque 13 :
On cherche usuellement k1 et k2 tels que :
α α
P (Y < k1 ) ≤ et P (Y > k2 ) ≥
2 2
Dans le cas continu, on cherche k1 et k2 tels que
α α
P (Y ≤ k1 ) = et P (Y ≤ k2 ) = 1 −
2 2
α α
Ainsi, k1 et k2 sont alors les quantiles d’ordre et 1 − .
2 2
En outre, si la loi est symétrique, alors |θ − θmin | = |θmax − θ|. Cet écart est fréquemment appelé marge d’erreur.

Dire qu’une estimation par intervalle de confiance d’un paramètre θ est [θmin ; θmax ] signifie qu’il est ”vraisem-
blable” que la valeur (vraie) de θ appartient à cet intervalle.
Pour autant, on ne peut évaluer la probabilité d’appartenance de θ à un tel intervalle ! ! !

II.2 Intervalle de confiance d’une moyenne lorsque la variance est connue


On se place dans le cas où l’écart-type σ est connu et la distribution de la variable X gaussienne.
 X ∼N (µ; σ) et on souhaite estimer le paramètre µ en utilisant l’estimateur X distribué
On considère donc
σ
suivant la loi N µ; √ .
n
X −µ
On a donc : σ ∼ N (0; 1).

n

De manière générale, considérons une variable U ∼ N (0; 1) et déterminons deux valeurs a et b telles que
α α α
P(a ≤ U ≤ b) = 1 − α avec P(U ≤ a) = et P(U ≥ b) = i.e. P(U ≤ b) = 1 − .
2 2 2
 α
On a donc : Φ(a) + Φ(b) = 1 ce qui conduit à a = −b et b = Φ−1 1 − .
2
Le quantile b se note fréquemment b = q1− α2 ce qui conduit à

P −q1− α2 ≤ U ≤ q1− α2 = 1 − α

Proposition 10 : [Intervalle de confiance d’une moyenne]


Lorsque X ∼ N (µ; σ) avec σ connu, une estimation par intervalle de confiance de µ, au niveau de confiance
1 − α, est donnée par :  
σ σ
x − q1− 2
α √ ; x + q1− 2
α √
n n

Proposition 11 : [Intervalle de confiance d’une moyenne au niveau de confiance 95%]


Lorsque X ∼ N (µ; σ) avec σ connu, une estimation par intervalle de confiance de µ, au niveau de confiance
95%, est donnée par :  
σ σ
x − 1, 96 √ ; x + 1, 96 √
n n
18 CHAPITRE 2. STATISTIQUE INFÉRENTIELLE

II.3 Intervalle de confiance d’une proportion


On se place dans le cas de grands échantillons. On rappelle la propriété suivante qui découle du TCL :
Soit (Xn ) une suite de variables distribuées suivant la loi B(n, p). On a :

Xn − np L
p → X où X ∼ N (0; 1)
np(1 − p)

X
Il s’avère que F = est un estimateur de p et on a :
n
F −p L
q → X où X ∼ N (0; 1)
p(1−p)
n
 
 F −p
En utilisant que P −q1− α2 ≤ U ≤ q1− α2 = 1 − α, il vient P −q1− α2 ≤q ≤ q1− α2  = 1 − α.
p(1−p)
n
On souhaite obtenir un encadrement de p en utilisant que :
 2
F −p F −p  2
−q1− α2 ≤ q ≤ q1− α2 ⇔  q ≤ q1− α.
p(1−p) p(1−p) 2

n n
F −p 2 p(1 − p) 2 p(1 − p) 2
−q1− α2 ≤ q ≤ q1− α2 ⇔ (F − p) ≤ q1− α ⇔ F 2 + p2 − 2pF ≤ q1− α
p(1−p) n 2 n 2

n
F −p
≤ q1− α2 ⇔ n F 2 + p2 − 2pF ≤ pq1−
2 2 2

−q1− α2 ≤ q α − p q
1− α
p(1−p) 2 2

n
F −p 2 2 2 2
−q1− α2 ≤ q ≤ q1− α2 ⇔ (n + q1− α )p − (2nF + q
1− α )p + nF ≤ 0
p(1−p) 2 2

n
ce qui conduit à considérer que le paramètre p est compris entre les deux racines du trinôme du second degré
associé
 : 2
2 2 2 4 2 2 4 2
∆ = 2nF + q1− α − 4(n + q1− α )nF = q1− α + 4nF q
1− α − 4q1− α nF = q1− α + 4nF (1 − F )q1− α .
2 2 2 2 2 2 2

Les racines sont alors


√ :
2
(2nF + q1− α) ± ∆
r
F (1 − F )
2
2 ∼ F ± q1− α2
2(n + q1− α) n→+∞ n
2

Proposition 12 : [Intervalle de confiance d’une proportion]


Lorsque n est grand, une estimation par intervalle de confiance de p, au niveau de confiance 1 − α, est
donnée par :
" r r #
f (1 − f ) f (1 − f )
f − q1− α2 ; f + q1− α2
n n
III. TESTS DE CONFORMITÉ 19

III Tests de conformité


III.1 Un peu d’histoire : Neyman, Pearson et Fisher
III.1.1 Les tests selon Fisher : 1 hypothèse et 1 probabilité
Dans la théorie des tests de Fisher, une seule hypothèse est testée. Elle est appelée ”hypothèse nulle” dans le
sens ”to be nullified” c’est-à-dire à réfuter et notée H0 .
L’hypothèse H0 n’est jamais ”prouvée” mais peut être rejetée.
La conclusion est basée sur le calcul d’une probabilité conditionnelle (p-valeur sous H0 ) correspondant à la
probabilité d’avoir une observation égale ou pire à celle que l’on a obtenue. Si cette probabilité est jugée suffi-
samment faible, on considère qu’on a réussi à montrer la fausseté de l’hypothèse nulle, on la rejette et le résultat
est déclaré significatif. Si p est trop élevé, on suspend le jugement et le résultat est déclaré non significatif.
Il n’y a qu’un seul risque d’erreur (α) correspondant à la probabilité de rejeter H0 à tort. Pour juger de p, on
raconte que le seuil de 5 % avait sa préférence car il percevait 5 % de royalties sur ses publications. La p-valeur
est centrale. Plus elle est petite, plus on a de preuves contre H0 .
• p = 0, 049 : l’observation est ”limite”
• p = 0, 001 : l’observation est ”probante”
• p = 0, 049 et p = 0, 051 : les résultats sont voisins.

Critique :
La p-valeur correspond à la probabilité d’avoir une observation pire (ou égale) à celle que l’on a obtenue (sous
H0 ).
H0 peut être rejetée (alors qu’elle est vraie) parce qu’elle est ”en contradiction” avec des résultats qui n’ont pas
été observés.

III.1.2 Les tests selon Neyman-Pearson : 2 hypothèses et 1 région critique


En 1928 et 1933, Neyman et Pearson introduisent la notion d’hypothèse alternative H0 , induisant l’apparition
d’un second risque (de deuxième espèce β). Basée sur la règle de décision par rapport à α (du ressort du cher-
cheur), p non présentée, une seule hypothèse
Si le seuil est fixé à 5% alors
• p = 0, 049 et p = 0, 001 conduisent à la même conclusion : rejet de H0
• p = 0, 049 et p = 0, 051 conduisent à des conclusions différentes.

Critique :
Cette méthode, basée sur la notion de région critique (zone de rejet H0 ) ne tient pas compte du ”degré” de
preuve (lié à p).

III.2 Les tests des nos jours : l’approche N-P-F


De nos jours, on utilise une méthode hybride basée sur les construction de Neyman, Pearson et Fisher. Les
différentes étapes d’un test sont les suivantes :

1. Hypothèses d’un test


La première étape d’un test consiste à déterminer l’hypothèse à tester.
Cette hypothèse, notée H0 , est appelée hypothèse nulle. Il s’agit, en général, d’une égalité.
On définit ensuite l’hypothèse qui sera retenue si on rejette H0 .
Cette hypothèse est appelée l’hypothèse alternative H1 et se présente souvent sous la forme :
soit “ . . . .6=. . . . ” ; on dit que le test est bilatéral.
soit “ . . . .>. . . . ” ou “ . . . .<. . . .. ” ; on dit alors que le test est unilatéral.

2. Seuil de signification et choix du modèle


Le niveau de signification d’un test est fixé fixé a priori, est fréquemment égal à 5 %.
Quant à la statistique de test (variable de décision) et la loi associée, elle est définie suivant le paramètre
considéré.
La distribution d’échantillonnage de cette statistique sera déterminée en supposant que l’hypothèse H0
est vraie.
Par exemple, dans le cas d’un test de conformité d’une moyenne (H0 : µ = µ0 ), on prendra, sous réserve
X − µ0
de validité : σ ֒→ N (0; 1).

n
20 CHAPITRE 2. STATISTIQUE INFÉRENTIELLE

3. Calcul de la p-valeur (p-value)


Une règle de rejet, utilisée par le logiciel R, consiste à calculer la probabilité que la statistique de test
soit égale à la valeur observée ou encore plus extrême, tout en supposant que l’hypothèse nulle H0 est
vraie :
on appelle cette probabilité la p-valeur (p-value en anglais) voire probabilité critique.
Elle correspond à la probabilité d’avoir une observation égale ou ”pire” que celle que l’on a
obtenue.
Dans le cas d’un test bilatéral, avec une loi symétrique, la p-value correspond au double de
celle qui aurait été obtenue lors de la mise en place d’un test unilatéral. Nous voyons donc
que la p-valeur est une probabilité calculée a posteriori, en fonction des données.

4. Conclusion
Si p-valeur 6 0, 05 alors il y avait moins de 5% de chance que la statistique de test prenne une valeur
”pire” que la valeur observée ce qui conduit à remettre en question l’hypothèse initiale. On rejette donc
H0 . Plus généralement :
on rejette H0 (au profit de H1 ) lorsque p-value 6 α, et le test est effectué au risque α.
Dans le cas contraire, on ne rejette pas H0 .
Si l’hypothèse H0 est rejetée alors que le seuil de signification considéré était égal à 5 %, on dit qu’on
rejette H0 de manière significative.

III.3 Risques de première et de deuxième espèce


Tous les règles de décision acceptent un risque α correspondant au risque de rejeter à tort l’hypothèse H0 ,
c’est-à-dire le risque de rejeter l’hypothèse H0 alors que H0 est vraie. Ce risque s’appelle aussi le risque de
première espèce.
La règle de décision du test comporte également un deuxième risque, à savoir de celui de ne pas rejeter l’hy-
pothèse nulle H0 alors que c’est l’hypothèse H1 qui est vraie. C’est le risque de deuxième espèce.

Les deux risques peuvent se définir ainsi :

α = P(rejeterH0 | H0 vraie) = probabilité de commettre une erreur de première espèce.


β = P(ne pas rejeterH0 | H1 vraie) = probabilité de commettre une erreur de deuxième espèce.

Le risque de première espèce α est choisi a priori. Toutefois le risque de deuxième espèce β dépend de l’hypothèse
alternative H1 et on ne peut le calculer que si on spécifie des valeurs particulières du paramètre dans l’hypothèse
H1 que l’on suppose vraie.
Les risques liés aux tests d’hypothèses peuvent se résumer ainsi :

H0 est vraie H0 est fausse


H0 n’est pas rejetée 1−α β
H0 est rejetée α 1−β

Illustration graphique : 1 − β = Puissance

β
α
µ µ1

Définition 17 : [Puissance d’un test]


1 − β définit la puissance du test à l’égard de la valeur du paramètre dans l’hypothèse alternative H1 .
La puissance du test représente la probabilité de rejeter l’hypothèse nulle H0 lorsque l’hypothèse vraie
est H1 .
Plus β est petit, plus le test est puissant.
La puissance d’un test correspond à la probabilité de mettre en évidence un effet lorsque celui existe.
Il s’agit donc de la capacité d’un test à prendre la bonne décision lorsqu’il existe un effet.
III. TESTS DE CONFORMITÉ 21

À noter :
1. Pour un même risque α et une même taille d’échantillon, on constate que, si l’écart ∆ entre la valeur du
paramètre posée en H0 et celle supposée dans l’hypothèse vraie H1 augmente, le risque β diminue ce qui
induit une augmentation de 1 − β.
2. Une diminution de la variabilité (cf. écart-type) peut également induire une augmentation de la puissance
du test.
3. Enfin, une augmentation de la taille du ou des échantillons aura pour effet de donner une meilleure
précision.
Le test est alors plus puissant.
4. Il est recommandé de choisir une taille d’échantillon conduisant, a priori, à une puissance de test au
moins égale à 80%.

III.4 Un exemple
Exemple 13 :
On s’intéresse à la la durée de vie X, exprimée en heures, d’un module d’affichage oled et on admet que l’écart-
type des durées de vie est égal à 300 h.
La datasheet de ce module signale une durée de vie moyenne de 6000 h.
Afin de valider ces informations, on prélève un échantillon aléatoire de 36 modules et on constate une durée de
vie moyenne de 5900 h.
La durée de vie moyenne observée est-elle significativement inférieure à 6000 h ?

You might also like