CM Stats

Année universitaire 2022-2023
COURS DE STATISTIQUES
SEMESTRE 4
CPP-INP Bordeaux
Auteur : Florent ARNAL

Adresse électronique : florent.arnal@u-bordeaux.fr
Site : http://flarnal.e-monsite.com
Table des matières
1 Statistique descriptive 1
I Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.1 Notion de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2 Statistique descriptive à 1 variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
I.2.3 Quartiles d’une série statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I.3 Représentation graphique d’une série à l’aide d’un boxplot . . . . . . . . . . . . . . . . 4
II Statistique descriptive à 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.1 Méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.2 Equations des droites de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II.3 Résidus de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
II.4 Coefficients de corrélation et de détermination . . . . . . . . . . . . . . . . . . . . . . . 8
2 Statistique inférentielle 13
I Estimateurs, estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.2 Échantillon d’une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.3 Erreur d’estimation et biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I.4 Estimateur et estimation ponctuelle d’une moyenne . . . . . . . . . . . . . . . . . . . . 14
I.5 Estimateur et estimation ponctuelle d’une variance . . . . . . . . . . . . . . . . . . . . 15
I.5.1 Estimation de σ 2 lorsque µ est connue . . . . . . . . . . . . . . . . . . . . . . . . 15
I.5.2 Estimation de σ 2 lorsque µ est inconnue . . . . . . . . . . . . . . . . . . . . . . . 15
I.6 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
II Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
II.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
II.2 Intervalle de confiance d’une moyenne lorsque la variance est connue . . . . . . . . . . . 17
II.3 Intervalle de confiance d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . 18
III Tests de conformité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
III.1 Un peu d’histoire : Neyman, Pearson et Fisher . . . . . . . . . . . . . . . . . . . . . . . 19
III.1.1 Les tests selon Fisher : 1 hypothèse et 1 probabilité . . . . . . . . . . . . . . . . 19
III.1.2 Les tests selon Neyman-Pearson : 2 hypothèses et 1 région critique . . . . . . . . 19
III.2 Les tests des nos jours : l’approche N-P-F . . . . . . . . . . . . . . . . . . . . . . . . . . 19
III.3 Risques de première et de deuxième espèce . . . . . . . . . . . . . . . . . . . . . . . . . 20
III.4 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3
4 TABLE DES MATIÈRES
Chapitre 1
Statistique descriptive
I Rappels
I.1 Notion de variable
Les données statistiques se présentent sous la forme d’individus auxquels on associe des caractères (appelés
également “variables statistiques”). L’ensemble des individus constitue un échantillon (ou encore une série sta-
tistique), formant ainsi un sous-ensemble d’un groupe appelé “population”.
Les caractères statistiques peuvent être de plusieurs natures :
• Les variables qualitatives :

Les valeurs possibles d’une variable qualitative sont appelées les modalités.
Exemples : couleur de cheveux, sexe.
Remarque : On qualifie d’ordinale une variable qualitative pour laquelle la valeur mesurée sur chaque individu
est numérique (par exemple, une appréciation où l’on qualifie le produit de Passable (1) à très bon (5)).
• Les variables quantitatives (que l’on peut mesurer) ;

⋆ Les variables quantitatives discrètes prenant des valeurs (isolées) dans un ensemble fini ou dénombrable
(par exemple N).
Exemple : Notes.
⋆ Les variables quantitatives continues prenant leurs valeurs dans un intervalle de R (voire R).
Exemples : taille d’un individu, pH, masse.
I.2 Statistique descriptive à 1 variable

I.2.1 Paramètres de position
1. Médiane d’une série
Définition 1 : La médiane notée Me est un nombre réel tel que la moitié des observations lui sont
inférieures (ou égales) et la moitié supérieures (ou égales).
Remarque 1 : La médiane partage la série statistique (xi )1≤i≤N en deux groupes de ”même effectif”
(les valeurs du caractère étant rangées par ordre croissant).
Cas d’une série discrète d’effectif total N (les observations étant rangées par ordre croissant).
On convient que :
• Si N impair, la médiane est telle que Me = x N +1 .
2
x N +x N +1
• Si N est pair, on convient que la médiane est Me = 2
2
2
.
Exemple 1 : La série (1; 3; 4; 6; 8; 8) admet pour médiane Me = 5.
1
2 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
2. Moyenne d’une série

p
P
Définition 2 : La moyenne (pondérée) d’une série statistique (xi ; ni )1≤i≤p telle que ni = n est le
i=1
réel noté x défini par :
p
1X
x= ni xi
n i=1
Remarque 2 : La moyenne et la médiane d’une distribution statistique s’expriment dans la même unité
que les valeurs prises par le caractère étudié.
Il est à noter que la médiane présente l’avantage par rapport à la moyenne de ne pas dépendre des valeurs
extrêmes qui peuvent être suspectes voire aberrantes.
Proposition 1 : Soit (xi )1≤i≤n une série statistique. On a :

X
(xi − x) = 0
1≤i≤n
I.2.2 Paramètres de dispersion

1. L’étendue
Définition 3 : L’étendue d’une série statistique est la différence entre la plus grande et la plus petite
valeur observées. On la note souvent R voire e.
Exemple 2 : Les séries (1; 3; 4; 6; 8; 8) et (1; 7; 7; 8; 8; 8) ont la même étendue R = 7.
Remarque 3 : Comme l’étendue ne permet pas de différencier les séries, elle n’est pas ici une très
bonne mesure de la dispersion. D’une façon générale, quand il existe des valeurs extrêmes, l’étendue est
une mesure médiocre de la dispersion. Il est donc utile de faire appel à de nouveaux paramètres comme
la variance et l’écart-type.
2. La variance et l’écart-type
p
P
Définition 4 : La variance de la série (xi ; ni )1≤i≤p telle que ni = n est définie par :
i=1
p
2 1X 2
σX = ni (xi − x)
n i=1
Le réel σX est appelé écart-type de la série (xi ).

p
P 2
Le réel SCEX = ni (xi − x) est appelé Somme des Carrés des écarts (à la moyenne). On note :
i=1
2 SCEX
σX =
n
Remarque 4 : La variance d’une série statistique correspond à la moyenne des carrés des écarts
à la moyenne.
L’écart-type permet ainsi de mesurer la dispersion autour de la moyenne d’une série statistique.
Plus l’écart-type est faible, plus la série est homogène.
Il s’exprime dans la même unité que les valeurs observées.
I. RAPPELS 3
Remarque 5 : [Formule de Koenig-Huygens]

En développant la somme des carrés des écarts, on a :
n n n n n
(xi − x)2 = xi 2 + x2 − 2xxi = xi 2 + nx2 − 2x xi 2 + nx2 − 2xnx
P P P P P
xi =
i=1 i=1 i=1 i=1 i=1
n n
(xi − x)2 = xi 2 − nx2 ce qui implique
P P
On a donc :
i=1 i=1
n
2 1X 2
σX = xi − x2 (1.1)
n i=1
Exemple 3 : Considérons la série (5; 7; 9; 11; 13).

On a : x = 9 et SCE = (5 − x)2 + · · · + (13 − x)2 = 40.
2 SCE √
Ainsi : σX = = 8 et σX = 2 2.
N
I.2.3 Quartiles d’une série statistique

Les valeurs étant rangées par ordre croissant, on rappelle que la médiane partage la population en deux popu-
lations (basse et haute).
Définition 5 : On appelle premier quartile Q1 la médiane de la partie basse de la population, troisième

quartile Q3 la médiane de la partie haute de la population.
Remarque 6 : Les quartiles correspondent aux valeurs prises par le caractère qui partagent la série en quatre
groupes de même effectif.
Le premier quartile peut être considéré comme la plus petite valeur du caractère telle qu’ au moins 25 % des
valeurs lui sont inférieures ou égales.
Définition 6 : L’intervalle [Q1 ; Q3 ] est appelé intervalle interquartile.

La longueur de cet intervalle Q3 − Q1 , parfois noté EIQ, est appelée écart interquartile.
Remarque 7 : L’intervalle interquartile est un paramètre de dispersion qui élimine les valeurs extrêmes qui
peuvent être douteuses, ce qui est un avantage par rapport à l’étendue.
Cependant, il ne tient compte que de 50 % de la population ce qui engendre une perte parfois conséquente
d’information.
Les quartiles ne sont qu’un cas particulier de la notion de quantiles (https://fr.wikipedia.org/wiki/Quantile).
Bilan : Résumés d’une série statistique par ses paramètres
• Le couple (médiane ; étendue) est le plus ”simple” à déterminer mais ne permet pas de situer les valeurs
extrêmes par rapport à la moyenne.
• Le couple (médiane ; intervalle ou écart interquartile) est plus précis que le précédent car il est insensible
aux valeurs extrêmes.
I.3 Représentation graphique d’une série à l’aide d’un boxplot

Pour représenter une série (variable) quantitative, il est souvent utile d’utiliser un boxplot (boı̂te à moustaches).
On repère sur la boı̂te à moustaches d’une variable :
• l’échelle des valeurs de la variable, située sur l’axe vertical ;
• la valeur du premier quartile Q1 , correspondant au trait inférieur de la boı̂te ;
• la valeur de la médiane Me , représentée par un trait horizontal à l’intérieur de la boı̂te ;
• la valeur du troisième quartile Q3 , correspondant au trait supérieur de la boı̂te ;
• les 2 ≪moustaches≫ inférieure et supérieure délimitent les valeurs dites adjacentes qui sont déterminées
à partir de l’écart interquartile (Q3 − Q1 ). La valeur extrême de la moustache inférieure correspond à la
plus petite des valeurs supérieures ou égales à Q1 − 1, 5 ∗ (Q3 − Q1 ). La valeur extrême de la moustache
supérieure correspond à la plus grande des valeurs inférieures ou égales à Q3 + 1, 5 ∗ (Q3 − Q1 ) ;
• d’éventuelles valeurs suspectes situées au-delà des valeurs extrêmes définies ci-dessus peuvent apparaı̂tre
et sont représentées par des marqueurs (rond, étoile, etc.). Dans le cas où il n’existe pas de valeur suspecte,
les valeurs extrêmes des moustaches correspondent aux valeurs minimales et maximales.
Exemple 4 : Considérons la série suivante : (1; 3; 4; 5; 6; 7; 9; 10; 17).

On a : Me = 6 ; Q1 = 4 ; Q3 = 9. Ainsi, Q3 − Q1 = 5 ce qui induit que :
Q1 − 1, 5 ∗ (Q3 − Q1 ) = −3, 5 et Q3 + 1, 5 ∗ (Q3 − Q1 ) = 16, 5. Il y a donc une valeur suspecte (17). Les valeurs
extrêmes des ”moustaches” étant égales à 1 et 10.
On obtient la représentation graphique suivante :
Représentation de la série
0 1 3 5 7 910 12 15 18 20
Remarque 8 : Dans la boı̂te à moustaches définie par TUKEY, la boı̂te a pour longueur la distance inter-
quartile (Q3 − Q1 ), et les moustaches sont basées usuellement sur 1,5 fois la longueur de la boı̂te. Dans ce cas,
une valeur est suspecte (atypique) si elle dépasse de 1, 5 fois l’écart interquartile au dessous du premier quartile
ou au dessus du troisième quartile.
Le choix de la valeur 1, 5 par TUKEY a une justification probabiliste.
En effet, si une variable suit une distribution normale, alors la zone délimitée par la boı̂te et les moustaches de-
vrait contenir 99,3 % des observations. On ne devrait donc trouver que 0,7% d’observations suspectes (outliers).
II. STATISTIQUE DESCRIPTIVE À 2 VARIABLES 5
II Statistique descriptive à 2 variables

II.1 Méthode des moindres carrés
On considère une série statistique double représentée par un nuage de points Mi (xi ; yi )1≤i≤n .
Soit (D) une droite d’ajustement. Pour tout entier naturel i tel que 1 ≤ i ≤ n, on note Pi le projeté de Mi sur
la droite (D) parallèlement à l’axe des ordonnées.
Ajuster ce nuage de point par la méthode des moindres carrés, c’est déterminer la droite (D) pour que la somme
n
Mi Pi 2 soit minimale.
P
i=1
Illustration graphique :
Mi (xi ; yi )
+ (D) : y = ax + b
Pn
M1 (x1 ; y1 )
+ +
Pi Mn (xn ; yn )
P2
P1
+
M2 (x2 ; y2 )
II.2 Equations des droites de régression

n
Mi Pi 2 .
P
Déterminons la droite d’équation y = ax + b rendant minimale la somme
i=1
n
Mi Pi 2 revient à déterminer le minimum de la fonction ϕ définie sur R2 par
P
Ainsi, minimiser
i=1
n
2
X
ϕ(a, b) = [(axi + b) − yi ]
i=1
On admet que si la fonction ϕ admet un extremum en (x0 ; y0 ) alors ses dérivées partielles s’y annulent.
dϕ Pn
(a, b) = 2 xi [(axi + b) − yi ]
da i=1
dϕ Pn
(a, b) = 2 [(axi + b) − yi ]
db i=1
dϕ n n n n
axi 2 + bxi − xi yi = 0 soit a xi 2 + b
P P P P
(a, b) = 0 implique xi − xi yi = 0.
da i=1 i=1 i=1 i=1
dϕ Pn n
P n
P
(a, b) = 0 implique [(axi + b) − yi ] = 0 soit a xi + nb − yi = 0.
db i=1 i=1 i=1
On a donc :
n n n n n
xi 2 + b
P P P P P
xi yi = a xi et yi = a xi + nb
i=1 i=1 i=1 i=1 i=1
n n
xi 2 et β =
P P
En posant α = xi , on a :
i=1 i=1
n
 
P
xi y i
α β a  i=1 
= n

β n b  P 
yi
i=1
 n 
P
xi yi
α β a 
i=1

En notant M la matrice définie par M = , on a : M = n
.
β n b  P 
yi
i=1
On rappelle que :
1 Pn 1 Pn
x= xi et y= yi .
n i=1 n i=1
n n n n n
2
xi 2 + x2 − 2xxi = xi 2 + nx2 − 2x xi 2 + nx2 − 2xnx
P P P P P
(xi − x) = xi =
i=1 i=1 i=1 i=1 i=1
n n
P 2 P 2 2
On a donc : (xi − x) = xi − nx ce qui implique
i=1 i=1
n n
1X 2 1X 2
V(X) = (xi − x) = xi − x2 (1.2)
n i=1 n i=1
La matrice M est inversible si et seulement si nα − β 2 6= 0 soit nα − (nx)2 6= 0 .

1
M inversible équivaut donc à α − x2 6= 0. D’après ce qui précède, on en déduit que :
n
1 Pn
M inversible ssi (xi − x)2 6= 0.
n i=1
n
P 2
Or : (xi − x) = 0 ⇐⇒ ∀i ∈ {1; 2; ...; n}, xi − x = 0 ⇐⇒ ∀i ∈ {1; 2; ...; n}, xi = x.
i=1
Ainsi : M inversible si et seulement si les xi ne sont pas tous égaux.
n
 
P
xi y i
1 n −β a  i=1 
Dans ce cas, on a : M −1 = avec = M −1  n
. Ainsi :
nα − β 2 −β α b  P 
yi
i=1
n n
2
P P
n n
n xi yi − n xy xi yi − nxy
1
yi = i=1 i=1
P P
a= n xi yi − β n = n
nα − β 2 i=1 i=1
xi 2 − (nx)2 xi 2 − nx2
P P
n
i=1 i=1
Quant à b, on a :
n n n n
xi 2 xi 2
P P P P
n n
−nx xi yi + ny −x xi yi + y
1 P P i=1 i=1 i=1 i=1
b= −β xi yi + α yi = n = n .
nα − β 2 i=1 i=1
P 2 2
P 2 2
n xi − (nx) xi − nx
n i=1 n i=1
xi − nx2 − x
P 2 P
y xi yi − nxy
i=1 i=1
Cette relation peut s’écrire : b = n = y − ax.
xi 2 − nx2
P
i=1
En conclusion, ϕ peut admettre un extremum uniquement en (a; b) tel que
n
P
xi yi − nxy
i=1
a= n et b = y − ax
x2i − nx2
P
i=1
En considérant b = y − ax, on obtient :

n n 2
2
a2 (xi − x)2 + (y − yi )2 + 2a(xi − x)(y − yi ) .
P P
ϕ(a, b) = (a(xi − x) + (y − yi )) =
i=1 i=1
ϕ(a, b) peut donc s’écrire sous la forme :
n
X n
X n
X
ϕ(a, b) = a2 (xi − x)2 + 2a (xi − x)(y − yi ) + (y − yi )2
i=1 i=1 i=1
On constate que, si b = y − ax alors ϕ(a, b) est un polynôme du second degré avec un coefficient du terme
dominant positif. Cette fonction admet donc un minimum ce qui permet de conclure que les réels a et b obtenus
n
Mi Pi 2 .
P
précédemment permettent de minimiser
i=1
n
P
A noter que, tout comme la formule de la variance (1.2) , (xi − x)(y − yi ) peut s’écrire autrement en
i=1
n
P n
P n
P n
P
développant : (xi − x)(yi − y) = (xi yi − xi y − xyi + x y) = xi yi − nxy − nxy + nxy = xi yi − nx y
i=1 i=1 i=1 i=1
On a donc :
n n
1X 1X
(xi − x)(yi − y) = xi yi − nx y (1.3)
n i=1 n i=1
Une équation de la droite d’ajustement de Y en X est donc Y = aX + b avec

n
P n
P 1Pn
xi yi − nxy (xi − x) (yi − y) (xi − x) (yi − y)
n
a = i=1
n = i=1
n = i=1 P et b = y − ax
2 2 1 n 2
x2i
P P
− nx (xi − x) (xi − x)
i=1 i=1 n i=1
Théorème-Définition 1 :
On considère deux variables X et Y prenant respectivement les valeurs (xi )1≤i≤n et (yi )1≤i≤n .
La covariance de X et Y est le réel, noté Cov (X, Y ) voire σXY , défini par :
n
1X
Cov (X, Y ) = (xi − x) (yi − y)
n i=1
ou encore n
1X
Cov (X, Y ) = xi yi − xy = xy − x.y
n i=1
Proposition 2 : La droite de régression de Y en X a pour équation Y = aX + b avec

Cov (X, Y )
a= et b = y − ax
V(X)
Exemple 5 : Considérons le nombre d’acheteurs potentiels d’un produit en fonction de son prix de vente.
Prix xi en euros 9 10 11 12 13 14 15 16
Nombre yi d’acheteurs éventuels 120 100 90 70 60 50 40 30
Le nuage de points associé à la série (xi ; yi ) laisse apparaı̂tre un relation linéaire entre le nombre Y d’acheteurs
potentiels et le prix X.
120
100
80
y
60
40
9 10 11 12 13 14 15 16
x
Calculons les coefficients de la droite de régression de Y en X :

n n
x = 12, 5 ; y = 70 ; Cov(X, Y ) = n1 (xi − x) (yi − y) = n1 2
P P
xi yi − xy = −66, 25 et σX = 5, 25.
i=1 i=1
Cov(X, Y ) −66, 25
Ainsi : a = 2 = ≃ −12, 62 et b = y − ax ≃ 227, 74.
σX 5, 25
La droite de régression de Y en X a pour équation
Y = −12, 62X + 227, 74

II.3 Résidus de la régression

Définition 7 : [Résidus]
On considère deux variables X et Y prenant respectivement les valeurs (xi )1≤i≤n et (yi )1≤i≤n .
On appelle résidus de Y par rapport à X les écarts , notés ei , entre les valeurs observées de la variable
dépendante yi et les valeurs correspondantes ŷi = axi + b calculées à l’aide de l’équation de la droite de
régression de Y en X . On a donc, pour tout i ∈ J1; nK :
ei = yi − ŷi
Illustration graphique :
Mi (xi ; yi )
+ (D) : y = ax + b
ei = yi − yî Pn
M1
+ +
Pi (xi ; yî ) Mn
P2
P1
+
M2
Remarque 9 : Les valeurs ŷi sont aussi appelées valeurs estimées de la variable dépendante Y .
Proposition 3 : Les résidus sont de somme et de moyenne nulle.

En effet :
n
P n
P n
P
ei = (yi − ŷi ) = (yi − (axi + b)) = ny − anx − nb = n (y − ax − b) = 0
i=1 i=1 i=1
Remarque 10 : Les séries (yi )1≤i≤n et les estimations (ŷi )1≤i≤n ont donc la même moyenne. On a donc :
y = ŷ
Exemple 6 : Calculons les résidus associés à l’exemple précédent.

Dans un premier temps, nous déterminons les estimations en utilisant l’équation yî = −12, 62xi + 227, 74.
On obtient : 114, 16 ; 101, 54 ; 88, 92 ; 76, 30 ; 63, 68 ; 51, 06 ; 38, 44 ; 25, 82.
Ainsi, les résidus étant définis par ei = yi − ŷi , on obtient :
5, 84 ; −1, 54 ; 1, 08 ; −6, 30 ; −3, 68 ; −1, 06 ; 1, 56 ; 4, 18
II.4 Coefficients de corrélation et de détermination

Ces coefficients permettent d’apprécier (partiellement) la pertinence et la qualité d’un ajustement.
Définition 8 : [Coefficient de corrélation]

On appelle coefficient de corrélation linéaire de la série (xi , yi )1≤i≤n le nombre réel, noté R ou ρ(X, Y ),
défini par :
Cov(X, Y )
R=
σX σY
Proposition 4 : Comme σX et σY sont positifs alors R, a et Cov(X, Y ) sont de même signe.

Définition 9 : (Les différentes SCE)
On considère (xi ; yi )1≤i≤n une série statistique à deux variables constituée de n couples.
• La variabilité totale (des yi ) est définie par :
n
2
X
SCEtotale = (yi − y)
i=1
• La variabilité expliquée SCEexp (par l’ajustement affine) est définie par :

n
(ŷi − y)2
X
SCEexp =
i=1
Elle correspond à la SCE des estimations ŷi .

• La variabilité résiduelle, associée aux résidus et notée SCEres , est définie par :
n
X
SCEres = ei 2
i=1
P 2 P 2
SCEtotale = (yi − y) = (yi − ŷi + ŷi − y) .
i i
En développant,
P on a : 2 P 2 P
SCEtotale = (yi − ŷi ) + (ŷi − y) + 2 (yi − ŷi ) (ŷi − y).
i i i
P P P
Or, (yi − ŷi ) (ŷi − y) = [(yi − y) − a(xi − x)] [a(xi − x)] = a (yi − y − a(xi − x)) (xi − x).
i i i
Il
Ps’avère que :
(yi − y − a(xi − x)) (xi − x) = nCov(X, Y ) − anV(X) = 0.
i
On en déduit la propriété suivante.
Proposition 5 :
SCEtotale = SCEexp + SCEres
On peut dès lors expliciter les différentes SCE ainsi :

n
P 2
SCEtotale = (yi − y) = nV(Y )
i=1
2
Cov 2 (X, Y )
n n

Cov(X, Y )
(ŷi − y)2 = a2 (xi − x)2 = na2 V(X) = n = nR2 V(Y )
P P
SCEexp = V(X) = n
i=1 i=1 V(X) V(X)
n n
2
(yi − ŷi )2 = nV(Y )(1 − R2 ).
P P
SCEres = ei =
i=1 i=1
La dernière égalité découle de la relation SCEres = SCEtotale − SCEexp .
Définition 10 : [Coefficient de détermination]

Le coefficient de détermination d’une série statistique à deux variables X et Y correspond à R2 ou
ρ2 (X, Y ).
Il s’avère que :
✍
SCEexp
=
SCEtotale
La définition du coefficient de détermination conduit à la propriété suivante :
Proposition 6 : [Coefficient de détermination et SCE ]

Le coefficient de détermination R2 d’une série statistique à deux variables X et Y vérifie :
SCEexp
R2 =
SCEtotale
Il correspond ainsi à la part de variabilité de Y expliquée par la régression.
La relation SCEtotale = SCEexp + SCEres induit la propriété suivante :
Proposition 7 : Le coefficient de détermination R2 d’une série statistique à deux variables X et Y

vérifie :
• R2 ≤ 1
• −1 ≤ R ≤ 1
À retenir :
L’ajustement sera d’autant meilleur que R2 est proche de 1.
En pratique : on considère que si 0, 8 ≤ |R| ≤ 1, il y a une forte corrélation.
Si R2 est proche de 1, on peut dire qu’il existe une corrélation importante entre les deux variables.
Mais ceci n’implique pas nécessairement l’existence d’une relation directe de cause à effet entre les deux variables.
La pertinence d’un ajustement affine peut être vérifiée par l’étude des résidus dont la représentation graphique
ne doit faire apparaı̂tre aucune tendance.
Sinon, malgré un coefficient de corrélation linéaire (ou de détermination) élevé, un autre ajustement sera souvent
plus cohérent ...
Exemple 7 : Voici ci-dessous une représentation graphique des résidus calculés précédemment. Il ne laisse
apparaı̂tre aucune tendance.
6
2
residus
−2
−6
9 10 12 14 16
x
Le coefficient de détermination ρ2 (X, Y ) est environ égal à 0, 98. L’ajustement affine est donc pertinent.
Exemple 8 : Le graphique ci-dessous représente les résidus associés à un ajustement affine avec un coefficient
de détermination ρ2 (X, Y ) est environ égal à 0, 99.
10
5
resid
0
−5
−10
9 10 11 12 13 14 15 16
x
On voit clairement que les résidus sont positifs aux extrêmités et négatifs au centre.
Le modèle linéaire n’est pas pertinent (un ajustement quadratique le serait).
À retenir (Covariance et indépendance) :

1. Si X et Y sont indépendantes alors Cov(X, Y ) = 0 (on a également ρ(X, Y ) = 0).
2. Par contre, la réciproque n’est pas vraie comme le montre l’exemple ci-dessous.
Si Cov(X, Y ) = 0 alors cela n’implique pas que X et Y sont indépendantes.
Exemple 9 :
Considérons deux variables X et Y définies par le tableau ci-dessous :
xi -2 -1 0 1 2
yi 5 2 1 2 5
Le nuage de points associé à la série (xi ; yi ), représenté ci-dessous, ne laisse apparaı̂tre aucune liaison linéaire
entre X et Y .
5
4
3
y
2
1
−2 −1 0 1 2
x
On a : Cov(X, Y ) = 0 mais X et Y ne sont pas indépendantes car Y = X 2 + 1.

Chapitre 2
Statistique inférentielle
I Estimateurs, estimation ponctuelle

I.1 Introduction
En statistique, comme dans la théorie des probabilités le hasard intervient fortement.
En probabilité, on suppose la loi connue précisément et on cherche à donner les caractéristiques de la variable
qui est distribuée suivant cette loi.
L’objectif de la statistique est différent :
À partir de réalisation.s d’une variable (sur un échantillon), que peut-on dire de la loi de cette variable ? de
paramètres associés ?
Soit X une variable aléatoire dont la densité de probabilité f dépend d’un paramètre θ appartenant à I ⊂ R.
À l’aide d’un échantillon issu de X, on souhaite déterminer une estimation de la valeur de θ.
On pourra utiliser deux méthodes :
• l’estimation ponctuelle : on calcule une valeur vraisemblable de θ (liée à l’échantillon obtenu) ;
• l’estimation par intervalle : on cherche un intervalle dans lequel on ”espère” que le paramètre θ appartient.
I.2 Échantillon d’une variable

Définition 11 : [échantillon]
Soit n ∈ N∗ et X une variable aléatoire.
Un n-échantillon de X est un n-uplet (X1 , X2 , ...Xn ) de variables aléatoires réelles définies sur le même
espace probabilisé, indépendantes et de même loi que X.
Une réalisation de l’échantillon est alors un n-uplet (x1 , x2 , ..., xn ) de valeurs prises par l’échantillon.
Définition 12 : [Estimateur et estimation]

Une statistique de l’échantillon est une variable aléatoire ϕ(X1 , X2 , ..., Xn ) où ϕ est une application de
Rn dans R.
Un estimateur T d’un paramètre θ est une statistique à valeurs dans I.
Une estimation (ponctuelle) de θ est alors la valeur (réalisation) de cet estimateur correspondant à une
réalisation de l’échantillon.
n
1X
Exemple 10 : Tn = Xi appelé moyenne empirique est utilisé comme estimateur de la moyenne.
n i=1
Ainsi, si X est distribuée suivant la loi B(p) où p ∈]0, 1[ alors Tn est un estimateur de p.
I.3 Erreur d’estimation et biais

Définition 13 : Soit n ∈ N∗ et Tn un estimateur d’un paramètre θ.
Le biais de l’estimateur Tn de θ, note bθ (Tn ), est défini par :
bθ (Tn ) = E(Tn − θ) = E(Tn ) − θ
Si ce biais est nul, on dit que Tn est un estimateur sans biais (non biaisé) de θ.
13
14 CHAPITRE 2. STATISTIQUE INFÉRENTIELLE
Exemple 11 : Si X est distribuée suivant la loi exponentielle de paramètre λ, la moyenne empirique est un
estimateur biaisé de λ mais sans biais de λ1 .
Définition 14 : [Estimateur convergent]

L’estimateur est dit convergent si la suite (Tn )n>0 converge en probabilité vers θ i.e.
pour tout ε > 0, on a :
P (|Tn − θ| ≥ ε) → 0
n→+∞
Proposition 8 : [Estimateur convergent]

Si Tn est un estimateur sans biais de θ tel que V(Tn ) → 0 alors l’estimateur est convergent.
n→+∞
En effet, d’après l’inégalité de Bienaymé-Tchebytchev, on a :

V(Tn )
P (|Tn − E(Tn | ≥ ε) ≤ .
ε2
Ainsi, si V(Tn ) → 0 alors P (|Tn − θ| ≥ ε) → 0.
n→+∞ n→+∞
Définition 15 : [Risque quadratique d’un estimateur]

Le risque quadratique d’un estimateur T d’un paramètre θ est défini, sous réserve d’existence, par :
R(T, θ) = E (T − θ)2

Proposition 9 : Le risque quadratique d’un estimateur T d’un paramètre θ est défini, sous réserve
d’existence, par :
2
R(T, θ) = V(T ) + bθ (T )
En effet, on h: i h i h i
2 2 2
R(T, θ) = E (T − θ) = E ([T − E(T )] + [E(T ) − θ]) = E ([T − E(T )] + bθ (T )) .
R(T, θ) = E [T − E(T )]2 + bθ (T )2 + 2bθ (T )[T − E(T )]

R(T, θ) = E [T − E(T )]2 + E bθ (T )2 + E (2bθ (T )[T − E(T )])

Comme E ([T − E(T )]) =0, il vient :
R(T, θ) = E [T − E(T )]2 + bθ (T )2
Ce risque quadratique permet de comparer deux estimateurs.
Définition 16 : [Comparaison d’estimateurs]

Soient T1 et T2 deux estimateurs d’un paramètre θ ∈ I.
T1 est un meilleur estimateur que T2 si
∀θ ∈ I, R(T1 , θ) ≤ R(T2 , θ)
et
∃θ0 ∈ I, R(T1 , θ0 ) < R(T2 , θ0 )
Ainsi, dans le cas d’estimateurs non biaisés d’un paramètre θ, T1 est un meilleur estimateur que T2 si
∀θ ∈ I, V(T1 ) ≤ V(T2 )
et
∃θ0 ∈ I, V(T1 ) < V(T2 )
I.4 Estimateur et estimation ponctuelle d’une moyenne

On considère une variable aléatoire X d’espérance µ et de variance σ 2 (inconnues).
Théorème 1 :
n
1X
La moyenne empirique X = Xi est un estimateur non biaisé et convergent de µ.
n i=1
La moyenne observée x est donc une estimation ponctuelle de la moyenne µ. On note :
µ̂ = x
I. ESTIMATEURS, ESTIMATION PONCTUELLE 15
En effet : !
n n
1X 1X
E(X) = E Xi = E(Xi ) = µ.
n i=1 n i=1
Il est à noter que l’on peut déterminer la loi de X.

Si (Xn ) est une suite de variables aléatoires indépendantes et identiquement distribuées suivant la loi N (µ; σ)
alors
σ
X ∼ N µ; √
n
De plus, d’après le TCL, si (Xn ) est une suite de variables aléatoires indépendantes et de même loi (i.i.d.),
d’espérance µ et d’écart type σ alors
X −µ
σ converge en loi vers une variable aléatoire distribuée suivant la loi N (0, 1).
√
n
Cette approximation peut être utilisée dès lors que n ≥ 30.
I.5 Estimateur et estimation ponctuelle d’une variance

I.5.1 Estimation de σ 2 lorsque µ est connue
n
1X
Théorème 2 : La variable V = (Xi − µ)2 est un estimateur non biaisé de σ 2 .
n i=1
En effet : !
n n n
1X 1X 1X
(Xi − µ)2 E [Xi − µ]2 = E [Xi − E(X)]2 = V(X) = σ 2 .

E(V ) = E =
n i=1 n i=1 n i=1
Remarque 11 : V est un estimateur convergent de σ 2 .
I.5.2 Estimation de σ 2 lorsque µ est inconnue

Ce cas est beaucoup plus fréquent que le précédent car, en général, la moyenne de la population est inconnue.
n
1X
Théorème 3 : La variable S 2 = (Xi − X)2 est un estimateur biaisé de σ 2 .
n i=1
En effet : ! !
n n
1X 1X 2 2
E S2 = E (Xi − X)2 = E

X −X
n i=1 n i=1 i
n
1X 2
E S2 = E Xi2 − E X .

n i=1
2 σ2
Il s’avère que : E(Z 2 ) = V(Z) + E(Z)2 donc E Xi2 = σ 2 + µ2 et E X = + µ2 . Ainsi :

n
n 2 2
1X σ σ
E S2 = (σ 2 + µ2 ) − + µ2 = σ 2 + µ2 − + µ2 . On a donc :
n i=1 n n
n−1 2
E S2 = σ
n
Il en résulte que :
n
E S2 = σ2
n−1
n
n 1 X
où S2 = (Xi − X)2 .
n−1 n − 1 i=1
Théorème 4 : n
1 X
La variable Sˆ2 = (Xi − X)2 est un estimateur non biaisé de σ 2 .
n − 1 i=1
sˆ2 est donc une estimation ponctuelle de la variance µ. On note :
n
1 X
σˆ2 = sˆ2 = (xi − x)2
n − 1 i=1
Remarque 12 :
SCE SCE
• On a : s2 = et sˆ2 = .
n n−1
• Ŝ 2 est un estimateur convergent de σ 2 alors que Ŝ est un estimateur biaisé de σ.
Exemple 12 : On considère un échantillon extraite d’une population de moyenne µ et d’écart-type σ :
98 ; 99 ; 100 ; 101 ; 102
Donner une estimation ponctuelle de µ et σ 2 .

✍
I.6 Estimation d’une proportion

n
1X
Théorème 5 : Considérons F = Xi où (X1 , X2 , ...Xn ) est un n-échantillon de X de loi B(p).
n i=1
F est un estimateur non biaisé et convergent de p.
La fréquence observée, f , réalisation de F , est une estimation ponctuelle de p. On note :
p̂ = f
Justification et lien avec
! la loin binomiale :
n
1X 1X
E (F ) = E Xi = E(Xi ) = p.
n i=1 n i=1
Xn
On peut utiliser que Xi est distribuée suivant la loi B(n, p) d’espérance np.
i=1
II Estimation par intervalle de confiance

II.1 Généralités
Principe général :
On souhaite déterminer un intervalle de confiance d’un paramètre θ avec un niveau de confiance 1 − α.
On considère une famille de variables aléatoires (X1 , X2 , ...Xn ) de variables aléatoires réelles définies sur le
même espace probabilisé, indépendantes et de même loi que X associée au paramètre θ.
Pour obtenir un intervalle de confiance de θ, on peut essayer de déterminer une nouvelle variable aléatoire
Y = ϕ (X1 , X2 , · · · , Xn , θ) à partir des précédentes et du paramètre à déterminer, dont la loi soit connue et
dont on puisse trouver des valeurs k1 et k2 tels que
P (k1 ≤ Y ≤ k2 ) ≥ 1 − α
On peut alors en déduire un encadrement de la forme [θmin ≤ θ ≤ θmax ] conduisant à un intervalle de confiance
de θ au niveau de confiance 1 − α. On a alors :
P (θmin ≤ θ ≤ θmax ) ≥ 1 − α
Ainsi, 100 × (1 − α)% des intervalles contiennent le paramètre θ.

Usuellement, on prend α = 0, 05 soit 1 − α = 0, 95.
II. ESTIMATION PAR INTERVALLE DE CONFIANCE 17
Remarque 13 :
On cherche usuellement k1 et k2 tels que :
α α
P (Y < k1 ) ≤ et P (Y > k2 ) ≥
2 2
Dans le cas continu, on cherche k1 et k2 tels que
α α
P (Y ≤ k1 ) = et P (Y ≤ k2 ) = 1 −
2 2
α α
Ainsi, k1 et k2 sont alors les quantiles d’ordre et 1 − .
2 2
En outre, si la loi est symétrique, alors |θ − θmin | = |θmax − θ|. Cet écart est fréquemment appelé marge d’erreur.
Dire qu’une estimation par intervalle de confiance d’un paramètre θ est [θmin ; θmax ] signifie qu’il est ”vraisem-
blable” que la valeur (vraie) de θ appartient à cet intervalle.
Pour autant, on ne peut évaluer la probabilité d’appartenance de θ à un tel intervalle ! ! !
II.2 Intervalle de confiance d’une moyenne lorsque la variance est connue

On se place dans le cas où l’écart-type σ est connu et la distribution de la variable X gaussienne.
X ∼N (µ; σ) et on souhaite estimer le paramètre µ en utilisant l’estimateur X distribué
On considère donc
σ
suivant la loi N µ; √ .
n
X −µ
On a donc : σ ∼ N (0; 1).
√
n
De manière générale, considérons une variable U ∼ N (0; 1) et déterminons deux valeurs a et b telles que
α α α
P(a ≤ U ≤ b) = 1 − α avec P(U ≤ a) = et P(U ≥ b) = i.e. P(U ≤ b) = 1 − .
2 2 2
α
On a donc : Φ(a) + Φ(b) = 1 ce qui conduit à a = −b et b = Φ−1 1 − .
2
Le quantile b se note fréquemment b = q1− α2 ce qui conduit à

P −q1− α2 ≤ U ≤ q1− α2 = 1 − α
✍
Proposition 10 : [Intervalle de confiance d’une moyenne]

Lorsque X ∼ N (µ; σ) avec σ connu, une estimation par intervalle de confiance de µ, au niveau de confiance
1 − α, est donnée par :
σ σ
x − q1− 2
α √ ; x + q1− 2
α √
n n
Proposition 11 : [Intervalle de confiance d’une moyenne au niveau de confiance 95%]

Lorsque X ∼ N (µ; σ) avec σ connu, une estimation par intervalle de confiance de µ, au niveau de confiance
95%, est donnée par :
σ σ
x − 1, 96 √ ; x + 1, 96 √
n n
II.3 Intervalle de confiance d’une proportion

On se place dans le cas de grands échantillons. On rappelle la propriété suivante qui découle du TCL :
Soit (Xn ) une suite de variables distribuées suivant la loi B(n, p). On a :
Xn − np L
p → X où X ∼ N (0; 1)
np(1 − p)
X
Il s’avère que F = est un estimateur de p et on a :
n
F −p L
q → X où X ∼ N (0; 1)
p(1−p)
n
 
F −p
En utilisant que P −q1− α2 ≤ U ≤ q1− α2 = 1 − α, il vient P −q1− α2 ≤q ≤ q1− α2  = 1 − α.
p(1−p)
n
On souhaite obtenir un encadrement de p en utilisant que :
 2
F −p F −p  2
−q1− α2 ≤ q ≤ q1− α2 ⇔  q ≤ q1− α.
p(1−p) p(1−p) 2
n n
F −p 2 p(1 − p) 2 p(1 − p) 2
−q1− α2 ≤ q ≤ q1− α2 ⇔ (F − p) ≤ q1− α ⇔ F 2 + p2 − 2pF ≤ q1− α
p(1−p) n 2 n 2
n
F −p
≤ q1− α2 ⇔ n F 2 + p2 − 2pF ≤ pq1−
2 2 2

−q1− α2 ≤ q α − p q
1− α
p(1−p) 2 2
n
F −p 2 2 2 2
−q1− α2 ≤ q ≤ q1− α2 ⇔ (n + q1− α )p − (2nF + q
1− α )p + nF ≤ 0
p(1−p) 2 2
n
ce qui conduit à considérer que le paramètre p est compris entre les deux racines du trinôme du second degré
associé
: 2
2 2 2 4 2 2 4 2
∆ = 2nF + q1− α − 4(n + q1− α )nF = q1− α + 4nF q
1− α − 4q1− α nF = q1− α + 4nF (1 − F )q1− α .
2 2 2 2 2 2 2
Les racines sont alors

√ :
2
(2nF + q1− α) ± ∆
r
F (1 − F )
2
2 ∼ F ± q1− α2
2(n + q1− α) n→+∞ n
2
Proposition 12 : [Intervalle de confiance d’une proportion]

Lorsque n est grand, une estimation par intervalle de confiance de p, au niveau de confiance 1 − α, est
donnée par :
" r r #
f (1 − f ) f (1 − f )
f − q1− α2 ; f + q1− α2
n n
III. TESTS DE CONFORMITÉ 19
III Tests de conformité

III.1 Un peu d’histoire : Neyman, Pearson et Fisher
III.1.1 Les tests selon Fisher : 1 hypothèse et 1 probabilité
Dans la théorie des tests de Fisher, une seule hypothèse est testée. Elle est appelée ”hypothèse nulle” dans le
sens ”to be nullified” c’est-à-dire à réfuter et notée H0 .
L’hypothèse H0 n’est jamais ”prouvée” mais peut être rejetée.
La conclusion est basée sur le calcul d’une probabilité conditionnelle (p-valeur sous H0 ) correspondant à la
probabilité d’avoir une observation égale ou pire à celle que l’on a obtenue. Si cette probabilité est jugée suffi-
samment faible, on considère qu’on a réussi à montrer la fausseté de l’hypothèse nulle, on la rejette et le résultat
est déclaré significatif. Si p est trop élevé, on suspend le jugement et le résultat est déclaré non significatif.
Il n’y a qu’un seul risque d’erreur (α) correspondant à la probabilité de rejeter H0 à tort. Pour juger de p, on
raconte que le seuil de 5 % avait sa préférence car il percevait 5 % de royalties sur ses publications. La p-valeur
est centrale. Plus elle est petite, plus on a de preuves contre H0 .
• p = 0, 049 : l’observation est ”limite”
• p = 0, 001 : l’observation est ”probante”
• p = 0, 049 et p = 0, 051 : les résultats sont voisins.
Critique :
La p-valeur correspond à la probabilité d’avoir une observation pire (ou égale) à celle que l’on a obtenue (sous
H0 ).
H0 peut être rejetée (alors qu’elle est vraie) parce qu’elle est ”en contradiction” avec des résultats qui n’ont pas
été observés.
III.1.2 Les tests selon Neyman-Pearson : 2 hypothèses et 1 région critique

En 1928 et 1933, Neyman et Pearson introduisent la notion d’hypothèse alternative H0 , induisant l’apparition
d’un second risque (de deuxième espèce β). Basée sur la règle de décision par rapport à α (du ressort du cher-
cheur), p non présentée, une seule hypothèse
Si le seuil est fixé à 5% alors
• p = 0, 049 et p = 0, 001 conduisent à la même conclusion : rejet de H0
• p = 0, 049 et p = 0, 051 conduisent à des conclusions différentes.
Critique :
Cette méthode, basée sur la notion de région critique (zone de rejet H0 ) ne tient pas compte du ”degré” de
preuve (lié à p).
III.2 Les tests des nos jours : l’approche N-P-F

De nos jours, on utilise une méthode hybride basée sur les construction de Neyman, Pearson et Fisher. Les
différentes étapes d’un test sont les suivantes :
1. Hypothèses d’un test

La première étape d’un test consiste à déterminer l’hypothèse à tester.
Cette hypothèse, notée H0 , est appelée hypothèse nulle. Il s’agit, en général, d’une égalité.
On définit ensuite l’hypothèse qui sera retenue si on rejette H0 .
Cette hypothèse est appelée l’hypothèse alternative H1 et se présente souvent sous la forme :
soit “ . . . .6=. . . . ” ; on dit que le test est bilatéral.
soit “ . . . .>. . . . ” ou “ . . . .<. . . .. ” ; on dit alors que le test est unilatéral.
2. Seuil de signification et choix du modèle

Le niveau de signification d’un test est fixé fixé a priori, est fréquemment égal à 5 %.
Quant à la statistique de test (variable de décision) et la loi associée, elle est définie suivant le paramètre
considéré.
La distribution d’échantillonnage de cette statistique sera déterminée en supposant que l’hypothèse H0
est vraie.
Par exemple, dans le cas d’un test de conformité d’une moyenne (H0 : µ = µ0 ), on prendra, sous réserve
X − µ0
de validité : σ ֒→ N (0; 1).
√
n
3. Calcul de la p-valeur (p-value)

Une règle de rejet, utilisée par le logiciel R, consiste à calculer la probabilité que la statistique de test
soit égale à la valeur observée ou encore plus extrême, tout en supposant que l’hypothèse nulle H0 est
vraie :
on appelle cette probabilité la p-valeur (p-value en anglais) voire probabilité critique.
Elle correspond à la probabilité d’avoir une observation égale ou ”pire” que celle que l’on a
obtenue.
Dans le cas d’un test bilatéral, avec une loi symétrique, la p-value correspond au double de
celle qui aurait été obtenue lors de la mise en place d’un test unilatéral. Nous voyons donc
que la p-valeur est une probabilité calculée a posteriori, en fonction des données.
4. Conclusion
Si p-valeur 6 0, 05 alors il y avait moins de 5% de chance que la statistique de test prenne une valeur
”pire” que la valeur observée ce qui conduit à remettre en question l’hypothèse initiale. On rejette donc
H0 . Plus généralement :
on rejette H0 (au profit de H1 ) lorsque p-value 6 α, et le test est effectué au risque α.
Dans le cas contraire, on ne rejette pas H0 .
Si l’hypothèse H0 est rejetée alors que le seuil de signification considéré était égal à 5 %, on dit qu’on
rejette H0 de manière significative.
III.3 Risques de première et de deuxième espèce

Tous les règles de décision acceptent un risque α correspondant au risque de rejeter à tort l’hypothèse H0 ,
c’est-à-dire le risque de rejeter l’hypothèse H0 alors que H0 est vraie. Ce risque s’appelle aussi le risque de
première espèce.
La règle de décision du test comporte également un deuxième risque, à savoir de celui de ne pas rejeter l’hy-
pothèse nulle H0 alors que c’est l’hypothèse H1 qui est vraie. C’est le risque de deuxième espèce.
Les deux risques peuvent se définir ainsi :
α = P(rejeterH0 | H0 vraie) = probabilité de commettre une erreur de première espèce.

β = P(ne pas rejeterH0 | H1 vraie) = probabilité de commettre une erreur de deuxième espèce.
Le risque de première espèce α est choisi a priori. Toutefois le risque de deuxième espèce β dépend de l’hypothèse
alternative H1 et on ne peut le calculer que si on spécifie des valeurs particulières du paramètre dans l’hypothèse
H1 que l’on suppose vraie.
Les risques liés aux tests d’hypothèses peuvent se résumer ainsi :
H0 est vraie H0 est fausse

H0 n’est pas rejetée 1−α β
H0 est rejetée α 1−β
Illustration graphique : 1 − β = Puissance
β
α
µ µ1
Définition 17 : [Puissance d’un test]

1 − β définit la puissance du test à l’égard de la valeur du paramètre dans l’hypothèse alternative H1 .
La puissance du test représente la probabilité de rejeter l’hypothèse nulle H0 lorsque l’hypothèse vraie
est H1 .
Plus β est petit, plus le test est puissant.
La puissance d’un test correspond à la probabilité de mettre en évidence un effet lorsque celui existe.
Il s’agit donc de la capacité d’un test à prendre la bonne décision lorsqu’il existe un effet.
III. TESTS DE CONFORMITÉ 21
À noter :
1. Pour un même risque α et une même taille d’échantillon, on constate que, si l’écart ∆ entre la valeur du
paramètre posée en H0 et celle supposée dans l’hypothèse vraie H1 augmente, le risque β diminue ce qui
induit une augmentation de 1 − β.
2. Une diminution de la variabilité (cf. écart-type) peut également induire une augmentation de la puissance
du test.
3. Enfin, une augmentation de la taille du ou des échantillons aura pour effet de donner une meilleure
précision.
Le test est alors plus puissant.
4. Il est recommandé de choisir une taille d’échantillon conduisant, a priori, à une puissance de test au
moins égale à 80%.
III.4 Un exemple
Exemple 13 :
On s’intéresse à la la durée de vie X, exprimée en heures, d’un module d’affichage oled et on admet que l’écart-
type des durées de vie est égal à 300 h.
La datasheet de ce module signale une durée de vie moyenne de 6000 h.
Afin de valider ces informations, on prélève un échantillon aléatoire de 36 modules et on constate une durée de
vie moyenne de 5900 h.
La durée de vie moyenne observée est-elle significativement inférieure à 6000 h ?
✍

CM Stats

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

CM Stats

Uploaded by

Copyright:

Available Formats

Année universitaire 2022-2023

Auteur : Florent ARNAL

• Les variables qualitatives :

• Les variables quantitatives (que l’on peut mesurer) ;

I.2 Statistique descriptive à 1 variable

Exemple 1 : La série (1; 3; 4; 6; 8; 8) admet pour médiane Me = 5.

2. Moyenne d’une série

Proposition 1 : Soit (xi )1≤i≤n une série statistique. On a :

I.2.2 Paramètres de dispersion

Exemple 2 : Les séries (1; 3; 4; 6; 8; 8) et (1; 7; 7; 8; 8; 8) ont la même étendue R = 7.

Le réel σX est appelé écart-type de la série (xi ).

Remarque 5 : [Formule de Koenig-Huygens]

Exemple 3 : Considérons la série (5; 7; 9; 11; 13).

I.2.3 Quartiles d’une série statistique

Définition 5 : On appelle premier quartile Q1 la médiane de la partie basse de la population, troisième

Définition 6 : L’intervalle [Q1 ; Q3 ] est appelé intervalle interquartile.

Les quartiles ne sont qu’un cas particulier de la notion de quantiles (https://fr.wikipedia.org/wiki/Quantile).

Bilan : Résumés d’une série statistique par ses paramètres

I.3 Représentation graphique d’une série à l’aide d’un boxplot

• l’échelle des valeurs de la variable, située sur l’axe vertical ;

• la valeur du premier quartile Q1 , correspondant au trait inférieur de la boı̂te ;

• la valeur de la médiane Me , représentée par un trait horizontal à l’intérieur de la boı̂te ;

• la valeur du troisième quartile Q3 , correspondant au trait supérieur de la boı̂te ;

Exemple 4 : Considérons la série suivante : (1; 3; 4; 5; 6; 7; 9; 10; 17).

II Statistique descriptive à 2 variables

II.2 Equations des droites de régression

La matrice M est inversible si et seulement si nα − β 2 6= 0 soit nα − (nx)2 6= 0 .

En considérant b = y − ax, on obtient :

Une équation de la droite d’ajustement de Y en X est donc Y = aX + b avec

Proposition 2 : La droite de régression de Y en X a pour équation Y = aX + b avec

Calculons les coefficients de la droite de régression de Y en X :

Y = −12, 62X + 227, 74

II.3 Résidus de la régression

Proposition 3 : Les résidus sont de somme et de moyenne nulle.

Exemple 6 : Calculons les résidus associés à l’exemple précédent.

5, 84 ; −1, 54 ; 1, 08 ; −6, 30 ; −3, 68 ; −1, 06 ; 1, 56 ; 4, 18

II.4 Coefficients de corrélation et de détermination

Définition 8 : [Coefficient de corrélation]

Proposition 4 : Comme σX et σY sont positifs alors R, a et Cov(X, Y ) sont de même signe.

Définition 9 : (Les différentes SCE)

• La variabilité expliquée SCEexp (par l’ajustement affine) est définie par :

Elle correspond à la SCE des estimations ŷi .

On en déduit la propriété suivante.

On peut dès lors expliciter les différentes SCE ainsi :

Définition 10 : [Coefficient de détermination]

La définition du coefficient de détermination conduit à la propriété suivante :

Proposition 6 : [Coefficient de détermination et SCE ]

Il correspond ainsi à la part de variabilité de Y expliquée par la régression.

La relation SCEtotale = SCEexp + SCEres induit la propriété suivante :

Proposition 7 : Le coefficient de détermination R2 d’une série statistique à deux variables X et Y

À retenir (Covariance et indépendance) :

On a : Cov(X, Y ) = 0 mais X et Y ne sont pas indépendantes car Y = X 2 + 1.

I Estimateurs, estimation ponctuelle

I.2 Échantillon d’une variable

Définition 12 : [Estimateur et estimation]

I.3 Erreur d’estimation et biais

bθ (Tn ) = E(Tn − θ) = E(Tn ) − θ

Définition 14 : [Estimateur convergent]

Proposition 8 : [Estimateur convergent]

En effet, d’après l’inégalité de Bienaymé-Tchebytchev, on a :

Définition 15 : [Risque quadratique d’un estimateur]

R(T, θ) = E [T − E(T )]2 + E bθ (T )2 + E (2bθ (T )[T − E(T )])

Définition 16 : [Comparaison d’estimateurs]