You are on page 1of 42

Sampling Distribution & Estimation Theory

E. Erraitab

Académie Internationale de l’Aviation Civile

02/03/2023

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 1 / 42
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 2 / 42
Introduction

Etude de cas sur la discrimination sexuelle dans les décisions de promotion.

- Nous utiliserons cet exemple pour une brève introduction à l’inférence statistique
par simulation.
- En 1972, dans le cadre d’une étude sur la discrimination sexuelle, 48 superviseurs
bancaires masculins ont chacun reçu le même dossier du personnel et ont été invités
à juger si la personne devait être promue à un poste de directeur d’agence décrit
comme étant routinier.
- Les dossiers étaient identiques, sauf que la moitié des superviseurs avaient des
dossiers montrant que la personne était un homme, tandis que l’autre moitié avait
des dossiers montrant que la personne était une femme.
- Il a été déterminé de manière aléatoire quels superviseurs recevaient des candi-
datures masculines et lesquels recevaient des candidatures féminines.
- Sur les 48 dossiers examinés, 35 ont été promus.
- L’étude vise à tester si les femmes sont discriminées de manière injuste.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 3 / 42
Introduction

Exemple introductif

Etude de cas sur la discrimination sexuelle dans les décisions de promotion.

Promotion
Promue Non promue Total
Homme 21 3 24
Sexe Femme 14 10 24
Total 35 13 48

Table 1: Décisions de promotion et genre

- Le pourcentage d’hommes promus est de 21 sur 24, soit environ 88


- Il y a donc une différence considérable entre les proportions d’hommes et de
femmes promus dans cette étude.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 4 / 42
Introduction

Exemple introductif

- Il y a deux explications possibles à ce qui pourrait se passer dans cette étude.


Et ce sont nos deux affirmations concurrentes.
1. La promotion et le sexe sont indépendants. Il n’y a pas de discrimination
sexuelle, et la différence observée dans les proportions est simplement due au
hasard. C’est notre hypothèse nulle. 2. La promotion et le sexe dépendent
l’un de l’autre. Il y a une discrimination sexuelle, la différence observée dans les
proportions n’est pas due au hasard. C’est l’hypothèse alternative.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 5 / 42
Introduction

Exemple introductif

- Le test d’hypothèse ressemble beaucoup à un procès. L’hypothèse nulle stipule


que le l’accusé est innocent et l’hypothèse alternative dit que l’accusé est coupable.
- Nous présentons alors des preuves ou, en d’autres termes, nous recueillons des
données. Ensuite, nous jugeons ces preuves et nous nous posons la question
suivante :
ces données pourraient-elles être le fruit du hasard si l’hypothèse nulle était vraie
?
- Si les données étaient susceptibles d’être produites en supposant que l’hypothèse
nulle était vraie, alors nous ne rejetterions pas l’hypothèse nulle, et déclarerions
que les preuves ne sont pas suffisantes pour suggérer que l’accusé est coupable.
lorsque cela se produit, le jury rend un verdict de non-culpabilité.Le jury ne dit pas
que l’accusé est innocent, mais simplement que les preuves ne sont pas suffisantes
pour le condamner., Dit statistiquement, nous ne rejetons pas l’hypothèse nulle.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 6 / 42
Introduction

Exemple introductif

- Par contre, Si les données sont très peu probables, alors les preuves soulèvent plus
qu’un doute raisonnable dans notre esprit concernant l’hypothèse nulle, et donc
nous rejetons l’hypothèse nulle en faveur de l’hypothèse alternative de culpabilité.
- Dans un test d’hypothèse, la charge de la preuve incombe à l’allégation inhab-
ituelle. L’hypothèse nulle est l’état ordinaire des choses, le statu quo. C’est donc
l’hypothèse alternative que nous devons considérer comme inhabituelle, et pour
laquelle nous devons rassembler des preuves.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 7 / 42
Introduction

Exemple introductif

*Récap*
- Nous commençons par une hypothèse nulle qui représente le statu quo.
- Nous avons également une hypothèse alternative qui représente notre question
de recherche, en d’autres termes, ce que nous testons.
- Nous effectuons un test d’hypothèse en supposant que l’hypothèse nulle est vraie,
soit par simulation, soit en utilisant des méthodes théoriques.
- Si les résultats du test suggèrent que les données ne fournissent pas de preuves
convaincantes de l’hypothèse alternative, nous nous en tenons à l’hypothèse nulle.
Dans le cas contraire, nous rejetons l’hypothèse nulle en faveur de l’hypothèse
alternative.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 8 / 42
Introduction

Exemple introductif : Simulation

*Rappel :* l’objectif est de réaliser une simulation en supposant que l’hypothèse


nulle est vraie.
H0 : On suppose qu’il n’y a pas de discrimination sexuelle et que les différences
dans les taux de promotion qui sont observées, sont simplement dues au hasard.
H1 : Il y a une discrimination basée sur le sexe au niveau des promotions.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 9 / 42
Introduction

Exemple introductif : Simulation


Simulation :

1. Une carte de face représente un dossier non promu, et une carte sans face représente
un dossier promu. + Enlever 3 as →, il reste 13 cartes de faces. + Enlver une autre
carte, n’importe laquelle, mais pas une carte face, → 35 cartes non face. 2. Battre les
cartes et les distribuer en deux groupes de taille 24.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 10 / 42
Introduction

Exemple introductif : Simulation

*Simulation : *
3. Nous comptons le nombre de cartes dans chaque groupe, qui représentent les dossiers
promus, calculons la proportion de dossiers promus dans chaque groupe, et prenons la
différence entre les proportions d’hommes et de femmes promus. Ainsi nous avons la
première simulation.

4. On répète cette expérience autant de fois qu’on veut.


E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 11 / 42
Introduction

Exemple introductif : Simulation

*Simulation : *
- Puisque nous répartissons aléatoirement les dossiers promus en deux groupes, nous nous
attendons à ne pas voir de différence entre les proportions de promotions masculines et
féminines.
- Nous nous attendons à ce que ce que la différence soit égal à zéro, mais nous nous
attendons également à ce qu’il varie,
- Nous voulons savoir dans quelle mesure il varie afin de pouvoir comparer notre différence
initiale de 30% à la distribution des différences simulées en supposant l’indépendance entre
les décisions de promotion et le sexe.
- Dans ce cas, nous avons calculé une différence de Noter le résultat. et après on passe
à la simulation suivante.
- Une fois que nous avons terminé la 1ère simulation, nous répétons les étapes deux à
quatre plusieurs fois, afin de construire une distribution de différences simulées.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 12 / 42
Introduction

Exemple introductif : Simulation


Comment prendre une décision finale ?

- Si les résultats des simulations ressemblent aux données observées, alors nous décidons
que la différence entre les proportions de dossiers promus, entre les hommes et les femmes,
est due au hasard. Et que la promotion et le sexe sont indépendants.
- Si, au contraire, les résultats des simulations ne ressemblent pas aux données observées,
nous décidons que la différence observée dans les taux de promotion n’est probablement
pas due au hasard et qu’elle peut être attribuée à un effet réel du sexe.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 13 / 42
Introduction

Exemple introductif : Simulation


Comment prendre une décision finale ?

- Si nous répétons la simulation plusieurs fois et que nous enregistrons les différences
simulées dans les proportions d’hommes et de femmes promus, nous pouvons construire
une distribution comme celle-ci.

Figure 1: Taux de promotion basés sur une centaine de simulations.


E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 14 / 42
Introduction

Exemple introductif : Simulation


Comment prendre une décision finale ?

- La faible probabilité d’un tel événement, ou d’une différence encore plus extrême, suggère
que les décisions de promotion ne sont peut-être pas indépendantes du sexe, et nous
rejetterions donc l’hypothèse nulle.
- Notre conclusion est que ces données montrent des preuves convaincantes d’une asso-
ciation entre le sexe et les décisions de promotion prises par les superviseurs bancaires
masculins.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 15 / 42
Introduction

Exemple introductif : Simulation


Résumé

- En supposant que l’hypothèse nulle soit vraie, nous avons évalué la probabilité d’observer
un résultat au moins aussi extrême que celui observé dans les données originales.
- Et comme cette probabilité était faible, nous avons décidé de rejeter l’hypothèse nulle
en faveur de l’hypothèse alternative. La probabilité d’observer des données au moins aussi
extrêmes que celles observées dans l’étude originale, dans l’hypothèse où l’hypothèse nulle
est vraie, est appelée p-valeur (p-value).

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 16 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Introduction

- L’échantillonnage et l’estimation ont un écho très important en entreprise dans le do-


maine de la maîtrise statistique des procédés.
- Une illustration pratique de mise en oeuvre par le biais de normes telles qu’ISO 9000
sera abordée.
- la statistique inférentielle s’appuie sur la théorie des probabilités qui permet de modéliser
certains phénomènes aléatoires. On suppose que les principales notions de probabilités
utiles ont été développées et acquises.

Vocabulaire

- La population est l’ensemble des individus sur lesquels porte une étude statistique. On
la désigne de façon générale par la lettre Ω. Un individu est noté par ω. Un individu ω
appartient à la population est noté par ω ∈ Ω.
- Dans le cas où la population Ω est finie, nous pouvons écrire : Ω = {ω1 , ω2 , . . . ωN },
Où N = CardΩ désigne la taille de la population.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 17 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Remarque

En statistique inférentielle, les populations étudiées sont de grande taille, souvent N est
de l’ordre de plusieurs milliers, voire plusieurs millions, d’individus.
- Nous sommes intéressés par une caractéristique particulière des individus de la popula-
tion, le nombre de défauts observés sur les véhicules en sortie de la ligne de production
par exemple.
- Le caractère observé est formalisé par une variable X qu’on appelle **variable
d’intérêt**.
- En général, il n’est pas possible de déterminer les valeurs de X pour tous les individus
de la population. On réalise alors un **sondage** afin d’obtenir une estimation des
paramètres caractérisant la population.
- Un sondage exige le prélèvement dans la population Ω d’un échantillon, défini comme
étant un n − uplet d’éléments de Ω. On désigne souvent un tel échantillon par la lettre
S (sample en anglais). On peut écrire : S = {ω1 , ω2 , . . . ωn }, où n représente la taille de
l’échantillon

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 18 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Les hypothèses de la statistique classique

- Sur une population Ω on définit une variable aléatoire X liée à un caractère observé
dans la population. On supposera que la variable aléatoire X est définie sur un espace
probabilisé Ω, τ, P, où :
- Ω est la population étudiée,
- τ est la tribu des événements et ;
- P est une mesure de probabilité sur (Ω, τ ) Dans ces conditions, on peut alors formuler
les hypothèses de la statistique classique.
Définition 1 (Hypothèses de la statistique classique)
- Les valeurs observées (x1 , . . . , xn ) constituent une réalisation d’un n − uplet, noté
(X1 , . . . , Xn ), de variables aléatoires ;
- les variables aléatoires Xi sont mutuellement indépendantes et suivent la même loi que
X.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 19 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Echantillonnage

La théorie de **l’échantillonnage** consiste, d’une part, à déterminer un échantillon


à partir d’une population donnée, et d’autre part à étudier les caractéristiques de cet
échantillon afin d’en déduire des propriétés de la populationdont il est issu (inférence
statistique).

Statistiques

- Soit X une variable aléatoire réelle définie sur une population Ω. Si nous prélevons un
échantillon ω = (ω1 , . . . , ωn ) de taille n, nous observons n réels x1 , . . . , xn qui sont les
valeurs que prend X sur chacun des individus de l’échantillon : X (ωi ) = xi .
- D’après les hypothèses de la statistique classique, ces nombres sont considérés comme
des réalisations de n variables aléatoires X1 , . . . , Xn i.i.d. : indépendantes et identique-
ment distribuées, c’est-à-dire suivant la même loi de probabilité.
∀i ∈ {1, . . . n}, Xi (ω) = xi

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 20 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Definition
Définition Une statistique T est une variable aléatoire fonction de X1 , . . . , Xn :

T = f (X1 , . . . , Xn )

La loi de probabilité de la variable aléatoire T s’appelle distribution


d’échantillonnage.

En pratique, on s’intéresse souvent à la distribution d’échantillonnage des


moyennes et à celles des variances.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 21 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Example
On prélève au hasard n bouteilles en plastiques dans une ligne de production.
Soit X la variable aléatoire réelle prenant la valeur 1 si la bouteille est
défectueuse et 0 s’elle est bonne.
1. On définit ainsi n variables aléatoires X1 , X2 , . . . , Xn , supposées i.i.d. Qulle
est la loi de Xi ? Pn
2. On définit la variable aléatoire suivante : Kn = i=1 Xi , que représente la
variable Kn et quelle est sa loi de distribution ?

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 22 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des moyennes

A tout échantillon on associe une suite de variables aléatoires réelles (Xi )i ≥


1 i.i.d.. On suppose de plus que la variable aléatoire parente X admet une es-
pérance µ et une variance σ 2 . On a donc :

∀i ≥ 1, E(Xi ) = µ et Var (Xi ) = Var (X ) = σ 2

Definition
la statistique X̄ , appelée moyenne empirique de l’échantillon est définie par :
n
1X
X̄ = Xi
n
i=1

On a alors le théorème suivant, essentiel en statistique.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 23 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Rappel : Inégalité de Bienaymé Tchebychev (BAT)

σ2
Pour a > 0, P(|X − E(X )| ≥ a) ≤ a2
Si a = 2σ, on a alors :

1
P(|X − E(X )| ≥ 2σ) ≤
4
Question : Que dit l’inégalité de BAT si la variance est petite ?

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 24 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Rappel : Loi faible des grands nombres

Soient X1 , X2 , . . . , Xn des v.a i.i.d. Quelle lien existe t il entre le réel E(Xi ) et la
v.a X̄ définie par : X̄ = X1 +X2 +...+X
n
n
?

Proof.
1
E(X̄ ) = E(X1 + X2 + . . . + Xn )
n
1
= E(X1 ) + E(X2 ) + . . . + E(Xn )
n
1
= nE(X1 )
n
= E(X1 )
= E(Xi )

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 25 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Rappel : Loi faible des grands nombres

De même, V(X̄ ) est

Proof.
1
V(X̄ ) = V(X1 + X2 + . . . + Xn )
n2
1
= V(X1 ) + V(X2 ) + . . . + V(Xn )
n2
1
= V(X1 )
n
1
= V(Xi )
n
2
σ
=
n

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 26 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Rappel : Loi faible des grands nombres

Application du BAT sur la v.a X̄ .


V(Xi )
i)
On a : P( X̄ − E(X̄ ) ≥ a) ≤ an2 = V(X
na2

Ainsi, pour n → ∞ limn→∞ P( X̄ − E(X̄ ) ≥ a) = 0, dans ce cas on parle de
convergence en probabilité.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 27 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Rappel : Théorème central limite

D’après la loi FDGN, on a E(X̄ ) = µ, ainsi, E(X̄ ) − µ = 0, la v.a E(X̄ ) − µ est


centrée.
2
De même, on a : V(X̄ ) = σn .
 
X̄ − µ 1
V  q  = σ2 V(X̄ − µ)
σ2 n
n

1 σ2
= σ2 n
n
=1
X̄ −µ √ X̄ −µ
Ainsi, la v.a Z définie par p = n σ est centrée et réduite.
σ2
n
Le TCL stipule que la v.a Z se rapproche de la loi N (0, 1) quand n est grand.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 28 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des moyennes

Theorem (Théorème 1)
σ2
E(X̄ ) = µ et Var (X̄ ) = n

2
Ce résultat montre que l’écart-type de X̄ est égal à σn , plus petit que l’écart-type
de X .
On constate, comme le laissait prévoir la loi faible des grands nombres, qu’une
observation de X est en général plus proche de µ qu’une observation de X , et
même d’autant plus proche que n est grand.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 29 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des moyennes

Cas où n est suffisamment grand

Par suffisamment grand on entend en général n > 30.


La loi de probabilité de X dépend a priori de la loi de X . Le théorème central-limite
permet d’affirmer que la suite de variables aléatoires (Un ), où :

X̄ − µ
Un = σ

n

converge en loi vers N (0, 1). En pratique, cela signifie que, pour n assez grand, la
2
variable aléatoire X̄ suit approximativement la loi normale N (µ, σn ) et ce même
si la loi de la variable parente X n’est pas une loi normale.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 30 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des moyennes

Cas où n est suffisamment grand

si U ∼ N (0, 1), on a : P(−1.96 ≤ U ≤ 1.96) = 0.95. En appliquant ce résultat


à la variable
X̄ − µ
Un = σ √
/ n
compte tenu de l’approximation gaussienne donnée par le théorème central-limite,
on obtient  
σ σ
P = X̄ − 1.96 √ ≤ µ ≤ X̄ + 1.96 √ = 0.95
n n
On en déduit, si σest connu et si n est assez grand, un intervalle de confiance
aléatoire pour µ au niveau de confiance 95% :
 
σ σ
IC0.95 (µ) = X̄ − 1.96 √ ; X̄ + 1.96 √
n n

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 31 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des moyennes

Cas où n est suffisamment grand

Example
Soit X le poids des sachets dans une production en série. On pose E(X ) = µ et
V(X ) = 0.2 et on suppose que σ = 0.1g.
Un échantillon de taille n = 50 sachets a donné une moyenne x̄ égale à 15g.
Question Donner l’intervalle de confiance pour µ au niveau de confiance 95%.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 32 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des moyennes

Cas des échantillons gaussiens

Supposons que la variable aléatoire parente X suive une loi normale (ou loi de
Gauss) d’espérance µ et de variance σ 2 . Comme les Xi suivent la même loi, la
variable aléatoire X̄ est une combinaison linéaire de variables gaussiennes indépen-
2
dantes, elle suit donc encore une loi normale, d’espérance µ et de variance σ /n.
Dans ce cas, quelle que soit la taille de l’échantillon, la variable aléatoire

X̄ − µ
U= σ/√n

suit la loi normale centrée réduite N (0, 1).

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 33 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des moyennes

Cas des échantillons gaussiens

Example
On prélève 25 pièces dans une production industrielle. Une étude préalable a
montré que la longueur X des pièces produites suivant une loi normale
d’espérance 10mm et d’écart-type 2mm. Entre quelles valeurs a-t-on 90% de
chances de trouver le diamètre moyen de ces 25 pièces ?

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 34 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Cas général

Nous avons défini la moyenne empirique de l’échantillon comme la moyenne arith-


métique des variables aléatoires Xi . Introduisons de la même façon la variance
empirique de l’échantillon, notée S 2 .

Definition
La statistique
n
1X 2
S2 = Xi − X̄
n
i=1

s’appelle variance empirique de l’échantillon

On utilise souvent la formule suivante, qui se démontre simplement en développant


la formule de définition de S 2 .
n
21X 2
S = Xi − X̄ 2
n
i=1
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 35 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Cas général

Exercice :
Calculer E(S 2 )
Quelle est la différence par rapport à E(X̄ ) ?
Le fait que S 2 ait une espérance qui n’est pas égale à σ 2 est générateur d’un biais,
qui peut être corrigé en multipliant S 2 par un facteur correcteur.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 36 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Cas général

Definition
On appelle variance corrigée de l’échantillon la variable aléatoire S 2 définie par
n n
n 1 X 2 1 X 2 n
S ∗2 = S2 = Xi − X̄ = Xi − X̄ 2 )
n−1 n−1 n−1 n−1
i=1 i=1

Question : Calculer E(S ∗2 ) et commenter le résultat.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 37 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Rappel : Loi du chi deux

Dans le cas où la variable aléatoire parente X suit une loi normale, on peut préciser
la loi de probabilité de la variable aléatoire S 2 . Avant cela, introduisons la loi du
χ2 .

Definition
On dit qu’une variable aléatoire Z suit la loi du χ2 à ν degrés de liberté (où ν >
0) si elle admet pour densité de probabilité la fonction f suivante :
(
1
2ν/2 Γ(ν/2)
x ν/2−1 e −x /2 , si x > 0,
f (x ) =
0, si non.

Ce fait sera noté Z ∼ χ2ν . Dans ce cas la variable aléatoire Z admet une espérance
et E(Z ) = ν.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 38 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Rappel : Loi du chi deux

Proposition
Soient Y1 , . . . , Yn des variables aléatoires indépendantes et suivant toutes la loi
normale centrée réduite N (0, 1). Alors la variable aléatoire

Z = Y12 + . . . + Yn2

suit la loi du χ2 à n degrés de liberté.


La loi du χ2 est tabulée : si ν est fixé et p ∈ [0, 1], on peut lire dans les tables la
valeur χ2p telle que P(Z ≤ χ2p ) = p. Ce nombre χ2p est le fractile d’ordre p de la
loi χ2n .

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 39 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Intervalle de confiance pour la variance

Theorem
Si la variable aléatoire X suit une loi normale de variance σ 2 , alors la variable
aléatoire
nS 2 (n − 1)S ∗2
Z = 2 =
σ σ2
2
suit la loi du χ à n − 1 degrés de liberté.

Soit α un réel strictement positif, par exemple α = 0.05 = 5%. Le nombre 1 − α


sera appelé niveau de confiance.

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 40 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Intervalle de confiance pour la variance

Comme la variable aléatoire Z suit la loi χ2n−1 , on peut déterminer les deux fractiles
χ2α/2 et χ21−α/2 tels que

P(Z ≤ χ2α/2 ) = α/2 et P(Z ≥ χ21−α/2 ) = α/2

Alors
P(χ2α/2 ≤ Z ≤ χ21−α/2 ) = 1 − α
Or on a
nS 2 nS 2 nS 2
χ2α/2 ≤ Z ≤ χ21−α/2 ⇔ χ2α/2 ≤ 2
≤ χ21−α/2 ⇔ 2 ≤ σ2 ≤ 2
σ χ1−α/2 χα/2

donc  
nS 2 nS 2
2
P ≤σ ≤ 2 =1−α
χ21−α/2 χα/2

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 41 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance

Distribution d’échantillonnage des variances

Intervalle de confiance pour la variance

On a donc obtenu un intervalle de confiance aléatoire pour σ 2 au niveau de con-


fiance 1 − α:  
2 nS 2 nS 2
IC1−α (σ ) = ,
χ21−α/2 χ2α/2

E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 42 / 42

You might also like