Professional Documents
Culture Documents
Sampling Dist Estimation
Sampling Dist Estimation
E. Erraitab
02/03/2023
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 1 / 42
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 2 / 42
Introduction
- Nous utiliserons cet exemple pour une brève introduction à l’inférence statistique
par simulation.
- En 1972, dans le cadre d’une étude sur la discrimination sexuelle, 48 superviseurs
bancaires masculins ont chacun reçu le même dossier du personnel et ont été invités
à juger si la personne devait être promue à un poste de directeur d’agence décrit
comme étant routinier.
- Les dossiers étaient identiques, sauf que la moitié des superviseurs avaient des
dossiers montrant que la personne était un homme, tandis que l’autre moitié avait
des dossiers montrant que la personne était une femme.
- Il a été déterminé de manière aléatoire quels superviseurs recevaient des candi-
datures masculines et lesquels recevaient des candidatures féminines.
- Sur les 48 dossiers examinés, 35 ont été promus.
- L’étude vise à tester si les femmes sont discriminées de manière injuste.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 3 / 42
Introduction
Exemple introductif
Promotion
Promue Non promue Total
Homme 21 3 24
Sexe Femme 14 10 24
Total 35 13 48
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 4 / 42
Introduction
Exemple introductif
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 5 / 42
Introduction
Exemple introductif
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 6 / 42
Introduction
Exemple introductif
- Par contre, Si les données sont très peu probables, alors les preuves soulèvent plus
qu’un doute raisonnable dans notre esprit concernant l’hypothèse nulle, et donc
nous rejetons l’hypothèse nulle en faveur de l’hypothèse alternative de culpabilité.
- Dans un test d’hypothèse, la charge de la preuve incombe à l’allégation inhab-
ituelle. L’hypothèse nulle est l’état ordinaire des choses, le statu quo. C’est donc
l’hypothèse alternative que nous devons considérer comme inhabituelle, et pour
laquelle nous devons rassembler des preuves.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 7 / 42
Introduction
Exemple introductif
*Récap*
- Nous commençons par une hypothèse nulle qui représente le statu quo.
- Nous avons également une hypothèse alternative qui représente notre question
de recherche, en d’autres termes, ce que nous testons.
- Nous effectuons un test d’hypothèse en supposant que l’hypothèse nulle est vraie,
soit par simulation, soit en utilisant des méthodes théoriques.
- Si les résultats du test suggèrent que les données ne fournissent pas de preuves
convaincantes de l’hypothèse alternative, nous nous en tenons à l’hypothèse nulle.
Dans le cas contraire, nous rejetons l’hypothèse nulle en faveur de l’hypothèse
alternative.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 8 / 42
Introduction
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 9 / 42
Introduction
1. Une carte de face représente un dossier non promu, et une carte sans face représente
un dossier promu. + Enlever 3 as →, il reste 13 cartes de faces. + Enlver une autre
carte, n’importe laquelle, mais pas une carte face, → 35 cartes non face. 2. Battre les
cartes et les distribuer en deux groupes de taille 24.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 10 / 42
Introduction
*Simulation : *
3. Nous comptons le nombre de cartes dans chaque groupe, qui représentent les dossiers
promus, calculons la proportion de dossiers promus dans chaque groupe, et prenons la
différence entre les proportions d’hommes et de femmes promus. Ainsi nous avons la
première simulation.
*Simulation : *
- Puisque nous répartissons aléatoirement les dossiers promus en deux groupes, nous nous
attendons à ne pas voir de différence entre les proportions de promotions masculines et
féminines.
- Nous nous attendons à ce que ce que la différence soit égal à zéro, mais nous nous
attendons également à ce qu’il varie,
- Nous voulons savoir dans quelle mesure il varie afin de pouvoir comparer notre différence
initiale de 30% à la distribution des différences simulées en supposant l’indépendance entre
les décisions de promotion et le sexe.
- Dans ce cas, nous avons calculé une différence de Noter le résultat. et après on passe
à la simulation suivante.
- Une fois que nous avons terminé la 1ère simulation, nous répétons les étapes deux à
quatre plusieurs fois, afin de construire une distribution de différences simulées.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 12 / 42
Introduction
- Si les résultats des simulations ressemblent aux données observées, alors nous décidons
que la différence entre les proportions de dossiers promus, entre les hommes et les femmes,
est due au hasard. Et que la promotion et le sexe sont indépendants.
- Si, au contraire, les résultats des simulations ne ressemblent pas aux données observées,
nous décidons que la différence observée dans les taux de promotion n’est probablement
pas due au hasard et qu’elle peut être attribuée à un effet réel du sexe.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 13 / 42
Introduction
- Si nous répétons la simulation plusieurs fois et que nous enregistrons les différences
simulées dans les proportions d’hommes et de femmes promus, nous pouvons construire
une distribution comme celle-ci.
- La faible probabilité d’un tel événement, ou d’une différence encore plus extrême, suggère
que les décisions de promotion ne sont peut-être pas indépendantes du sexe, et nous
rejetterions donc l’hypothèse nulle.
- Notre conclusion est que ces données montrent des preuves convaincantes d’une asso-
ciation entre le sexe et les décisions de promotion prises par les superviseurs bancaires
masculins.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 15 / 42
Introduction
- En supposant que l’hypothèse nulle soit vraie, nous avons évalué la probabilité d’observer
un résultat au moins aussi extrême que celui observé dans les données originales.
- Et comme cette probabilité était faible, nous avons décidé de rejeter l’hypothèse nulle
en faveur de l’hypothèse alternative. La probabilité d’observer des données au moins aussi
extrêmes que celles observées dans l’étude originale, dans l’hypothèse où l’hypothèse nulle
est vraie, est appelée p-valeur (p-value).
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 16 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Introduction
Vocabulaire
- La population est l’ensemble des individus sur lesquels porte une étude statistique. On
la désigne de façon générale par la lettre Ω. Un individu est noté par ω. Un individu ω
appartient à la population est noté par ω ∈ Ω.
- Dans le cas où la population Ω est finie, nous pouvons écrire : Ω = {ω1 , ω2 , . . . ωN },
Où N = CardΩ désigne la taille de la population.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 17 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Remarque
En statistique inférentielle, les populations étudiées sont de grande taille, souvent N est
de l’ordre de plusieurs milliers, voire plusieurs millions, d’individus.
- Nous sommes intéressés par une caractéristique particulière des individus de la popula-
tion, le nombre de défauts observés sur les véhicules en sortie de la ligne de production
par exemple.
- Le caractère observé est formalisé par une variable X qu’on appelle **variable
d’intérêt**.
- En général, il n’est pas possible de déterminer les valeurs de X pour tous les individus
de la population. On réalise alors un **sondage** afin d’obtenir une estimation des
paramètres caractérisant la population.
- Un sondage exige le prélèvement dans la population Ω d’un échantillon, défini comme
étant un n − uplet d’éléments de Ω. On désigne souvent un tel échantillon par la lettre
S (sample en anglais). On peut écrire : S = {ω1 , ω2 , . . . ωn }, où n représente la taille de
l’échantillon
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 18 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
- Sur une population Ω on définit une variable aléatoire X liée à un caractère observé
dans la population. On supposera que la variable aléatoire X est définie sur un espace
probabilisé Ω, τ, P, où :
- Ω est la population étudiée,
- τ est la tribu des événements et ;
- P est une mesure de probabilité sur (Ω, τ ) Dans ces conditions, on peut alors formuler
les hypothèses de la statistique classique.
Définition 1 (Hypothèses de la statistique classique)
- Les valeurs observées (x1 , . . . , xn ) constituent une réalisation d’un n − uplet, noté
(X1 , . . . , Xn ), de variables aléatoires ;
- les variables aléatoires Xi sont mutuellement indépendantes et suivent la même loi que
X.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 19 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Echantillonnage
Statistiques
- Soit X une variable aléatoire réelle définie sur une population Ω. Si nous prélevons un
échantillon ω = (ω1 , . . . , ωn ) de taille n, nous observons n réels x1 , . . . , xn qui sont les
valeurs que prend X sur chacun des individus de l’échantillon : X (ωi ) = xi .
- D’après les hypothèses de la statistique classique, ces nombres sont considérés comme
des réalisations de n variables aléatoires X1 , . . . , Xn i.i.d. : indépendantes et identique-
ment distribuées, c’est-à-dire suivant la même loi de probabilité.
∀i ∈ {1, . . . n}, Xi (ω) = xi
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 20 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Definition
Définition Une statistique T est une variable aléatoire fonction de X1 , . . . , Xn :
T = f (X1 , . . . , Xn )
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 21 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Example
On prélève au hasard n bouteilles en plastiques dans une ligne de production.
Soit X la variable aléatoire réelle prenant la valeur 1 si la bouteille est
défectueuse et 0 s’elle est bonne.
1. On définit ainsi n variables aléatoires X1 , X2 , . . . , Xn , supposées i.i.d. Qulle
est la loi de Xi ? Pn
2. On définit la variable aléatoire suivante : Kn = i=1 Xi , que représente la
variable Kn et quelle est sa loi de distribution ?
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 22 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Definition
la statistique X̄ , appelée moyenne empirique de l’échantillon est définie par :
n
1X
X̄ = Xi
n
i=1
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 23 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
σ2
Pour a > 0, P(|X − E(X )| ≥ a) ≤ a2
Si a = 2σ, on a alors :
1
P(|X − E(X )| ≥ 2σ) ≤
4
Question : Que dit l’inégalité de BAT si la variance est petite ?
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 24 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Soient X1 , X2 , . . . , Xn des v.a i.i.d. Quelle lien existe t il entre le réel E(Xi ) et la
v.a X̄ définie par : X̄ = X1 +X2 +...+X
n
n
?
Proof.
1
E(X̄ ) = E(X1 + X2 + . . . + Xn )
n
1
= E(X1 ) + E(X2 ) + . . . + E(Xn )
n
1
= nE(X1 )
n
= E(X1 )
= E(Xi )
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 25 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Proof.
1
V(X̄ ) = V(X1 + X2 + . . . + Xn )
n2
1
= V(X1 ) + V(X2 ) + . . . + V(Xn )
n2
1
= V(X1 )
n
1
= V(Xi )
n
2
σ
=
n
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 26 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 27 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
1 σ2
= σ2 n
n
=1
X̄ −µ √ X̄ −µ
Ainsi, la v.a Z définie par p = n σ est centrée et réduite.
σ2
n
Le TCL stipule que la v.a Z se rapproche de la loi N (0, 1) quand n est grand.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 28 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Theorem (Théorème 1)
σ2
E(X̄ ) = µ et Var (X̄ ) = n
2
Ce résultat montre que l’écart-type de X̄ est égal à σn , plus petit que l’écart-type
de X .
On constate, comme le laissait prévoir la loi faible des grands nombres, qu’une
observation de X est en général plus proche de µ qu’une observation de X , et
même d’autant plus proche que n est grand.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 29 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
X̄ − µ
Un = σ
√
n
converge en loi vers N (0, 1). En pratique, cela signifie que, pour n assez grand, la
2
variable aléatoire X̄ suit approximativement la loi normale N (µ, σn ) et ce même
si la loi de la variable parente X n’est pas une loi normale.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 30 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 31 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Example
Soit X le poids des sachets dans une production en série. On pose E(X ) = µ et
V(X ) = 0.2 et on suppose que σ = 0.1g.
Un échantillon de taille n = 50 sachets a donné une moyenne x̄ égale à 15g.
Question Donner l’intervalle de confiance pour µ au niveau de confiance 95%.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 32 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Supposons que la variable aléatoire parente X suive une loi normale (ou loi de
Gauss) d’espérance µ et de variance σ 2 . Comme les Xi suivent la même loi, la
variable aléatoire X̄ est une combinaison linéaire de variables gaussiennes indépen-
2
dantes, elle suit donc encore une loi normale, d’espérance µ et de variance σ /n.
Dans ce cas, quelle que soit la taille de l’échantillon, la variable aléatoire
X̄ − µ
U= σ/√n
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 33 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Example
On prélève 25 pièces dans une production industrielle. Une étude préalable a
montré que la longueur X des pièces produites suivant une loi normale
d’espérance 10mm et d’écart-type 2mm. Entre quelles valeurs a-t-on 90% de
chances de trouver le diamètre moyen de ces 25 pièces ?
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 34 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Cas général
Definition
La statistique
n
1X 2
S2 = Xi − X̄
n
i=1
Cas général
Exercice :
Calculer E(S 2 )
Quelle est la différence par rapport à E(X̄ ) ?
Le fait que S 2 ait une espérance qui n’est pas égale à σ 2 est générateur d’un biais,
qui peut être corrigé en multipliant S 2 par un facteur correcteur.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 36 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Cas général
Definition
On appelle variance corrigée de l’échantillon la variable aléatoire S 2 définie par
n n
n 1 X 2 1 X 2 n
S ∗2 = S2 = Xi − X̄ = Xi − X̄ 2 )
n−1 n−1 n−1 n−1
i=1 i=1
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 37 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Dans le cas où la variable aléatoire parente X suit une loi normale, on peut préciser
la loi de probabilité de la variable aléatoire S 2 . Avant cela, introduisons la loi du
χ2 .
Definition
On dit qu’une variable aléatoire Z suit la loi du χ2 à ν degrés de liberté (où ν >
0) si elle admet pour densité de probabilité la fonction f suivante :
(
1
2ν/2 Γ(ν/2)
x ν/2−1 e −x /2 , si x > 0,
f (x ) =
0, si non.
Ce fait sera noté Z ∼ χ2ν . Dans ce cas la variable aléatoire Z admet une espérance
et E(Z ) = ν.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 38 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Proposition
Soient Y1 , . . . , Yn des variables aléatoires indépendantes et suivant toutes la loi
normale centrée réduite N (0, 1). Alors la variable aléatoire
Z = Y12 + . . . + Yn2
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 39 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Theorem
Si la variable aléatoire X suit une loi normale de variance σ 2 , alors la variable
aléatoire
nS 2 (n − 1)S ∗2
Z = 2 =
σ σ2
2
suit la loi du χ à n − 1 degrés de liberté.
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 40 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
Comme la variable aléatoire Z suit la loi χ2n−1 , on peut déterminer les deux fractiles
χ2α/2 et χ21−α/2 tels que
Alors
P(χ2α/2 ≤ Z ≤ χ21−α/2 ) = 1 − α
Or on a
nS 2 nS 2 nS 2
χ2α/2 ≤ Z ≤ χ21−α/2 ⇔ χ2α/2 ≤ 2
≤ χ21−α/2 ⇔ 2 ≤ σ2 ≤ 2
σ χ1−α/2 χα/2
donc
nS 2 nS 2
2
P ≤σ ≤ 2 =1−α
χ21−α/2 χα/2
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 41 / 42
Échantillonnage, estimation, estimateurs et intervalles de confiance
E. Erraitab (Académie Internationale de l’Aviation Civile)Sampling Distribution & Estimation Theory 02/03/2023 42 / 42