Professional Documents
Culture Documents
Cours Estim 2P
Cours Estim 2P
Probabilités-statistiques
Introduction à la notion d’estimation statistique
1 Idée directrice
Intentions de vote, taux de défaillance d’un matériel produit en grande série, ou taux
de défaillance d’un emprunteur, risque qu’un jeune conducteur provoque plus d’un ac-
cident de circulation dans l’année... Notre société est demandeuse d’un grand nombre
de ”chiffres” dont la valeur n’est pas connue a priori.
Les estimer est l’objet de la statistique inférentielle: il s’agit de déduire,à partir d’un
nombre fini de valeurs observées, des valeurs théoriques associées à une grandeur
aléatoire, laquelle est supposée pouvoir modéliser de manière satisfaisante le phénomène
en question pour un individu ”pris au hasard” dans la population considérée.
Remarques:
• Les valeurs observées x1 , ..., xn sur les éléments de l’échantillon E ont un caractère
aléatoire, car si on choisit un autre échantillon E � , on peut observer des valeurs
différentes de celles obtenues sur l’échantillon E . Elles sont donc considérées
comme des valeurs réalisées, sur l’événement associé au choix de l’échantillon, de n
v.a. X1 , ..., Xn (xi = Xi (E), noté aussi xi = Xi (ei )) lesquelles, sous l’hypothèse
que l’échantillon soit correctement constitué (ou échantillon aléatoire sim-
ple), sont alors supposées indépendantes et identiquement distribuées.
Exemple 1:
Si p est le pourcentage des électeurs ayant l’intention de voter pour un-e candidat-e
C donné-e à des élections, et si Xi est la variable aléatoire qui prend la valeur 1 si un
individu ei ”pris au hasard” déclare vouloir voter pour C, et 0 sinon, alors Xi est une
variable aléatoire qui suit la loi de Bernoulli de paramètre p, et donc E(Xi ) = p.
n
1
Si Yn = n
Xi , on a alors: E(Yn ) = p, et la valeur yn de Yn sur un échantillon de
i=1
taille n est la proportion d’électeurs dans cet échantillon qui déclarent avoir l’intention
�
de voter pour C.
La loi forte des grand nombres affirme (sous réserve que les Xi soient des v.a.i.i.d.)
que
n→+∞
P lim Yn �= p = 0
� �
Si n est suffisamment grand, la valeur yn a donc forte probabilité d’être une valeur
proche de p. D’où ”l’estimation” de la valeur inconnue de p à l’aide de la valeur yn qui
est faite pour prédire les résultats d’élections par les instituts de sondage.
Remarque: même si tous les individus de l’échantillon considéré ont répondu sincèrement
à la question (et votent ensuite comme ils l’ont annoncé), le risque existe néanmoins
”de ne pas avoir de chance” et d’obtenir sur cet échantillon une valeur moyenne écartée
de la valeur théorique supposée p, car le résultat de la loi forte des grands nombres
est un résultat ”en probabilité”, qui n’écarte pas la possibilité que des événements de
probabilité très faible se réalisent.
Remarques:
• cette définition est ”un peu fausse” encore, puisque la fonction f considérée n’est
en toute rigueur pas complètement quelconque comme pourrait le laisser supposer
cet énoncé. Il faut qu’elle soit ”mesurable”, notion reliée à la définition rigoureuse
d’une probabilité sur un ensemble infini, et à la notion de σ-algèbres nécessaires
pour cela, qui ont été escamotées jusqu’ici.
• la variable aléatoire θˆn suit une loi qui dépendra en général du paramètre inconnu
θ et la valeur réalisée de θˆn sur un échantillon E, que nous noterons f (x1 , ..., xn )
(ou θˆn (E)) sera appelée estimation de θ.
Exemple 2:
n
θˆn = Xi
n i=1
1�
la loi commune des Xi est supposée continue avec une densité possédant une symétrie
�
Définition 2 • Un estimateur θ̂n d’un paramètre θ est dit sans biais si E(θ̂n ) = θ
• si E(θ̂n ) �= θ, l’estimateur est dit biaisé et la différence E(θ̂n ) − θ est appelée biais
de l’estimateur
n→+∞
• un estimateur est dit asymptotiquement sans biais si lim E(θ̂n ) = θ
Exemple 4:
• l’estimateur X n est un estimateur sans biais de l’espérance µ de la loi des Xi , car
E(X n ) = µ (comme on l’a vu au chapitre précédent)
2
2
• l’estimateur S n est un estimateur biaisé de la variance σ 2 de la loi des Xi , car (on
montre que) E(S n ) = n−1 n
σ 2 . Mais c’est donc un estimateur asymptotiquement
sans biais de la variance de la loi des Xi .
• l’estimateur σ 2n est un estimateur sans biais de la variance σ 2 de la loi des Xi , car
(on montre que) E(σ 2n ) = σ 2
Dans la pratique, on privilégie généralement les estimateurs sans biais, dont la
variance est la plus faible possible.
Z=
X −µ
σ∗
√
n
peut être valablement approximée par la loi N (0, 1) (ce résultat est admis ici). En
pratique, cette approximation est souvent faite dès que n > 30 si l’on suppose de plus
que la loi des Xi présente une symétrie.
Alors,
X −µ σ∗ σ∗
σ∗
n n
P(Z ∈ [a, b]) = P(a ≤ ≤ b) = P(X − b √ ≤ µ ≤ X − a √ )
√
n
On cherche donc des réels a et b tels que P(Z ∈ [a, b]) = 1 − α pour une variable
aléatoire normale centrée réduite: il y aura alors probabilité 1 − α que l’intervalle
∗ ∗
[x − b √σ n , x − a √σ n ] contienne la ”vraie ” valeur µ.
Remarques :
Exercice 1:
α
où z1− α2 désigne le quantile d’ordre 1 − 2
de la loi de Z, c’est à dire le réel tel que
P(Z ≤ z1− α2 ) = 1 − α2
2
On en déduit alors ici que l’estimateur X de l’espérance µ suit la loi N (µ, σn ). Alors
Z=
X −µ
∼ N (0, 1)
√σ
n
Proposition 4
σ σ
n n
I1−α = x − √ z1− α2 ; x + √ z1− α2
� �
α
où z1− α2 désigne le quantile d’ordre 1 − 2
de la loi de Z, c’est à dire le réel tel que
α
2
P(Z ≤ z1− α2 ) = 1 −
Exercice 2:
On prélève un échantillon de taille 16 dans une population, dont la caractéristique
étudiée est supposée suivre une loi normale N (µ; 0, 09). On obtient pour valeur
moyenne sur l’échantillon x = 80, 2. Déterminer un intervalle de confiance pour la
valeur de µ au seuil de confiance 0, 9.
3.3.2 Population normale et écart-type inconnu
On suppose toujours dans ce cas que la loi commune aux v.a.i.i.d Xi est la loi normale
2
N (µ, σ 2 ), mais on ne suppose plus que la valeur de σ est connue. On sait alors aussi
que l’estimateur X de l’espérance µ suit la loi N (µ, σn ). Comme σ 2 est inconnue, on
est obligé de l’estimer aussi sur l’échantillon à l’aide d’un estimateur de variance. Si
2
on prend l’estimateur S , alors
T =
X −µ
∼ Tn−1 (n)
√S
n−1
Proposition 5
∗ ∗
S S
I1−α = [x − √ tn−1;1− α2 ; x + √ tn−1;1− α2 ]
n−1 n−1
α
2
où tn−1;1− α2 désigne le quantile d’ordre 1 − de la loi Tn−1 , c’est à dire le réel tel que
α
2
P(T ≤ tn−1;1− α2 ) = 1 −
σ∗ σ∗
n n
I1−α = x − √ tn−1;1− α2 x + √ tn−1;1− α2
� �
3.4 Intervalle de confiance pour l’estimation de la variance
On suppose ici que les Xi suivent une loi normale N (µ, σ 2 ), et on cherche un intervalle
de confiance pour la valeur de σ 2 (et si on en veut un pour celle de σ, on prendra les
racines carrées des bornes obtenues pour celle de σ 2 ).
(dont on ne donnera pas l’expression ici), qui ne présente pas de parité comme les lois
normale ou de Student (puisque c’est la densité d’une v.a. qui ne prend que des valeurs
positives...).
n n
Puisque K = ( Xiσ−µ )2 = σ12 (Xi − µ)2 , pour des réels a et b tels que 0 < a < b,
i=1 i=1
on a
2
� �
)
(Xi − µ)2 (Xi − µ)2
2 2
P(χ2n; α ≤ K ≤ χ2n;1− α ) = 1 − α = P( i=1 2 ≤ σ 2 ≤ i=1 2
χn;1− α χn; α
2 2
�n �n
Proposition 6
µ)2 µ)2
I1−α = [ i=1 (xi −
; i=1 (xi −
]
χ2n;1− α χ2n; α
2 2
�n �n
α α
où χ2n; α désigne le quantile d’ordre 2 2
de la loi du χ2 à n
2 2
et χ2n;1− α le quantile d’ordre 1 −
degrés de liberté.
que L = ( Xiσ−X )2 = σ2
(Xi − X) suit aussi une loi du χ , mais avec n − 1 degrés
i=1 i=1
de liberté (au lieu de n comme dans le cas où µ est connue). Un raisonnement analogue
� �
Proposition 7
2
x)2
I1−α = [ i=1 (xi − x)
; i=1 (xi −
]
χ2n−1;1− α χ2n−1; α
2 2
�n �n
α α
où χ2n−1; α désigne le quantile d’ordre 2 2
de la loi du χ2
2 2
et χ2n−1;1− α le quantile d’ordre 1 −
à n − 1 degrés de liberté.
Exercice 3: On réalise un sondage sur un échantillon aléatoire simple de 400 électeurs. Cet
On a mesuré la hauteur de neige dans différentes stations des Pyrénées en bas des échantillon recueille 212 intentions de vote en faveur du candidat C. On note p la
pistes. Les résultats sont les suivants : proportion théorique d’intentions de votes pour le candidat C.
σ 2 = p(1 − p), et on est donc dans le cas où la variance de la loi des Xi est également
inconnue, mais la loi des Xi n’étant plus supposée normale, on ne peut pas appliquer
les résultats sur l’estimation d’une moyenne vus précédemment lorsque n est petit.
C’est pourquoi on suppose ici que l’on est dans les conditions d’approximation de la loi
B(n, p) par une loi normale, c’est à dire n ”grand” (au minimum, n ≥ 30), et p ”pas
trop petit” et ”pas trop grand” (bien qu’on ne le connaisse pas...), donc globalement
2
pas trop éloigné de 0.5, c’est à dire, np ≥ 5 et n(1 − p) ≥ 5.
Dans ce cas, on approxime donc la loi de X par la loi N (p, p(1−p) n
), et donc la
�
loi de Z = p(1−p)
est approximativement normale. On a donc
n
�X−p
p(1 − p) p(1 − p)
1− α
2
1− α
2
1− α
2
n n
1−α � P(−z ≤Z≤z )�P X −z ≤ p ≤ X + z1− α2
� � � �
α α
x(1 − x) x(1 − x)
; x + z1− 2
n n
I1−α � x − z1− 2
� � � �
Exercice 5:
1) Avec les notations comme ci-dessus, montrer que
2 2
z1− α z1− α
2 2 2
n 2n
−z1− α2 ≤ Z ≤ z1− α2 ⇐⇒ p2 (1 + ) − 2p(X + )+X ≤0
Exercice 6: