You are on page 1of 9

IMA3 année 2020/2021

Probabilités-statistiques
Introduction à la notion d’estimation statistique

1 Idée directrice
Intentions de vote, taux de défaillance d’un matériel produit en grande série, ou taux
de défaillance d’un emprunteur, risque qu’un jeune conducteur provoque plus d’un ac-
cident de circulation dans l’année... Notre société est demandeuse d’un grand nombre
de ”chiffres” dont la valeur n’est pas connue a priori.
Les estimer est l’objet de la statistique inférentielle: il s’agit de déduire,à partir d’un
nombre fini de valeurs observées, des valeurs théoriques associées à une grandeur
aléatoire, laquelle est supposée pouvoir modéliser de manière satisfaisante le phénomène
en question pour un individu ”pris au hasard” dans la population considérée.

Pour cela, on procède au choix d’un échantillon E = {e1 , ..., en } ”d’individus” à


l’intérieur d’une ”population”, sur chacun desquels on observe une valeur xi d’une
même caractéristique, soit parce que la population totale est considérée comme trop
grande pour être traitée intégralement par recensement, soit parce que l’obtention des
valeurs xi conduit à la destruction des éléments de l’échantillon.
On supposera ici que la population est de très grande taille, de sorte que le prélèvement
d’un échantillon dans la population n’en modifie pas les caractéristiques globales (ce qui
sera modélisé mathématiquement par une population supposée infinie). Si l’échantillon
peut être considéré comme ”représentatif” de la population totale, grâce aux théorèmes
découlant du modèle probabiliste supposé représenter le phénomène qu’on veut étudier,
on déduit des valeurs observées sur cet échantillon l’approximation d’une ou des valeurs
associée(s) à la population totale.

Remarques:

• Les valeurs observées x1 , ..., xn sur les éléments de l’échantillon E ont un caractère
aléatoire, car si on choisit un autre échantillon E � , on peut observer des valeurs
différentes de celles obtenues sur l’échantillon E . Elles sont donc considérées
comme des valeurs réalisées, sur l’événement associé au choix de l’échantillon, de n
v.a. X1 , ..., Xn (xi = Xi (E), noté aussi xi = Xi (ei )) lesquelles, sous l’hypothèse
que l’échantillon soit correctement constitué (ou échantillon aléatoire sim-
ple), sont alors supposées indépendantes et identiquement distribuées.

• il existe différentes méthodes possibles pour constituer un échantillon de façon à


ce qu’on puisse raisonnablement le considérer comme ”aléatoire” et représentatif
de la population totale. Ces méthodes ne seront pas étudiées dans ce cours,
et l’on supposera toujours dans ce qui suit que les échantillons considérés sont
correctement constitués.

Exemple 1:
Si p est le pourcentage des électeurs ayant l’intention de voter pour un-e candidat-e
C donné-e à des élections, et si Xi est la variable aléatoire qui prend la valeur 1 si un
individu ei ”pris au hasard” déclare vouloir voter pour C, et 0 sinon, alors Xi est une
variable aléatoire qui suit la loi de Bernoulli de paramètre p, et donc E(Xi ) = p.
n
1
Si Yn = n
Xi , on a alors: E(Yn ) = p, et la valeur yn de Yn sur un échantillon de
i=1
taille n est la proportion d’électeurs dans cet échantillon qui déclarent avoir l’intention

de voter pour C.

La loi forte des grand nombres affirme (sous réserve que les Xi soient des v.a.i.i.d.)
que

n→+∞
P lim Yn �= p = 0
� �

Si n est suffisamment grand, la valeur yn a donc forte probabilité d’être une valeur
proche de p. D’où ”l’estimation” de la valeur inconnue de p à l’aide de la valeur yn qui
est faite pour prédire les résultats d’élections par les instituts de sondage.

Remarque: même si tous les individus de l’échantillon considéré ont répondu sincèrement
à la question (et votent ensuite comme ils l’ont annoncé), le risque existe néanmoins
”de ne pas avoir de chance” et d’obtenir sur cet échantillon une valeur moyenne écartée
de la valeur théorique supposée p, car le résultat de la loi forte des grands nombres
est un résultat ”en probabilité”, qui n’écarte pas la possibilité que des événements de
probabilité très faible se réalisent.

2 Estimation de paramètres - Estimateurs usuels


(et notations usuelles)
2.1 Estimateurs de paramètres
Conventions de vocabulaire et notation:
On appellera (par léger abus) échantillon aléatoire simple (et on notera de manière
abrégée E.A.S) de taille n, une famille de n v.a.i.i.d. X1 , ...Xn , supposées prendre les
valeurs x1 , ..., xn respectivement observées sur un échantillon E = {e1 , ..., en } de taille
n pris dans la population totale U . (xi = Xi (ei )).

Définition 1 Soit θ un paramètre réel inconnu associé à une population U , et I l’intervalle


des valeurs possibles pour θ. Si {X1 , ..., Xn } est un E.A.S. de taille n de la population U ,
un estimateur de θ est une variable aléatoire

θˆn = f (X1 , ..., Xn )

fonction des v.a. X1 , ...Xn , et à valeurs dans I.

Remarques:
• cette définition est ”un peu fausse” encore, puisque la fonction f considérée n’est
en toute rigueur pas complètement quelconque comme pourrait le laisser supposer
cet énoncé. Il faut qu’elle soit ”mesurable”, notion reliée à la définition rigoureuse
d’une probabilité sur un ensemble infini, et à la notion de σ-algèbres nécessaires
pour cela, qui ont été escamotées jusqu’ici.

• la variable aléatoire θˆn suit une loi qui dépendra en général du paramètre inconnu
θ et la valeur réalisée de θˆn sur un échantillon E, que nous noterons f (x1 , ..., xn )
(ou θˆn (E)) sera appelée estimation de θ.
Exemple 2:
n
θˆn = Xi
n i=1
1�

(appelé moyenne empirique ou moyenne d’échantillon) est un estimateur courant de


l’espérance (inconnue) µ d’une loi de probabilité, qui est généralement plutôt noté X n
(la loi des grands nombres indique que les valeurs qu’il peut prendre sont proches de
celles de µ).
Mais ce n’est pas le seul estimateur possible de l’espérance:
ˆ
positives, la moyenne géométrique d’échantillon θ = n
� Xi en est un autre, et si
n
i=1
� n si les xi sont des valeurs

la loi commune des Xi est supposée continue avec une densité possédant une symétrie

par rapport à la droite d’équation x = µ, alors la médiane d’échantillon est aussi un


estimateur de µ (l’expression de la fonction f correspondante n’est pas simple à écrire,
c’est pourquoi elle n’est pas donnée ici).
Exemple 3:
n
θˆn = (Xi − X)2
n i=1
1�

(variance empirique ou variance d’échantillon) est un estimateur de la variance de la


2 n 2
loi des Xi , qui est généralement plutôt noté S n , et σ 2n = n−1 S en est un autre.

2.2 Quelques éléments culturels sur les propriétés des estima-


teurs
À un même paramètre inconnu θ, il est donc possible d’associer un grand nombre
d’estimateurs. Le choix de l’un ou de l’autre pour donner une estimation de θ est
un problème difficile, et se base sur des critères supplémentaires, qui ne seront pas
tous introduits ici, mais qui permettent de faire le tri entre différents estimateurs:
exhaustivité, quantité d’information de Fischer associée, maximum de vraisemblance,
précision, convergence, biais, caractère correct, etc.
Nous nous restreindrons ici à la notion de biais:

Définition 2 • Un estimateur θ̂n d’un paramètre θ est dit sans biais si E(θ̂n ) = θ

• si E(θ̂n ) �= θ, l’estimateur est dit biaisé et la différence E(θ̂n ) − θ est appelée biais
de l’estimateur

n→+∞
• un estimateur est dit asymptotiquement sans biais si lim E(θ̂n ) = θ

Exemple 4:
• l’estimateur X n est un estimateur sans biais de l’espérance µ de la loi des Xi , car
E(X n ) = µ (comme on l’a vu au chapitre précédent)
2

2
• l’estimateur S n est un estimateur biaisé de la variance σ 2 de la loi des Xi , car (on
montre que) E(S n ) = n−1 n
σ 2 . Mais c’est donc un estimateur asymptotiquement
sans biais de la variance de la loi des Xi .
• l’estimateur σ 2n est un estimateur sans biais de la variance σ 2 de la loi des Xi , car
(on montre que) E(σ 2n ) = σ 2
Dans la pratique, on privilégie généralement les estimateurs sans biais, dont la
variance est la plus faible possible.

3 Intervalle de confiance pour l’estimation d’un paramètre


3.1 Problématique
Notations: On note θ̂ un estimateur d’un paramètre θ, et θ∗ la valeur observée de θ̂
sur un échantillon E. On a vu que θ∗ est une ”approximation” de la valeur théorique θ
inconnue, mais on ne sait pas si cette valeur est réellement proche de la valeur inconnue,
ni quelle est la probabilité qu’elle soit éloignée de la valeur inconnue.
On cherche donc à définir un intervalle I1−α (lié à la valeur de θ∗ ) tel que
P(θ ∈ I1−α ) = 1 − α, où α ∈ [0, 1] est un réel que l’on se fixe, appelé ”seuil de
risque” (car on a alors P(θ ∈ / I1−α ) = α). Le réel 1 − α est appelé ”seuil de confiance
”, et l’intervalle I1−α est appelé intervalle de confiance au seuil (de confiance) 1 −
α. La détermination en pratique de I1−α dépend de la loi de θ̂, et des contraintes
supplémentaires éventuelles qu’on impose à cet intervalle, comme par exemple, d’être
centré en θ∗ .

3.2 Intervalle de confiance pour l’estimation de l’espérance


dans le cas d’un échantillon de grande taille
On néglige ici, pour alléger les notations, de mettre l’indice n aux estimateurs (et aux
valeurs qu’ils prennent sur un échantillon).
La loi des Xi n’est pas supposée connue (mais le résultat s’applique aussi lorsqu’on
n
1
la connaı̂t...). On considère ici l’estimateur X de l’espérance µ, et σ 2 = n−1 (Xi −X)2
2
i=1 √

l’estimateur sans biais de la variance σ 2 de la loi des Xi (et bien sûr, √ σ = σ ). x


désigne la valeur de X sur l’échantillon considéré, et σ ∗ celle de σ 2 sur ce même
échantillon
Sous l’hypothèse que n soit suffisamment grand, la loi de la variable aléatoire

Z=
X −µ
σ∗

n

peut être valablement approximée par la loi N (0, 1) (ce résultat est admis ici). En
pratique, cette approximation est souvent faite dès que n > 30 si l’on suppose de plus
que la loi des Xi présente une symétrie.
Alors,

X −µ σ∗ σ∗
σ∗
n n
P(Z ∈ [a, b]) = P(a ≤ ≤ b) = P(X − b √ ≤ µ ≤ X − a √ )

n

On cherche donc des réels a et b tels que P(Z ∈ [a, b]) = 1 − α pour une variable
aléatoire normale centrée réduite: il y aura alors probabilité 1 − α que l’intervalle
∗ ∗
[x − b √σ n , x − a √σ n ] contienne la ”vraie ” valeur µ.
Remarques :

• Il y a donc une infinité de valeurs a et b possibles, et il faut se donner des critères


supplémentaires pour définir un unique intervalle Iα .

• si α diminue, la longueur de l’intervalle Iα augmente

• l’intervalle Iα est lui-même aléatoire, puisqu’il dépend de la valeur aléatoire


obtenue sur l’échantillon considéré

Exercice 1:

1) En raison des propriétés de symétrie de la loi N (0, 1), on impose généralement


la condition a = −b pour déterminer l’intervalle I1−α ci-dessus. Montrer alors que
σ∗ σ∗
n n
I1−α = [x − √ z1− α2 ; x + √ z1− α2 ]

α
où z1− α2 désigne le quantile d’ordre 1 − 2
de la loi de Z, c’est à dire le réel tel que
P(Z ≤ z1− α2 ) = 1 − α2

2) On interroge un échantillon représentatif de 100 étudiant-e-s pour savoir à quelle


distance de l’École ils-elles habitent. On trouve une moyenne de 17 km avec un écart-
type de 7 km.
a) Quel est l’intervalle au seuil (de confiance) de 90% pour la distance moyenne
entre l’habitation d’un-e étudiant-e et l’École?
b) Même question au seuil de confiance de 95%
c) Même question au seuil de confiance de 99%
3.3 quelques cas particuliers d’intervalles de confiance pour
l’espérance avec des échantillons de taille restreinte
L’approximation de la loi de Z par la loi N (0, 1) évoquée ci-dessus n’est plus valable
lorsque l’échantillon est petit. Néanmoins, si on dispose de certaines informations
supplémentaires, il est parfois possible de déterminer la loi de l’estimateur X (ou celle
d’une v.a. qui lui est associée de manière simple), et d’en déduire alors également un
intervalle de confiance.

3.3.1 Population normale et écart-type connu


On suppose dans ce cas que la loi commune aux v.a.i.i.d Xi est la loi normale N (µ, σ 2 ),
et que la valeur de σ est connue (par exemple, quand on prend pour valeur de σ la
précision annoncée par le fabricant d’un appareil de mesure).
Or, on a le résultat ci-dessous sur la somme de variables aléatoires indépendantes
qui suivent des lois normales (déjà vu et admis dans le poly sur le théorème de la limite
centrale):

Théorème 3 : Soient X1 , X2 , ..., Xn n variables aléatoires sur Ω, supposées indépendantes.


n
On suppose en outre que chacune des v.a. Xi suit la loi N (mi , σi2 ). Si A = Xi , alors A
i=1
n n

suit la loi N ( mi , σi2 )


i=1 i=1
� �

2
On en déduit alors ici que l’estimateur X de l’espérance µ suit la loi N (µ, σn ). Alors

Z=
X −µ
∼ N (0, 1)
√σ
n

Un raisonnement identique à celui qui a été tenu dans le paragraphe précédent et


l’exercice 1 amène à la forme suivante pour un intervalle de confiance centré en x.

Proposition 4
σ σ
n n
I1−α = x − √ z1− α2 ; x + √ z1− α2
� �

α
où z1− α2 désigne le quantile d’ordre 1 − 2
de la loi de Z, c’est à dire le réel tel que
α
2
P(Z ≤ z1− α2 ) = 1 −

Exercice 2:
On prélève un échantillon de taille 16 dans une population, dont la caractéristique
étudiée est supposée suivre une loi normale N (µ; 0, 09). On obtient pour valeur
moyenne sur l’échantillon x = 80, 2. Déterminer un intervalle de confiance pour la
valeur de µ au seuil de confiance 0, 9.
3.3.2 Population normale et écart-type inconnu
On suppose toujours dans ce cas que la loi commune aux v.a.i.i.d Xi est la loi normale
2
N (µ, σ 2 ), mais on ne suppose plus que la valeur de σ est connue. On sait alors aussi
que l’estimateur X de l’espérance µ suit la loi N (µ, σn ). Comme σ 2 est inconnue, on
est obligé de l’estimer aussi sur l’échantillon à l’aide d’un estimateur de variance. Si
2
on prend l’estimateur S , alors

T =
X −µ
∼ Tn−1 (n)
√S
n−1

où Tn−1 désigne la loi de Student à n − 1 degrés de libertés.


Cette loi ne sera pas étudiée en détail ici. C’est une loi de variable aléatoire continue,
dont la densité possède des propriétés de parité, qui conduisent à des propriétés de sa
fonction de répartition analogues à celles de la fonction de répartition de la loi N (0, 1).
Un raisonnement analogue à celui qui a été tenu dans le paragraphe précédent et
l’exercice 1 amène à la forme suivante pour un intervalle de confiance centré en x.

Proposition 5
∗ ∗
S S
I1−α = [x − √ tn−1;1− α2 ; x + √ tn−1;1− α2 ]
n−1 n−1
α
2
où tn−1;1− α2 désigne le quantile d’ordre 1 − de la loi Tn−1 , c’est à dire le réel tel que
α
2
P(T ≤ tn−1;1− α2 ) = 1 −

pour une variable aléatoire T suivant la loi Tn−1



n σ∗
Remarque: puisqu’on a la relation σ 2 = n−1 S 2 , alors √Sn−1 = √
n
, donc on trouve
aussi pour la forme de l’intervalle de confiance:

σ∗ σ∗
n n
I1−α = x − √ tn−1;1− α2 x + √ tn−1;1− α2
� �
3.4 Intervalle de confiance pour l’estimation de la variance
On suppose ici que les Xi suivent une loi normale N (µ, σ 2 ), et on cherche un intervalle
de confiance pour la valeur de σ 2 (et si on en veut un pour celle de σ, on prendra les
racines carrées des bornes obtenues pour celle de σ 2 ).

3.4.1 Cas où la moyenne µ est connue


n
Xi −µ
Dans ce cas, Zi = σ
suit la loi N (0, 1), pour tout i, et la variable aléatoire K = Zi2
i=1
suit alors la loi du χ2 (”khi deux”) à n degrés de libertés. Cette loi est une loi à densité

(dont on ne donnera pas l’expression ici), qui ne présente pas de parité comme les lois
normale ou de Student (puisque c’est la densité d’une v.a. qui ne prend que des valeurs
positives...).
n n
Puisque K = ( Xiσ−µ )2 = σ12 (Xi − µ)2 , pour des réels a et b tels que 0 < a < b,
i=1 i=1
on a
2
� �

i=1 (Xi − µ) (Xi − µ)2


b a
a ≤ K ≤ b ⇐⇒ ≤ σ 2 ≤ i=1
�n �n

Pour que le risque que la ”vraie valeur” de σ 2 soit à l’extérieur de l’intervalle de


confiance soit le même de chaque côté, on prend pour a le quantile d’ordre α2 , noté
2 2
χ2n; α , et pour b le quantile d’ordre 1 − α2 , noté χ2n;1− α , de la loi du χ2 à n degrés de
liberté. On a donc

)
(Xi − µ)2 (Xi − µ)2
2 2
P(χ2n; α ≤ K ≤ χ2n;1− α ) = 1 − α = P( i=1 2 ≤ σ 2 ≤ i=1 2
χn;1− α χn; α
2 2
�n �n

On a donc dans ce cas :

Proposition 6
µ)2 µ)2
I1−α = [ i=1 (xi −
; i=1 (xi −
]
χ2n;1− α χ2n; α
2 2
�n �n

α α
où χ2n; α désigne le quantile d’ordre 2 2
de la loi du χ2 à n
2 2
et χ2n;1− α le quantile d’ordre 1 −
degrés de liberté.

3.4.2 Cas où la moyenne µ est inconnue


n
1
On utilise alors dans ce cas l’estimateur de moyenne X = n
Xi . On montre alors
i=1
n n
1 2 2

que L = ( Xiσ−X )2 = σ2
(Xi − X) suit aussi une loi du χ , mais avec n − 1 degrés
i=1 i=1
de liberté (au lieu de n comme dans le cas où µ est connue). Un raisonnement analogue
� �

conduit à un résultat analogue sur l’intervalle de confiance pour la valeur de σ 2 . On a


donc ici

Proposition 7
2
x)2
I1−α = [ i=1 (xi − x)
; i=1 (xi −
]
χ2n−1;1− α χ2n−1; α
2 2
�n �n

α α
où χ2n−1; α désigne le quantile d’ordre 2 2
de la loi du χ2
2 2
et χ2n−1;1− α le quantile d’ordre 1 −
à n − 1 degrés de liberté.
Exercice 3: On réalise un sondage sur un échantillon aléatoire simple de 400 électeurs. Cet
On a mesuré la hauteur de neige dans différentes stations des Pyrénées en bas des échantillon recueille 212 intentions de vote en faveur du candidat C. On note p la
pistes. Les résultats sont les suivants : proportion théorique d’intentions de votes pour le candidat C.

station 1 2 3 4 5 6 7 8 9 10 1) Déterminer un intervalle de confiance pour la proportion des intentions de vote


hauteur 1.5 0.9 0.75 1.25 1 0.8 0.4 1.55 1.05 0.95 pour le candidat C au niveau de confiance 95%.
Donner un intervalle de confiance au seuil 0.9 pour la moyenne et la variance de 2) En supposant qu’un sondage sur un échantillon de taille différente donnerait
la hauteur de neige dans le massif des Pyrénées (au bas des pistes, bien sûr) à cette toujours la même proportion d’intentions de votes, quelle taille minimale d’échantillon
date, en supposant que les hauteurs de neige tombée soient des variables aléatoires faut-il sélectionner pour avancer la prédiction que le candidat C sera élu au niveau
indépendantes et identiquement distribuées selon une loi normale. de confiance 95%? (Remarque: on supposera toutefois que cette taille minimale est
suffisamment importante pour que l’on ait affaire à un ”grand” échantillon.)
Exercice 4:
Dans le cas où n est ”grand” (n > 100, généralement), on approxime la loi du χ2
√ 2
à n degrés de liberté par la loi N (n, 2n ). Donner alors la forme de l’intervalle de
confiance pour σ 2 dans les deux cas (µ connue ou inconnue).

3.5 Intervalle de confiance pour une proportion dans le cas


d’un échantillon de grande taille
n
1
Comme vu dans l’exercice 2, un estimateur d’une proportion p est X = n
Xi lorsque
i=1
les Xi sont des v.a.i.i.d. qui suivent la loi de Bernoulli de paramètre p. On a alors

σ 2 = p(1 − p), et on est donc dans le cas où la variance de la loi des Xi est également
inconnue, mais la loi des Xi n’étant plus supposée normale, on ne peut pas appliquer
les résultats sur l’estimation d’une moyenne vus précédemment lorsque n est petit.
C’est pourquoi on suppose ici que l’on est dans les conditions d’approximation de la loi
B(n, p) par une loi normale, c’est à dire n ”grand” (au minimum, n ≥ 30), et p ”pas
trop petit” et ”pas trop grand” (bien qu’on ne le connaisse pas...), donc globalement
2
pas trop éloigné de 0.5, c’est à dire, np ≥ 5 et n(1 − p) ≥ 5.
Dans ce cas, on approxime donc la loi de X par la loi N (p, p(1−p) n
), et donc la

loi de Z = p(1−p)
est approximativement normale. On a donc
n
�X−p

p(1 − p) p(1 − p)
1− α
2
1− α
2
1− α
2
n n
1−α � P(−z ≤Z≤z )�P X −z ≤ p ≤ X + z1− α2
� � � �

et en remplaçant à nouveau p par son estimation x obtenue sur l’échantillon, on


aura donc comme intervalle de confiance approximatif au seuil α de risque:

α α
x(1 − x) x(1 − x)
; x + z1− 2
n n
I1−α � x − z1− 2
� � � �

Exercice 5:
1) Avec les notations comme ci-dessus, montrer que
2 2
z1− α z1− α
2 2 2
n 2n
−z1− α2 ≤ Z ≤ z1− α2 ⇐⇒ p2 (1 + ) − 2p(X + )+X ≤0

2) En déduire un meilleur intervalle de confiance au seuil 1 − α dans lequel se


trouve la valeur de p.

Exercice 6:

You might also like