Professional Documents
Culture Documents
Chapitre 5
Echantillonnage et Estimation
Echantillonnage
28/12/2014
Population
Une Population est toute collection dobjets
tudier ayant des proprits communes
appels des individus ou units statistiques
Une population peut tre infinie, ou finie de
taille N.
La statistique traite des proprits des
populations plus que celles dindividus
particuliers.
3
chantillon
Ltude de tous les individus dune population finie
sappelle un recensement. Lorsque lon observe quune
partie de la population, on parle de sondage.
La partie tudie sappelle lchantillon.
Il existe plusieurs mthode de construction dun
chantillon, dont la plus simple est celle de
lchantillonnage alatoire simple correspondant des
tirages quiprobables et indpendants les uns des
autres.
Sa taille est note n<<N
Dans ces conditions, les observations deviennent des
v.a. ainsi que les rsums numrique usuels: ils
convient donc den chercher les lois de probabilit
avant de tenter dextrapoler (infrs) la population.
4
28/12/2014
chantillon
Si on prlve au hasard n individu dans une
population finie de taille N et on veut tudier une
caractristique X de la population.
X est une v.a. appele v.a. mre ou parente.
chaque individu i tir, on associe une v.a. Xi
dont on observe une seule ralisation xi. Alors les
Xi sont des v.a. ayant toutes la mme distribution,
celle de X.
On suppose que les Xi sont mutuellement
indpendantes (ou au moins, indpendantes
deux deux).
5
chantillon
On a donc la double conception suivante: Les
valeurs observes (x1,x2,,xn) constituent n
ralisations indpendantes dune v.a. X ou
encore, une ralisation unique du n-uple
(X1,X2,,Xn) o les Xi sont n v.a.
indpendantes et de mme loi.
On note par la suite un chantillon le n-uple
(X1,X2,,Xn) .
6
28/12/2014
Les statistiques
La thorie de lchantillonnage se propose
dtudier les proprits du n-uple (X1,X2,,Xn)
et des caractristiques le rsumant, les
statistiques, partir de la distribution
suppose connue de la variable parente X, et
dtudier en particulier ce qui se passe lorsque
la taille de lchantillon est leve.
Les statistiques
Il est dusage dans la pratique de rsumer les
n valeurs dun chantillon x1,x2,,xn par
quelques caractristiques simples telles que
moyenne, plus grande valeur, etc.
Ces caractristiques sont elles-mmes des
ralisations de v.a. issues de X1,X2,,Xn.
Une statistique T est une v.a. fonction
mesurable de X1,X2,,Xn
T=f (X1,X2,,Xn )
8
28/12/2014
Les statistiques
Exemples:
La moyenne empirique dun chantillon
(X1,X2,,Xn) est:
1 n
X = Xi
n i =1
Sa variance empirique est:
1 n
2
S = (X i X )
n i =1
2
La distribution de la moyenne
Pour une ralisation (x1,x2,,xn), la statistique X
n
prendra la valeur x = 1 x
i =1
x =
x
i =1
10
28/12/2014
Proprits
1. Lesprance mathmatique, note X , de X
est gale la moyenne m de la population:
X = m
En effet, on a:
1 n
X = E (X ) = E X i
n i =1
1 n
1 n
= E X i = E ( X i )
n i =1 n i =1
1
1
= (m + m + + m ) = nm = m
n
n
11
Proprits
2
2
X
2. La variance de , note X , est gale
n
o 2 est la variance de la population et n la
taille de lchantillon.
En effet, on a:
n
Xi
n i =1
X2 = Var (X ) = Var
1
= 2
n
1
2
2
Var ( X i ) = 2 n =
n
n
i =1
n
28/12/2014
Remarques
La moyenne et la variance de X sont calcules
pour le cas dun chantillon de variables
alatoires indpendantes et identiquement
distribues (chantillon tir avec remise dune
population finie ou chantillon tir avec ou
sans remise dune population infinie).
Si lchantillon est tir sans remise dune
population finie, les variables ne sont plus
indpendantes. Dans ce cas, on a toujours
X = E (X ) = m
13
1 n
1
n
=
X
Var
Xi
i
2
n i =1 n
i=1
n
1n
(
)
+
Var
(
X
)
Cov
X
,
X
i
i
j
n2 i=1
i , j =1
i j
28/12/2014
Cov(X i , X j ) = E ( X i m )(X j m )
= ( xl m )( xk m )P (X i = xl ; X j = xk )
N
l =1 k =1
= ( xl m )( xk m )P( X i = xl )P (X j = xk / X i = xl )
N
l =1 k =1
N
= ( xl m )( xk m )
l =1 k =1
1
P(X j = xk / X i = xl )
N
N N
(xl m )(xk m ) 1 1
=
l =1 k =1
N N 1
0 pour k = l
On a donc:
Cov (X i , X j ) =
pour k l
1 1 N
(xl m)(xk m)
N N 1 l ,k =1
l k
15
N
N
N
2
(
)
(
)
x
m
=
x
m
+
(xl m )(xk m ),
i
i
i =1
l , k =1
i =1
Comme
l k
( xi m ) = 0
i =1
(x m)
et
i =1
on obtient
et donc
Do
= N 2 ,
Cov(X i , X j ) =
Var(X ) =
1 1
N 2
N N 1
1 2 N 2 1 2 2
n
+
=
n
n
(
n
1
)
n2
n2
N 1
l ,k =1 N 1
l k
Var (X ) =
2 N n
n N 1
N n
sappelle facteur dexhaustivit
N 1
16
28/12/2014
Proprit:
On peut affirmer, en vertu des proprits de la loi
normale, que lorsque la population a une
distribution normale, la distribution
dchantillonnage de la moyenne est aussi
normale.
Le thorme de la limite centrale nous permet
daffirmer, dautre part, que quelle que soit la
distribution de la population, la distribution de
X m
est normale N(0,1) lorsque n est grand
/ n
(en pratique ceci est vrai ds que n>30).
17
La distribution de la variance
La variance empirique dun chantillon alatoire
(X1,X2,,Xn) est dfini par:
1 n
2
S = (X i X )
n i =1
2
n i =1
x'=
1 n
x'i
n i =1
18
28/12/2014
Proprits
1- E (S 2 ) =
n 1 2
( )
2- Var S 2 =
n 1
(n 1) 4 (n 3) 4
3
n
3- Cov(X , S 2 ) = n 2 1 3
n
19
Proprits
4. Si la distribution de la population 2est
normale, la variable alatoire nS 2 suit une
En effet, on a:
nS 2
(X
n
i =1
i X) =
2
1 n
( X i m )2 n(X m )2
2
i =1
X m X m
= i
/ n
i =1
n
20
10
28/12/2014
Proprits (suite de 4)
Le premier terme est une somme de n carrs
de variables N(0,1) et suit donc une loi du 2
n degrs de libert. Le second terme est une
variable qui suit une loi du 2 1 degr de
2
libert. Donc, le degr de nS2 est n-1
i =1
21
Proprits (suite de 4)
n 1
2
2
On vrifi que E (S ) =
n
En effet, on a
2 nS 2 2 nS 2 2
2
E S 2 = E
=
E
=
k
=
( n 1)
2
2 n
n
n
n
( )
22
11
28/12/2014
Proprits (suite de 4)
De mme, on trouve:
2 nS2 4 nS2 4
4
= 2 Var 2 = 2 2k = 2 2(n 1)
Var S = Var
2
n
n
n
n
( )
2
23
Proprits (suite de 4)
On peut affirmer de plus que la v.a. X
suit
S2
n 1
rapport
X m
/ n = X m ~ T ( n 1)
nS 2
S2
( n 1) 2
n 1
24
12
28/12/2014
Proprits
1. fn=E(fn)=p
En effet, la variable alatoire X=n fn~B(n,p) et
X
n
f = E ( f n ) = E
n
2. Var( f n ) = p(1 p)
n
En effet,
1
1
= E ( X ) = np = p
n
n
1
p (1 p )
X 1
Var ( f n ) = Var = 2 Var ( X ) = 2 np (1 p ) =
n
n
n n
26
13
28/12/2014
Proprits
3. Si le tirage se fait sans remise, on a toujours
E(fn)=p. Mais la variance dans ce cas, vaut:
Var ( f n ) =
p (1 p ) N n
n
N 1
En effet,
X 1
Var ( f n ) = Var = 2 Var ( X ).
n n
Comme X suit une loi hypergomtrique et
Var ( X ) =
N n
np (1 p)
N 1
Proprits
4. Pour une taille n de lchantillon assez grande
(en pratique n30), on a
fn fn
fn p
~ N (0,1)
p (1 p )
n
28
14
28/12/2014
n1
i =1
n2
j =1
29
Proprits
1. X Y = m1 m2
En effet,
X Y = E (X Y ) = E (X ) E (Y ) = m1 m2
2.
X2 Y =
1 2 1 2
+
n1 X n2 Y
En effet,
15
28/12/2014
Proprits
(suite 2) Dans le cas dun tirage non exhaustif
(sans remise), il faut tenir compte du
coefficient dexhaustivit
car
X2 N1 n1
2 N n
Var (X ) =
et Var (Y ) = Y 2 2
n1 N1 1
n2 N 2 1
X2
n1
Y2
n2
31
Exercice
On choisit au hasard six nombres parmi les
nombres entiers de 1 9, chacun de ces
nombres a la mme probabilit dtre choisi.
Calculer la moyenne et lcart-type de la
distribution dchantillonnage des moyennes
dans les 2 cas:
1. Tirage sans remise.
2. Tirage avec remise.
32
16
28/12/2014
Solution
1+ 2 + + 9
=5
1. La moyenne de la population est m =
9
Sa variance 2 vaut: 2 = 1 [(1 5)2 + (2 5)2 + + (9 5)2 ] = 6,67
9
Lcart-type est =2,58.
Il y a C96 = 84 faons de choisir six nombres parmi
les 9.
Chacun de ces 84 chantillons
possibles a une
1 6
moyenne x = xi o xi (i=1,2,,6)
n i =1
reprsente un des 9 nombres.
33
2 N n
6,67 9 6
= 0,417
n N 1
6 9 1
Do X = 0,645
34
17
28/12/2014
i =1
35
Annexe 1:
Tirage dun chantillon
Non exhaustif
Exhaustif
Loi utilise
hypergomtrique
Loi utilise
binomiale
36
18
28/12/2014
a
a+b
Mais,
et
a+b=N
Var ( X ) =
nab(a + b n )
(a + b )2 (a + b 1)
alors,
nab(N n )
a
Var ( X ) = 2
et
N (N 1)
N
La probabilit de tirer une boule blanche sera:
E(X ) = n
p=
a
N
et
1 p = q = 1
E ( X ) = np et Var ( X ) = npq
a N a b
=
=
N
N
N
(N n ) = np(1 p) (N n )
(N 1)
(N 1)
37
19