Slide 1

_

¸

Support de cours
Initiation ` a la th´ eorie des sondages
Anne Ruiz-Gazen
Formation INED
Slide 2
_

¸

1 Plan de sondage simple (SASSR)
1.1 Principe
Pour une population de taille N et une taille d’´ echantillon fix´ ee ` a n, tous les ´ echantillons ont la
mˆ eme probabilit´ e d’ˆ etre tir´ es.
Petit exemple : moyenne des montants des factures de vente d’une soci´ et´ e en euros, N = 5
5 8 10 12 15
¯
Y =
5 + 8 + 10 + 12 + 15
5
= 10
plan SASSR, n = 2
Echantillons possibles de taille n = 2 et estimations de
¯
Y par ¯ y =
y
1
+ y
2
2
:
y
1
5 5 5 5 8 8 8 10 10 12
y
2
8 10 12 15 10 12 15 12 15 15
¯ y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
1
Slide 3
_

¸

Remarques et Vocabulaire :
• Echantillon de taille n : partie de taille n de la population.
plan SASSR = plan sans remise ( avec remise donc ind´ ependance si N est grand),
• Taux de sondage= f =
n
N
= probabilit´ e pour chaque observation d’ˆ etre tir´ ee dans l’´ echantillon
(probabilit´ e d’inclusion).
plan SASSR = plan ` a probabilit´ es ´ egales (´ equiprobabilit´ e).
• Poids de sondage associ´ e ` a une observation : inverse de la probabilit´ e d’inclusion de
l’observation.
plan SASSR =
N
n
.
• Estimateur par les valeurs dilat´ ees :
¯ y =

n
i=1
y
i
n
=
N
N

n
i=1
y
i
n
=
1
N
n

i=1
N
n
y
i
Exemple : ¯ y =
1
5
_
5
2
y
1
+
5
2
y
2
+
5
2
y
3
_
Slide 4
_

¸

1.2 Biais
Propri´ et´ e : la moyenne des ¯ y sur l’ensemble des ´ echantillons est
¯
Y . On dit que ¯ y est sans biais.
Exemple : ¯ y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
6.5 + 7.5 + 8.5 + 10 + 9 + 10 + 11.5 + 11 + 12.5 + 13.5
10
= 10
“sans biais” signifie que le r´ esultat est bon “en moyenne” mais pas que le r´ esultat obtenu ` a partir
d’un ´ echantillon est exact.
Cas 1 Cas 2 Cas 3
Figure 1: Biais et pr´ ecision
2
Slide 5
_

¸

Important de savoir si l’ensemble des r´ esultats possibles est proche de la cible
¯
Y −→notion de
pr´ ecision et de risque d’´ echantillonnage bas´ e sur la dispersion des r´ esultats possibles ¯ y.
1.3 Pr´ ecision
Rappels et notations : variance = mesure de dispersion
Variance des Y
i
, i = 1, . . . , N =
1
N −1
N

i=1
(Y
i

¯
Y )
2
Ecart-type (standard deviation) : racine carr´ e de la variance (mˆ eme unit´ e que la variable).
Variance de ¯ y pour un plan SASSR :
_
\
¸

V(¯ y) = (1 −f)
S
2
n
d’autant plus petite que :
• la taille de l’´ echantillon est grande (n),
• la dispersion des donn´ ees pour la variable consid´ er´ ee est grande (S
2
),
• le taux de sondage est grand (f).
Slide 6
_

¸

Remarques :
• La taille N et le taux f ont peu d’influence sur la pr´ ecision.
Exemple :
N
1
= 1000 n
1
= 100 f
1
= 0.1 S
2
1
= 40
N
2
= 100000 n
2
= 1000 f
1
= 0.01 S
2
2
= 40
V( ¯ y
1
) = 0.9 ×
40
100
= 0.60
V( ¯ y
2
) = 0.99 ×
40
1000
= 0.20
• Le fait que la variable d’int´ erˆ et soit peu ou tr` es dispers´ ee a beaucoup d’influence sur la pr´ ecision.
Exemple :
N
1
= 1000 n
1
= 200 f
1
= 0.2 S
2
1
= 80
N
2
= 1000 n
2
= 100 f
1
= 0.1 S
2
2
= 20
V( ¯ y
1
) = 0.8 ×
80
200
= 0.32
V( ¯ y
2
) = 0.9 ×
20
100
= 0.18
3
Slide 7
_

¸

• Si N est grand (f 1),
_
`
¸

V(¯ y) =
S
2
n
et
_
V(¯ y) =
S

n
est l’erreur standard (standard error) des Y
i
.
• Le calcul de la variance V d´ epend de la valeur de S
2
qui est inconnue.
On estime S
2
par s
2
=
1
n −1
n

i=1
(y
i
− ¯ y)
2
et V(¯ y) par
ˆ
V(¯ y) = (1 −f)
s
2
n
Slide 8
_

¸

Cas particulier : estimation d’une proportion
Variable d’int´ erˆ et : Y
i
=
_
_
_
1 si l’individu i v´ erifie A
0 sinon
p =
¯
Y = proportion d’individus v´ erifiant A et S
2
=
N
N −1
p(1 −p) p(1 −p)
_
\
¸

V(ˆ p) = (1 −f)
p(1−p)
n
0
0.05
0.1
0.15
0.2
0.25
0 0.5 1
p(1-p)
Figure 2: p →p(1 −p)
Maximum de p(1 − p) = 1/4 (en p = 1/2)
−→ utiliser la valeur S
2
= 1/4 dans calculs de
pr´ ecision de proportions (pire des cas).
4
Slide 9
_

¸

Utilisation des formules de variance
1. Pour calculer la pr´ ecision de l’estimateur :
Hypoth` ese : la loi de ¯ y est une loi Normale
donc
¯ y −
¯
Y
_
V(¯ y)
suit une loi normale de moyenne nulle et d’´ ecart-type ´ egal ` a 1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-1.96 0 1.96
95%
Figure 3: Loi normale
Slide 10
_

¸

Intervalle de confiance ` a 95%:
¯
Y ∈
_
¯ y −1.96
_
ˆ
V(¯ y) ; ¯ y + 1.96
_
ˆ
V(¯ y)
_
Petit exemple : n = 100, ¯ y = 11, s
2
= 36,
IC de
¯
Y ` a 95% =
_
11 −2 ×
_
36/100 ; 11 + 2 ×
_
36/100
_
= [9.8 ; 12.2].
Pr´ ecision absolue : demi-longueur de l’intervalle de confiance ` a 95% 2
_
ˆ
V(¯ y).
Petit exemple : 1.2
Pr´ ecision relative :
2
_
ˆ
V(¯ y)
¯ y
Petit exemple : 1.2/11 = 10.9 %
Cas particulier d’une proportion : pr´ ecision absolue dans le pire des cas = 1/

n, voir aussi
tableau extrait de Dussaix et Grosbras, Que sais-je ? 701, page 28.
5
Slide 11
_

¸

Pr´ ecision absolue de l’estimation d’une proportion en %.
n p 5% ou 95% 10% ou 90% 20% ou 80% 30% ou 70% 40% ou 60% 50%
100 8 9.2 9.8 10
200 4.3 5.7 6.5 6.9 7.1
300 2.5 3.5 4.6 5.3 5.7 5.8
400 2.2 3 4 4.6 4.9 5
500 2 2.7 3.6 4.1 4.4 5
1000 1.4 1.8 2.5 2.9 3 3.1
2000 1 1.3 1.8 2.1 2.2 2.3
3000 0.8 1.1 1.4 1.6 1.8 1.8
5000 0.6 0.8 1.1 1.3 1.4 1.4
10000 0.4 0.6 0.8 0.9 1 1
Slide 12
_

¸

2. Pour d´ eterminer la taille de l’´ echantillon si on se fixe une pr´ ecision absolue d soit :
2
_
ˆ
V(¯ y) ≤ d
=⇒ 2
_
(1 −f)
S
2
n
≤ d
• dans le cas o` u N est grand (1 −f 1) : n
0
=
4 S
2
d
2
,
• dans le cas g´ en´ eral : n =
1
1
n
0
+
1
N
6
Slide 13
_

¸

Remarque : si on cherche ` a estimer un total Y =
N

i=1
Y
i
, on a :
ˆ
Y = N ¯ y
V(
ˆ
Y ) = N
2
V(¯ y)
Slide 14
_

¸

Exemples avec le logiciel SAS : utilisation des proc´ edures surveyselect et surveymeans
1. tirage dans base de communes de Midi-Pyr´ en´ ees (source : rescencement 99) d’un ´ echantillon
selon plan SASSR, estimation ponctuelle et par intervalle de confiance du nombre total de
logements vacants (10768).
2. tirage selon plan SASSR dans la base p´ edagogique (centre Quˆ etelet) extraite de l’enquˆ ete
Emploi 2001, estimation ponctuelle et par intervalle de confiance de la proportion d’agriculteurs
dans la population active (4.2%).
Remarque : pour un plan SASSR, diff´ erences avec proc´ edure means dans
- possibilit´ e d’estimer un total et
- prise en compte du facteur (1 −f).
7
Slide 15
_

¸

1. /
*
¨Plan de sondage simple
*
/
title1 ’Logement Hte Gne (rec99) : plan simple’;
proc surveyselect data=aussois.rec99htegne method=srs n=70 stats
seed=47279 out=logsi;
run;
title1 ’Logement Hte Gne (rec99)’; title2 ’Total estim´e log vacants
Plan SASSR’; proc surveymeans data=logsi total=554 sum clm;
var logvac;
weight Samplingweight;
run;
Slide 16
_

¸

Logement Hte Gne (rec99) : plan simple
The SURVEYSELECT Procedure
Selection Method Simple Random Sampling
Input Data Set REC99HTEGNE
Random Number Seed 47279
Sample Size 70
Selection Probability 0.126354
Sampling Weight 7.914286
Output Data Set LOGSI
Total estim´e log vacants Plan SASSR
The SURVEYMEANS Procedure
Statistics
Lower 95% Upper 95%
Variable Label Sum Std Dev CL for Sum CL for Sum
LOGVAC LOGVAC 11650 2370.72 6920.38 16379
8
Slide 17
_

¸

2. Fichier p´edagogique enquˆete Emploi 2001
Proportion estim´ee plan SASSR (taux =10%)
The SURVEYMEANS Procedure
Data Summary
Number of Observations 711
Sum of Weights 7104
Statistics
Std Error Lower 95% Upper 95%
Variable N Mean of Mean CL for Mean CL for Mean
agri 711 0.0506 .0078 0.035 0.066
Slide 18
_

¸

R´ ecapitulatif
2
U, N, Y, S
n, y, s
2
_
\
¸

V(¯ y) = (1 −f)
S
2
n
et
ˆ
V(¯ y) = (1 −f)
s
2
n
9
Slide 19
_

¸

2 Plan stratifi´ e
2.1 Principe
Id´ ee : on veut ´ eviter les ”mauvais ´ echantillons” qui sont possibles avec un plan SASSR.
Exemples :
1. ´ etude sur la consommation d’alcool, diff´ erences entre hommes et femmes,
2. petit exemple :
y
1
5 5 5 5 8 8 8 10 10 12
y
2
8 10 12 15 10 12 15 12 15 15
¯ y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
Objectif : ´ eviter de tirer que des “petites” ou que des “grosses” factures.
Slide 20
_

¸

On d´ ecoupe la population en sous populations ou strates et on effectue des tirages ind´ ependants
dans chaque strate. On s’int´ eresse ` a des plan SASSR dans chaque strate (notation : plan STSASSR).
n , y , s
h h h
2
U , N , Y , S
h h h h
2
Figure 4: Plan stratifi´ e
10
Slide 21
_

¸

Formules :
¯
Y =
H

h=1
N
h
N
¯
Y
h
¯ y
st
=
H

h=1
N
h
N
¯ y
h
V(¯ y
st
) =
H

h=1
N
h
N
V(¯ y
h
) =
H

h=1
N
h
N
1 −f
h
n
h
S
2
h
ˆ
V(¯ y
st
) =
H

h=1
N
h
N
ˆ
V(¯ y
h
) =
H

h=1
N
h
N
1 −f
h
n
h
s
2
h
Slide 22
_

¸

2.2 Allocation : choix des n
h
2.2.1 Allocation propportionnelle : mˆ eme taux de sondage dans toutes les strates
f
h
=
n
h
N
h
=
n
N
= f.
Int´ erˆ ets :
• mˆ eme probabilit´ e d’inclusion (mˆ eme poids de sondage) pour toutes les observations de la base
de sondage et donc estimateurs usuels pour les moyennes ou proportions (´ echantillon
autopond´ er´ e) : ¯ y = ¯ y
st
.
• Gain en pr´ ecision :
V(¯ y) =
1 −f
n
S
2
≥ V(¯ y
st
) =
H

h=1
N
h
N
V(¯ y
h
) =
1 −f
n
1
N
H

h=1
N
h
S
2
h
pour N
h
grand (≥ 10) car
S
2

1
N

H
h=1
N
h
S
2
h
+
1
N

H
h=1
N
h
(¯ y
h
− ¯ y)
2
Variance totale = variance intra-strates + variance inter-strates
11
Slide 23
_

¸

Si on pose η
2
=
variance inter-strates
variance totale
, on a V(¯ y
st
) =
1 −f
n
S
2
(1 −η
2
)
donc, plus les strates sont homog` enes, plus la stratification est efficace.
Petit exemple :
N
1
= 40000 N
1
/N = 0.8 n
1
= 160 ¯ y
1
= 12 s
2
1
= 85 s
1
= 9.22
N
2
= 10000 N
2
/N = 0.2 n
2
= 40 ¯ y
2
= 58 s
2
2
= 930 s
2
= 30.50
¯ y
st
= ¯ y = 0.8 ×12 + 0.2 ×58 = 21.2 ,
ˆ
V(¯ y
st
) 0.64 ×85/160 + 0.04 ×930/40 = 1.27,
IC de
¯
Y ` a 95% : [21.2 −

1.27 ; 21.2 +

1.27] = [18.94 ; 23.46],
s
2
inter
= 0.8 ×(12 −21.2)
2
+ 0.2 ×(58 −21.2)
2
= 338.56
s
2
intra
= 0.8 ×85 + 0.2 ×930 = 254 d’o` u s
2
= 592.56 et η
2
= 57%.
La variance d’´ echantillonnage a diminu´ e de 57% par rapport ` a un plan simple.
Slide 24
_

¸

2.2.2 Allocation optimale
On cherche la r´ epartition de l’´ echantillon qui maximise la pr´ ecision (et donc qui minimise la
variance).
On montre que les n
h
v´ erifient :
f
h
=
n
h
N
h
= f
S
h

H
h=1
N
h
N
S
h
On va augmenter les effectifs ´ echantillonn´ es dans les strates o` u la variabilit´ e est grande et
diminuer les effectifs ´ echantillonn´ es dans les strates homog` enes.
12
Slide 25
_

¸

Cas particulier d’une proportion : (si coˆ uts identiques dans chaque strate)
• le gain en pr´ ecision d’un plan stratifi´ e proportionnel par rapport ` a un plan simple est faible
tant que les proportions p
h
ne varient pas fortement entre les strates.
Exemple : H = 3, pr´ ecision relative = variance plan SASSR / variance plan STSASSR
p
h
0.4, 0.5, 0.6 0.3, 0.5, 0.7 0.2, 0.5, 0.8 0.1, 0.5, 0.9
Pr´ ecision relative (en %) 103 112 132 174
• le gain d’un plan stratifi´ e optimal par rapport ` a un plan stratifi´ e proportionnel est faible si les
proportions varient entre 0.1 et 0.9.
Exemple : H = 2
p
h
0.4 ou 0.6 0.3 ou 0.7 0.2 ou 0.8 0.1 ou 0.9 0.05 ou 0.95
Pr´ ecision relative (en %) 100 99.8 98.8 94.1 86.6
(Cochran, Sampling techniques, p.109)
Slide 26
_

¸

Exemple : tirage selon plan STSASSR dans la base p´ edagogique (centre Quˆ etelet) extraite de
l’enquˆ ete Emploi 2001, estimation de la proportion d’agriculteurs dans la population active.
Stratification selon tranche d’unit´ e urbaine en 5 postes (tur5) :
• affectation proportionnelle (gain modeste)
• affectation optimale (gain plus substantiel)
On a p = 4.2% et selon tur5 : p
1
= 11.7%, p
2
= 3%, p
3
= 1.2%, p
4
= 0.4% et p
5
= 0%.
Variable Label N Mean Std Dev
SASSR agri_Mean Mean for agri 100 0.042 0.008
STSASSR Allocation proport agri_Mean Mean for agri 100
0.042 0.0059 optimale agri_Mean Mean for agri 100 0.042
0.0026
13
Slide 27
_

¸

3 Plan avec remise et probabilit´ es proportionnelles ` a la taille
Les tirages des individus sont ind´ ependants et on raisonne en terme de probabilit´ e des individus ` a
chaque tirage.
On montre que si on choisit une probabilit´ e de tirage proportionnelle ` a la variable alors la variance
d’´ echantillonnage est nulle.
En pratique on peut connaˆıtre une variable auxiliaire bien corr´ el´ ee avec la variable d’int´ erˆ et et choisir
des probabilit´ es de tirage proportionnelle ` a la variable auxiliaire.
Exemple : on tire des cantons ou communes proportionnellement ` a la taille de la commune (en
nombre d’habitants) si on s’int´ eresse ` a des quantit´ es tr` es corr´ el´ ees avec la taille de la population.
Slide 28
_

¸

4 Plan ` a plusieurs degr´ es et plan en grappes
4.1 Principe du plan ` a plusieurs degr´ es
Population partitionn´ ee en “groupes”, chaque “groupe” pouvant ˆ etre partitionn´ e en “sous-groupes”,
. . . jusqu’aux individus (qui d´ efinissent les plus petits “sous-groupes”).
On peut d´ efinir un plan ` a plusieurs degr´ es :
1er degr´ e : tirage d’un ´ echantillon de “groupes” ou unit´ es primaires (UP),
2` eme degr´ e : tirage d’un ´ echantillon de “sous-groupes” ou unit´ es secondaires (US),
. . .
Exemple des enquˆ etes Insee.
Int´ erˆ ets :
• il n’est pas utile de disposer d’une base de sondage compl` ete mais uniquement de la base des
unit´ es primaires, des unit´ es secondaires s´ electionn´ ees,. . . .
• il permet des ´ economies de moyens si les groupes constituent des entit´ es g´ eographiques.
Exemple de l’enquˆ ete Emploi (sondage ar´ eolaire).
14
Slide 29
_

¸

4.2 Plan ` a deux degr´ es
Les poids de sondage sont les produits des poids de chaque degr´ e.
dispersion estimations = dispersion estimations + dispersion estimations
entre UP int´ erieur UP
variance totale = variance inter + variance intra
Cas particulier du plan SASSR, SASSR : si on note m le nombre d’UP ´ echantillonn´ ees (parmi M) et
¯ n le nombre moyen d’US ´ echantillonn´ ees, la variance inter est d’ordre de grandeur 1/m tandis que
la variance intra est d’ordre 1/(m ¯ n).
Pour obtenir variance inter faible, il faudrait des UP de tailles voisines, faibles et de “comportement
moyen” semblable. Dans la r´ ealit´ e, c’est la variance intra qui est faible (effet de grappe du ` a
l’existence de similarit´ e entre individus d’une mˆ eme UP).
Plan classique : taille d’´ echantillon dans une UP proportionnelle ` a la taille de l’UP (taux de sondage
constant)
Slide 30
_

¸

Remarques :
• logique de construction des UP contraire ` a la logique de construction de strates (une UP devrait
regrouper des individus diff´ erents alors qu’une strate devrait regrouper des individus
semblables). Le mieux est de combiner une stratification pour s´ eparer comportements tr` es
diff´ erents avec un d´ ecoupage en UP (strate par strate).
• taille ´ echantillons : ` a (m ¯ n) fix´ e, pr´ ef´ erable de choisir m maximum et donc ¯ n minimum.
• pour le plan classique, si les les UP ont la mˆ eme taille, sondage autopond´ er´ e (estimation d’une
moyenne = moyenne usuelle sur l’´ echantillon).
15
Slide 31
_

¸

4.3 Plan en grappes
plan ` a 2 degr´ es ou toutes les unit´ es s´ econdaires sont interrog´ ees parmi les unit´ es primaires
´ echantillonn´ ees. Une grappe = une UP.
dispersion totale = dispersion entre grappes
Effet de grappe : en pratique les individus ` a l’int´ erieur des grappes se ressemblent et il y a une
variabilit´ e importante entre les grappes.
Exemple de l’enquˆ ete Emploi : sondage ar´ eolaire pour variable salaire (Deville, Roth).
4.3.1 Premier degr´ e = Plan SASSR
si grappes de mˆ eme taille
¯
N, sondage autopond´ er´ e et
V(¯ y) =
_
1 −
m
M
_
S
2
m
¯
N
_
1 +
_
η
2

1
¯
N
_
(
¯
N −1)
_
Remarques :
- D` es que η
2
> 1/
¯
N, on perd en pr´ ecision par rapport au plan SASSR.
- L’effet de grappe existe aussi pour un plan ` a deux degr´ es quelconque et il est g´ en´ eralement mesur´ e
par un coefficient de corr´ elation intra-grappe ρ qui vaut (η
2
−1/
¯
N) lorsque les UP sont de mˆ eme
taille.
Slide 32
_

¸

4.3.2 Premier degr´ e = plan avec remise proportionnel ` a la taille des grappes
Notons N
i
la taille de la grappe i = 1, . . . , M et N la taille totale de la population.
Consid´ erons A
i
= N
i
/N la probabilit´ e de tirer une grappe et notons
¯
Y
i
la moyenne de la variable Y
pour la grappe i. On a simplement :
¯ y =
1
m
m

i=1
¯
Y
i
V(¯ y) =
1
m(m−1)
m

i=1
(
¯
Y
i
− ¯ y)
2
Remarque : on a le mˆ eme r´ esultat pour un plan ` a deux degr´ es quelconque avec ¯ y
i
(estim´ es ` a partir
des ´ echantillons du second degr´ e) ` a la place de
¯
Y
i
.
16