You are on page 1of 41

Chapitre 8

PONDERATION ET REDRESSEMENT

PLAN DU CHAPITRE 8
8.1 INTRODUCTION
8.2 POIDS DE SONDAGE
8.3 CALAGE AUX MARGES
8.3.1 Introduction
8.3.2 Buts du calage
8.3.3 M´ethodes de calage
8.4 REDRESSEMENT SUR VARIABLES QUANTITATIVES
8.4.1 Introduction
8.4.2 Un exemple
8.4.3 Estimation par le quotient (ratio)
8.4.4 Estimation par la r´egression
8.5 REDRESSEMENT SUR VARIABLES QUALITATIVES
(post-stratification)
8.5.1 Introduction
8.5.2 Notations
1

8.5.3 Estimateurs post-stratifi´es
8.5.4 Comparaisons
8.5.5 Conclusion

2

8.1 INTRODUCTION
• Il est rare que l’on ne dispose pas d’une variable quantitative ou qualitative X dont la valeur/modalit´e est
connue pour chacun des individus de la population (variable auxiliaire).
Ex. :
- Si on sonde des logements recens´es, on connaˆıt leur
nombre de pi`eces au moment du recensement (sauf
exception).
- Si on sonde des individus `a partir d’un fichier ´electoral,
on connaˆıt leur ˆage.
- Si on sonde des entreprises, on connaˆıt bien souvent
leur activit´e principale.
• Principe fondamental
Lorsqu’on dispose d’une information auxiliaire, il faut
chercher `a l’utiliser dans le but d’obtenir des estimateurs plus pr´ecis que les estimateurs simples de la moyenne
ou du total qui apparaissent dans le cadre du sondage
PESR ou PISR.

3

• L’information auxiliaire peut ˆetre utilis´ee au niveau de
la construction de l’´echantillon (stratification, tirage
proportionnel `a un crit`ere de taille, . . . ) ou au niveau
de l’expression de l’estimateur (techniques de redressement/calage).
Si plusieurs variables auxiliaires sont utilis´ees, on peut
recourir `a une technique mixte dans laquelle certaines
variables servent `a am´eliorer le tirage de l’´echantillon,
et les autres `a am´eliorer l’estimateur.

4

dans le cas de l’estimation d’un total. • Le poids le plus simple permettant d’effectuer une estimation sans biais est le poids de sondage correspondant. `a l’inverse de la probabilit´e d’inclusion pi de l’unit´e i (estimateur de HorvitzThompson) : pour tout i ∈ U . on associe un poids wi. on utilise un poids attach´e `a chaque unit´e de l’´echantillon : `a chaque unit´e i de l’´echantillon. les poids de sondage d´ependent eux aussi du plan de sondage mis en oeuvre. • Pour ”passer” de l’´echantillon `a la population. 5 .2 POIDS DE SONDAGE • L’´echantillon s´electionn´e sert normalement `a effectuer une inf´erence sur la population. 1 wi = pi Ces probabilit´es d’inclusion d´ependant du plan de sondage utilis´e.8.

3 CALAGE AUX MARGES 8.Le Recensement G´en´eral de la Population fournit la proportion r´eelle d’hommes et de femmes dans la classe d’ˆages consid´er´ee : 48% d’hommes (µX ) et 52% de femmes. 6 .3.8. Exemple Population : individus d’une certaine classe d’ˆages Variable d’int´erˆet : Y Variable auxiliaire : X ≡ ”sexe” (xi = 1 si l’individu i est un homme. on supprime l’erreur d’´echantillonnage dans l’estimation des totaux (moyennes) connu(e)s.1 Introduction • Forme de redressement des estimations • Ajuste les poids de sondage de sorte que les estimations soient ”cal´ees” sur des totaux (ou moyennes) connu(e)s : quel que soit l’´echantillon s´electionn´e. xi = 0 si l’individu i est une femme) . on estime parfaitement ces totaux (moyennes) connu(e)s .

red τˆY. Les poids de sondage sont wi = p1i = f1 = Nn : ( P P N τˆY = i∈S wi yi = n i∈S yi = N y µˆ Y = y Cet ´echantillon permet aussi d’estimer la proportion d’hommes dans la classe d’ˆages consid´er´ee.red (calage sur la moyenne connue de X ) X = wi.redyi i∈S µˆ Y. µˆ X = x = n i∈S Le redressement revient `a modifier (redresser) les poids de sondage (wi → wi. par sondage PESR. un ´echantillon de n = 1000 individus afin d’estimer µY .On tire.red 1 X = = wi.redyi N N i∈S 7 . Supposons que l’´echantillon compte 500 hommes et 500 femmes : 1X xi = 50% 6= 48% = µX .red = wi.redxi = 48% = µX N i∈S τˆY.red) de telle sorte que 1 X µˆ X .

3 M´ethodes de calage Le calage aux marges englobe : – estimation par quotient – estimation par r´egression – estimation par r´egression multiple – post-stratification – estimation par ratissage crois´e (raking ratio) 8 .3.2 Buts du calage – R´eduire les diff´erences entre diverses sources d’estimations – Corriger le sous-d´enombrement (ou le sur-d´enombrement) – Jusqu’`a un certain point. ⇒ Les redressements n´ecessitent un choix judicieux de l’information auxiliaire sur laquelle on effectue le calage. 8.• Id´ee (”pari”) sous-jacent Si l’estimateur (avec les poids de sondage redress´es) fournit la valeur exacte pour un param`etre relatif `a une variable X que l’on sait bien corr´el´ee avec la variable d’int´erˆet Y. alors il doit logiquement fournir une tr`es bonne estimation pour le param`etre d’int´erˆet inconnu relatif `a Y. corriger la non-r´eponse totale 8.3.

`a partir d’un ´echantillon al´eatoire S `a partir duquel on calcule τˆY . .8. . . . µˆ Y .4 REDRESSEMENT SUR VARIABLES QUANTITATIVES 8. ? Id´ee : Supposons que l’on connaisse le total de X sur la population : X τX = xi i∈U (si N est connu. µY . . . • Si on dispose d’une variable auxiliaire quantitative X connue. il est ´equivalent de disposer de µX = τX /N ).1 Introduction • Consid´erons le probl`eme de l’estimation de τY . . µˆ Y .4. . . comment l’utiliser avec profit pour estimer τY . µY . L’id´ee du redressement est de rendre l’estimation de τY ou µY plus pr´ecise en corrigeant les poids de sondage de telle sorte `a assurer la coh´erence des donn´ees par rapport `a X . . µˆ X de µX . . . 9 . L’´echantillon S `a partir duquel on calcule τˆY . c’est-`a-dire en prenant en compte la diff´erence entre la valeur r´eelle connue de τX et la valeur de l’estimation τˆX obtenue. permet aussi d’obtenir une estimation τˆX de τX .

• Plusieurs m´ethodes peuvent ˆetre envisag´ees . une liste de ces hˆopitaux est disponible.N. par exemple). le nombre total de lits dans l’ensemble des hˆopitaux (186 030). elles reposent sur les relations approximatives possibles entre Y et X (utilisation de mod`eles lin´eaires). 8. p. 10 . par cons´equent.B. On connaˆıt notamment le nombre de lits dans chaque hˆopital et donc aussi. Il y a 1 158 hˆopitaux dans la r´egion .4. Concentrons-nous sur un seul produit pharmaceutique (le produit Y ) et sur le probl`eme de l’estimation du montant total (et du montant moyen par hˆopital) des achats de ce produit sur une p´eriode de temps donn´ee (un mois. La table ci-dessous indique ce qui est connu et ce qui ne l’est pas sur la population.157) Supposons qu’une compagnie de marketing cherche `a estimer le montant total des achats effectu´es par les hˆopitaux d’une r´egion donn´ee pour environ 3 200 produits pharmaceutiques.2 Un exemple (Tryfos (1996).) L’information sur X est utilis´ee au stade de l’estimation (pas au stade de l’´echantillonnage).

. yi ∼ = βxi.. Nombre de lits Achats du produit Y i xi yi ($000) 1 675 ? 2 450 ? . il suffit. La relation Y ∼ = βX signifie que.. On suppose donc que Y est approximativement proportionnelle `a X : Y∼ = βX . o`u β est une certaine constante inconnue.Population des hˆopitaux Hˆopital No. Puisque τY ∼ = βτX et que le total τX de la variable auxiliaire X dans la population est connu. µY ∼ = βµX . . ce qui implique que ( τY ∼ = βτX . . de trouver une estimation βˆ de β : on prendra alors ˆ X et µˆ Y = τˆY = βˆ τX = βµ ˆ X τˆY = βτ N N 11 . pour estimer τY .. N = 1 158 1 500 ? Total τX = 186 030 τY =? 030 µY =? µX = 186 1 158 = 160.65 Il est raisonnable de supposer qu’il existe une relation entre le montant Y des achats du produit Y effectu´es par un hˆopital au cours d’un mois et le nombre X de lits dans cet hˆopital : plus grand est l’hˆopital (plus il compte de lits).. pour tout i ∈ U . plus il aura tendance `a utiliser une grande quantit´e du produit..

µˆ Y . τˆX .Supposons qu’un ´echantillon al´eatoire simple de 3 hˆopitaux soit s´electionn´e par tirage PESR. 2 et 1 158.329 ($000) 12 . Le tableau ci-dessous pr´esente les donn´ees relatives `a cet ´echantillon : Hˆopital s´electionn´e Nombre de lits Achats du produit Y i xi yi($000) 1 675 500 2 450 350 1 158 1 500 1 100 2 625 1 950 τY ∼ = βτX et µY ∼ = βµX µY τY = ⇒β ∼ = τX µX On peut d`es lors estimer β par τˆY µˆ Y y βˆquot = = = τˆX µˆ X x o`u τˆY . et Dans notre exemple : βˆquot = y x = 1 950/3 2 625/3 = 650 875 = 0. µˆ X sont les estimateurs classiques des totaux et moyennes-population de Y et de X dans le cas du tirage PESR.quot = (0. et que cet ´echantillon consiste en les hˆopitaux 1.quot = βˆquotµX .7428)(186 030) = 138 183 ($000) µˆ Y.quot = βˆquotτX µˆ Y. On a alors τˆY.7428 ⇒ τˆY.quot = 138 183 1 158 = 119.

d’estimer β. il suffit. pour estimer τY et µY . si N est connu. τˆY.quot = βτ b) Estimation • Estimer β par τˆY βˆquot = τˆX 13 .Cette m´ethode d’estimation de τY et µY porte le nom de m´ethode d’estimation par le quotient (ratio).4. On prendra alors ˆ X et µˆ Y. 8.quot = βµ ˆ X. que µX soit connu.3 Estimation par le quotient (ratio) Supposons que τX soit connu et donc. Pla¸cons-nous dans le cadre g´en´eral du tirage PISR. (i) Tirage PISR a) Hypoth`ese de base Y∼ = βX (Y est approximativement proportionnelle `a X )  τY ∼ = βτX τY µY ∼ ⇒ et donc β = = τX µX µY ∼ = βµX Puisque τX et µX sont connus.

• Remarques .Poids de sondage initiaux : wi = p1i Poids de sondage apr`es calage/redressement : wi 14 τX τˆX .quot = µˆ X µˆ X (calage sur la moyenne connue µX ).o`u τˆY et τˆX sont les estimateurs de Horwitz-Thompson de τY et τX : X yi X xi τˆY = et τˆX = .On note que τˆX . . pi pi i∈S i∈S • Cela donne alors τˆY.quot µˆ Y.quot = τˆX τX = τX τˆX (calage sur le total connu τX ) et µX = µX µˆ X .quot (ˆ µY = τˆY N τˆY τX ˆ τX = τˆY = βquot τX = τˆX τˆX τˆY µX = βˆquot µX = µX = µˆ Y τˆX µˆ X et µˆ X = τˆX N ).

On montre par exemple que. passe par l’origine et a une pente ´egale `a β = τY /τX = µY /µX ). dans la population.On trouve dans la litt´erature statistique une ´etude approfondie du biais et de l’´ecart quadratique moyen de τˆY. les xi et yi (i ∈ U ) sont li´es par le mod`ele yi = βxi + ui o`u les ui (i ∈ U ) sont de petites perturbations sans P rapport avec les xi et de moyenne nulle ( N1 i∈U ui = 0). On y retrouve aussi une ´etude de la situation dans laquelle l’estimateur par le quotient τˆY.quot est plus pr´ecis que l’estimateur τˆY dans le cadre d’une s´election de l’´echantillon par tirage PESR. dans le cas du tirage PESR :  2   σX .quot) = τY − µ µ n µ2 X Y X • B(ˆ τY. de telle sorte que β = τY /τX = µY /µX (c`ad la droite de r´egression des moindres carr´es de Y en X .quot) = 0 si. dans la population. 15 .quot.corr σX Y.corr 1−f ∼ • B(ˆ τY.

dans la population. N. 16 .B. β˜ > · 2 τX 2 µX ce qui revient encore `a la condition µY α ˜< 2 (pente suffisamment forte et ordonn´ee `a l’origine suffisamment petite).quot) < Var(ˆ τY ) si et seulement si 1 µY 1 τY = · . pour v´erifier si ces conditions sont satisfaites. on utilise la droite de r´egression d´efinie `a partir de l’´echantillon S.) En pratique. On montre que EQM(ˆ τY. la droite de r´egression des moindres carr´es de Y en X . a pour ´equation ˜ avec ˜ + βx y=α σX Y ˜ X ˜ = µY − βµ β˜ = 2 et α σX (minimisation du crit`ere des moindres carr´es dans la population U ).• D’autre part.

τY = 1 = N et τbY. 0 sinon on a X N b b = N. pi pi i∈S i∈S • Cet estimateur permet un calage sur la taille N de la population.quot = τˆY b N o`u X yi X1 b τˆY = et N = . En effet.quot = N b N i∈U 17 . les praticiens utilisent aussi assez souvent l’estimateur par le ratio N b τbY.Remarque 1 • Lorsqu’ils disposent de la taille totale N de la population mais pas n´ecessairement de variable auxiliaire X . si Y est la variable indiquant l’appartenance `a la population U :  1 si i ∈ U yi = .

N2. . . tranche d’ˆages. Observons que H X Nh = N et h=1 H X h=1 18 πh = 1. .quot c`ad que l’estimateur de Horwitz-Thompson de τY est d´ej`a cal´e sur la taille de la population • L’int´erˆet de l’estimateur par le ratio assurant le calage sur N est qu’il permet d’estimer des structures de population selon les modalit´es d’une variable qualitative (proportions) de fa¸con `a ce que la somme des proportions estim´ees fasse 1. UH selon les modalit´es d’une variable qualitative (sexe. pour tout h ∈ {1. . . profession. P n i∈U pi = n ⇔ N p = n ⇔ p = N = f P N b =n·N =N ⇒N = i∈S n n ⇒ τbY = b τbY. . . . . . NH de ces classes sont inconnues. H}. ). la proportion πh = Nh/N d’individus de la population qui appartiennent `a la classe Uh. On d´esire estimer. . . Les tailles N1. . .• Si l’´echantillonnage est `a probabilit´es ´egales et de taille fixe (mˆeme selon un plan complexe). . U2. . Supposons que U soit partitionn´ee en H classes U1.

quot = = . l’approche de Horwitz-Thompson fournit l’estimateur non biais´e suivant : X I[i ∈ Uh] X 1 b Nh = = pi pi i∈S i∈S∩Uh bh N ⇒ πˆ h = N On a H X ⇒ h=1 H X h=1 H X X 1 X1 b b Nh = = =N pi pi h=1 i∈S∩Uh i∈S b N πˆ h = 6= 1 .quot = b b N h=1 N h=1 19 .quot b π bh.En utilisant une variable indicatrice de l’appartenance `a Uh. b N N Dans ce cas. N Une solution `a ce probl`eme consiste `a prendre N bb b N = N h. on a bien H H X NX b N b bb Nh = N =N N h.quot h b N et donc bb bh N N h.

et H X h=1 b π bh.quot H b N 1 X b Nh = = =1. b b N h=1 N 20 .

dans le cas du tirage PESR. a une pente 1 µY 1 τY ˜ =− · β<− · 2 τX 2 µX et.prod µˆ X = µˆ Y µX On montre que.   σX Y.prod = τˆY τX De mˆeme. dans la population.prod) < Var(ˆ µY ) si et seulement si la droite de r´egression des moindres carr´es de Y en X .Remarque 2 : Estimation par le produit Un estimateur alternatif `a τˆY. si on connaˆıt µX : µˆ Y.corr 1−f • B(ˆ µY.quot a ´et´e propos´e lorsque τX est connu : τˆX τˆY. d`es lors.prod) = µ n X • EQM(ˆ µY. a une ordonn´ee `a l’origine 3µY ˜> α 2 21 .

.h . fH . NH . H . µˆ Y. µY.H → N → µY → µX → n • Deux situations possibles : 1) Situation 1 : µX est connu pour U 2) Situation 2 : µX . . . . . µY. . . . . . ..H .. . . µˆ Y. nH . µX . . . . . fh .h .1 . . .. µˆ X . µX . . . . .(ii) Tirage stratifi´e a) Introduction • H strates relativement homog`enes 1 N1 µY. .H ↓ . .h . . Nh . .h ↓ . µˆ X . H 22 . . h .h est connu. .1 µˆ X ..1 µX . nh .1 PESR ↓ n1 f1 µˆ Y. . pour tout h = 1.H . . .

h = N µ ˆY µ ˆX H X Nh h=1 H X h=1 N o`u yh Nh xh N Etape 2 : estimation (redress´ee) de µY par µX (1) µˆ Y.quot = βˆquot µX = µˆ Y µˆ X Remarques : (1) • µˆ X .quot) = 0 si les droites de r´egression des moindres carr´es de Y en X ont. la mˆeme pente β = µY /µX et passent par l’origine. dans chaque srate. 23 .quot = µX (calage sur la moyenne connue µX ) (1) • B(ˆ µY.b) Dans la situation 1 Hypoth`ese de base : Y∼ = βX (Y est approximativement proportionnelle `a X et la constante de proportionnalit´e est la mˆeme dans toutes les strates) Etape 1 : estimation de β par βˆquot = µˆ Y = µˆ X = H X Nh h=1 H X h=1 N µˆ Y.h = Nh µˆ X .

h par µX .quot µX . . .h) 24 .h = y h et µˆ X . .quot Remarques : • Pour tout h = 1. . .h.h. .quot = βˆh. mais la constante de proportionnalit´e varie d’une strate `a l’autre) Etape 1 : Pour tout h = 1. H.h ˆ βh. Y∼ = βhX (Y est approximativement proportionnelle `a X .quot = µX .c) Dans la situation 2 Hypoth`ese de base : Dans chaque strate Uh (h ∈ {1. estimation de βh par µ ˆY.h µˆ X . .h Etape 3 : estimation de µY par (2) µˆ Y.h µˆ Y. H. .h. . . H : µˆ X . H}). . . . .h = µˆ Y. . estimation (redress´ee) de µY.quot = H X Nh h=1 N µˆ Y. .h = xh Etape 2 : Pour tout h = 1.h µˆ Y.h (calage sur la moyenne connue µX .quot = µˆ o`u X .

quot Nh µX .h.quot = = H X Nh h=1 H X h=1 N µˆ X .h = µX N (calage sur la moyenne connue µX ) (2) • B(ˆ µY. 25 . H.h.h/µX .h). c’est-`a-dire si les droites de r´egression des moindres carr´es de Y en X dans chaque strate passent par l’origine (et sont d`es lors de pente βh = µY.quot) = 0 pour tout h = 1. .quot) = 0 si B(ˆ µY.• (2) µˆ X . . . .

h pour tout h = 1. l’EQM (2) de µˆ Y.quot . On peut montrer que .si l’´echantillon est de petite taille n.quelle que soit la taille n de l’´echantillon. . . H.quot est g´en´eralement plus faible que celle de (1) µˆ Y.quot sont concurrents.quot et µˆ Y. (1) (2) • Les deux estimateurs µˆ Y. Par contre. dans la situation 2. . .d) Comparaison des situations 1 et 2 • Dans la situation 1. 26 . le biais est (1) souvent plus faible avec µˆ Y. il faut connaˆıtre µX . .quot. on peut se contenter de connaˆıtre la moyenne globale µX .

yi) de l’´echantillon. mais Y ne tend pas vers z´ero lorsque X devient nul (Y n’est donc plus simplement proportionnelle `a X ). ⇒ Estimation par la r´egression 27 . pour estimer τY et µY . il semble raisonnable de supposer que Y∼ = α + βX c`ad yi ∼ = α + βxi pour tout i ∈ U . d’estimer α et β dans les relations ci-dessus sur base des n paires d’observations (xi.4. il suffit.4 Estimation par la r´egression Il existe des situations o`u la variable d’int´erˆet Y est approximativement li´ee lin´eairement `a une variable auxiliaire connue X . Dans ce cas. On a alors τY = X yi ∼ = i∈U = Nα + β X i∈U X (α + βxi) xi = N α + βτX i∈U et τY ∼ τX µY = = α + βµX = α+β N N Puisque τX et µX sont connus.8.

. . . + βJ XJ o`u X1. XJ sont J variables auxiliaires connues. 28 . . .Le principe de l’estimation par la r´egression peut ˆetre ais´ement g´en´eralis´e au cas o`u Y∼ = α + β1X1 + . .

Exemple Consid´erons une enquˆete des m´enages d’une ville en vue d’estimer le montant moyen des d´epenses m´enag`eres annuelles pour des r´eparations ou am´eliorations de l’habitat (maison).mais pas l’ˆage . 29 . indiquant l’adresse exacte . il serait souhaitable de pouvoir stratifier les r´esidences de la ville en diff´erents groupes d’ˆages. Il est donc impossible. de pr´elever un ´echantillon al´eatoire de r´esidences stratifi´e suivant l’ˆage. sur base de cette liste. mais les unit´es statistiques ne peuvent ˆetre assign´ees aux diff´erentes strates qu’une fois l’´echantillon pr´elev´e.8. On dispose d’une liste de toutes les r´esidences de la ville. Nous supposerons ici qu’il y a une seule r´esidence par m´enage et un seul m´enage par r´esidence.de chaque r´esidence.5 REDRESSEMENT SUR VARIABLES QUALITATIVES (post-stratification) Consid´erons une situation dans laquelle un ´echantillon al´eatoire stratifi´e serait souhaitable. Puisque l’on peut s’attendre `a ce que ces d´epenses soient corr´el´ees `a l’ˆage de la r´esidence du m´enage.

il est possible. de classifier ainsi a posteriori les r´esidences s´electionn´ees dans les diff´erents groupes d’ˆages et de calculer enfin l’estimateur post-stratifi´e du montant moyen auquel on s’int´eresse. de d´eterminer le nombre de r´esidences de la ville dans diff´erents groupes d’ˆages.Par contre. de d´eterminer ensuite pour chaque m´enage s´electionn´e l’ˆage de sa r´esidence. Dans cette situation. On connaˆıt donc la taille des diff´erent(e)s strates/groupes d’ˆages. il sera possible de s´electionner un ´echantillon al´eatoire simple (par tirage PESR) de r´esidences et donc de m´enages. `a partir de certains fichiers relatifs aux impˆots sur la propri´et´e pr´elev´es par l’´etat. mais on ne peut pas classer a priori les r´esidences de la ville dans ces diff´erentes strates. 30 .

.1 Introduction • Variable d’int´erˆet : Y • Echantillon PESR de taille n : S • Estimation de µY ou τY : 1X µˆ Y = yi = y n et τˆY = N y i∈S • Prise en compte a posteriori d’une partition de U en H strates d’effectifs N1. NH connus • Peut-on am´eliorer l’estimation de µY et τY en utilisant cette information ? 31 . . . .8.5.

corr = N 1−1 i∈Uh (yi − µY. .corr = n −1 i∈S(h) (yi − y h)2 h 32 . .5. H) • nh = effectif de S(h) : cet effectif est al´eatoire ! ! P 1 • yh = n i∈S(h) yi h P 1 2 • sY. .2 Notations a) Population • U = U1 ∪ .h et µY = h=1 N µY. .h.h = τY N b) Echantillon • S(h) = S ∩ Uh : partie de S incluse dans la strate h (h = 1.8. ∪ UH et Uh ∩ Ul = ∅ pour tout h 6= l ∈ {1.h)2 h PH PH Nh • τY = h=1 τY.h = NY.h. H} P τ • τY. .h = i∈Uh yi et µY. . . .h h P 2 • σY. . .

3 Estimateurs post-stratifi´es a) Estimation de τY et µY • Estimateur : τˆY.post τˆY. En effet. .post = H X Nh y h h=1 H µˆ Y.8. . 2) Les poids Nh/N sont suppos´es connus pour tout h = 1. et non pas stratifi´e. la variable indicatrice de l’appartenance `a la strate k :  1 si l’individu i ∈ strate k xk.  soit Xk .5.i = 0 sinon 33 .post X Nh = = y N N h h=1 Remarques : 1) L’estimateur post-stratifi´e est calcul´e exactement de la mˆeme fa¸con que l’estimateur stratifi´e MAIS les observations r´esultent d’un ´echantillonnage simple. . . H 3) La post-stratification est une m´ethode de calage sur les effectifs Nh.

. h = 1. . .post : 2 niveaux d’al´eas : Niveau 1 : {n1. .i = Nk : param`etre connu P  τˆXk . car le sondeur n’a pas besoin de connaˆıtre l’information auxiliaire pour chaque individu de la population. τˆXk .h = 0 si k 6= h i∈U D`es lors. . S(H)} 34 . . H. mais seulement un r´esum´e de cette information au travers des effectifs totaux Nh. nH } Niveau 2 : unit´es s´electionn´ees appartenant `a la strate h : {S(1). .h est la moyenne arithm´etique de la variable Xk parmi les individus appartenant au sous-´echantillon (post-strate) S(h) :  1 si k = h xk. . τXk = P xk. . .post = X Nh · 0 + Nk = Nk = τ X k .post = H h=1 Nh xk. . . h6=k 4) La post-stratification est moins exigeante en information auxiliaire que la stratification.h o`u xk. • Caract`ere al´eatoire de τˆY.

Deux des questions du questionnaire ´etaient formul´ees comme suit : 5.post : On montre que E(ˆ τY.post est un estimateur non biais´e de τY • Variance de τˆY.post) = τY → τˆY. litt´erature statistique • Exemple (suite) Un EAS de 1 200 r´esidences/m´enages a ´et´e s´electionn´e `a partir de la liste des 45 000 r´esidences de la ville. Les nombres dans la 2`eme colonne proviennent de fichiers relatifs aux impˆots sur la propri´et´e.• Esp´erance math´ematique de τˆY.b Il y a entre 5 et 10 ans.c Il y a plus de 10 ans. A combien s’´el`event vos d´epenses m´enag`eres de l’ann´ee pass´ee pour des r´eparations ou am´eliorations/am´enagements de votre r´esidence ? $— Le tableau ci-dessous r´esume l’information utile. 5. 5.post : cf. Quand votre r´esidence a-t-elle ´et´e construite ? 5. 17.a Il y a moins de 5 ans. 35 .

corr 140 350 610 614 420 675 750 752 640 920 940 941 1 200 L’estimation post-stratifi´ee du montant moyen des d´epenses annuelles des m´enages pour des r´eparations ou am´enagements de leur r´esidence est µˆ Y. Nh Moins de 5 ans 5 000 Entre 5 et 10 ans 15 000 Plus de 10 ans 25 000 45 000 Nh/N 0.h s2Y.14 36 .post = (0.h.Population des r´esidences Age de la Nombre de r´esidence r´esidences.333) 675 + (0.333 0.111 0.556) 920 = $ 775.556 1 Echantillon des r´esidences/ m´enages nh y h s2Y.111) 350 + (0.

les effectifs sont tels que la r´epartition nh/n est la suivante : < 20 ans 21-35 ans 36-50 ans > 50 ans nh/n 15% 30% 30% 25% yh 900 1 350 2 250 1 800 Si non ne redresse pas sur l’ˆage. o`u on d´ecide de post-stratifier sur une variable ”tranche d’ˆages”.30)2 250 + (0.• Autre exemple Consid´erons une enquˆete sur le revenu mensuel.30)1 350 + (0. Le choix d’une telle variable auxiliaire est li´e `a la forte corr´elation qui existe de mani`ere ´evidente entre l’ˆage et le revenu.25)1 800 = 1 665 Euros 37 . On tire l’´echantillon par sondage PESR et on va consulter le Recensement pour obtenir la r´epartition Nh/N suivante : < 20 ans 21-35 ans 36-50 ans > 50 ans Nh/N 20% 35% 30% 15% Dans l’´echantillon. alors on estime le revenu mensuel moyen dans la population par y = H X nh h=1 n yh = (0.15)900 + (0.

et leur ”sur-repr´esentation” tire la moyenne g´en´erale vers des valeurs trop ´elev´ees. l’´echantillon comprend ”trop” de personnes de plus de 50 ans. En effet. le revenu mensuel moyen aurait donc ´et´e estim´e `a un montant plus ´elev´e.35)1 350 + (0. mais l’estimateur post-stratifi´e est plus pr´ecis.Si on redresse selon la tranche d’ˆages.20)900 + (0. Or.15)1 800 = 1 597.celles-ci ont un revenu mensuel moyen relativement ´elev´e. Les deux estimateurs sont sans biais. sous l’effet du ”hasard”.30)2 250 + (0.post = H X Nh h=1 N yh = (0. alors on estime le revenu mensuel moyen dans la population par µˆ Y. 38 .5 Euros En l’absence de post-stratification. on constate que.

on peut s’attendre `a ce que la proportion des individus s´electionn´es qui appartiennent `a une certaine strate Uh soit approximativement ´egale `a la proportion d’individus de la population qui appartiennent `a cette strate.corr nN N  h=1 La diff´erence Var(ˆ µY ) − Var(ˆ µY.post) est positive et d’autant plus grande que les moyennes µY.h. c’est-`adire n h ∼ Nh .h sont dispers´ees et 2 que les σY.h − µY )2 Var(ˆ µY ) − Var(ˆ µY.h.8. Toutefois.corr sont faibles.5. la diff´erence entre les 2 variances est petite lorsque l’´echantillon est de grande taille. lorsque la taille n de l’´echantillon al´eatoire simple `a partir duquel est calcul´e l’estimateur post-stratifi´e est grande. Ceci s’explique par le fait que. = n N 39 .post) = n N h=1  X  H  1−f Nh 2 − 1− σY.4 Comparaisons a) Comparaison avec PESR • Si N est grand :  H 1 − f X Nh (µY.

b) Comparaison avec STP Var(ˆ µY. la pr´ecision de l’estimateur post-stratifi´e est toujours moins bonne que celle de l’estimateur bas´e sur un ´echantillon stratifi´e proportionnel. 40 .En d’autres termes.post) − Var(ˆ µY. Cependant. lorsque n est grand. la diff´erence entre les 2 variances est petite lorsque l’´echantillon est de grande taille.STP) ≥ 0 Pour une mˆeme taille n d’´echantillon. on peut s’attendre `a ce que l’estimateur PESR et l’estimateur post-stratifi´e soient tr`es proches l’un de l’autre.

Il va sans dire que cette attitude est particuli`erement dangereuse.5. `a accorder une confiance excessive `a l’´echantillonnage et `a ne plus engager du tout de proc´edure de redressement.8. Les praticiens ont parfois tendance `a ´eprouver une certaine d´eception lorsque la phase de redressement ne modifie que tr`es peu leurs estimations.5 Conclusion Si le hasard ne nous a pas fait s´electionner un ´echantillon comprenant des individus trop particuliers. car il est n´ecessaire de maintenir une veille critique vis-`a-vis des ´eventuels caprices du hasard. Par ailleurs. Cette attitude est quelque peu illogique car une telle constatation est plutˆot de bon augure et tend `a prouver que l’´echantillon tir´e a une bonne composition. les expressions des poids de sondage avant et apr`es redressement devraient donner lieu `a des valeurs num´eriques voisines. 41 . ils peuvent avoir tendance. apr`es avoir r´ealis´e un nombre important d’enquˆetes pour lesquelles le redressement ne modifiait rien ou presque rien.