ImpactEvaluation 1

Notes de cours :
Lapproche unie de Heckman en termes

du Marginal Treatment Eect (MTE)
Jean-Louis Arcand
The Graduate Institute j Geneva
20 septembre 2011
Un modle gnral
La structure du modle est trs bien rsume dans Heckman et Vytlacil (2005) ; voir
Heckman et Vytlacil (1999) pour les dmonstrations. Dans ces notes de cours, jai essay
dexpliciter certains passages algbriques qui sont faits relativement rapidement dans
Heckman et Vytlacil (1999).
1.1
1.1.1
La structure de base du modle

Notation
Les majuscules (W ) dnoteront les variables alatoires, tandis que les minuscules (w)
dnoteront une ralisation de la variable alatoire. Exemple : w est une valeur possible
qui peut tre prise par la variable alatoire W . La densit dune variable alatoire W sera
dnote par fW (w), la cumulative correspondante par FW (w). La densit de la variable
alatoire W , conditionnelle sur la ralisation A = a dune autre variable alatoire A, sera
dnote par fW jA (w jA = a) = fW jA (w).
1.1.2
La structure du modle
Le statut traitement est dni par une variable muette D :

D=
1 si trait
0 autrement
(1)
La structure de base est ensuite donn par :

Un modle pour le rsultat Yj ; j = 0; 1 comme fonction de facteurs observables X
et de facteurs inobservables Uj :
Y0 =
Y1 =
(X; U0 ) ;
1 (X; U1 ) ;
0
(2a)
(2b)
o les fonctions j ne sont pas ncessairement additivement sparables en X et Uj .

On peut rcrire le modle de faon plus succincte comme :
Y = DY1 + (1
D) Y0 :
(3)
Un modle dindex (ou de variable latente) linaire de participation au programme :

D =
D=
UD :
(4)
1 si D > 0
0 autrement
(5)
(Z)
On rsumera souvent ce genre de spcication sous la forme compacte dune fonction

indicatrice 1 [:] :
D = 1 [D > 0] :
(6)
1.1.3
Remarques
Intuitivement, il nous faut une restriction dexclusion pour identier la slction

dans le traitement :
X Z:
UD peut tre trs bien tre une fonction de (U0 ; U1 ) : cest le cas, par exemple, dans
le modle de Roy que nous verrons plus tard:
1.2
Les hypothses clefs
Lidentication des eets traitement standards se base sur une srie dhypothses
clefs. Celles-ci sont nettement moins contraignantes que celles sous-jacentes lestimation
structurelle la Cowles.
1.
2.
3.
4.
5.
6.
(Z) est une variable alatoire non-dgnre, conditionnellement sur X:

=)Hypothse variable instrumentale : instruments "forts".
Les vecteurs alatoires (U1 ; UD ) et (U0 ; UD ) sont indpendants de Z, conditionnellement sur X.
=)Hypothse variable instrumentale : existence dune restriction dexclusion valide.
La distribution fUD (uD ) de UD est continue.
=)Condition technique an de pouvoir tout faire en termes dintgrales "simples",
sans "trous".
E[Y0 ] et E[Y1 ] sont borns.
=)Condition technique qui garantit que les eets traitements seront dnis.
0 < Pr(D = 1 jX = x ) < 1:
=)Existence dans la population dun groupe trait et dun groupe de contrle.
XD=1 = XD=0 :
=)Absence de "feedback" de D vers X (pas de "Hawthorne eects").
D
Remarque importante : Pas dhypothse dexognit sur X ; cest--dire que

(U0 ; U1 ; UD ) peut tre corrl avec X. Ceci est une dirence clef de lapproche des eets
traitement par rapport lconomtrie "classique" la Cowles o, pour estimer un modle
structurel, on aura gnralement besoin de supposer que (U0 ; U1 ; UD ) est indpendant de
(X; Z).
2
Rcriture de la fonction dindex dnissant le statut de traitement
Supposons que la variable alatoire UD est distribue sur lintervalle [uD ; uD ]. Soit
fUD jX (uD ) la Rdensit de UD conditionnelle sur X. Sa densit cumulative associe est
FUD jX (uD ) = fUD jX (uD ) duD . Rappellons que FUD jX (uD ) = 0; FUD jX (uD ) = 1.
Le modle dindex linaire dnissant le statut de traitement tant donn par D =
UD , lindividu reoit le traitement lorsque
D (Z)
D
(Z) > UD () UD 2 [uD ;
(Z)] :
(7)
Calculons la probabilit de recevoir le traitement, conditionnel sur Z, que lon appelle

souvent le "score de propention" :
Z D (Z)
fUD jX (uD ) duD ;
(8a)
P (Z) =
UD
= FUD jX (
(Z))
= FUD jX (
D (Z)) :
FU jX (u );
| D {z D}
(8b)
=0
(8c)
Nous allons maintenant imposer une normalisation sur la cumulative FUD jX qui facilitera les calculs, en nous basant sur un rsultat lmentaire issu des statistiques mathmatiques.1
Theoreme de la fonction de transfert (Probability Integral Transform) :2
Soit X une variable alatoire distribue selon la cumulative FX continue sur R, avec
inverse FX 1 dnie par :
FX 1 (u) = inf fx : FX (x) = u; 0 < u < 1g :
(i) Si la variable alatoire U est distribue selon la loi uniforme sur [0; 1] (U Unif[0; 1]),
alors la variable alatoire X = FX 1 (U ) est distribue selon la cumulative FX . (ii) Si
la variable alatoire X est distribue selon la cumulative FX , alors la variable alatoire
FX (X) est distribue Unif[0; 1].
Dmonstration : (i) 8x 2 R, Pr(FX 1 (U ) 6 x) = Pr(inf fy : FX (y) = ug 6 x) =
Pr(U 6 FX (x)) = FX (x) ; (ii) 8 0 < u < 1, Pr(FX (X) 6 u) = Pr(X 6 FX 1 (u)) =
FX FX 1 (u) = u. [QED]
En appliquant la partie (ii) du Thorme, nous savons donc que si la variable alatoire
eD = FU jX (UD ) Unif[0; 1]. Comme nous
UD FUD jX (uD ), alors la variable alatoire U
D
navons aucune ide concernant la forme prise par la distribution FUD jX , nous pouvons,
sans perte de gnralit, imposer la normalisation :
UD
Unif [0; 1] () fUD (uD ) = 1 () FUD (uD ) = uD :
(9)
Le Thorme qui suit est un cas particulier du Thorme de la densit de la transformation dune
variable alatoire, que vous pourrez trouver la Recette 13 de mon Livre de cuisine, disponible en version
PDF sur ma page web pour le cours de micro Mag1.
2
Voir un bon livre de Statistiques mathmatiques comme, par exemple, Roussas (1997), pp. 242-4.
Je remercie Alain Trognon pour la suggestion concernant la traduction en Franais.
Toute autre distribution de UD peut ensuite tre construite grace la partie (i) du
Thorme. Il suit que :
P (Z) =
D (Z)
Unif [0; 1] duD =
D (Z)
duD = [uD ]0 D (Z) =
(Z) :
(10)
Llment de base : Le MTE

Leet du traitement sur un individu est donn par :
= Y1
(11)
Y0 :
Llment de base de lapproche de Heckman est "leet marginal de traitement"

(marginal treatment eect MTE), dni par une esprance conditionnelle :
MT E
MT E
(x; uD )
(x; uD ) = E ( jX = x; UD = uD ) :
(12)
(x; P (Z)) = E ( jX = x; UD = P (Z)) :
(13)
Un concept trs proche, qui sera galement utile par la suite, est celui du LIV (local
instrumental variable LIV) qui, nous le verrons plus tard, correspond au M T E (x; uD ),
valu UD = P (Z) :
LIV
Remarquez que, lorsque UD = P (Z), lindividu est juste indirent entre choisir et ne
pas choisir le traitement, car, dans ce cas :
D (UD = P (Z)) =
(Z)
P (Z) = P (Z)
P (Z) = 0:
(14)
Average treatment e ect : ATE
Nous dnirons leet moyen du traitement (sur une personne tire au hasard dans la
population) par :
AT E
(x) = E ( jX = x ) :
(15)
On doit donc liminer la variable alatoire UD (qui est inobservable) en intgrant
lesprance conditionnelle E ( jX = x; UD = uD ), par rapport uD , sur lensemble de
son support [0; 1] :
Z 1
AT E
(16a)
(x) =
E ( jX = x; UD = uD )fUD (uD )duD
{z
}| {z }
0 |
=
M T E (x;u
D)
=1 par (9)
MT E
(16b)
(x; uD ) duD :
E ect of treatment on the treated : TT

Nous dnoterons "leet du traitement sur les traits" par
TT
(x; D = 1) = E ( jX = x; D = 1) :
4
TT
(x; D = 1) :
(17)
La dirence avec le ATE est que nous conditionnons sur le fait que D = 1. On doit
donc liminer la variable alatoire inobservable UD en intgrant lesprance conditionnelle
E ( jX = x; UD = uD ), par rapport uD , sur la partie de son support qui correspond
aux personnes qui choisissent le traitement. Cet intervale est donn par :
D
(z) = P (z) > UD () UD 2 [0;

TT
Dnissons une version de

TT
(z)] () UD 2 [0; P (z)] :
(18)
(x; D = 1) conditionnelle sur la valeur de P (Z) :
(x; P (z) ; D = 1) = E ( jX = x; P (Z) = P (z) ; D = 1) :
(19)
Comme D = 1 lorsque UD 6 P (z), il suit que :

TT
(x; P (z) ; D = 1) = E ( jX = x; UD 6 P (z)) ;

Z P (z)
1
=
E ( jX = x; UD = uD ) duD :
P (z) 0
(20a)
(20b)
Dnissons galement la distribution de P (Z) 2 [0; 1], conditionnelle sur X = x et D = 1 :

fP (Z)jX=x;D=1 (P (Z) jX = x; D = 1) ;
P (Z)
(21)
avec sa cumulative associe :

FP (Z)jX=x;D=1 (P (Z) jX = x; D = 1) :
(22)
Notre "ancienne" dnition de T T (x; D = 1) sobtient alors en intgrant

par rapport P (z), sur lensemble du support [0; 1] de P (z) :
Z 1
TT
TT
(x; D = 1) =
(x; P (z) ; D = 1) dFP (Z)jX=x;D=1 :
TT
(x; P (z) ; D = 1)
(23)
Remplaons (20b) dans (23) :

#
Z P (z)
Z 1"
1
TT
E ( jX = x; UD = uD ) duD dFP (Z)jX=x;D=1
(24a)
;
(x; D = 1) =
P (z) 0
0
|
{z
}
=
1
P (z)
"Z
T T (x;P (z);D=1)
par (20b)
P (z)
E ( jX = x; UD = uD ) duD dFP (Z)jX=x;D=1

(24b)
:
Notons alors, par la Rgle de Bayes, que :3

dFP (Z)jX=x;D=1 =
Pr (D = 1 jX = x; P (Z) = P (z))
dFP (Z)jX=x :
Pr (D = 1 jX = x )
(25)
Notons galement que :

Pr (D = 1 jX = x; P (Z) = P (z)) = P (z);
3
La Rgle de Bayes nous dit que fAjB (a jB = b ) =
fBjA (bjA=a )
fA (a)
fB (b)
(26)
=
f
(bjA=a )fA (a)
R +1 BjA
:
f
(bjA=a )fA (a)da
1 BjA
Ici, on lapplique des distributions conditionnelles, et donc nous avons : fAjC;B (a jC = c; B = b ) =

fBjC;A (bjC=c;A=a )
fAjC
fBjC (bjC=c )
(a jC = c ):
do :
dFP (Z)jX=x;D=1 =
P (z)
dFP (Z)jX=x :
Pr (D = 1 jX = x )
Il suit que nous pouvons rcrire (24b) :

"Z
#
Z 1
P (z)
1
TT
(x; D = 1) =
E ( jX = x; UD = uD ) duD
0 P (z)
0
(27)
(28a)
P (z)
dFP (Z)jX=x ;
Pr (D = 1 jX = x )
|
{z
}
dFP (Z)jX=x;D=1 par (27)
1
(28b)
Pr (D = 1 jX = x )
#
Z 1 "Z P (z)
E ( jX = x; UD = uD ) duD dFP (Z)jX=x :
0
Dnissons la fonction indicatrice :

1 lorsque uD 6 P (z)
:
0 autrement
1 (uD 6 P (z)) =
(29)
On peut alors crire :

Z
P (z)
E ( jX = x; UD = uD ) duD =
1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD :

(30)
Aussi, remarquons que :

Pr (D = 1 jX = x ) = E (P (Z) jX = x ) :
(31)
Posons t = P (Z), et crivons lexpression prcdente en termes dune intgrale :

Pr (D = 1 jX = x ) = E (P (Z) jX = x )
= E (t jX = x )
Z 1
=
tfP (Z)jX=x (t jX = x ) dt:
(32a)
(32b)
(32c)
Intgrons par parties en utilisant les mnmoniques habituels :

u = t; v 0 = fP (Z)jX=x (t jX = x )
u0 = 1; v = FP (Z)jX=x (t jX = x ) :
(33a)
(33b)
On obtient :
Z 1
Z
tfP (Z)jX=x (t jX = x ) dt =
0
fP (Z)jX=x (t jX = x ) dt
|
{z
}
t
|{z}
(34a)
v0
= [|{z}
t
FP (Z)jX=x (t jX = x )]10
|
{z
}
u
v
Z 1
1
FP (Z)jX=x (t jX = x )dt
|{z}
{z
}
|
0
0
u
= 1
Z
= 1
Z
=
=1
FP (Z)jX=x (t jX = x ) dt;
FP (Z)jX=x (1 jX = x )
|
{z
}
(34b)
FP (Z)jX=x (0 jX =(34c)
x)
|
{z
}
=0
FP (Z)jX=x (t jX = x ) dt;
FP (Z)jX=x (t jX = x ) dt:
(34d)
(34e)
En substituant (30) et (34e) dans (28b), on obtient alors :

TT
(x; D = 1) =
1
Pr (D = 1 jX = x )
#
Z 1 "Z P (z)
E ( jX = x; UD = uD ) duD dFP (Z)jX=x ;
0
= Z
|
(35b)
(35a)
FP (Z)jX=x (t jX = x ) dt
{z
}
=Pr(D=1jX=x ) par (34e)

1
1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD dFP (Z)jX=x

(35c):
{z
}
=
R P (z)
0
E( jX=x;UD =uD )duD par (30)
Inversons maintenant lordre dintgration (vous pourrez vrier que les conditions du
Thorme de Fubini sappliquent ici savoir, les expressions sont bornes et les int-
grales sont donc propres) :

TT
(x; D = 1) = R 1
0
1
1
= R1
0
1
1
= R1
(36a)
Z 1
1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD dFP (Z)jX=x ;
(36b)
Z 1
1 (uD 6 P (z)) E ( jX = x; UD = uD ) dFP (Z)jX=x duD ;
0
0
Z
Z 1
E ( jX = x; UD = uD )
(36c)
Remarquons maintenant que :

Z
Z 1
1 (uD 6 P (z)) dFP (Z)jX=x =
uD
1 (uD 6 P (z)) dFP (Z)jX=x

1
uD
(37)
1 (uD 6 P (z)) dFP (Z)jX=x :
Mais 1 (uD 6 P (z)) = 0 pour P (z) 2 [0; uD ] et donc :

Z uD
Z uD
1 (uD 6 P (z)) dFP (Z)jX=x =
0
0
1 (uD 6 P (z)) dFP (Z)jX=x duD :
dFP (Z)jX=x = 0;
(38)
tandis que 1 (uD 6 P (z)) = 1 pour P (z) 2 [uD ; 1] et :

Z 1
Z 1
1 dFP (Z)jX=x
1 (uD 6 P (z)) dFP (Z)jX=x =
uD
(39a)
uD
= FP (Z)jX=x (1 jX = x )
|
{z
}
FP (Z)jX=x (uD jX = x(39b)

)
=1
= 1
FP (Z)jX=x (uD jX = x ) :
En combinant ces deux expressions, on obtient donc :

Z 1
Z uD
1 (uD 6 P (z)) dFP (Z)jX=x =
0
|0
{z
}
(39c)
(40a)
=0 par (38)
Z 1
+
uD
|
{z
}
=1 FP (Z)jX=x (uD jX=x ) par (39c)
= 1
FP (Z)jX=x (uD jX = x )
(40b)
En remplaant dans (36c), on obtient alors :

TT
(x; D = 1) = R 1
0
Z 1
Z
E ( jX = x; UD = uD )
0
= R1
0
=
Posons :
1
1
(41b)
E ( jX = x; UD = uD ) 1
|
"
R1
E ( jX = x; UD = uD ) R 1
hT T (x; uD ) = R 1
Comme E ( jX = x; UD = uD ) =
TT
1 (uD 6 P (z)) dFP (Z)jX=x duD
(41a)
(x; D = 1) =
MT E
FP (Z)jX=x (uD jX = x ) duD

{z
}
1(uD 6P (z))dFP (Z)jX=x par (40b)
1
1
:
(41c)
duD
(42)
1
MT E
(43)
(x; uD ) hT T (x; uD ) duD :
Local average treatment e ect : LATE
Le LATE, introduit initiallement dans la littrature par Imbens et Angrist (1994), est
dni par :
E (Y jX = x; P (Z) = P (z 0 ) )
:
P (z 0 )
(44)
Le LIV, lui, correspond la limite de lexpression pour le LATE, lorsque z ! z 0 :
LAT E
LIV
(x; P (z) ; P (z 0 )) =
(x; P (z)) =
E (Y jX = x; P (Z) = P (z))
P (z)
@E (Y jX = x; P (Z) = P (z))
= lim0
z!z
@P (z)
LAT E
(x; P (z) ; P (z 0 )) :
Considrons llment constitutif des expressions pour LAT E (x; P (z) ; P (z 0 )) et

savoir E (Y jX = x; P (Z) = P (z) ). Remarquons que :
(45)
LIV
(x; P (z)),
E (Y jX = x; P (Z) = P (z) ) = P (z)E (Y1 jX = x; P (Z) = P (z) ; D = 1)

(46a)
+ [1 P (z)] E (Y0 jX = x; P (Z) = P (z) ; D = 0) ;
(46b)
= P (z)E (Y1 jX = x; UD 6 P (z))
|
{z
}
=E(Y1 jX=x;P (Z)=P (z);D=1 )
+ [1
P (z)] E (Y0 jX = x; UD > P (z)):

|
{z
}
=E(Y0 jX=x;P (Z)=P (z);D=0 )
Mais :
1
E (Y1 jX = x; UD 6 P (z) ) =
P (z)
P (z)
E (Y1 jX = x; UD = uD ) duD ;
(47)
et
E (Y0 jX = x; UD > P (z) ) =
1
P (z)
P (z)
E (Y0 jX = x; UD = uD ) duD :
(48)
Il suit que :
E (Y jX = x; P (Z) = P (z) ) = P (z)E (Y1 jX = x; UD 6 P (z))
(49a)
+ [1 P (z)] E (Y0 jX = x; UD 6 P (z)) ;
Z P (z)
E (Y1 jX = x; UD = uD ) duD
(49b)
=
0
Z 1
+
P (z)
Ecrivons la mme expression pour E (Y jX = x; P (Z) = P (z 0 )) :

0
E (Y jX = x; P (Z) = P (z )) =
P (z 0 )
P (z 0 )
Considrons ensuite la soustraction :

E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ))
Z 1
Z P (z)
E (Y1 jX = x; UD = uD ) duD +
=
0
(50)
P (z)
P (z 0 )
P (z 0 )
Sans perte de gnralit, supposons que P (z) > P (z 0 ). Notons que :

Z
P (z)
E (Y1 jX = x; UD = uD ) duD =
+
Z
P (z 0 )
E (Y0 jX = x; UD = uD ) duD =
P (z 0 )
P (z)
P (z 0 )
P (z)
P (z 0 )
Z 1
P (z)
10
(51a)
(51b)
En substituant dans (50), on obtient

E (Y jX = x; P (Z) = P (z) )
=
zZ
P (z 0 )
E(Y1 jX=x;UD =uD )duD par (51a)
}| Z
P (z)
P (z)
P (z 0 )
(52)
P (z 0 )
R P (z)
E (Y jX = x; P (Z) = P (z 0 ))
P (z)
P (z 0 )
=
P (z)
{z
R1
P (z 0 ) E(Y0 jX=x;UD =uD )duD par (51b)
Cette dernire expression se rcrit :

Z P (z)
=
P (z 0 )
Z 1
+
P (z)
|
{z
(53a)
P (z)
=0
}
Z P (z0 )
Z P (z0 )
+
0
0
|
{z
}
=
=
=
=0
P (z)
P (z 0 )
P (z)
P (z 0 )
Z P (z)
P (z 0 )
Z P (z)
P (z 0 )
E (Y1
P (z)
P (z 0 )
E (Y0 jX = x; UD = uD ) duD ; (53b)
Y0 jX = x; UD = uD ) duD ;
(53c)
E ( jX = x; UD = uD ) duD :
(53d)
En notant enn que :

E ( jX = x; P (z ) 6 UD 6 P (z) ) =
0
1
P (z)
P (z 0 )
P (z)
P (z 0 )
E ( jX = x; UD = uD ) duD ;
(54)
il suit que :
Z P (z)
=
E ( jX = x; UD = uD ) duD ;
P (z 0 )
= [P (z)
P (z 0 )] E ( jX = x; P (z 0 ) 6 UD 6 P (z)) ;
11
(55a)
(55b)
et donc que :
= [P (z) P (z 0 )] E ( jX = x; P (z 0 ) 6 UD 6 P (z)) :
(56)
En consquence :
LAT E
E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ) )

(57a);
P (z) P (z 0 )
= E ( jX = x; P (z 0 ) 6 UD 6 P (z)) :
(57b)
(x; P (z) ; P (z 0 )) =
En prenant la limite de lquation (57b), on obtient le LIV, qui est donc la mme chose
que le MTE, mais valu uD = P (z) :
LIV
(x; P (z)) = lim0
LAT E
z!z
(x; P (z) ; P (z 0 )) ;
(58a)
= lim0 E ( jX = x; P (z 0 ) 6 UD 6 P (z)) ;
(58b)
= E ( jX = x; UD = P (z)) ;
MT E
=
(x; P (z)) :
(58c)
(58d)
z!z
Nous pouvons galement arriver directement cette expression en direnciant lquation

(49b) par rapport P (z). Par la Rgle de Leibnitz (voir la Recette 11 dans mon Livre
de cuisine, disponible en version PDF sur ma page web pour le cours de micro Mag1) :
Z P (z)
@E (Y jX = x; P (Z) = P (z) )
@
E (Y1 jX = x; UD = uD ) duD (59)
=
@P (z)
@P (z) 0
Z 1
@
+
@P (z) P (z)
=
@P (z)
E (Y1 jX = x; UD = P (z))
@P (z)
| {z }
=1
P (z)
@0
E (Y1 jX = x; UD = 0)
@P (z)
| {z }
(60)
=0
@
@P (z)
|
{z
}
=0
@P (z)
@1
+
E (Y0 jX = x; UD = 1)
E (Y0 jX = x; UD = P (z))
@P (z)
@P (z)
| {z }
| {z }
=0
=1
Z 1
@
P (z) @P (z)
|
{z
}
=0
= E (Y1 jX = x; UD = P (z)) E (Y0 jX = x; UD = P (z)) ;

= E ( jX = x; UD = P (z)) :
12
(61a)
(61b)
Notons que lquation (54) en combinaison avec (57b) nous donne une expression pour le
LATE comme une esprance conditionnelle du MTE :
Z P (z)
1
LAT E
0
(x; P (z) ; P (z )) =
E ( jX = x; UD = uD ) duD ;(62a)
P (z) P (z 0 ) P (z0 )
Z P (z)
1
MT E
=
(x; uD ) duD :
(62b)
P (z) P (z 0 ) P (z0 )
Les rsultats en bref
Nous pouvons maintenant regrouper nos trois principaux rsultats concernant le lien
entre les eets traitements les plus communment utiliss ATE, TT et LATE et le
MTE. Nous rsultats proviennent des quations (58d), (16b), (20b), (43) et (62b) :
LIV
(x; P (z)) =
AT E
(x) =
MT E
(63)
(x; P (z)) ;
1
MT E
(64)
(x; uD ) duD ;
Z P (z)
1
MT E
(x; P (z) ; D = 1) =
(x; uD ) duD ;
(65)
P (z) 0
"
#
Z 1
1 FP (Z)jX=x (uD jX = x )
TT
MT E
(x; D = 1) =
(x; uD ) R 1
du
(66)
D
1 FP (Z)jX=x (t jX = x ) dt
0
0
"
#
Z 1
Pr (P (Z) > uD jX = x )
MT E
=
(x; uD ) R 1
du(67)
D;
Pr (P (Z) > uD jX = x ) duD
0
0
Z P (z)
1
LAT E
0
MT E
(x; P (z) ; P (z )) =
(x; uD ) duD :
(68)
P (z) P (z 0 ) P (z0 )
TT
Lorsque le MTE est indpendant de uD ,

cdentes impliquent que :
MT E
LIV
MT E
(x; uD ) =
MT E
AT E
TT
LAT E
(x), les expressions pr:
(69)
Intuitivement :
(x; P (z)) value M T E (x; uD ) UD = P (z) et reprsente leet moyen de
traitement pour les individus qui sont indirents entre participer et ne pas participer au programme, pour une valeur donne de linstrument P (z). Pour les individus
pour lesquels P (z) est proche de 0, LIV (x; P (z)) reprsente leet moyen de traitement pour quelquun dont les caractristiques inobservables UD sont telles quil
est trs probable quil choisira de participer au programme. Le contraire est vrai
pour les individus pour lesquels P (z) est proche de 1.
AT E (x) intgre M T E (x; uD ) sur la totalit du support [0; 1] de UD , et correspond donc leet moyen de traitement pour une personne tire au hasard dans la
population.
T T (x; P (z) ; D = 1) intgre M T E (x; uD ) sur le sous-ensemble [0; P (z)] du support de UD , et est dtermin par leet moyen de traitement pour les individus dont
les caractristiques inobservables sont telles quil est probable quils participent au
programme.
LIV
13
(x; D = 1) intgre M T E (x; uD ) sur lensemble du support [0; 1], avec un pondration qui est dcroissante en uD , et qui met donc plus de poids sur les individus
qui ont une plus forte probabilit de participer au programme (cet eet est galement une moyenne pondre de leet prcdent, o lon intgre par rapport la
probabilit de participation P (z)).
LAT E (x; P (z) ; P (z 0 )) intgre M T E (x; uD ) de P (z 0 ) P (z), et reprsente leet
moyen de traitement pour quelquun qui ne participerait pas au programme pour
P (Z) 6 P (z 0 ), mais qui participerait pour P (z) 6 P (Z).
TT
14
Lexemple paramtrique de Heckman
8.1
La structure de base de lexemple
Considrons maintenant lexemple paramtrique qui est prsent dans la plupart des
travaux de Heckman et de ses collaborateurs. La structure du modle est base sur
la spcication prsente aux quations (1)-(6) . Les deux quations de rsultats et
lquation de participation sont donnes par des formes additivement sparables :
Y0
Y1
D
D
=
+ U0 ;
=
+ + U1 ;
= Z V;
= 1 [D > 0] ;
o, pour simplier la prsentation, nous navons pas de covaris x.

Les termes alatoires, sont construits partir dune hypothse de normalit. Soit :
"
N (0; 1) :
On construit alors les termes derreur des trois quations comme :

U0 =
U1 =
V =
o
j; j
= 0; 1 et
0 ";
1 ";
V ";
reprsentent les carts-types. Il suit que :

Uj
2
j ); j
N (0;
= 0; 1;
et :
V
N (0;
2
V ):
Finalement, on pose :
Z
N(
Z;
2
Z ):
Les valeurs numriques choisies sont les suivantes :4
0
Z
= 0:0500; 1 = 0:0120; V = 1:0000;

=
0:0026; 2Z = 0:2700;
= 0:6700; = 0:2000:
Une illustration numrique du Thorme de la fonction de transfert en action est

donne par les deux histogrammes qui suivent. Dans la Figure 1, nous reprsentons la
4
Notons en passant quil y a des erreurs concernant certaines de ces valeurs dans les papiers publis
de Heckman. En particulier, on ne peut pas spcier 0 = 0:0500; V = 1:0000;.comme il est fait
pour la Figure 1B, p. 683 de Heckman et Vytlacil (2005) : le faire rsulte dans un M T E (uD ) qui est
croissant en uD .
15
N(0, V)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
V
-3
-2
-1
Fig. 1 Histogramme pour V
N (0;
2
V ),
gnr avec 10000 observations et
= 1.
Unif [0,1]
1.0
0.8
0.6
0.4
0.2
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
uD = (V/ V )
Fig. 2 Le Thorme de la fonction de transfert en action : Histogramme pour uD =

( VV ) Unif[0; 1], gnr avec 10000 observations et V = 1.
16
densit de V , qui suit la forme habituelle dune normale. Pour cette reprsentation,
V = 1.
Comme V
N (0; 2V ), il suit que
V
N (0; 1):
Une application du Thorme de la fonction de transfert implique alors que :

uD =
Unif[0; 1];
o (:) reprsente la densit cumulative de la loi normale centre rduite. La densit de

uD est reprsente la Figure 2, o lon voit clairement quelle correspond une uniforme
sur lintervale [0; 1].
Les distributions des rsultats Y0 et Y1 gnres par cette spcication sont reprsentes graphiquement la Figure 3. La distribution de Y0 est centre sur la moyenne
= 0:67, tandis que la distribution de Y1 est centre sur sa moyenne + = 0:67+0:20 =
0:87. Laspect plus concentr de la distribution de Y1 , par rapport la distribution de
Y0 , est de la valeur de 1 = 0:012 qui est bien plus petite que 0 = 0:05.
de Y0 et
Y1
Frquence
30
Y1
25
20
15
10
Y0
0.50
0.55
0.60
0.65
0.70
0.75
0.80
0.85
0.90
3 :pdf
Fig. 3 Les distributions de Y0 et Y1 gnres avec 10 000 observations.
8.2
Leet marginal de traitement gnr par lexemple
Dans la Figure 4, nous reprsentons les valeurs de M T E (uD ) gnre par ce modle.
Pour les individus avec une valeur de uD proche de 0, et pour lesquels la probabilit
17
de participation au programme est donc leve, leet marginal du traitement est relativement lev. De mme, pour les invidus avec une valeur de uD relativement proche
de 1, et dont la probabilit de participation est donc faible, leet marginal de traitement est relativement faible. Remarquez que, par construction, leet traitement moyen
(ATE) spci dans lexemple = 0:2 correspond exactement 50% de lchantillon
(uD = 0:5).
MTE (uD )
0.35
0.30
0.25
0.20
0.15
0.10
0.0
0.1
0.2
Fig. 4
8.3
0.3
MT E
0.4
0.5
0.6
0.7
0.8
0.9
1.0
uD
(uD ) pour lexemple paramtrique de Heckman.
Les pondrations correspondants trois eets traitement
Dans la Figure 5, nous reprsentons les pondrations de M T E pour les trois eets
traitements ( AT E , T T et T U T ) qui sont issues de cet exemple paramtrique. Etant
donnes nos hypothses de normalit de dpart, la contrepartie empirique de la pondration thorique associe avec leet du traitement sur les trait ( T T ) est donne par :
1
1
N
1
(uD )
o lexpression
Z
la cumulative de Z :
uD 2[0;1]
1 (u
D)
Z
1 (u
D)
Z
i;
dcoule du fait que la fonction (:) "externe" doit correspondre
Pr (P (Z) > uD ) = Pr Z >
(uD ) = 1
(uD ) ;
o Z est la cumulative de Z N ( Z ; 2Z ).5 Or, comme celle-ci nest pas une normale
centre rduite, il faut normaliser en soustrayant la moyenne Z et en divisant par lcart5
Remarquez que 1 FP (Z)jX=x (uD jX = x ) = Pr (P (Z) > uD jX = x ) dans le numrateur de la

pondration de T T (x; D = 1).
18
Eet traitement
Spcication paramtrique
TT
(D = 1)
T UT
(D = 0)
1
N
1
N
(cart-type)
1
N
AT E
MT E
uD 2[0;1]
1 u
( D)
Z
uD 2[0;1]
1
N
uD 2[0;1]
1
N
uD 2[0;1]
Valeur estime
1 u
( D)
Z
0:2000
(0:0003)
MT E
1 (u
(uD )
D)
Z
(uD )
0:2293
(0:0003)
MT E
1 (u
uD 2[0;1]
D)
Z
(uD )
0:1707
(0:0003)
Tab. 1 Valeurs estimes des trois eets traitement, avec N = 10000. Exprience Montecarlo base sur 2000 rplications.
type Z .6 Le dnominateur de lexpression correspond tout simplement la moyenne du
numrateur pour lensemble des valeurs de uD 2 [0; 1].
8.4
Rsultats de Montecarlo pour les eets traitement
Dans le Tableau 1, nous prsentons les valeur estimes pour les trois eets traitement,
issues de 2000 rplications Montecarlo. La Figure 6 reprsente les eets traitement
estims par la procdure de Montecarlo et les compare avec lhtrognit de M T E (uD ).
Comme on limaginerait en regardant les pondrations prsentes la Figure 5 :
T UT
(D = 0) <
AT E
<
TT
(D = 1):
Pour le AT E , nous sommes pratiquement la valeur

chires aprs la virgule).
Si Z
1
= 0:2 spcie au dpart ( 5
N (0; 1), le numrateur de la pondration se simplierait en 1
(uD ) = 1
uD et la pondration serait une droite de pente
19
1.
(uD ) 0
1
= 1
Pondrations de MTE (uD )

hTU T (uD )
2.00
hTT (uD )
1.75
1.50
1.25
1.00
hATE (uD ) = 1
0.75
0.50
0.25
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Fig. 5 Pondrations appliques
0.7
MT E
0.8
0.9
1.0
an dobtenir
AT E
uD
TT
T UT
et
traitement
estimes
0.35
0.30
0.25
TT (D = 1)
ATE
0.20
TU T (D = 0)
0.15
MTE (u D )
0.10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
uD
6 :pdf
Fig. 6 Les trois eets traitement estims et comparaison avec lhtrognit du
20
MT E
Rfrences
Heckman, J. J., et E. J. Vytlacil (1999) : Local Instrumental Variables and Latent
Variable Models for Identifying and Bounding Treatment Eects, Proceedings of the
National Academy of Sciences, 96(8), 47304734.
(2005) : Structural Equations, Treatment Eects and Econometric Policy Evaluation,Econometrica, 73(3), 669738.
Imbens, G., et J. Angrist (1994) : Identication and Estimation of Local Average
Treatment Eects,Econometrica, 62(2), 467476.
Roussas, G. (1997) : A Course in Mathematical Statistics. Academic Press, New York,
NY, second edn.
21

ImpactEvaluation 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ImpactEvaluation 1

Uploaded by

Copyright:

Available Formats

Notes de cours :

Lapproche unie de Heckman en termes

La structure de base du modle

Le statut traitement est dni par une variable muette D :

La structure de base est ensuite donn par :

o les fonctions j ne sont pas ncessairement additivement sparables en X et Uj .

Un modle dindex (ou de variable latente) linaire de participation au programme :

On rsumera souvent ce genre de spcication sous la forme compacte dune fonction

Intuitivement, il nous faut une restriction dexclusion pour identier la slction

Les hypothses clefs

(Z) est une variable alatoire non-dgnre, conditionnellement sur X:

Remarque importante : Pas dhypothse dexognit sur X ; cest--dire que

Rcriture de la fonction dindex dnissant le statut de traitement

(Z) > UD () UD 2 [uD ;

Calculons la probabilit de recevoir le traitement, conditionnel sur Z, que lon appelle

Unif [0; 1] () fUD (uD ) = 1 () FUD (uD ) = uD :

Unif [0; 1] duD =

duD = [uD ]0 D (Z) =

Llment de base : Le MTE

Llment de base de lapproche de Heckman est "leet marginal de traitement"

(x; P (Z)) = E ( jX = x; UD = P (Z)) :

Average treatment e ect : ATE

E ect of treatment on the treated : TT

(z) = P (z) > UD () UD 2 [0;

Dnissons une version de

(z)] () UD 2 [0; P (z)] :

(x; D = 1) conditionnelle sur la valeur de P (Z) :

(x; P (z) ; D = 1) = E ( jX = x; P (Z) = P (z) ; D = 1) :

Comme D = 1 lorsque UD 6 P (z), il suit que :

(x; P (z) ; D = 1) = E ( jX = x; UD 6 P (z)) ;

Dnissons galement la distribution de P (Z) 2 [0; 1], conditionnelle sur X = x et D = 1 :

avec sa cumulative associe :

Notre "ancienne" dnition de T T (x; D = 1) sobtient alors en intgrant

Remplaons (20b) dans (23) :

E ( jX = x; UD = uD ) duD dFP (Z)jX=x;D=1

Notons alors, par la Rgle de Bayes, que :3

Notons galement que :

La Rgle de Bayes nous dit que fAjB (a jB = b ) =

Ici, on lapplique des distributions conditionnelles, et donc nous avons : fAjC;B (a jC = c; B = b ) =

Il suit que nous pouvons rcrire (24b) :

Dnissons la fonction indicatrice :

On peut alors crire :

1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD :

Aussi, remarquons que :

Posons t = P (Z), et crivons lexpression prcdente en termes dune intgrale :

Intgrons par parties en utilisant les mnmoniques habituels :

En substituant (30) et (34e) dans (28b), on obtient alors :

=Pr(D=1jX=x ) par (34e)

1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD dFP (Z)jX=x

E( jX=x;UD =uD )duD par (30)

grales sont donc propres) :

Remarquons maintenant que :

1 (uD 6 P (z)) dFP (Z)jX=x

1 (uD 6 P (z)) dFP (Z)jX=x :

Mais 1 (uD 6 P (z)) = 0 pour P (z) 2 [0; uD ] et donc :

1 (uD 6 P (z)) dFP (Z)jX=x duD :

tandis que 1 (uD 6 P (z)) = 1 pour P (z) 2 [uD ; 1] et :

FP (Z)jX=x (uD jX = x(39b)

En combinant ces deux expressions, on obtient donc :

En remplaant dans (36c), on obtient alors :

1 (uD 6 P (z)) dFP (Z)jX=x duD

FP (Z)jX=x (uD jX = x ) duD

1(uD 6P (z))dFP (Z)jX=x par (40b)