Professional Documents
Culture Documents
Un modle gnral
La structure du modle est trs bien rsume dans Heckman et Vytlacil (2005) ; voir
Heckman et Vytlacil (1999) pour les dmonstrations. Dans ces notes de cours, jai essay
dexpliciter certains passages algbriques qui sont faits relativement rapidement dans
Heckman et Vytlacil (1999).
1.1
1.1.1
Les majuscules (W ) dnoteront les variables alatoires, tandis que les minuscules (w)
dnoteront une ralisation de la variable alatoire. Exemple : w est une valeur possible
qui peut tre prise par la variable alatoire W . La densit dune variable alatoire W sera
dnote par fW (w), la cumulative correspondante par FW (w). La densit de la variable
alatoire W , conditionnelle sur la ralisation A = a dune autre variable alatoire A, sera
dnote par fW jA (w jA = a) = fW jA (w).
1.1.2
La structure du modle
1 si trait
0 autrement
(1)
(X; U0 ) ;
1 (X; U1 ) ;
0
(2a)
(2b)
D) Y0 :
(3)
UD :
(4)
1 si D > 0
0 autrement
(5)
(Z)
Remarques
1.2
Lidentication des eets traitement standards se base sur une srie dhypothses
clefs. Celles-ci sont nettement moins contraignantes que celles sous-jacentes lestimation
structurelle la Cowles.
1.
2.
3.
4.
5.
6.
Supposons que la variable alatoire UD est distribue sur lintervalle [uD ; uD ]. Soit
fUD jX (uD ) la Rdensit de UD conditionnelle sur X. Sa densit cumulative associe est
FUD jX (uD ) = fUD jX (uD ) duD . Rappellons que FUD jX (uD ) = 0; FUD jX (uD ) = 1.
Le modle dindex linaire dnissant le statut de traitement tant donn par D =
UD , lindividu reoit le traitement lorsque
D (Z)
D
(Z)] :
(7)
= FUD jX (
(Z))
= FUD jX (
D (Z)) :
FU jX (u );
| D {z D}
(8b)
=0
(8c)
Nous allons maintenant imposer une normalisation sur la cumulative FUD jX qui facilitera les calculs, en nous basant sur un rsultat lmentaire issu des statistiques mathmatiques.1
Theoreme de la fonction de transfert (Probability Integral Transform) :2
Soit X une variable alatoire distribue selon la cumulative FX continue sur R, avec
inverse FX 1 dnie par :
FX 1 (u) = inf fx : FX (x) = u; 0 < u < 1g :
(i) Si la variable alatoire U est distribue selon la loi uniforme sur [0; 1] (U Unif[0; 1]),
alors la variable alatoire X = FX 1 (U ) est distribue selon la cumulative FX . (ii) Si
la variable alatoire X est distribue selon la cumulative FX , alors la variable alatoire
FX (X) est distribue Unif[0; 1].
Dmonstration : (i) 8x 2 R, Pr(FX 1 (U ) 6 x) = Pr(inf fy : FX (y) = ug 6 x) =
Pr(U 6 FX (x)) = FX (x) ; (ii) 8 0 < u < 1, Pr(FX (X) 6 u) = Pr(X 6 FX 1 (u)) =
FX FX 1 (u) = u. [QED]
En appliquant la partie (ii) du Thorme, nous savons donc que si la variable alatoire
eD = FU jX (UD ) Unif[0; 1]. Comme nous
UD FUD jX (uD ), alors la variable alatoire U
D
navons aucune ide concernant la forme prise par la distribution FUD jX , nous pouvons,
sans perte de gnralit, imposer la normalisation :
UD
(9)
Le Thorme qui suit est un cas particulier du Thorme de la densit de la transformation dune
variable alatoire, que vous pourrez trouver la Recette 13 de mon Livre de cuisine, disponible en version
PDF sur ma page web pour le cours de micro Mag1.
2
Voir un bon livre de Statistiques mathmatiques comme, par exemple, Roussas (1997), pp. 242-4.
Je remercie Alain Trognon pour la suggestion concernant la traduction en Franais.
Toute autre distribution de UD peut ensuite tre construite grace la partie (i) du
Thorme. Il suit que :
P (Z) =
D (Z)
D (Z)
(Z) :
(10)
(11)
Y0 :
MT E
(x; uD )
(x; uD ) = E ( jX = x; UD = uD ) :
(12)
(13)
Un concept trs proche, qui sera galement utile par la suite, est celui du LIV (local
instrumental variable LIV) qui, nous le verrons plus tard, correspond au M T E (x; uD ),
valu UD = P (Z) :
LIV
Remarquez que, lorsque UD = P (Z), lindividu est juste indirent entre choisir et ne
pas choisir le traitement, car, dans ce cas :
D (UD = P (Z)) =
(Z)
P (Z) = P (Z)
P (Z) = 0:
(14)
Nous dnirons leet moyen du traitement (sur une personne tire au hasard dans la
population) par :
AT E
(x) = E ( jX = x ) :
(15)
On doit donc liminer la variable alatoire UD (qui est inobservable) en intgrant
lesprance conditionnelle E ( jX = x; UD = uD ), par rapport uD , sur lensemble de
son support [0; 1] :
Z 1
AT E
(16a)
(x) =
E ( jX = x; UD = uD )fUD (uD )duD
{z
}| {z }
0 |
=
M T E (x;u
D)
=1 par (9)
MT E
(16b)
(x; uD ) duD :
(x; D = 1) = E ( jX = x; D = 1) :
4
TT
(x; D = 1) :
(17)
La dirence avec le ATE est que nous conditionnons sur le fait que D = 1. On doit
donc liminer la variable alatoire inobservable UD en intgrant lesprance conditionnelle
E ( jX = x; UD = uD ), par rapport uD , sur la partie de son support qui correspond
aux personnes qui choisissent le traitement. Cet intervale est donn par :
D
(18)
(19)
(20a)
(20b)
P (Z)
(21)
(22)
TT
(x; P (z) ; D = 1)
(23)
1
P (z)
"Z
T T (x;P (z);D=1)
par (20b)
P (z)
Pr (D = 1 jX = x; P (Z) = P (z))
dFP (Z)jX=x :
Pr (D = 1 jX = x )
(25)
fBjA (bjA=a )
fA (a)
fB (b)
(26)
=
f
(bjA=a )fA (a)
R +1 BjA
:
f
(bjA=a )fA (a)da
1 BjA
(a jC = c ):
do :
dFP (Z)jX=x;D=1 =
P (z)
dFP (Z)jX=x :
Pr (D = 1 jX = x )
(27)
(28a)
P (z)
dFP (Z)jX=x ;
Pr (D = 1 jX = x )
|
{z
}
dFP (Z)jX=x;D=1 par (27)
1
(28b)
Pr (D = 1 jX = x )
#
Z 1 "Z P (z)
E ( jX = x; UD = uD ) duD dFP (Z)jX=x :
0
1 (uD 6 P (z)) =
(29)
P (z)
E ( jX = x; UD = uD ) duD =
(31)
(32a)
(32b)
(32c)
(33a)
(33b)
On obtient :
Z 1
Z
tfP (Z)jX=x (t jX = x ) dt =
0
fP (Z)jX=x (t jX = x ) dt
|
{z
}
t
|{z}
(34a)
v0
= [|{z}
t
FP (Z)jX=x (t jX = x )]10
|
{z
}
u
v
Z 1
1
FP (Z)jX=x (t jX = x )dt
|{z}
{z
}
|
0
0
u
= 1
Z
= 1
Z
=
=1
FP (Z)jX=x (t jX = x ) dt;
FP (Z)jX=x (1 jX = x )
|
{z
}
(34b)
FP (Z)jX=x (0 jX =(34c)
x)
|
{z
}
=0
FP (Z)jX=x (t jX = x ) dt;
FP (Z)jX=x (t jX = x ) dt:
(34d)
(34e)
(x; D = 1) =
1
Pr (D = 1 jX = x )
#
Z 1 "Z P (z)
E ( jX = x; UD = uD ) duD dFP (Z)jX=x ;
0
= Z
|
(35b)
(35a)
FP (Z)jX=x (t jX = x ) dt
{z
}
R P (z)
0
Inversons maintenant lordre dintgration (vous pourrez vrier que les conditions du
Thorme de Fubini sappliquent ici savoir, les expressions sont bornes et les int-
(x; D = 1) = R 1
0
1
1
= R1
0
1
1
= R1
(36a)
FP (Z)jX=x (t jX = x ) dt
Z 1
1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD dFP (Z)jX=x ;
(36b)
FP (Z)jX=x (t jX = x ) dt
Z 1
1 (uD 6 P (z)) E ( jX = x; UD = uD ) dFP (Z)jX=x duD ;
0
FP (Z)jX=x (t jX = x ) dt
0
Z
Z 1
E ( jX = x; UD = uD )
(36c)
uD
uD
(37)
dFP (Z)jX=x = 0;
(38)
(39a)
uD
= FP (Z)jX=x (1 jX = x )
|
{z
}
=1
= 1
FP (Z)jX=x (uD jX = x ) :
(39c)
(40a)
=0 par (38)
Z 1
+
1 (uD 6 P (z)) dFP (Z)jX=x
uD
|
{z
}
=1 FP (Z)jX=x (uD jX=x ) par (39c)
= 1
FP (Z)jX=x (uD jX = x )
(40b)
(x; D = 1) = R 1
FP (Z)jX=x (t jX = x ) dt
0
Z 1
Z
E ( jX = x; UD = uD )
0
= R1
0
=
Posons :
1
1
(41b)
FP (Z)jX=x (t jX = x ) dt
E ( jX = x; UD = uD ) 1
|
"
R1
E ( jX = x; UD = uD ) R 1
hT T (x; uD ) = R 1
Comme E ( jX = x; UD = uD ) =
TT
(41a)
(x; D = 1) =
MT E
1
1
FP (Z)jX=x (uD jX = x )
FP (Z)jX=x (t jX = x ) dt
FP (Z)jX=x (uD jX = x )
:
FP (Z)jX=x (t jX = x ) dt
(41c)
duD
(42)
1
MT E
(43)
Le LATE, introduit initiallement dans la littrature par Imbens et Angrist (1994), est
dni par :
E (Y jX = x; P (Z) = P (z 0 ) )
:
P (z 0 )
(44)
Le LIV, lui, correspond la limite de lexpression pour le LATE, lorsque z ! z 0 :
LAT E
LIV
(x; P (z) ; P (z 0 )) =
(x; P (z)) =
E (Y jX = x; P (Z) = P (z))
P (z)
@E (Y jX = x; P (Z) = P (z))
= lim0
z!z
@P (z)
LAT E
(x; P (z) ; P (z 0 )) :
(45)
LIV
(x; P (z)),
+ [1
Mais :
1
E (Y1 jX = x; UD 6 P (z) ) =
P (z)
P (z)
E (Y1 jX = x; UD = uD ) duD ;
(47)
et
E (Y0 jX = x; UD > P (z) ) =
1
P (z)
P (z)
E (Y0 jX = x; UD = uD ) duD :
(48)
Il suit que :
E (Y jX = x; P (Z) = P (z) ) = P (z)E (Y1 jX = x; UD 6 P (z))
(49a)
+ [1 P (z)] E (Y0 jX = x; UD 6 P (z)) ;
Z P (z)
E (Y1 jX = x; UD = uD ) duD
(49b)
=
0
Z 1
E (Y0 jX = x; UD = uD ) duD :
+
P (z)
E (Y jX = x; P (Z) = P (z )) =
P (z 0 )
E (Y1 jX = x; UD = uD ) duD
P (z 0 )
E (Y0 jX = x; UD = uD ) duD :
(50)
P (z)
P (z 0 )
E (Y1 jX = x; UD = uD ) duD
P (z 0 )
E (Y0 jX = x; UD = uD ) duD :
P (z)
E (Y1 jX = x; UD = uD ) duD =
+
Z
P (z 0 )
E (Y0 jX = x; UD = uD ) duD =
P (z 0 )
E (Y1 jX = x; UD = uD ) duD
P (z)
P (z 0 )
P (z)
P (z 0 )
Z 1
E (Y1 jX = x; UD = uD ) duD ;
E (Y0 jX = x; UD = uD ) duD
P (z)
10
(51a)
E (Y0 jX = x; UD = uD ) duD :
(51b)
zZ
P (z 0 )
}| Z
E (Y1 jX = x; UD = uD ) duD +
P (z)
P (z)
E (Y1 jX = x; UD = uD ) duD
P (z 0 )
(52)
E (Y0 jX = x; UD = uD ) duD
P (z 0 )
E (Y1 jX = x; UD = uD ) duD
R P (z)
E (Y jX = x; P (Z) = P (z 0 ))
P (z)
P (z 0 )
E (Y0 jX = x; UD = uD ) duD +
=
P (z)
{z
R1
E (Y0 jX = x; UD = uD ) duD :
+
E (Y0 jX = x; UD = uD ) duD
P (z)
|
{z
(53a)
P (z)
=0
E (Y0 jX = x; UD = uD ) duD
}
Z P (z0 )
Z P (z0 )
+
E (Y1 jX = x; UD = uD ) duD
E (Y1 jX = x; UD = uD ) duD
0
0
|
{z
}
=
=
=
=0
P (z)
P (z 0 )
P (z)
P (z 0 )
Z P (z)
P (z 0 )
Z P (z)
P (z 0 )
E (Y0 jX = x; UD = uD ) duD ;
E (Y1 jX = x; UD = uD ) duD
E (Y1
P (z)
P (z 0 )
Y0 jX = x; UD = uD ) duD ;
(53c)
E ( jX = x; UD = uD ) duD :
(53d)
1
P (z)
P (z 0 )
P (z)
P (z 0 )
E ( jX = x; UD = uD ) duD ;
(54)
il suit que :
E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ))
Z P (z)
=
E ( jX = x; UD = uD ) duD ;
P (z 0 )
= [P (z)
P (z 0 )] E ( jX = x; P (z 0 ) 6 UD 6 P (z)) ;
11
(55a)
(55b)
et donc que :
E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ))
= [P (z) P (z 0 )] E ( jX = x; P (z 0 ) 6 UD 6 P (z)) :
(56)
En consquence :
LAT E
(x; P (z) ; P (z 0 )) =
En prenant la limite de lquation (57b), on obtient le LIV, qui est donc la mme chose
que le MTE, mais valu uD = P (z) :
LIV
LAT E
z!z
(x; P (z) ; P (z 0 )) ;
(58a)
= lim0 E ( jX = x; P (z 0 ) 6 UD 6 P (z)) ;
(58b)
= E ( jX = x; UD = P (z)) ;
MT E
=
(x; P (z)) :
(58c)
(58d)
z!z
@P (z)
E (Y1 jX = x; UD = P (z))
@P (z)
| {z }
=1
P (z)
@0
E (Y1 jX = x; UD = 0)
@P (z)
| {z }
(60)
=0
@
E (Y1 jX = x; UD = uD ) duD
@P (z)
|
{z
}
=0
@P (z)
@1
+
E (Y0 jX = x; UD = 1)
E (Y0 jX = x; UD = P (z))
@P (z)
@P (z)
| {z }
| {z }
=0
=1
Z 1
@
E (Y0 jX = x; UD = uD ) duD ;
P (z) @P (z)
|
{z
}
=0
(61a)
(61b)
Notons que lquation (54) en combinaison avec (57b) nous donne une expression pour le
LATE comme une esprance conditionnelle du MTE :
Z P (z)
1
LAT E
0
(x; P (z) ; P (z )) =
E ( jX = x; UD = uD ) duD ;(62a)
P (z) P (z 0 ) P (z0 )
Z P (z)
1
MT E
=
(x; uD ) duD :
(62b)
P (z) P (z 0 ) P (z0 )
Nous pouvons maintenant regrouper nos trois principaux rsultats concernant le lien
entre les eets traitements les plus communment utiliss ATE, TT et LATE et le
MTE. Nous rsultats proviennent des quations (58d), (16b), (20b), (43) et (62b) :
LIV
(x; P (z)) =
AT E
(x) =
MT E
(63)
(x; P (z)) ;
1
MT E
(64)
(x; uD ) duD ;
Z P (z)
1
MT E
(x; P (z) ; D = 1) =
(x; uD ) duD ;
(65)
P (z) 0
"
#
Z 1
1 FP (Z)jX=x (uD jX = x )
TT
MT E
(x; D = 1) =
(x; uD ) R 1
du
(66)
D
1 FP (Z)jX=x (t jX = x ) dt
0
0
"
#
Z 1
Pr (P (Z) > uD jX = x )
MT E
=
(x; uD ) R 1
du(67)
D;
Pr (P (Z) > uD jX = x ) duD
0
0
Z P (z)
1
LAT E
0
MT E
(x; P (z) ; P (z )) =
(x; uD ) duD :
(68)
P (z) P (z 0 ) P (z0 )
TT
LIV
MT E
(x; uD ) =
MT E
AT E
TT
LAT E
(69)
Intuitivement :
(x; P (z)) value M T E (x; uD ) UD = P (z) et reprsente leet moyen de
traitement pour les individus qui sont indirents entre participer et ne pas participer au programme, pour une valeur donne de linstrument P (z). Pour les individus
pour lesquels P (z) est proche de 0, LIV (x; P (z)) reprsente leet moyen de traitement pour quelquun dont les caractristiques inobservables UD sont telles quil
est trs probable quil choisira de participer au programme. Le contraire est vrai
pour les individus pour lesquels P (z) est proche de 1.
AT E (x) intgre M T E (x; uD ) sur la totalit du support [0; 1] de UD , et correspond donc leet moyen de traitement pour une personne tire au hasard dans la
population.
T T (x; P (z) ; D = 1) intgre M T E (x; uD ) sur le sous-ensemble [0; P (z)] du support de UD , et est dtermin par leet moyen de traitement pour les individus dont
les caractristiques inobservables sont telles quil est probable quils participent au
programme.
LIV
13
(x; D = 1) intgre M T E (x; uD ) sur lensemble du support [0; 1], avec un pondration qui est dcroissante en uD , et qui met donc plus de poids sur les individus
qui ont une plus forte probabilit de participer au programme (cet eet est galement une moyenne pondre de leet prcdent, o lon intgre par rapport la
probabilit de participation P (z)).
LAT E (x; P (z) ; P (z 0 )) intgre M T E (x; uD ) de P (z 0 ) P (z), et reprsente leet
moyen de traitement pour quelquun qui ne participerait pas au programme pour
P (Z) 6 P (z 0 ), mais qui participerait pour P (z) 6 P (Z).
TT
14
8.1
Considrons maintenant lexemple paramtrique qui est prsent dans la plupart des
travaux de Heckman et de ses collaborateurs. La structure du modle est base sur
la spcication prsente aux quations (1)-(6) . Les deux quations de rsultats et
lquation de participation sont donnes par des formes additivement sparables :
Y0
Y1
D
D
=
+ U0 ;
=
+ + U1 ;
= Z V;
= 1 [D > 0] ;
N (0; 1) :
j; j
= 0; 1 et
0 ";
1 ";
V ";
2
j ); j
N (0;
= 0; 1;
et :
V
N (0;
2
V ):
Finalement, on pose :
Z
N(
Z;
2
Z ):
0
Z
Notons en passant quil y a des erreurs concernant certaines de ces valeurs dans les papiers publis
de Heckman. En particulier, on ne peut pas spcier 0 = 0:0500; V = 1:0000;.comme il est fait
pour la Figure 1B, p. 683 de Heckman et Vytlacil (2005) : le faire rsulte dans un M T E (uD ) qui est
croissant en uD .
15
N(0, V)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
V
-3
-2
-1
N (0;
2
V ),
= 1.
Unif [0,1]
1.0
0.8
0.6
0.4
0.2
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
uD = (V/ V )
16
densit de V , qui suit la forme habituelle dune normale. Pour cette reprsentation,
V = 1.
Comme V
N (0; 2V ), il suit que
V
N (0; 1):
Unif[0; 1];
Y1
25
20
15
10
Y0
0.50
0.55
0.60
0.65
0.70
0.75
0.80
0.85
0.90
3 :pdf
8.2
Dans la Figure 4, nous reprsentons les valeurs de M T E (uD ) gnre par ce modle.
Pour les individus avec une valeur de uD proche de 0, et pour lesquels la probabilit
17
de participation au programme est donc leve, leet marginal du traitement est relativement lev. De mme, pour les invidus avec une valeur de uD relativement proche
de 1, et dont la probabilit de participation est donc faible, leet marginal de traitement est relativement faible. Remarquez que, par construction, leet traitement moyen
(ATE) spci dans lexemple = 0:2 correspond exactement 50% de lchantillon
(uD = 0:5).
MTE (uD )
0.35
0.30
0.25
0.20
0.15
0.10
0.0
0.1
0.2
Fig. 4
8.3
0.3
MT E
0.4
0.5
0.6
0.7
0.8
0.9
1.0
uD
Dans la Figure 5, nous reprsentons les pondrations de M T E pour les trois eets
traitements ( AT E , T T et T U T ) qui sont issues de cet exemple paramtrique. Etant
donnes nos hypothses de normalit de dpart, la contrepartie empirique de la pondration thorique associe avec leet du traitement sur les trait ( T T ) est donne par :
1
1
N
1
(uD )
o lexpression
Z
la cumulative de Z :
uD 2[0;1]
1 (u
D)
Z
1 (u
D)
Z
i;
(uD ) = 1
(uD ) ;
o Z est la cumulative de Z N ( Z ; 2Z ).5 Or, comme celle-ci nest pas une normale
centre rduite, il faut normaliser en soustrayant la moyenne Z et en divisant par lcart5
18
Eet traitement
Spcication paramtrique
TT
(D = 1)
T UT
(D = 0)
1
N
1
N
(cart-type)
1
N
AT E
MT E
uD 2[0;1]
1 u
( D)
Z
uD 2[0;1]
1
N
uD 2[0;1]
1
N
uD 2[0;1]
Valeur estime
1 u
( D)
Z
0:2000
(0:0003)
MT E
1 (u
(uD )
D)
Z
(uD )
0:2293
(0:0003)
MT E
1 (u
uD 2[0;1]
D)
Z
(uD )
0:1707
(0:0003)
Tab. 1 Valeurs estimes des trois eets traitement, avec N = 10000. Exprience Montecarlo base sur 2000 rplications.
type Z .6 Le dnominateur de lexpression correspond tout simplement la moyenne du
numrateur pour lensemble des valeurs de uD 2 [0; 1].
8.4
Dans le Tableau 1, nous prsentons les valeur estimes pour les trois eets traitement,
issues de 2000 rplications Montecarlo. La Figure 6 reprsente les eets traitement
estims par la procdure de Montecarlo et les compare avec lhtrognit de M T E (uD ).
Comme on limaginerait en regardant les pondrations prsentes la Figure 5 :
T UT
(D = 0) <
AT E
<
TT
(D = 1):
Si Z
1
(uD ) = 1
19
1.
(uD ) 0
1
= 1
2.00
hTT (uD )
1.75
1.50
1.25
1.00
hATE (uD ) = 1
0.75
0.50
0.25
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
MT E
0.8
0.9
1.0
an dobtenir
AT E
uD
TT
T UT
et
traitement
estimes
0.35
0.30
0.25
TT (D = 1)
ATE
0.20
TU T (D = 0)
0.15
MTE (u D )
0.10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
uD
6 :pdf
20
MT E
Rfrences
Heckman, J. J., et E. J. Vytlacil (1999) : Local Instrumental Variables and Latent
Variable Models for Identifying and Bounding Treatment Eects, Proceedings of the
National Academy of Sciences, 96(8), 47304734.
(2005) : Structural Equations, Treatment Eects and Econometric Policy Evaluation,Econometrica, 73(3), 669738.
Imbens, G., et J. Angrist (1994) : Identication and Estimation of Local Average
Treatment Eects,Econometrica, 62(2), 467476.
Roussas, G. (1997) : A Course in Mathematical Statistics. Academic Press, New York,
NY, second edn.
21