You are on page 1of 21

Notes de cours :

Lapproche unie de Heckman en termes


du Marginal Treatment Eect (MTE)
Jean-Louis Arcand
The Graduate Institute j Geneva
20 septembre 2011

Un modle gnral

La structure du modle est trs bien rsume dans Heckman et Vytlacil (2005) ; voir
Heckman et Vytlacil (1999) pour les dmonstrations. Dans ces notes de cours, jai essay
dexpliciter certains passages algbriques qui sont faits relativement rapidement dans
Heckman et Vytlacil (1999).

1.1
1.1.1

La structure de base du modle


Notation

Les majuscules (W ) dnoteront les variables alatoires, tandis que les minuscules (w)
dnoteront une ralisation de la variable alatoire. Exemple : w est une valeur possible
qui peut tre prise par la variable alatoire W . La densit dune variable alatoire W sera
dnote par fW (w), la cumulative correspondante par FW (w). La densit de la variable
alatoire W , conditionnelle sur la ralisation A = a dune autre variable alatoire A, sera
dnote par fW jA (w jA = a) = fW jA (w).
1.1.2

La structure du modle

Le statut traitement est dni par une variable muette D :


D=

1 si trait
0 autrement

(1)

La structure de base est ensuite donn par :


Un modle pour le rsultat Yj ; j = 0; 1 comme fonction de facteurs observables X
et de facteurs inobservables Uj :
Y0 =
Y1 =

(X; U0 ) ;
1 (X; U1 ) ;
0

(2a)
(2b)

o les fonctions j ne sont pas ncessairement additivement sparables en X et Uj .


On peut rcrire le modle de faon plus succincte comme :
Y = DY1 + (1

D) Y0 :

(3)

Un modle dindex (ou de variable latente) linaire de participation au programme :


D =
D=

UD :

(4)

1 si D > 0
0 autrement

(5)

(Z)

On rsumera souvent ce genre de spcication sous la forme compacte dune fonction


indicatrice 1 [:] :
D = 1 [D > 0] :
(6)
1.1.3

Remarques

Intuitivement, il nous faut une restriction dexclusion pour identier la slction


dans le traitement :
X Z:
UD peut tre trs bien tre une fonction de (U0 ; U1 ) : cest le cas, par exemple, dans
le modle de Roy que nous verrons plus tard:

1.2

Les hypothses clefs

Lidentication des eets traitement standards se base sur une srie dhypothses
clefs. Celles-ci sont nettement moins contraignantes que celles sous-jacentes lestimation
structurelle la Cowles.
1.
2.

3.

4.
5.
6.

(Z) est une variable alatoire non-dgnre, conditionnellement sur X:


=)Hypothse variable instrumentale : instruments "forts".
Les vecteurs alatoires (U1 ; UD ) et (U0 ; UD ) sont indpendants de Z, conditionnellement sur X.
=)Hypothse variable instrumentale : existence dune restriction dexclusion valide.
La distribution fUD (uD ) de UD est continue.
=)Condition technique an de pouvoir tout faire en termes dintgrales "simples",
sans "trous".
E[Y0 ] et E[Y1 ] sont borns.
=)Condition technique qui garantit que les eets traitements seront dnis.
0 < Pr(D = 1 jX = x ) < 1:
=)Existence dans la population dun groupe trait et dun groupe de contrle.
XD=1 = XD=0 :
=)Absence de "feedback" de D vers X (pas de "Hawthorne eects").
D

Remarque importante : Pas dhypothse dexognit sur X ; cest--dire que


(U0 ; U1 ; UD ) peut tre corrl avec X. Ceci est une dirence clef de lapproche des eets
traitement par rapport lconomtrie "classique" la Cowles o, pour estimer un modle
structurel, on aura gnralement besoin de supposer que (U0 ; U1 ; UD ) est indpendant de
(X; Z).
2

Rcriture de la fonction dindex dnissant le statut de traitement

Supposons que la variable alatoire UD est distribue sur lintervalle [uD ; uD ]. Soit
fUD jX (uD ) la Rdensit de UD conditionnelle sur X. Sa densit cumulative associe est
FUD jX (uD ) = fUD jX (uD ) duD . Rappellons que FUD jX (uD ) = 0; FUD jX (uD ) = 1.
Le modle dindex linaire dnissant le statut de traitement tant donn par D =
UD , lindividu reoit le traitement lorsque
D (Z)
D

(Z) > UD () UD 2 [uD ;

(Z)] :

(7)

Calculons la probabilit de recevoir le traitement, conditionnel sur Z, que lon appelle


souvent le "score de propention" :
Z D (Z)
fUD jX (uD ) duD ;
(8a)
P (Z) =
UD

= FUD jX (

(Z))

= FUD jX (

D (Z)) :

FU jX (u );
| D {z D}

(8b)

=0

(8c)

Nous allons maintenant imposer une normalisation sur la cumulative FUD jX qui facilitera les calculs, en nous basant sur un rsultat lmentaire issu des statistiques mathmatiques.1
Theoreme de la fonction de transfert (Probability Integral Transform) :2
Soit X une variable alatoire distribue selon la cumulative FX continue sur R, avec
inverse FX 1 dnie par :
FX 1 (u) = inf fx : FX (x) = u; 0 < u < 1g :
(i) Si la variable alatoire U est distribue selon la loi uniforme sur [0; 1] (U Unif[0; 1]),
alors la variable alatoire X = FX 1 (U ) est distribue selon la cumulative FX . (ii) Si
la variable alatoire X est distribue selon la cumulative FX , alors la variable alatoire
FX (X) est distribue Unif[0; 1].
Dmonstration : (i) 8x 2 R, Pr(FX 1 (U ) 6 x) = Pr(inf fy : FX (y) = ug 6 x) =
Pr(U 6 FX (x)) = FX (x) ; (ii) 8 0 < u < 1, Pr(FX (X) 6 u) = Pr(X 6 FX 1 (u)) =
FX FX 1 (u) = u. [QED]
En appliquant la partie (ii) du Thorme, nous savons donc que si la variable alatoire
eD = FU jX (UD ) Unif[0; 1]. Comme nous
UD FUD jX (uD ), alors la variable alatoire U
D
navons aucune ide concernant la forme prise par la distribution FUD jX , nous pouvons,
sans perte de gnralit, imposer la normalisation :
UD

Unif [0; 1] () fUD (uD ) = 1 () FUD (uD ) = uD :

(9)

Le Thorme qui suit est un cas particulier du Thorme de la densit de la transformation dune
variable alatoire, que vous pourrez trouver la Recette 13 de mon Livre de cuisine, disponible en version
PDF sur ma page web pour le cours de micro Mag1.
2
Voir un bon livre de Statistiques mathmatiques comme, par exemple, Roussas (1997), pp. 242-4.
Je remercie Alain Trognon pour la suggestion concernant la traduction en Franais.

Toute autre distribution de UD peut ensuite tre construite grace la partie (i) du
Thorme. Il suit que :
P (Z) =

D (Z)

Unif [0; 1] duD =

D (Z)

duD = [uD ]0 D (Z) =

(Z) :

(10)

Llment de base : Le MTE


Leet du traitement sur un individu est donn par :
= Y1

(11)

Y0 :

Llment de base de lapproche de Heckman est "leet marginal de traitement"


(marginal treatment eect MTE), dni par une esprance conditionnelle :
MT E

MT E

(x; uD )

(x; uD ) = E ( jX = x; UD = uD ) :

(12)

(x; P (Z)) = E ( jX = x; UD = P (Z)) :

(13)

Un concept trs proche, qui sera galement utile par la suite, est celui du LIV (local
instrumental variable LIV) qui, nous le verrons plus tard, correspond au M T E (x; uD ),
valu UD = P (Z) :
LIV

Remarquez que, lorsque UD = P (Z), lindividu est juste indirent entre choisir et ne
pas choisir le traitement, car, dans ce cas :
D (UD = P (Z)) =

(Z)

P (Z) = P (Z)

P (Z) = 0:

(14)

Average treatment e ect : ATE

Nous dnirons leet moyen du traitement (sur une personne tire au hasard dans la
population) par :
AT E
(x) = E ( jX = x ) :
(15)
On doit donc liminer la variable alatoire UD (qui est inobservable) en intgrant
lesprance conditionnelle E ( jX = x; UD = uD ), par rapport uD , sur lensemble de
son support [0; 1] :
Z 1
AT E
(16a)
(x) =
E ( jX = x; UD = uD )fUD (uD )duD
{z
}| {z }
0 |
=

M T E (x;u

D)

=1 par (9)

MT E

(16b)

(x; uD ) duD :

E ect of treatment on the treated : TT


Nous dnoterons "leet du traitement sur les traits" par
TT

(x; D = 1) = E ( jX = x; D = 1) :
4

TT

(x; D = 1) :
(17)

La dirence avec le ATE est que nous conditionnons sur le fait que D = 1. On doit
donc liminer la variable alatoire inobservable UD en intgrant lesprance conditionnelle
E ( jX = x; UD = uD ), par rapport uD , sur la partie de son support qui correspond
aux personnes qui choisissent le traitement. Cet intervale est donn par :
D

(z) = P (z) > UD () UD 2 [0;


TT

Dnissons une version de


TT

(z)] () UD 2 [0; P (z)] :

(18)

(x; D = 1) conditionnelle sur la valeur de P (Z) :

(x; P (z) ; D = 1) = E ( jX = x; P (Z) = P (z) ; D = 1) :

(19)

Comme D = 1 lorsque UD 6 P (z), il suit que :


TT

(x; P (z) ; D = 1) = E ( jX = x; UD 6 P (z)) ;


Z P (z)
1
=
E ( jX = x; UD = uD ) duD :
P (z) 0

(20a)
(20b)

Dnissons galement la distribution de P (Z) 2 [0; 1], conditionnelle sur X = x et D = 1 :


fP (Z)jX=x;D=1 (P (Z) jX = x; D = 1) ;

P (Z)

(21)

avec sa cumulative associe :


FP (Z)jX=x;D=1 (P (Z) jX = x; D = 1) :

(22)

Notre "ancienne" dnition de T T (x; D = 1) sobtient alors en intgrant


par rapport P (z), sur lensemble du support [0; 1] de P (z) :
Z 1
TT
TT
(x; D = 1) =
(x; P (z) ; D = 1) dFP (Z)jX=x;D=1 :

TT

(x; P (z) ; D = 1)

(23)

Remplaons (20b) dans (23) :


#
Z P (z)
Z 1"
1
TT
E ( jX = x; UD = uD ) duD dFP (Z)jX=x;D=1
(24a)
;
(x; D = 1) =
P (z) 0
0
|
{z
}
=

1
P (z)

"Z

T T (x;P (z);D=1)

par (20b)

P (z)

E ( jX = x; UD = uD ) duD dFP (Z)jX=x;D=1


(24b)
:

Notons alors, par la Rgle de Bayes, que :3


dFP (Z)jX=x;D=1 =

Pr (D = 1 jX = x; P (Z) = P (z))
dFP (Z)jX=x :
Pr (D = 1 jX = x )

(25)

Notons galement que :


Pr (D = 1 jX = x; P (Z) = P (z)) = P (z);
3

La Rgle de Bayes nous dit que fAjB (a jB = b ) =

fBjA (bjA=a )
fA (a)
fB (b)

(26)
=

f
(bjA=a )fA (a)
R +1 BjA
:
f
(bjA=a )fA (a)da
1 BjA

Ici, on lapplique des distributions conditionnelles, et donc nous avons : fAjC;B (a jC = c; B = b ) =


fBjC;A (bjC=c;A=a )
fAjC
fBjC (bjC=c )

(a jC = c ):

do :
dFP (Z)jX=x;D=1 =

P (z)
dFP (Z)jX=x :
Pr (D = 1 jX = x )

Il suit que nous pouvons rcrire (24b) :


"Z
#
Z 1
P (z)
1
TT
(x; D = 1) =
E ( jX = x; UD = uD ) duD
0 P (z)
0

(27)

(28a)

P (z)
dFP (Z)jX=x ;
Pr (D = 1 jX = x )
|
{z
}
dFP (Z)jX=x;D=1 par (27)

1
(28b)
Pr (D = 1 jX = x )
#
Z 1 "Z P (z)
E ( jX = x; UD = uD ) duD dFP (Z)jX=x :
0

Dnissons la fonction indicatrice :


1 lorsque uD 6 P (z)
:
0 autrement

1 (uD 6 P (z)) =

(29)

On peut alors crire :


Z

P (z)

E ( jX = x; UD = uD ) duD =

1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD :


(30)

Aussi, remarquons que :


Pr (D = 1 jX = x ) = E (P (Z) jX = x ) :

(31)

Posons t = P (Z), et crivons lexpression prcdente en termes dune intgrale :


Pr (D = 1 jX = x ) = E (P (Z) jX = x )
= E (t jX = x )
Z 1
=
tfP (Z)jX=x (t jX = x ) dt:

(32a)
(32b)
(32c)

Intgrons par parties en utilisant les mnmoniques habituels :


u = t; v 0 = fP (Z)jX=x (t jX = x )
u0 = 1; v = FP (Z)jX=x (t jX = x ) :

(33a)
(33b)

On obtient :
Z 1
Z
tfP (Z)jX=x (t jX = x ) dt =
0

fP (Z)jX=x (t jX = x ) dt
|
{z
}

t
|{z}

(34a)

v0

= [|{z}
t
FP (Z)jX=x (t jX = x )]10
|
{z
}
u
v
Z 1
1
FP (Z)jX=x (t jX = x )dt
|{z}
{z
}
|
0
0
u

= 1

Z
= 1
Z
=

=1

FP (Z)jX=x (t jX = x ) dt;

FP (Z)jX=x (1 jX = x )
|
{z
}

(34b)

FP (Z)jX=x (0 jX =(34c)
x)
|
{z
}
=0

FP (Z)jX=x (t jX = x ) dt;

FP (Z)jX=x (t jX = x ) dt:

(34d)
(34e)

En substituant (30) et (34e) dans (28b), on obtient alors :


TT

(x; D = 1) =

1
Pr (D = 1 jX = x )
#
Z 1 "Z P (z)
E ( jX = x; UD = uD ) duD dFP (Z)jX=x ;
0

= Z
|

(35b)

(35a)

FP (Z)jX=x (t jX = x ) dt
{z
}

=Pr(D=1jX=x ) par (34e)


1

1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD dFP (Z)jX=x


(35c):
{z
}
=

R P (z)
0

E( jX=x;UD =uD )duD par (30)

Inversons maintenant lordre dintgration (vous pourrez vrier que les conditions du
Thorme de Fubini sappliquent ici savoir, les expressions sont bornes et les int-

grales sont donc propres) :


TT

(x; D = 1) = R 1
0

1
1

= R1
0

1
1

= R1

(36a)
FP (Z)jX=x (t jX = x ) dt
Z 1
1 (uD 6 P (z)) E ( jX = x; UD = uD ) duD dFP (Z)jX=x ;
(36b)
FP (Z)jX=x (t jX = x ) dt
Z 1
1 (uD 6 P (z)) E ( jX = x; UD = uD ) dFP (Z)jX=x duD ;
0

FP (Z)jX=x (t jX = x ) dt
0
Z
Z 1
E ( jX = x; UD = uD )

(36c)

Remarquons maintenant que :


Z
Z 1
1 (uD 6 P (z)) dFP (Z)jX=x =

uD

1 (uD 6 P (z)) dFP (Z)jX=x


1

uD

(37)

1 (uD 6 P (z)) dFP (Z)jX=x :

Mais 1 (uD 6 P (z)) = 0 pour P (z) 2 [0; uD ] et donc :


Z uD
Z uD
1 (uD 6 P (z)) dFP (Z)jX=x =
0
0

1 (uD 6 P (z)) dFP (Z)jX=x duD :

dFP (Z)jX=x = 0;

(38)

tandis que 1 (uD 6 P (z)) = 1 pour P (z) 2 [uD ; 1] et :


Z 1
Z 1
1 dFP (Z)jX=x
1 (uD 6 P (z)) dFP (Z)jX=x =
uD

(39a)

uD

= FP (Z)jX=x (1 jX = x )
|
{z
}

FP (Z)jX=x (uD jX = x(39b)


)

=1

= 1

FP (Z)jX=x (uD jX = x ) :

En combinant ces deux expressions, on obtient donc :


Z 1
Z uD
1 (uD 6 P (z)) dFP (Z)jX=x =
1 (uD 6 P (z)) dFP (Z)jX=x
0
|0
{z
}

(39c)

(40a)

=0 par (38)

Z 1
+
1 (uD 6 P (z)) dFP (Z)jX=x
uD
|
{z
}
=1 FP (Z)jX=x (uD jX=x ) par (39c)

= 1

FP (Z)jX=x (uD jX = x )

(40b)

En remplaant dans (36c), on obtient alors :


TT

(x; D = 1) = R 1

FP (Z)jX=x (t jX = x ) dt
0
Z 1
Z
E ( jX = x; UD = uD )
0

= R1
0

=
Posons :

1
1

(41b)

FP (Z)jX=x (t jX = x ) dt
E ( jX = x; UD = uD ) 1
|
"

R1

E ( jX = x; UD = uD ) R 1

hT T (x; uD ) = R 1

Comme E ( jX = x; UD = uD ) =
TT

1 (uD 6 P (z)) dFP (Z)jX=x duD

(41a)

(x; D = 1) =

MT E

FP (Z)jX=x (uD jX = x ) duD


{z
}

1(uD 6P (z))dFP (Z)jX=x par (40b)

1
1

FP (Z)jX=x (uD jX = x )

FP (Z)jX=x (t jX = x ) dt

FP (Z)jX=x (uD jX = x )
:

FP (Z)jX=x (t jX = x ) dt

(41c)
duD

(42)

1
MT E

(43)

(x; uD ) hT T (x; uD ) duD :

Local average treatment e ect : LATE

Le LATE, introduit initiallement dans la littrature par Imbens et Angrist (1994), est
dni par :
E (Y jX = x; P (Z) = P (z 0 ) )
:
P (z 0 )
(44)
Le LIV, lui, correspond la limite de lexpression pour le LATE, lorsque z ! z 0 :
LAT E

LIV

(x; P (z) ; P (z 0 )) =

(x; P (z)) =

E (Y jX = x; P (Z) = P (z))
P (z)

@E (Y jX = x; P (Z) = P (z))
= lim0
z!z
@P (z)

LAT E

(x; P (z) ; P (z 0 )) :

Considrons llment constitutif des expressions pour LAT E (x; P (z) ; P (z 0 )) et


savoir E (Y jX = x; P (Z) = P (z) ). Remarquons que :

(45)

LIV

(x; P (z)),

E (Y jX = x; P (Z) = P (z) ) = P (z)E (Y1 jX = x; P (Z) = P (z) ; D = 1)


(46a)
+ [1 P (z)] E (Y0 jX = x; P (Z) = P (z) ; D = 0) ;
(46b)
= P (z)E (Y1 jX = x; UD 6 P (z))
|
{z
}
=E(Y1 jX=x;P (Z)=P (z);D=1 )

+ [1

P (z)] E (Y0 jX = x; UD > P (z)):


|
{z
}
=E(Y0 jX=x;P (Z)=P (z);D=0 )

Mais :

1
E (Y1 jX = x; UD 6 P (z) ) =
P (z)

P (z)

E (Y1 jX = x; UD = uD ) duD ;

(47)

et
E (Y0 jX = x; UD > P (z) ) =

1
P (z)

P (z)

E (Y0 jX = x; UD = uD ) duD :

(48)

Il suit que :
E (Y jX = x; P (Z) = P (z) ) = P (z)E (Y1 jX = x; UD 6 P (z))
(49a)
+ [1 P (z)] E (Y0 jX = x; UD 6 P (z)) ;
Z P (z)
E (Y1 jX = x; UD = uD ) duD
(49b)
=
0
Z 1
E (Y0 jX = x; UD = uD ) duD :
+
P (z)

Ecrivons la mme expression pour E (Y jX = x; P (Z) = P (z 0 )) :


0

E (Y jX = x; P (Z) = P (z )) =

P (z 0 )

E (Y1 jX = x; UD = uD ) duD

P (z 0 )

E (Y0 jX = x; UD = uD ) duD :

Considrons ensuite la soustraction :


E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ))
Z 1
Z P (z)
E (Y0 jX = x; UD = uD ) duD
E (Y1 jX = x; UD = uD ) duD +
=
0

(50)

P (z)

P (z 0 )

E (Y1 jX = x; UD = uD ) duD

P (z 0 )

E (Y0 jX = x; UD = uD ) duD :

Sans perte de gnralit, supposons que P (z) > P (z 0 ). Notons que :


Z

P (z)

E (Y1 jX = x; UD = uD ) duD =

+
Z

P (z 0 )

E (Y0 jX = x; UD = uD ) duD =

P (z 0 )

E (Y1 jX = x; UD = uD ) duD
P (z)

P (z 0 )
P (z)

P (z 0 )
Z 1

E (Y1 jX = x; UD = uD ) duD ;

E (Y0 jX = x; UD = uD ) duD

P (z)

10

(51a)

E (Y0 jX = x; UD = uD ) duD :

(51b)

En substituant dans (50), on obtient


E (Y jX = x; P (Z) = P (z) )
=

zZ

P (z 0 )

E(Y1 jX=x;UD =uD )duD par (51a)

}| Z

E (Y1 jX = x; UD = uD ) duD +

P (z)

P (z)

E (Y1 jX = x; UD = uD ) duD

P (z 0 )

(52)

E (Y0 jX = x; UD = uD ) duD

P (z 0 )

E (Y1 jX = x; UD = uD ) duD

R P (z)

E (Y jX = x; P (Z) = P (z 0 ))

P (z)

P (z 0 )

E (Y0 jX = x; UD = uD ) duD +
=

P (z)

{z

R1

E (Y0 jX = x; UD = uD ) duD :

P (z 0 ) E(Y0 jX=x;UD =uD )duD par (51b)

Cette dernire expression se rcrit :

E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ))


Z P (z)
=
E (Y1 jX = x; UD = uD ) duD
P (z 0 )
Z 1

+
E (Y0 jX = x; UD = uD ) duD
P (z)
|
{z

(53a)

P (z)

=0

E (Y0 jX = x; UD = uD ) duD
}

Z P (z0 )
Z P (z0 )
+
E (Y1 jX = x; UD = uD ) duD
E (Y1 jX = x; UD = uD ) duD
0
0
|
{z
}

=
=
=

=0

P (z)

P (z 0 )
P (z)

P (z 0 )
Z P (z)

P (z 0 )
Z P (z)
P (z 0 )

E (Y0 jX = x; UD = uD ) duD ;

E (Y1 jX = x; UD = uD ) duD
E (Y1

P (z)

P (z 0 )

E (Y0 jX = x; UD = uD ) duD ; (53b)

Y0 jX = x; UD = uD ) duD ;

(53c)

E ( jX = x; UD = uD ) duD :

(53d)

En notant enn que :


E ( jX = x; P (z ) 6 UD 6 P (z) ) =
0

1
P (z)

P (z 0 )

P (z)

P (z 0 )

E ( jX = x; UD = uD ) duD ;
(54)

il suit que :
E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ))
Z P (z)
=
E ( jX = x; UD = uD ) duD ;
P (z 0 )

= [P (z)

P (z 0 )] E ( jX = x; P (z 0 ) 6 UD 6 P (z)) ;
11

(55a)
(55b)

et donc que :
E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ))
= [P (z) P (z 0 )] E ( jX = x; P (z 0 ) 6 UD 6 P (z)) :

(56)

En consquence :
LAT E

E (Y jX = x; P (Z) = P (z)) E (Y jX = x; P (Z) = P (z 0 ) )


(57a);
P (z) P (z 0 )
= E ( jX = x; P (z 0 ) 6 UD 6 P (z)) :
(57b)

(x; P (z) ; P (z 0 )) =

En prenant la limite de lquation (57b), on obtient le LIV, qui est donc la mme chose
que le MTE, mais valu uD = P (z) :
LIV

(x; P (z)) = lim0

LAT E

z!z

(x; P (z) ; P (z 0 )) ;

(58a)

= lim0 E ( jX = x; P (z 0 ) 6 UD 6 P (z)) ;

(58b)

= E ( jX = x; UD = P (z)) ;
MT E
=
(x; P (z)) :

(58c)
(58d)

z!z

Nous pouvons galement arriver directement cette expression en direnciant lquation


(49b) par rapport P (z). Par la Rgle de Leibnitz (voir la Recette 11 dans mon Livre
de cuisine, disponible en version PDF sur ma page web pour le cours de micro Mag1) :
Z P (z)
@E (Y jX = x; P (Z) = P (z) )
@
E (Y1 jX = x; UD = uD ) duD (59)
=
@P (z)
@P (z) 0
Z 1
@
+
E (Y0 jX = x; UD = uD ) duD ;
@P (z) P (z)
=

@P (z)
E (Y1 jX = x; UD = P (z))
@P (z)
| {z }
=1
P (z)

@0
E (Y1 jX = x; UD = 0)
@P (z)
| {z }

(60)

=0

@
E (Y1 jX = x; UD = uD ) duD
@P (z)
|
{z
}
=0

@P (z)
@1
+
E (Y0 jX = x; UD = 1)
E (Y0 jX = x; UD = P (z))
@P (z)
@P (z)
| {z }
| {z }
=0
=1
Z 1
@
E (Y0 jX = x; UD = uD ) duD ;
P (z) @P (z)
|
{z
}
=0

= E (Y1 jX = x; UD = P (z)) E (Y0 jX = x; UD = P (z)) ;


= E ( jX = x; UD = P (z)) :
12

(61a)
(61b)

Notons que lquation (54) en combinaison avec (57b) nous donne une expression pour le
LATE comme une esprance conditionnelle du MTE :
Z P (z)
1
LAT E
0
(x; P (z) ; P (z )) =
E ( jX = x; UD = uD ) duD ;(62a)
P (z) P (z 0 ) P (z0 )
Z P (z)
1
MT E
=
(x; uD ) duD :
(62b)
P (z) P (z 0 ) P (z0 )

Les rsultats en bref

Nous pouvons maintenant regrouper nos trois principaux rsultats concernant le lien
entre les eets traitements les plus communment utiliss ATE, TT et LATE et le
MTE. Nous rsultats proviennent des quations (58d), (16b), (20b), (43) et (62b) :
LIV

(x; P (z)) =
AT E

(x) =

MT E

(63)

(x; P (z)) ;

1
MT E

(64)

(x; uD ) duD ;

Z P (z)
1
MT E
(x; P (z) ; D = 1) =
(x; uD ) duD ;
(65)
P (z) 0
"
#
Z 1
1 FP (Z)jX=x (uD jX = x )
TT
MT E
(x; D = 1) =
(x; uD ) R 1
du
(66)
D
1 FP (Z)jX=x (t jX = x ) dt
0
0
"
#
Z 1
Pr (P (Z) > uD jX = x )
MT E
=
(x; uD ) R 1
du(67)
D;
Pr (P (Z) > uD jX = x ) duD
0
0
Z P (z)
1
LAT E
0
MT E
(x; P (z) ; P (z )) =
(x; uD ) duD :
(68)
P (z) P (z 0 ) P (z0 )
TT

Lorsque le MTE est indpendant de uD ,


cdentes impliquent que :
MT E

LIV

MT E

(x; uD ) =

MT E

AT E

TT

LAT E

(x), les expressions pr:

(69)

Intuitivement :
(x; P (z)) value M T E (x; uD ) UD = P (z) et reprsente leet moyen de
traitement pour les individus qui sont indirents entre participer et ne pas participer au programme, pour une valeur donne de linstrument P (z). Pour les individus
pour lesquels P (z) est proche de 0, LIV (x; P (z)) reprsente leet moyen de traitement pour quelquun dont les caractristiques inobservables UD sont telles quil
est trs probable quil choisira de participer au programme. Le contraire est vrai
pour les individus pour lesquels P (z) est proche de 1.
AT E (x) intgre M T E (x; uD ) sur la totalit du support [0; 1] de UD , et correspond donc leet moyen de traitement pour une personne tire au hasard dans la
population.
T T (x; P (z) ; D = 1) intgre M T E (x; uD ) sur le sous-ensemble [0; P (z)] du support de UD , et est dtermin par leet moyen de traitement pour les individus dont
les caractristiques inobservables sont telles quil est probable quils participent au
programme.

LIV

13

(x; D = 1) intgre M T E (x; uD ) sur lensemble du support [0; 1], avec un pondration qui est dcroissante en uD , et qui met donc plus de poids sur les individus
qui ont une plus forte probabilit de participer au programme (cet eet est galement une moyenne pondre de leet prcdent, o lon intgre par rapport la
probabilit de participation P (z)).
LAT E (x; P (z) ; P (z 0 )) intgre M T E (x; uD ) de P (z 0 ) P (z), et reprsente leet
moyen de traitement pour quelquun qui ne participerait pas au programme pour
P (Z) 6 P (z 0 ), mais qui participerait pour P (z) 6 P (Z).

TT

14

Lexemple paramtrique de Heckman

8.1

La structure de base de lexemple

Considrons maintenant lexemple paramtrique qui est prsent dans la plupart des
travaux de Heckman et de ses collaborateurs. La structure du modle est base sur
la spcication prsente aux quations (1)-(6) . Les deux quations de rsultats et
lquation de participation sont donnes par des formes additivement sparables :
Y0
Y1
D
D

=
+ U0 ;
=
+ + U1 ;
= Z V;
= 1 [D > 0] ;

o, pour simplier la prsentation, nous navons pas de covaris x.


Les termes alatoires, sont construits partir dune hypothse de normalit. Soit :
"

N (0; 1) :

On construit alors les termes derreur des trois quations comme :


U0 =
U1 =
V =
o

j; j

= 0; 1 et

0 ";
1 ";
V ";

reprsentent les carts-types. Il suit que :


Uj

2
j ); j

N (0;

= 0; 1;

et :
V

N (0;

2
V ):

Finalement, on pose :
Z

N(

Z;

2
Z ):

Les valeurs numriques choisies sont les suivantes :4

0
Z

= 0:0500; 1 = 0:0120; V = 1:0000;


=
0:0026; 2Z = 0:2700;
= 0:6700; = 0:2000:

Une illustration numrique du Thorme de la fonction de transfert en action est


donne par les deux histogrammes qui suivent. Dans la Figure 1, nous reprsentons la
4

Notons en passant quil y a des erreurs concernant certaines de ces valeurs dans les papiers publis
de Heckman. En particulier, on ne peut pas spcier 0 = 0:0500; V = 1:0000;.comme il est fait
pour la Figure 1B, p. 683 de Heckman et Vytlacil (2005) : le faire rsulte dans un M T E (uD ) qui est
croissant en uD .

15

N(0, V)
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05

V
-3

-2

-1

Fig. 1 Histogramme pour V

N (0;

2
V ),

gnr avec 10000 observations et

= 1.

Unif [0,1]

1.0

0.8

0.6

0.4

0.2

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

uD = (V/ V )

Fig. 2 Le Thorme de la fonction de transfert en action : Histogramme pour uD =


( VV ) Unif[0; 1], gnr avec 10000 observations et V = 1.

16

densit de V , qui suit la forme habituelle dune normale. Pour cette reprsentation,
V = 1.
Comme V
N (0; 2V ), il suit que
V

N (0; 1):

Une application du Thorme de la fonction de transfert implique alors que :


uD =

Unif[0; 1];

o (:) reprsente la densit cumulative de la loi normale centre rduite. La densit de


uD est reprsente la Figure 2, o lon voit clairement quelle correspond une uniforme
sur lintervale [0; 1].
Les distributions des rsultats Y0 et Y1 gnres par cette spcication sont reprsentes graphiquement la Figure 3. La distribution de Y0 est centre sur la moyenne
= 0:67, tandis que la distribution de Y1 est centre sur sa moyenne + = 0:67+0:20 =
0:87. Laspect plus concentr de la distribution de Y1 , par rapport la distribution de
Y0 , est de la valeur de 1 = 0:012 qui est bien plus petite que 0 = 0:05.
de Y0 et
Y1
Frquence
30

Y1
25

20

15

10

Y0

0.50

0.55

0.60

0.65

0.70

0.75

0.80

0.85

0.90

3 :pdf

Fig. 3 Les distributions de Y0 et Y1 gnres avec 10 000 observations.

8.2

Leet marginal de traitement gnr par lexemple

Dans la Figure 4, nous reprsentons les valeurs de M T E (uD ) gnre par ce modle.
Pour les individus avec une valeur de uD proche de 0, et pour lesquels la probabilit
17

de participation au programme est donc leve, leet marginal du traitement est relativement lev. De mme, pour les invidus avec une valeur de uD relativement proche
de 1, et dont la probabilit de participation est donc faible, leet marginal de traitement est relativement faible. Remarquez que, par construction, leet traitement moyen
(ATE) spci dans lexemple = 0:2 correspond exactement 50% de lchantillon
(uD = 0:5).
MTE (uD )
0.35

0.30

0.25

0.20

0.15

0.10

0.0

0.1

0.2

Fig. 4

8.3

0.3
MT E

0.4

0.5

0.6

0.7

0.8

0.9

1.0

uD

(uD ) pour lexemple paramtrique de Heckman.

Les pondrations correspondants trois eets traitement

Dans la Figure 5, nous reprsentons les pondrations de M T E pour les trois eets
traitements ( AT E , T T et T U T ) qui sont issues de cet exemple paramtrique. Etant
donnes nos hypothses de normalit de dpart, la contrepartie empirique de la pondration thorique associe avec leet du traitement sur les trait ( T T ) est donne par :
1
1
N
1

(uD )
o lexpression
Z
la cumulative de Z :

uD 2[0;1]

1 (u

D)

Z
1 (u

D)
Z

i;

dcoule du fait que la fonction (:) "externe" doit correspondre

Pr (P (Z) > uD ) = Pr Z >

(uD ) = 1

(uD ) ;

o Z est la cumulative de Z N ( Z ; 2Z ).5 Or, comme celle-ci nest pas une normale
centre rduite, il faut normaliser en soustrayant la moyenne Z et en divisant par lcart5

Remarquez que 1 FP (Z)jX=x (uD jX = x ) = Pr (P (Z) > uD jX = x ) dans le numrateur de la


pondration de T T (x; D = 1).

18

Eet traitement

Spcication paramtrique

TT

(D = 1)

T UT

(D = 0)

1
N

1
N

(cart-type)

1
N

AT E

MT E

uD 2[0;1]

1 u
( D)
Z

uD 2[0;1]

1
N

uD 2[0;1]

1
N

uD 2[0;1]

Valeur estime

1 u
( D)
Z

0:2000
(0:0003)

MT E
1 (u

(uD )
D)
Z

(uD )

0:2293
(0:0003)

MT E
1 (u

uD 2[0;1]

D)
Z

(uD )

0:1707
(0:0003)

Tab. 1 Valeurs estimes des trois eets traitement, avec N = 10000. Exprience Montecarlo base sur 2000 rplications.
type Z .6 Le dnominateur de lexpression correspond tout simplement la moyenne du
numrateur pour lensemble des valeurs de uD 2 [0; 1].

8.4

Rsultats de Montecarlo pour les eets traitement

Dans le Tableau 1, nous prsentons les valeur estimes pour les trois eets traitement,
issues de 2000 rplications Montecarlo. La Figure 6 reprsente les eets traitement
estims par la procdure de Montecarlo et les compare avec lhtrognit de M T E (uD ).
Comme on limaginerait en regardant les pondrations prsentes la Figure 5 :
T UT

(D = 0) <

AT E

<

TT

(D = 1):

Pour le AT E , nous sommes pratiquement la valeur


chires aprs la virgule).

Si Z
1

= 0:2 spcie au dpart ( 5

N (0; 1), le numrateur de la pondration se simplierait en 1

(uD ) = 1

uD et la pondration serait une droite de pente

19

1.

(uD ) 0
1

= 1

Pondrations de MTE (uD )


hTU T (uD )

2.00

hTT (uD )
1.75
1.50
1.25
1.00

hATE (uD ) = 1

0.75
0.50
0.25

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Fig. 5 Pondrations appliques

0.7

MT E

0.8

0.9

1.0

an dobtenir

AT E

uD

TT

T UT

et

traitement
estimes
0.35

0.30

0.25

TT (D = 1)
ATE

0.20

TU T (D = 0)
0.15

MTE (u D )
0.10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

uD

6 :pdf

Fig. 6 Les trois eets traitement estims et comparaison avec lhtrognit du

20

MT E

Rfrences
Heckman, J. J., et E. J. Vytlacil (1999) : Local Instrumental Variables and Latent
Variable Models for Identifying and Bounding Treatment Eects, Proceedings of the
National Academy of Sciences, 96(8), 47304734.
(2005) : Structural Equations, Treatment Eects and Econometric Policy Evaluation,Econometrica, 73(3), 669738.
Imbens, G., et J. Angrist (1994) : Identication and Estimation of Local Average
Treatment Eects,Econometrica, 62(2), 467476.
Roussas, G. (1997) : A Course in Mathematical Statistics. Academic Press, New York,
NY, second edn.

21

You might also like