Professional Documents
Culture Documents
ut IID(0, 2 ),
t = 1, . . . , n.
(2.01)
s non Line
aires
Les Moindres Carre
46
param`etres (generalement) inconnus. La fonction scalaire xt () est une fonction de regression (le plus souvent non lineaire) qui determine lesperance de
yt conditionnelle `a et (generalement) `a certaines variables independantes.
Ces derni`eres nont pas ete mentionnees explicitement dans (2.01) mais le t en
indice de xt () indique que cette fonction varie dune observation `a lautre.
Dans la plupart des cas, cela sexplique parce que xt () depend dune ou
plusieurs variables independantes qui varient. Ainsi, xt () devrait etre interpretee comme lesperance de yt conditionnelle aux valeurs de ces variables
independantes. De mani`ere plus precise, comme nous aurons loccasion de le
voir `a la Section 2.4, elle devrait etre interpretee comme lesperance de yt conditionnelle `a un ensemble dinformations auxquels appartiennent ces variables
independantes.1
Dans certains cas, xt () pourra aussi dependre de variables retardees
de yt . Un mod`ele qui comportera une telle fonction de regression sera appele
mod`ele dynamique, et le traitement de ce genre de mod`eles complique quelque
peu lanalyse. Nous admettrons pour linstant que xt () ne depend pas des
valeurs retardees de yt , contrairement `a ce qui serait le cas si (2.01) etait un
mod`ele dynamique, mais nous abandonnerons cette hypoth`ese au Chapitre 5
lorsque nous presenterons un premier traitement de la theorie asymptotique
des moindres carres non lineaires. Dapr`es lacception du terme que nous utilisons dans cet ouvrage, les resultats asymptotiques ne sont vrais qu`a la limite,
lorsque la taille n de lechantillon tend vers linfini. La plupart des resultats
analytiques standards concernant les mod`eles de regression non lineaire, et
les mod`eles non lineaires en general, sont des resultats asymptotiques, parce
que les resultats etablis `a laide dechantillons finis et faciles `a interpreter sont
souvent extremement difficiles `a obtenir.
Les mod`eles de regression se differencient de tous les autres mod`eles
statistiques par le fait que lalea affecte les variables dependantes uniquement
par lintermediaire dun alea additif. Dans le cas precis de (2.01), cet alea est
appele ut , et la notation ut IID(0, 2 ) est un moyen concis pour dire que
les aleas ut sont supposes etre independants et identiquement distribues, ou
i.i.d., avec une esperance nulle et une variance egale `a 2. En pretendant cela,
nous ne voulons pas dire que les variables aleatoires ut ont necessairement
la meme distribution, mais simplement quelles sont desperance zero et de
1
Les lecteurs devraient etre avertis que la notation que nous avons utilisee ici
est quelque peu inhabituelle. De nombreux auteurs utilisent ft () en lieu et
place de notre xt (). Nous preferons cette notation pour deux raisons. La
premi`ere est quelle nous laisse la liberte dutiliser la notation f () pour designer
des objets autres que les fonctions de regression sans creer dambigute. La
seconde est quavec notre notation, il devient naturel de designer xt ()/i
par Xti () (voir la Section 2.2). La matrice dont lelement type est Xti ()
est de fait etroitement liee `
a la matrice habituelle X qui est utilisee dans la
plupart des traitements du mod`ele de regression lineaire, et nous esperons que
cette ressemblance decriture sera un moyen efficace de se le rappeler.
ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge
47
variance 2. A ce propos, les lecteurs devraient sans doute etre avertis que
nous derogeons `a lusage standard. Ainsi que nous le verrons dans la Section 2.6, les proprietes de ces aleas sont cruciales car elles determinent toutes
les proprietes statistiques du mod`ele, et par l`a, permettent de savoir si un
mod`ele de regression peut raisonnablement etre utilise ou pas. Quoi quil en
soit, puisque les estimations NLS (comme les estimations OLS) peuvent etre
calculees sans se preoccuper de la facon dont les donnees ont ete generees,
nous traiterons le calcul des estimations NLS avant daborder la discussion de
leurs proprietes statistiques.
Le reste du chapitre traite un certain nombre daspects des moindres
carres non lineaires et des mod`eles de regression non lineaire. Dans la
Section 2.2, nous discutons des moindres carres non lineaires en tant que
procedure de calcul qui constitue une extension des moindres carres ordinaires.
Nous demontrons que la minimisation de la somme des residus au carre pour
un mod`ele de regression non lineaire tel que (2.01) est tr`es semblable, eu
egard `a la geometrie impliquee, `a lexecution dune regression lineaire. Un
mod`ele de regression non lineaire doit etre identifie si lon desire obtenir des
estimations uniques des param`etres. Nous discutons par consequent du concept fondamental didentification dans la Section 2.3. Dans la seconde moitie
du present chapitre, nous entamerons la discussion des aspects statistiques (et
economiques) des mod`eles de regression non lineaire. Dans la Section 2.4 nous
verrons comment les equations de regression comme (2.01) sinterpr`etent, et
la distinction entre les mod`eles et les processus generateurs de donnees. Puis
des exemples de fonctions de regression lineaires et non lineaires seront examines `a la Section 2.5, alors que les aleas seront examines `a la Section 2.6.
Proceder `a des inferences `a partir de mod`eles estimes par NLS sera le th`eme
du Chapitre 3.
ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge
Le moyen de loin le plus repandu destimer aussi bien les mod`eles de regression
non lineaire que les mod`eles de regression lineaire, consiste `a minimiser la
somme des residus au carre, ou SSR, en tant que fonction de . En ce qui
concerne le mod`ele (2.01), la fonction somme-des-carres est
SSR() =
n
X
2
yt xt () .
t=1
s non Line
aires
Les Moindres Carre
48
2
SSR() = y x() ,
(2.03)
o`
u ky x()k mesure la longueur du vecteur y x(). Selon lexpression
(2.03) il est clair que lorsque lon minimise SSR(), on minimise en fait la
distance euclidienne entre y et x(), dont nous discuterons plus longuement
de linterpretation plus loin.
La fonction somme-des-carres (2.02) peut etre recrite comme
SSR() = y>y 2y>x() + x>()x().
En derivant cette expression par rapport `a toutes les composantes du vecteur
`
a k elements, et en annulant toutes les derivees partielles, nous obtenons les
conditions du premier ordre qui doivent etre verifiees pour toute estimation
NLS du vecteur qui correspond `a un minimum interieur de SSR(). Ces
conditions du premier ordre, ou equations normales, sont
+ 2X>()x(
)
= 0,
2X>()y
(2.04)
o`
u la matrice X() de dimension n k est composee delements tels que
Xti ()
xt ()
.
i
(2.05)
et Z
bles destimations, alors Z0 designerait Z(0 ), Z designerait Z(),
designerait Z().
ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge
49
.
SSR()
..
.........
..
..
..
...
..
.
.
...
..
...
...
..
.
..
.
.
...
...
..
...
...
...
..
.
.
..
.
...
..
...
...
..
......
...
...........................................
...
.
.
.
.
.
.
.
.
.
..
.
.
.
...
........
..
...
..
...........
...
........
..
...
.............. ... ................................................................
.
..
.
...
.
.
..
.
..
..
..
...
...
....
.
.
.
.
..
..
.
.
.
...
.
.
.
.
..
...
.
.
.
.
.
.
..
.
.
.
..
...
.
.
.
...
.
..
..
..
.
.
..
.
...
..
..
..
...
..
..
...
.
..
..
..
.
.
.
.
..
.
.
...
.
.
...
.
..
.
.
.
..
.
.
.
.
.
...
..
..
..
...
.
..
.
..
..
..
...
..
...
.
.
.
..
..
.
.
.
...
.
..
..
..
.
...
.
.
..
.
.
.
..
...
.
.
.
...
.
..
..
..
...
.
..
.
..
..
..
.
.
.
...
... ....
..
..
..
..
............
..
..
..
...
..
.
.
..
.
.
..
...
..
..
..
..
...
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................
00
s non Line
aires
Les Moindres Carre
50
est aise de trouver avec certitude un minimum global, d`es lors quun graphe
similaire `a la Figure 2.1 permet de le reperer. Cependant, dans le cas o`
u
le nombre de dimensions est plus eleve, les methodes graphiques ne sont en
general daucune utilite, et meme lorsque lon demarre un algorithme avec un
certain nombre de points de depart, il nexiste aucune garantie de trouver le
minimum global si lon obtient plusieurs minima locaux. Des methodes de
calcul des estimations NLS seront discutees plus tard, au Chapitre 6.
Il est instructif detudier lanalogue des Figures 1.1 et 1.3 pour le cas de
la regression non lineaire. Souvenons-nous que y peut etre considere comme
un point dans lespace des observations E n , et que la fonction de regression
lineaire X definit alors un sous-espace `a k dimensions de cet espace. Dans
la Figure 1.3, nous avons illustre, pour le cas le plus simple o`
u n = 2 et k = 1,
la facon dont les moindres carres ordinaires projettent y orthogonalement sur
S(X), le sous-espace engendre par les colonnes de X. Lorsque la fonction de
regression x() est non lineaire, mais partout differentiable, elle definit une
variete a` k dimensions,3 ou une surface lisse, qui ne constitue plus un sousespace lineaire en general. Chaque point de cette variete, que nous noterons
X, correspond (par hypoth`ese) `a une valeur differente de , et donc on pourra
se referer `a un point particulier qui correspond `a 1, en le notant X( 1 ). Il est
essentiel pour que X soit lisse partout, que chaque composante du vecteur ()
soit partout derivable. Pour nimporte quel point choisi arbitrairement, disons
la matrice X
definit un espace tangent S (X),
X()
qui correspond tout
,
Pour des definitions plus formelles dune variete, ainsi que pour une discussion minutieuse des proprietes des varietes, consulter entre autres, Spivak
(1965) pour une approche rudimentaire et Lang (1972) pour une approche
plus avancee.
ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge
51
.
..
.. ......
... ..............
.. ......
... ......... 2
)
.. ......... S (X
2)
.
S(X
.
.
.
.
. ....
....
.......
...........
.
..........
.....
..
.....
....
.
.
.
1
.
.
.
.
.
.
...... S(X )
......
.... .........................
O
2 ........
.....................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X(
)
.
.
.
.
.
......
....
.................
....
.........
.
1
....
.
.
.
.
.
.
.
.
S (X ..)....
.
....
...........
...........
....
.................................................................... .......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
.......................
...
....
..........................
1 )
.
X(
.
..
X ...
.
..
... ....
.. ....
......... S (X)
......
.........
.......
y .............................................................y x
..
.
.
.
.
........ ....... ......
...............
.
.
.
.......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........ .
.............
.......................
................
.............................................. ......... X
................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
O
..............
.........................................
...
x
.....................................................
.......
.
.
.
.
.
....
.........
.
.
.
.
.. ..
....... .....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......................................
...
..
.............
.
...
.
.
.
.
.
.
.
.
..
.
...
.....
...
Figure 2.3 Une regressande y projetee sur une variete non lineaire
1 ),
La Figure 2.3 montre la meme variete X que la Figure 2.2, mais S(X
1
2
S(X ), S (X ), et S (X ) ny figurent plus. Apparaissent par contre une
X().
Notons
regressande y et sa projection orthogonale sur X au point X
yx
est tangent `a X en ,
ainsi qu`a X au point X, ce que reclament precisement les conditions du premier ordre. Comme sur cette figure la fonction de regression x(), et par
Par contraste, examinons la Figure 2.4. Sur cette figure, la variete est
X0, et X00 (corresponhautement non lineaire, et nous obtenons trois points X,
52
s non Line
aires
Les Moindres Carre
aussi avec S (X). Quoi quil en soit, dans ce cas, X correspond `a levidence
a un minimum global, X00 `
`
a un minimum local, et X0 `a un maximum local
de SSR(). Ainsi, nous avons une occasion supplementaire de constater que
lorsquun point satisfait les conditions du premier ordre, il ne correspond pas
pour autant `a une estimation NLS.
Il ne fait aucun doute dapr`es ces figures que le degre de non linearite de la
fonction de regression x() est crucial. Lorsque x() est quasiment lineaire,
les moindres carres non lineaires sont tr`es similaires aux moindres carres ordinaires. Lorsquau contraire, x() revet un caract`ere non lineaire tr`es marque,
toutes sortes de phenom`enes etranges peuvent survenir. La Figure 2.4 fait
simplement allusion `a cette derni`ere remarque, puisquil y a plusieurs facons
differentes pour des valeurs multiples de de satisfaire les conditions du premier ordre (2.05) lorsque X correspond `a une variete hautement non lineaire.
.
.
....
...
... ......
... ...
........
X00................................
......... ...............
.......
................ ......
.
.
.
.
.
.
.
.......
.
.
.
...
.
.......
.....
..
.
.......
.... ........
.
.
.......
.
.
.......
.... ....
.
.......
.
.......
......
.......
......
.......
.......
.......................
.
.......
..
0 .... .................................................................................................................................................
........................................ y
X ......
............
.
.
.
.
.
.
.
.
.
.......
.
.
........
.
....
...........
... ..
........................
....
.
.
.
..... ...
.
.
........ .....
. .
....
........... ......................
... ....
.
...........
...... ... .......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
................... .........
...
........
..........
...........
....
....
.........
...........
.
.
.
.
.
.
.
.
.
...........
.
.
.
....................
.
X
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
..............
.
..........
.
.
.
.
.
.
.
.
.
.
.
.
......
.....
.
.
..........
.
.
.
.
.
.
.
.
...
.
.
.
.
.
O
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........... .......
....
.............
53
.
.............
.... ......................
....
......
...
.....
...
...
...
...
............................... ..........
.
... ..
...... .....
...
.. ..
... ...
....
... ... ................. ...................
........ ..... ..... Courbes de niveau de SSR()
... .. ..
...
...... ..... .....
... ... ...
...
.. .. .
... ... ..
...
.... ... ... ............... ..........................
...
.... .... ... ... ...... ..... ..... ....
..... .... ..... .....
.... .... ... ..
...
.... .... .... ...
..... ..... .... ....
...
.... .... .... ....
..... .... ..... .....
.... .... .... ....
. . . .
....
.
.
.
.
.... .... .... .... ............... ....... .......
...
.... .... .... .... .... .... .... ....
...
..... ..... ..... ..... ... .... .... ....
..... ..... ..... .....
. . .. ..
...
..... ..... ..... ....... .... ...... ....... .......
...
..... ..... ...... ............ ... ... ....
...
..... ..... ......
... ... ....
...
..... ...... ......
.
..... ..... .......... .... .... .....
....
... ...
.
.
.
.
.
.
.
..... ..... .........
...
... ...
..... .....
...
..... .......
. .
... ......
.. ...
...
.................................................................................................................................................................................................................................................................................
.......
..
...... 1
..........
............................
2 ...........
` leur sujet (consulter les Chapitres 7 et 18), mais il sagit un concept qui
a
sapplique `a tout mod`ele econometrique. Pour lessentiel, un mod`ele de moindres carres non lineaires est identifie par un ensemble dinformations donne
si, pour cet ensemble de donnees, il est possible de trouver un unique qui
minimise SSR(). Si le mod`ele nest pas identifie par les donnees utilisees,
et peut-etre un nombre infini dentre eux. Certains
il existera plus dun ,
mod`eles peuvent netre identifies par aucun ensemble concevable de donnees,
alors que dautres peuvent etre identifies par quelques ensembles de donnees,
mais pas par tous.
On distingue deux sortes didentifications, lidentification locale et lidentification globale. Les estimations des moindres carres seront identifiees
la valeur de SSR() sel`eve.
localement si pour toute modification leg`ere de ,
On peut etablir cette definition de facon formelle comme la necessite davoir
de sorte que
une fonction SSR() strictement convexe en ,
< SSR( + )
SSR()
pour une petite variation . Souvenons-nous que la convexite stricte est
verifiee si la matrice Hessienne H(), dont lelement type est
Hij ()
2SSR()
,
i j
s non Line
aires
Les Moindres Carre
54
.
.............
.... .............
.... ....................................
...
... ... ........................ .......
...
... ... ... ............... .......
...
... ... ... ......... ...... ...... ......
...
... ... .... .... ...... ...... ...... ......
....
... ... ... .... ..... ..... ..... ..... .........................................
... ... ..... ..... ...... ...... ...... ........
Courbes de niveau de
...
... .... .... .... . ..... ..... ..... ......
...
.
. ..
... B ........................................................................................................................................... .........
...
.... ..... ..... ..... ..... ..... ..... ..... .....
.... .... .... ..... ..... ..... ..... ..... ....
...
.... .... .... .... .... .... .... .... ....
...
.... .... .... .... .... .... .... .... .....
.... .... ..... .... ..... ..... ..... ..... ....
....
.... .... .... ..... .... .... .... .... ....
.... .... .... .... .... .... .... .... ....
...
..... ..... .... .... .... .... .... .... ...
...
..... ..... ..... ..... ..... ..... ..... .... .....
...
..... ..... ...... ...... ..... ..... ..... ..... .....
...
..... ..... ..... ..... ..... ...... .... .... ....
...
..... ..... ..... ..... ................................................................................................... A
...
..... ..... ..... ..... ..... .... .... ...
..... ..... ..... ..... .... .... ... ...
....
..... ...... ..... ..... .... .... ... ...
..... ..... ...... ...... .... ... .. ...
...
..... ..... ..... ......... .. ... ..
...
..... ..... ..... ... .. ...
...
......................................................................................................................................................................................................................................................................................
....... .................... ..
...... 1
..........
............................
2 ...........
SSR()
Figure 2.6 Minimum non identifie dune fonction somme des carres
pour tout
6= .
Cette definition de lidentification globale reste, `a vrai dire, une simple refor Remarmulation de la condition dobtenir un unique qui minimise SSR().
quons que meme si un mod`ele est identifie localement, il est toujours possible
quil y ait deux (ou davantage) estimations distinctes, soit 1 et 2, avec
SSR(1 ) = SSR(2 ). A titre dexemple, examinons le mod`ele
yt = + 2 zt + ut .
(2.06)
55
...
..
........ SSR()
...
...
...
...
.
.
.
....
...
...
...
....
...
...
.
....
...
...
...
...
....
.
.
...
.
.......
..
...
........... ... ..................
...
......
...
.......
...
.
.
.
.
.
.
.
......
...
....
....
.....
...
.....
...
.....
....
...
.....
...
.
.
.
.
.
.
.
.
....
..
...
....
.....
...
...
...
.....
....
...
.....
.
...
.
.
.
.
.
.
.
......
.
....
....
......
...
.....
....
...
.
.....
.......
.... .... ... .... .... ... .... ...................................... .... ... ... .... ... ... .... .... ... .... .... .... .... ... ... ....... ... .... .... ... .... .... ... .... .... ... .... .... ... .... ....................................... ... .... .... ... .... .... ..
..
..
....
..
..
..
..
....
..
..
.
.
..
..
..
.
..
..
..
.
..
.
.
.
.
..............................................................................................................................................................................................................................................
.
.
1
2
O.
La Figure 2.7 illustre ce que peut donner la fonction somme des carres
pour un mod`ele qui est localement mais non globalement identifie dans le sens
donne precedemment. La fonction somme-des-carres ne poss`ede quun seul
argument, , et elle est symetrique par rapport `a lorigine de . Le minimum
de SSR est donc atteint en 1 et en 2. Chacune des estimations potentielles
est identifiee localement, mais le mod`ele nest pas identifie globalement.
Il est aussi envisageable davoir un mod`ele globalement identifie, sans
pour autant que la condition didentification locale, impliquant que la matrice
Hessienne est definie positive, soit satisfaite, pour certaines valeurs particu Ce genre de lacune didentification ne pose pas de difficulte si
li`eres de .
la valeur realisee se situe assez loin de ces valeurs particuli`eres, et nous
parvenons `a la calculer, mais il rend difficile lestimation du mod`ele. A titre
dexemple, considerons la fonction de regression
xt () = 1 + 2 zt3 .
(2.07)
s non Line
aires
Les Moindres Carre
56
`les et Processus Ge
ne
rateurs de Donne
es
2.4 Mode
57
`les et Processus Ge
ne
rateurs de Donne
es
2.4 Mode
En economie, rares sont les situations o`
u une relation telle que (2.01) represente reellement la facon dont la variable dependante est generee, telle quelle
le serait si xt () etait une fonction de reponse `a un phenom`ene physique, et
ut les erreurs de mesure de yt . Au lieu de cela, elle correspond souvent `a une
facon de modeliser les variations de yt causees par les valeurs de certaines
variables. Celles-ci peuvent etre les seules variables qui soient renseignees,
ou celles qui nous interessent pour un usage particulier. Si nous disposions
de davantage dinformations sur les variables explicatives potentielles, nous
pourrions fort bien specifier des xt () differentes en utilisant linformation
additionnelle.
Il est quelquefois souhaitable de rendre explicite le fait que xt () represente lesperance conditionnelle de yt , cest-`a-dire lesperance de yt dependant
des valeurs dune quantite dautres variables. On appelle souvent lensemble
des variables qui conditionne yt lensemble dinformations. Si lon note t
lensemble dinformations qui conditionne la valeur attendue de yt , on pourrait
definir xt () formellement par E(yt | t ). Il est possible davoir plus dun
ensemble dinformations de ce genre, et donc simultanement
x1t (1 ) E(yt | 1t ) et
x2t (2 ) E(yt | 2t ),
o`
u 1t et 2t representent les deux ensembles dinformations. Les fonctions
x1t (1 ) et x2t (1 ) peuvent differer fortement, et on pourrait vouloir les estimer
ensemble `a des fins differentes. Il existe plusieurs circonstances pour lesquelles
on ne desire pas faire dependre yt de toutes les informations disponibles.
Par exemple, si lon specifie une fonction de regression dans le but ultime
de realiser des previsions, il ny a pas de raison de faire dependre yt des
informations qui ne sont pas disponibles pour la periode pour laquelle on
effectue la prevision. Meme lorsque lon desire integrer toutes les informations
disponibles, le fait quune variable particuli`ere appartienne `a t nimplique pas
quelle apparatra dans xt (), d`es lors que sa valeur ne nous renseigne pas sur
lesperance conditionnelle de yt , et lintroduire peut amoindrir notre capacite
a estimer limpact des autres variables sur cette esperance conditionnelle.
`
Pour toute variable dependante yt donnee et tout ensemble dinformations
t , il est toujours possible dinterpreter la difference yt E(yt | t ) comme
lalea associe `a lobservation t. Mais pour quun mod`ele de regression soit
operationnel, ces differences doivent generalement avoir la propriete detre
i.i.d.. En fait, il est envisageable, lorsque la taille de lechantillon est importante, de traiter des cas o`
u les aleas sont independants, identiquement
distribues uniquement `a legard des esperances, mais pas forcement `a legard
des variances. Nous discuterons des techniques de traitement de tels cas dans
les Chapitres 16 et 17, et dans ce dernier nous abandonnerons lhypoth`ese
dindependance. Comme nous le decouvrirons au Chapitre 3 cependant,
les techniques conventionnelles pour pratiquer des inferences `a partir des
s non Line
aires
Les Moindres Carre
58
ut NID(0, 2 ),
(2.08)
o`
u la notation ut NID(0, 2 ) est un moyen simple de dire que les ut sont
normalement et independamment distribues, ou n.i.d., avec une esperance
nulle et une variance egale `a 2 . Ceci est vrai pour tout sous-ensemble compose de xit car toute combinaison lineaire de variables suivant la loi normale
multivariee, est elle-meme normalement distribuee. Ainsi lalea ut defini de
mani`ere implicite dans (2.08) sera normalement et independamment distribue
et sans consideration des xit que lon introduit dans xt , et lon peut toujours
choisir 0 convenablement de facon `a rendre son esperance nulle. Ceci est vrai
meme si xt est un vecteur nul, puisque (2.08) ne fait que traduire lidee selon
laquelle yt est egale `a son esperance, plus une variable aleatoire ut qui est n.i.d.
avec une esperance nulle, et yt est elle-meme normalement distribuee. Pour
plus de details sur ces considerations et sur dautres cas particuliers, et pour
un traitement plus approfondi sur linterpretation des mod`eles de regression,
consulter Spanos (1986).
Un mod`ele tel que (2.01) devrait etre distingue dun processus generateur
de donnees, ou DGP, tel que
yt = xt (0 ) + ut ,
ut NID(0, 02 ),
t = 1, . . . , n.
(2.09)
Un mod`ele de regression tel que (2.01) specifie que lesperance de yt conditionnee par un ensemble defini de variables Zt est une fonction donnee de Zt
et des param`etres (generalement inconnus) , et que les yt sont mutuellement
independants et ont la meme variance autour de leur esperance conditionnelle. Dautre part, un DGP est une caracterisation compl`ete des proprietes
statistiques de la variable dependante. Si le DGP est connu, alors aussi bien
les valeurs de tous les param`etres que les distributions de toutes les quantites
aleatoires doivent etre precisees.
Ainsi emergent deux differences fondamentales entre le mod`ele (2.01) et
le DGP (2.09). Le premier implique un vecteur inconnu de coefficients , alors
`les et Processus Ge
ne
rateurs de Donne
es
2.4 Mode
59
que lautre fait reference `a un vecteur de coefficients bien defini 0 , qui serait
connu si lon connaissait le DGP. Les aleas ut du mod`ele sont simplement
definis comme independants et identiquement distribues, avec une esperance
nulle et une variance inconnue egale `a 2, alors que les aleas du DGP sont
normalement et independamment distribues avec une variance connue 02 , qui
nous permet de generer une serie de ut si nous le desirons. Bien evidemment,
nous aurions egalement pu preciser un DGP avec des erreurs qui suivent une
distribution autre que la normale; ce qui importe reellement, cest que la
distribution soit specifiee compl`etement. Dautre part, nous pouvons etre
interesses par ce qui se passe avec la famille enti`ere des DGP, et dans de tels
cas une specification totale nest pas appropriee.
Un mod`ele peut ainsi etre imagine comme un ensemble de DGP. Lors
du processus destimation du mod`ele, ce que nous essayons dobtenir, cest
une caracterisation estimee du DGP qui a reellement genere les donnees; dans
le cas du mod`ele de regression non lineaire (2.01) la caracterisation desiree
consiste en un ensemble de param`etres estimes, cest-`a-dire, des estimations
des param`etres inconnus de la fonction de regression, ainsi quune estimation
de la variance des erreurs, 2. Mais puisque dans une regression non lineaire
seules lesperance et la variance des erreurs sont precisees, la caracterisation
du DGP obtenue par lestimation du mod`ele est partielle ou incompl`ete. Plus
tard, dans le Chapitre 8, nous discuterons dune autre methode destimation,
celle du maximum de vraisemblance, qui offre une caracterisation compl`ete
du DGP apr`es estimation. Ainsi, on peut dire que cette methode produit un
unique DGP estime, alors que toute methode adoptee pour estimer un mod`ele
de regression non lineaire produit un ensemble de DGP, qui satisfont tous la
caracterisation estimee.
Cet ensemble de DGP, ou lunique DGP estime lorsque ce sera le cas, appartient evidemment `a lensemble des DGP defini par le mod`ele. Lestimation
statistique peut donc etre consideree comme une procedure avec laquelle on
selectionne un sous-ensemble de DGP `a partir dun ensemble donne de DGP.
Cette selection est bien s
ur une procedure aleatoire, puisquun seul DGP
appartenant au mod`ele peut generer des ensembles differents dobservations
aleatoires qui entranent des caracterisations aleatoires estimees differentes. Il
est ensuite possible de disserter sur la probabilite, pour un DGP donne, que la
caracterisation soit proche, dans un certain sens, du DGP lui-meme. On peut
alors classer ces differentes procedures destimation selon ces probabilites, et
nous prefererons generalement des procedures destimation efficaces, cest-`adire celles pour lesquelles la probabilite que le sous-ensemble selectionne soit
proche du DGP est la plus forte, toujours sous lhypoth`ese que le DGP appartient reellement au mod`ele.
Il nous est impossible de dire quoi que ce soit dinteressant `a propos des
proprietes statistiques des estimateurs et des statistiques de test sans preciser
`
a la fois le mod`ele et le processus qui a genere les donnees. En pratique bien
s
ur, nous ne connaissons presque jamais le DGP, sauf si nous procedons `a
60
s non Line
aires
Les Moindres Carre
gression Line
aires et Non Line
aires
2.5 Fonctions de Re
La fonction de regression generale xt () peut etre precisee par un grand nombre de moyens. Il peut etre tr`es utile de considerer un certain nombre de cas
particuliers de facon `a avoir une idee de la variete des fonctions de regression
specifiques qui sont le plus souvent utilisees dans la pratique.
La fonction de regression la plus simple est
xt () = 1 t = 1 ,
(2.10)
o`
u t est lelement t dun vecteur dont les n composantes sont egales `a lunite.
Dans ce cas, le mod`ele (2.01) indique que lesperance conditionnelle de yt est
tout simplement une constante. Bien que ce soit un exemple simpliste de
fonction de regression, puisque xt () est identique quel que soit t, il sagit
neanmoins dun bon exemple pour debuter, et que lon doit garder `a lesprit.
Toutes les fonctions de regression sont tout simplement des versions de (2.10)
plus elaborees. Et toute fonction de regression qui ne sajuste pas aux donnees
au moins aussi bien que (2.10) devrait etre consideree comme une bien mauvaise fonction de regression.
La fonction qui est ensuite la plus simple est la fonction de regression
lineaire simple
xt () = 1 + 2 zt ,
(2.11)
gression Line
aires et Non Line
aires
2.5 Fonctions de Re
61
o`
u zt est lunique variable independante. En realite, un mod`ele encore
plus simple consisterait `a ne garder que la variable independante et `a rejeter le terme constant. Cependant, dans la majorite des probl`emes appliques, cela na pas de sens domettre la constante. De nombreuses fonctions de regression lineaires sont utilisees en tant quapproximations des fonctions inconnues desperance conditionnelle, et de telles approximations seront
rarement precises si elles sont contraintes de passer par lorigine. Lequation
(2.11) poss`ede deux param`etres, une ordonnee `a lorigine 1 et une pente 2 .
Cette fonction est lineaire en ses deux variables (t et zt , ou tout simplement zt
si lon decide de ne pas considerer t comme une variable) et en ses param`etres
(1 et 2 ). Bien que ce mod`ele soit trop simple, il poss`ede certains avantages.
Parce quil est tr`es facile de grapher yt contre zt , on peut utiliser ce graphe
pour visualiser la fonction de regression, la facon dont le mod`ele sajuste, et
si la relation lineaire decrit correctement les donnees. Mais lorsquun mod`ele
int`egre plus dune variable independante, visualiser les donnees de cette facon
devient plus problematique, et donc moins habituel.
Une generalisation evidente de (2.11) est la fonction de regression lineaire
multiple
xt () = 1 zt1 + 2 zt2 + 3 zt3 + + k ztk ,
(2.12)
o`
u les zti (zti allant de zt1 `a ztk ) sont les variables independantes, et zt1 peut
etre un terme constant. Il aurait ete possible de formuler cette fonction de
regression de facon plus ramassee
xt () = Zt ,
o`
u Zt represente un vecteur de dimension 1 k, et designe un vecteur de
dimension k 1. Notons que (2.12) repose sur une hypoth`ese extremement
forte, cest-`a-dire celle que leffet sur yt dune modification dune des variables independantes est independant des valeurs de toutes les autres variables
independantes. Lorsque cette hypoth`ese est fausse, les mod`eles de regression
lineaire multiple peuvent serieusement induire une erreur.
Puis vient tout un eventail de fonctions de regression ressemblant `a
2
xt () = 1 zt1 + 2 zt2 + 3 zt2
+ 4 zt1 zt2 ,
qui est lineaire en ses param`etres mais qui fait appel `a des variables independantes dune mani`ere non lineaire. Les mod`eles qui impliquent cette famille de
fonctions de regression peuvent etre manipules comme nimporte quel autre
mod`ele de regression lineaire, tout simplement en definissant de nouveaux
regresseurs de facon appropriee. Ici, par exemple, on pourrait definir zt3
2
comme zt2
et zt4 comme zt1 zt2 . En faisant usage de ce genre de fonction on
evite de subir les effets qui sadditionnent, comme limplique (2.12), mais cela
necessiterait sans doute destimer plus de param`etres quil ne serait utile en
pratique avec de nombreux ensembles de donnees. A cause de cela, et `a moins
62
s non Line
aires
Les Moindres Carre
(2.13)
Remarquons que cette fonction peut etre evaluee uniquement lorsque zt2 et
zt3 sont positifs pour tout t. Cest la premi`ere veritable fonction de regression
non lineaire que nous rencontrons, puisquil est clair quelle nest lineaire ni
en ses param`etres ni en ses variables. Cependant, un mod`ele non lineaire tel
que
2 3
yt = e1 zt2
zt3 + ut
(2.14)
est tr`es rarement estime dans la pratique. La raison en est que lhypoth`ese
daleas additifs et identiquement distribues est autant encombrante que peu
realiste. Elle est peu realiste car les zti sont multiplicatifs, ce qui implique que
leurs effets dependent des niveaux que prennent toutes les valeurs des autres
variables, alors que les aleas sont additifs, ce qui rend leur effet independant
des niveaux des autres variables explicatives. Elle est encombrante car (2.14)
doit etre estimee par moindres carres non lineaires plutot que par moindres
carres lineaires.
Il est facile de modifier (2.14) de facon `a donner aux aleas une structure
multiplicative. Le mod`ele le plus evident que lon peut alors formuler est
2 3
2 3
yt = e1 zt2
zt3 (1 + vt ) e1 zt2
zt3 + ut ,
(2.15)
o`
u les perturbations 1 + vt , qui sont des quantites sans unite de mesure, sont
multiplicatives. Bien que les erreurs sous-jacentes vt soient i.i.d., les erreurs
additives ut sont maintenant proportionnelles `a la fonction de regression. Si
le mod`ele sajuste relativement bien, les vt devraient etre assez faibles (disons
inferieures `a environ 0.05). Maintenant, souvenons-nous que ew
= 1+w
pour des valeurs de w proches de zero. Par consequent, pour des mod`eles qui
sajustent relativement bien, (2.15) sera tr`es similaire au mod`ele
2 3 v t
zt3 e .
yt = e1 zt2
(2.16)
(2.17)
qui est un mod`ele de regression lineaire. Il est evident que ce mod`ele, qui
est lineaire dans tous les param`etres et dans les logarithmes de toutes les
gression Line
aires et Non Line
aires
2.5 Fonctions de Re
63
variables, sera plus facile `a estimer que le mod`ele non lineaire (2.14). Les
arguments que lon a developpes plus tot sugg`erent que cest, en tout cas, plus
plausible. Ainsi, il ne devrait pas etre surprenant dapprendre que les mod`eles
de regression log-lineaire, comme (2.17), sont tr`es frequemment estimes en
pratique, alors que les mod`eles multiplicatifs avec des aleas additifs comme
(2.14) ne le sont que tr`es rarement.
Un mod`ele purement multiplicatif comme (2.16) peut etre rendu lineaire
en passant en logarithme. Toutefois, un mod`ele qui melange les deux structures, multiplicative et additive, ne peut pas etre transforme en un mod`ele
lineaire. Ainsi, peu importe la mani`ere dont sont precises les aleas; des
mod`eles qui int`egrent des fonctions de regression du type
3
xt () = 1 + 2 zt2
+ 4 zt3 et
(2.18)
3 4
xt () = 1 + 2 zt2
zt3
(2.19)
(2.21)
4 = 4 ,
s non Line
aires
Les Moindres Carre
64
2 5
4
2 =
3 4
5
et
2
3
4
5
Il sagit dun caract`ere typique des contraintes non lineaires que de pouvoir etre formulees de plusieurs facons differentes mais equivalentes, et par
consequent, la fonction de regression peut etre parametrisee de differentes
facons.
On retrouve tr`es frequemment des fonctions de regression comme (2.20)
en econometrie. Elles apparaissent, par exemple, dans certains mod`eles avec
anticipations rationnelles consulter Hoffman et Schmidt (1981) ou Gregory
et Veall (1985, 1987) et dans les mod`eles avec correlation en serie (voir
Chapitre 10). De tels mod`eles ne sont pas particuli`erement difficiles `a estimer
en general, pourvu que les contraintes soient plus ou moins exactes.
a
2.6 Termes dAle
Il existe deux elements que lon doit preciser lorsque lon specifie un mod`ele
de regression: la fonction de regression xt () et au moins quelques proprietes
des aleas ut . Nous avons dej`
a eu loccasion de constater `a quel point ces
derni`eres etaient importantes. En rajoutant les erreurs `a variance constante `a
la fonction de regression `a structure multiplicative (2.13), nous avons obtenu
un mod`ele de regression veritablement non lineaire. Mais lorsque nous avons
applique des erreurs qui etaient proportionnelles `a la fonction de regression,
comme dans (2.15), et fait usage de lapproximation ew
= 1 + w, qui est une
approximation satisfaisante pour des petites valeurs de w, nous avons obtenu
un mod`ele de regression log-lineaire. Il devrait donc etre clair `a partir de cet
exemple, que la mani`ere dont sont precises les aleas aura un effet considerable
sur le mod`ele qui est reellement estime.
Dans (2.01), nous avons defini les aleas comme independants, tous
desperance nulle et de variance egale `a 2, mais nous navons pas precise
leur distribution. Meme ces hypoth`eses sont quelquefois trop fortes. Elles excluent toutes les sortes de dependance `a travers les observations, et toutes les
sortes de variation dans le temps ou avec les valeurs de nimporte quelle variable independante. Elles excluent egalement des distributions o`
u les queues
sont tellement epaisses que les aleas nont pas une variance finie. Une telle
distribution est la distribution de Cauchy. Une variable aleatoire qui suit une
distribution de Cauchy ne poss`ede pas seulement une variance non finie, mais
aussi une esperance non finie. Consulter le Chapitre 4 et lAnnexe B.
Il existe plusieurs acceptions du terme independance dans la litterature
consacree `a la statistique et `a leconometrie. Deux variables aleatoires z1
et z2 sont dites aleatoirement independantes si leur fonction de repartition
a
2.6 Termes dAle
65
pour tout t 6= s, mais egalement que E h1 (ut )h2 (us ) = 0 pour toutes les
fonctions (mesurables) h1 () et h2 (). Les aleas qui sont independants et
qui poss`edent les memes esperances et variances sont quelquefois appeles
bruits blancs. Cette terminologie que lon emprunte `a la litterature scientifique, se ref`ere au fait que, tout comme la lumi`ere blanche est constituee
de quantites egales de rayonnements de toutes les parties du spectre visible,
les erreurs bruits blancs contiennent des quantites egales daleas de toutes
frequences. De nombreuses definitions differentes des bruits blancs sont en
usage en econometrie et dans dautres disciplines, et quelquefois, le terme est
employe dans un sens qui nest pas strictement conforme `a sa signification.
Remarquons limportante distinction quil faut etablir entre les aleas et les
residus. Toute regression lineaire ou non lineaire gen`ere un vecteur de residus,
que cela ait un sens ou pas. Les residus auront des proprietes qui resultent de la
facon dont on les a obtenus, sans se preoccuper de la mani`ere dont les donnees
ont ete generees. Par exemple, les residus OLS seront toujours orthogonaux
a tous les regresseurs, et les residus NLS seront toujours orthogonaux `a la
`
Dun autre cote, les aleas ne sont pas observables (mais on peut
matrice X.
les estimer) et lon doit formuler quelques hypoth`eses qui feront partie de
la definition du mod`ele. Il nous arrivera bien s
ur de tester ces hypoth`eses,
et de le faire `a laide de statistiques de tests dependant des residus que lon
calculera.
Une grande partie de la litterature concernant la specification et les tests
des mod`eles de regression est consacree aux tests de transgression des hypoth`eses derreurs i.i.d.. Lorsque de telles hypoth`eses ne sont pas bien verifees,
il est encore possible de modifier le mod`ele avec des erreurs qui ne sont
pas i.i.d. en un mod`ele o`
u les erreurs transformees le sont. Il se peut que
lhypoth`ese dindependance, ou que lhypoth`ese desperances et de variances
identiques, ou les deux simultanement, ne soient pas verifiees. Lhypoth`ese
dindependance est quelquefois mise en defaut lorsque lon travaille sur des
s non Line
aires
Les Moindres Carre
66
vt IID(0, v2 ),
o`
u wt est une variable independante qui est toujours non nulle. Cette
specification implique que ut poss`ede une esperance nulle et une variance
egale `a v2 wt2 . Supposons desormais que la fonction de regression sur laquelle
on applique les erreurs ut soit
xt () = 1 + 2 zt + 3 wt .
Bien evidemment, on peut obtenir un mod`ele avec des erreurs i.i.d. en divisant
la variable dependante et toutes les variables independantes, la constante
comprise par wt . Ce mod`ele modifie est
yt
1
zt
= 1
+ 2
+ 3 + vt .
wt
wt
wt
(2.22)
Notons que les regresseurs sont desormais 1/wt , zt /wt , et une constante, mais
le coefficient de la constante est maintenant celui de wt dans le mod`ele originel,
alors que le coefficient 1/wt est la constante du mod`ele de depart. Ainsi il est
tr`es facile deliminer lheteroscedasticite dans un cas pareil, mais il faut etre
prudent en interpretant les coefficients du mod`ele transforme.
Au Chapitre 8, nous discuterons dune hypoth`ese relativement forte que
lon fait en econometrie, cest-`a-dire
ut NID(0, 2 ),
t = 1, . . . , n,
a
2.6 Termes dAle
67
1 1
u2t
f (ut ) =
exp 2 .
2
2
La densite jointe du vecteur `a n composantes u (dont lelement type est ut )
est supposee etre par consequent
f (u) =
n
Y
t=1
f (ut ) =
1
2
n/2
n
1
1 X 2
u .
exp 2
n
2 t=1 t
68
s non Line
aires
Les Moindres Carre
E ( )3 = 0 et
(2.23)
E ( )4 = 3 4.
(2.24)
Lexpression (2.23) nous renseigne que pour la distribution normale, le troisi`eme moment centre (cest-`a-dire, le moment centre autour de lesperance)
est nul. Ce moment est frequemment utilise pour mesurer lasymetrie. Positif, il indique que la distribution est biaisee `a droite; negatif, il indique que
a
2.6 Termes dAle
69
0.5
0.4
0.3
0.2
0.1
0.0
..........
..... ......... ............
.... ...... ......
...
.
.
...
. ......
..
..... ..
.
.
.
.
. .. ..... ... .....
.
....
.
.
.
.
.
.
... . .....
. .
.
... .. ..
.. ....
...
.
... .. ....
.
....
. .
... .. ..
Asymetrie `
a droite .... ... .....
... . ...
... .. ...
.. . .
.... ... .....
... . ..
... .. ... Asym
etrie `
a gauche
.... .. ....
... .. ...
.... ... ....
... .. ...
... . ...
... . ..
... .. ...
.. .. ...
... . ...
........ .....
... .. ..
... .....
.. . .
.... ....
...........
.... ....
..........
.... ....
.... ..
..........
.........
.
.
.
.
.
......
.
.
. ..
.
.
.
.........
.
.
.
.
.
.
.
.
.
............
.
.
.
.
... .............
......... ....
.
.
.
.
.
.
.
.
.
.... ..............
.. .
.
.
.
.
.
.
.
.
.
.
.
..... . . .................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......... . . . . .....................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..................... . . . . . . . . ......
............................. . . . . .
...........
s non Line
aires
Les Moindres Carre
70
0.5
0.4
0.3
0.2
0.1
0.0
.............
.... ......
..
...
.
.
...
...
...
....
... Leptokurtique
...
...
. . . .. ....
.. ...
.... ...
.. ...
.
. ..
... ..
.....................................................................
......
..
.
.
.
.......
.....
.........
...........
.
.
.... ....
.
.
.
.
..... ...
... .......
..... ...
.
.. ......
... . ....
.
.
.
.
.
... .. ...
.
.
.. .......
... .. ... Platykurtique
.
.
.
.
.
... .. ...
.
.
... . ...
.. ... ....
.
.
... .. ...
.
.
.
.
.
.
.
.
... .. ...
.
.
..... ...
... . ...
.
.
.
... .. ...
.
.
.
.
.
.
.
.
... .....
.
.
.... .....
..... .....
.
.
.... ....
.
.
.
.
.
.
. ...
.... ....
.
.
.
..... .....
............
.
....... ....
.
.
.
.
.
.
.
.
.
...............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..............................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
................................................................
...........................................................................
Termes et Concepts
71
2.7 Conclusion
Ce chapitre nous a donne une introduction non rigoureuse aux mod`eles de
regression non lineaire, mettant laccent sur des concepts fondamentaux tels
que la geometrie de la regression non lineaire. Les ouvrages qui offrent un
traitement plus rigoureux sont ceux de Gallant (1987), Bates et Watts (1988),
et Seber et Wild (1989). Le prochain chapitre traite de la facon doperer des
inferences `a partir de mod`eles de regression non lineaire et introduit les idees
de base des tests dhypoth`eses pour de tels mod`eles. La prochaine etape devra
offrir un traitement des proprietes asymptotiques des moindres carres non
lineaires, et cela sera lobjet des Chapitres 4 et 5. Puis le Chapitre 6 examinera
une regression lineaire artificielle de Gauss-Newton que lon associe `a tout
mod`ele de regression non lineaire. Cette regression artificielle sav`erera tr`es
utile pour toute une variete dusages, dont le calcul des estimations NLS et le
calcul des statistiques de test.
Termes et Concepts
aleas
algorithme de minimisation
bruit blanc
colinearite
correlation en serie
distribution normale
donnees chronologiques
donnees en coupe transversale
ensemble dinformations
fonction somme des carres
heteroscedasticite
homoscedasticite
identification: globale et locale
independance: stochastique et lineaire
kurtosis: leptokurtique, mesokurtique,
platykurtique, exc`es de kurtosis
minima: locaux et globaux
mod`ele: ensemble de DGP