You are on page 1of 27

Chapitre 2

Mod`eles de Regression non Lineaire et


les Moindres Carres non Lineaires
2.1 Introduction
Dans le Chapitre 1, nous avons discute en detail de la geometrie des moindres
carres ordinaires et de leurs proprietes en tant que syst`eme de calcul. Ce
materiau est important car de nombreux mod`eles statistiques communement
usites sont souvent estimes `a laide de variantes des moindres carres. Parmi
ceux-ci, nous trouvons le type de mod`ele le plus communement rencontre
en econometrie, cest-`a-dire la classe des mod`eles de regression, dont nous
entamons letude d`es `a present. Au lieu de nous restreindre volontairement
au domaine bien connu des mod`eles de regression lineaire, quil est possible
destimer directement par OLS, nous considerons la famille plus large des
mod`eles de regression non lineaire qui peuvent etre estimes par moindres
carres non lineaires, ou NLS. Parfois, nous traiterons de mani`ere specifique
des mod`eles de regression lineaire si les resultats qui sont verifies pour de tels
mod`eles ne se generalisent pas au cas non lineaire.
Au cours de ce chapitre et des quelques chapitres suivants consacres
aux mod`eles de regression, nous porterons notre attention principalement sur
les mod`eles univaries, cest-`a-dire les mod`eles dans lesquels nexiste quune
seule variable dependante. Ceux-ci sont beaucoup plus simples `a traiter que
les mod`eles multivaries dans lesquels on trouve plusieurs variables dependantes jointes. Les mod`eles univaries sont de loin plus frequemment rencontres
en pratique que les mod`eles multivaries, et une bonne comprehension des
premiers est essentielle pour une bonne comprehension des seconds. Nous
demontrerons au Chapitre 9 quil est simple de rendre compatibles les resultats
des mod`eles univaries aux mod`eles multivaries.
Nous commencons par ecrire le mod`ele de regression lineaire univariee
sous sa forme generique:
yt = xt () + ut ,

ut IID(0, 2 ),

t = 1, . . . , n.

(2.01)

Desormais, yt represente lobservation t de la variable dependante, qui est


une variable aleatoire scalaire, et designe un vecteur `a k composantes de
45

s non Line
aires
Les Moindres Carre

46

param`etres (generalement) inconnus. La fonction scalaire xt () est une fonction de regression (le plus souvent non lineaire) qui determine lesperance de
yt conditionnelle `a et (generalement) `a certaines variables independantes.
Ces derni`eres nont pas ete mentionnees explicitement dans (2.01) mais le t en
indice de xt () indique que cette fonction varie dune observation `a lautre.
Dans la plupart des cas, cela sexplique parce que xt () depend dune ou
plusieurs variables independantes qui varient. Ainsi, xt () devrait etre interpretee comme lesperance de yt conditionnelle aux valeurs de ces variables
independantes. De mani`ere plus precise, comme nous aurons loccasion de le
voir `a la Section 2.4, elle devrait etre interpretee comme lesperance de yt conditionnelle `a un ensemble dinformations auxquels appartiennent ces variables
independantes.1
Dans certains cas, xt () pourra aussi dependre de variables retardees
de yt . Un mod`ele qui comportera une telle fonction de regression sera appele
mod`ele dynamique, et le traitement de ce genre de mod`eles complique quelque
peu lanalyse. Nous admettrons pour linstant que xt () ne depend pas des
valeurs retardees de yt , contrairement `a ce qui serait le cas si (2.01) etait un
mod`ele dynamique, mais nous abandonnerons cette hypoth`ese au Chapitre 5
lorsque nous presenterons un premier traitement de la theorie asymptotique
des moindres carres non lineaires. Dapr`es lacception du terme que nous utilisons dans cet ouvrage, les resultats asymptotiques ne sont vrais qu`a la limite,
lorsque la taille n de lechantillon tend vers linfini. La plupart des resultats
analytiques standards concernant les mod`eles de regression non lineaire, et
les mod`eles non lineaires en general, sont des resultats asymptotiques, parce
que les resultats etablis `a laide dechantillons finis et faciles `a interpreter sont
souvent extremement difficiles `a obtenir.
Les mod`eles de regression se differencient de tous les autres mod`eles
statistiques par le fait que lalea affecte les variables dependantes uniquement
par lintermediaire dun alea additif. Dans le cas precis de (2.01), cet alea est
appele ut , et la notation ut IID(0, 2 ) est un moyen concis pour dire que
les aleas ut sont supposes etre independants et identiquement distribues, ou
i.i.d., avec une esperance nulle et une variance egale `a 2. En pretendant cela,
nous ne voulons pas dire que les variables aleatoires ut ont necessairement
la meme distribution, mais simplement quelles sont desperance zero et de
1

Les lecteurs devraient etre avertis que la notation que nous avons utilisee ici
est quelque peu inhabituelle. De nombreux auteurs utilisent ft () en lieu et
place de notre xt (). Nous preferons cette notation pour deux raisons. La
premi`ere est quelle nous laisse la liberte dutiliser la notation f () pour designer
des objets autres que les fonctions de regression sans creer dambigute. La
seconde est quavec notre notation, il devient naturel de designer xt ()/i
par Xti () (voir la Section 2.2). La matrice dont lelement type est Xti ()
est de fait etroitement liee `
a la matrice habituelle X qui est utilisee dans la
plupart des traitements du mod`ele de regression lineaire, et nous esperons que
cette ressemblance decriture sera un moyen efficace de se le rappeler.

ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge

47

variance 2. A ce propos, les lecteurs devraient sans doute etre avertis que
nous derogeons `a lusage standard. Ainsi que nous le verrons dans la Section 2.6, les proprietes de ces aleas sont cruciales car elles determinent toutes
les proprietes statistiques du mod`ele, et par l`a, permettent de savoir si un
mod`ele de regression peut raisonnablement etre utilise ou pas. Quoi quil en
soit, puisque les estimations NLS (comme les estimations OLS) peuvent etre
calculees sans se preoccuper de la facon dont les donnees ont ete generees,
nous traiterons le calcul des estimations NLS avant daborder la discussion de
leurs proprietes statistiques.
Le reste du chapitre traite un certain nombre daspects des moindres
carres non lineaires et des mod`eles de regression non lineaire. Dans la
Section 2.2, nous discutons des moindres carres non lineaires en tant que
procedure de calcul qui constitue une extension des moindres carres ordinaires.
Nous demontrons que la minimisation de la somme des residus au carre pour
un mod`ele de regression non lineaire tel que (2.01) est tr`es semblable, eu
egard `a la geometrie impliquee, `a lexecution dune regression lineaire. Un
mod`ele de regression non lineaire doit etre identifie si lon desire obtenir des
estimations uniques des param`etres. Nous discutons par consequent du concept fondamental didentification dans la Section 2.3. Dans la seconde moitie
du present chapitre, nous entamerons la discussion des aspects statistiques (et
economiques) des mod`eles de regression non lineaire. Dans la Section 2.4 nous
verrons comment les equations de regression comme (2.01) sinterpr`etent, et
la distinction entre les mod`eles et les processus generateurs de donnees. Puis
des exemples de fonctions de regression lineaires et non lineaires seront examines `a la Section 2.5, alors que les aleas seront examines `a la Section 2.6.
Proceder `a des inferences `a partir de mod`eles estimes par NLS sera le th`eme
du Chapitre 3.

ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge
Le moyen de loin le plus repandu destimer aussi bien les mod`eles de regression
non lineaire que les mod`eles de regression lineaire, consiste `a minimiser la
somme des residus au carre, ou SSR, en tant que fonction de . En ce qui
concerne le mod`ele (2.01), la fonction somme-des-carres est
SSR() =

n
X

2
yt xt () .

t=1

Lecriture de cette expression sous forme matricielle est generalement plus


pratique:

SSR() = y x() > y x() ,


(2.02)
o`
u y designe un vecteur `a n composantes dobservations yt , et x() represente
un vecteur compose de n fonctions de regression xt (). Ainsi que nous lavons

s non Line
aires
Les Moindres Carre

48

constate `a loccasion du Chapitre 1, une notation alternative, qui napparat


peut-etre pas aussi facile `a manipuler algebriquement, mais qui est plus concise, met laccent sur laspect geometrique,

2
SSR() = y x() ,
(2.03)
o`
u ky x()k mesure la longueur du vecteur y x(). Selon lexpression
(2.03) il est clair que lorsque lon minimise SSR(), on minimise en fait la
distance euclidienne entre y et x(), dont nous discuterons plus longuement
de linterpretation plus loin.
La fonction somme-des-carres (2.02) peut etre recrite comme
SSR() = y>y 2y>x() + x>()x().
En derivant cette expression par rapport `a toutes les composantes du vecteur
`
a k elements, et en annulant toutes les derivees partielles, nous obtenons les
conditions du premier ordre qui doivent etre verifiees pour toute estimation
NLS du vecteur qui correspond `a un minimum interieur de SSR(). Ces
conditions du premier ordre, ou equations normales, sont
+ 2X>()x(
)
= 0,
2X>()y

(2.04)

o`
u la matrice X() de dimension n k est composee delements tels que
Xti ()

xt ()
.
i

Le fait que chaque vecteur de (2.04) poss`ede k elements implique lexistence


de k equations normales determinant les k composantes de .
Nous retrouverons `a plusieurs reprises la matrice X() lors de notre
discussion sur les moindres carres non lineaires. Chaque element de cette
matrice correspond `a la derivee partielle dun element de x() par rapport
a un element de . Comme la notation que nous avons adoptee le sugg`ere,
`
la matrice X() correspond exactement `a la matrice X dans le cas de la
regression lineaire. Ainsi, lorsque la fonction de regression x() sapparente
a la fonction lineaire X, nous voyons immediatement que X() = X.
`
Les conditions du premier ordre (2.04) peuvent leg`erement se simplifier en
regroupant les termes, en eliminant le facteur 2, et en adoptant les definitions
et X
2 Le resultat est
X().
x()
x
>(y x)
= 0.
X
2

(2.05)

Il est souvent pratique dindiquer de cette facon la dependance dun vecteur


ou dune matrice par rapport `
a un vecteur de param`etres qui a ete estime.
et
deux ensemAinsi, si 0 etait un ensemble de param`etres exact, et

et Z
bles destimations, alors Z0 designerait Z(0 ), Z designerait Z(),

designerait Z().

ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge

49
.

SSR()

..
.........
..
..
..
...
..
.
.
...
..
...
...
..
.
..
.
.
...
...
..
...
...
...
..
.
.
..
.
...
..
...
...
..
......
...
...........................................
...
.
.
.
.
.
.
.
.
.
..
.
.
.
...
........
..
...
..
...........
...
........
..
...
.............. ... ................................................................
.
..
.
...
.
.
..
.
..
..
..
...
...
....
.
.
.
.
..
..
.
.
.
...
.
.
.
.
..
...
.
.
.
.
.
.
..
.
.
.
..
...
.
.
.
...
.
..
..
..
.
.
..
.
...
..
..
..
...
..
..
...
.
..
..
..
.
.
.
.
..
.
.
...
.
.
...
.
..
.
.
.
..
.
.
.
.
.
...
..
..
..
...
.
..
.
..
..
..
...
..
...
.
.
.
..
..
.
.
.
...
.
..
..
..
.
...
.
.
..
.
.
.
..
...
.
.
.
...
.
..
..
..
...
.
..
.
..
..
..
.
.
.
...
... ....
..
..
..
..
............
..
..
..
...
..
.
.
..
.
.
..
...
..
..
..
..
...
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................

00

Figure 2.1 Une fonction somme des carres

Ces equations normales nous enseignent simplement que les residus y x

doivent etre orthogonaux `a la matrice des derivees X. Il sagit dun resultat


analogue `a celui obtenu pour les mod`eles de regression lineaire pour lesquels
les residus y X doivent etre orthogonaux `a la matrice X. La difference
entre les cas lineaire et non lineaire reside dans le fait quautant le vecteur de
Ainsi en general, nous
dependent de .
que la matrice X
valeurs ajustees x
bien que cela
ne pouvons pas esperer resoudre (2.05) analytiquement pour ,
soit realisable dans certains cas particuliers, dont bien s
ur le cas lineaire.
Notons que les conditions du premier ordre (2.05) sont necessaires mais
non suffisantes pour faire de un minimum interieur et global de la fonction
somme des carres. Il peut exister plusieurs valeurs de qui verifient (2.05)
et qui correspondent `a des minima locaux, des points stationnaires et meme
des maxima locaux. Cela est illustre sur la Figure 2.1 pour le cas o`
u il ny
a quun seul param`etre, faisant de un scalaire. Sur la figure, le minimum
mais apparaissent egalement un autre minimum local en
global se situe en ,
0
, un maximum local en 00, et un point stationnaire en .
Aucun algorithme de minimisation efficace ne sarretera sur un maximum
local ou un point stationnaire, parce quil est aise de verifier que les conditions du second ordre ne seraient pas satisfaites pour de tels points. Mais
un algorithme pourra ne pas deceler un minimum global et sarreter `a un
minimum local. En se basant uniquement sur des informations locales, aucun
algorithme ne distingue un minimum local comme 0 dun minimum global
Dans le but de trouver le minimum global, il est donc necessaire
comme .
de minimiser SSR() un certain nombre de fois, en debutant par une variete
de points de depart differents. Dans lexemple que nous avons illustre, un
algorithme efficace serait capable de trouver seulement sil debute `a partir
dun point quelconque situe `a gauche de 00 . Dans le cas unidimensionnel, il

s non Line
aires
Les Moindres Carre

50

est aise de trouver avec certitude un minimum global, d`es lors quun graphe
similaire `a la Figure 2.1 permet de le reperer. Cependant, dans le cas o`
u
le nombre de dimensions est plus eleve, les methodes graphiques ne sont en
general daucune utilite, et meme lorsque lon demarre un algorithme avec un
certain nombre de points de depart, il nexiste aucune garantie de trouver le
minimum global si lon obtient plusieurs minima locaux. Des methodes de
calcul des estimations NLS seront discutees plus tard, au Chapitre 6.
Il est instructif detudier lanalogue des Figures 1.1 et 1.3 pour le cas de
la regression non lineaire. Souvenons-nous que y peut etre considere comme
un point dans lespace des observations E n , et que la fonction de regression
lineaire X definit alors un sous-espace `a k dimensions de cet espace. Dans
la Figure 1.3, nous avons illustre, pour le cas le plus simple o`
u n = 2 et k = 1,
la facon dont les moindres carres ordinaires projettent y orthogonalement sur
S(X), le sous-espace engendre par les colonnes de X. Lorsque la fonction de
regression x() est non lineaire, mais partout differentiable, elle definit une
variete a` k dimensions,3 ou une surface lisse, qui ne constitue plus un sousespace lineaire en general. Chaque point de cette variete, que nous noterons
X, correspond (par hypoth`ese) `a une valeur differente de , et donc on pourra
se referer `a un point particulier qui correspond `a 1, en le notant X( 1 ). Il est
essentiel pour que X soit lisse partout, que chaque composante du vecteur ()
soit partout derivable. Pour nimporte quel point choisi arbitrairement, disons
la matrice X
definit un espace tangent S (X),
X()
qui correspond tout
,

simplement au sous-espace lineaire `a k dimensions S(X), translate de facon `a


Cela implique que S (X)
est tangent `a X en ce point.
avoir lorigine en X().
La Figure 2.2 illustre ces considerations dans le cas k = 1. On suppose
que x() se situe, au moins localement, dans un sous-espace de Rn `a deux
dimensions, ce qui nous permet de le dessiner sur la feuille. La figure repre 1 ) et S (X
2 ) en deux
sente la variete incurvee X, les espaces tangents S (X
1
2

points arbitrairement choisis X( ) et X( ), et les sous-espaces lineaires cor 1 ) et S(X


2 ). Ces derniers, comme les fl`eches sur la figure
respondants S(X
1 ) et S (X
2 ) respectivement, mais ne sont
lindiquent, sont parall`eles `a S (X
pas mutuellement parall`eles. Si X etait rectiligne, comme cela serait le cas
si la fonction de regression etait lineaire, alors bien evidemment il ny aurait
1 ), S(X
2 ), S (X
1 ), et S (X
2 ). Cest
pas de distinction possible entre X, S(X
justement la presence de telles distinctions qui rend les mod`eles non lineaires
plus difficiles `a traiter que les mod`eles lineaires. Notons egalement que bien
que la variete definie par une fonction de regression lineaire comprenne toujours lorigine, ce nest en general pas le cas pour une fonction non lineaire,
comme on peut le constater sur la figure.
3

Pour des definitions plus formelles dune variete, ainsi que pour une discussion minutieuse des proprietes des varietes, consulter entre autres, Spivak
(1965) pour une approche rudimentaire et Lang (1972) pour une approche
plus avancee.

ome
trie des Moindres Carre
s non Line
aires
2.2 La Ge

51

.
..
.. ......
... ..............
.. ......
... ......... 2
)
.. ......... S (X
2)
.
S(X
.
.
.
.
. ....
....
.......
...........
.
..........
.....
..
.....
....
.
.
.
1
.
.

.
.
.
.
...... S(X )
......
.... .........................
O
2 ........
.....................
.
.

.
.
.
.
.
.
.
.
.
.
.
.
X(

)
.
.
.
.
.
......
....
.................
....
.........
.
1
....
.
.
.
.
.
.
.
.
S (X ..)....
.
....
...........
...........
....
.................................................................... .......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..
.......................
...
....
..........................
1 )
.
X(

.
..
X ...

Figure 2.2 Espaces tangents `


a une variete incurvee

.
..
... ....
.. ....
......... S (X)
......
.........
.......
y .............................................................y x
..
.
.
.
.
........ ....... ......
...............
.
.
.
.......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........ .
.............
.......................
................
.............................................. ......... X
................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
O
..............
.........................................
...

x
.....................................................
.......
.
.
.
.
.
....
.........
.
.
.
.
.. ..
....... .....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......................................
...
..
.............
.
...
.
.
.
.
.
.
.
.
..
.
...
.....
...
Figure 2.3 Une regressande y projetee sur une variete non lineaire

1 ),
La Figure 2.3 montre la meme variete X que la Figure 2.2, mais S(X
1
2
S(X ), S (X ), et S (X ) ny figurent plus. Apparaissent par contre une
X().
Notons
regressande y et sa projection orthogonale sur X au point X
yx
est tangent `a X en ,

doit etre orthogonal `a S (X)


que puisque S (X)

ainsi qu`a X au point X, ce que reclament precisement les conditions du premier ordre. Comme sur cette figure la fonction de regression x(), et par

consequent la variete X, est leg`erement non lineaire, ny a quun seul point X


pour lequel les conditions du premier ordre sont satisfaites. Il est clair dapr`es
et en
la figure que y ne peut etre projetee orthogonalement sur X quen X
aucun autre point.
2

Par contraste, examinons la Figure 2.4. Sur cette figure, la variete est
X0, et X00 (corresponhautement non lineaire, et nous obtenons trois points X,

52

s non Line
aires
Les Moindres Carre

0, et 00 ), pour lesquels les conditions du premier


dant respectivement `a ,
ordre sont satisfaites. Pour chacun de ces trois points, que lon exprime sous
yx
et donc
forme un angle droit avec X,
forme generique par la notation X,

aussi avec S (X). Quoi quil en soit, dans ce cas, X correspond `a levidence
a un minimum global, X00 `
`
a un minimum local, et X0 `a un maximum local
de SSR(). Ainsi, nous avons une occasion supplementaire de constater que
lorsquun point satisfait les conditions du premier ordre, il ne correspond pas
pour autant `a une estimation NLS.
Il ne fait aucun doute dapr`es ces figures que le degre de non linearite de la
fonction de regression x() est crucial. Lorsque x() est quasiment lineaire,
les moindres carres non lineaires sont tr`es similaires aux moindres carres ordinaires. Lorsquau contraire, x() revet un caract`ere non lineaire tr`es marque,
toutes sortes de phenom`enes etranges peuvent survenir. La Figure 2.4 fait
simplement allusion `a cette derni`ere remarque, puisquil y a plusieurs facons
differentes pour des valeurs multiples de de satisfaire les conditions du premier ordre (2.05) lorsque X correspond `a une variete hautement non lineaire.
.

.
....
...
... ......
... ...
........
X00................................
......... ...............
.......
................ ......
.
.
.
.
.
.
.
.......
.
.
.
...
.
.......
.....
..
.
.......
.... ........
.
.
.......
.
.
.......
.... ....
.
.......
.
.......
......
.......
......
.......
.......
.......................
.
.......
..
0 .... .................................................................................................................................................
........................................ y
X ......
............
.
.
.
.
.
.
.
.
.
.......
.
.
........
.
....
...........
... ..
........................
....
.
.
.
..... ...
.
.
........ .....
. .
....
........... ......................
... ....
.
...........
...... ... .......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
................... .........
...
........
..........
...........
....
....
.........
...........
.
.
.
.
.
.
.
.
.
...........
.
.
.
....................

.
X
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
..............
.
..........
.
.
.
.
.
.
.
.
.
.
.
.
......
.....
.
.
..........
.
.
.
.
.
.
.
.
...
.
.
.
.
.
O
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........... .......
....
.............

Figure 2.4 Une variete hautement non lineaire

`les non Line


aires
2.3 Identification dans les Mode
Pour reussir pleinement la minimisation de SSR(), il est necessaire davoir
un mod`ele identifie. Lidentification evoque un concept geometrique simple qui sapplique `a une variete tr`es large de mod`eles et de techniques
destimation. Malheureusement, le terme identification a ete associe dans
lesprit de plusieurs etudiants en econometrie `a lalg`ebre fastidieuse du mod`ele
dequations lineaires simultanees. Lidentification est en fait un resultat pour
de tels mod`eles, et il existe quelques probl`emes particuliers qui apparaissent

`les non Line


aires
2.3 Identification dans les Mode

53

.
.............
.... ......................
....
......
...
.....
...
...
...
...
............................... ..........
.
... ..
...... .....
...
.. ..
... ...
....
... ... ................. ...................
........ ..... ..... Courbes de niveau de SSR()
... .. ..
...
...... ..... .....
... ... ...
...
.. .. .
... ... ..
...
.... ... ... ............... ..........................
...
.... .... ... ... ...... ..... ..... ....
..... .... ..... .....
.... .... ... ..
...
.... .... .... ...
..... ..... .... ....
...
.... .... .... ....
..... .... ..... .....
.... .... .... ....
. . . .
....
.
.
.
.
.... .... .... .... ............... ....... .......
...
.... .... .... .... .... .... .... ....
...
..... ..... ..... ..... ... .... .... ....
..... ..... ..... .....
. . .. ..
...
..... ..... ..... ....... .... ...... ....... .......
...
..... ..... ...... ............ ... ... ....
...
..... ..... ......
... ... ....
...
..... ...... ......
.
..... ..... .......... .... .... .....
....
... ...
.
.
.
.
.
.
.
..... ..... .........
...
... ...
..... .....
...
..... .......
. .
... ......
.. ...
...
.................................................................................................................................................................................................................................................................................
.......
..
...... 1
..........
............................

2 ...........

Figure 2.5 Minimum identifie dune fonction somme des carres

` leur sujet (consulter les Chapitres 7 et 18), mais il sagit un concept qui
a
sapplique `a tout mod`ele econometrique. Pour lessentiel, un mod`ele de moindres carres non lineaires est identifie par un ensemble dinformations donne
si, pour cet ensemble de donnees, il est possible de trouver un unique qui
minimise SSR(). Si le mod`ele nest pas identifie par les donnees utilisees,
et peut-etre un nombre infini dentre eux. Certains
il existera plus dun ,
mod`eles peuvent netre identifies par aucun ensemble concevable de donnees,
alors que dautres peuvent etre identifies par quelques ensembles de donnees,
mais pas par tous.
On distingue deux sortes didentifications, lidentification locale et lidentification globale. Les estimations des moindres carres seront identifiees
la valeur de SSR() sel`eve.
localement si pour toute modification leg`ere de ,
On peut etablir cette definition de facon formelle comme la necessite davoir
de sorte que
une fonction SSR() strictement convexe en ,
< SSR( + )
SSR()
pour une petite variation . Souvenons-nous que la convexite stricte est
verifiee si la matrice Hessienne H(), dont lelement type est
Hij ()

2SSR()
,
i j

La stricte convexite implique que SSR() soit inest definie positive en .


curvee dans toutes les directions; aucun plat nest autorise quelle que soit la
il serait
direction. Si SSR() etait plate dans une direction au voisinage de ,
possible de seloigner de dans cette direction sans jamais modifier la valeur
de la somme des residus au carre (rappelons-nous que les derivees premi`eres de
de sorte que SSR() doit etre egale `a SSR()
en tout
SSR() sont nulles en ,

s non Line
aires
Les Moindres Carre

54

.
.............
.... .............
.... ....................................
...
... ... ........................ .......
...
... ... ... ............... .......
...
... ... ... ......... ...... ...... ......
...
... ... .... .... ...... ...... ...... ......
....
... ... ... .... ..... ..... ..... ..... .........................................
... ... ..... ..... ...... ...... ...... ........
Courbes de niveau de
...
... .... .... .... . ..... ..... ..... ......
...
.
. ..
... B ........................................................................................................................................... .........
...
.... ..... ..... ..... ..... ..... ..... ..... .....
.... .... .... ..... ..... ..... ..... ..... ....
...
.... .... .... .... .... .... .... .... ....
...
.... .... .... .... .... .... .... .... .....
.... .... ..... .... ..... ..... ..... ..... ....
....
.... .... .... ..... .... .... .... .... ....
.... .... .... .... .... .... .... .... ....
...
..... ..... .... .... .... .... .... .... ...
...
..... ..... ..... ..... ..... ..... ..... .... .....
...
..... ..... ...... ...... ..... ..... ..... ..... .....
...
..... ..... ..... ..... ..... ...... .... .... ....
...
..... ..... ..... ..... ................................................................................................... A
...
..... ..... ..... ..... ..... .... .... ...
..... ..... ..... ..... .... .... ... ...
....
..... ...... ..... ..... .... .... ... ...
..... ..... ...... ...... .... ... .. ...
...
..... ..... ..... ......... .. ... ..
...
..... ..... ..... ... .. ...
...
......................................................................................................................................................................................................................................................................................
....... .................... ..
...... 1
..........
............................

2 ...........

SSR()

Figure 2.6 Minimum non identifie dune fonction somme des carres

point de cette region). Par consequent ne serait pas lunique estimateur


NLS, mais au plus un des points parmi le nombre infini de ceux qui minimisent tous SSR(). La Figure 2.5 illustre les courbes de niveau de SSR()
pour le cas habituel o`
u correspond `a un minimum local unique, alors que
la Figure 2.6 les represente pour le cas o`
u le mod`ele nest pas identifie, parce
que tous les points le long de la ligne AB minimisent SSR().
Lidentification locale est necessaire mais non suffisante pour nous fournir
une estimation unique. Une condition plus generale est lidentification globale, que lon etablit formellement par
< SSR( )
SSR()

pour tout

6= .

Cette definition de lidentification globale reste, `a vrai dire, une simple refor Remarmulation de la condition dobtenir un unique qui minimise SSR().
quons que meme si un mod`ele est identifie localement, il est toujours possible
quil y ait deux (ou davantage) estimations distinctes, soit 1 et 2, avec
SSR(1 ) = SSR(2 ). A titre dexemple, examinons le mod`ele
yt = + 2 zt + ut .

(2.06)

) minimise la SSR pour ce mod`ele, (,



Il apparat clairement que si (,
)
en fera autant. Donc le mod`ele est globalement non identifie par quelque
ensemble de donnees que ce soit, bien que les conditions du premier ordre
et du second ordre soient satisfaites aux deux minima. Cet exemple peut
paratre simpliste `a premi`ere vue, mais le meme phenom`ene apparat souvent
dans de nombreux mod`eles utilises par les economistes. Un exemple se trouve
etre celui des mod`eles de series temporelles avec une composante derreur `a
moyenne mobile; consulter le Chapitre 10.

`les non Line


aires
2.3 Identification dans les Mode

55

...
..
........ SSR()
...
...
...
...
.
.
.
....
...
...
...
....
...
...
.
....
...
...
...
...
....
.
.
...
.
.......
..
...
........... ... ..................
...
......
...
.......
...
.
.
.
.
.
.
.
......
...
....
....
.....
...
.....
...
.....
....
...
.....
...
.
.
.
.
.
.
.
.
....
..
...
....
.....
...
...
...
.....
....
...
.....
.
...
.
.
.
.
.
.
.
......
.
....
....
......
...
.....
....
...
.
.....
.......
.... .... ... .... .... ... .... ...................................... .... ... ... .... ... ... .... .... ... .... .... .... .... ... ... ....... ... .... .... ... .... .... ... .... .... ... .... .... ... .... ....................................... ... .... .... ... .... .... ..
..
..
....
..
..
..
..
....
..
..
.
.
..
..
..
.
..
..
..
.
..
.
.
.
.
..............................................................................................................................................................................................................................................
.
.
1
2

O.

Figure 2.7 Cas o`


u est localement identifie mais non globalement

La Figure 2.7 illustre ce que peut donner la fonction somme des carres
pour un mod`ele qui est localement mais non globalement identifie dans le sens
donne precedemment. La fonction somme-des-carres ne poss`ede quun seul
argument, , et elle est symetrique par rapport `a lorigine de . Le minimum
de SSR est donc atteint en 1 et en 2. Chacune des estimations potentielles
est identifiee localement, mais le mod`ele nest pas identifie globalement.
Il est aussi envisageable davoir un mod`ele globalement identifie, sans
pour autant que la condition didentification locale, impliquant que la matrice
Hessienne est definie positive, soit satisfaite, pour certaines valeurs particu Ce genre de lacune didentification ne pose pas de difficulte si
li`eres de .
la valeur realisee se situe assez loin de ces valeurs particuli`eres, et nous
parvenons `a la calculer, mais il rend difficile lestimation du mod`ele. A titre
dexemple, considerons la fonction de regression
xt () = 1 + 2 zt3 .

(2.07)

Il est evident quun mod`ele incorporant cette fonction de regression ne sera


pas identifie lorsque 2 = 0, car 3 naura alors aucun effet sur la valeur de
xt () et par l`a, aucun effet sur SSR(). En consequence, nimporte quelle
valeur de 3 conviendrait pour 3 . De facon similaire, le mod`ele sera non
identifie si 3 = 0, car alors zt3 et la constante ne pourront etre distinguees.
Mais parce que 2 ou 3 ne seront nulles que pour des ensembles de donnees
peu communs, ce mod`ele sera en realite identifie par tous les ensembles de
donnees, exception faite de ces ensembles inhabituels.
La fonction de regression (2.07) sert `a illustrer un phenom`ene quil est
plus frequent de rencontrer en pratique que les mod`eles non identifies, cest-`adire des mod`eles qui sont insuffisamment identifies. Un mod`ele insuffisamment
identifie correspond `a un mod`ele pour lequel la matrice Hessienne H() nest
pas veritablement singuli`ere, mais qui devient presque singuli`ere pour des
Ces valeurs de sont celles qui nous preoccupent
valeurs de proches de .

s non Line
aires
Les Moindres Carre

56

le plus, puisque lalgorithme de minimisation les rencontrera lorsquil essaiera


de minimiser SSR(). Bien que SSR() ne soit pas reellement plate pour
un mod`ele insuffisamment identifie, elle est quasiment plate, et ceci pourrait
causer quelques probl`emes `a lalgorithme avec lequel on tente de minimiser
SSR(). Dans le contexte des mod`eles de regression lineaire, ce phenom`ene
correspond `a la colinearite ou multicolinearite (bien que le prefixe du second
terme soit redondant), et il se rev`ele en rendant la matrice X>X presque
singuli`ere.
La continuite de la fonction de regression implique quun mod`ele qui
incorpore la fonction de regression (2.07) sera insuffisamment identifie sil
arrive que la vraie valeur de 2 ou de 3 soit assez proche de zero, mais pas
veritablement egale. En realite, il y a de fortes chances pour quil soit mal
identifie meme pour des valeurs de ces param`etres tr`es differentes de zero,
car pour la grande majorite des ensembles de donnees de zt , la Hessienne
de ce mod`ele sera presque singuli`ere. Ainsi que nous le demontrerons au
Chapitre 5, la Hessienne H() pour les mod`eles de regression non lineaire,
est generalement assez bien approximee par
pour des valeurs proches de ,
la matrice
2X>()X().
Pour la fonction de regression (2.07), la ligne t de la matrice X() est

1 zt3 2 zt3 log(zt ) .

La troisi`eme colonne de X() est ainsi similaire `a la deuxi`eme, chaque element


de celle-ci multiplie par une constante et log(zt ) etant egal `a lelement correspondant de la troisi`eme colonne. A moins que letendue des valeurs de
zt ne soit tr`es grande, ou quil y ait quelques valeurs de zt tr`es proches de
zero, zt3 et 2 zt3 log(zt ) tendront `a etre fortement correlees, rendant la matrice X>()X(), et par l`a la Hessienne dans la plupart des cas, presque
singuli`ere. Cet exemple sera examine en detail dans le Chapitre 6.
Les concepts didentification locale et globale dont nous venons de discuter diff`erent quelque peu des concepts correspondants didentification
asymptotique, que nous verrons au Chapitre 5. Un mod`ele est identifie asymptotiquement aussi bien localement que globalement si, lorsque la taille n de
lechantillon tend vers linfini, le mod`ele est toujours identifie selon la signification que nous avons donnee. Il sagit davantage dune propriete du mod`ele
et de la facon dont les donnees ont ete generees (consulter la Section 2.4 pour
une discussion sur les processus generateurs de donnees) quune propriete
du mod`ele et dun ensemble de donnees. Comme nous le verrons au cours du
Chapitre 5, il est fort possible davoir un mod`ele identifie avec des echantillons
finis d`a peu pr`es nimporte quel ensemble de donnees et pourtant non identifie asymptotiquement; et il est tout aussi envisageable davoir un mod`ele
identifie asymptotiquement et non identifie par les nombreux ensembles de
donnees dont on dispose.

`les et Processus Ge
ne
rateurs de Donne
es
2.4 Mode

57

`les et Processus Ge
ne
rateurs de Donne
es
2.4 Mode
En economie, rares sont les situations o`
u une relation telle que (2.01) represente reellement la facon dont la variable dependante est generee, telle quelle
le serait si xt () etait une fonction de reponse `a un phenom`ene physique, et
ut les erreurs de mesure de yt . Au lieu de cela, elle correspond souvent `a une
facon de modeliser les variations de yt causees par les valeurs de certaines
variables. Celles-ci peuvent etre les seules variables qui soient renseignees,
ou celles qui nous interessent pour un usage particulier. Si nous disposions
de davantage dinformations sur les variables explicatives potentielles, nous
pourrions fort bien specifier des xt () differentes en utilisant linformation
additionnelle.
Il est quelquefois souhaitable de rendre explicite le fait que xt () represente lesperance conditionnelle de yt , cest-`a-dire lesperance de yt dependant
des valeurs dune quantite dautres variables. On appelle souvent lensemble
des variables qui conditionne yt lensemble dinformations. Si lon note t
lensemble dinformations qui conditionne la valeur attendue de yt , on pourrait
definir xt () formellement par E(yt | t ). Il est possible davoir plus dun
ensemble dinformations de ce genre, et donc simultanement
x1t (1 ) E(yt | 1t ) et

x2t (2 ) E(yt | 2t ),

o`
u 1t et 2t representent les deux ensembles dinformations. Les fonctions
x1t (1 ) et x2t (1 ) peuvent differer fortement, et on pourrait vouloir les estimer
ensemble `a des fins differentes. Il existe plusieurs circonstances pour lesquelles
on ne desire pas faire dependre yt de toutes les informations disponibles.
Par exemple, si lon specifie une fonction de regression dans le but ultime
de realiser des previsions, il ny a pas de raison de faire dependre yt des
informations qui ne sont pas disponibles pour la periode pour laquelle on
effectue la prevision. Meme lorsque lon desire integrer toutes les informations
disponibles, le fait quune variable particuli`ere appartienne `a t nimplique pas
quelle apparatra dans xt (), d`es lors que sa valeur ne nous renseigne pas sur
lesperance conditionnelle de yt , et lintroduire peut amoindrir notre capacite
a estimer limpact des autres variables sur cette esperance conditionnelle.
`
Pour toute variable dependante yt donnee et tout ensemble dinformations
t , il est toujours possible dinterpreter la difference yt E(yt | t ) comme
lalea associe `a lobservation t. Mais pour quun mod`ele de regression soit
operationnel, ces differences doivent generalement avoir la propriete detre
i.i.d.. En fait, il est envisageable, lorsque la taille de lechantillon est importante, de traiter des cas o`
u les aleas sont independants, identiquement
distribues uniquement `a legard des esperances, mais pas forcement `a legard
des variances. Nous discuterons des techniques de traitement de tels cas dans
les Chapitres 16 et 17, et dans ce dernier nous abandonnerons lhypoth`ese
dindependance. Comme nous le decouvrirons au Chapitre 3 cependant,
les techniques conventionnelles pour pratiquer des inferences `a partir des

s non Line
aires
Les Moindres Carre

58

mod`eles de regression sont sujettes `a caution lorsque la propriete di.i.d. fait


defaut aux mod`eles, meme lorsque la fonction de regression xt () est correctement specifiee. Ainsi, nous perdons toute liberte dans le choix arbitraire de lensemble dinformations et dans lestimation dune fonction de
regression definie et basee sur cet ensemble lorsque nous desirons proceder
a des inferences `a partir des procedures conventionnelles.
`
Il existe malgre tout des cas exceptionnels pour lesquels on peut choisir
nimporte quel ensemble dinformations, car les mod`eles etablis sur les differents ensembles dinformations seront toujours mutuellement coherents. Par
exemple, supposons que le vecteur compose des yt et de chaque xit (xit allant
de x1t `a xmt ) est independant et identiquement distribue suivant la loi normale
multivariee. Alors si xt represente un vecteur compose de nimporte quel sousensemble delements allant de x1t `a xmt , on peut encore ecrire
yt = 0 + xt + ut ,

ut NID(0, 2 ),

(2.08)

o`
u la notation ut NID(0, 2 ) est un moyen simple de dire que les ut sont
normalement et independamment distribues, ou n.i.d., avec une esperance
nulle et une variance egale `a 2 . Ceci est vrai pour tout sous-ensemble compose de xit car toute combinaison lineaire de variables suivant la loi normale
multivariee, est elle-meme normalement distribuee. Ainsi lalea ut defini de
mani`ere implicite dans (2.08) sera normalement et independamment distribue
et sans consideration des xit que lon introduit dans xt , et lon peut toujours
choisir 0 convenablement de facon `a rendre son esperance nulle. Ceci est vrai
meme si xt est un vecteur nul, puisque (2.08) ne fait que traduire lidee selon
laquelle yt est egale `a son esperance, plus une variable aleatoire ut qui est n.i.d.
avec une esperance nulle, et yt est elle-meme normalement distribuee. Pour
plus de details sur ces considerations et sur dautres cas particuliers, et pour
un traitement plus approfondi sur linterpretation des mod`eles de regression,
consulter Spanos (1986).
Un mod`ele tel que (2.01) devrait etre distingue dun processus generateur
de donnees, ou DGP, tel que
yt = xt (0 ) + ut ,

ut NID(0, 02 ),

t = 1, . . . , n.

(2.09)

Un mod`ele de regression tel que (2.01) specifie que lesperance de yt conditionnee par un ensemble defini de variables Zt est une fonction donnee de Zt
et des param`etres (generalement inconnus) , et que les yt sont mutuellement
independants et ont la meme variance autour de leur esperance conditionnelle. Dautre part, un DGP est une caracterisation compl`ete des proprietes
statistiques de la variable dependante. Si le DGP est connu, alors aussi bien
les valeurs de tous les param`etres que les distributions de toutes les quantites
aleatoires doivent etre precisees.
Ainsi emergent deux differences fondamentales entre le mod`ele (2.01) et
le DGP (2.09). Le premier implique un vecteur inconnu de coefficients , alors

`les et Processus Ge
ne
rateurs de Donne
es
2.4 Mode

59

que lautre fait reference `a un vecteur de coefficients bien defini 0 , qui serait
connu si lon connaissait le DGP. Les aleas ut du mod`ele sont simplement
definis comme independants et identiquement distribues, avec une esperance
nulle et une variance inconnue egale `a 2, alors que les aleas du DGP sont
normalement et independamment distribues avec une variance connue 02 , qui
nous permet de generer une serie de ut si nous le desirons. Bien evidemment,
nous aurions egalement pu preciser un DGP avec des erreurs qui suivent une
distribution autre que la normale; ce qui importe reellement, cest que la
distribution soit specifiee compl`etement. Dautre part, nous pouvons etre
interesses par ce qui se passe avec la famille enti`ere des DGP, et dans de tels
cas une specification totale nest pas appropriee.
Un mod`ele peut ainsi etre imagine comme un ensemble de DGP. Lors
du processus destimation du mod`ele, ce que nous essayons dobtenir, cest
une caracterisation estimee du DGP qui a reellement genere les donnees; dans
le cas du mod`ele de regression non lineaire (2.01) la caracterisation desiree
consiste en un ensemble de param`etres estimes, cest-`a-dire, des estimations
des param`etres inconnus de la fonction de regression, ainsi quune estimation
de la variance des erreurs, 2. Mais puisque dans une regression non lineaire
seules lesperance et la variance des erreurs sont precisees, la caracterisation
du DGP obtenue par lestimation du mod`ele est partielle ou incompl`ete. Plus
tard, dans le Chapitre 8, nous discuterons dune autre methode destimation,
celle du maximum de vraisemblance, qui offre une caracterisation compl`ete
du DGP apr`es estimation. Ainsi, on peut dire que cette methode produit un
unique DGP estime, alors que toute methode adoptee pour estimer un mod`ele
de regression non lineaire produit un ensemble de DGP, qui satisfont tous la
caracterisation estimee.
Cet ensemble de DGP, ou lunique DGP estime lorsque ce sera le cas, appartient evidemment `a lensemble des DGP defini par le mod`ele. Lestimation
statistique peut donc etre consideree comme une procedure avec laquelle on
selectionne un sous-ensemble de DGP `a partir dun ensemble donne de DGP.
Cette selection est bien s
ur une procedure aleatoire, puisquun seul DGP
appartenant au mod`ele peut generer des ensembles differents dobservations
aleatoires qui entranent des caracterisations aleatoires estimees differentes. Il
est ensuite possible de disserter sur la probabilite, pour un DGP donne, que la
caracterisation soit proche, dans un certain sens, du DGP lui-meme. On peut
alors classer ces differentes procedures destimation selon ces probabilites, et
nous prefererons generalement des procedures destimation efficaces, cest-`adire celles pour lesquelles la probabilite que le sous-ensemble selectionne soit
proche du DGP est la plus forte, toujours sous lhypoth`ese que le DGP appartient reellement au mod`ele.
Il nous est impossible de dire quoi que ce soit dinteressant `a propos des
proprietes statistiques des estimateurs et des statistiques de test sans preciser
`
a la fois le mod`ele et le processus qui a genere les donnees. En pratique bien
s
ur, nous ne connaissons presque jamais le DGP, sauf si nous procedons `a

60

s non Line
aires
Les Moindres Carre

une experience Monte Carlo au cours de laquelle nous avons le privil`ege de


generer nous-memes les donnees (consulter le Chapitre 21). Ainsi, lorsque
nous estimons des mod`eles, et `a moins detre extremement chanceux, nous
ne pouvons pas pretendre raisonnablement que le processus qui a reellement
genere les donnees est un cas particulier du mod`ele que nous avons estime,
tel que (2.09) lest de (2.01). Dans le cours que nous developpons dans cet
ouvrage, nous supposerons neanmoins frequemment que cest en fait le cas
car il devient alors facile detablir des resultats definitifs. Mais nous aurons
egalement loccasion de traiter explicitement des situations o`
u le DGP nest
pas un cas particulier du mod`ele que lon estime.
La structure additive du mod`ele de regression non lineaire permet de discuter des deux parties qui composent le mod`ele separement. Nous abordons
tout dabord les fonctions de regression, qui determinent lesperance conditionnelle de yt , et ensuite nous aborderons les aleas qui determinent tous les
moments conditionnels dordre superieur. Il est fondamental de se souvenir
que chaque fois que lon estime un mod`ele comme (2.01), on fait, implicitement ou explicitement, des hypoth`eses sur xt () et ut , qui sont generalement
assez fortes. Puisquil est impossible de faire usage des techniques standards
pour obtenir des inferences valides si ces hypoth`eses sont fausses, il est crucial
de bien les matriser et bien s
ur, de les tester contre les valeurs calculees `a
partir des donnees.

gression Line
aires et Non Line
aires
2.5 Fonctions de Re
La fonction de regression generale xt () peut etre precisee par un grand nombre de moyens. Il peut etre tr`es utile de considerer un certain nombre de cas
particuliers de facon `a avoir une idee de la variete des fonctions de regression
specifiques qui sont le plus souvent utilisees dans la pratique.
La fonction de regression la plus simple est
xt () = 1 t = 1 ,

(2.10)

o`
u t est lelement t dun vecteur dont les n composantes sont egales `a lunite.
Dans ce cas, le mod`ele (2.01) indique que lesperance conditionnelle de yt est
tout simplement une constante. Bien que ce soit un exemple simpliste de
fonction de regression, puisque xt () est identique quel que soit t, il sagit
neanmoins dun bon exemple pour debuter, et que lon doit garder `a lesprit.
Toutes les fonctions de regression sont tout simplement des versions de (2.10)
plus elaborees. Et toute fonction de regression qui ne sajuste pas aux donnees
au moins aussi bien que (2.10) devrait etre consideree comme une bien mauvaise fonction de regression.
La fonction qui est ensuite la plus simple est la fonction de regression
lineaire simple
xt () = 1 + 2 zt ,
(2.11)

gression Line
aires et Non Line
aires
2.5 Fonctions de Re

61

o`
u zt est lunique variable independante. En realite, un mod`ele encore
plus simple consisterait `a ne garder que la variable independante et `a rejeter le terme constant. Cependant, dans la majorite des probl`emes appliques, cela na pas de sens domettre la constante. De nombreuses fonctions de regression lineaires sont utilisees en tant quapproximations des fonctions inconnues desperance conditionnelle, et de telles approximations seront
rarement precises si elles sont contraintes de passer par lorigine. Lequation
(2.11) poss`ede deux param`etres, une ordonnee `a lorigine 1 et une pente 2 .
Cette fonction est lineaire en ses deux variables (t et zt , ou tout simplement zt
si lon decide de ne pas considerer t comme une variable) et en ses param`etres
(1 et 2 ). Bien que ce mod`ele soit trop simple, il poss`ede certains avantages.
Parce quil est tr`es facile de grapher yt contre zt , on peut utiliser ce graphe
pour visualiser la fonction de regression, la facon dont le mod`ele sajuste, et
si la relation lineaire decrit correctement les donnees. Mais lorsquun mod`ele
int`egre plus dune variable independante, visualiser les donnees de cette facon
devient plus problematique, et donc moins habituel.
Une generalisation evidente de (2.11) est la fonction de regression lineaire
multiple
xt () = 1 zt1 + 2 zt2 + 3 zt3 + + k ztk ,
(2.12)
o`
u les zti (zti allant de zt1 `a ztk ) sont les variables independantes, et zt1 peut
etre un terme constant. Il aurait ete possible de formuler cette fonction de
regression de facon plus ramassee
xt () = Zt ,
o`
u Zt represente un vecteur de dimension 1 k, et designe un vecteur de
dimension k 1. Notons que (2.12) repose sur une hypoth`ese extremement
forte, cest-`a-dire celle que leffet sur yt dune modification dune des variables independantes est independant des valeurs de toutes les autres variables
independantes. Lorsque cette hypoth`ese est fausse, les mod`eles de regression
lineaire multiple peuvent serieusement induire une erreur.
Puis vient tout un eventail de fonctions de regression ressemblant `a
2
xt () = 1 zt1 + 2 zt2 + 3 zt2
+ 4 zt1 zt2 ,

qui est lineaire en ses param`etres mais qui fait appel `a des variables independantes dune mani`ere non lineaire. Les mod`eles qui impliquent cette famille de
fonctions de regression peuvent etre manipules comme nimporte quel autre
mod`ele de regression lineaire, tout simplement en definissant de nouveaux
regresseurs de facon appropriee. Ici, par exemple, on pourrait definir zt3
2
comme zt2
et zt4 comme zt1 zt2 . En faisant usage de ce genre de fonction on
evite de subir les effets qui sadditionnent, comme limplique (2.12), mais cela
necessiterait sans doute destimer plus de param`etres quil ne serait utile en
pratique avec de nombreux ensembles de donnees. A cause de cela, et `a moins

62

s non Line
aires
Les Moindres Carre

quil nexiste des raisons theoriques de sattendre `a ce que des puissances


ou des produits de variables independantes napparaissent dans la fonction
de regression, la plupart des econom`etres essaieront dignorer ce genre de
specification en pratique.
Une fonction de regression qui permet `a toutes les variables independantes dinteragir sans recourir `a lestimation de param`etres supplementaires
est la fonction multiplicative
2 3
xt () = e1 zt2
zt3 .

(2.13)

Remarquons que cette fonction peut etre evaluee uniquement lorsque zt2 et
zt3 sont positifs pour tout t. Cest la premi`ere veritable fonction de regression
non lineaire que nous rencontrons, puisquil est clair quelle nest lineaire ni
en ses param`etres ni en ses variables. Cependant, un mod`ele non lineaire tel
que
2 3
yt = e1 zt2
zt3 + ut
(2.14)
est tr`es rarement estime dans la pratique. La raison en est que lhypoth`ese
daleas additifs et identiquement distribues est autant encombrante que peu
realiste. Elle est peu realiste car les zti sont multiplicatifs, ce qui implique que
leurs effets dependent des niveaux que prennent toutes les valeurs des autres
variables, alors que les aleas sont additifs, ce qui rend leur effet independant
des niveaux des autres variables explicatives. Elle est encombrante car (2.14)
doit etre estimee par moindres carres non lineaires plutot que par moindres
carres lineaires.
Il est facile de modifier (2.14) de facon `a donner aux aleas une structure
multiplicative. Le mod`ele le plus evident que lon peut alors formuler est

2 3
2 3
yt = e1 zt2
zt3 (1 + vt ) e1 zt2
zt3 + ut ,
(2.15)
o`
u les perturbations 1 + vt , qui sont des quantites sans unite de mesure, sont
multiplicatives. Bien que les erreurs sous-jacentes vt soient i.i.d., les erreurs
additives ut sont maintenant proportionnelles `a la fonction de regression. Si
le mod`ele sajuste relativement bien, les vt devraient etre assez faibles (disons
inferieures `a environ 0.05). Maintenant, souvenons-nous que ew
= 1+w
pour des valeurs de w proches de zero. Par consequent, pour des mod`eles qui
sajustent relativement bien, (2.15) sera tr`es similaire au mod`ele
2 3 v t
zt3 e .
yt = e1 zt2

(2.16)

Supposons desormais que lon passe en logarithme, de chaque cote de legalite.


Le resultat est
log(yt ) = 1 + 2 log(zt2 ) + 3 log(zt3 ) + vt ,

(2.17)

qui est un mod`ele de regression lineaire. Il est evident que ce mod`ele, qui
est lineaire dans tous les param`etres et dans les logarithmes de toutes les

gression Line
aires et Non Line
aires
2.5 Fonctions de Re

63

variables, sera plus facile `a estimer que le mod`ele non lineaire (2.14). Les
arguments que lon a developpes plus tot sugg`erent que cest, en tout cas, plus
plausible. Ainsi, il ne devrait pas etre surprenant dapprendre que les mod`eles
de regression log-lineaire, comme (2.17), sont tr`es frequemment estimes en
pratique, alors que les mod`eles multiplicatifs avec des aleas additifs comme
(2.14) ne le sont que tr`es rarement.
Un mod`ele purement multiplicatif comme (2.16) peut etre rendu lineaire
en passant en logarithme. Toutefois, un mod`ele qui melange les deux structures, multiplicative et additive, ne peut pas etre transforme en un mod`ele
lineaire. Ainsi, peu importe la mani`ere dont sont precises les aleas; des
mod`eles qui int`egrent des fonctions de regression du type
3
xt () = 1 + 2 zt2
+ 4 zt3 et

(2.18)

3 4
xt () = 1 + 2 zt2
zt3

(2.19)

doivent necessairement etre estimes `a laide des methodes non lineaires.


Comme on devrait sy attendre, de tels mod`eles ne sont pas estimes aussi
frequemment que les mod`eles lineaires ou log-lineaires, dune part parce que
la paresse nous y pousse sans doute, et dautre part car il ny a souvent pas
de raison, ni theorique ni empirique, qui nous permettent de choisir ce type
de specification plutot que les mod`eles conventionnels. En fait, les fonctions
de regression comme (2.18) et (2.19) sont dune difficulte de traitement notoire, car il est complexe destimer conjointement tous les param`etres avec
nimporte quel degre de precision. Souvenons-nous de la discussion `a propos
du fait que les mod`eles fondes sur la fonction de regression (2.06), qui est tr`es
similaire `a celles-ci, sont le plus souvent insuffisamment identifies.
Lultime exemple dune fonction de regression non lineaire que nous allons
aborder est tr`es different par rapport `a (2.18). Considerons la fonction de
regression
xt () = 1 + 2 (zt2 3 zt3 ) + 4 (zt4 3 zt5 ).
(2.20)
Cette fonction est lineaire en ses variables independantes t et zt2 , zt3 , zt4 et
zt5 , mais elle est non lineaire en ses param`etres i (allant de 1 `a 4 ). Mais il
sagit en realite dune fonction de regression lineaire avec une seule contrainte
non lineaire sur les coefficients. Pour apercevoir ceci, examinons la fonction
de regression lineaire non contrainte
xt () = 1 + 2 zt2 + 3 zt3 + 4 zt4 + 5 zt5 .
Si lon impose la contrainte non lineaire
3
2
= ,
5
4
et si lon reparametrise ensuite de facon `a ce que
5
1 = 1 , 2 = 2 , 3 = , et
4

(2.21)

4 = 4 ,

s non Line
aires
Les Moindres Carre

64

on obtient (2.20). Remarquons quil y a plusieurs mani`eres equivalentes


decrire la contrainte (2.21), dont
3 =

2 5
4

2 =

3 4
5

et

2
3

4
5

Il sagit dun caract`ere typique des contraintes non lineaires que de pouvoir etre formulees de plusieurs facons differentes mais equivalentes, et par
consequent, la fonction de regression peut etre parametrisee de differentes
facons.
On retrouve tr`es frequemment des fonctions de regression comme (2.20)
en econometrie. Elles apparaissent, par exemple, dans certains mod`eles avec
anticipations rationnelles consulter Hoffman et Schmidt (1981) ou Gregory
et Veall (1985, 1987) et dans les mod`eles avec correlation en serie (voir
Chapitre 10). De tels mod`eles ne sont pas particuli`erement difficiles `a estimer
en general, pourvu que les contraintes soient plus ou moins exactes.

a
2.6 Termes dAle
Il existe deux elements que lon doit preciser lorsque lon specifie un mod`ele
de regression: la fonction de regression xt () et au moins quelques proprietes
des aleas ut . Nous avons dej`
a eu loccasion de constater `a quel point ces
derni`eres etaient importantes. En rajoutant les erreurs `a variance constante `a
la fonction de regression `a structure multiplicative (2.13), nous avons obtenu
un mod`ele de regression veritablement non lineaire. Mais lorsque nous avons
applique des erreurs qui etaient proportionnelles `a la fonction de regression,
comme dans (2.15), et fait usage de lapproximation ew
= 1 + w, qui est une
approximation satisfaisante pour des petites valeurs de w, nous avons obtenu
un mod`ele de regression log-lineaire. Il devrait donc etre clair `a partir de cet
exemple, que la mani`ere dont sont precises les aleas aura un effet considerable
sur le mod`ele qui est reellement estime.
Dans (2.01), nous avons defini les aleas comme independants, tous
desperance nulle et de variance egale `a 2, mais nous navons pas precise
leur distribution. Meme ces hypoth`eses sont quelquefois trop fortes. Elles excluent toutes les sortes de dependance `a travers les observations, et toutes les
sortes de variation dans le temps ou avec les valeurs de nimporte quelle variable independante. Elles excluent egalement des distributions o`
u les queues
sont tellement epaisses que les aleas nont pas une variance finie. Une telle
distribution est la distribution de Cauchy. Une variable aleatoire qui suit une
distribution de Cauchy ne poss`ede pas seulement une variance non finie, mais
aussi une esperance non finie. Consulter le Chapitre 4 et lAnnexe B.
Il existe plusieurs acceptions du terme independance dans la litterature
consacree `a la statistique et `a leconometrie. Deux variables aleatoires z1
et z2 sont dites aleatoirement independantes si leur fonction de repartition

a
2.6 Termes dAle

65

jointe F (z1 , z2 ) est egale au produit de leurs deux fonctions de repartition


marginale respectives F (z1 , ) et F (, z2 ). On appelle quelquefois cela
lindependance en probabilite, mais nous ferons usage du premier terme, plus
moderne. Certains auteurs ecrivent que deux variables aleatoires z1 et z2 sont
lineairement independantes si E(z1 z2 ) = E(z1 )E(z2 ), une condition moins
forte, qui decoule de lindependance stochastique, mais qui ne lentrane pas.
Cette terminologie est assez malvenue car le sens lineairement independant
ne saccorde pas avec le sens habituel que lon utilise en alg`ebre lineaire. Au
contraire, dans cette situation, on pourrait au plus dire que z1 et z2 sont non
correlees, et poss`edent une covariance nulle. Si z1 , ou z2 , est desperance nulle
et est non correlee avec z2 (respectivement z1 ), alors E(z1 z2 ) = 0. Il existe
un sens selon lequel z1 et z2 sont orthogonaux dans cette situation, et nous
utiliserons quelquefois cette terminologie.
Lorsque nous disons que les ut sont i.i.d., nous signifions par le premier i
que les ut sont aleatoirement independants.
que E(ut us ) = 0
Cela implique

pour tout t 6= s, mais egalement que E h1 (ut )h2 (us ) = 0 pour toutes les
fonctions (mesurables) h1 () et h2 (). Les aleas qui sont independants et
qui poss`edent les memes esperances et variances sont quelquefois appeles
bruits blancs. Cette terminologie que lon emprunte `a la litterature scientifique, se ref`ere au fait que, tout comme la lumi`ere blanche est constituee
de quantites egales de rayonnements de toutes les parties du spectre visible,
les erreurs bruits blancs contiennent des quantites egales daleas de toutes
frequences. De nombreuses definitions differentes des bruits blancs sont en
usage en econometrie et dans dautres disciplines, et quelquefois, le terme est
employe dans un sens qui nest pas strictement conforme `a sa signification.
Remarquons limportante distinction quil faut etablir entre les aleas et les
residus. Toute regression lineaire ou non lineaire gen`ere un vecteur de residus,
que cela ait un sens ou pas. Les residus auront des proprietes qui resultent de la
facon dont on les a obtenus, sans se preoccuper de la mani`ere dont les donnees
ont ete generees. Par exemple, les residus OLS seront toujours orthogonaux
a tous les regresseurs, et les residus NLS seront toujours orthogonaux `a la
`
Dun autre cote, les aleas ne sont pas observables (mais on peut
matrice X.
les estimer) et lon doit formuler quelques hypoth`eses qui feront partie de
la definition du mod`ele. Il nous arrivera bien s
ur de tester ces hypoth`eses,
et de le faire `a laide de statistiques de tests dependant des residus que lon
calculera.
Une grande partie de la litterature concernant la specification et les tests
des mod`eles de regression est consacree aux tests de transgression des hypoth`eses derreurs i.i.d.. Lorsque de telles hypoth`eses ne sont pas bien verifees,
il est encore possible de modifier le mod`ele avec des erreurs qui ne sont
pas i.i.d. en un mod`ele o`
u les erreurs transformees le sont. Il se peut que
lhypoth`ese dindependance, ou que lhypoth`ese desperances et de variances
identiques, ou les deux simultanement, ne soient pas verifiees. Lhypoth`ese
dindependance est quelquefois mise en defaut lorsque lon travaille sur des

s non Line
aires
Les Moindres Carre

66

donnees chronologiques: les aleas successifs ut peuvent etre correles entre


eux, faisant apparatre plus distinctement le phenom`ene de correlation en
serie. Lhypoth`ese de distributions identiques est souvent mise `a mal lorsque
lon travaille avec des donnees en coupe transversale: des ut differents peuvent sembler provenir de la meme famille de distribution mais ont des variances differentes, et mettent en perspective le phenom`ene dheteroscedasticite.
Le terme oppose heteroscedasticite est incidemment homoscedasticite. Si les
aleas poss`edent une variance commune, on dit quils sont homoscedastiques;
lorsque ce nest pas le cas on dit quils sont heteroscedastiques. Bien s
ur, la
correlation des aleas `a travers les observations nest en rien une caracteristique
exclusive des donnees chronologiques, et lheteroscedasticite nest en rien
une caracteristique exclusive des donnees en coupe transversale. Ces deux
phenom`enes peuvent survenir avec tous les types densembles de donnees,
mais malgre tout, on associe necessairement la correlation en serie avec les
donnees chronologiques, et lheteroscedasticite est particuli`erement frequente
avec les donnees en coupe transversale.
Nous traiterons plus en detail la correlation en serie et lheteroscedasticite
dans les chapitres qui leur sont consacres (tout particuli`erement, les Chapitres
9, 10, 11 et 16). Pour linstant, et `a titre dillustration, considerons une forme
simple dheteroscedasticite:
ut = wt vt ,

vt IID(0, v2 ),

o`
u wt est une variable independante qui est toujours non nulle. Cette
specification implique que ut poss`ede une esperance nulle et une variance
egale `a v2 wt2 . Supposons desormais que la fonction de regression sur laquelle
on applique les erreurs ut soit
xt () = 1 + 2 zt + 3 wt .
Bien evidemment, on peut obtenir un mod`ele avec des erreurs i.i.d. en divisant
la variable dependante et toutes les variables independantes, la constante
comprise par wt . Ce mod`ele modifie est
yt
1
zt
= 1
+ 2
+ 3 + vt .
wt
wt
wt

(2.22)

Notons que les regresseurs sont desormais 1/wt , zt /wt , et une constante, mais
le coefficient de la constante est maintenant celui de wt dans le mod`ele originel,
alors que le coefficient 1/wt est la constante du mod`ele de depart. Ainsi il est
tr`es facile deliminer lheteroscedasticite dans un cas pareil, mais il faut etre
prudent en interpretant les coefficients du mod`ele transforme.
Au Chapitre 8, nous discuterons dune hypoth`ese relativement forte que
lon fait en econometrie, cest-`a-dire
ut NID(0, 2 ),

t = 1, . . . , n,

a
2.6 Termes dAle

67

qui precise que les ut sont normalement et independamment distribues avec


une esperance nulle et une variance egale `a 2. Ainsi chaque ut est suppose
obeir `a la distribution normale dont la fonction de densite de probabilite est

1 1
u2t
f (ut ) =
exp 2 .
2
2
La densite jointe du vecteur `a n composantes u (dont lelement type est ut )
est supposee etre par consequent
f (u) =

n
Y
t=1

f (ut ) =

1
2

n/2

n
1
1 X 2
u .
exp 2
n
2 t=1 t

Il existe trois raisons principales pour supposer la normalite. La premi`ere


dentre elles est que grace `a leur facilite de calcul et `a leurs proprietes
famili`eres, on desire souvent faire usage des moindres carres pour estimer
des mod`eles de regression, et la justification de cet usage est plus solide
lorsque les erreurs sont normalement distribuees que lorsque ce nest pas le
cas. Comme nous le verrons au cours du Chapitre 8, les moindres carres
appliques `a un mod`ele de regression disposent de proprietes asymptotiques
excellentes lorsque les erreurs sont normales, mais lorsque ces erreurs suivent
une autre distribution quelconque connue, leurs proprietes ne sont plus aussi
bonnes. La deuxi`eme raison est que lorsque lon suppose la normalite, on peut
obtenir le plus souvent des resultats plus solides que lorsque lon suppose simplement que les erreurs sont supposees etre i.i.d.. En particulier, pour les
mod`eles de regression lineaire avec regresseurs fixes et erreurs normales, nous
pouvons obtenir des resultats exacts avec des echantillons finis (consulter le
Chapitre 3); de tels resultats ne sont meme pas disponibles pour des mod`eles
lineaires quand les erreurs sont simplement supposees etre i.i.d.. La troisi`eme
raison est que lorsque lon quitte le domaine des mod`eles de regression pour
essayer de traiter des mod`eles non lineaires plus generaux, il devient souvent necessaire de faire des hypoth`eses sur la distribution, et la distribution
normale est bien souvent la plus pratique `a utiliser.
Aucune de ces raisons pratiques de supposer que les aleas sont normalement distribues noffre une quelconque justification pour formuler une telle hypoth`ese. Largument usuel est que les aleas representent les effets combines de
nombreuses variables que lon a oubliees, et les nombreuses erreurs de mesure.
Les Theor`emes de la Limite Centrale (que nous verrons au Chapitre 4) nous
affirment que, tr`es grossi`erement, lorsque lon etablit la moyenne dun grand
nombre de variables aleatoires, la moyenne obtenue est approximativement
normalement distribuee, en rapport plus ou moins fid`ele avec les distributions
des variables aleatoires originelles. Largument habituel est que lhypoth`ese
de normalite a du sens parce que nous pouvons penser que les aleas dans les
mod`eles de regression sont ainsi en moyenne.

68

s non Line
aires
Les Moindres Carre

Il y a au moins deux probl`emes avec ce genre dargument. Premi`erement,


comme nous le verrons au Chapitre 4, les theor`emes de la limite centrale
necessitent des hypoth`eses relativement fortes. Ils sappliquent `a des situations o`
u lon fait la moyenne de plusieurs variables aleatoires, dont aucune
nest grande par rapport `a toutes les autres. Il est aise de penser `a des variables economiques qui peuvent etre omises dans les mod`eles de regression, et qui
constituent donc une partie des aleas, mais qui seraient peut-etre relativement
importantes par rapport `a ces aleas. Dans le cas de mod`eles chronologiques,
des gr`eves, des elections ou dautres evenements politiques, et des tempetes
ou dautres conditions climatiques extremes sont quelques exemples qui nous
viennent `a lesprit. Il nexiste sans doute aucune raison a priori de sattendre
a ce que les effets de tels evenements ne soient responsables que dune pe`
tite partie de lerreur globale pour toute observation donnee. Dans le cas
des mod`eles `a coupe transversale, largument de normalite est probablement
moins pesant. Lorsque nous disposons dun echantillon important dindividus
ou dentreprises, nous devons constater que quelques observations comprises
dans lechantillon ne doivent pas sy trouver en realite. Considerons, par exemple, leffet sur un mod`ele en coupe transversale de la demande de viande
dun petit nombre dindividus vegetariens! Inevitablement, les erreurs associees `a ces observations particuli`eres seront elevees, de sorte quil est peu
probable que la distribution des aleas pour le mod`ele tout entier soit normale.
Le second probl`eme avec largument du theor`eme de la limite centrale est
que beaucoup de theor`emes de la limite centrale ne sappliquent pas lorsque le
nombre de variables aleatoires dont on fait la moyenne est lui-meme aleatoire.
Mais puisque nous ne savons pas quelles variables ont ete omises et rejetees
dans les aleas, nous navons aucune raison dimaginer que leur nombre est le
meme dobservation en observation! Alors on ne peut pas toujours invoquer
legitimement un theor`eme de la limite centrale.
Ces arguments ne doivent pas suggerer quil est idiot de supposer la
normalite. Mais que nous ayons suppose ou pas la normalite ne nous empeche
pas de voir si oui ou non les aleas sont en realite approximativement normaux.
Si ils ne sont pas approximativement normaux, alors la sagesse nous conseille
de remettre en question lusage des moindres carres. Il existe, bien s
ur, un
nombre infini de distributions non normales, et donc un nombre infini de types
de non normalite `a examiner. Cependant, la grande majorite des tests de non
normalite mettent laccent sur deux proprietes de la distribution normale. Si
N (, 2 ), alors

E ( )3 = 0 et
(2.23)

E ( )4 = 3 4.
(2.24)
Lexpression (2.23) nous renseigne que pour la distribution normale, le troisi`eme moment centre (cest-`a-dire, le moment centre autour de lesperance)
est nul. Ce moment est frequemment utilise pour mesurer lasymetrie. Positif, il indique que la distribution est biaisee `a droite; negatif, il indique que

a
2.6 Termes dAle

69

0.5

0.4

0.3

0.2

0.1

0.0

..........
..... ......... ............
.... ...... ......
...
.
.
...
. ......
..
..... ..
.
.
.
.
. .. ..... ... .....
.
....
.
.
.
.
.
.
... . .....
. .
.
... .. ..
.. ....
...
.
... .. ....
.
....
. .
... .. ..
Asymetrie `
a droite .... ... .....
... . ...
... .. ...
.. . .
.... ... .....
... . ..
... .. ... Asym
etrie `
a gauche
.... .. ....
... .. ...
.... ... ....
... .. ...
... . ...
... . ..
... .. ...
.. .. ...
... . ...
........ .....
... .. ..
... .....
.. . .
.... ....
...........
.... ....
..........
.... ....
.... ..
..........
.........
.
.
.
.
.
......
.
.
. ..
.
.
.
.........
.
.
.
.
.
.
.
.
.
............
.
.
.
.
... .............
......... ....
.
.
.
.
.
.
.
.
.
.... ..............
.. .
.
.
.
.
.
.
.
.
.
.
.
..... . . .................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......... . . . . .....................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..................... . . . . . . . . ......
............................. . . . . .
...........

Figure 2.8 Distributions asymetriques

la distribution est biaisee `


a gauche. La Figure 2.8 illustre deux distributions asymetriques, et, pour comparer une distribution symetrique. Les tests
dasymetrie sont relativement aises; ils seront traites dans le chapitre 16.
Lexpression (2.24) nous indique que le quatri`eme moment centre dune
variable aleatoire normale est egale `a trois fois le carre de sa variance. Une variable aleatoire dont le quatri`eme moment est plus eleve que trois fois le carre
de son deuxi`eme moment poss`ede des queues de distribution plus epaisses
quune variable aleatoire qui suit une distribution normale. On dit quelquefois quil fait etat de lexc`es de kurtosis ou que la distribution est leptokurtique. Au contraire, lorsquune variable aleatoire `a un quatri`eme moment
inferieur `a trois fois le carre de son second moment, elle poss`ede des queues de
distribution plus fines quune variable aleatoire distribuee normalement. De
telles variables aleatoires sont dites platykurtiques. De facon similaire, on dit
souvent des variables aleatoires qui suivent la distribution normale quelles
sont mesokurtiques. Les lecteurs qui ont quelques notions de Grec pourraient
penser que ces definitions sont erronees, puisque lepto signifie fin et platy signifie epais. Comme lexpliquent Kendall et Stuart (1977, p. 88), ces termes
etaient `a lorigine destines `a caracteriser les parties centrales des distributions
et non les queues de distribution; ainsi les distributions leptokurtiques sont
ainsi nommees non pas parce quelles ont des queues de distributions epaisses
mais parce quelles ont des parties centrales (relativement) minces, et les distributions platykurtiques sont ainsi nommees non pas `a cause de leurs queues
de distribution fines parce quelles ont des parties centrales (relativement)
epaisses. Toutefois, ce sont aux queues de distribution auxquelles se ref`erent
les statisticiens contemporains en employant ces termes. La Figure 2.9 illustre

s non Line
aires
Les Moindres Carre

70
0.5

0.4

0.3

0.2

0.1

0.0

.............
.... ......
..
...
.
.
...
...
...
....
... Leptokurtique
...
...
. . . .. ....
.. ...
.... ...
.. ...
.
. ..
... ..
.....................................................................
......
..
.
.
.
.......
.....
.........
...........
.
.
.... ....
.
.
.
.
..... ...
... .......
..... ...
.
.. ......
... . ....
.
.
.
.
.
... .. ...
.
.
.. .......
... .. ... Platykurtique
.
.
.
.
.
... .. ...
.
.
... . ...
.. ... ....
.
.
... .. ...
.
.
.
.
.
.
.
.
... .. ...
.
.
..... ...
... . ...
.
.
.
... .. ...
.
.
.
.
.
.
.
.
... .....
.
.
.... .....
..... .....
.
.
.... ....
.
.
.
.
.
.
. ...
.... ....
.
.
.
..... .....
............
.
....... ....
.
.
.
.
.
.
.
.
.
...............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..............................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
................................................................
...........................................................................

Figure 2.9 Distributions leptokurtique et platykurtique

des distributions leptokurtiques et platykurtiques. A titre de comparaison, la


distribution normale standard a egalement ete representee (en pointille).
Les queues de distribution fines ne representent pas vraiment un probl`eme
(et ne sont pas non plus tr`es frequentes), mais les queues de distribution
epaisses peuvent causer de graves difficultes pour lestimation et linference.
Si les aleas suivent une distribution dont les queues de distribution sont plus
epaisses que celles de la distribution normale, alors des erreurs importantes
inhabituelles surviendront relativement souvent. La procedure des moindres
carres donne un grand poids `a ces erreurs importantes, et peut donc entrainer
des estimations des param`etres inefficaces.
Il est assez facile de tester lexc`es de kurtosis; voir Chapitre 16. Cependant, ce quil faut faire si lon trouve un exc`es de kurtosis substantiel, nest
pas clairement etabli. Lheteroscedasticite peut conduire `a lapparence de
kurtosis, comme le ferait une fonction de regression incorrectement specifiee,
de sorte quil serait souhaitable dexaminer la specification du mod`ele. Si
lon est confiant dans la specification de la fonction de regression et quil ny
a pas dheteroscedasticite, alors il serait s
urement plus sage de considerer
dautres methodes que les moindres carres. Il existe une litterature importante consacree `a ce que les statisticiens appellent des methodes destimations
robustes, qui donnent un poids plus faible aux valeurs detachees que les
moindres carres; consulter Krasker, Kuh, et Welsch(1983) pour une revue de
litterature. De mani`ere alternative, on pourrait postuler dautres distributions que la normale qui poss`ederait des queues de distribution plus epaisses,
puis faire usage de la methode du maximum de vraisemblance, dont nous
discuterons en detail au cours du Chapitre 8 et des chapitres suivants.

Termes et Concepts

71

2.7 Conclusion
Ce chapitre nous a donne une introduction non rigoureuse aux mod`eles de
regression non lineaire, mettant laccent sur des concepts fondamentaux tels
que la geometrie de la regression non lineaire. Les ouvrages qui offrent un
traitement plus rigoureux sont ceux de Gallant (1987), Bates et Watts (1988),
et Seber et Wild (1989). Le prochain chapitre traite de la facon doperer des
inferences `a partir de mod`eles de regression non lineaire et introduit les idees
de base des tests dhypoth`eses pour de tels mod`eles. La prochaine etape devra
offrir un traitement des proprietes asymptotiques des moindres carres non
lineaires, et cela sera lobjet des Chapitres 4 et 5. Puis le Chapitre 6 examinera
une regression lineaire artificielle de Gauss-Newton que lon associe `a tout
mod`ele de regression non lineaire. Cette regression artificielle sav`erera tr`es
utile pour toute une variete dusages, dont le calcul des estimations NLS et le
calcul des statistiques de test.

Termes et Concepts
aleas
algorithme de minimisation
bruit blanc
colinearite
correlation en serie
distribution normale
donnees chronologiques
donnees en coupe transversale
ensemble dinformations
fonction somme des carres
heteroscedasticite
homoscedasticite
identification: globale et locale
independance: stochastique et lineaire
kurtosis: leptokurtique, mesokurtique,
platykurtique, exc`es de kurtosis
minima: locaux et globaux
mod`ele: ensemble de DGP

mod`eles de regression: lineaire et non


lineaire, multivariee et univariee
moindres carres non lineaires
moments centres
moyenne conditionnelle
multicolinearite
asymetrie
processus generateur de donnees
(DGP); relation avec les mod`eles
restrictions non lineaires
resultats asymptotiques
Theor`emes de la Limite Centrale
variables aleatoires independantes et
identiquement distribuees (i.i.d.)
variables dependantes et
independantes
variance derreur

You might also like