You are on page 1of 27

Chapitre 2

Modèles de Régression non Linéaire et


les Moindres Carrés non Linéaires

2.1 Introduction
Dans le Chapitre 1, nous avons discuté en détail de la géométrie des moindres
carrés ordinaires et de leurs propriétés en tant que système de calcul. Ce
matériau est important car de nombreux modèles statistiques communément
usités sont souvent estimés à l’aide de variantes des moindres carrés. Parmi
ceux-ci, nous trouvons le type de modèle le plus communément rencontré
en économétrie, c’est-à-dire la classe des modèles de régression, dont nous
entamons l’étude dès à présent. Au lieu de nous restreindre volontairement
au domaine bien connu des modèles de régression linéaire, qu’il est possible
d’estimer directement par OLS, nous considérons la famille plus large des
modèles de régression non linéaire qui peuvent être estimés par moindres
carrés non linéaires, ou NLS. Parfois, nous traiterons de manière spécifique
des modèles de régression linéaire si les résultats qui sont vérifiés pour de tels
modèles ne se généralisent pas au cas non linéaire.
Au cours de ce chapitre et des quelques chapitres suivants consacrés
aux modèles de régression, nous porterons notre attention principalement sur
les modèles univariés, c’est-à-dire les modèles dans lesquels n’existe qu’une
seule variable dépendante. Ceux-ci sont beaucoup plus simples à traiter que
les modèles multivariés dans lesquels on trouve plusieurs variables dépend-
antes jointes. Les modèles univariés sont de loin plus fréquemment rencontrés
en pratique que les modèles multivariés, et une bonne compréhension des
premiers est essentielle pour une bonne compréhension des seconds. Nous
démontrerons au Chapitre 9 qu’il est simple de rendre compatibles les résultats
des modèles univariés aux modèles multivariés.
Nous commençons par écrire le modèle de régression linéaire univariée
sous sa forme générique:

yt = xt (β) + ut , ut ∼ IID(0, σ 2 ), t = 1, . . . , n. (2.01)

Désormais, yt représente l’observation t de la variable dépendante, qui est


une variable aléatoire scalaire, et β désigne un vecteur à k composantes de

45
46 Les Moindres Carrés non Linéaires

paramètres (généralement) inconnus. La fonction scalaire xt (β) est une fonc-


tion de régression (le plus souvent non linéaire) qui détermine l’espérance de
yt conditionnelle à β et (généralement) à certaines variables indépendantes.
Ces dernières n’ont pas été mentionnées explicitement dans (2.01) mais le t en
indice de xt (β) indique que cette fonction varie d’une observation à l’autre.
Dans la plupart des cas, cela s’explique parce que xt (β) dépend d’une ou
plusieurs variables indépendantes qui varient. Ainsi, xt (β) devrait être in-
terprétée comme l’espérance de yt conditionnelle aux valeurs de ces variables
indépendantes. De manière plus précise, comme nous aurons l’occasion de le
voir à la Section 2.4, elle devrait être interprétée comme l’espérance de yt con-
ditionnelle à un ensemble d’informations auxquels appartiennent ces variables
indépendantes.1
Dans certains cas, xt (β) pourra aussi dépendre de variables retardées
de yt . Un modèle qui comportera une telle fonction de régression sera appelé
modèle dynamique, et le traitement de ce genre de modèles complique quelque
peu l’analyse. Nous admettrons pour l’instant que xt (β) ne dépend pas des
valeurs retardées de yt , contrairement à ce qui serait le cas si (2.01) était un
modèle dynamique, mais nous abandonnerons cette hypothèse au Chapitre 5
lorsque nous présenterons un premier traitement de la théorie asymptotique
des moindres carrés non linéaires. D’après l’acception du terme que nous util-
isons dans cet ouvrage, les résultats asymptotiques ne sont vrais qu’à la limite,
lorsque la taille n de l’échantillon tend vers l’infini. La plupart des résultats
analytiques standards concernant les modèles de régression non linéaire, et
les modèles non linéaires en général, sont des résultats asymptotiques, parce
que les résultats établis à l’aide d’échantillons finis et faciles à interpréter sont
souvent extrêmement difficiles à obtenir.
Les modèles de régression se différencient de tous les autres modèles
statistiques par le fait que l’aléa affecte les variables dépendantes uniquement
par l’intermédiaire d’un aléa additif. Dans le cas précis de (2.01), cet aléa est
appelé ut , et la notation “ut ∼ IID(0, σ 2 )” est un moyen concis pour dire que
les aléas ut sont supposés être indépendants et identiquement distribués, ou
i.i.d., avec une espérance nulle et une variance égale à σ 2. En prétendant cela,
nous ne voulons pas dire que les variables aléatoires ut ont nécessairement
la même distribution, mais simplement qu’elles sont d’espérance zéro et de

1
Les lecteurs devraient être avertis que la notation que nous avons utilisée ici
est quelque peu inhabituelle. De nombreux auteurs utilisent ft (β) en lieu et
place de notre xt (β). Nous préférons cette notation pour deux raisons. La
première est qu’elle nous laisse la liberté d’utiliser la notation f (·) pour désigner
des objets autres que les fonctions de régression sans créer d’ambiguı̈té. La
seconde est qu’avec notre notation, il devient naturel de désigner ∂xt (β)/∂βi
par Xti (β) (voir la Section 2.2). La matrice dont l’élément type est Xti (β)
est de fait étroitement liée à la matrice habituelle X qui est utilisée dans la
plupart des traitements du modèle de régression linéaire, et nous espérons que
cette ressemblance d’écriture sera un moyen efficace de se le rappeler.
2.2 La Géométrie des Moindres Carrés non Linéaires 47

variance σ 2. A ce propos, les lecteurs devraient sans doute être avertis que
nous dérogeons à l’usage standard. Ainsi que nous le verrons dans la Sec-
tion 2.6, les propriétés de ces aléas sont cruciales car elles déterminent toutes
les propriétés statistiques du modèle, et par là, permettent de savoir si un
modèle de régression peut raisonnablement être utilisé ou pas. Quoi qu’il en
soit, puisque les estimations NLS (comme les estimations OLS) peuvent être
calculées sans se préoccuper de la façon dont les données ont été générées,
nous traiterons le calcul des estimations NLS avant d’aborder la discussion de
leurs propriétés statistiques.
Le reste du chapitre traite un certain nombre d’aspects des moindres
carrés non linéaires et des modèles de régression non linéaire. Dans la
Section 2.2, nous discutons des moindres carrés non linéaires en tant que
procédure de calcul qui constitue une extension des moindres carrés ordinaires.
Nous démontrons que la minimisation de la somme des résidus au carré pour
un modèle de régression non linéaire tel que (2.01) est très semblable, eu
égard à la géométrie impliquée, à l’exécution d’une régression linéaire. Un
modèle de régression non linéaire doit être identifié si l’on désire obtenir des
estimations uniques des paramètres. Nous discutons par conséquent du con-
cept fondamental d’identification dans la Section 2.3. Dans la seconde moitié
du présent chapitre, nous entamerons la discussion des aspects statistiques (et
économiques) des modèles de régression non linéaire. Dans la Section 2.4 nous
verrons comment les équations de régression comme (2.01) s’interprètent, et
la distinction entre les modèles et les processus générateurs de données. Puis
des exemples de fonctions de régression linéaires et non linéaires seront ex-
aminés à la Section 2.5, alors que les aléas seront examinés à la Section 2.6.
Procéder à des inférences à partir de modèles estimés par NLS sera le thème
du Chapitre 3.

2.2 La Géométrie des Moindres Carrés non Linéaires


Le moyen de loin le plus répandu d’estimer aussi bien les modèles de régression
non linéaire que les modèles de régression linéaire, consiste à minimiser la
somme des résidus au carré, ou SSR, en tant que fonction de β. En ce qui
concerne le modèle (2.01), la fonction somme-des-carrés est
n
X ¡ ¢2
SSR(β) = yt − xt (β) .
t=1

L’écriture de cette expression sous forme matricielle est généralement plus


pratique: ¡ ¢ ¡ ¢
SSR(β) = y − x(β) > y − x(β) , (2.02)
où y désigne un vecteur à n composantes d’observations yt , et x(β) représente
un vecteur composé de n fonctions de régression xt (β). Ainsi que nous l’avons
48 Les Moindres Carrés non Linéaires

constaté à l’occasion du Chapitre 1, une notation alternative, qui n’apparaı̂t


peut-être pas aussi facile à manipuler algébriquement, mais qui est plus con-
cise, met l’accent sur l’aspect géométrique,
° °2
SSR(β) = °y − x(β)° , (2.03)

où ky − x(β)k mesure la longueur du vecteur y − x(β). Selon l’expression


(2.03) il est clair que lorsque l’on minimise SSR(β), on minimise en fait la
distance euclidienne entre y et x(β), dont nous discuterons plus longuement
de l’interprétation plus loin.
La fonction somme-des-carrés (2.02) peut être récrite comme

SSR(β) = y>y − 2y>x(β) + x>(β)x(β).

En dérivant cette expression par rapport à toutes les composantes du vecteur


β à k éléments, et en annulant toutes les dérivées partielles, nous obtenons les
conditions du premier ordre qui doivent être vérifiées pour toute estimation
NLS du vecteur β̂ qui correspond à un minimum intérieur de SSR(β). Ces
conditions du premier ordre, ou équations normales, sont

−2X>(β̂)y + 2X>(β̂)x(β̂) = 0, (2.04)

où la matrice X(β) de dimension n × k est composée d’éléments tels que

∂xt (β)
Xti (β) ≡ .
∂βi
Le fait que chaque vecteur de (2.04) possède k éléments implique l’existence
de k équations normales déterminant les k composantes de β.
Nous retrouverons à plusieurs reprises la matrice X(β) lors de notre
discussion sur les moindres carrés non linéaires. Chaque élément de cette
matrice correspond à la dérivée partielle d’un élément de x(β) par rapport
à un élément de β. Comme la notation que nous avons adoptée le suggère,
la matrice X(β) correspond exactement à la matrice X dans le cas de la
régression linéaire. Ainsi, lorsque la fonction de régression x(β) s’apparente
à la fonction linéaire Xβ, nous voyons immédiatement que X(β) = X.
Les conditions du premier ordre (2.04) peuvent légèrement se simplifier en
regroupant les termes, en éliminant le facteur −2, et en adoptant les définitions
x̂ ≡ x(β̂) et X̂ ≡ X(β̂).2 Le résultat est

X̂>(y − x̂) = 0. (2.05)

2
Il est souvent pratique d’indiquer de cette façon la dépendance d’un vecteur
ou d’une matrice par rapport à un vecteur de paramètres qui a été estimé.
Ainsi, si α0 était un ensemble de paramètres exact, et α̂ et α̃ deux ensem-
bles d’estimations, alors Z0 désignerait Z(α0 ), Ẑ désignerait Z(α̂), et Z̃
désignerait Z(α̃).
2.2 La Géométrie des Moindres Carrés non Linéaires 49

.........
. ..
..
...
..
SSR(β) ..
.. .
.
...
.. ...
...
.. . . ..
... .
...
.. ... ...
... . . . ..
.. ... ..
... ... ......
...........................................
..
... ... ... ... ... ...
.. ... ........
...
... ........ ........... ..
.............. ... ................................................................
.. ..
... ... . ... ..
..
... ... .... . .. .. ..
.. ... . .. . .
. .
. ..
... . ... .
. . ..
.. .
... . . .
.
.
.
. ..
... . . .. .. .. ..
..
...
... .. .. .. ..
.. ... . .. .. .. ..
... .
... . . .
. .
. ..
..
... . ... .
. .
. ..
.. ... .. .. .. ..
... ...
.... ..
.
..
.
..
..
..
...
... .. .
.. .
.. ..
.. .
... . .. .
. .
. ..
...
.. ... .. . .. .. ..
... .... .... .
. ..
..
..
..
..
.. ..
... ............ .. .. ..
.. .. .
. .
. ..
... .. .. ..
.. ...
..........................................................................................................................................................................................................................................................................................................................................................................................................................................................

β̂ β 00 β0 β∗ β

Figure 2.1 Une fonction somme des carrés

Ces équations normales nous enseignent simplement que les résidus y − x̂


doivent être orthogonaux à la matrice des dérivées X̂. Il s’agit d’un résultat
analogue à celui obtenu pour les modèles de régression linéaire pour lesquels
les résidus y − Xβ̂ doivent être orthogonaux à la matrice X. La différence
entre les cas linéaire et non linéaire réside dans le fait qu’autant le vecteur de
valeurs ajustées x̂ que la matrice X̂ dépendent de β̂. Ainsi en général, nous
ne pouvons pas espérer résoudre (2.05) analytiquement pour β̂, bien que cela
soit réalisable dans certains cas particuliers, dont bien sûr le cas linéaire.
Notons que les conditions du premier ordre (2.05) sont nécessaires mais
non suffisantes pour faire de β̂ un minimum intérieur et global de la fonction
somme des carrés. Il peut exister plusieurs valeurs de β qui vérifient (2.05)
et qui correspondent à des minima locaux, des points stationnaires et même
des maxima locaux. Cela est illustré sur la Figure 2.1 pour le cas où il n’y
a qu’un seul paramètre, faisant de β un scalaire. Sur la figure, le minimum
global se situe en β̂, mais apparaissent également un autre minimum local en
β 0, un maximum local en β 00, et un point stationnaire en β ∗.
Aucun algorithme de minimisation efficace ne s’arrêtera sur un maximum
local ou un point stationnaire, parce qu’il est aisé de vérifier que les condi-
tions du second ordre ne seraient pas satisfaites pour de tels points. Mais
un algorithme pourra ne pas déceler un minimum global et s’arrêter à un
minimum local. En se basant uniquement sur des informations locales, aucun
algorithme ne distingue un minimum local comme β 0 d’un minimum global
comme β̂. Dans le but de trouver le minimum global, il est donc nécessaire
de minimiser SSR(β) un certain nombre de fois, en débutant par une variété
de points de départ différents. Dans l’exemple que nous avons illustré, un
algorithme efficace serait capable de trouver β̂ seulement s’il débute à partir
d’un point quelconque situé à gauche de β 00 . Dans le cas unidimensionnel, il
50 Les Moindres Carrés non Linéaires

est aisé de trouver avec certitude un minimum global, dès lors qu’un graphe
similaire à la Figure 2.1 permet de le repérer. Cependant, dans le cas où
le nombre de dimensions est plus élevé, les méthodes graphiques ne sont en
général d’aucune utilité, et même lorsque l’on démarre un algorithme avec un
certain nombre de points de départ, il n’existe aucune garantie de trouver le
minimum global si l’on obtient plusieurs minima locaux. Des méthodes de
calcul des estimations NLS seront discutées plus tard, au Chapitre 6.
Il est instructif d’étudier l’analogue des Figures 1.1 et 1.3 pour le cas de
la régression non linéaire. Souvenons-nous que y peut être considéré comme
un point dans l’espace des observations E n , et que la fonction de régression
linéaire Xβ définit alors un sous-espace à k dimensions de cet espace. Dans
la Figure 1.3, nous avons illustré, pour le cas le plus simple où n = 2 et k = 1,
la façon dont les moindres carrés ordinaires projettent y orthogonalement sur
S(X), le sous-espace engendré par les colonnes de X. Lorsque la fonction de
régression x(β) est non linéaire, mais partout différentiable, elle définit une
variété à k dimensions,3 ou une surface lisse, qui ne constitue plus un sous-
espace linéaire en général. Chaque point de cette variété, que nous noterons
X, correspond (par hypothèse) à une valeur différente de β, et donc on pourra
se référer à un point particulier qui correspond à β 1, en le notant X(β 1 ). Il est
essentiel pour que X soit lisse partout, que chaque composante du vecteur §(β)
soit partout dérivable. Pour n’importe quel point choisi arbitrairement, disons
β̄, la matrice X̄ ≡ X(β̄) définit un espace tangent S∗ (X̄), qui correspond tout
simplement au sous-espace linéaire à k dimensions S(X̄), translaté de façon à
avoir l’origine en X(β̄). Cela implique que S∗ (X̄) est tangent à X en ce point.
La Figure 2.2 illustre ces considérations dans le cas k = 1. On suppose
que x(β) se situe, au moins localement, dans un sous-espace de Rn à deux
dimensions, ce qui nous permet de le dessiner sur la feuille. La figure repré-
sente la variété incurvée X, les espaces tangents S∗ (X̄ 1 ) et S∗ (X̄ 2 ) en deux
points arbitrairement choisis X(β̄ 1 ) et X(β̄ 2 ), et les sous-espaces linéaires cor-
respondants S(X̄ 1 ) et S(X̄ 2 ). Ces derniers, comme les flèches sur la figure
l’indiquent, sont parallèles à S∗ (X̄ 1 ) et S∗ (X̄ 2 ) respectivement, mais ne sont
pas mutuellement parallèles. Si X était rectiligne, comme cela serait le cas
si la fonction de régression était linéaire, alors bien évidemment il n’y aurait
pas de distinction possible entre X, S(X̄ 1 ), S(X̄ 2 ), S∗ (X̄ 1 ), et S∗ (X̄ 2 ). C’est
justement la présence de telles distinctions qui rend les modèles non linéaires
plus difficiles à traiter que les modèles linéaires. Notons également que bien
que la variété définie par une fonction de régression linéaire comprenne tou-
jours l’origine, ce n’est en général pas le cas pour une fonction non linéaire,
comme on peut le constater sur la figure.

3
Pour des définitions plus formelles d’une variété, ainsi que pour une discus-
sion minutieuse des propriétés des variétés, consulter entre autres, Spivak
(1965) pour une approche rudimentaire et Lang (1972) pour une approche
plus avancée.
2.2 La Géométrie des Moindres Carrés non Linéaires 51

X ...
.
..
.. ......
... ..............
.. ......
... ......... ∗ 2
S(X̄ 2
) . .. ......... S (X̄ )
. . ...
....
.......... . ...........
......
.... ...........
..
. ..
..
.....
. 1 .
.... . ........... S(X̄ )
O .
.....................................
.
. 2 .
.
......
.
.
...... X(β̄ )........
................. ......
................. .. .....
.
.
...
.
.
S ∗
( X̄ 1
) .. .............
. ..
........ ....
.
.. ... ............. .
.... ..................
.... ..
.
.
. .
...
.......................................................................... .......
.
... . .
..
..........................
.. .
......
.. 1 ...
.... X(β̄ )

Figure 2.2 Espaces tangents à une variété incurvée

.
..
... ....
.. .... ∗
......... S (X̂)
......
.........
...
y .............................................................y − x̂ .......
...............
. ......... ....... ... .
.
................ ........ ... ........
............... ................ . ................................ X̂
...... .
............... ..
. .
...
...
...
...
...
...
.. . . . . ... . . . . . ...... ..
. .
.. .
.
O ...........................
......................................... .....
................
. ............
....
....
..................................................... x̂
.. .......
.... .
. . . .........
... ..
. . .. . . . ..... ......
............................................................. .....
.................... ...
. ...... ...
...
.

Figure 2.3 Une régressande y projetée sur une variété non linéaire

La Figure 2.3 montre la même variété X que la Figure 2.2, mais S(X̄ 1 ),
S(X̄ ), S∗ (X̄ 1 ), et S∗ (X̄ 2 ) n’y figurent plus. Apparaissent par contre une
2

régressande y et sa projection orthogonale sur X au point X̂ ≡ X(β̂). Notons


que puisque S∗ (X̂) est tangent à X en β̂, y − x̂ doit être orthogonal à S∗ (X̂)
ainsi qu’à X au point X̂, ce que réclament précisément les conditions du pre-
mier ordre. Comme sur cette figure la fonction de régression x(β), et par
conséquent la variété X, est légèrement non linéaire, n’y a qu’un seul point X̂
pour lequel les conditions du premier ordre sont satisfaites. Il est clair d’après
la figure que y ne peut être projetée orthogonalement sur X qu’en X̂ et en
aucun autre point.
Par contraste, examinons la Figure 2.4. Sur cette figure, la variété est
hautement non linéaire, et nous obtenons trois points X̂, X0, et X00 (correspon-
52 Les Moindres Carrés non Linéaires

dant respectivement à β̂, β 0, et β 00 ), pour lesquels les conditions du premier


ordre sont satisfaites. Pour chacun de ces trois points, que l’on exprime sous
forme générique par la notation X̄, y − x̄ forme un angle droit avec X̄, et donc
aussi avec S∗ (X̄). Quoi qu’il en soit, dans ce cas, X̂ correspond à l’évidence
à un minimum global, X00 à un minimum local, et X0 à un maximum local
de SSR(β). Ainsi, nous avons une occasion supplémentaire de constater que
lorsqu’un point satisfait les conditions du premier ordre, il ne correspond pas
pour autant à une estimation NLS.
Il ne fait aucun doute d’après ces figures que le degré de non linéarité de la
fonction de régression x(β) est crucial. Lorsque x(β) est quasiment linéaire,
les moindres carrés non linéaires sont très similaires aux moindres carrés ordi-
naires. Lorsqu’au contraire, x(β) revêt un caractère non linéaire très marqué,
toutes sortes de phénomènes étranges peuvent survenir. La Figure 2.4 fait
simplement allusion à cette dernière remarque, puisqu’il y a plusieurs façons
différentes pour des valeurs multiples de β de satisfaire les conditions du pre-
mier ordre (2.05) lorsque X correspond à une variété hautement non linéaire.

. .
.... ...
... ......
... ...
........
X00................................
......... ...............
... ........................ ...... .......
...
.... ........
..... ....
.......
.......
.......
.
.... .... .. .......
. .......
...... . .......
.......
...... .......
.......
.
....................... .......
.......
0 .... ................................................................................................................................................. ..
X ...... ........................................ y
....... .. . ... . . . . ............
. ........ ....
.
... .. ...........
..... ... ........................
. .. . ....
. . ........ ..... ....
.
........... ......................
... .... . .
. ........... .. .. . ........ ... .......
. . . ................... .........
....
... ....
........
.... ........... ..........
.............. .. .........
...........
......................
...
..
. X̂ ..............
...
....
... ......... ..
...........
.
. ...
. ..............
............
...
...
. ...... ... ......
O ..
. .
...
...
... ...... . . .. ...
.
......
...
. ........... .......
.............

Figure 2.4 Une variété hautement non linéaire

2.3 Identification dans les Modèles non Linéaires


Pour réussir pleinement la minimisation de SSR(β), il est nécessaire d’avoir
un modèle identifié. L’identification évoque un concept géométrique sim-
ple qui s’applique à une variété très large de modèles et de techniques
d’estimation. Malheureusement, le terme identification a été associé dans
l’esprit de plusieurs étudiants en économétrie à l’algèbre fastidieuse du modèle
d’équations linéaires simultanées. L’identification est en fait un résultat pour
de tels modèles, et il existe quelques problèmes particuliers qui apparaissent
2.3 Identification dans les Modèles non Linéaires 53
.
β2 ........... .............
.... ......................
... .... ......
... ... .....
... ... ............................... ..........
.
... ... .. ...... .....
... ... .. ..
.... ... ... ................. ...................
... ... .. .. ........ ..... .....←− Courbes de niveau de SSR(β)
... ... ... ... ...... ..... .....
... ... .. .. .. .
...
... .... ... ... ............... ..........................
.... .... ... ... ...... ..... ..... ....
... .... .... ... .. ..... .... ..... .....
... .... .... .... ... ..... ..... .... ....
.... .... .... .... ..... .... ..... .....
.... .... .... .... ....
. . . . . . . .
.... .... .... .... • ............... ....... .......
... .... .... .... .... .
... ..... ..... ..... ..... β̂ ....... ................ .......
... ..... ..... ..... ..... . . .. ..
... ..... ..... ..... ....... .... ...... ....... .......
... ..... ..... ...... ............ ... ... ....
... ..... ..... ...... ... ... ....
..... ...... ...... .
.... ..... ..... .......... .... .... .....
...
...... ..... .........
.. . . .. ... ...
... ...
... ..... .....
..... ....... . .
... ... ...... .. ...
.................................................................................................................................................................................................................................................................................
.......
..........
.. ...... β1
............................

Figure 2.5 Minimum identifié d’une fonction somme des carrés

à leur sujet (consulter les Chapitres 7 et 18), mais il s’agit un concept qui
s’applique à tout modèle économétrique. Pour l’essentiel, un modèle de moin-
dres carrés non linéaires est identifié par un ensemble d’informations donné
si, pour cet ensemble de données, il est possible de trouver un β̂ unique qui
minimise SSR(β). Si le modèle n’est pas identifié par les données utilisées,
il existera plus d’un β̂, et peut-être un nombre infini d’entre eux. Certains
modèles peuvent n’être identifiés par aucun ensemble concevable de données,
alors que d’autres peuvent être identifiés par quelques ensembles de données,
mais pas par tous.
On distingue deux sortes d’identifications, l’identification locale et l’iden-
tification globale. Les estimations β̂ des moindres carrés seront identifiées
localement si pour toute modification légère de β̂, la valeur de SSR(β) s’élève.
On peut établir cette définition de façon formelle comme la nécessité d’avoir
une fonction SSR(β) strictement convexe en β̂, de sorte que

SSR(β̂) < SSR(β̂ + δ)

pour une “petite” variation δ. Souvenons-nous que la convexité stricte est


vérifiée si la matrice Hessienne H(β), dont l’élément type est

∂ 2SSR(β)
Hij (β) ≡ ,
∂βi ∂βj

est définie positive en β̂. La stricte convexité implique que SSR(β) soit in-
curvée dans toutes les directions; aucun plat n’est autorisé quelle que soit la
direction. Si SSR(β) était plate dans une direction au voisinage de β̂, il serait
possible de s’éloigner de β̂ dans cette direction sans jamais modifier la valeur
de la somme des résidus au carré (rappelons-nous que les dérivées premières de
SSR(β) sont nulles en β̂, de sorte que SSR(β) doit être égale à SSR(β̂) en tout
54 Les Moindres Carrés non Linéaires
.
β2 ........... .............
.... .............
... .... ....................................
... ... ... ........................ .......
... ... ... ... ............... .......
... ... ... ... ......... ...... ...... ......
.... ... ... .... .... ...... ...... ...... ......
... ... ... .... ..... ..... ..... ..... .........................................
... ... ... ..... ..... ...... ...... ...... ........ Courbes de niveau de SSR(β)
... ... .... .... .... . ..... ..... ..... ......
. . ..
... B ........................................................................................................................................... .........
... .... ..... ..... ..... ..... ..... ..... ..... .....
... .... .... .... ..... ..... ..... ..... ..... ....
... .... .... .... .... .... .... .... .... ....
.... .... .... .... .... .... .... .... .....
.... .... .... ..... .... ..... ..... ..... ..... ....
.... .... .... ..... .... .... .... .... ....
... .... .... .... .... .... .... .... .... ....
..... ..... .... .... .... .... .... .... ...
...
... ..... ..... ..... ..... ..... ..... ..... .... .....
... ..... ..... ...... ...... ..... ..... ..... ..... .....
..... ..... ..... ..... ..... ...... .... .... ....
... ..... ..... ..... ..... ................................................................................................... A
... ..... ..... ..... ..... ..... .... .... ...
.... ..... ..... ..... ..... .... .... ... ...
..... ...... ..... ..... .... .... ... ...
... ..... ..... ...... ...... .... ... .. ...
..... ..... ..... ......... .. ... ..
... ..... ..... ..... ... .. ...
...
......................................................................................................................................................................................................................................................................................
....... .................... ..
.......... ...... β1
............................

Figure 2.6 Minimum non identifié d’une fonction somme des carrés

point de cette région). Par conséquent β̂ ne serait pas l’unique estimateur


NLS, mais au plus un des points parmi le nombre infini de ceux qui min-
imisent tous SSR(β). La Figure 2.5 illustre les courbes de niveau de SSR(β)
pour le cas habituel où β̂ correspond à un minimum local unique, alors que
la Figure 2.6 les représente pour le cas où le modèle n’est pas identifié, parce
que tous les points le long de la ligne AB minimisent SSR(β).
L’identification locale est nécessaire mais non suffisante pour nous fournir
une estimation β̂ unique. Une condition plus générale est l’identification glob-
ale, que l’on établit formellement par

SSR(β̂) < SSR(β ∗ ) pour tout β ∗ 6= β̂.

Cette définition de l’identification globale reste, à vrai dire, une simple refor-
mulation de la condition d’obtenir un β̂ unique qui minimise SSR(β̂). Remar-
quons que même si un modèle est identifié localement, il est toujours possible
qu’il y ait deux (ou davantage) estimations distinctes, soit β̂ 1 et β̂ 2, avec
SSR(β̂ 1 ) = SSR(β̂ 2 ). A titre d’exemple, examinons le modèle

yt = βγ + γ 2 zt + ut . (2.06)

Il apparaı̂t clairement que si (β̂, γ̂) minimise la SSR pour ce modèle, (−β̂, −γ̂)
en fera autant. Donc le modèle est globalement non identifié par quelque
ensemble de données que ce soit, bien que les conditions du premier ordre
et du second ordre soient satisfaites aux deux minima. Cet exemple peut
paraı̂tre simpliste à première vue, mais le même phénomène apparaı̂t souvent
dans de nombreux modèles utilisés par les économistes. Un exemple se trouve
être celui des modèles de séries temporelles avec une composante d’erreur à
moyenne mobile; consulter le Chapitre 10.
2.3 Identification dans les Modèles non Linéaires 55

...
........ SSR(β) ..
...
... ... ....
... .... .
.
... ...
... .... ...
.
... .... ...
... .... ...
.
... ....... .
.
... ........... ... .................. ..
... ...
......... ... ...... ....
.
.... .... ......
...
... ..... ..... ...
... .
....... .... .....
..
. .....
.. .... ....
... ... ..... ...
...
... .
..
. ..... .... .....
.. .....
. .... ......
.... ..... ...... ...
.... ....... . ... .....
.... .... ... .... .... ... .... ...................................... .... ... ... .... ... ... .... .... ... .... .... .... .... ... ... ....... ... .... .... ... .... .... ... .... .... ... .... .... ... .... ....................................... ... .... .... ... .... .... ..
..
..
.... ..
..
.. .... ..
..
..
.
.
..
..
..
.. .
.. ..
..
.
.
.
..............................................................................................................................................................................................................................................
.
.

1 .
. 2
β̂ O. β̂ β

Figure 2.7 Cas où β est localement identifié mais non globalement

La Figure 2.7 illustre ce que peut donner la fonction somme des carrés
pour un modèle qui est localement mais non globalement identifié dans le sens
donné précédemment. La fonction somme-des-carrés ne possède qu’un seul
argument, β, et elle est symétrique par rapport à l’origine de β. Le minimum
de SSR est donc atteint en β 1 et en β 2. Chacune des estimations potentielles
est identifiée localement, mais le modèle n’est pas identifié globalement.
Il est aussi envisageable d’avoir un modèle globalement identifié, sans
pour autant que la condition d’identification locale, impliquant que la matrice
Hessienne est définie positive, soit satisfaite, pour certaines valeurs particu-
lières de β̂. Ce genre de lacune d’identification ne pose pas de difficulté si
la valeur réalisée β̂ se situe assez loin de ces valeurs particulières, et nous
parvenons à la calculer, mais il rend difficile l’estimation du modèle. A titre
d’exemple, considérons la fonction de régression

xt (β) = β1 + β2 ztβ3 . (2.07)

Il est évident qu’un modèle incorporant cette fonction de régression ne sera


pas identifié lorsque β̂2 = 0, car β3 n’aura alors aucun effet sur la valeur de
xt (β) et par là, aucun effet sur SSR(β). En conséquence, n’importe quelle
valeur de β3 conviendrait pour β̂3 . De façon similaire, le modèle sera non
identifié si β̂3 = 0, car alors ztβ3 et la constante ne pourront être distinguées.
Mais parce que β̂2 ou β̂3 ne seront nulles que pour des ensembles de données
peu communs, ce modèle sera en réalité identifié par tous les ensembles de
données, exception faite de ces ensembles inhabituels.
La fonction de régression (2.07) sert à illustrer un phénomène qu’il est
plus fréquent de rencontrer en pratique que les modèles non identifiés, c’est-à-
dire des modèles qui sont insuffisamment identifiés. Un modèle insuffisamment
identifié correspond à un modèle pour lequel la matrice Hessienne H(β) n’est
pas véritablement singulière, mais qui devient presque singulière pour des
valeurs de β proches de β̂. Ces valeurs de β sont celles qui nous préoccupent
56 Les Moindres Carrés non Linéaires

le plus, puisque l’algorithme de minimisation les rencontrera lorsqu’il essaiera


de minimiser SSR(β). Bien que SSR(β) ne soit pas réellement plate pour
un modèle insuffisamment identifié, elle est quasiment plate, et ceci pourrait
causer quelques problèmes à l’algorithme avec lequel on tente de minimiser
SSR(β). Dans le contexte des modèles de régression linéaire, ce phénomène
correspond à la colinéarité ou multicolinéarité (bien que le préfixe du second
terme soit redondant), et il se révèle en rendant la matrice X>X presque
singulière.
La continuité de la fonction de régression implique qu’un modèle qui
incorpore la fonction de régression (2.07) sera insuffisamment identifié s’il
arrive que la vraie valeur de β2 ou de β3 soit assez proche de zéro, mais pas
véritablement égale. En réalité, il y a de fortes chances pour qu’il soit mal
identifié même pour des valeurs de ces paramètres très différentes de zéro,
car pour la grande majorité des ensembles de données de zt , la Hessienne
de ce modèle sera presque singulière. Ainsi que nous le démontrerons au
Chapitre 5, la Hessienne H(β) pour les modèles de régression non linéaire,
pour des valeurs β proches de β̂, est généralement assez bien approximée par
la matrice
2X>(β)X(β).
Pour la fonction de régression (2.07), la ligne t de la matrice X(β) est
£ ¤
1 ztβ3 β2 ztβ3 log(zt ) .

La troisième colonne de X(β) est ainsi similaire à la deuxième, chaque élément


de celle-ci multiplié par une constante et log(zt ) étant égal à l’élément cor-
respondant de la troisième colonne. A moins que l’étendue des valeurs de
zt ne soit très grande, ou qu’il y ait quelques valeurs de zt très proches de
zéro, ztβ3 et β2 ztβ3 log(zt ) tendront à être fortement corrélées, rendant la ma-
trice X>(β)X(β), et par là la Hessienne dans la plupart des cas, presque
singulière. Cet exemple sera examiné en détail dans le Chapitre 6.
Les concepts d’identification locale et globale dont nous venons de dis-
cuter diffèrent quelque peu des concepts correspondants d’identification
asymptotique, que nous verrons au Chapitre 5. Un modèle est identifié asymp-
totiquement aussi bien localement que globalement si, lorsque la taille n de
l’échantillon tend vers l’infini, le modèle est toujours identifié selon la signifi-
cation que nous avons donnée. Il s’agit davantage d’une propriété du modèle
et de la façon dont les données ont été générées (consulter la Section 2.4 pour
une discussion sur les processus générateurs de données) qu’une propriété
du modèle et d’un ensemble de données. Comme nous le verrons au cours du
Chapitre 5, il est fort possible d’avoir un modèle identifié avec des échantillons
finis d’à peu près n’importe quel ensemble de données et pourtant non iden-
tifié asymptotiquement; et il est tout aussi envisageable d’avoir un modèle
identifié asymptotiquement et non identifié par les nombreux ensembles de
données dont on dispose.
2.4 Modèles et Processus Générateurs de Données 57

2.4 Modèles et Processus Générateurs de Données


En économie, rares sont les situations où une relation telle que (2.01) repré-
sente réellement la façon dont la variable dépendante est générée, telle qu’elle
le serait si xt (β) était une fonction de réponse à un phénomène physique, et
ut les erreurs de mesure de yt . Au lieu de cela, elle correspond souvent à une
façon de modéliser les variations de yt causées par les valeurs de certaines
variables. Celles-ci peuvent être les seules variables qui soient renseignées,
ou celles qui nous intéressent pour un usage particulier. Si nous disposions
de davantage d’informations sur les variables explicatives potentielles, nous
pourrions fort bien spécifier des xt (β) différentes en utilisant l’information
additionnelle.
Il est quelquefois souhaitable de rendre explicite le fait que xt (β) repré-
sente l’espérance conditionnelle de yt , c’est-à-dire l’espérance de yt dépendant
des valeurs d’une quantité d’autres variables. On appelle souvent l’ensemble
des variables qui conditionne yt l’ensemble d’informations. Si l’on note Ωt
l’ensemble d’informations qui conditionne la valeur attendue de yt , on pourrait
définir xt (β) formellement par E(yt | Ωt ). Il est possible d’avoir plus d’un
ensemble d’informations de ce genre, et donc simultanément

x1t (β1 ) ≡ E(yt | Ω1t ) et x2t (β2 ) ≡ E(yt | Ω2t ),

où Ω1t et Ω2t représentent les deux ensembles d’informations. Les fonctions
x1t (β1 ) et x2t (β1 ) peuvent différer fortement, et on pourrait vouloir les estimer
ensemble à des fins différentes. Il existe plusieurs circonstances pour lesquelles
on ne désire pas faire dépendre yt de toutes les informations disponibles.
Par exemple, si l’on spécifie une fonction de régression dans le but ultime
de réaliser des prévisions, il n’y a pas de raison de faire dépendre yt des
informations qui ne sont pas disponibles pour la période pour laquelle on
effectue la prévision. Même lorsque l’on désire intégrer toutes les informations
disponibles, le fait qu’une variable particulière appartienne à Ωt n’implique pas
qu’elle apparaı̂tra dans xt (β), dès lors que sa valeur ne nous renseigne pas sur
l’espérance conditionnelle de yt , et l’introduire peut amoindrir notre capacité
à estimer l’impact des autres variables sur cette espérance conditionnelle.
Pour toute variable dépendante yt donnée et tout ensemble d’informations
Ωt , il est toujours possible d’interpréter la différence yt − E(yt | Ωt ) comme
l’aléa associé à l’observation t. Mais pour qu’un modèle de régression soit
opérationnel, ces différences doivent généralement avoir la propriété d’être
i.i.d.. En fait, il est envisageable, lorsque la taille de l’échantillon est im-
portante, de traiter des cas où les aléas sont indépendants, identiquement
distribués uniquement à l’égard des espérances, mais pas forcément à l’égard
des variances. Nous discuterons des techniques de traitement de tels cas dans
les Chapitres 16 et 17, et dans ce dernier nous abandonnerons l’hypothèse
d’indépendance. Comme nous le découvrirons au Chapitre 3 cependant,
les techniques conventionnelles pour pratiquer des inférences à partir des
58 Les Moindres Carrés non Linéaires

modèles de régression sont sujettes à caution lorsque la propriété d’i.i.d. fait


défaut aux modèles, même lorsque la fonction de régression xt (β) est “cor-
rectement” spécifiée. Ainsi, nous perdons toute liberté dans le choix arbi-
traire de l’ensemble d’informations et dans l’estimation d’une fonction de
régression définie et basée sur cet ensemble lorsque nous désirons procéder
à des inférences à partir des procédures conventionnelles.
Il existe malgré tout des cas exceptionnels pour lesquels on peut choisir
n’importe quel ensemble d’informations, car les modèles établis sur les diffé-
rents ensembles d’informations seront toujours mutuellement cohérents. Par
exemple, supposons que le vecteur composé des yt et de chaque xit (xit allant
de x1t à xmt ) est indépendant et identiquement distribué suivant la loi normale
multivariée. Alors si x∗t représente un vecteur composé de n’importe quel sous-
ensemble d’éléments allant de x1t à xmt , on peut encore écrire

yt = β0∗ + x∗t β ∗ + ut , ut ∼ NID(0, σ∗2 ), (2.08)

où la notation “ut ∼ NID(0, σ∗2 )” est un moyen simple de dire que les ut sont
normalement et indépendamment distribués, ou n.i.d., avec une espérance
nulle et une variance égale à σ∗2 . Ceci est vrai pour tout sous-ensemble com-
posé de xit car toute combinaison linéaire de variables suivant la loi normale
multivariée, est elle-même normalement distribuée. Ainsi l’aléa ut défini de
manière implicite dans (2.08) sera normalement et indépendamment distribué
et sans considération des xit que l’on introduit dans x∗t , et l’on peut toujours
choisir β0∗ convenablement de façon à rendre son espérance nulle. Ceci est vrai
même si x∗t est un vecteur nul, puisque (2.08) ne fait que traduire l’idée selon
laquelle yt est égale à son espérance, plus une variable aléatoire ut qui est n.i.d.
avec une espérance nulle, et yt est elle-même normalement distribuée. Pour
plus de détails sur ces considérations et sur d’autres cas particuliers, et pour
un traitement plus approfondi sur l’interprétation des modèles de régression,
consulter Spanos (1986).
Un modèle tel que (2.01) devrait être distingué d’un processus générateur
de données, ou DGP, tel que

yt = xt (β0 ) + ut , ut ∼ NID(0, σ02 ), t = 1, . . . , n. (2.09)

Un modèle de régression tel que (2.01) spécifie que l’espérance de yt condi-


tionnée par un ensemble défini de variables Zt est une fonction donnée de Zt
et des paramètres (généralement inconnus) β, et que les yt sont mutuellement
indépendants et ont la même variance autour de leur espérance condition-
nelle. D’autre part, un DGP est une caractérisation complète des propriétés
statistiques de la variable dépendante. Si le DGP est connu, alors aussi bien
les valeurs de tous les paramètres que les distributions de toutes les quantités
aléatoires doivent être précisées.
Ainsi émergent deux différences fondamentales entre le modèle (2.01) et
le DGP (2.09). Le premier implique un vecteur inconnu de coefficients β, alors
2.4 Modèles et Processus Générateurs de Données 59

que l’autre fait référence à un vecteur de coefficients bien défini β0 , qui serait
connu si l’on connaissait le DGP. Les aléas ut du modèle sont simplement
définis comme indépendants et identiquement distribués, avec une espérance
nulle et une variance inconnue égale à σ 2, alors que les aléas du DGP sont
normalement et indépendamment distribués avec une variance connue σ02 , qui
nous permet de générer une série de ut si nous le désirons. Bien évidemment,
nous aurions également pu préciser un DGP avec des erreurs qui suivent une
distribution autre que la normale; ce qui importe réellement, c’est que la
distribution soit spécifiée complètement. D’autre part, nous pouvons être
intéressés par ce qui se passe avec la famille entière des DGP, et dans de tels
cas une spécification totale n’est pas appropriée.
Un modèle peut ainsi être imaginé comme un ensemble de DGP. Lors
du processus d’estimation du modèle, ce que nous essayons d’obtenir, c’est
une caractérisation estimée du DGP qui a réellement généré les données; dans
le cas du modèle de régression non linéaire (2.01) la caractérisation désirée
consiste en un ensemble de paramètres estimés, c’est-à-dire, des estimations
des paramètres inconnus β de la fonction de régression, ainsi qu’une estimation
de la variance des erreurs, σ 2. Mais puisque dans une régression non linéaire
seules l’espérance et la variance des erreurs sont précisées, la caractérisation
du DGP obtenue par l’estimation du modèle est partielle ou incomplète. Plus
tard, dans le Chapitre 8, nous discuterons d’une autre méthode d’estimation,
celle du maximum de vraisemblance, qui offre une caractérisation complète
du DGP après estimation. Ainsi, on peut dire que cette méthode produit un
unique DGP estimé, alors que toute méthode adoptée pour estimer un modèle
de régression non linéaire produit un ensemble de DGP, qui satisfont tous la
caractérisation estimée.
Cet ensemble de DGP, ou l’unique DGP estimé lorsque ce sera le cas, ap-
partient évidemment à l’ensemble des DGP défini par le modèle. L’estimation
statistique peut donc être considérée comme une procédure avec laquelle on
sélectionne un sous-ensemble de DGP à partir d’un ensemble donné de DGP.
Cette sélection est bien sûr une procédure aléatoire, puisqu’un seul DGP
appartenant au modèle peut générer des ensembles différents d’observations
aléatoires qui entraı̂nent des caractérisations aléatoires estimées différentes. Il
est ensuite possible de disserter sur la probabilité, pour un DGP donné, que la
caractérisation soit proche, dans un certain sens, du DGP lui-même. On peut
alors classer ces différentes procédures d’estimation selon ces probabilités, et
nous préférerons généralement des procédures d’estimation efficaces, c’est-à-
dire celles pour lesquelles la probabilité que le sous-ensemble sélectionné soit
proche du DGP est la plus forte, toujours sous l’hypothèse que le DGP ap-
partient réellement au modèle.
Il nous est impossible de dire quoi que ce soit d’intéressant à propos des
propriétés statistiques des estimateurs et des statistiques de test sans préciser
à la fois le modèle et le processus qui a généré les données. En pratique bien
sûr, nous ne connaissons presque jamais le DGP, sauf si nous procédons à
60 Les Moindres Carrés non Linéaires

une expérience Monte Carlo au cours de laquelle nous avons le privilège de


générer nous-mêmes les données (consulter le Chapitre 21). Ainsi, lorsque
nous estimons des modèles, et à moins d’être extrêmement chanceux, nous
ne pouvons pas prétendre raisonnablement que le processus qui a réellement
généré les données est un cas particulier du modèle que nous avons estimé,
tel que (2.09) l’est de (2.01). Dans le cours que nous développons dans cet
ouvrage, nous supposerons néanmoins fréquemment que c’est en fait le cas
car il devient alors facile d’établir des résultats définitifs. Mais nous aurons
également l’occasion de traiter explicitement des situations où le DGP n’est
pas un cas particulier du modèle que l’on estime.
La structure additive du modèle de régression non linéaire permet de dis-
cuter des deux parties qui composent le modèle séparément. Nous abordons
tout d’abord les fonctions de régression, qui déterminent l’espérance condi-
tionnelle de yt , et ensuite nous aborderons les aléas qui déterminent tous les
moments conditionnels d’ordre supérieur. Il est fondamental de se souvenir
que chaque fois que l’on estime un modèle comme (2.01), on fait, implicite-
ment ou explicitement, des hypothèses sur xt (β) et ut , qui sont généralement
assez fortes. Puisqu’il est impossible de faire usage des techniques standards
pour obtenir des inférences valides si ces hypothèses sont fausses, il est crucial
de bien les maı̂triser et bien sûr, de les tester contre les valeurs calculées à
partir des données.

2.5 Fonctions de Régression Linéaires et Non Linéaires


La fonction de régression générale xt (β) peut être précisée par un grand nom-
bre de moyens. Il peut être très utile de considérer un certain nombre de cas
particuliers de façon à avoir une idée de la variété des fonctions de régression
spécifiques qui sont le plus souvent utilisées dans la pratique.
La fonction de régression la plus simple est

xt (β) = β1 ιt = β1 , (2.10)

où ιt est l’élément t d’un vecteur dont les n composantes sont égales à l’unité.
Dans ce cas, le modèle (2.01) indique que l’espérance conditionnelle de yt est
tout simplement une constante. Bien que ce soit un exemple simpliste de
fonction de régression, puisque xt (β) est identique quel que soit t, il s’agit
néanmoins d’un bon exemple pour débuter, et que l’on doit garder à l’esprit.
Toutes les fonctions de régression sont tout simplement des versions de (2.10)
plus élaborées. Et toute fonction de régression qui ne s’ajuste pas aux données
au moins aussi bien que (2.10) devrait être considérée comme une bien mau-
vaise fonction de régression.
La fonction qui est ensuite la plus simple est la fonction de régression
linéaire simple
xt (β) = β1 + β2 zt , (2.11)
2.5 Fonctions de Régression Linéaires et Non Linéaires 61

où zt est l’unique variable indépendante. En réalité, un modèle encore


plus simple consisterait à ne garder que la variable indépendante et à re-
jeter le terme constant. Cependant, dans la majorité des problèmes ap-
pliqués, cela n’a pas de sens d’omettre la constante. De nombreuses fonc-
tions de régression linéaires sont utilisées en tant qu’approximations des fonc-
tions inconnues d’espérance conditionnelle, et de telles approximations seront
rarement précises si elles sont contraintes de passer par l’origine. L’équation
(2.11) possède deux paramètres, une ordonnée à l’origine β1 et une pente β2 .
Cette fonction est linéaire en ses deux variables (ιt et zt , ou tout simplement zt
si l’on décide de ne pas considérer ιt comme une variable) et en ses paramètres
(β1 et β2 ). Bien que ce modèle soit trop simple, il possède certains avantages.
Parce qu’il est très facile de grapher yt contre zt , on peut utiliser ce graphe
pour visualiser la fonction de régression, la façon dont le modèle s’ajuste, et
si la relation linéaire décrit correctement les données. Mais lorsqu’un modèle
intègre plus d’une variable indépendante, visualiser les données de cette façon
devient plus problématique, et donc moins habituel.
Une généralisation évidente de (2.11) est la fonction de régression linéaire
multiple
xt (β) = β1 zt1 + β2 zt2 + β3 zt3 + · · · + βk ztk , (2.12)
où les zti (zti allant de zt1 à ztk ) sont les variables indépendantes, et zt1 peut
être un terme constant. Il aurait été possible de formuler cette fonction de
régression de façon plus ramassée

xt (β) = Zt β,

où Zt représente un vecteur de dimension 1 × k, et β désigne un vecteur de


dimension k × 1. Notons que (2.12) repose sur une hypothèse extrêmement
forte, c’est-à-dire celle que l’effet sur yt d’une modification d’une des varia-
bles indépendantes est indépendant des valeurs de toutes les autres variables
indépendantes. Lorsque cette hypothèse est fausse, les modèles de régression
linéaire multiple peuvent sérieusement induire une erreur.
Puis vient tout un éventail de fonctions de régression ressemblant à

2
xt (β) = β1 zt1 + β2 zt2 + β3 zt2 + β4 zt1 zt2 ,

qui est linéaire en ses paramètres mais qui fait appel à des variables indépen-
dantes d’une manière non linéaire. Les modèles qui impliquent cette famille de
fonctions de régression peuvent être manipulés comme n’importe quel autre
modèle de régression linéaire, tout simplement en définissant de nouveaux
régresseurs de façon appropriée. Ici, par exemple, on pourrait définir zt3
2
comme zt2 et zt4 comme zt1 zt2 . En faisant usage de ce genre de fonction on
évite de subir les effets qui s’additionnent, comme l’implique (2.12), mais cela
nécessiterait sans doute d’estimer plus de paramètres qu’il ne serait utile en
pratique avec de nombreux ensembles de données. A cause de cela, et à moins
62 Les Moindres Carrés non Linéaires

qu’il n’existe des raisons théoriques de s’attendre à ce que des puissances


ou des produits de variables indépendantes n’apparaissent dans la fonction
de régression, la plupart des économètres essaieront d’ignorer ce genre de
spécification en pratique.
Une fonction de régression qui permet à toutes les variables indépen-
dantes d’interagir sans recourir à l’estimation de paramètres supplémentaires
est la fonction multiplicative
β2 β3
xt (β) = eβ1 zt2 zt3 . (2.13)

Remarquons que cette fonction peut être évaluée uniquement lorsque zt2 et
zt3 sont positifs pour tout t. C’est la première véritable fonction de régression
non linéaire que nous rencontrons, puisqu’il est clair qu’elle n’est linéaire ni
en ses paramètres ni en ses variables. Cependant, un modèle non linéaire tel
que
β2 β3
yt = eβ1 zt2 zt3 + ut (2.14)
est très rarement estimé dans la pratique. La raison en est que l’hypothèse
d’aléas additifs et identiquement distribués est autant encombrante que peu
réaliste. Elle est peu réaliste car les zti sont multiplicatifs, ce qui implique que
leurs effets dépendent des niveaux que prennent toutes les valeurs des autres
variables, alors que les aléas sont additifs, ce qui rend leur effet indépendant
des niveaux des autres variables explicatives. Elle est encombrante car (2.14)
doit être estimée par moindres carrés non linéaires plutôt que par moindres
carrés linéaires.
Il est facile de modifier (2.14) de façon à donner aux aléas une structure
multiplicative. Le modèle le plus évident que l’on peut alors formuler est
¡ β2 β3 ¢ β2 β3
yt = eβ1 zt2 zt3 (1 + vt ) ≡ eβ1 zt2 zt3 + ut , (2.15)

où les perturbations 1 + vt , qui sont des quantités sans unité de mesure, sont
multiplicatives. Bien que les erreurs sous-jacentes vt soient i.i.d., les erreurs
additives ut sont maintenant proportionnelles à la fonction de régression. Si
le modèle s’ajuste relativement bien, les vt devraient être assez faibles (disons
inférieures à environ 0.05). Maintenant, souvenons-nous que ew ∼ = 1+w
pour des valeurs de w proches de zéro. Par conséquent, pour des modèles qui
s’ajustent relativement bien, (2.15) sera très similaire au modèle
β2 β3 v t
yt = eβ1 zt2 zt3 e . (2.16)

Supposons désormais que l’on passe en logarithme, de chaque côté de l’égalité.


Le résultat est

log(yt ) = β1 + β2 log(zt2 ) + β3 log(zt3 ) + vt , (2.17)

qui est un modèle de régression linéaire. Il est évident que ce modèle, qui
est linéaire dans tous les paramètres et dans les logarithmes de toutes les
2.5 Fonctions de Régression Linéaires et Non Linéaires 63

variables, sera plus facile à estimer que le modèle non linéaire (2.14). Les
arguments que l’on a développés plus tôt suggèrent que c’est, en tout cas, plus
plausible. Ainsi, il ne devrait pas être surprenant d’apprendre que les modèles
de régression log-linéaire, comme (2.17), sont très fréquemment estimés en
pratique, alors que les modèles multiplicatifs avec des aléas additifs comme
(2.14) ne le sont que très rarement.
Un modèle purement multiplicatif comme (2.16) peut être rendu linéaire
en passant en logarithme. Toutefois, un modèle qui mélange les deux struc-
tures, multiplicative et additive, ne peut pas être transformé en un modèle
linéaire. Ainsi, peu importe la manière dont sont précisés les aléas; des
modèles qui intègrent des fonctions de régression du type
β3
xt (β) = β1 + β2 zt2 + β4 zt3 et (2.18)
β3 β4
xt (β) = β1 + β2 zt2 zt3 (2.19)
doivent nécessairement être estimés à l’aide des méthodes non linéaires.
Comme on devrait s’y attendre, de tels modèles ne sont pas estimés aussi
fréquemment que les modèles linéaires ou log-linéaires, d’une part parce que
la paresse nous y pousse sans doute, et d’autre part car il n’y a souvent pas
de raison, ni théorique ni empirique, qui nous permettent de choisir ce type
de spécification plutôt que les modèles conventionnels. En fait, les fonctions
de régression comme (2.18) et (2.19) sont d’une difficulté de traitement no-
toire, car il est complexe d’estimer conjointement tous les paramètres avec
n’importe quel degré de précision. Souvenons-nous de la discussion à propos
du fait que les modèles fondés sur la fonction de régression (2.06), qui est très
similaire à celles-ci, sont le plus souvent insuffisamment identifiés.
L’ultime exemple d’une fonction de régression non linéaire que nous allons
aborder est très différent par rapport à (2.18). Considérons la fonction de
régression
xt (β) = β1 + β2 (zt2 − β3 zt3 ) + β4 (zt4 − β3 zt5 ). (2.20)
Cette fonction est linéaire en ses variables indépendantes ιt et zt2 , zt3 , zt4 et
zt5 , mais elle est non linéaire en ses paramètres βi (allant de β1 à β4 ). Mais il
s’agit en réalité d’une fonction de régression linéaire avec une seule contrainte
non linéaire sur les coefficients. Pour apercevoir ceci, examinons la fonction
de régression linéaire non contrainte
xt (β) = γ1 + γ2 zt2 + γ3 zt3 + γ4 zt4 + γ5 zt5 .
Si l’on impose la contrainte non linéaire
γ3 γ2
= , (2.21)
γ5 γ4
et si l’on reparamétrise ensuite de façon à ce que
γ5
β1 = γ1 , β2 = γ2 , β3 = − , et β4 = γ4 ,
γ4
64 Les Moindres Carrés non Linéaires

on obtient (2.20). Remarquons qu’il y a plusieurs manières équivalentes


d’écrire la contrainte (2.21), dont
γ2 γ5 γ3 γ4 γ2 γ4
γ3 = , γ2 = , et = .
γ4 γ5 γ3 γ5

Il s’agit d’un caractère typique des contraintes non linéaires que de pou-
voir être formulées de plusieurs façons différentes mais équivalentes, et par
conséquent, la fonction de régression peut être paramétrisée de différentes
façons.
On retrouve très fréquemment des fonctions de régression comme (2.20)
en économétrie. Elles apparaissent, par exemple, dans certains modèles avec
anticipations rationnelles — consulter Hoffman et Schmidt (1981) ou Gregory
et Veall (1985, 1987) — et dans les modèles avec corrélation en série (voir
Chapitre 10). De tels modèles ne sont pas particulièrement difficiles à estimer
en général, pourvu que les contraintes soient plus ou moins exactes.

2.6 Termes d’Aléa


Il existe deux éléments que l’on doit préciser lorsque l’on spécifie un modèle
de régression: la fonction de régression xt (β) et au moins quelques propriétés
des aléas ut . Nous avons déjà eu l’occasion de constater à quel point ces
dernières étaient importantes. En rajoutant les erreurs à variance constante à
la fonction de régression à structure multiplicative (2.13), nous avons obtenu
un modèle de régression véritablement non linéaire. Mais lorsque nous avons
appliqué des erreurs qui étaient proportionnelles à la fonction de régression,
comme dans (2.15), et fait usage de l’approximation ew ∼ = 1 + w, qui est une
approximation satisfaisante pour des petites valeurs de w, nous avons obtenu
un modèle de régression log-linéaire. Il devrait donc être clair à partir de cet
exemple, que la manière dont sont précisés les aléas aura un effet considérable
sur le modèle qui est réellement estimé.
Dans (2.01), nous avons défini les aléas comme indépendants, tous
d’espérance nulle et de variance égale à σ 2, mais nous n’avons pas précisé
leur distribution. Même ces hypothèses sont quelquefois trop fortes. Elles ex-
cluent toutes les sortes de dépendance à travers les observations, et toutes les
sortes de variation dans le temps ou avec les valeurs de n’importe quelle va-
riable indépendante. Elles excluent également des distributions où les queues
sont tellement épaisses que les aléas n’ont pas une variance finie. Une telle
distribution est la distribution de Cauchy. Une variable aléatoire qui suit une
distribution de Cauchy ne possède pas seulement une variance non finie, mais
aussi une espérance non finie. Consulter le Chapitre 4 et l’Annexe B.
Il existe plusieurs acceptions du terme indépendance dans la littérature
consacrée à la statistique et à l’économétrie. Deux variables aléatoires z1
et z2 sont dites aléatoirement indépendantes si leur fonction de répartition
2.6 Termes d’Aléa 65

jointe F (z1 , z2 ) est égale au produit de leurs deux fonctions de répartition


marginale respectives F (z1 , ∞) et F (∞, z2 ). On appelle quelquefois cela
l’indépendance en probabilité, mais nous ferons usage du premier terme, plus
moderne. Certains auteurs écrivent que deux variables aléatoires z1 et z2 sont
linéairement indépendantes si E(z1 z2 ) = E(z1 )E(z2 ), une condition moins
forte, qui découle de l’indépendance stochastique, mais qui ne l’entraı̂ne pas.
Cette terminologie est assez malvenue car le sens “linéairement indépendant”
ne s’accorde pas avec le sens habituel que l’on utilise en algèbre linéaire. Au
contraire, dans cette situation, on pourrait au plus dire que z1 et z2 sont non
corrélées, et possèdent une covariance nulle. Si z1 , ou z2 , est d’espérance nulle
et est non corrélée avec z2 (respectivement z1 ), alors E(z1 z2 ) = 0. Il existe
un sens selon lequel z1 et z2 sont orthogonaux dans cette situation, et nous
utiliserons quelquefois cette terminologie.
Lorsque nous disons que les ut sont i.i.d., nous signifions par le premier “i”
que les ut sont aléatoirement indépendants.¡ Cela implique¢ que E(ut us ) = 0
pour tout t 6= s, mais également que E h1 (ut )h2 (us ) = 0 pour toutes les
fonctions (mesurables) h1 (·) et h2 (·). Les aléas qui sont indépendants et
qui possèdent les mêmes espérances et variances sont quelquefois appelés
bruits blancs. Cette terminologie que l’on emprunte à la littérature scien-
tifique, se réfère au fait que, tout comme la lumière blanche est constituée
de quantités égales de rayonnements de toutes les parties du spectre visible,
les erreurs bruits blancs contiennent des quantités égales d’aléas de toutes
fréquences. De nombreuses définitions différentes des bruits blancs sont en
usage en économétrie et dans d’autres disciplines, et quelquefois, le terme est
employé dans un sens qui n’est pas strictement conforme à sa signification.
Remarquons l’importante distinction qu’il faut établir entre les aléas et les
résidus. Toute régression linéaire ou non linéaire génère un vecteur de résidus,
que cela ait un sens ou pas. Les résidus auront des propriétés qui résultent de la
façon dont on les a obtenus, sans se préoccuper de la manière dont les données
ont été générées. Par exemple, les résidus OLS seront toujours orthogonaux
à tous les régresseurs, et les résidus NLS seront toujours orthogonaux à la
matrice X̂. D’un autre côté, les aléas ne sont pas observables (mais on peut
les estimer) et l’on doit formuler quelques hypothèses qui feront partie de
la définition du modèle. Il nous arrivera bien sûr de tester ces hypothèses,
et de le faire à l’aide de statistiques de tests dépendant des résidus que l’on
calculera.
Une grande partie de la littérature concernant la spécification et les tests
des modèles de régression est consacrée aux tests de transgression des hy-
pothèses d’erreurs i.i.d.. Lorsque de telles hypothèses ne sont pas bien vérifées,
il est encore possible de modifier le modèle avec des erreurs qui ne sont
pas i.i.d. en un modèle où les erreurs transformées le sont. Il se peut que
l’hypothèse d’indépendance, ou que l’hypothèse d’espérances et de variances
identiques, ou les deux simultanément, ne soient pas vérifiées. L’hypothèse
d’indépendance est quelquefois mise en défaut lorsque l’on travaille sur des
66 Les Moindres Carrés non Linéaires

données chronologiques: les aléas successifs ut peuvent être corrélés entre


eux, faisant apparaı̂tre plus distinctement le phénomène de corrélation en
série. L’hypothèse de distributions identiques est souvent mise à mal lorsque
l’on travaille avec des données en coupe transversale: des ut différents peu-
vent sembler provenir de la même famille de distribution mais ont des vari-
ances différentes, et mettent en perspective le phénomène d’hétéroscédasticité.
Le terme opposé hétéroscédasticité est incidemment homoscédasticité. Si les
aléas possèdent une variance commune, on dit qu’ils sont homoscédastiques;
lorsque ce n’est pas le cas on dit qu’ils sont hétéroscédastiques. Bien sûr, la
corrélation des aléas à travers les observations n’est en rien une caractéristique
exclusive des données chronologiques, et l’hétéroscédasticité n’est en rien
une caractéristique exclusive des données en coupe transversale. Ces deux
phénomènes peuvent survenir avec tous les types d’ensembles de données,
mais malgré tout, on associe nécessairement la corrélation en série avec les
données chronologiques, et l’hétéroscédasticité est particulièrement fréquente
avec les données en coupe transversale.
Nous traiterons plus en détail la corrélation en série et l’hétéroscédasticité
dans les chapitres qui leur sont consacrés (tout particulièrement, les Chapitres
9, 10, 11 et 16). Pour l’instant, et à titre d’illustration, considérons une forme
simple d’hétéroscédasticité:

ut = wt vt , vt ∼ IID(0, σv2 ),

où wt est une variable indépendante qui est toujours non nulle. Cette
spécification implique que ut possède une espérance nulle et une variance
égale à σv2 wt2 . Supposons désormais que la fonction de régression sur laquelle
on applique les erreurs ut soit

xt (β) = β1 + β2 zt + β3 wt .

Bien évidemment, on peut obtenir un modèle avec des erreurs i.i.d. en divisant
la variable dépendante et toutes les variables indépendantes, la constante
comprise par wt . Ce modèle modifié est
yt 1 zt
= β1 + β2 + β 3 + vt . (2.22)
wt wt wt

Notons que les régresseurs sont désormais 1/wt , zt /wt , et une constante, mais
le coefficient de la constante est maintenant celui de wt dans le modèle originel,
alors que le coefficient 1/wt est la constante du modèle de départ. Ainsi il est
très facile d’éliminer l’hétéroscédasticité dans un cas pareil, mais il faut être
prudent en interprétant les coefficients du modèle transformé.
Au Chapitre 8, nous discuterons d’une hypothèse relativement forte que
l’on fait en économétrie, c’est-à-dire

ut ∼ NID(0, σ 2 ), t = 1, . . . , n,
2.6 Termes d’Aléa 67

qui précise que les ut sont normalement et indépendamment distribués avec


une espérance nulle et une variance égale à σ 2. Ainsi chaque ut est supposé
obéir à la distribution normale dont la fonction de densité de probabilité est
µ ¶
1 1 u2t
f (ut ) = √ exp − 2 .
2π σ 2σ

La densité jointe du vecteur à n composantes u (dont l’élement type est ut )


est supposée être par conséquent

n
Y µ ¶n/2 µ n ¶
1 1 1 X 2
f (u) = f (ut ) = exp − 2 u .
t=1
2π σn 2σ t=1 t

Il existe trois raisons principales pour supposer la normalité. La première


d’entre elles est que grâce à leur facilité de calcul et à leurs propriétés
familières, on désire souvent faire usage des moindres carrés pour estimer
des modèles de régression, et la justification de cet usage est plus solide
lorsque les erreurs sont normalement distribuées que lorsque ce n’est pas le
cas. Comme nous le verrons au cours du Chapitre 8, les moindres carrés
appliqués à un modèle de régression disposent de propriétés asymptotiques
excellentes lorsque les erreurs sont normales, mais lorsque ces erreurs suivent
une autre distribution quelconque connue, leurs propriétés ne sont plus aussi
bonnes. La deuxième raison est que lorsque l’on suppose la normalité, on peut
obtenir le plus souvent des résultats plus solides que lorsque l’on suppose sim-
plement que les erreurs sont supposées être i.i.d.. En particulier, pour les
modèles de régression linéaire avec régresseurs fixés et erreurs normales, nous
pouvons obtenir des résultats exacts avec des échantillons finis (consulter le
Chapitre 3); de tels résultats ne sont même pas disponibles pour des modèles
linéaires quand les erreurs sont simplement supposées être i.i.d.. La troisième
raison est que lorsque l’on quitte le domaine des modèles de régression pour
essayer de traiter des modèles non linéaires plus généraux, il devient sou-
vent nécessaire de faire des hypothèses sur la distribution, et la distribution
normale est bien souvent la plus pratique à utiliser.
Aucune de ces raisons pratiques de supposer que les aléas sont normale-
ment distribués n’offre une quelconque justification pour formuler une telle hy-
pothèse. L’argument usuel est que les aléas représentent les effets combinés de
nombreuses variables que l’on a oubliées, et les nombreuses erreurs de mesure.
Les Théorèmes de la Limite Centrale (que nous verrons au Chapitre 4) nous
affirment que, très grossièrement, lorsque l’on établit la moyenne d’un grand
nombre de variables aléatoires, la moyenne obtenue est approximativement
normalement distribuée, en rapport plus ou moins fidèle avec les distributions
des variables aléatoires originelles. L’argument habituel est que l’hypothèse
de normalité a du sens parce que nous pouvons penser que les aléas dans les
modèles de régression sont ainsi en moyenne.
68 Les Moindres Carrés non Linéaires

Il y a au moins deux problèmes avec ce genre d’argument. Premièrement,


comme nous le verrons au Chapitre 4, les théorèmes de la limite centrale
nécessitent des hypothèses relativement fortes. Ils s’appliquent à des situ-
ations où l’on fait la moyenne de plusieurs variables aléatoires, dont aucune
n’est “grande” par rapport à toutes les autres. Il est aisé de penser à des varia-
bles économiques qui peuvent être omises dans les modèles de régression, et qui
constituent donc une partie des aléas, mais qui seraient peut-être relativement
importantes par rapport à ces aléas. Dans le cas de modèles chronologiques,
des grèves, des élections ou d’autres événements politiques, et des tempêtes
ou d’autres conditions climatiques extrêmes sont quelques exemples qui nous
viennent à l’esprit. Il n’existe sans doute aucune raison a priori de s’attendre
à ce que les effets de tels événements ne soient responsables que d’une pe-
tite partie de l’erreur globale pour toute observation donnée. Dans le cas
des modèles à coupe transversale, l’argument de normalité est probablement
moins pesant. Lorsque nous disposons d’un échantillon important d’individus
ou d’entreprises, nous devons constater que quelques observations comprises
dans l’échantillon ne doivent pas s’y trouver en réalité. Considérons, par ex-
emple, l’effet sur un modèle en coupe transversale de la demande de viande
d’un petit nombre d’individus végétariens! Inévitablement, les erreurs as-
sociées à ces observations particulières seront élevées, de sorte qu’il est peu
probable que la distribution des aléas pour le modèle tout entier soit normale.
Le second problème avec l’argument du théorème de la limite centrale est
que beaucoup de théorèmes de la limite centrale ne s’appliquent pas lorsque le
nombre de variables aléatoires dont on fait la moyenne est lui-même aléatoire.
Mais puisque nous ne savons pas quelles variables ont été omises et rejetées
dans les aléas, nous n’avons aucune raison d’imaginer que leur nombre est le
même d’observation en observation! Alors on ne peut pas toujours invoquer
légitimement un théorème de la limite centrale.
Ces arguments ne doivent pas suggérer qu’il est idiot de supposer la
normalité. Mais que nous ayons supposé ou pas la normalité ne nous empêche
pas de voir si oui ou non les aléas sont en réalité approximativement normaux.
Si ils ne sont pas approximativement normaux, alors la sagesse nous conseille
de remettre en question l’usage des moindres carrés. Il existe, bien sûr, un
nombre infini de distributions non normales, et donc un nombre infini de types
de non normalité à examiner. Cependant, la grande majorité des tests de non
normalité mettent l’accent sur deux propriétés de la distribution normale. Si
ε ∼ N (µ, σ 2 ), alors
¡ ¢
E (ε − µ)3 = 0 et (2.23)
¡ ¢
E (ε − µ)4 = 3σ 4. (2.24)
L’expression (2.23) nous renseigne que pour la distribution normale, le troi-
sième moment centré (c’est-à-dire, le moment centré autour de l’espérance)
est nul. Ce moment est fréquemment utilisé pour mesurer l’asymétrie. Posi-
tif, il indique que la distribution est biaisée à droite; négatif, il indique que
2.6 Termes d’Aléa 69

0.5

..........
..... ......... ............
.
.... .... ...... ......
0.4 .. ..... ..
. ...... ...
.
....
.
. . .. ..... ... .....
. .
.
. . .
. .... . .....
. .
.
... .. .... ... .. ..
.... .
. . . ... .. ....
Asymétrie à droite → .... ... ..... ... .. ..
... . ...
0.3 .. . . ... .. ...
.... ... ..... ... . ..
.... .. .... ... .. ... ← Asymétrie à gauche
... .. ...
.... ... .... ... .. ...
.... .. .... ... . ...
. . . ... .. ...
0.2 ........ ..... ... . ...
... .. ..
.. . . ... .....
........... .... ....
.......... .... ....
.... ....
........... .... ..
.........
0.1 ...
....
. ...
. ......
..
.. .
. .........
..
..
. .
. ............
.
..
. ..
..
.......... .... ... .............
.... ..............
.
...
...
... . ..
..
...
...
...
...
. . . .. ..... . . .................
..
...
...
...
...
...
. . . . . .
... .......... . . . . .....................................
0.0 ............................. . . . . . ........... ..................... . . . . . . . . ......

−4 −3 −2 −1 0 1 2 3 4

Figure 2.8 Distributions asymétriques

la distribution est biaisée à gauche. La Figure 2.8 illustre deux distribu-


tions asymétriques, et, pour comparer une distribution symétrique. Les tests
d’asymétrie sont relativement aisés; ils seront traités dans le chapitre 16.
L’expression (2.24) nous indique que le quatrième moment centré d’une
variable aléatoire normale est égale à trois fois le carré de sa variance. Une va-
riable aléatoire dont le quatrième moment est plus élevé que trois fois le carré
de son deuxième moment possède des queues de distribution plus épaisses
qu’une variable aléatoire qui suit une distribution normale. On dit quelque-
fois qu’il fait état de l’excès de kurtosis ou que la distribution est leptokur-
tique. Au contraire, lorsqu’une variable aléatoire à un quatrième moment
inférieur à trois fois le carré de son second moment, elle possède des queues de
distribution plus fines qu’une variable aléatoire distribuée normalement. De
telles variables aléatoires sont dites platykurtiques. De façon similaire, on dit
souvent des variables aléatoires qui suivent la distribution normale qu’elles
sont mésokurtiques. Les lecteurs qui ont quelques notions de Grec pourraient
penser que ces définitions sont erronées, puisque lepto signifie fin et platy sig-
nifie épais. Comme l’expliquent Kendall et Stuart (1977, p. 88), ces termes
étaient à l’origine destinés à caractériser les parties centrales des distributions
et non les queues de distribution; ainsi les distributions leptokurtiques sont
ainsi nommées non pas parce qu’elles ont des queues de distributions épaisses
mais parce qu’elles ont des parties centrales (relativement) minces, et les dis-
tributions platykurtiques sont ainsi nommées non pas à cause de leurs queues
de distribution fines parce qu’elles ont des parties centrales (relativement)
épaisses. Toutefois, ce sont aux queues de distribution auxquelles se réfèrent
les statisticiens contemporains en employant ces termes. La Figure 2.9 illustre
70 Les Moindres Carrés non Linéaires

0.5 .............
.... ......
...
. ...
... ...
...
.... ... ← Leptokurtique
...
0.4 . . . .. .... ...
.... ... .. ...
.. ...
.
... .. . ..
.....................................................................
... .. ......
..... .......
0.3 .
............ .........
.... ....
.. .
.
... ....... ..... ...
..... ...
.
.. ......
.. . ... . ....
.. .
. ... .. ...
.
... ....... ... .. ...← Platykurtique
0.2 .. . .. ... .. ...
.
... ... .... ... . ...
.. . .. ... .. ...
.. . .
. ... .. ...
.
...... ... ... . ...
.. . ..
. ... .. ...
.. . .
. ... .....
0.1 .
...... ..... .... .....
.. .
. ... ... .... ....
..
. .... ....
.
.............. ..... .....
....... ....
..
.....
..... ...............
. ...
..
.
...
... ..............
... .
...
...
..
..
.
.
...
... ..............................................
......... .
.. .
... . ..
...
.
0.0 ........................................................................... ................................................................

−4 −3 −2 −1 0 1 2 3 4

Figure 2.9 Distributions leptokurtique et platykurtique

des distributions leptokurtiques et platykurtiques. A titre de comparaison, la


distribution normale standard a également été représentée (en pointillé).
Les queues de distribution fines ne représentent pas vraiment un problème
(et ne sont pas non plus très fréquentes), mais les queues de distribution
épaisses peuvent causer de graves difficultés pour l’estimation et l’inférence.
Si les aléas suivent une distribution dont les queues de distribution sont plus
épaisses que celles de la distribution normale, alors des erreurs importantes
inhabituelles surviendront relativement souvent. La procédure des moindres
carrés donne un grand poids à ces erreurs importantes, et peut donc entrainer
des estimations des paramètres inefficaces.
Il est assez facile de tester l’excès de kurtosis; voir Chapitre 16. Cepen-
dant, ce qu’il faut faire si l’on trouve un excès de kurtosis substantiel, n’est
pas clairement établi. L’hétéroscédasticité peut conduire à l’apparence de
kurtosis, comme le ferait une fonction de régression incorrectement spécifiée,
de sorte qu’il serait souhaitable d’examiner la spécification du modèle. Si
l’on est confiant dans la spécification de la fonction de régression et qu’il n’y
a pas d’hétéroscédasticité, alors il serait sûrement plus sage de considérer
d’autres méthodes que les moindres carrés. Il existe une littérature impor-
tante consacrée à ce que les statisticiens appellent des méthodes d’estimations
“robustes”, qui donnent un poids plus faible aux valeurs détachées que les
moindres carrés; consulter Krasker, Kuh, et Welsch(1983) pour une revue de
littérature. De manière alternative, on pourrait postuler d’autres distribu-
tions que la normale qui possèderait des queues de distribution plus épaisses,
puis faire usage de la méthode du maximum de vraisemblance, dont nous
discuterons en détail au cours du Chapitre 8 et des chapitres suivants.
Termes et Concepts 71

2.7 Conclusion
Ce chapitre nous a donné une introduction non rigoureuse aux modèles de
régression non linéaire, mettant l’accent sur des concepts fondamentaux tels
que la géométrie de la régression non linéaire. Les ouvrages qui offrent un
traitement plus rigoureux sont ceux de Gallant (1987), Bates et Watts (1988),
et Seber et Wild (1989). Le prochain chapitre traite de la façon d’opérer des
inférences à partir de modèles de régression non linéaire et introduit les idées
de base des tests d’hypothèses pour de tels modèles. La prochaine étape devra
offrir un traitement des propriétés asymptotiques des moindres carrés non
linéaires, et cela sera l’objet des Chapitres 4 et 5. Puis le Chapitre 6 examinera
une régression linéaire “artificielle” de Gauss-Newton que l’on associe à tout
modèle de régression non linéaire. Cette régression artificielle s’avèrera très
utile pour toute une variété d’usages, dont le calcul des estimations NLS et le
calcul des statistiques de test.

Termes et Concepts
aléas modèles de régression: linéaire et non
algorithme de minimisation linéaire, multivariée et univariée
bruit blanc moindres carrés non linéaires
colinéarité moments centrés
corrélation en série moyenne conditionnelle
distribution normale multicolinéarité
données chronologiques asymétrie
données en coupe transversale processus générateur de données
ensemble d’informations (DGP); relation avec les modèles
fonction somme des carrés restrictions non linéaires
hétéroscédasticité résultats asymptotiques
homoscédasticité Théorèmes de la Limite Centrale
identification: globale et locale variables aléatoires indépendantes et
indépendance: stochastique et linéaire identiquement distribuées (i.i.d.)
kurtosis: leptokurtique, mésokurtique, variables dépendantes et
platykurtique, excès de kurtosis indépendantes
minima: locaux et globaux variance d’erreur
modèle: ensemble de DGP