Professional Documents
Culture Documents
3.1 Introduction
Supposons que l’on dispose d’un vecteur y donné des observations de quelques
variables dépendantes, d’un vecteur x(β) de fonctions de régression en général
non linéaires, qui devraient dépendre et dépendront en général de variables
indépendantes, et des données nécessaires au calcul de x(β). Puis en sup-
posant que ces données permettent d’identifier tous les éléments du vecteur
de paramètres β, et que l’on ait accès à un programme informatique adéquat
pour les moindres carrés non linéaires et à suffisamment de temps, il serait
possible d’obtenir des estimations NLS β̂. Dans le but d’interpréter ces esti-
mations, il faut généralement faire l’hypothèse très forte selon laquelle y est
en réalité généré par un DGP de la famille
de sorte que le modèle est supposé “correct”. Sans recourir à cette hypothèse,
ou à une de ses variantes moins restrictives, il serait extrêmement difficile de
dire quoi que ce soit à propos des propriétés de β̂, bien que cela soit possible
dans certains cas particuliers.
Il est clair que β̂ doit être un vecteur de variables aléatoires, puisqu’il
dépend de y, et donc du vecteur d’aléas u. Ainsi, si l’on désire opérer des
inférences sur β, il nous faut reconnaı̂tre que β̂ est aléatoire, et quantifier cet
aléa. Dans le Chapitre 5, nous démontrerons lorsque la taille de l’échantillon
est suffisamment importante qu’il est raisonnable de traiter β̂ comme nor-
malement distribué autour de la vraie valeur de β, que nous nommerons β0 .
Ainsi, la seule chose dont on a besoin si l’on désire pratiquer des inférences
asymptotiques correctes à propos de β est la matrice de covariance de β̂,
notée V (β̂). Dans la prochaine section, nous verrons comment la matrice
de covariance pourrait être estimée pour les modèles de régression linéaire et
non linéaire, et dans la Section 3.3 nous montrerons comment les estimations
obtenues peuvent être utilisées pour faire des inférences sur β. Dans la Sec-
tion 3.4, nous discuterons des idées de base qui sous-tendent tous les types
72
3.2 Estimation de la Matrice de Covariance 73
il est bien connu que lorsque le DGP vérifie (3.02) pour des valeurs définies des
paramètres de β0 et de σ0 , la matrice de covariance du vecteur des estimations
β̂ obtenu par OLS, est
¡ ¢−1
V (β̂) = σ02 X>X . (3.03)
La démonstration de ce résultat familier est assez immédiate. La matrice de
covariance V (β̂) est définie comme l’espérance du produit extérieur de β̂ − β0
avec lui-même, conditionnellement aux variables indépendantes X. A partir
de cette définition, et en utilisant le fait que E(β̂) = β0 , on remplace tout
d’abord β̂ par un terme qui lui est équivalent sous le DGP, puis on calcule
l’espérance conditionnellement à X, et on simplifie l’expression algébrique
pour obtenir (3.03):
où s2 ≡ (n − k)−1SSR(β̂).
Le premier de ces estimateurs, l’expression (3.05), fait usage de l’estima-
teur σ 2 du maximum de vraisemblance (consulter le Chapitre 8), qui est biaisé
vers le bas. Pour se rendre compte de cela, remarquons que
SSR(β̂) ≤ SSR(β0 ).
Mais souvenons-nous que MX annule tout ce qui se situe dans S(X). L’espé-
rance conditionnelle Xβ0 se situe assurément dans S(X), de sorte que SSR(β̂)
se résume à
u>MX u.
L’espérance de cette expression est
¡ ¢
E(u>MX u) = E Tr(u>MX u)
¡ ¢
= E Tr(MX uu>)
¡ ¢
= Tr MX σ02 I (3.08)
¡ ¢
= σ02 Tr MX
= σ02 (n − k),
où Xt est la ligne t de X. Ici, Mtt , l’élément diagonal t de MX , est égal à 1−ht ,
ht étant l’élément diagonal t de PX . Ce résultat utilise le fait que E(ut us ) = 0
3.3 Intervalles de Confiance et Régions de Confiance 77
y>MX y
s2 ≡ (3.09)
n−k
aura une espérance égale à σ02 si les données avaient été générées par un
cas particulier de (3.02). Cet estimateur paraı̂t donc être un estimateur
raisonnable dans un contexte de moindres carrés ordinaires, et c’est ce que
presque tous les programmes de régression par moindres carrés ordinaires
utilisent lorsqu’ils calculent la matrice de covariance OLS. Mais notons que
bien que s2 soit non biaisé pour σ 2, s n’est pas non biaisé pour σ, car prendre
la racine carrée de s2 n’est pas une opération linéaire.
Ces résultats doivent rendre évident le fait que dans le cas des modèles
de régression linéaire, l’estimateur standard de la covariance OLS
¡ ¢−1
Vs (β̂) ≡ s2 X>X , (3.10)
offre une estimation non biaisée de la véritable matrice de covariance, qui est
σ02 (X>X)−1. Toutefois, et par contraste avec le cas linéaire, toute tentative
de pratiquer des inférences à partir des estimations des modèles de régression
non linéaire sera entravée par le fait que (3.04) n’est elle-même qu’une ap-
proximation, et que (3.06) est au plus une évaluation de (3.04). Malgré cela,
la plupart des utilisateurs traitent (3.06), et même (3.05), exactement de la
même manière que la matrice habituelle de covariance des OLS (3.10) pour
construire des intervalles de confiance et des tests d’hypothèses pour de nom-
breux éléments de β. Parce que (3.06) n’est qu’une évaluation, c’est pourtant
une opération risquée. Malgré tout, dans les deux sections qui suivent, nous
discuterons de ce qu’implique cette opération.
1
En réalité, nous laisserions sans doute l’ordinateur moderne remplir cette tâche.
Un programme de statistiques convenable devrait être capable de donner la
valeur critique associée à tout niveau de signification α, ainsi que le niveau de
signification correspondant à une valeur critique, pour les distributions nor-
males, de Student, de Fisher et du χ2 .
3.3 Intervalles de Confiance et Régions de Confiance 79
des aléas normaux.2 Deuxièmement, nous supposons que Ŝ(β̂1 ) est la véritable
déviation moyenne de β̂1 , ce qui ne sera en fait jamais le cas. A moins que
le DGP ne soit un cas particulier du modèle que nous avons estimé, notre
estimation de la matrice de covariance de β̂, (3.06), ne sera généralement
pas valide, pas même en tant qu’approximation. Dans le cas où elle serait
correcte, s2 n’est qu’une estimation de σ 2 et X̂>X̂ n’est qu’une estimation
de X>(β0 )X(β0 ), de sorte que Ŝ(β̂1 ) sera probablement une estimation peu
satisfaisante de S(β̂1 ).
Dans le cas linéaire, il est traditionnel de ne traiter qu’un (et un seul!)
de ces problèmes, c’est à dire le problème de la nature de s2 (qui est une
estimation de σ 2). Comme nous le montrerons plus tard dans la Section 3.5,
pour les modèles de régression linéaire avec des régresseurs fixes et des aléas
normaux, la quantité
β̂i − β0i
(3.12)
Ŝ(β̂i )
est distribuée selon la loi de Student à n − k degrés de liberté lorsque le DGP
est un cas particulier du modèle que l’on estime. Ainsi, en prenant les valeurs
critiques utilisées dans (3.11) à partir de la loi de Student à n − k degrés
de liberté au lieu de la normale centrée réduite, nous trouvons l’intervalle de
confiance exact dans ce cas particulier. En utilisant la distribution de Student,
on intègre systématiquement le fait que s est un estimateur biaisé.
Lorsque l’on traite des modèles non linéaires, il est généralement plus
fiable d’utiliser la distribution de Student à n − k degrés de liberté plutôt que
la distribution normale standard. L’intervalle de confiance qui en résulte sera
légèrement plus large, mais dans de nombreux cas, il ne sera toujours pas assez
large. La plupart du temps (mais pas toujours), les problèmes mentionnés plus
haut, résultent de l’étroitesse des intervalles de confiance estimés, de sorte qu’il
est bon d’opérer mentalement une réduction du niveau de confiance associé
à tout intervalle de ce genre. Ceci est particulièrement important lorsque
le modèle a un fort degré de non linéarité, lorsque les aléas peuvent être
très sensiblement non normaux, et lorsque la taille de l’échantillon est faible.
Malheureusement, il n’existe pas de règle de sélection aisée qui nous dise
de combien réduire le niveau de confiance dans la plupart des cas. Tout ce
que nous pouvons faire généralement, c’est de se ramener à l’expérience, à
l’évidence à partir des simulations Monte Carlo, et au bon sens.
Lorsque l’on s’intéresse à deux ou trois paramètres, il peut être très
trompeur d’observer les intervalles de confiance pour les paramètres pris indi-
viduellement plutôt que la région de confiance de tous les paramètres pris
conjointement. Pour s’en rendre compte, il est nécessaire de comprendre
2
Cela se justifie parce que β̂ − β0 = (X>X)−1X>u, ce qui implique que β̂ − β0
est simplement une combinaison linéaire des variables aléatoires u distribuées
normalement, et doit donc être, lui-aussi, distribué normalement.
80 Inférence dans les Modèles de Régression non Linéaire
où M̂2 projette sur le complémentaire de S(X̂2 ). Il est ainsi aussi facile de
traiter le cas où l < k que le cas où l = k. Pour conserver la simplicité
de la notation toutefois, nous supposerons pour la suite de notre discussion
que nous construisons une région de confiance pour la totalité des paramètres
du vecteur β, de sorte que l = k. Par souci de réalisme, nous supposerons
également que la matrice de covariance estimée de β̂ est V̂ (β̂), bien qu’elle
puisse être aussi bien Vs (β̂).
Notons β0 la véritable (et inconnue) valeur de β. Considérons la forme
quadratique
(β̂ − β0 )>V̂ −1 (β̂)(β̂ − β0 ), (3.13)
qui est une variable aléatoire scalaire dépendant du vecteur aléatoire β̂. Elle
n’aura en fait une distribution du χ2 à l degrés de liberté pour des échantillons
de taille finie ni pour une régression linéaire, ni pour une régression non
linéaire. Mais il est raisonnable d’espérer qu’elle suivra approximativement
une distribution du χ2 (l), et en réalité une telle approximation est correcte
lorsque la taille de l’échantillon est suffisamment élevée; voir la Section 5.7.
Par conséquent, avec autant de justifications (ou peut-être avec aussi peu!)
3
Bien que l’usage du Théorème FWL soit incontestable ici, il n’est peut-être pas
évident qu’il soit approprié lorsque le modèle est non linéaire. Dans le cas non
linéaire, il devrait être appliqué à la régression de Gauss-Newton, dont nous
discuterons au Chapitre 6.
3.3 Intervalles de Confiance et Régions de Confiance 81
que pour le cas d’un paramètre unique, la région de confiance pour β est
élaborée comme si (3.13) suivait réellement une distribution du χ2 (l).4
Pour un ensemble donné d’estimations β̂, la région de confiance (ap-
proximée) à un niveau de confiance α peut être définie comme l’ensemble des
vecteurs β0 pour lesquels la valeur de (3.13) est inférieure à une valeur critique
donnée, disons cα (l). Cette valeur critique sera telle que, si z est une variable
aléatoire suivant une distribution du χ2 (l),
¡ ¢
Pr z > cα (l) = α.
.. .. ..
... ..
β2 .. ..
.. ..
.
. . Ellipse de confiance pour (β1 , ..β2 )
(β10 , β20 )& ..
...
...
.....
. .
..... ............ ..
.... • .. .................. ..
.. . ..... .
.... .... .... .... .... .... ............... .... ...... .... .... .... .... ..................... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ...... .... .... .... .... .... ....
.. ... .. ...... ..
.. .... .. ..... .
........ ..
.. ..... ... ..... ..
.. .... .. .....
.. ... .....
.. ..
... ..... ...
.. ...... .....
..... .
.. .. ....... ..... ..
.. . ......
. .....
. ..
.. .
..... .
......
.. .. .... .
.. ..
.. .... .... ..
.. .. .... .... ..
.... ....
.. .. .... • ....
.. ..
.. ..... (β̂1 , β̂2 ) ....
.. .. ..... .... ..
.. ..... .... ..
.. ..
..... ..
..... ..
.. .. ..... .... .
.. ..... ... .
.. .. • ..... .....
.. . (β ∗ , β ∗ )
. .....
.....
.....
..
.. 1 2
..
.
. .....
..... .. .....
.. .
. .. ...
.. .. ..... .. ....
..... ...
.. .. ...... ..
.. .
.... .... .... .... .... .... .......... .... ...... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... .... ................ .... .... .... .... ...... .... ............. .... .... ....
.
.. .. . ....... .
. .
.. .. .......... .
............. . ....
. ..
. ..
....
...
...
...
..
. .....
.. . . ..
. .. .. . .....
....
C A B D β1
4
Il est également envisageable de construire une région de confiance estimée
en utilisant la loi du F (l, n − k), ce qui pourrait éventuellement fournir une
meilleure approximation dans les échantillons finis. On se sert ici du χ2 pour
simplifier l’exposé.
82 Inférence dans les Modèles de Régression non Linéaire
.............X2
....... .
(a) ....
....
.... .....
..
.....
............................................
.. .. . .....
..... ..... ....
... ..... ...... ...
...
..... .. ...
.... . ... ..
.. .
........ .
.
... •Xβ̂ .....
..... .... ..
.
..... ... ...
........ ....
.. ... ...
.. ....... .
..... .....................................
........
....
.............................................................................................................................................................................................................................
O X1
parallèles aux axes des coordonnées. Et si tous les éléments diagonaux étaient
égaux, la région de confiance serait une sphère. Il y a, toutefois, un autre
moyen de représenter géométriquement une région de confiance, un moyen
avec lequel elle prendra toujours une forme analogue à une sphère à l dimen-
sions. Cette représentation est assez révélatrice. Par souci de simplicité, nous
nous limiterons au cas des modèles de régression linéaire avec n observations
et deux paramètres, β1 et β2 .
Considérons l’espace à n dimensions dans lequel les variables sont repré-
sentées par des vecteurs. Maintenant, portons notre attention sur le sous-
ensemble bi-dimensionnel de l’espace à n dimensions engendré par les deux
vecteurs X1 et X2 . Cet espace à deux dimensions est dessiné dans la partie (a)
de la Figure 3.3, dans laquelle nous voyons également le vecteur de valeurs
ajustées,
p Xβ̂. Nous avançons que le cercle tracé autour de Xβ̂ et de rayon
σ̂ cα (2) correspond à l’ellipse de confiance de β1 et β2 . En réalité, il est aisé
de saisir cela. L’équation du cercle est
p
ky − Xβ̂k = σ̂ cα (2). (3.15)
Tout vecteur y appartenant à S(X) peut s’exprimer par Xβ pour un β donné.
Ainsi (3.15) peut s’écrire
p
kXβ − Xβ̂k = σ̂ cα (2)
84 Inférence dans les Modèles de Régression non Linéaire
5
Les termes “région d’acceptation” et “région de rejet” font également référence
à des sous-échantillons de l’espace d’échantillonnage. Tout échantillon, disons
y, génère une statistique de test T . Si la valeur de T appartient à la région de
rejet, alors y doit aussi y appartenir, et inversement si la valeur de T appartient
à la région d’acceptation. Dans ce sens, l’échantillon tout entier peut être
partitionné en deux régions qui correspondent à la région d’acceptation et à la
région de rejet de l’hypothèse nulle.
86 Inférence dans les Modèles de Régression non Linéaire
α ≡ Pr (T ∈ R | θ ∈ Θ0 ).
6
Pour une discussion des relations entre le P marginal et l’inférence Bayésienne,
consulter entre autre Lindley (1957), Shafer (1982), et Berger et Sellke (1987).
3.5 Tests d’Hypothèses dans les Régressions Linéaires 89
y = X1 β1 + u (3.18)
y = X1 β1 + X2 β2 + u, (3.19)
où les aléas u sont supposés suivre une distribution normale avec un vecteur
d’espérance nulle et une matrice de covariance σ 2 I. Le vecteur de paramètres
β a été scindé en deux sous-vecteurs, β1 et β2 , respectivement composés de
k − r et r éléments. Nous voulons tester l’hypothèse de nullité de β2 . Les
.
estimations contraintes sont β̃ = [ β̃1 ... 0], et les estimations non contraintes
.
sont β̂ = [ β̂1 ... β̂2 ]. En limitant notre attention à des contraintes de nullité,
nous ne limitons en rien la généralité des résultats puisque, ainsi que nous
l’avons montré à la Section 1.3, tout ensemble de contraintes linéaires appliqué
à un modèle linéaire peut toujours, par une reparamétrisation adéquate, être
écrit comme un ensemble de contraintes de nullité.
Il suit de l’expression (3.07) que SSR(β̃) = y>M1 y, où M1 désigne la
projection sur S⊥ (X1 ), le complément orthogonal de l’espace engendré par
X1 . De façon similaire, SSR(β̂) = y>MX y, où MX désigne la projection sur
S⊥ (X), le complément orthogonal de l’espace engendré par X ≡ [X1 X2 ].
Grâce au Théorème FWL (voir Section 1.4), y>MX y, qui est la somme des
résidus au carré de la régression (3.19), est identique à la SSR de la régression
M1 y = M1 X2 β2 + résidus.
et nous avons précisément remarqué que cette quantité suit une distribution
du χ2 (r) sous H0 . Mais dans le cas d’un échantillon fini, s2 sera une variable
3.5 Tests d’Hypothèses dans les Régressions Linéaires 91
aléatoire qui évalue σ02 avec une précision qui croı̂t avec n − k. Il nous faut,
par conséquent, considérer la distribution du dénominateur du Fisher (3.17).
Sous le DGP (3.22), (n − k)s2 est grâce à l’équation (3.09), égale à
u>MX u. (3.27)
MX PM1 X2 = 0.
Ce qui est en effet le cas, car S(M1 X2 ), l’espace engendré par M1 X2 , est
un sous-espace de S(X), l’espace engendré par X1 et X2 ; pour l’apercevoir,
observons que M1 X2 = X2 − P1 X2 . Ainsi MX annule PM1 X2 .
Voici une explication plus intuitive de l’indépendance des formes quadra-
tiques (3.23) et (3.27). La forme quadratique qui apparaı̂t dans le dénomi-
nateur, (3.27), est la somme des carrés des résidus du modèle non contraint
(3.19). Ces résidus sont ce qui reste après que u ait été projeté en dehors
de tout ce qui se situe en S(X). Par contraste, la forme quadratique qui ap-
paraı̂t au numérateur, (3.23), est la somme des réductions des résidus au carré
du modèle contraint réalisée en ajoutant X2 à la régression. Ces réductions
doivent se situer en S(X). Il en résulte que la variable aléatoire qui apparaı̂t
au numérateur doit se situer dans un sous-espace orthogonal à celui dans
lequel se situe la variable aléatoire qui apparaı̂t au dénominateur. Cela se
voit clairement dans la partie (a) de la Figure 1.7, dans le cas précis où r = 1
et k = 2.
Nous avons désormais vérifié que le Fisher (3.17) suit réellement la distri-
bution de Fisher à r et n−k degrés de liberté, pour le cas des modèles linéaires
soumis à des contraintes linéaires et des aléas normalement distribués. Un
corollaire simple de ce résultat est que pour le même cas le Student (3.12)
ordinaire suit la distribution de Student à n − k degrés de liberté. Pour s’en
rendre compte, supposons que X2 est composé d’une colonne unique, que nous
appellerons x2 . Alors avec le Théorème FWL, l’estimation de β2 à partir de
(3.19) est identique à l’estimation à partir de la régression
M1 y = M1 x2 β2 + résidus,
92 Inférence dans les Modèles de Régression non Linéaire
L’écart type estimé de β̂2 est s(x2>M1 x2 )−1/2. De sorte que le Student pour
β2 = 0 est
x2>M1 y
.
s(x2>M1 x2 )1/2
Le carré de ce Student est
1 > ¡ ¢−1
2
y M1 x2 x2>M1 x2 x2>M1 y, (3.28)
s
et c’est tout simplement le Fisher (3.17) pour le cas particulier où r = 1.
Puisque la racine carrée d’une variable aléatoire qui suit une Fisher F (1, n−k)
suit une distribution de Student t(n − k) (consulter l’Annexe A), nous avons
prouvé le corollaire que nous avons mis en évidence.
La géométrie des Students et Fisher est intéressante. Le carré du Student
que nous avons observé est donné par (3.28). Elle dépend de s, l’estimation
OLS de σ, qui est donnée par
µ ¶1/2
y>MX y
s≡ . (3.29)
n−k
kPM1 x2 M1 yk
signe(y>M1 x2 )(n − k)1/2 .
kMM1 x2 M1 yk
Nous voyons donc que les Students ont une interprétation géométrique simple.
Si nous disons que y sur la Figure 1.3 représente M1 y, et S(X) représente
3.5 Tests d’Hypothèses dans les Régressions Linéaires 93
y = β1 + X2 β2 + u, (3.33)
Mι y = Mι X2 β2 + résidus,
qui est
¡ ¢−1
y>Mι y − y>Mι X2 X2>Mι X2 X2>Mι y.
Ainsi la différence entre la somme des résidus contraints et la somme des
résidus non contraints est
¡ ¢−1 ° °2
y>Mι X2 X2>Mι X2 X2>Mι y = °PMι X2 Mι y ° ,
94 Inférence dans les Modèles de Régression non Linéaire
kPMι X2 Mι yk2
Rc2 = .
kMι yk2
n−k Rc2
× .
k−1 1 − Rc2
Ce résultat peut être mis en évidence si l’on considère que cot2 φ = cos2 φ/
(1 − cos2 φ) ou par l’usage des définitions algébriques simples de F et de
Rc2 . Notons toutefois qu’il faudrait normalement éviter de calculer un Fisher
de cette façon, à moins qu’à la fois Rc2 et 1 − Rc2 ne soient connus avec au-
tant de décimales qu’il est nécessaire pour construire le Fisher avec précision.
Plusieurs progiciels de régression rapportent le R2 sous le format d’un nombre
à trois ou quatre décimales, et 1 − R2 peut être précis à une seule ou à deux
décimales.
Il est possible d’exprimer le R2 comme
Le R̄2 non centré est extrêmement rare, aussi avons-nous omis d’indicer le R̄2
par un “c”.
3.5 Tests d’Hypothèses dans les Régressions Linéaires 95
La quantité R̄2 est disponible dans presque tous les progiciels de régres-
sion. Ce n’est pas cependant une estimation d’un quelconque paramètre du
modèle (puisque pour la grande majorité des modèles, la variance de yt au-
tour de sa propre espérance non conditionnelle dépendra de la distribution
des variables du membre de droite), et ne sera pas particulièrement utile en
pratique. L’usage grandissant du R̄2 date des balbutiements de l’économétrie,
lorsque les échantillons étaient de taille modeste et les chercheurs souvent im-
pressionnés par des modèles qui s’ajustaient bien, dans le sens où la valeur du
Rc2 était importante. Les observateurs ont rapidement appris qu’en ajoutant
des régresseurs dans une régression linéaire, on augmente toujours le R2 ordi-
naire (centré ou non), et plus particulièrement lorsque la taille de l’échantillon
est faible. Cela poussa quelques chercheurs à estimer plus rigoureusement les
modèles intégrant un grand nombre de paramètres. On préconise l’usage du
R̄2 plutôt que le Rc2 pour traiter ce type de problème, parce que l’addition de
nouveaux régresseurs ne fera augmenter le R̄2 qu’à condition que la réduction
proportionnelle de la SSR soit plus forte que la réduction proportionnelle de
n − k.
Comme nous l’avons noté au tout début de cette section, tous les résultats
exacts sur la distribution des Students et Fisher (ou plus généralement sur
les distributions des estimateurs OLS avec des échantillons de taille finie) re-
quièrent que les aléas soient normaux et que les régresseurs soient fixés en
échantillons répétés, ou qu’ils puissent être traités comme tels. La dernière
possibilité nécessite quelques commentaires. La raison pour laquelle il est pra-
tique de supposer que les régresseurs sont fixes est que nous voulons être ca-
pables de manipuler les expressions matricielles qui dépendent des régresseurs
comme des expressions invariables en vue d’opérer des calculs d’espérances.
Aussi grâce à cette hypothèse, il nous est possible de soutenir que, par exemple
¡ ¢ ¡ ¢−1
E (X>X)−1X>u = X>X X>E(u) = 0. (3.35)
v>Λ−1 v (3.37)
doit suivre une distribution du χ2 (r). Ce résultat est démontré dans l’An-
nexe B et nous l’avons déjà utilisé dans les Sections 3.3 et 3.5.
Pour élaborer un test de Wald asymptotique, il suffit ensuite de trouver
un vecteur de variables aléatoires qui, sous l’hypothèse nulle, soit asympto-
tiquement normalement distribué avec une espérance nulle et une matrice de
covariance que l’on peut estimer. Par exemple, supposons que β soit soumis
à r(≤ k) contraintes linéairement indépendantes,
Rβ = r, (3.38)
Rβ̂ − r. (3.39)
La troisième et dernière approche que l’on peut choisir pour tester les
hypothèses concernant β est d’estimer à la fois le modèle soumis aux con-
traintes et le modèle non contraint, et ainsi d’obtenir deux valeurs de SSR(β),
que nous désignerons par SSR(β̃) et SSR(β̂). Une statistique pseudo-F peut
alors être calculée comme
¡ ¢
SSR(β̃) − SSR(β̂) /r SSR(β̃) − SSR(β̂)
= . (3.50)
SSR(β̂)/(n − k) rs2
Nous avons déjà vu que cette statistique de test suit exactement une dis-
tribution de F (r, n − k) lorsqu’elle sert à tester les contraintes linéaires sur
les modèles linéaires où les aléas sont normaux. Nous aurons l’occasion de
démontrer au Chapitre 5 qu’elle suit en général la distribution de F (r, n − k)
(et également que multipliée par r, elle suit une distribution du χ2 (r)),
asymptotiquement. Comme nous l’observerons au Chapitre 6, des statistiques
pseudo-F asymptotiquement correctes peuvent aussi être calculées à partir de
régressions artificielles similaires à (3.49), mais pour lesquelles la régressande
n’a pas été nécessairement divisée par s̃. Nous remplaçons tout simplement
SSR(β̂) dans (3.50) par la somme des résidus au carré de la régression artifi-
cielle.
L’idée générale de la statistique de test (3.50) est d’observer la différence
entre les valeurs de la fonction objectif SSR(β) en les estimations contraintes et
non contraintes. Le dénominateur a pour fonction de normaliser les résultats.
Plus tard, dans cet ouvrage, nous verrons que l’on peut trouver des tests
d’hypothèses basés sur les logarithmes des fonctions de vraisemblance, lorsque
nous discuterons de l’estimation par maximum de vraisemblance. Parce que
la différence de deux logarithmes est le logarithme d’un rapport (dans ce cas
le rapport de la valeur de la fonction de vraisemblance contrainte par la valeur
de la fonction de vraisemblance non contrainte), ceux-ci sont connus sous le
nom de tests du rapport de vraisemblance, ou tests LR. Ce serait faire un
usage abusif de la terminologie que d’appeler (3.50) un test LR, mais il est
certainement raisonnable de prétendre que (3.50) est fondé sur le principe
du rapport de vraisemblance si ce dernier est grossièrement défini comme
désignant un test basé sur la différence de deux valeurs de la fonction objectif
calculée pour les estimations contraintes et non contraintes.
Une caractéristique notable des principes de Wald, de LM et de LR
est que des tests qui s’appuient sur ces principes sont asymptotiquement
équivalents. De façon intuitive, cela signifie que lorsque la taille de l’échantil-
lon devient suffisamment importante et que les hypothèses testées sont soit
correctes, soit presque correctes (nous définirons plus précisément ce que nous
entendons par presque correctes, aux Chapitres 12 et 13), alors les statis-
tiques de test de la même hypothèse nulle basées sur n’importe lequel des
trois principes devraient donner exactement les mêmes résultats. Bien en-
tendu, avec des échantillons finis et des modèles qui pourraient ne pas être
exacts, les trois principes peuvent souvent donner des tests qui conduisent à
3.6 Tests d’Hypothèses dans le Cas non Linéaire 101
des résultats différents. De fait, le choix du test dépend souvent du test dont
la distribution en échantillon fini est le mieux approchée par la distribution
en échantillon infini.
Une démonstration de l’équivalence asymptotique des tests LM, LR et
Wald dans un contexte de modèles de régression non linéaire dépasse la portée
de ce chapitre. Toutefois, dans le cas particulier des modèles de régression
linéaire, une telle démonstration est assez aisée. Par souci de simplicité, nous
supposerons que l’on est confronté à la situation décrite dans la Section 3.5,
puisque nous n’essayons pas d’extraire des résultats exacts. L’hypothèse nulle
est β2 = 0 dans la régression
y = Xβ + u = X1 β1 + X2 β2 + u, u ∼ IID(0, σ 2 I).
kPM1 X2 yk2
, (3.51)
rs2
La matrice R dans ce cas est [0k−r Ir ]. De sorte que R(X>X)−1R>, que nous
avons besoin d’évaluer pour élaborer une statistique de Wald, est simplement
le bloc de dimension r × r situé en bas à droite de la matrice (X>X)−1. Il
est aisé d’arriver à ce résultat en faisant usage du Théorème FWL ou des
formules sur les inversions des matrices partitionnées que l’on a rappelées
dans l’Annexe A; c’est tout simplement (X2>M1 X2 )−1. Par conséquent, la
statistique de Wald (3.41) est
qui est égal à r fois (3.51). Ainsi, dans ce cas, les principes de Wald et du LR
entraı̂nent pour l’essentiel les mêmes statistiques de test. La seule différence
provient du fait que nous choisissons d’écrire la statistique de Wald (3.52)
dans la configuration du χ2 lorsque la statistique LR (3.51) s’écrit dans une
configuration en F .
Qu’en est-il du principe du LM? Nous avons vu que la statistique LM
(3.18) correspond à la somme des carrés expliqués de la régression artificielle
(3.49), qui dans ce cas est
1
M1 y = X1 b1 + X2 b2 + résidus. (3.53)
s̃
1
M1 y = M1 X2 b2 + résidus,
s̃
qui est
1 > ¡ > ¢−1 > 1° °
°PM X y °2 .
y M1 X2 X2 M 1 X2 X2 M 1 y =
s̃2 s̃2 1 2
à estimer et qui produira des estimations plus efficaces que le modèle non con-
traint. Les tests de ce genre de contraintes sont les tests DWH (Chapitre 7),
les tests d’autocorrélation (Chapitre 10), les tests de contrainte du facteur
commun (Chapitre 10), les tests de changement de régime (Chapitre 11),
et les tests sur la longueur des retards (Chapitre 19). Dans ces situations, et
dans d’autres encore, les contraintes sont testées dans le but d’arbitrer entre les
modèles à utiliser pour l’inférence sur les paramètres qui nous intéressent, mais
aussi pour écarter des modèles qui s’avèrent incompatibles avec les données.
Toutefois, comme l’estimation et les tests se fondent sur les mêmes ensembles
de données, les propriétés des estimations ultimes peuvent être très difficiles
à analyser. C’est le problème des tests préliminaires.
Par simplification, nous ne considérerons dans cette section que le cas
des modèles de régression linéaire avec des régresseurs fixés, et dont certains
paramètres sont soumis à des contraintes de nullité. Le modèle contraint sera
(3.18), pour lequel y est régressée sur la matrice X1 , de dimension n × (k − r),
et le modèle non contraint sera (3.19), dans lequel y est régressée sur X1 et
sur X2 , qui est de dimension n × r. Les estimations OLS des paramètres du
modèle contraint sont ¡ ¢−1
β̃1 = X1>X1 X1>y.
Les estimations OLS de ces mêmes paramètres à partir du modèle non con-
traint s’obtiennent facilement par l’usage du Théorème FWL. Elles sont
¡ ¢−1
β̂1 = X1>M2 X1 X1>M2 y,
avec β20 6= 0. Il est alors facile de voir que l’estimateur contraint β̃1 sera, en
général, biaisé. Sous ce DGP,
³¡ ¢−1 ´
E(β̃1 ) = E X1>X1 X1>y
³¡ ¢−1 >¡ ¢´
>
= E X1 X1 X1 X1 β10 + X2 β20 + u (3.57)
¡ ¢−1
= β10 + X1>X1 X1>X2 β20 .
A moins que X1>X2 ne soit une matrice nulle, ou que β20 ne soit un vecteur
nul, β̃1 sera un estimateur biaisé. L’amplitude du biais dépendra des matrices
X1>X1 et X1>X2 et du vecteur β20 .
Des résultats très comparables à (3.57) sont valables pour tous les genres
de contraintes, pas seulement pour les contraintes linéaires, et pour toutes
sortes de modèles autres que les modèles de régression linéaire. Nous ne ten-
terons pas de traiter les modèles non linéaires pour l’instant car cela réclame
un outillage technique important qui ne sera développé qu’au Chapitre 12.
On trouvera des résultats analogues à (3.57) pour les modèles de régression
non linéaire et pour les autres types de modèles non linéaires dans l’article de
Kiefer et Skoog (1984). Le point important est que lorsque l’on impose des
contraintes qui sont erronées sur certains paramètres, les estimations de tous
les paramètres sont alors généralement des estimations biaisées. Et ce biais
ne disparaı̂t pas lorsque la taille de l’échantillon augmente.
Même si β̃1 est biaisé lorsque le DGP est (3.56), il peut être intéressant
de savoir quel est son degré d’efficacité. Le concept correspondant à la matrice
de covariance pour un estimateur biaisé est la matrice d’erreur quadratique
moyenne, qui est dans ce cas
¡ ¢¡ ¢
E β̃1 − β10 β̃1 − β10 >
¡ ¢−1 ¢¡ ¢−1 ¢
= E X1>X1 X1>(X2 β20 + u) X1>X1 X1>(X2 β20 + u) >
¡ ¢−1 ¡ > ¢−1 > ¡ ¢−1
= σ02 X1>X1 + X1 X1 X1 X2 β20 β20 >
X2>X1 X1>X1 . (3.58)
3.7 Contraintes et Estimateurs de Tests Préliminaires 105
Dans la pratique, il n’y a souvent pas grand chose à faire à propos des
difficultés causées par les tests préliminaires sinon de reconnaı̂tre que ces tests
sont source d’un facteur d’incertitude supplémentaire pour les problèmes de
l’inférence statistique. Puisque α, le niveau du test préliminaire, aura une in-
fluence sur les propriétés de β̌1 , il est sans doute préférable d’essayer plusieurs
valeurs de α. Des niveaux de signification tels que .05 ne sont pas optimaux
dans la plupart des cas, et il existe toute une littérature sur la façon de choisir
des niveaux plus appropriés dans des cas bien déterminés; consulter, par exem-
ple, Toyoda et Wallace (1976). Cependant, les véritables problèmes des tests
préliminaires sont beaucoup plus délicats que celui dont nous avons discuté à
titre d’exemple, ou que ceux étudiés dans la littérature. Chaque fois que l’on
soumet un modèle à n’importe quel genre de test, le résultat obtenu influence
peut-être la formulation définitive du modèle, et l’estimateur i.t.p. qui en
découle devient donc encore plus complexe et il est très difficile d’imaginer
comment on peut analyser cela de façon formelle.
Notre discours sur les estimateurs issus des tests préliminaires a été très
concis. On trouvera des traitements plus explicites chez Fomby, Hill, et
Johnson (1984, Chapitre 7), Judge, Hill, Griffiths, Lütkepohl, et Lee (1985,
Chapitre 21), et Judge et Bock (1978). Dans le reste du livre nous ferons ab-
straction des problèmes engendrés par les tests préliminaires, non pas parce
qu’ils sont marginaux, mais parce que dans la pratique, il sont généralement
trop épineux.
3.8 Conclusion
Termes et Concepts
ellipse de confiance: relation avec les pseudo-F et pseudo-t
intervalles de confiance puissance d’un test
erreur de première espèce et de région critique, ou région de rejet
deuxième espèce région d’acceptation
estimateur issu de test préliminaire régions de confiance et intervalles de
(itp) confiance, exacts et approchés
Fisher et distribution de F régresseurs artificiels
fixes en échantillons répétés régression de Gauss-Newton (GNR)
hypothèse nulle et alternative R2 ajusté, ou R̄2
information a priori statistique de test
matrice de covariance Student et distribution de t
maximum de vraisemblance niveau d’un test
P marginal, ou niveau de signification test asymptotique
marginale test convergent
prétest test exact
principe de Wald tests asymptotiquement équivalents
principe du multiplicateur de valeur critique (pour une statistique
Lagrange (LM) de test)
principe du rapport de vraisemblance vecteur de score
(LR)