Professional Documents
Culture Documents
13.1 Introduction
Nous avons rencontré pour la première fois au Chapitre 3 les tests d’hypothèses
basés sur les principes de LM, Wald, et LR. Cependant, les trois statistiques
de test classiques elles-mêmes, souvent rattachées irrévérencieusement à la
“Sainte Trinité”, n’ont pas été introduits jusqu’à la Section 8.9 parce que,
si les tests doivent être appelés classiques, ils doivent être exécutés dans le
contexte de l’estimation (ML) par maximum de vraisemblance. Comme nous
le soulignions au Chapitre 8, l’estimation ML nous impose un dispositif plus
restictif que pour l’estimation NLS ou IV, parce que les DGP du modèle
estimés doivent être complètement caractérisés par les paramètres du modèle.
Ceci implique que nous devons poser de fortes hypothèses de distribution si
nous désirons utiliser l’estimation ML. En retour, ML nous permet d’estimer
une variété beaucuop plus large de modèles que ne le permet NLS. De plus,
comme nous le verrons dans ce Chapitre, les tests basés sur les estimations
ML sont beaucoup plus largement applicbles que ceux utilisés dans le contexte
NLS. Ceci signifie que nous serons capables de construire des tests dans des
directions autres que celles des régressions étudiées en détail dans le dernier
chapitre.
Heureusement , l’utilisation de ML ne nous oblige pas à abandonner
l’utilisation des régressions artificielles. Bien que la régression de Gauss-
Newton, que nous avons beaucoup utilisée dans le contexte de l’estimation
par moindres carrés et IV, n’est généralement pas applicable aux modèles
estimés par ML, nous introduisons une autre régression artificielle à la Sec-
tion 13.7 qui est la suivante. Il s’agit de la régression du produit extérieur
au gradient, ou régresion OPG. La régression OPG peut être utilisée pour
l’estimation de la matrice de covariance, test d’hypothèses, estimation effi-
cace en une étape, et ainsi de suite, dans le contexte ML, exactement de la
même manière que la GNR peut être utilisée dans le contexte ML et IV. Plus
loin dans le livre, nous rencontrerons d’autres régressions artificielles, qui se
conduisent habituellement mieux mais qui sont largement moins applicables
que la régression OPG.
Ce chapitre est organisé comme suit. La prochaine section fournit une
discussion géométrique des trois statistiques de test classiques. La Section
435
436 Les Tests d’Hypothèses Classiques
Nous supposons que les fonctions r(θ) qui expriment les restrictions sont
arrangeantes en θ et auusi que l’espace paramétrique Θ0 associé avec M0 est
un sous-espace Θ1 arrangeant de dimention (k − r)--. L’hypothèse nulle est
satisfaite par une série particulière de données si les données sont générées
par un vecteur paramétrique dans le sous-espace Θ0 . Comme au Chapitre
8, nous désignerons les estimations contraintes par θ̃ et les estimations non
contraintes par θ̂.
Le premier test classique est le test LM, qui est basé exclusivement sur
les estimations contraintes θ̃. Comme nous l’avons vu à la Section 8.9, il
peut être réalsé soit sur les multiplicateurs de Lagrange d’un problème de
maximisation contraint, soit sur le vecteur gradient (ou vecteur score) de
la fonction de logvraisemblance. Dans sa forme score, il était donné dans
l’équation (8.77):
LM ≡ n−1 g̃> Ĩ−1 g̃. (13.03)
Rappelons de (8.13) que le vecteur gradient g(θ) est défini comme le vecteur
colonne des dérivées partielles de la fonction de logvraisemblance à θ, que la
matrice d’information I(θ) est définie dans (8.20), (8.21), et (8.22), et que g̃
et Ĩ désignent ces quantités évaluées en θ̃. Pour une notation aisée dans ce
qui suit, nous écrirons I à la place de nI, car cela nous évitera d’écrire une
grande quantité de certaines puissances explicites de n. Dans la prochaine sec-
tion, cependant, certaines des puissaances de n auront besoin d’être restorées
lorsque nous nous embarquerons dans une certaine théorie asymptotique. En
utilisant la notation I, (13.03) peut être réécrite comme
Le second test classique, le test de Wald, est basé exclusivement sur les
estimations non contraintes θ̂. Comme l’hypothèse nulle nécessite que r(θ) =
0, cela peut être tester en voyant si r(θ̂) est ou n’est pas significativement
différent de zéro. Nous avons vu à l’équation (8.78) que qu’une statistique de
test convenable est
¡ ¢−1 ¡ ¢−1
W = n r̂> R̂ Î−1R̂> r̂ = r̂> R̂ Iˆ−1R̂> r̂, (13.05)
LR = 2(`ˆ − `),
˜ (13.06)
θ2 = 0. (13.09)
.
Ici nous avons partitionné le vecteur paramétrique comme θ = [θ1 ... θ2 ], avec
θ2 un vecteur r-- et θ1 par conséquent un vecteur (k −r)--. Nous pouvons aussi
partitionner la matrice d’information de façon à la conformer à la partition
de θ: · ¸
I11 I12
I= .
I21 I22
Avec θ et I partitionnés de cette manière,l’expression (13.07) pour la fonction
de logvraisemblance devient
" #> · ¸" #
1 θ1 − θ̂1 I11 I12 θ1 − θ̂1
`(θ1 , θ2 ) = `ˆ − − . (13.10)
2 θ − θ̂ I21 I22 θ2 − θ̂2
2 2
13.2 La Géométrie des Statistiques de Test classiques 439
= (θ̃1 − θ̂1 )>I11 (θ̃1 − θ̂1 ) − 2(θ̃1 − θ̂1 )>I12 θ̂2 + θ̂2>I22 θ̂2 .
où la dernière ligne utilise le fait que θ̃2 = 0. En utilisant le résultat (13.11),
la statistique LR peut être réécrite comme
LR = (θ̃1 − θ̂1 )>I11 (θ̃1 − θ̂1 ) − 2(θ̃1 − θ̂1 )>I11 (θ̃1 − θ̂1 ) + θ̂2>I22 θ̂2
(13.12)
= θ̂2>I22 θ̂2 − (θ̃1 − θ̂1 )>I11 (θ̃1 − θ̂1 ).
R(θ) = [0 I],
Z.....
...
...
....
...
...
....
....
.... A
...
..................................................................................................................
K ... ........ . . ...
. .. ....
...
... ... .. .....
...
.... ..... ... . .. ..
L..................................................................................................................................................................
.
.. . .
.... .. . . ......
..... ..... . . . ..... ....... .... ....B ......
........
. .
.... ..... .. .. ...... ... .... .......
. . .. ... .. .... ... ....
.. . ..... ...... ... ..
...
... F
.
.
... ...
... ...
.... ...
. ...
.. . .... ...
...
. ... ... ....
... . ..
...
... ... ...
.
.... E ... ...
...
...
.... . ...
... ... ...
.. .. .... ... ... ...
.. ... ... ...
... .. . ..... Y......... ...... . . .. ...
. ... ...
.. .. .... .. .. . ... ...
.... ...
... ...
... ..... .............
.
...
...
... .. ..
................................................................G ......................................................................................................................................................................... X
.. .. .... .....
.. . .. ...
.. .. O H ...
... ...
...
.. ...
... D
C
qui est la même que (13.12). La preuve de l’égalité des trois statistiques
classiques pour la fonction de logvraisemblance quadratique (13.07) est par
conséquent complète.
Il est intéressant de voir comment les trois statistiques de test classiques
sont reliées géométriquement. La Figure 13.1 dépeint le graphe d’une fonc-
tion logvraisemblance `(y, θ1 , θ2 ). Ceci est dessiné pour un vecteur échantillon
donné y et par conséquent pour une taille d’échantillon donnée n. Pour
faire simple, l’espace paramétrique est supposé être à deux dimensions. Il
existe seulement une restriction, qui est que le second élément du vecteur
paramétrique, θ2 , est égal à zéro. Ainsi, la fonction ` peut être traitée comme
une fonction de deux variables θ1 et θ2 seulement, et son graphe représenté
dans un espace tridimensionnel. Comme d’habitude, la Figure 13.1 est seule-
ment une projection bi-dimensionnellet de cette rreprésentation. Le plan
(θ1 , θ2 ) devrait être visualisé à l’horizontal, et l’axe vertical, OZ, mesure ainsi
les valeurs de la fonction `.
La fonction de vraisemblance ` réalise son maximum `ˆ au point A de la
ˆ dans le
figure. Nous pouvons dire que A possède les coordonnées (θ̂1 , θ̂2 , `)
système de coordonnées défini par les trois axes OX, OY, et OZ. En général,
θ̂2 ne sera pas zéro. Si la restriction que θ2 est zéro est imposée, alors à la
place du maximum ` sur le plan entier (θ1 , θ2 ), nous sommes contraints à l’axe
θ1 et par conséquent àla courbe marquée CBD. Le maximum contrint, `, ˜ est
13.2 La Géométrie des Statistiques de Test classiques 441
peut être facilement enrayée. Alors il s’en suit de (13.10) que la fonction de
logvraisemblance en termes des ψ est
1¡ 2 ¢
`(ψ1 , ψ2 ) = `ˆ − − ψ1 + ψ22 . (13.15)
2
1
Nous ne pouvons pas ici parler de reparamétrisation, car le changement de vari-
ables est aléatoire en raison de sa dépendance sur les estimations paramétriques
contraintes
442 Les Tests d’Hypothèses Classiques
V
.........
..
...
....
....
Y........ ......
... ...
.
.... .....
..
. ....
..... ....
...
. ....
.... ....
. ... ...
.. ...
.
.
.
. ....
.... ....
.... . .
. . ...... ... .................
.. .
....... ... ........
. ... .... ......
.
..
....... ....←− Contour où ` = `˜
... . . ..
. ...
.
. ... .
.. ...
.. .
.. .
. ...
.
. .. . .
. .................................................................................................................................................................................................
. .................
...
. ...
.. ... . ..
...
. ... O0 ... U
.
. ... .
...
.. ... ..
... ....
..... ....
..... ....... ....
.......
.. .
.............................................................................................................................................................................................................................................
O M X
Z 0.....
..
...
....
K ..
... ... . . .....................................
.....................................................
.. ................ ..................L ..... ......................
... .............................................. ....
. . ... ........... B ........... ..... .................. ....
...
. . ....... .. ....... .... .......... .
....... .. ...... .... . ..... .....
....... ...
.
.. ...... .... ... .....
......... ... ........ .....
. .
... .
... .....
....... . ...... ....
... ..
........V .....
..........
.......
... ..
... ..
... .. Y
.......... ....
... ...
... .....
.....
... .. ... ...
... .. ................... .......
... ............ .... ... ...
... . .
...
. .. ........................ ..... ........
. ... ...
..........
... ... . ...
.. . .. O . . 0 .. .
.......
..... ..................................................................... ........ ...........................................................................................................................
... O .................................................................................................................................................................................................... ..
................................................................ .
M ... .............................................................. .........
..
.. .... . X U
.. ...
...
..
mais ce fait implique que les axes θ ne peuvent pas en général être mutuelle-
ment orthogonaux. (Les axes ψ reçoivent ce traitement privilégié parce qu’ils
rendent seulement la fonction de logvraisemblance symétrique par rapport à
l’origine.) Ensuite, la Figure 13.3 montre l’image complète en trois dimension.
La nouvelle origine, O0, est localisée à l’ancien (θ̂1 , θ̂2 ), au-dessous du maxi-
mum de `. ψ1 axis, dessiné comme la ligne O0 U, est prallèle à l’ancien axe θ1 ,
OX. Ceci provient du fait que l’axe θ1 est la série des vecteurs paramétriques
satisfaisant l’hypothèse nulle et de notre observation précédente que cette série
coı̈ncide avec la ligne (13.17) parallèle à l’axe ψ1 ? revoir cette dernière phrase?
. L’axe ψ2 , O0 V, est perpendiculaire à O0 U mais pas parallèle en général à
l’axe θ2 OY.
Une conséquence de la forme symétrique de (13.15) est que les courbes de
niveau de la fonction ` sont devenues des cercles centrés sur l’origine ψ dans
les nouvelles figures. Nous avons vu de (13.16) que le maximum contraint de
` est réalisé sur l’axe θ1 OX u pour pour lequel ψ1 = 0, qui est, au point M
où il croise l’axe ψ2 . Par un raisonnement standard, nous pouvons voir que la
courbe de niveau de ` sur laquelle repose le maximum contraint, pour laquelle
` = `, ˜ doit être tangente à l’axe θ1 et ainsi aussi à l’axe ψ1 au maximum;
voir la Figure 13.2. Le rayon O0M de la courbe de niveau circulaire ` = `˜ qui
joins l’origine ψ au point de tangence est perpendiculaire à la tangente, qui
explique géométriquement pourquoi le maximum contraint repose sur l’axe
ψ2 . La longueur du rayon O0M est, naturellement , juste la valeur de ψ2
donné par (13.17), que nous désignerons par ρ.
Rappelons maintenat que la statistique LR était représentée géométrique-
ment par le segment de ligne vertical KL dans les Figures 13.1 et 13.3. Nous
444 Les Tests d’Hypothèses Classiques
C’est que l’expression (13.12) pour les réductions des trois statistiques de test
classiques quant θ1 et θ2 sont scalaires.
2
Cet argument est heuristique, car, à strictement parlé, nous ne serions pas
en train de traiter les ψ comme s’ils constituaient des paramètres ordinaires.
Cependant, nous procèderons comme s’ilétait possible de faire ainsi.
13.3 L’Equivalence Asymptotique des Tests Classiques 445
Ï = I0 + O(n−1/2 ), (13.20)
où Ï ≡ I(θ̈). Ceci demeure vrai pour n’importe quel estimateur convergent
au taux n1/2 θ̈, mais nous adopterons la convention que θ̈ désigne, soit θ̂,soit
θ̃. De façon similaire, comme les fonctions r(θ) qui définissent les restrictions
sont supposées être lisses, nous avons
R̈ = R0 + O(n−1/2 ), (13.21)
où la relation d’ordre doit être comprise élément par élément dans les deux
équations précédentes.
13.3 L’Equivalence Asymptotique des Tests Classiques 447
Comme ceci est identique à l’expression (13.23), nous avons établi l’équiva-
lence asymptotique de LM et LR.
Finalement, nous considérons la statistique de Wald (13.05). Le dévelop-
pement de Taylor des restrictions r(θ̂) = 0, l’utilisation de l’hypothèse que
r(θ0 ) = 0, et la multiplication par n1/2, nous permettent d’obtenir
a a
n1/2 r̂ = R0 n1/2 (θ̂ − θ0 ) = R0 I−1
0 n
−1/2
g0 ,
448 Les Tests d’Hypothèses Classiques
a ¡ ¢
−1 > −1
W = (n−1/2 g0 )> I−1 >
0 R0 R0 I0 R0 R0 I−1
0 (n
−1/2
g0 ). (13.26)
L’équivalence asymptotique des trois tests classiques sous les hypothèses nulles
des tests, est maintenant établie à travers l’égalité de (13.23), (13.25), et
(13.26).
A ce point, il est facile de dériver la distribution asymptotique com-
mune des trois statistiques de test classiques. Rappelons de (8.41) que la
distribution asymptotique de n−1/2 g0 est N (0, I0 ). De ceci, nous calculons
que la distribution asymptotique du vecteur R0 I−1 0 (n
−1/2
g0 ) de dimension r--
−1 >
est N (0, R0 I0 R0 ). Les trois statistiques de test sont, comme nous venons
juste de le voir, égale asymptotiquement égales à la forme quadratique (13.26)
dans le vecteur R0 I−1 0 (n
−1/2
g0 ) et la matrice (R0 I−1 > −1
0 R0 ) . Il s’en suit
immédiatement que la distribution asymptotique des statistiques de test clas-
siques une chi-deux centrale à r degrés de liberté.
Notre discussion du premier cas, dans lequel les restrictions sous test sont
en fait réelles, est à présent complète. Nous tournons par conséquent notre
attention sur le second cas, dans lequel les données sont générées par une mise
en marche du DGP qui tend à la limite vers un DGP qui satisfait l’hypothèse
nulle. Nous commençons par la discussion du concept de mise en marche des
DGP dans le contexte des modèles qui doivent être estimés par la méthode
du maximum de vraisemblance.
Dans le contexte des modèles estimés par NLS, nous avons obtenu une
mise en marche d’un DGP en ajoutant une quantité proportionnelle au taux
to n−1/2 à la fonction de régression x(β0 ); rapellons (12.06). Ainsi, comme
n → ∞, le DGP a évolué à un taux convenable vers un spécifié par le vecteur
paramétrique β0 , supposé satisfaire les restrictions des hypothèses nulles.
Tout comme les modèles NLS sont définis au moyen de leurs fonctions de
régression, les modèles qui doivent être estimés par maximum de vraisem-
blance sont définis au moyen de leurs fonctions de logvraisemblance, comme
dans (13.01). Dans le contexte des modèles ML, il semble par conséquent
approprié d’additionner une quantité appropriée au taux n−1/2 à la contribu-
tion pour la fonction de logvraisemblance de chaque observation. Ainsi nous
écrivons de l’observation t
`t = `t (y t, θ0 ) + n−1/2 at (y t ). (13.27)
où cov0 signifie une covariance calculée sous le DGP limite caractérisé par θ0 ,
alors il peut être prouvé que, asymptotiquemnt,
n−1/2 g0 ∼ N (c, I0 ).
Par conséquent, la distribution asymptotique du vecteur de dimension r--
R0 I−1
0 (n
−1/2
g0 ) est maintenant N (R0 I−1 −1 >
0 c, R0 I0 R0 ), et la distribution
asymptotique des statistiques de test classiques est une chi-deux non centrale
à r degrés de liberté et à paramètre non central
¡ ¢
> −1
Λ = c> I0−1R0> R0 I−1
0 R0 R0 I−1
0 c. (13.30)
Afin de traiter ces variables aléatoires comme des vecteurs dans un espace
Euclidien à trois dimensions qu’elles engendrent, il est suffisant de s’assurer
que les opérations algébriques définies sur des espaces Euclidiens peuvent être
proprement définies pour ces variables aléatoires. Les opérations d’addition
et de multiplication par un scalaire sont définies de manière évidente. La
somme d’espace-Euclidien, ou de façon plus concise somme vectorielle, de
deux variables aléatoires est simplement leur somme ordinaire:
Xn µ ¶
−1/2 ∂`t ¡ t ¢ ∂`t ¡ t ¢
s1 + s2 = n y , θ0 + y , θ0 . (13.31)
t=1
∂θ1 ∂θ2
a
...........
..
...
..
..
..
............. ....
..........
.
............
............. ..
.
M1 a......................... .
..
..
..
. .
.
..
... ...............
... ....... ..
.
... ....
... ..... ..
.
... ...... .
... ..... ..
. ............
......
................ ... ...... . ............
............
..
................. ... .....
................
.................
................. ................
. ..... . ............
............
... .
..
...
.................
.
.... .
. . . ............
............
.. .. ........ ... ................s
................................ .. .........
. .
.
s .............φ
.... ......
................. ............
... ............
...........
............. ...... ..........
2 ....................................................................................................
...........
.......... ......
1
..
..
..
..
..
..........................................
... .................
............
............ O .................
.................
............ .................
....................... .................
............ ................
.
..
......
... .................
.
......
..
..
. ................
..
..
..
..
..
. ................
.
..
..
..
..... ................
.
..
. .
......
. ................
.
.....
..
..
. ...
..
..
..
..
..
.
.........
c2 = kM1 ak cos φ.
Il s’en suit que le paramètre de non centralité Λ, que nous avons vu était égal à
c22 dans le cas simple présent, est donné par une formule qui rappelle fortement
13.4 Tests Classiques et Régressions Linéaires 453
l’expression (12.23) pour le cas des tests dans des directions de régressions:
y = X1 β1 + u and (13.35)
y = X1 β1 + X2 β2 + u, (13.36)
454 Les Tests d’Hypothèses Classiques
n 1
`(y, β) = − − log 2π − − (y − Xβ)>(y − Xβ).
2 2
à partun terme constant qui est le même pour l’estimation à la fois de (13.35)
et (13.36) et qui disparaı̂t donc de la différence des fonctions de logvraisemnl-
nce utilisées dans le test LR. Ici X ≡ [X1 X2 ] et MX désigne la matrice qui
projette orthogonalement sur S⊥ (X). Pour le modèle (13.35), la fonction de
logvraisemblance concentrée est
n ¡ ¢ n
`˜ ≡ − − log (y − X1 β̃1 )>(y − X1 β̃1 ) = − − log(y>M1 y),
2 2
13.4 Tests Classiques et Régressions Linéaires 455
Cette décomposition, qui a été expliquée dans la figure Figure 1.7, dit que la
SSR d’une régression de y sur X1 est égale à la SSR d’une régression de y
sur X1 et X2 , plus la somme expliquée des carrés d’une régression de y (ou,
de manière équivalente, M1 y) sur M1 X2 . En conséquence, nous obtenons de
(13.38) que µ ¶
y>PM1 X2 y
LR = n log 1 + > . (13.39)
y MX y
La relation entre la statistique F (13.37) et la statistique LR (13.39) est alors
µ ¶
rF
LR = n log 1 + . (13.40)
n−k
Pour le modèle de régression linéaire (13.36), nous avons de (8.85) qui le bloc
(β, β) de I, qui est tout nous avons besoin donné par la propriété bloque-
diagonale de (8.87), est donné par ? à revoir?
¡ ¢−1
(Iββ )−1 = σ 2 X>X .
456 Les Tests d’Hypothèses Classiques
1 >
σ̂ 2 = −
n
y MX y.
W = rF + O(n−1 ).
Pour terminer, nous nous tournons vers la statistique LM. Nous obser-
vons tout d’abord de (8.83) que le gradient par rapport aux paramètres de
régression β de la fonction de vraisemblance pour un modèle de régression
linéaire à erreurs normales est
n
1 X >
g(y, β, σ) = 2 Xt (yt − Xt β) = σ −2 X>(y − Xβ).
σ t=1
Comme le test LM est basé sur le modèle contraint (13.35), nous utilisons
l’estimation ML de σ provenant de ce modèle:
1 >
σ̃ 2 = −
n
y M1 y.
13.4 Tests Classiques et Régressions Linéaires 457
La conclusion la plus importante de cette analyse est que toutes ces statis-
tiques de test classiques sont seulement des fonctions de la statistique standard
F et des entiers n, k, et r. Ainsi, si l’on calcule F, les statistiques LM, W,
et LR peuvent être obtenues directement de (13.44), (13.42), et (13.40). Si
les conditions de régularité tiennent, telles que l’hypothèse nulle F ait ex-
actement sa distribution de même nom, les distributions d’échantillon fini
exactes de LM, W, et LR peuvent être calculées par l’utilisation de ces for-
mules. Cependant, ces distributions exactes ne sont pas les mêmes que la
distribution asymptotique, qui est chi-carré (centrale) à r degrés de liberté.
Pour les modèles de régression linéaire, avec ou sans erreurs nomales,
il existe naturellement aucune nécessité de regarder LM, W, et LR, car
l’information qui est obtrenues en procédant ainsi en plus, est déjà contenue
dans F. Néanmoins, comme les travailleurs appliqués trouvent souvent com-
mode d’utiliser une de ces statistiques classiques de test, cela vaut la peine
de discuter d’un problème qui peut survenir lorsqu’elles sont utilisées. Cha-
cune des statistiques de test classiques sera typiquement comparée, pour les
cas d’inférence, avec la distribution asymptotique chi-deux. Comme les trois
sont numériquement différentes entre elles, différentes inférences peuvent bien
être dessinées lorsque différents tests classiques sont employés. Cette diffi-
culté, souvent rattachée à un conflit parmi les différents critères de test, est
fréquement composé par des manières diverses de calculer même juste une des
statistiques classiques, comme nous en discuterons dans la prochaine section.
Le résultat des conflits parmi les différents critères de test a bien été discuté
dans la littérature économétriques. Le propos semble avoir été évoqué par
Savin (1976) et Berndt et Savin (1977); il fut exposé et étendu par Breusch
(1979). Consulter aussi Evans et Savin (1982) et Vandaele (1981).
Pour le cas des modèles de régression linéaire (incluant la GNR et les
régressions artificielles pour ML que nous introduirons bientôt), et en de
manière quelque peu générale, existent des relations d’inégalité qui tiennent
parmi LM, W, et LR. Ces inégalités sont comme suit:
W > LR > LM.
458 Les Tests d’Hypothèses Classiques
−0.02
0.00 0.05 0.10 0.15 0.20 0.25
Niveau nominal du test
Tous les résultats présentés dans cette section semblent jusqu’ici conduire
raisonnablement à une conclusion claire.Chaque fois qu’une hypothèse de test
est appliquée par l’utilisation d’une régression linéaire, la forme la plus facile et
souvent la plus satisfaisante de la statistique de test pour l’utilisation est le test
F ou, dans les cas à une dimension, le test t. Toutes les autres statistiques de
test que nous avons considérées jusqu’ici sont fonction de la statistique F ou t,
sont asymptotiquement équivalents sous l’hypothèse nulle et sous les DGP qui
se mettent en marche pour l’hypothèse nulle à un taux proportionel à n−1/2,
mais peuvent avoir dans des échantillons finis des distributions perturbatrices
loin de la distribution asymptotique nominale.
1 yt2
`t (yt , σ 2 ) = − − log(2πσ 2 ) − ,
2 2σ 2
et la fonction de logvraisemblance pour un échantillon de taille n est
n
2 n 1 X 22
`(y, σ ) = − − log(2πσ ) − 2 y . (13.48)
2 2σ t=1 t
Ce modèle n’a juste qu’un paramètre, qui devrait normalement être pris
comme soit σ, soit σ 2. Cependant, il est intéressant de considérer une troisième
paramétrisation. Supposons que τ ≡ log σ soit le paramètre du modèle. Alors
la fonction de logvraisemblance devient
n
X
n 1 −2τ
`(y, τ ) = − − log(2π) − nτ −− e yt2 , (13.49)
2 2
t=1
Bien que ceci soit le maximum contraint, il est commode de l’exprimer, comme
nous l’avons fait ici, en termes d’une estimation non contrainte, τ̂ . Le maxi-
mum non contraint, `, ˆ est donné par
n
X
n 1 −2τ̂ n n
− − log 2π − nτ̂ −− e yt2 = − − log 2π − nτ̂ − − , (13.52)
2 2 2 2
t=1
X n
∂2` −2τ
= −2e yt2 , (13.55)
∂τ 2 t=1
n −2τ̂ ¡ 2τ̂ ¢2
LM2 = − e e − 1 = 2nτ̂ 2 + o(1). (13.56)
2
Le terme induit est comme dans LR et LM1 , mais LM2 différera de ces deux
statistiques dans des échantillons finis.
Une autre possibilité consiste à utiliser l’estimateur OPG de la matrice
d’information; consulter les équations (8.48) et (8.50). Cet estimateur est
n µ
X ¶2 n
X
1 ∂` 1 ¡ ¢2
−
n
=−
n
yt2 e−2τ − 1 ,
t=1
∂τ t=1
Cette expression ne peut même pas être exprimée comme une seulefonction
de τ̂ Pour obtenir un développement de la statistique de test qui l’utilise,
nous devons employer la propriété de la distribution normale qui nous dit que
E(yt4 ) = 3σ 4, ou, en termes de τ , 3e4τ .4 En utilisant cette propriété, nous
pouvons invoquer une loi des grands nombre et conclure que l’estimateur de
la matrice d’information OPG est en effet égale à 2 + o(1) at τ = 0. Ainsi, la
troisième variante de la statistique LM est
¡ ¢2
n2 e2τ̂ − 1 2
LM3 = Pn ¡ ¢2 = 2nτ̂ + o(1).
2
t=1 yt − 1
4
Notons que cela ne fut pas nécessaire pour utiliser les propriétés spéciales de
la distribution afin de les statistiques antérieures, qui étaient en fait toutes des
fonctions d’une et esulement une variable aléatoire, à savoir τ̂ . En général,
dans les situations les moins simples, cette caractéristique agréable du présent
exemple est absente et les propriétés doivent être invoquées afin de découvrir
le comportement de toutes les statistiques de test variées.
13.5 Autres Estimateurs de la Matrice de Covariance 463
Une fois encore, le terme induit est 2nτ̂ 2, mais la forme de LM3 est autrement
très différente de celle de LM1 ou LM2 .
Tous comme il existent des formes variées du test LM, il existe également
des formes variées du test de Wald. N’importe laquelle d’entre elles peut
être formée par la combinaison de l’estimation non contrainte τ̂ avec une
quelconque estimation de la matrice d’information, qui dans ce cas est effec-
tivement un scalaire. Le choix le plus simple est juste la véritable matrice
d’information, qui est, 2. Avec ceci nous obtenons
W1 = 2nτ̂ 2 . (13.57)
Il est facile de voir que W2 , qui utilise le Hessien empirique, est identique à
W1 , parce (13.55) évalué en τ = τ̂ est juste 2n. D’un autre coté, l’utilisation
de l’estimateur OPG donne
n
X
2
¡ 2 −2τ̂ ¢2
W3 = τ̂ yt e −1 ,
t=1
Comme celle-ci diffère de (13.57), nous devons montrer que les différentes
paramétrisations mènent à des statistiques de Wald numériquement différentes
même si la véritable matrice d’information, évaluées au MLE du paramètre
du modèle, est utilisées dans les deux cas.
Comme nous le verrons dans la prochaine section, le test LM est invariant
si il est basé sur la véritable matrice d’information évaluée en l’MLE. Mais si
un autre estimateur de la matrice d’information est utilisé, le test LM peut
aussi être dépendant de la paramétrisation. Supposons que nous utilions le
464 Les Tests d’Hypothèses Classiques
De ceci, nous trouvons que la statistique LM2 calculée comme le fut (13.56)
mais pour la paramétrisation σ 2 , est
¡ ¢2
n e2τ̂ − 1
LM2 = ¡ ¢ = 2nτ̂ 2 + o(1). (13.58)
2 2e2τ̂ − 1
Le terme dominant est correct, comme il doit l’être, mais (13.58) est numérique-
ment differente de (13.56).
De toute évidence, il existe encore plus de formes des deux tests LM et
Wald, mais elles ne coı̈ncideront pas toutes avec une des versions que nous
avons déjà calculées. Le lecteur intéressé est invité à expérimenter, par exem-
ple, les effets de l’utilisation σ lui-même, plutôt que de σ 2 comme paramètre
du modèle.
Cet exemple illustre le fait qu’il peut exister différentes statistiques de
test classiques, qui sont numériquement différentes mais asymptotiquement
équivalentes. Le fait qu’il existe tant de tests différents crée le problème
de comment établir un coix parmi eux. On préfèrerait utiliser les tests qui
sont faciles à calculer et pour lesquels la distribution d’échantillon fini est
bien approximée par par la distribution asymptotique. Malheuresement, cela
demande fréquemment des efforts considérables pour pour déterminer les pro-
priétés d’échantillons finis des tests asymptotiques. N’importe quelle méthode
d’analyse tend à être contrainte à des cas très spéciaux, tels que le cas des
modèles de régression à erreurs normales discutés à la Section 13.4. Une ap-
proche généralement applicable est d’employer la simulation informatique (les
expériences Monte Carlo); consulter le Chapitre 21.
φ̂ = η(θ̂). (13.59)
φ = η(θ).
∂ηi (θ)
. (13.64)
∂θj
η les Jacobiens qui sont singuliers pour certaines valeurs de θ.5 Dans de
tels cas, soit la reparamétrisation soit son inverse n’est pas lisse, dans le sens
d’être continument différentiable. Ainsi, les résultats que nous mettons en
réalisation en ce moment seront seulement vrais pour les reparamétrisations
lisses qui ont des inverses lisses.
Pour la matrice d’information I(θ), il est commode de commencer de
sa définition, telle qu’exprimée dans l’équation (8.20), (8.21), et (8.22). De
ces équations, nous pouvons conclure que la matrice d’information pour un
exemple de taille n est
¡ ¢
I n (θ) = Eθ g(θ)g>(θ) . (13.67)
I n = J>(I n )0 J .
I = J> I0 J . (13.68)
5
Par exemple, dans le cas du paramètre scalaire θ, l’application inversible qui
prend θ dans θ3 a un Jacobien de zéro en θ = 0.
468 Les Tests d’Hypothèses Classiques
∂Jij (θ)
. (13.74)
∂θl
Il peut maintenant être vu que la raison de la complexité notationnelle est qu’il
existe trois indices variant de manière indépendante dans la dérivée partielle
(13.74).
La relation (13.73) pour le Hessien devrait être parfaitement analogue
à la relation (13.68) pour la matrice d’information si le second terme mal-
adroit sur le coté droit de (13.73) était absents. Par conséquent, pour des
13.6 Les Statistiques de Test et la Reparamétrisation 469
d’une GNR, pour la présence d’erreurs soient AR(p) soient MA(p). Une impli-
cation importante de l’équivalence locale est la suivante. Si deux hypothèses
alternatives sont localement équivalentes, alors pour n’importe quel mise en
marche de DGP qui appartient à une autre alternative, n’importe quel test
asymptotique pour lequel l’alternative explicite est une d’entre-elles aura une
ARE relative à l’unité pour n’importe quel test pour lequel l’alternative ex-
plicite est l’autre.
Nous examinons maintenant juste quel aspect des différentes hypothèses
alternatives est responsable de cette invariance de la statistique LM. Rap-
pelons de (13.03) qu’une statistique LM est constituées de deux éléments, à
savoir, le gradient de la fonction logvraisemblance et la matrice d’information,
évalués tous deux en des estimations contraintes ML. Ces estimations dépen-
dent seulement de l’hypothèse nulle sous test et sont alors invariantes au
changements dans les hypothèses alternatives. Plus loin, la matrice d’informa-
tion est définies comme l’espérence du produit extérieur du gradient avec lui-
même; consulter (13.67). Ainsi si, pour un échantillon donné, nous testons la
même hypothèse nulle contre deux alternatives différentes, et le gradient tend
à être le même pour les deux alternatives, alors la statistique LM entière sera
la même. Ce résultat suppose que nous utilisons la forme score efficace du test
LM. Si nous avons basé le test sur des estimations de la matrice d’information,
les deux statistiques LM ne pourraient pas être numériquement les mêmes,
bien qu’elles le seraient asymptotiquement.
Géométriquement, deux hypothèses alternatives différentes sont locale-
ment équivalentes si elles se touchent à l’hypothèse nulle. Par ceci, nous ne
signifions pas que les deux hypothèses alternatives donnent les mêmes valeurs
de leurs fonctions de logvraisemblance respectives lorsqu’elles sont contraintes
par l’hypothèse nulle, comme cela sera toujours le cas, mais aussi que les gradi-
ents des deux fonctions de logvraisemblance sont les mêmes, car les gradients
sont tangents pour les deux modèles qui se touchent au modèle nul. Dans ces
circonstances, les deux tests LM doivent être numériquement identiques.
Que signifie pour les deux modèles se toucher, ou, utiliser le terme non
géometrique pour la propriété, être localement équivalent? Une définition
circulaire serait simplement que leurs gradients soient les mêmes en tous les
DGP que les deux modèles interceptent. Statistiquement, cela signifie que si
on part seulement légèrement de l’hypothèse nulle tout en respectant une des
deux hypothèses alternatives, alors on part d’une autre hypothèse alternative
par un montant qui est du second ordre de petites quantités. Par exemple, un
procéssus AR(1) caractérisé par un petit paramètre autorégressif ρ diffère d’un
certain processus MA(1) à une étendue seulement proportionnelle à ρ2. To
Pour prouver ceci formellement, une définition formelle de la distance comprise
entre les deux DGP devrait se substituer, mais notre définition circulaire
antérieur est une définition opérationnelle: si le gradient g̃ 1 calculé pour la
première alternative est le même que le gradient g̃ 2 pour la seconde, alors les
deux alternatives sev touchent à ?l’hypothèse? nulle. Il serait clair maintenant
13.6 Les Statistiques de Test et la Reparamétrisation 473
que cette exigence soit très forte: Elle est suffisante si les éléments de g̃ 2 sont
tous des combinaisons linéaires de celles de g̃ 1 et vice versa. Un exemple
de cette dernière possibilité est fourni par l’équivalence locale, autour de ?
l’hypothèse? nulle des erreurs à bruit blanc, des modèles de régression avec
des erreurs ARMA(p, q) d’un coté et avec des erreurs AR(p+q) de l’autre; voir
la Section 10.8. Pour plus d’exemples, consulter Godfrey (1981) et Godfrey
et Wickens (1982).
Les aspects à la fois algébriques et géométriques de l’invariance des tests
LM sous équivalence locale sont exprimés au moyen d’une simple remarque: le
test LM peut être construit seulement sur la base des estimations contraintes
ML et des dérivées premières de la fonction vraisemblance évaluées en ces
estimations. Ceci implique que le test LM ne tient pas compte de la courbure
de l’hypothèse alternative proche de l’hypothèse nulle.
Nous pouvons résumer les résultats de cette comme suit:
1. Le test LR dépend seulement de deux fonctions de logvraisemblance
maximisées. Il ne peut pas peut alors dépendre soit du modèle de
reparamétrisation soit de la manière dont les contraintes sont formulées
It en terme de ces paramètres.
2. La forme score efficace de la statistique LM est construite de deux
éléments, le gradient et la matrice d’information, qui se modifient sous
sous la reparamétrisation, mais d’un telle manière que la statistique de
test elle-même est invariante, non seulement sous des reparamétrisations
mais aussi sous différents choix, localement équivalents, de l’hypothèse al-
ternative. Si la matrice d’information elle-même doit être estimée, alors
la dépendance de reparamétrisation peut apparaı̂tre, comme nous l’avons
vu quand la matrice d’information a été estimée en utilisant le Hessien et
considérée une reparamétrisation non linéaire. Cependant, l’estimateur
de la matrice d’information OPG de (8.48) transforme aussi sous des
reparamétrisations de telle manière qu’il laisse la statistique LM invari-
ante; il s’agit d’un bon exercice que de montrer ceci.
3. Le test de Wald peut être dépendant à la paramétrisation pour la même
raison comme pour le test LM mais peut en plus l’être pour une raison
différente, pas directement à partir des paramètres du modèle mais à
travers la manière dans laquelle ils sont utilisés pour formuler les con-
traintes.
4. Si une reparamétrisation ou reformulation des contraintes est linéaire,
cela n’affecte pas la valeur de n’importe laquelle des statistiques de test
classiques.
474 Les Tests d’Hypothèses Classiques
∂`t (θ)
Gti (θ) ≡ ; t = 1, . . . , n, i = 1, . . . , k,
∂θi
13.7 La Régression du Produit Extérieur du Gradient 475
Ici, ι est un vecteur de dimension n-- duquel chaque élément est unitaire et c est
un vecteur de dimension k-- des paramètres artificiels. Le produit de la matrice
des régresseurs avec la régressande est le gradient g(θ) ≡ G>(θ)ι. La matrice
des sommes des carrés et les produits croisés des régresseurs, G>(θ)G(θ),
lorsqu’elle est divisée par by n, estime de manière convergente la matrice
d’information I(θ). Ces deux caractéristiques sont essentiellement tout ce
qu’il faut pour que (13.81) soit une régression artificielle valide.6 comme avec
la GNR, les régresseurs de la régression OPG dépendent du vecteur θ. Par
conséquent, avant que la régresion artificielle ne tourne, ces régresseurs doivent
être évalués en certain vecteur paramétrique choisi.
Un choix possible pour ce vecteur paramétrique est θ̂, l’estimateur ML
pour le modèle (13.01). Dans ce cas, la matrice du régresseur est Ĝ ≡ G(θ̂)
et les estimations paramétriques artificielles, qui sont désignées par ĉ, sont
identiquement zéro:
¡ ¢−1 ¡ ¢−1
ĉ = Ĝ>Ĝ Ĝ>ι = Ĝ>Ĝ ĝ = 0.
6
Des conditions précises pour une régression pour être appeler “artificiel” sont
fournies par Davidson and MacKinnon (1990); consulter la Section 14.4.
476 Les Tests d’Hypothèses Classiques
L’estimation de la variance OLS, qui est SSR/(n − k) = n/(n − k), est asymp-
totiquement équivalente à ceci, mais l’exposé sera simplifi si nous supposons
que l’estimation ML est utilisées. L’estimation de la matrice de covariance
pour le vecteur ĉ de (13.81) est alors
¡ > ¢−1
Ĝ Ĝ .
C’est cette expresssion qui donne à la régression OPG son nom, pour son in-
verse, est précisémment l’estimateur OPG de la matrice d’information; consul-
ter (8.48) et (8.50).7 Il s’en suit que, comme avec la GNR, n−1 fois l’estimateur
de la matrice de covariance de la régression OPG est asymptotiquement égal
à la matrice de covariance de n1/2 (θ̂ − θ0 ).
La propriété juste établie n’est la seule partagée par les régressions Gauss-
Newton et OPG. Nous établissons maintenant deux propriétés complémen-
taires de la régression OPG qui sont qui sont en fait partagées par toutes les
régressions auxquelles nous attribuons le nom d’“artificielles.” La première
de ces propriétés est qu’elle nous permet d’utiliser des régressions artificielles
pour exécuter l’estimation efficace en une étape. selon cette propriété, si la
régression OPG (13.81) est évaluée en un certain vecteur paramétrique θ́ t
qui est convergent au taux n1/2 pour θ0 , tel que θ́ − θ0 = O(n−1/2 ), alors les
estimations paramétriques artificielles ć sont telles que
a
n1/2 ć = n1/2 (θ̂ − θ́), (13.82)
7
As nous avons noter à la Section 8.6, que certains auteurs se référent à
l’estimateur OPG de la matrice d’information comme l’estimateur BHHH es-
timator, aprés Berndt, Hall, Hall, et Hausman (1974), qui ont défendu son
utilisation, bien qu’ils n’ont rendu explicite l’utilisation de la régression OPG
elle-même.
13.7 La Régression du Produit Extérieur du Gradient 477
¡ ¢
n−1/2 Ǵ>ι = n−1 Ǵ>Ǵ n1/2 (θ̂ − θ́) + o(1).
Ce résultat est très facile à prouver pour la régression OPG. Le R2 est le ratio
de la somme expliquée des carrés (ESS) à la somme totale des carrés (TSS),
et ainsi nR2 est le ratio ESS/(TSS/n). Nous avons vu que TSS/n était égale
à 1. Ceci signifie que nR2 est juste la somme expliquée des carrés:
En dérivant (13.88), nous avons utilisé les conditions du premier ordre pour
θ̃1 et le fait que θ́2 = θ̃2 . En utilisant (13.87), le premier terme dans (13.86)
est
1 > −1 a ¡ −1/2 ¢ ¡ ¢
−
n
ǵ Í ǵ = n g̃ − In1/2 (θ́ − θ̃) > I−1 n−1/2 g̃ − In1/2 (θ́ − θ̃)
1 > −1
=−
n
g̃ I g̃ + n(θ́1 − θ̃1 )> I11 (θ́1 − θ̃1 ). (13.89)
Comme le second terme dans (13.86) est moins une estimation convergente
du second terme dans (13.90), il s’en suit que
nulle. Mais il est généralement risqué de conclure qu’une contrainte est icom-
patible avec les données si une statistique de test OPG rejette l’hypothèse
nulle, du moins pas pour les échantillons de certaine taille ordinaire. Na-
turellement, si quelque chose est connu concernant les propriétés du test par-
ticulier OPG étant utilisé, peut-être comme un résultat des expériences de
Monte Carlo, on peut alors être capable de d’établir des conclusions d’une
statistique de test OPG qui rejette l’hypothèse nulle.
Cependant, la régression OPG serait importante même si personne ne
l’a jamais utilisée pour calculer des statistiques de test. Son utilisation dans
des calculs asymptotiques théoriques peut rendre de tels calculs beaucoup
plus simples qu’ils ne pourraient l’être autrement. Deplus, comme nous le
verrons dans les deux prochains chapitres il existe d’autres régressions arti-
ficielles, généralement pas tout à fait très applicables comme la régression
OPG peut-être, et pas tout à fait très élémentaires à établir complètement,
mais possédant généralement de meilleurs propriétés d’échantillon fini. Les
résultats qui sont vrais pour la régression OPG sont aussi vrais pour ces
autres régressions artificielles.
Termes et Concepts
tests C(α) distribution d’une chi-deux centrale
statistiques classiques de test régression du produit-extérieur-au-
contradiction parmi les critères de gradient (OPG)
test reparamétrisation d’un modèle
forme score efficace de la statistique paramétrisé
LM estimations contraintes
produit interne (pour un espace modèle contraint
Euclidien) taille t de l’échantillon
invariance (à la reparamétrisation) vecteur score (vecteur gradient)
terme d’ordre induit (d’un restrictions lisses
développement asymptotique) estimations non contraintes
reparamétrisation linéaire modèles non contraints
alternatives localement équivalente somme vectorielle
modèles localement équivalents statistiques tout-comme-Wald
(modèles qui se touchent)