You are on page 1of 23

20/10/2011 1

Normalidad de los errores


Fortino Vela Pen
Universidad Autnoma Metropolitana
fvela@correo.xoc.uam.mx
Octubre, 2010
Mxico, D. F.
20/10/2011 2
Introduccin
u X y + =
) , 0 (
2
N u
i

i i i
u x y + + =
2 1

,o bien,
donde
,o bien,
) , (
2
I 0 u N
Uno de los supuestos bsicos del modelo de regresin
lineal clsico es el que los errores tengan distribucin
normal, esto es:
Con el cumplimiento del supuesto de normalidad se
tiene la justificacin terica para la utilizacin de
pruebas estadsticas que involucren a las distribuciones
t, F y
2
(de uso muy comn en la parte inferencial del
modelo).
No obstante, el supuesto de normalidad puede no ser
tan crucial cuando se emplean muestras grandes.
20/10/2011 3
Una propiedad de la distribucin normal es que
cualquier funcin lineal de variables normalmente
distribuidas estar tambin normalmente distribuidas.
Dado que los estimadores de MCO, y , son
funciones lineales de entonces tambin siguen una
distribucin normal.
1

) , (

i
i i
N

i
u
De esta manera, si se trabaja con muestras de menos de
100 observaciones resulta crucial el verificar si los
errores cumplen, de manera aproximada, una
distribucin normal.
20/10/2011 4
La prueba Jarque-Bera (JB)
La literatura referente a probar la normalidad es vasta
(vese White y MacDonald, 1980).
La prueba Jarque-Bera (1987) es una prueba que
considera los siguientes elementos para probar la
normalidad de los errores de un modelo de regresin
lineal.
Sea
u X y + =
donde
[ ] 0 = u E
[ ]
2
uu' = E
Si se encuentra normalmente distribuido,
entonces
u
[ ] 0
3
3
= =
t
u E
[ ]
4 4
4
3 = =
t
u E
La prueba JB toma este principio: que tanto se
desvan los coeficientes de asimetra y curtosis
20/10/2011 5
Las medidas convencionales de asimetra (A) y curtsis
(K) estn dadas, respectivamente
*
, por:
3
3
1

= b
4
4
2

= b
La notacin y es tradicional en estadstica y no
debe confundirse con los estimadores del modelo.
1
b

=
=
T
t
i
t i
u
T
1
1

donde i=2,3,4
Los momentos sealados, y , se
pueden estimar a partir de los residuales de MCO
considerando que:
2
b
A b =
1
K b =
2
20/10/2011 6
As, el coeficiente de asimetra (A) es el tercer momento
respecto a la media.
Mide el grado de simetra de la distribucin de
probabilidad (que tan equilibrada o balanceada se
encuentra).
Si el coeficiente es mayor a cero, la distribucin es
sesgada a la derecha, y en consecuencia presenta mayor
nmero de observaciones a la izquierda.
2
3
1
2
1
3
|

\
|
=

=
=
n u
n u
A
T
t
t
T
t
t
(1)
20/10/2011 7
Por su parte, el coeficiente de curtosis (K) es el cuarto
momento respecto a la media.
Mide el grado de picudez o apuntamiento de la
distribucin de probabilidad (que tan concentrada se
encuentra).
Cuando el coeficiente es centrado, si est es diferente a
tres (mesocrtica), la distribucin muestra problemas.
Platicrtica si b
2
>3 o leptocrtica si b
2
<3.
2
1
2
1
4
(

=
=
n u
n u
K
T
t
T
t
t
t
(2)
Las formulaciones (1) y (2) son las ms utilizadas por los
diferentes paquetes estadsticos.
20/10/2011 8
Bajo la hiptesis nula de que los errores se encuentran
distribuidos normalmente, el estadstico JB se distribuye
asintticamente como una , siendo igual a
2
) 2 (

|
|
|
|
|
|
|
|
|
|
|
|
|

\
|
|
|
|
|
|

\
|

+
|
|
|
|
|

\
|
|

\
|
=

=
=
=
=
24
3
6
2
2
1
2
1
4
2
2
3
1
2
1
3
n u
n u
u
n u
T JB
T
t
t
T
t
t
T
t
t
T
t
t
( )
(
(


+ =
24
3
6
2
2
K
A
T JB
20/10/2011 9
Este estadstico tiende a ser grande si A o K o ambos
son significativamente diferentes de 0.
Note que bajo H
o
tanto A como K son cero.
20/10/2011 10
Considerando la informacin sobre ventas y publicidad de
una empresa determinada, verifique si los residuales
resultantes del modelo siguen aproximadamente una
distribucin normal. Aplique la prueba Jarque-Bera.
Ejemplo
id Y X residual (u) u2 u3 u4
1 69 9 6.00 36.00 216.00 1296.00
2 76 12 3.25 10.56 34.33 111.57
3 52 6 -1.25 1.56 -1.95 2.44
4 56 10 -10.25 105.06 -1076.89 11038.13
5 57 9 -6.00 36.00 -216.00 1296.00
6 77 10 10.75 115.56 1242.30 13354.69
7 58 7 1.50 2.25 3.38 5.06
8 55 8 -4.75 22.56 -107.17 509.07
9 67 12 -5.75 33.06 -190.11 1093.13
10 53 6 -0.25 0.06 -0.02 0.00
11 72 11 2.50 6.25 15.63 39.06
12 64 8 4.25 18.06 76.77 326.25
Total 0.00 387.00 -3.75 29071.41
20/10/2011 11
Retomando (1) y (2) para los datos de este ejemplo se
tiene:
id Y X residual (u) u2 u3 u4
1 69 9 6.00 36.00 216.00 1296.00
2 76 12 3.25 10.56 34.33 111.57
3 52 6 -1.25 1.56 -1.95 2.44
4 56 10 -10.25 105.06 -1076.89 11038.13
5 57 9 -6.00 36.00 -216.00 1296.00
6 77 10 10.75 115.56 1242.30 13354.69
7 58 7 1.50 2.25 3.38 5.06
8 55 8 -4.75 22.56 -107.17 509.07
9 67 12 -5.75 33.06 -190.11 1093.13
10 53 6 -0.25 0.06 -0.02 0.00
11 72 11 2.50 6.25 15.63 39.06
12 64 8 4.25 18.06 76.77 326.25
Total 0.00 387.00 -3.75 29071.41
( )
-.0017063
12 / 387
12 / 75 . 3
2
3
=

= A
( )
2.32929
12 / 387
12 / 41 . 29071
2
= = K
20/10/2011 12
Construyendo el estadstico de prueba Jarque-Bera (JB) se
tiene
( )
-.0017063
12 / 387
12 / 75 . 3
2
3
=

= A
( )
2.32929
12 / 387
12 / 41 . 29071
2
= = K
( )
.01874965 0
24
3 32929 . 2
6
) 0017063 . 0 (
12
2
2
=
(

= JB
( )
(
(


+ =
24
3
6
2
2
K
A
T JB
5.99
2
05 . 0 ), 2 (
=
El valor de tablas es
No se rechaza H
o
, los errores del modelo se distribuyen
aprox. normal
5.99 01874965 . 0 <
20/10/2011 13
En Stata se pueden encontrar los coeficientes A y K.
reg y x
predict residual, resid
sum residual, d
Residuals
-------------------------------------------------------------
Percentiles Smallest
1% -10.25 -10.25
5% -10.25 -6
10% -6 -5.75 Obs 12
25% -5.25 -4.75 Sum of Wgt. 12
50% .625 Mean 0
Largest Std. Dev. 5.931426
75% 3.75 3.25
90% 6 4.25 Variance 35.18182
95% 10.75 6 Skewness -.0017063
99% 10.75 10.75 Kurtosis 2.3293
La prueba JB en Stata
20/10/2011 14
A continuacin se elabora el estadstico de prueba JB
return list
scalar JB= (r(N)/6) *((r(skewness)^2)+((r(kurtosis)-
3)^2)/4)
di "JB" = JB
JB.22492532
No se rechaza H
o
, los errores del modelo se distribuyen
aprox. normal
20/10/2011 15
El histograma de los residuales es quizs el mtodo
grfico ms ampliamente usado para verificar la
normalidad del trmino de error.
En Stata el comando histogram es seguido por la
variable sobre la cual se construir el
La opcin normal agrega una curva de densidad normal
al grfico.
Pruebas grficas: histograma
0
.
0
2
.
0
4
.
0
6
.
0
8
D
e
n
s
i
t
y
-10 -5 0 5 10
Residuals
20/10/2011 16
El grfico de probabilidad-probabilidad (P-P plot o
grfica porcentual) compara una funcin de distribucin
acumulada emprica con una funcin de distribucin
terica (e.g., la funcin de distribucin normal
estndar).
El comando pnorm produces un grfico P-P
estandarizado normal.
La forma de interpretar este grfico es la siguiente: si los
puntos se aproximan al comportamiento lineal sealado
en el grfico, se puede considerar que la funcin
emprica de la distribucin acumulada es similar a la
terica, y por tanto se comporta normalmente. Si los
puntos se alejan a la lnea recta, la variable se aleja de
una distribucin normal.
Otras pruebas grficas: probabilidad-
probabilidad (P-P) y cuantil-cuantil (Q-Q)
20/10/2011 17
En el grfico P-P que ofrece Stata la distribucin
acumulada de la variable emprica se ubica sobre el eje x
mientras que la distribucin acumulada terica normal
sobre el eje y.
0
.
0
0
0
.
2
5
0
.
5
0
0
.
7
5
1
.
0
0
N
o
r
m
a
l

F
[
(
r
e
s
i
d
u
a
l
-
m
)
/
s
]
0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1)
20/10/2011 18
Similarmente, la grfica cuantil-cuantil (Q-Q plot)
compara los valores ordenados de una variable con los
cuantiles de una distribucin terica especifica (i.e., la
distribucin normal).
Si las dos distribuciones son consistentes, los puntos
sobre la grfica asumen un patrn lineal que pasa a
atravs del origen con una recta de pendiente unitaria.
Las grficas P-P y Q-Q se emplean para determinar
visualmente que tan bien se ajustan los datos empricos
al comportamiento de una distribucin terica.
20/10/2011 19
-
1
0
-
5
0
5
1
0
R
e
s
i
d
u
a
l
s
-10 -5 0 5 10
Inverse Normal
La instruccin en Stata es qnorm.
20/10/2011 20
La prueba sktest (Skewness-Kurtosis) que realiza Stata
sigue los mismos principios que la prueba JB. Para su
correcta aplicacin se requiere un mnimo de 8
observaciones.
Auque utiliza a los coeficientes de asimetra y curtosis,
sktest presenta una prueba de normalidad basada en
la asimetra y otra sustentada en la curtosis. Finalmente
combina las dos pruebas en un estadstico resumen.
La opcin noadjust suprime el ajuste propuesto por
Royston (1991).
Pruebas formales de normalidad en Stata
sktest residual
Skewness/Kurtosis tests for Normality
------- joint ------
Variable | Obs Pr(Skewness) Pr(Kurtosis) chi2(2) Prob>chi2
-------------+---------------------------------------------------------------
residual | 12 0.9974 0.9250 0.01 0.9956
20/10/2011 21
Stata tiene incorporadas adems las pruebas Shapiro-
Wilk (swilk) y Shapiro-Francia (sfrancia).
swilk puede utilizarse cuando 4 n 2000
observaciones, y sfrancia si 5 n 5000 observaciones.
En este sentido, la prueba sktest es la que puede
realizarse con ms observaciones.
Otras pruebas de normalidad en Stata
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
-------------+--------------------------------------------------
residual | 12 0.98286 0.286 -2.437 0.99259
Shapiro-Francia W' test for normal data
Variable | Obs W' V' z Prob>z
-------------+--------------------------------------------------
residual | 12 0.98218 0.332 -1.745 0.95952
20/10/2011 22
De no verificarse el supuesto de normalidad de los
errores, los estimadores continan siendo insesgados.
No obstante de no cumplirse la inferencia estadstica
derivada del modelo puede no ser valida.
Conforme aumente el tamao de la muestra los errores
(y los estimadores de MCO) tienden a una distribucin
normal.
Por lo tanto, bajo muestras grandes la inferencia
estadstica del modelo puede ser valida. Con muestras
reducidas es altamente recomendable verificar el
supuesto.
Conclusiones
20/10/2011 23
Gujarati, D. y D. Porter (2010). Econometra, 5. Ed., Mac
Graw Hill, Mxico, cap. 4.
Jarque, Carlos M. y A. K. Bera (1987). A Test for
Normality of Observations and Regression Residuals,
International Statistics Review, Vol. 55, pp. 163-177.
Judge, George et. al. (1988). Introducction to Theory and
Practice of Econometrics, John Wiley & Sons, Estados
Unidos, pp. 890-892.
Vogelvang, Ben (2005). Econometrics. Theory an
Applications with EViews, Addison-Wesley, Malaysia, pp.
116-119.
White H. y G. M. MacDonald (1980). Some Large-
Sample Test for Non-normality in Linear Regression
Model, Journal of American Statistical Association, Vol.
75, pp. 16-28.
Referencias