You are on page 1of 9

FACULTAD DE INGENIERÍAS

PROGRAMAS DE INGENIERÍA FINANCIERA E INDUSTRIAL


REGRESIÓN LINEAL MÚLTIPLE
Profesor: Horacio Fernández C.

PRUEBA DE NORMALIDAD DE LOS RESIDUALES. CONTRASTE DE JARQUE – BERA

Uno de los supuestos básicos del modelo clásico de regresión lineal, es que los residuales siguen una distribución normal,
y a partir de este se dedujo que tanto el vector de estimadores de los coeficientes como el vector de los valores estimados
de la variable dependiente también siguen una distribución normal. Es importante entonces validar el cumplimiento de
este supuesto pues de esto depende el cumplimiento de todas las propiedades que se derivan de él. La prueba de
normalidad de los residuales se puede hacer, entre otros, mediante el uso del contraste de Jarque-Bera.

A partir de la simetría y la curtosis, puede elaborarse un contraste paramétrico de normalidad y la idea del cálculo, del
estadístico Jarque-Bera, se apoya en comparar simultáneamente los valores obtenidos para los coeficientes de asimetría y
curtosis con los de referencia para una normal. La ventaja del cálculo es que su resultado permite contrastar la hipótesis
nula de que la serie de residuales se distribuye como una Normal ya que este estadístico se distribuye como una Ji-
Cuadrada con dos grados de libertad. El estadístico de Jarque-Bera se calcula con la expresión

n 2 1 
JB =  A + ( K − 3) 2   (2)
2

6 4 

Siendo n el tamaño de la muestra, A el coeficiente de asimetría y K el coeficiente de curtosis, ambos calculados con los
residuales del mismo modelo. El valor de la probabilidad ofrecido por cualquier software econométrico se entiende como
el nivel de significancia asociado al rechazo de la nula: valores pequeños para esa probabilidad indicarían, por tanto,
ausencia de normalidad en la distribución de valores de la variable analizada. Para una variable aleatoria normalmente
distribuida A = 0 y K = 3 , es decir JB = 0 , es por esto por lo que se llama prueba de normalidad conjunta.

El ValorP, calculado del estadístico JB será relativamente bajo si JB es muy lejano a cero y será alto si JB es cercano a
cero. De manera que la hipótesis de normalidad no se rechaza si el valor de JB es muy cercano a cero. (una decisión
empírica es que no se rechaza la hipótesis de normalidad si el valor calculado del Jarque-Bera es menor que seis)

Se plantea entonces el siguiente contraste:

H 0 : Los residuales siguen una distribución normal.


H a : Los residuales no siguen una distribución normal.

si JB   (0.05,2) . Ahora, como


2
La regla de decisión, para un nivel de significancia del 5%, es rechazar H 0
 (0.05,2)
2
= 5.99 , entonces si JB  5.99 no se rechaza la hipótesis nula.

Ejemplo 12

En el ejemplo 11, de la compañía de bienes raíces se encontró para el modelo ajustado con EViews, que JB = 0.89773 , y
como 0.89773  5.99 no se rechaza la hipótesis nula. Además ValorP = 0.6384  0.05 y esta desigualdad muestra que
efectivamente no se rechaza H 0 , y se concluye entonces, para un nivel de significancia del 5%, que los residuales siguen
una distribución normal.
INTERVALOS DE CONFIANZA PARA UN UNICO COEFICIENTE DE REGRESIÓN
Así como se estiman los parámetros del modelo de manera puntual, se puede hacer la estimación de estos mediante un
intervalo de confianza. Asumiendo que se cumplen los supuestos del modelo clásico de regresión lineal, y aprovechando
que

ˆ j −  j
T= t( n−k −1)
Sˆ
j

 ˆ −  j 
P  −t( 2; v )  j  t( 2; v )  = 1 − 
 S ˆ 
 j 

Mediante operaciones algebraicas adecuadas se encuentra que un intervalo de confianza del (1 −  ) 100 % para  j es

ˆ j − t( 2; v ) S ˆ   j  ˆ j + t( 2; v ) S ˆ
j j

donde Sˆ = S C jj , para j = 1, 2, ..., k y  = n − k − 1 son los grados de libertad.


j

El extremo izquierdo del intervalo es  j− = ˆ j − t( 2; v ) Sˆ


j

y el extremo derecho del intervalo es  j = ˆ j + t( 2; v ) Sˆ


+
j

Interpretación:
Se puede afirmar, con una confianza del (1 −  ) 100 % que si la variable X j , se incrementa en una unidad
permaneciendo las demás variables fijas, se espera que la variable respuesta se incremente (o disminuya) entre el límite
superior y el límite inferior.

Como para cada intervalo de confianza hay asociado un contraste de hipótesis, luego de encontrar el intervalo es muy
simple hacer contrastes de hipótesis bilaterales. Si se desea contrastar la hipótesis nula H 0 :  j = c j frente a la hipótesis
alternativa H 0 :  j  c j , para un nivel de significancia del  % , entonces la hipótesis nula se rechaza si c j no está en el
intervalo del (1 −  ) % .

Ejemplo 13

En el modelo de consumo del ejemplo 1 se obtuvo

ˆ1 = 7.1464, Sˆ = 0.0819, ˆ2 = −2.7420 y Sˆ = 0.1233


1 2

y además para un nivel de confianza del 95% se tiene que t(0.025;5) = 2.571
(a) Calcular e interpretar un intervalo de confianza del 95% para 1 .

Reemplazando

7.1464 − 2.571 0.0819  1  7.1464 + 2.571 0.0819

6.9358  1  7.3570

Se puede afirmar con una confianza del 95% que cuando se presenta un incremento de una unidad monetaria en la renta,
manteniendo el precio constante, se espera que el consumo de ese bien aumente entre 6.9358 y 7.3570 unidades.

(b) Calcular e interpretar un intervalo de confianza del 95% para  2 .

−2.7420 − 2.571 0.1233   2  −2.7420 + 2.571 0.1233

−3.059   2  −2.4250
Se puede afirmar con una confianza del 95% que cuando se presenta un incremento de una unidad monetaria en el precio,
manteniendo la renta constante, se espera que el consumo del bien disminuya entre 3.059 y 2.4250 unidades.

Ejemplo 14

En el ejemplo 8, se ajustó un modelo de regresión lineal con una muestra de 30 familias para explicar el consumo familiar
de leche, y se obtuvo que

Y = − 0.025 + 0.052 X 1 + 1.14 X 2


(0.065) (0.0089) (0.9857)
donde:
Yi : consumo de leche en litros por semana
X 1i : ingreso semanal, en cientos de dólares
X 2i : tamaño de la familia
Los números entre paréntesis bajo las estimaciones de MCO de los parámetros son las desviaciones típicas estimadas
correspondientes.
(a) Calcular e interpretar un intervalo de confianza del 95% para 1 .

Reemplazando,

0.052 − 2.052  0.0089  1  0.052 + 2.052  0.0089

0.0337  1  0.0703

Se puede afirmar con una confianza del 95% que cuando se presenta un incremento de 100 dólares en el ingreso semanal,
manteniendo el tamaño de la familia constante, se espera que el consumo de leche aumente entre 0.0337 y 0.0703 litros
por semana.

(a) Calcular e interpretar un intervalo de confianza del 95% para  2 .

Reemplazando,
1.14 − 2.052  0.9857   2  1.14 + 2.052  0.9857

−0.8827   2  3.1627

Obsérvese que este intervalo contiene el cero, por lo tanto, se puede afirmar con una confianza del 95% que  2 = 0 , y
esto indica que la variable tamaño de la familia no es estadísticamente significativa en el modelo, para un nivel de
significancia del 5%.

CONTRASTE DE SIGNIFICANCIA GLOBAL

En el modelo de regresión lineal simple se utilizan los estadísticos T y F para hacer pruebas de significancia y con ambas
pruebas se obtienen las mismas conclusiones (pruebas de contraste equivalente).

En los modelos de regresión lineal múltiple se utilizan las pruebas T y F con diferentes finalidades. El estadístico F es útil
para contrastar hipótesis conjuntas sobre los coeficientes de regresión

Para esta etapa se utiliza el estadístico F con el objeto de determinar si hay una relación lineal significativa entre la
variable explicada Y y cualquiera de las variables regresoras X1, X 2, ..., X k . Este contraste suele considerarse como una
prueba global o general del modelo de regresión lineal múltiple, y plantea una hipótesis nula poco optimista en el sentido
en que todos los parámetros son iguales a cero excepto el intercepto. Obsérvese que este contraste de significancia es un
contraste para un subconjunto de coeficientes en el cual el número de restricciones está asociado a los k coeficientes de las
k variables regresoras
El contraste de hipótesis es
H 0 : 1 =  2 = ... =  k = 0
H a :  j  0 para al menos un j = 1, 2,..., k

Rechazar la hipótesis nula indica que al menos una de las variables independientes es estadísticamente significativa para
el modelo, en cambio si no se rechaza la hipótesis nula entonces no hay evidencia suficiente para afirmar que alguna de
las variables independientes es estadísticamente significativa y se dice entonces que el modelo no es estadísticamente
significativo. Frente a esta situación se deben buscar otras variables que ayuden a explicar las variaciones en la variable
dependiente.

Se puede dar que en la prueba individual las variables no sean significativas y en la prueba global en cambio por lo
menos una sea significativa. En este caso el modelo puede representar problemas de multicolinealidad (relación
que puede existir entre dos o más variables).
Los cálculos para determinar el valor del estadístico de prueba F se resumen en la siguiente tabla, llamada tabla ANOVA.

Fuente de Variación Suma de Cuadrados Grados de libertad Cuadrados medios F

SSR
SSR
Modelo de Regresión SSR = ˆ X T Y − nY 2 k
F = k2
k
S
SSE
Errores (residuales) SSE = Y T Y − ˆ X T Y n − k −1 S2 =
n − k −1

TOTAL SST = Y T Y − nY 2 n −1

La regla de decisión es rechazar H 0 si:


F  f ( ; k , n − k −1)
donde:
 : nivel de significancia
k: grados de libertad del numerador
n − k − 1 : grados de libertad del denominador

Ejemplo 15

Para el modelo de consumo del ejemplo 1, haga un contraste de significancia global.

Las hipótesis nula y alternativa son las siguientes


H 0 : 1 =  2 = 0
H a :  j  0 para al menos un j = 1, 2
Para este ejemplo se tiene que
SSE = 0.9463, SST = 1496.875, SSR = 1495.9287
k = 2, n − k − 1 = 5

Los cálculos para determinar el valor del estadístico de prueba F se resumen en la siguiente tabla:

Fuente de Variación Suma de Cuadrados Grados de libertad Cuadrados medios F

Modelo de Regresión 1495.9287 2 747.9644 3951.2118

Errores (residuales) 0.9463 5 0.1893

TOTAL 1496.875 7
Dado que el valor del estadístico de prueba es relativamente alto, se puede hacer inicialmente la prueba para un nivel de
significancia del 1%, para el cual se tiene que f(0.01;2;5) = 13.274 y como 3951.2118  13.274 se rechaza la hipótesis
nula. Por lo tanto, al menos una de las variables independientes es estadísticamente significativa al 1% o de manera
equivalente se puede concluir que la renta y/0 el precio son estadísticamente significativos al 1%. Sin embargo, esto no
implica que el modelo que se encontró sea adecuado para predecir el consumo en función de la renta y el precio. Si se
rechaza la hipótesis nula para  = 1% , también será rechazada para niveles del 5% y del 10%.

Obsérvese además que ValorP = P( f(2;5)  3951.2118) = 0.00000 y esto indica que la hipótesis nula puede ser
rechazada a cualquier nivel de significancia.

RELACIÓN ENTRE EL ESTADÍSTICO F y R2

A partir del coeficiente de determinación, el estadístico F se puede reescribir como


SSR SSR
k  n − k − 1  SSR  n − k − 1  SST
F= =  =  SST − SSR
SSE  k  SSE  k 
n − k −1 SST
luego
 n − k −1  R
2
F = 
 k 1− R
2

Ejemplo 15.
Un departamento de hipotecas en un gran banco está estudiando sus préstamos recientes. El interés es conocer cómo
factores tales como el valor de la casa (en miles de dólares), el nivel de educación, la edad de quien encabeza la familia, el
pago actual de hipoteca al mes (en dólares) y el sexo de tal persona (masculino = 1, femenino = 0), se relacionan con el
ingreso familiar (en miles de dólares). Se obtiene una muestra de 25 préstamos recientes.
La ecuación de regresión a estimar es
Yi = 0 + 1 X1i + 2 X 2i + 3 X 3i + 4 X 4i + 5 X 5i +  i ,  i N (0,  2 )
donde
Y : Ingreso familiar (miles de dólares)
X 1 : Valor de la casa (miles de dólares)
X 2 : Nivel de educación
X 3 : Edad de quien encabeza la familia
X 4 : Pago actual de la hipoteca al mes (dólares)
X 5 : Sexo; masculino = 1 y femenino = 0
1) Estime la ecuación de regresión e interprete los parámetros en términos del problema.
La ecuación de regresión ajustada es
Variable Dependiente: INGRESO
Método: Mínimos Cuadrados
Observaciones incluidas: 25
Variable Coeficiente Error Estándar Estadístico T Prob.
VALOR 0.028669 0.004970 5.768578 0.0000
EDUCA 0.649669 0.241242 2.693023 0.0144
EDAD –0.048950 0.031256 –1.566095 0.1338
HIPOTECA –0.000405 0.001269 –0.319077 0.7531
SEXO 0.722659 0.249129 2.900738 0.0092
C 28.24245 2.985743 9.459104 0.0000
R -cuadrado 0.749760 Media variable Dependiente 39.92800
R- cuadrado ajustado 0.683907 Desv. Est. variable dependiente 1.051396
Desv. Est. de la regresión 0.591117 Criterio de Akaike (AIC) 1.991958
Suma residuos cuadrados 6.638967 Criterio Schwarz 2.284488
Log likelihood –18.89947 Estadístico F 11.38542
Estadístico Durbin-Watson 2.175893 Prob (estadístico F) Valor P 0.000035

Yˆi = 28.24245 + 0.02867 X 1 + 0.64967 X 2 − 0.04895 X 3 − 0.00041X 4 + 0.72266 X 5

Interpretación de los parámetros estimados:

• Valor de la casa: ˆ1 = 0.02867 .


Si el valor de la casa se incrementa en mil dólares se espera que el ingreso familiar aumente en 28.67 dólares,
dejando las demás variables constantes.

• Nivel de educación: ˆ2 = 0.64967


Si la persona que adquiere el préstamo aumenta en un año su nivel de educación, se espera que sus ingresos
aumenten en 649.67 dólares, dejando las demás variables constantes o fijas.

• Edad: ˆ3 = −0.04895


Si la edad de quien encabeza la familia aumenta en un año se espera que sus ingresos familiares disminuyan en 48.95
dólares, dejando las demás variables constantes o fijas.

• Pago de Hipoteca: ˆ4 = − 0.00041


Si el pago actual de la hipoteca al mes aumenta en un dólar se espera que los ingresos familiares disminuyan en
0.00041 dólares, dejando las demás variables fijas o constantes.

• Sexo ˆ5 = 0.72266


Si quien aporta a los ingresos familiares es de sexo masculino, se espera que el ingreso familiar incremente en 722.66
dólares con respecto a las mujeres, dejando las demás variables constantes.

2) Contrastar la significancia global del modelo. Interprete.


H 0 : 1 =  2 = 3 =  4 = 5 = 0
H a : al menos un  j  0 , j = 1, 2,3, 4,5
En la salida de EViews se observa que Prob.(F-statistic): 0.000035 < 0.05; se rechaza H 0 , es decir que al menos una
variable es estadísticamente significativa en el modelo.

3) Contrastar la significancia individual de todas las variables explicativas. ¿Está de acuerdo con la especificación del
modelo? ¿Consideraría eliminar alguna de las variables? Si es así, ¿cuáles?
H 0 : 1 = 0 ; H a : 1  0 ; Prob = 0.000; el valor de la casa es significativo en el modelo y es la variable más
importante en el modelo.

H 0 :  2 = 0 ; H a :  2  0 ; Prob = 0.0144; el nivel de educación es significativo para el modelo.

H 0 : 3 = 0 ; H a : 3  0 ; Prob = 0.1338; la edad de la persona que encabeza la familia no es significativa para el


modelo.

H 0 :  4 = 0 ; H a :  4  0 ; Prob = 0.7531; el pago actual de la hipoteca no es significativo para el modelo.

H 0 : 5 = 0 ; H a : 5  0 ; Prob = 0.0092; el sexo de la persona es significativo en el modelo.


En conclusión, las variables edad y pago actual de la hipoteca son candidatas para eliminar del modelo y el modelo
no está bien especificado ya que algunas variables no son significativas en el modelo.

4) Determine e Interprete el coeficiente de determinación ajustado.


Coeficiente de determinación ajustado
Ra2 = 0.683907
La variabilidad de los ingresos familiares es explicada en un 68.39% por la variabilidad de las variables valor,
educación, edad, pago y sexo.
Ejemplo 16

De la teoría macroeconómica, se tiene que el producto interno bruto (en miles de millones de dólares) suele depender de la
oferta de dinero M2, el índice de precios al consumidor IPC, la tasa de interés de largo plazo (bonos del Tesoro a 30 años)
TILP y la tasa de interés de los bonos del Tesoro a tres meses (% anual) TITM. Ante estas consideraciones, ajuste un
modelo de regresión lineal múltiple, y responda las preguntas que se plantean.

Denote:

PIB: producto interno bruto (miles de millones de dólares).


M2: oferta de dinero.
IPC: índice de precios al consumidor.
TILP: tasa de interés de largo plazo (bonos del Tesoro a 30 años).
TITM: tasa de interés de los bonos del Tesoro a tres meses (% anual).

Dependent Variable: PIB


Method: Least Squares
Sample: 1 19
Included observations: 19

Variable Coefficient Std. Error t-Statistic Prob.

M2 0.413381 0.301909 1.369221 0.1925


IPC 59.64687 7.915756 7.535208 0.0000
TILP -121.2128 56.29215 -2.153281 0.0492
TITM 111.5993 30.37318 3.674272 0.0025
C -2890.520 789.3976 -3.661679 0.0026

R-squared 0.993871 Mean dependent var 5512.568


Adjusted R-squared 0.992120 S.D. dependent var 1824.140
S.E. of regression 161.9244 Akaike info criterion 13.23307
Sum squared resid 367073.1 Schwarz criterion 13.48161
Log likelihood -120.7142 Hannan-Quinn criter. 13.27513
F-statistic 567.5894 Durbin-Watson stat 0.899934
Prob(F-statistic) 0.000000 Jarque- Bera 0.419077

a) Escriba la ecuación de regresión ajustada, e intérprete los parámetros en términos del problema. ¿está de acuerdo con
la especificación del modelo? Explique
b) Contraste la significancia individual, para un nivel de significancia del 5%, de todas las variables regresoras para
establecer si se puede(n) eliminar alguna(s) variable(s). ¿Consideraría eliminar alguna de las variables? Si es así,
¿cuáles?. Repita este literal para un nivel de significancia del 2%.
c) ¿Cuál es el valor del coeficiente de determinación múltiple? Interprétalo
d) Utilice la información, que le suministra Eviews, para construir los intervalos de confianza de los parámetros
estimados, con un nivel de confianza del 95%
e) Contrastar la significancia global del modelo ¿se puede no rechazar la hipótesis de la significatividad conjunta de
todos los parámetros del modelo? Interprete.
f) ¿Siguen los residuos del modelo ajustado una distribución normal?

You might also like