Professional Documents
Culture Documents
Clase 04 REGRESIÓN LINEAL MÚLTIPLE
Clase 04 REGRESIÓN LINEAL MÚLTIPLE
Uno de los supuestos básicos del modelo clásico de regresión lineal, es que los residuales siguen una distribución normal,
y a partir de este se dedujo que tanto el vector de estimadores de los coeficientes como el vector de los valores estimados
de la variable dependiente también siguen una distribución normal. Es importante entonces validar el cumplimiento de
este supuesto pues de esto depende el cumplimiento de todas las propiedades que se derivan de él. La prueba de
normalidad de los residuales se puede hacer, entre otros, mediante el uso del contraste de Jarque-Bera.
A partir de la simetría y la curtosis, puede elaborarse un contraste paramétrico de normalidad y la idea del cálculo, del
estadístico Jarque-Bera, se apoya en comparar simultáneamente los valores obtenidos para los coeficientes de asimetría y
curtosis con los de referencia para una normal. La ventaja del cálculo es que su resultado permite contrastar la hipótesis
nula de que la serie de residuales se distribuye como una Normal ya que este estadístico se distribuye como una Ji-
Cuadrada con dos grados de libertad. El estadístico de Jarque-Bera se calcula con la expresión
n 2 1
JB = A + ( K − 3) 2 (2)
2
6 4
Siendo n el tamaño de la muestra, A el coeficiente de asimetría y K el coeficiente de curtosis, ambos calculados con los
residuales del mismo modelo. El valor de la probabilidad ofrecido por cualquier software econométrico se entiende como
el nivel de significancia asociado al rechazo de la nula: valores pequeños para esa probabilidad indicarían, por tanto,
ausencia de normalidad en la distribución de valores de la variable analizada. Para una variable aleatoria normalmente
distribuida A = 0 y K = 3 , es decir JB = 0 , es por esto por lo que se llama prueba de normalidad conjunta.
El ValorP, calculado del estadístico JB será relativamente bajo si JB es muy lejano a cero y será alto si JB es cercano a
cero. De manera que la hipótesis de normalidad no se rechaza si el valor de JB es muy cercano a cero. (una decisión
empírica es que no se rechaza la hipótesis de normalidad si el valor calculado del Jarque-Bera es menor que seis)
Ejemplo 12
En el ejemplo 11, de la compañía de bienes raíces se encontró para el modelo ajustado con EViews, que JB = 0.89773 , y
como 0.89773 5.99 no se rechaza la hipótesis nula. Además ValorP = 0.6384 0.05 y esta desigualdad muestra que
efectivamente no se rechaza H 0 , y se concluye entonces, para un nivel de significancia del 5%, que los residuales siguen
una distribución normal.
INTERVALOS DE CONFIANZA PARA UN UNICO COEFICIENTE DE REGRESIÓN
Así como se estiman los parámetros del modelo de manera puntual, se puede hacer la estimación de estos mediante un
intervalo de confianza. Asumiendo que se cumplen los supuestos del modelo clásico de regresión lineal, y aprovechando
que
ˆ j − j
T= t( n−k −1)
Sˆ
j
ˆ − j
P −t( 2; v ) j t( 2; v ) = 1 −
S ˆ
j
Mediante operaciones algebraicas adecuadas se encuentra que un intervalo de confianza del (1 − ) 100 % para j es
ˆ j − t( 2; v ) S ˆ j ˆ j + t( 2; v ) S ˆ
j j
Interpretación:
Se puede afirmar, con una confianza del (1 − ) 100 % que si la variable X j , se incrementa en una unidad
permaneciendo las demás variables fijas, se espera que la variable respuesta se incremente (o disminuya) entre el límite
superior y el límite inferior.
Como para cada intervalo de confianza hay asociado un contraste de hipótesis, luego de encontrar el intervalo es muy
simple hacer contrastes de hipótesis bilaterales. Si se desea contrastar la hipótesis nula H 0 : j = c j frente a la hipótesis
alternativa H 0 : j c j , para un nivel de significancia del % , entonces la hipótesis nula se rechaza si c j no está en el
intervalo del (1 − ) % .
Ejemplo 13
y además para un nivel de confianza del 95% se tiene que t(0.025;5) = 2.571
(a) Calcular e interpretar un intervalo de confianza del 95% para 1 .
Reemplazando
6.9358 1 7.3570
Se puede afirmar con una confianza del 95% que cuando se presenta un incremento de una unidad monetaria en la renta,
manteniendo el precio constante, se espera que el consumo de ese bien aumente entre 6.9358 y 7.3570 unidades.
−3.059 2 −2.4250
Se puede afirmar con una confianza del 95% que cuando se presenta un incremento de una unidad monetaria en el precio,
manteniendo la renta constante, se espera que el consumo del bien disminuya entre 3.059 y 2.4250 unidades.
Ejemplo 14
En el ejemplo 8, se ajustó un modelo de regresión lineal con una muestra de 30 familias para explicar el consumo familiar
de leche, y se obtuvo que
Reemplazando,
0.0337 1 0.0703
Se puede afirmar con una confianza del 95% que cuando se presenta un incremento de 100 dólares en el ingreso semanal,
manteniendo el tamaño de la familia constante, se espera que el consumo de leche aumente entre 0.0337 y 0.0703 litros
por semana.
Reemplazando,
1.14 − 2.052 0.9857 2 1.14 + 2.052 0.9857
−0.8827 2 3.1627
Obsérvese que este intervalo contiene el cero, por lo tanto, se puede afirmar con una confianza del 95% que 2 = 0 , y
esto indica que la variable tamaño de la familia no es estadísticamente significativa en el modelo, para un nivel de
significancia del 5%.
En el modelo de regresión lineal simple se utilizan los estadísticos T y F para hacer pruebas de significancia y con ambas
pruebas se obtienen las mismas conclusiones (pruebas de contraste equivalente).
En los modelos de regresión lineal múltiple se utilizan las pruebas T y F con diferentes finalidades. El estadístico F es útil
para contrastar hipótesis conjuntas sobre los coeficientes de regresión
Para esta etapa se utiliza el estadístico F con el objeto de determinar si hay una relación lineal significativa entre la
variable explicada Y y cualquiera de las variables regresoras X1, X 2, ..., X k . Este contraste suele considerarse como una
prueba global o general del modelo de regresión lineal múltiple, y plantea una hipótesis nula poco optimista en el sentido
en que todos los parámetros son iguales a cero excepto el intercepto. Obsérvese que este contraste de significancia es un
contraste para un subconjunto de coeficientes en el cual el número de restricciones está asociado a los k coeficientes de las
k variables regresoras
El contraste de hipótesis es
H 0 : 1 = 2 = ... = k = 0
H a : j 0 para al menos un j = 1, 2,..., k
Rechazar la hipótesis nula indica que al menos una de las variables independientes es estadísticamente significativa para
el modelo, en cambio si no se rechaza la hipótesis nula entonces no hay evidencia suficiente para afirmar que alguna de
las variables independientes es estadísticamente significativa y se dice entonces que el modelo no es estadísticamente
significativo. Frente a esta situación se deben buscar otras variables que ayuden a explicar las variaciones en la variable
dependiente.
Se puede dar que en la prueba individual las variables no sean significativas y en la prueba global en cambio por lo
menos una sea significativa. En este caso el modelo puede representar problemas de multicolinealidad (relación
que puede existir entre dos o más variables).
Los cálculos para determinar el valor del estadístico de prueba F se resumen en la siguiente tabla, llamada tabla ANOVA.
SSR
SSR
Modelo de Regresión SSR = ˆ X T Y − nY 2 k
F = k2
k
S
SSE
Errores (residuales) SSE = Y T Y − ˆ X T Y n − k −1 S2 =
n − k −1
TOTAL SST = Y T Y − nY 2 n −1
Ejemplo 15
Los cálculos para determinar el valor del estadístico de prueba F se resumen en la siguiente tabla:
TOTAL 1496.875 7
Dado que el valor del estadístico de prueba es relativamente alto, se puede hacer inicialmente la prueba para un nivel de
significancia del 1%, para el cual se tiene que f(0.01;2;5) = 13.274 y como 3951.2118 13.274 se rechaza la hipótesis
nula. Por lo tanto, al menos una de las variables independientes es estadísticamente significativa al 1% o de manera
equivalente se puede concluir que la renta y/0 el precio son estadísticamente significativos al 1%. Sin embargo, esto no
implica que el modelo que se encontró sea adecuado para predecir el consumo en función de la renta y el precio. Si se
rechaza la hipótesis nula para = 1% , también será rechazada para niveles del 5% y del 10%.
Obsérvese además que ValorP = P( f(2;5) 3951.2118) = 0.00000 y esto indica que la hipótesis nula puede ser
rechazada a cualquier nivel de significancia.
Ejemplo 15.
Un departamento de hipotecas en un gran banco está estudiando sus préstamos recientes. El interés es conocer cómo
factores tales como el valor de la casa (en miles de dólares), el nivel de educación, la edad de quien encabeza la familia, el
pago actual de hipoteca al mes (en dólares) y el sexo de tal persona (masculino = 1, femenino = 0), se relacionan con el
ingreso familiar (en miles de dólares). Se obtiene una muestra de 25 préstamos recientes.
La ecuación de regresión a estimar es
Yi = 0 + 1 X1i + 2 X 2i + 3 X 3i + 4 X 4i + 5 X 5i + i , i N (0, 2 )
donde
Y : Ingreso familiar (miles de dólares)
X 1 : Valor de la casa (miles de dólares)
X 2 : Nivel de educación
X 3 : Edad de quien encabeza la familia
X 4 : Pago actual de la hipoteca al mes (dólares)
X 5 : Sexo; masculino = 1 y femenino = 0
1) Estime la ecuación de regresión e interprete los parámetros en términos del problema.
La ecuación de regresión ajustada es
Variable Dependiente: INGRESO
Método: Mínimos Cuadrados
Observaciones incluidas: 25
Variable Coeficiente Error Estándar Estadístico T Prob.
VALOR 0.028669 0.004970 5.768578 0.0000
EDUCA 0.649669 0.241242 2.693023 0.0144
EDAD –0.048950 0.031256 –1.566095 0.1338
HIPOTECA –0.000405 0.001269 –0.319077 0.7531
SEXO 0.722659 0.249129 2.900738 0.0092
C 28.24245 2.985743 9.459104 0.0000
R -cuadrado 0.749760 Media variable Dependiente 39.92800
R- cuadrado ajustado 0.683907 Desv. Est. variable dependiente 1.051396
Desv. Est. de la regresión 0.591117 Criterio de Akaike (AIC) 1.991958
Suma residuos cuadrados 6.638967 Criterio Schwarz 2.284488
Log likelihood –18.89947 Estadístico F 11.38542
Estadístico Durbin-Watson 2.175893 Prob (estadístico F) Valor P 0.000035
3) Contrastar la significancia individual de todas las variables explicativas. ¿Está de acuerdo con la especificación del
modelo? ¿Consideraría eliminar alguna de las variables? Si es así, ¿cuáles?
H 0 : 1 = 0 ; H a : 1 0 ; Prob = 0.000; el valor de la casa es significativo en el modelo y es la variable más
importante en el modelo.
De la teoría macroeconómica, se tiene que el producto interno bruto (en miles de millones de dólares) suele depender de la
oferta de dinero M2, el índice de precios al consumidor IPC, la tasa de interés de largo plazo (bonos del Tesoro a 30 años)
TILP y la tasa de interés de los bonos del Tesoro a tres meses (% anual) TITM. Ante estas consideraciones, ajuste un
modelo de regresión lineal múltiple, y responda las preguntas que se plantean.
Denote:
a) Escriba la ecuación de regresión ajustada, e intérprete los parámetros en términos del problema. ¿está de acuerdo con
la especificación del modelo? Explique
b) Contraste la significancia individual, para un nivel de significancia del 5%, de todas las variables regresoras para
establecer si se puede(n) eliminar alguna(s) variable(s). ¿Consideraría eliminar alguna de las variables? Si es así,
¿cuáles?. Repita este literal para un nivel de significancia del 2%.
c) ¿Cuál es el valor del coeficiente de determinación múltiple? Interprétalo
d) Utilice la información, que le suministra Eviews, para construir los intervalos de confianza de los parámetros
estimados, con un nivel de confianza del 95%
e) Contrastar la significancia global del modelo ¿se puede no rechazar la hipótesis de la significatividad conjunta de
todos los parámetros del modelo? Interprete.
f) ¿Siguen los residuos del modelo ajustado una distribución normal?