You are on page 1of 27

Facultad de Ciencias Económicas

¿POR QUÉ UN “MODELO DE REGRESIÓN


MÚLTIPLE”?

Se ha visto el tema del análisis de regresión simple:

Valor de la casa = β0 + β1(Área de la casa) + u

Pero en general, una variable dependiente depende de más de una variable


independiente.

Por ejemplo, el precio de la casa puede depender de:


• Zona en la cual está ubicada la casa
• Antigüedad de la casa
• Número de baños, pisos, estacionamientos
• Etc.
¿POR QUÉ UN “MODELO DE REGRESIÓN
MÚLTIPLE”?
Para tratar este tipo de problemas se requiere expandir el análisis de
regresión:

y = β0 + β1x1 + u
Regresión Lineal Simple

Regresión Lineal Múltiple


y = β0 + β1x1 + β2x2 + ……… + βkxk + u
MODELO DE REGRESIÓN MÚLTIPLE

• En esta sesión vamos a extender el modelo básico para poder utilizar K variables
explicativas. Es decir, Y ahora depende de k variables más el termino de error:

Función de regresión
poblacional 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝑢

Función de regresión
muestral
෢1 𝑋1𝑖 + 𝛽
𝑌𝑖 = 𝛽0 + 𝛽 ෢2 𝑋2𝑖 + ⋯ + 𝛽
෢𝑘 𝑋𝑘𝑖 + 𝑢ෝ𝑖

Estimación de la Función
de regresión muestral
෢1 𝑋1𝑖 + 𝛽
𝑌෡𝑖 = 𝛽0 + 𝛽 ෢2 𝑋2𝑖 + ⋯ + 𝛽
෢𝑘 𝑋𝑘𝑖

Residual Conceptualmente, 𝑢 ෝ𝑖 es análogo a 𝑢𝑖 y se considera


una estimación de 𝑢𝑖
SIGNIFICADO DE LOS PARÁMETROS EN EL
MODELO DE REGRESIÓN MÚLTIPLE
• Pendientes (𝛽መ i)
• Estiman el cambio en el valor promedio de “y” como 𝛽መ i unidades
por cada unidad de incremento en Xi, manteniendo las otras
variables constantes.
• Intercepto (𝛽መ 0)
• Estima el valor promedio de y cuando todas las variables xi son
iguales a cero (suponiendo que el valor cero está dentro de los
rangos de valores que pueden tomar los xi).
FORMA MATRICIAL DEL MODELO DE
REGRESIÓN MÚLTIPLE
Sabemos que Y es una función lineal en
los parámetros. Ahora, supongamos que
tenemos una muestra aleatoria de
tamaño n, extraída de la población
estudiada. Si expresamos el modelo
poblacional para todas las
observaciones de la muestra, se obtiene:

El sistema de ecuaciones del


modelo se puede expresar en una
forma más compacta mediante una
representación matricial:

Note que en este caso existen “k” regresores y “k+1” parámetros


ESTIMACIÓN DEL MODELO DE REGRESIÓN
MÚLTIPLE
Modelo de dos variables:

y Observación
yi muestral ŷ = b0 + b1x1 + b2 x 2

<
yi
𝑢𝑖 = (𝑌𝑖 − 𝑌෠𝑖 )

x2i
x2
x1i La ecuación de mejor ajuste,

<
y, será la que genere la
menor suma de errores
x1
ESTIMACIÓN DEL MODELO DE REGRESIÓN
MÚLTIPLE

• Como podemos inferir del gráfico anterior, podemos generalizar criterios para el
caso de más de una variable explicativa volviendo a plantearnos una pregunta
conocida: ¿Cuál será la ecuación que se ajuste mejor en el espacio dimensional
respectivo al conjunto de datos observados?
• Nuevamente la suma minima de los errores al cuadrado es la mejor opción analítica.

Recuerde que bajo los supuestos


𝑛 del Modelo Lineal Clásico (MLC),
los estimadores de MCO son MELI,
𝑀𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 ෍ 𝑢𝑖2 es decir, los estimadores lineales
insesgados de varianza mínima
𝑖=1 (Teorema de Gauss - Markov).
¿Cuáles eran esos supuestos?
SUPUESTOS DEL MODELO DE REGRESIÓN
LINEAL MÚLTPLE (CONDICIONES PARA MCO)
a) Supuesto sobre la forma funcional

1. La relación entre el regresando, los regresores y el error es lineal en los parámetros

b) Supuestos sobre los regresores

2. El número de observaciones debe ser mayor al número de variables.


3. La matriz X es de valores fijos en repetidas muestras.
4. Los regresores se distribuyen independientemente de la perturbación aleatoria.
5. No existen relaciones lineales exactas entre los regresores (no multicolinealidad grave).

c) Supuestos sobre la perturbación aleatoria

6. La media de las perturbaciones es cero.


7. Las perturbaciones tienen una varianza constante (no heterocedasticidad)
8. Las perturbaciones con diferentes subíndices no están correlacionadas entre sí ( no
autocorrelación)
9. La perturbación u tiene una distribución normal
FORMULACIÓN DEL MODELO

Venta de
Precio Publicidad
Semana pies de
manzana
(S/.) (S/.100) Función de Regresión Muestral del modelo:
1 350 5.50 3.3
2 460 7.50 3.3
Ventas = 𝛽መ 0 + 𝛽መ 1 (Precio) + 𝛽መ 2 (Publicidad)
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
6 380 7.50 4.0
7 430 4.50 3.0
8 470 6.40 3.7
9 450 7.00 3.5
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
REGRESIÓN MÚLTIPLE: RESULTADO
Ecuación estimada de regresión múltiple:

Ventas = 306.526 - 24.975(Pre cio) + 74.131(Pub licidad)


Donde:
Ventas (número de pies por semana)
Precio (S/.)
Publicidad (S/. 100’s)

b1 = -24.975: Las ven- b2 = 74.131: Las


tas decrecerán en ventas crecerán en
promedio 24.975 pies promedio 74.131 pies
por semana por cada por semana por cada
S/. 1 incrementado en S/. 100 incrementado
el precio, en publicidad,
manteniendo manteniendo cons-
constante la publici- tante el precio
dad
USANDO EL MODELO PARA HACER
PREDICCIONES
Con los parámetros obtenidos en la estimación podemos hacer predicciones para
las ventas de una semana en la cual el precio es S/. 5.50 y la publicidad es S/. 350.

Ventas = 306.526 - 24.975(Pre cio) + 74.131(Pub licidad)


= 306.526 - 24.975 (5.50) + 74.131 (3.5)
= 428.62

La venta pronosticada Nota: La publicidad


suponiendo un precio de S/. tiene como unidad
de medida S/. 100
5.50 y la publicidad en S/.
(cientos de soles),
350 es 428.62 pies por
entonces x2 = 3.5
semana significa S/. 350
COEFICIENTE DE
DETERMINACIÓN MÚLTIPLE (R2)

• Recordamos que el R2 reporta la proporción de la variación


total en y que es explicada por todas las variables (juntas) x
consideradas en el modelo

SSR Suma de cuadrados de regresión


R =
2
=
SST Suma total de cuadrados
COEFICIENTE DE
DETERMINACIÓN MÚLTIPLE (R2)

SSR 29460.0
R =
2
= = 0.52148
SST 56493.3
INTERPETACIÓN: El 52.1% de la
variación en las ventas es explicada
por la va-riación en los precios y la
publi-cidad
R2 AJUSTADO

• Cuando trabajamos con modelos con más de un regreso


debemos considerer que R2 nunca decrece cuando una nueva
variable X es añadida al modelo
• Esto puede ser una desventaja cuando se compara modelos
con distinta cantidad de variables.
• ¿Cuál es el efecto neto de agregar una nueva variable?
• Se pierde un grado de libertad cuando una nueva variable
X es añadida
• ¿La nueva variable X aporta suficiente poder explicativo
para compensar la pérdida de un grado de libertad?
R2 AJUSTADO

• Debido a lo anterior, cada vez que hagamos regresión múltiple debemos


considerer el R2 ajustado, el cual muestra la proporción explicada de la
variación en Y por las variables X’s tomando en cuenta la relación entre el
tamaño de muestra y el número de variables independientes que se está
utilizando.

 n −1 
R = 1 − (1 − R )
2 2

 n − k − 1
A

(Donde n = Tamaño muestral, k = Número de variables independientes)

• Penaliza el uso excesivo de variables independientes no importantes


• Es más pequeña que el R2
• Útil en la comparación entre modelos con distinta cantidad de variables.
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE AJUSTADO: RESULTADO

R 2A = 0.44172
INTERPRETACIÓN: El 44.2% de la variación
en las ventas es explicada por la variación
en los precios y la publicidad, tomando en
cuenta el número de variables
independientes
DIAGNÓSTICO DEL MODELO: PRUEBA
F (SIGNIFICANCIA GENERAL)

Prueba F para la significancia del modelo (general)


• Muestra si hay una relación lineal entre todas las variables X
(consideradas en forma conjunta) e Y
• Usa el estadístico de prueba F
• Hipótesis:
• H0: β1 = β2 = … = βk = 0 (No hay relación lineal)
• HA: Al menos un βi ≠ 0 (Existe relación lineal entre (Y)
y al menos un Xi)
DIAGNÓSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)
• Estadístico de prueba:

SSR
k MSR
F= =
SSE MSE
n − k −1
Donde: Los grados de libertad de F son:
glnumerador = k
gldenominador = (n – k – 1)
DIAGNÓSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)

MSR 14730.0
F= = = 6.5386
MSE 2252.8
Con 2 y 12 grados de Observe que el valor P asociado para
libertad la prueba es menor que 0.05 (5%)
DIAGNÓSTICO DEL MODELO: PRUEBA F
(SIGNIFICANCIA GENERAL)
H0: β1 = β2 = 0; HA: β1 o β2 es diferente de cero
 = 0.05 Valor crítico:
glnumerador= 2 F0.05 = 3.885
gldenominador = 12
 = 0.05

0 No rechazar H0 Rechazar H0 F

Estadístico de prueba: MSR


F= = 6.5386
MSE
Decisión: Como F = 6.53 > 3.89 (Note en la tabla anterior que el valor p asociado al
Entonces se rechaza H0 estadístico es 0.012, es decir, menor a  (0.05)

Conclusión: Hay suficiente evidencia para concluir que el modelo de regresión


explica parte de la variación en la venta de pies
(al menos una de las pendientes de regresión no es cero)
DIAGNÓSTICO DEL MODELO:
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

• Usar la prueba t para evaluar la significancia de cada


pendiente
• Muestra si hay una relación lineal entre la variable Xi e Y
• Hipótesis:
• H0: βi = 0 (No existe relación lineal entre Xi e Y porque βi no es
estadísticamente significativo)

• HA: βi ≠ 0 (Existe relación lineal entre Xi e Y porque βi sí es


estadísticamente significativo)
DIAGNÓSTICO DEL MODELO:
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

H0: βi = 0 (No hay relación lineal)


HA: βi ≠ 0 (Existe relación lineal entre xi e y)

Estadístico de prueba:

bi − 0 (gl = n – k – 1)
t=
sbi k = número de variables independientes (regresores)
DIAGNÓSTICO DEL MODELO:
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

El estadístico de prueba t para el


Precio es -2.306 (valor p = 0.0398)

El estadístico de prueba t para la


Publicidad es 2.855 (valor p = 0.0145)
DIAGNÓSTICO DEL MODELO:
¿LAS VARIABLES INDIVIDUALES SON
SIGNIFICATIVAS?

H0: βi = 0; HA: βi  0

/2=0.025 /2=0.025
g.l. = 15-2-1 = 12
 = 0.05
t/2 = 2.1788 Rechazar H0 No rechazar H0 Rechazar H0
-tα/2 tα/2
0
-2.1788 2.1788
Eviews Resultado:
Coeficientes Error típico Estadístico t Valor p
Note que ambos valores p
Precio -24.97509 10.83213 -2.30565 0.03979
asociados al estadístico son
Publicidad 74.13096 25.96732 2.85478 0.01449
menores al valor de  (0.05)
Decisión: Para cada variable se rechaza H0

Conclusión: Hay evidencia suficiente para concluir que cada variable individual (Precio y
Publicidad) afecta a la venta de pies (tienen relación lineal), para un nivel de significancia  =0.05
INTERVALOS DE CONFIANZA
PARA LAS PENDIENTES
El intervalo de confianza para la pendiente poblacional β1 (efecto
sobre las ventas de pie respecto a cambios en el precio):

 i  t / 2 sb i
Donde t tiene
(n – k – 1) g.l.

Ejemplo: Las ventas semanales de pies se reducirán


entre 1.37 a 48.58 pies por cada incremento de $1 en
el precio