You are on page 1of 9

REGRESIN MLTIPLE

PROBLEMAS RESUELTOS

1.- A continuacin se presenta una salida de Statgraphics, obtenida al realizar un


anlisis de regresin lineal mltiple para intentar explicar la variacin del nmero de
clientes de las oficinas de una entidad financiera, siendo los significados de las variables
los siguientes: CLIENTES (variacin de clientes respecto al ejercicio anterior),
TRANSACCIONES (variacin de transacciones respecto al ejercicio anterior) y
VOLUMEN (volumen de clientes).

Anlisis de Regresin Mltiple


-----------------------------------------------------------------------------
Variable dependiente: CLIENTES
-----------------------------------------------------------------------------
Error Estadstico
Parmetro Estimacin estndar T P-Valor
------------------------------------------------------------------------------
CONSTANTE 31,3317 ??????? 2,43309 0,0161
TRANSACCIONES ??????? 0,0140909 71,6449 0,0000
VOLUMEN -0,0148132 0,000411489 ????????
-----------------------------------------------------------------------------

Anlisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 1,05868E8 2 5,29338E7 ???????
Residuo 2,57341E6 150 17156,0
-----------------------------------------------------------------------------
Total (Corr.) 1,08441E8 152

R-cuadrado = =
R-cuadrado (ajustado para g.l.) = porcentaje
Error estndar de est. = ?????
Error absoluto medio = 73,3635
Estadstico de Durbin-Watson = 2,23122

Notacin utilizada en las soluciones:


Y = CLIENTES
X1 = TRANSACCIONES
X2 = VOLUMEN
0 = constante (trmino independiente)
1 = coeficiente asociado a la variable TRANSACCIONES
2 = coeficiente asociado a la variable VOLUMEN

a) Calcula el valor estimado para el coeficiente beta asociado a la variable explicativa


TRANSACCIONES. Interpreta el valor obtenido (signo y magnitud).
1
b) Interpreta tambin la estimacin obtenida para la beta de VOLUMEN.
c) Calcula el estadstico t asociado a la variable VOLUMEN
d) Qu puedes comentar sobre la significatividad de los diferentes estimadores (utiliza
un nivel de significacin del 5% para los correspondientes contrastes)?
e) Qu puedes comentar sobre la bondad de ajuste del modelo y su significatividad
global?
f) Calcula el valor del estadstico F y comenta sobre la significacin conjunta (5%).
g) En definitiva qu concluiras del modelo elegido

RESOLUCIN

1
a) t ( 1 ) 1 S ( 1 ) * t ( 1 ) 0,0141* 71,645 1,01

S ( 1 )
Interpretacin: Un incremento unitario en el valor de la variable X 1 (TRANSACCIONES),
mantenindose constante el valor de la otra variable independiente (VOLUMEN) tendr
como consecuencia un aumento en el valor esperado de la variable a explicar
(CLIENTES) de aproximadamente 1,01 unidades. Es lgico que el signo sea positivo
porque a mayor variacin de transacciones, mayor variacin de clientes

b) 2 0,0148
Un incremento unitario en X2 (VOLUMEN) implicar una reduccin de 0,0148 unidades
en Y (mantenindose constante el valor de la otra variable explicativa). La relacin
negativa entre las variables se puede justificar econmicamente porque a mayor
volumen de clientes, ms difcil es seguir incrementndolos.

2 0,0148132
c) t ( 2 ) 36
S ( 2 ) 0,0004115

d) Nos falta por determinar si el VOLUMEN es significativo. Para ello determinamos


(para dos colas) la tglr(005)=t150(005). Como no est para 150 grados de libertad,
cogeremos la de infinito:
t150(005)= 1960
Puesto que el estadstico t=-36, cae en la zona de rechazo de la hiptesis H 0(2=0),
podemos afirmar que es significativamente distinta de 0.

As pues, todos los predictores (incluyendo el trmino independiente) tienen un p-valor


menor que 0,05, con lo cual su aportacin al modelo es estadsticamente significativa
2
(al 5%) pues el valor absoluto del correspondiente estadstico t supera el punto crtico
2,78 (p-valor inferior a 0,05) lo cual nos obliga a rechazar H 0: i = 0 frente a H1: i 0

e)
1,05868E8
2 = = = 9763%
1,08441E8

El coeficiente de determinacin muestra que con este modelo explicamos el 97,63% de


la varianza, con lo cual podemos afirmar que se trata de un modelo excelente.

f) Frmulas alternativas para el clculo del estadstico F (para el contraste de


significacin conjunta):
SCModelo 105868000
I 2 52934000
3.085
SCRe sidual 2573410 17156
n I 1 150
Bajo Ho : 0 1 2 0 el anterior estadstico tiene una distribucin muestral F 2,150.

Buscando en las tablas F2,150(005)=3065 (interpolando para n2 entre 100 y 200).


Y dado que F2,150=3.085 es mayor que F2,150(005)=3065, se rechaza la anterior hiptesis
nula validando la significacin conjunta del modelo.

g) En conclusin podramos decir que el modelo es


CLIENTES= 31,3317+1,01TRANSACCIONES - 00148 VOLUMEN
y que se adapta bastante bien a los 153 valores que nos han salido en la muestra.

2.- .- Una empresa de construccin dispone de tres tipos de cemento para la fabricacin
de vigas de hormign (Tipo 1, 2 y 3). Con el fin de averiguar las caractersticas de las
vigas, se ha estudiado el ndice de rebote que presentan las mismas (siendo la variable
REB, el ndice de rebote menos 10 unidades) as como la resistencia a compresin
(RESIST, en Mpa).
Los resultados obtenidos mediante un anlisis de regresin lineal mltiple con el
STATGRAPHICS se presentan a continuacin:
Nota: TIPO = 1 es una variable que vale 0 si el tipo de cemento es distinto de 1 y vale 1
si el tipo de cemento es igual a 1
Nota: TIPO = 3 es una variable que vale 0 si el tipo de cemento es distinto de 3 y vale 1
si el tipo de cemento es igual a 3

3
MODELO 1
Variable dependiente: REBOTE
------------------------------------------------------------------------------
Error Estadstico
Parmetro Estimacin estndar T P-Valor
------------------------------------------------------------------------------
CONSTANT [ ]1 0.352492 57.3122 0.0000
REB 0.742025 0.278670 2.6627 [ ]2
TIPO = 1 3.00489 0.305267 [ ]3 0.0000
TIPO = 3 2.60580 0.305267 8.5368 0.0000
------------------------------------------------------------------------------
--

Anlisis de Varianza
------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
------------------------------------------------------------------------------
Modelo 22.6277 3 7.54257 [ ]4 0.0000
Error [ ]5 8 0.18638
------------------------------------------------------------------------------
Total (Corr.) 24.1187 11

R-cuadrado = [ ]6

Ante la posibilidad de que el ndice de rebote se vea afectado por el tipo de cemento
utilizado se decidi incluir las interacciones en el modelo, resultando las siguientes
estimaciones:

MODELO 2

Variable dependiente: REBOTE


------------------------------------------------------------------------------
Error Estadstico
Parmetro Estimacin estndar T P-Valor
-----------------------------------------------------------------------------
CONSTANT 20.191155 0.330563 61.081 0.0000
REB 0.752950 0.301760 2.4952 0.0468
TIPO = 1 [ ]7 0.467486 4.7268 0.0032
TIPO = 3 3.433935 0.467486 7.3455 0.0003
REB x (TIPO = 1) 0.159032 0.085351 [ ]
REB x (TIPO = 3) [ ]8 0.085351 -1.9401
-----------------------------------------------------------------------------

Anlisis de Varianza
------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
------------------------------------------------------------------------------
Modelo 23.6816 [ ]9 4.73633 65.0168 0.0000
Error 0.4371 6 0.072848
------------------------------------------------------------------------------
Total (Corr.) 24.1187 11

R-cuadrado = 0.98188

4
a) Completa la salida de resultados de los NUEVE valores que aparecen entre corchetes
en las tablas anteriores e interpreta con precisin el significado de los mismos.

b) En el modelo 2, puede afirmarse que hay diferencias significativas en el efecto lineal


del ndice de rebote sobre la resistencia a compresin de las vigas de hormign, entre
los tres mtodos analizados?, es decir, las dos ltimas variables de este modelo son
significativas?

RESOLUCIN

a) El modelo planteado en el primer estudio corresponde a la siguiente expresin:


E(RESIST) = 0 + 1 REB + 2 (TIPO=1) + 3 (TIPO=3)
El valor y significado de cada corchete ser por tanto:
1.- b0 = Estimacin de 0 , resistencia media de compresin utilizando el tipo de
cemento 2 cuando el ndice de rebote es de 0 unidades.

Como Estadstico T0 = 0 b0 = Estadstico Ti sb. = 0.352492 57.3122 = 20.2021
0

2.- sig-level es P( | tres | > Estadstico Ti ), en este caso, como Estadstico Ti =2.6627 y
los grados de libertad residuales es igual a 8, entonces: P( | t 8 | > 2.6627 ) < 0.05 por lo
que indica que el efecto de la variable REB es significativo.

3.- Estadstico Ti = es el valor que se utiliza en el test de hiptesis para

compararlo con una t de Student.


El test de hiptesis planteado consiste en considerar como H0 : i = 0 frente a la H1 : i
0 que implica la existencia de un efecto real poblacional de la variable explicativa
sobre el valor medio de la variable dependiente.

Si | Estadstico Ti | > t de Student (con N-1-I grados de libertad y 2 , siendo el riesgo

de primera especie) se rechaza la hiptesis nula y se deduce que la variable es


significativa.
3.004892
En este caso Estadstico Ti = 9.8435
0.305267
CM Model 7.54257
4.- F-ratio = 40.4696 sirve para contrastar la hiptesis H0 :
CM Re sid 0.186376
1 = 2 = ... = I = 0
frente a H1 : algn i 0 i = 1, 2, ..., I

5
Y la H0 se rechazar si el cociente supera el valor en tablas de F I, N-1-I()
5.- SCres = SCTotal SCModel = 24.1187 22.6277 = 1.4910 corresponde a la
parte de variabilidad de la variable dependiente que no es explicada por las variables
independientes incluidas en el modelo.
SC Model 22.6277
6.- R-cuadrado = 0.9382 es el coeficiente de determinacin e
SC Total 24.1187
indica la proporcin de la variabilidad de la variable dependiente que es explicado por
las variables independientes incluidas en el modelo.
7.- El modelo planteado en el segundo estudio corresponde a la siguiente expresin:
E(RESIST) = 0 + 1 REB + 2 z1 + 3 z2 + 4 REB z1 + 5 REB z2
Por el mismo razonamiento anterior b 2 = Estadstico Ti sb = 0.467486 4.7268 = 2.2097
b2 = Estimacin de 2 , diferencia en la resistencia media de compresin utilizando el
tipo de cemento 1 en lugar del tipo 2 cuando el ndice de rebote es de 10 unidades
8.- b5 = Estadstico Ti sb = (- 1.9401) 0.085351 = - 0.16559
b5 = Estimacin de 5 , diferencia en el aumento de la resistencia media de compresin
cuando el ndice de rebote aumenta una unidad al utilizar el tipo de cemento 3 en lugar
del tipo 2.
9.- DF = 5 son los grados de libertad del modelo, corresponde al nmero de variables
explicativas incluidas en el modelo.

b) . El test de hiptesis planteado consiste en considerar como H 0 : i = 0 frente a la H1


: i 0 que implica la existencia de un efecto real poblacional de la variable explicativa
sobre el valor medio de la variable dependiente.

Si se cumple la H0 Estadstico Ti =


Si | Estadstico Ti | > t de Student (con N-1-I grados de libertad y 2 , siendo el riesgo

de primera especie) se rechaza la hiptesis nula y se deduce que la variable es


significativa.
En este caso, para la 4 variable:
0.1590
Estadstico Ti = 1.862 < t60.025 = 2.447 No se rechaza la H0 La variable
0.0854
no es significativa
Para la 5 variable:
Estadstico Ti = - 1.9401 > - t60.025 = - 2.447 No se rechaza la H0 La variable no es
significativa

6
PROBLEMAS PROPUESTOS

1.- Se ha realizado un estudio de regresin lineal para predecir el prstamo hipotecario


de una entidad bancaria (variable PRESTAMO en miles de euros) en funcin de los
ingresos anuales de la familia (variable INGRESOS en miles de euros) y del nmero de
hijos de la misma (variable HIJOS). Los resultados obtenidos con el STATGRAPHICS
se muestran a continuacin (resultados incompletos):

Nota: HIJOS = 1 es una variable que vale 0 si el nmero de hijos de la familia es distinto
de 1 y vale 1 si el nmero de hijos es igual a 1

Variable dependiente: PRESTAMO


------------------------------------------------------------------------------
--
Error Estadstico
Parmetro Estimacin estndar T P-Valor
------------------------------------------------------------------------------
CONSTANT 24.473457 4.900501 4.9941 0.0005
INGRESOS 0.726873 0.114197 6.3651 0.0001
HIJOS = 1 7.696606 0.802752
HIJOS = 2 11.251002 2.124852
HIJOS 3 22.61048 1.106681
------------------------------------------------------------------------------
R-CUAD. (Aj.) = 0.9769 E.Est.= 0.982275 Cuad.M.Err.= 0.650372

Anlisis de Varianza
------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
------------------------------------------------------------------------------
Modelo 534.021
Error 9.64865
------------------------------------------------------------------------------
Total (Corr.) 543.669 13

R-cuadrado =

a) Calcular el valor del R2. Qu indica dicho valor?.

b) Qu interpretacin prctica tiene el coeficiente asociado a la variable HIJOS = 2?


Estudiar su significacin estadstica explicando el fundamento estadstico del contraste
utilizado.

c) Es el modelo globalmente significativo? Realizar el contraste de hiptesis


correspondiente.

7
Posteriormente, se ha ajustado el modelo siguiente:

Variable dependiente: PRESTAMO


------------------------------------------------------------------------------
Error Estadstico
Parmetro Estimacin estndar T P-Valor
------------------------------------------------------------------------------
CONSTANTE 24.772284 3.848078 6.4376 0.0000
INGRESOS m 0.719881 0.089499 8.0435 0.0000
HIJOS 0 7.692387 0.764918 10.0565 0.0000
------------------------------------------------------------------------------
R-CUAD. (Aj.) = 0.9790 E.Est.= 0.937102 Cuad.M.Err.= 0.649630

Anlisis de Varianza
------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
------------------------------------------------------------------------------
Modelo 534.010 2 267.005 304.050 0.0000
Error 9.65977 11 0.878161
------------------------------------------------------------------------------
Total (Corr.) 543.669 13

R-cuadrado = 0.982232 Error estndar de est. = 0.937102


R-cuadrado (Adj. for d.f.) = 0.979002

d) Qu trata de modelar este nuevo modelo?.


e) Qu modelo debera elegirse: ste o el del apartado a)? Nota: para responder a esta
pregunta, hay que fijarse en el R-cuadrado (Adj. for d.f.) y elegir el de mayor valor
f) Segn los dos modelos de Regresin Lineal Mltiple, cunto sera el prstamo
promedio de una familia con 1 hijos y 30000 de ingresos?

2.- Se ha realizado un estudio de regresin lineal mltiple para investigar el efecto que
sobre el salario de los comerciales de una gran empresa multinacional (variable SALARIO
en /semana) tienen el gnero del trabajador (variable SEXO que vale 0 si es mujer y 1 si
es hombre), el nmero de aos trabajando en la empresa (variable TIEMPO) y el
incremento de ventas realizado por el comercial entre el mes pasado y el mes anterior
(variable VENTAS, medida en %)
Los resultados obtenidos con el STATGRAPHICS se muestran a continuacin
(resultados incompletos):

Variable dependiente: SALARIO


--------------------------------------------------------------------------------
Error Estadstico
Parmetro Estimacin estndar T P-Valor
--------------------------------------------------------------------------------
CONSTANTE 329.323617 10.332772 31.8718 0.0000
VENTAS 58.651755 0.995202 58.9345 0.0000
SEXO 30.801146 13.879685 2.2192 0.0281
TIEMPO 8.592361 3.001494 ?????? ??????
--------------------------------------------------------------------------------

8
Anlisis de Varianza
--------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
--------------------------------------------------------------------------------
Modelo 4638043 ?????? ?????? ?????? ??????
Error 85688 ?????? ??????
--------------------------------------------------------------------------------
Total (Corr.) 4723731 143

R-cuadrado = ?????? Error estndar de est. = ??????

Justificar la veracidad o no de cada una de las siguientes afirmaciones.

a) El sueldo medio del comercial varn con tres aos de antigedad cuando el
incremento de ventas fue del 1.15% es de 453.35 /semana

b) Un aumento unitario de la antigedad del comercial produce un aumento promedio


en el sueldo de 3.00 independientemente del incremento en las ventas y del gnero
del comercial.

c) La diferencia de sueldo entre los comerciales varones y las mujeres es de 30.8


/semana a favor de las mujeres para cualquier incremento de ventas e
independientemente de la antigedad del comercial.

d) El modelo sobre medias es globalmente significativo (=0.05)

e) El sueldo promedio de los comerciales dependen en un 98.2% de las variables


incluidas en el modelo

f) La variable TIEMPO es estadsticamente significativa en el modelo planteado

g) Cunto sera el sueldo promedio de un comercial con 5 aos de antigedad, mujer


y cuyo incremento de ventas fue de -2.35 %?

You might also like