You are on page 1of 23

Captulo 1

Prcticas y problemas de regresin


lineal mltiple.
1.1. Problemas de regresin lineal mltiple con ordenador.
Problema 5.1.
El chero problema-5-1 contiene datos relativos a variables de coches. Se pide:
1. Ajustar un modelo de regresin mltiple con variable respuesta millas por galn
(inversa del consumo) y regresoras: precio, peso y desplazamiento.
2. Son todas las variables signicativas (contraste invidual de la t)?
3. Cul es el coeciente de determinacin?, cul es el coeciente de correlacin mlti-
ple?
4. Tabla ANOVA. Qu conclusiones se obtienen de esta tabla (contraste conjunto de la
1)? qu indican los contrastes individuales de la 1? estos contrastes tienen alguna
relacin con los contrastes inviduales de la t?
5. Analizar los residuos del modelo ajustado: estudio descriptivo y grco de los resid-
uos. Se verican las hiptesis del modelo (homocedasticidad, normalidad)? mejora
el modelo si se introduce la variable aceleracin?
6. Qu indican los grcos de efectos de las componentes?
7. Analizar la hiptesis de multicolinealidad.
8. Analizar la hiptesis de independencia.
9. Repetir este mismo problema pero utilizando solamente los datos relativos a coches
de origen USA, Cambian las conclusiones de los apartados anteriores?
1
2 Modelos estadsticos aplicados. Juan Vilar
Desarrollo del Problema 5.1.
Utilizando el Statgraphics se utiliza el siguiente mdulo que proporciona un anlisis
muy completo con mucha informacin:
dependencia regresion multiple
Los resultados del apartado resumen del procedimiento permite responder a las
preguntas de los cuatro primeros apartados de este problema:
Proporciona el modelo estimado y la tabla ANOVA, se deduce que todas las variables
son signicativas y el contraste conjunto de la 1 indica que el modelo es signicativo.
Calcula los coecientes de determinacin y correlacin.
Obtiene el contraste de Durbin-Watson que indica que la primera autocorrelacin de
los residuos es cero.
En el apartado informes se obtienen los valores de las predicciones y de los residuos.
Si se quieren calcular predicciones para un valor de ~ x determinado se debe introducir este
vector como un dato muestral (sin 1 ).
En el apartado residuos atipicos se observa que las observaciones 145 y 147 presentan
residuos altos.
En el apartado puntos influyentes se pueden estudiar las observaciones que pueden
ser inuyentes en el clculo del modelo.
Este mdulo proporciona muchos grcos de inters:
Los grcos de efectos de las componentes indican la importancia de las tres regre-
soras.
Los diferentes grcos de residuos permiten obtener conclusiones acerca de las hipte-
sis del modelo.
La hiptesis de multicolinealidad puede estudiarse en:
El apartado matriz de correlaciones valores grandes de esta matriz (valores
fuera de la diagonal prximos a 1) indican la posible existencia de multicolinealidad.
La matriz de correlaciones de las variables regresoras R, puede calcularse en el
apartado (tambin se obtiene la matriz de correlaciones parciales y un grco matricial)
descripcion datos numericos analisis multidimensional.
En todo caso es conveniente calcular la diagonal de R
1
y el ndice de condicionamien-
to de R.
Se guardan las predicciones y los residuos estandarizados y/o estudentizados y se
pueden estudiar las hiptesis de normalidad, homocedasticidad e independencia.
Utilizando los residuos estandarizados la normalidad se estudia en el mdulo:
descripcion distribuciones ajuste de distribuciones (datos no
censurados)
Prcticas y problemas de regresin lineal mltiple. 3
Tambin es de inters el grco de normalidad
graficos graficos exploratorios grafico probabilistico
La hiptesis de homocedasticidad se puede observar:
En el grco de residuos frente a predicciones.
Un estudio ms completo sobre esta hiptesis se puede hacer como sigue: se ordena
el chero segn las predicciones de menor a mayor; se hacen clases (cada una de tamao
aproximado a diez) y se utiliza el modelo de diseo de experimentos de una va siendo la
variable dependiente los residuos y el factor las clases creadas; entonces utilizar los
contrastes de homocedasticidad de este modelo.
El ajuste de las desviaciones tpicas de los residuos estandarizados en cada clase
frente a la media de las predicciones es til para estudiar la homocedasticidad, adems
indica la forma de transformar el modelo si se supone que hay heterocedasticidad.
Si se sospecha que la heterocedasticidad puede ser causada por una regresora se
puede repetir el anlisis anterior pero haciendo residuos frente a regresora en lugar de
frente a las predicciones.
La hiptesis de independecia se estudia en el mdulo
avanzado analisis series temporales metodos descriptivos
Problema 5.2.
Con los datos del chero problema-5-1 estudiar la regresin de la variable respuesta
millas por galn (inversa del consumo) respecto a las variables regresoras: precio, peso,
desplazamiento, potencia (caballos de vapor) aceleracin y nmero de cilindros.
1. Utilizando el algoritmo de regresin paso a paso obtener las regresoras que deben
entrar en el modelo.
2. Utilizando diferentes medidas de bondad de ajuste indicar el mejor modelo de regre-
sin.
3. Trabajando con el modelo de regresin lineal seleccionado en el apartado anterior
los estimadores contrados proporcionan mejores resultados que los estimadores por
mnimos cuadrados?
4. Introduciendo algn trmino cuadrtico se puede mejorar el modelo de regresin
lineal?
5. Estudiar el modelo de regresin lineal simple de la variable respuesta millas por
galn respecto al peso pero teniendo en cuenta el origen (variables atributo o
dumping) .
4 Modelos estadsticos aplicados. Juan Vilar
Desarrollo del Problema 5.2.
Utilizando el opciones del analisis se calcula la regresin paso a paso en el mdulo
dependencia regresion multiple
Para seleccionar un modelo de regresin utilizar el anlisis
avanzado regresion avanzada seleccion del modelo de regresion
El estudio de la regresin contrada (ridge regression) se hace en el mdulo
avanzado regresion avanzada regresion en cadena
El apartado 5 es un problema de regresin lineal con una variable regresora atributo
y se estudia en el apartado
avanzado regresion avanzada comparacion de rectas de regresion
Introduciendo en el campo codes level=origin y en la ventana de resultados del
opciones del analisis se puede elegir si las rectas ajustadas tienen igual pendiente y/o
constante segn submuestra.
Problema 5.3. (Regresion No Lineal)
En el chero Problema-5-3 contiene 44 datos de dos variables relativas a la cantidad
de cloro presente en unas muestras de agua sometidas a un proceso qumico en relacin
con el tiempo transcurrido medido en semanas.
1. Dibujar el grco de la nube de observaciones y calcular el ajuste lineal o linealizable
que explique la variable 1 =Cloro como funcin de la variable A =Semanas
(tiempo).
2. Utilizando el algoritmo iterativo de Kalman ajustar por mnimos cuadrados la fun-
cin de regresin
1 = c
1
+
_
0
0
49 c
1
_
exp(c
2
(A 8)) ,
siendo los valores iniciales de los parmetros: c
1
= 0
0
2 y c
2
= 0
0
3, estos valores son
necesarios para comenzar el algoritmo. Representar la nube muestral y la funcin de
regresin no lineal estimada. Es bueno el ajuste obtenido?
Desarrollo del Problema 5.3.
Los problemas de regresin no lineal se estudian en el mdulo
avanzado regresion avanzada regresion no lineal
Los resultados que calcula este mdulo son similares a los que se obtienen en el ajuste
de un modelo de regresin lineal.
Prcticas y problemas de regresin lineal mltiple. 5
1.2. Problema resuelto de regresin lineal mltiple.
Problema 5.4. Se quiere ajustar un modelo que permita estimar los gastos en al-
imentacin de una familia (1 ) en base a la informacin que proporcionan las variables
regresoras A
1
=ingresos mensuales y A
2
=nmero de miembros de la familia. Para ello
se recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla
adjunta. (El gasto e ingreso est dado en cientos de miles de pesetas)
Gasto Ingreso Tamao Gasto Ingreso Tamao
0
0
43 2
0
1 3 1
0
29 8
0
9 3
0
0
31 1
0
1 4 0
0
35 2
0
4 2
0
0
32 0
0
9 5 0
0
35 1
0
2 4
0
0
46 1
0
6 4 0
0
78 4
0
7 3
1
0
25 6
0
2 4 0
0
43 3
0
5 2
0
0
44 2
0
3 3 0
0
47 2
0
9 3
0
0
52 1
0
8 6 0
0
38 1
0
4 4
0
0
29 1
0
0 5
Solucin Problema 5.4.
Los datos en forma matricial:
Y =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
0
0
43
0
0
31
0
0
32
0
0
46
1
0
25
0
0
44
0
0
52
0
0
29
1
0
29
0
0
35
0
0
35
0
0
78
0
0
43
0
0
47
0
0
38
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
= X~ +~" =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 2
0
1 3
1 1
0
1 4
1 0
0
9 5
1 1
0
6 4
1 6
0
2 4
1 2
0
3 3
1 1
0
8 6
1 1
0
0 5
1 8
0
9 3
1 2
0
4 2
1 1
0
2 4
1 4
0
7 3
1 3
0
5 2
1 2
0
9 3
1 1
0
4 4
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
c
0
c
1
c
2
_
_
_+~"
Con estos datos se obtiene
: = 15,

r
1i
= 42,

r
2i
= 55,

r
2
1i
= 188
0
08,

r
1i
r
2i
= 140
0
80,

r
2
2i
= 219
0
00,

j
i
= 8
0
070,

j
i
r
1i
= 32
0
063,

j
i
r
2i
= 28
0
960.
6 Modelos estadsticos aplicados. Juan Vilar
Por tanto
S = X
t
X =
_
_
_
15 42
0
00 55
0
00
42 188
0
08 140
0
80
55 140
0
80 219
0
00
_
_
_ T =
_
_
_
8
0
070
32
0
063
28
0
960
_
_
_.
De donde
~ = S
1
T =
_
_
_
15 42
0
00 55
0
00
42 188
0
08 140
0
80
55 140
0
80 219
0
00
_
_
_
1
_
_
_
8
0
070
32
0
063
28
0
960
_
_
_ =
~ = S
1
T =
_
_
_
1
0
360 0
0
092 0
0
282
0
0
092 0
0
016 0
0
013
0
0
282 0
0
013 0
0
067
_
_
_
_
_
_
8
0
070
32
0
063
28
0
960
_
_
_ =
_
_
_
0
0
160
0
0
149
0
0
077
_
_
_
El modelo de regresin lineal que se obtiene es:
Ga:to = 0
0
160 + 0
0
149 1:qrc:o + 0
0
077 Ta:a~ :o +crror.
A partir de esta ecuacin se obtienen las predicciones y los residuos asociados a las
observaciones muestrales.
Para la primera observacin (r
1
= 2
0
1; r
2
= 3; j = 0
0
43) se obtiene
^ j
1
= 0
0
160 + 0
0
149 2
0
1 + 0
0
077 3 = 0
0
3839,
c
1
= j
1
^ j
1
= 0
0
43 0
0
3839 = 0
0
0461.
Razonando as en todos los puntos muestrales se obtienen las siguientes predicciones
y residuos:
Predicciones
0
0
38 0
0
41 0
0
33
0
0
31 0
0
57 0
0
77
0
0
36 0
0
37 0
0
51
0
0
39 1
0
39 0
0
50
1
0
07 0
0
35 0
0
36
Residuos
0
0
046 0
0
028 0
0
024
0
0
001 0
0
048 0
0
011
0
0
038 0
0
083 0
0
084
0
0
075 0
0
104 0
0
032
0
0
180 0
0
000 0
0
025
Se calcula la :c1
:c1 =

c
2
i
= 0
0
0721
^ :
2
R
= 0
0
0060 = ^ :
R
= 0
0
0775
Una forma ms fcil de calcular la :c1 es la siguiente
~e
t
~e =
~
Y
t
Y ^
t
X
t
Y =

j
2
i
c
0

j
i
c
1

j
i
r
1i
c
2

j
i
r
2i
=
= 5
0
7733
_
0
0
160
_
8
0
070 0
0
149 32
0
063 0
0
077 28
0
960.
Prcticas y problemas de regresin lineal mltiple. 7
Intervalos de conanza de los parmetros del modelo al 90 %,
Para la varianza o
2
,
(: (/ + 1)) ^ :
2
R
o
2
~
2
n(k+1)
=
12 0
0
0060
o
2
~
2
12
,

2
12
_
0
0
05
_
= 5
0
2253 _
0
0
072
o
2
_ 21
0
0298 =
2
12
_
0
0
95
_
,
0
0
0034 =
0
0
072
21
0
0298
_ o
2
_
0
0
072
5
0
2253
= 0
0
0138.
Varianza de los estimadores del modelo,
\ ar (^ ) = o
2
_
X
t
X
_
1
- 0
0
0060
_
_
_
1
0
360 0
0
092 0
0
282
0
0
092 0
0
016 0
0
013
0
0
282 0
0
013 0
0
067
_
_
_,
de donde
\ ar (^ c
0
) = ^ :
2
R

00
= 0
0
0060 1
0
360 = 0
0
00816 =o (^ c
0
) = 0
0
0903,
\ ar (^ c
1
) = ^ :
2
R

11
= 0
0
0060 0
0
0166 = 0
0
000099 =o (^ c
1
) = 0
0
0099
\ ar (^ c
2
) = ^ :
2
R

22
= 0
0
0060 0
0
067 = 0
0
00040 =o (^ c
2
) = 0
0
0201.
Intervalo de conanza para c
0
,
^ c
0
c
0
^ :
R
_

00
~ t
n(k+1)
=
0
0
160 c
0
0
0
0903
~ t
12
,
t
12
_
0
0
05
_
0
0
0903 _ 0
0
160 c
0
_ t
12
_
0
0
95
_
0
0
0903 = 1
0
783 0
0
0903 = 0
0
161,
0
0
321 = 0
0
160 0
0
161 _ c
0
_ 0
0
160 + 0
0
161 = 0
0
001.
Intervalo de conanza para c
1
(ingreso),
^ c
1
c
1
^ :
R
_

11
~ t
n(k+1)
=
0
0
149 c
1
0
0
0099
~ t
12
,
t
12
_
0
0
05
_
0
0
0099 _ 0
0
149 c
1
_ t
12
_
0
0
95
_
0
0
0099 = 1
0
783 0
0
0099 = 0
0
0176,
0
0
1314 = 0
0
149 0
0
0176 _ c
1
_ 0
0
149 + 0
0
0176 = 0
0
1666.
8 Modelos estadsticos aplicados. Juan Vilar
Contraste individual de la t, H
0
= c
1
= 0, la variable ingreso no inuye.
^
t
1
=
^ c
1
^ :
R
_

11
~ t
n(k+1)
=
^
t
1
=
0
0
149
0
0
0099
= 15
0
050 ~ t
12
,
j
1
= 0
0
000 =Se Rechaza H
0
.
Intervalo de conanza para c
2
(tamao)
^ c
2
c
2
^ :
R
_

22
t
n(k+1)
=
0
0
077 c
2
0
0
0201
,
t
12
_
0
0
05
_
0
0
0201 _ 0
0
077 c
2
_ t
12
_
0
0
95
_
0
0
0201 = 1
0
783 0
0
0201 = 0
0
0358,
0
0
0412 = 0
0
077 + 0
0
0358 _ c
2
_ 0
0
077 + 0
0
0358 = 0
0
1128.
Contraste individual de la t, H
0
= c
2
= 0, la variable tamao no inuye.
^
t
2
=
^ c
2
^ :
R
_

22
~ t
n(k+1)
=
^
t
2
=
0
0
077
0
0
0201
= 3
0
831,
j
2
= 0
0
0012 =Se Rechaza H
0
.
Clculo de la tabla ANOVA
:cG =

(j
i
j)
2
= 1
0
4316,
de donde
:c1 = :cG:c1 ==

(j
i
^ j
i
)
2
= 1
0
3595.
Tabla ANOVA
Fuentes de Suma de Grados Varianzas
variacin cuadrados libertad
:c1 (por el modelo) 1
0
3595 2 ^ :
2
e
= 0
0
6797
:c1 (Residual) 0
0
0721 12 ^ :
2
R
= 0
0
0060
:cG ( Global) 1
0
4316 14 ^ :
2
y
= 0
0
1023
Contraste conjunto de la F, con estos datos se obtiene
^
1
M
=
^ :
2
e
^ :
2
R
=
0
0
6797
0
0
0060
= 113
0
28 ~ 1
2;12
=j
c
= 0
0
0000.
El contraste conjunto de la 1 indica claramente la inuencia del modelo en la respues-
ta. Por tanto, de los contrastes individuales y del conjunto se deduce la inuencia
de cada una de las dos regresoras y la inuencia conjunta del modelo.
Prcticas y problemas de regresin lineal mltiple. 9
Contraste individual de la F.
Se calcula el contraste individual de la 1 respecto a la variable r
2
=tamao, este
contraste es equivalente al contraste individual de la t.
Se obtiene la regresin de la variable gasto respecto a la variable ingreso,
gasto = 87
0
124 + 1
0
543 ingreso.
La tabla ANOVA de este modelo es
Tabla ANOVA
Fuentes de Suma de Grados de Varianzas
variacin cuadrados libertad
:c1 (ingreso) 1
0
2716 1 ^ :
2
e
= 1
0
2716
:c1 (Residual) 0
0
1600 13 ^ :
2
R
(1) = 0
0
0123
:cG (Global) 1
0
4316 14 ^ :
2
y
= 0
0
1022
La variabilidad incremental debida a la variable dimetro es
\ 1 (ta:a~ :o) = \ 1 (2) \ 1 (i:qrc:o) = 1
0
3595 1
0
2716 = 0
0
0879,
este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir
la variable tamao.
Para contrastar la inuencia de esta variable se utiliza el estadstico
^
1
2
=
\ 1 (r
2
)
1
^ :
2
R
(/)
=
0
0
0879
0
0
0060
= 14
0
65 ~ 1
1;12
=j = 0
0
001.
Este contraste proporciona el mismo jvalor que el contraste individual de la t salvo
problemas de redondeo.
Coecientes de correlacin:
Coeciente de determinacin,
1
2
=
:c1
:cG
=
1
0
3595
1
0
4316
= 0
0
9496 =94
0
96 % de :cG.
Coeciente de correlacin mltiple,
1 =
_
0
0
9496 = 0
0
9745.
Coeciente de determinacin corregido por los grados de libertad,

1
2
= 1
^ :
2
R
^ :
2
Y
= 1
0
0
0060
0
0
1023
= 94
0
13 =94
0
13 % de :cG.

1 =
_
0
0
9413 = 0
0
9702.
10 Modelos estadsticos aplicados. Juan Vilar
Coeciente de correlacin simple entre las variables gasto e ingreso,
j (qa:to, i:qrc:o) =
Co (qa:to, i:qrc:o)
o (qa:to) o (i:qrc:o)
= 0
0
9424.
Este coeciente es una medida de la relacin lineal existente entre las variables gasto
e ingreso.
Este coeciente tambin se puede calcular a partir del coeciente de determinacin
de la siguiente regresin
gasto = 87
0
124 + 1
0
543 ingreso.
La tabla ANOVA del modelo es
Tabla ANOVA
Fuentes de Suma de Grados de Varianzas
variacin cuadrados libertad
:c1 (ingreso) 1
0
2716 1 ^ :
2
e
= 1
0
2716
:c1 (Residual) 0
0
1600 13 ^ :
2
R
(1) = 0
0
0123
:cG ( Global) 1
0
4316 14 ^ :
2
y
= 0
0
1022
1
2
=
:c1
:cG
=
1
0
2716
1
0
4316
= 0
0
8882 =1 = j (qa:to, i:qrc:o) = 0
0
9424.
Anlogamente el coeciente de correlacin simple entre gasto y tamao es,
j (qa:to, ta:a~ :o) =
Co (qa:to, ta:a~ :o)
o (qa:to) o (ta:a~ :o)
= 0
0
1265.
Coeciente de correlacin parcial entre las variables gasto e ingreso
_
^
t
ingreso
=
^
t
1
_
.
r
2
(qa:to, i:qrc:o; ta:a~ :o) =
^
t
2
ingreso
^
t
2
ingreso
+: (/ + 1)
=
15
0
050
2
15
0
050
2
+ 12
= 0
0
9496
= r (qa:to, i:qrc:o; ta:a~ :o) = 0
0
974.
Otra forma ms compleja de calcular este coeciente es la siguiente: se calculan las
siguientes regresiones simple y se guardan los residuos c
gasto:tama~ no
y c
ingreso:tama~ no
.
Gasto = 0
0
6713 0
0
0363 tamao +c
gasto:tama~ no
.
Ingreso = 5
0
5923 07615 tamao +c
ingreso:tama~ no
.
Prcticas y problemas de regresin lineal mltiple. 11
El coeciente de correlacin parcial entre las variables gasto e ingreso se obtiene como
el coeciente de correlacin simple entre las variables c
gasto:tama~ no
y c
ingreso:tama~ no
r (qa:to, i:qrc:o; ta:a~ :o) = j (c
gasto:tama~ no
, c
ingreso:tama~ no
)
=
Co (c
gasto:tama~ no
, c
ingreso:tama~ no
)
o (c
gasto:tama~ no
) o (c
ingreso:tama~ no
)
= 0
0
9740.
Este coeciente mide la relacin entre gasto e ingreso libres de la inuencia de la
variable tamao.
Anlogamente se obtiene
r (qa:to, ta:a~ :o; i:qrc:o) = j (c
gasto:ingreso
, c
:tama~ no:ingreso
) = 0
0
7412.
Estimacin de la media condicionada.
Estimar el gasto medio en alimentacin de una familia con unos ingresos de
r
t1
= 3
0
0 y un tamao de r
t2
= 4. Esto es (r
t
= (rt
1
, r
t2
) = (3
0
0; 4)) .
Del modelo de regresin estimado se obtiene
^ :(3
0
0; 4) = ^ :
t
= ^ c
0
+ ^ c
1
r
t1
+ ^ c
2
r
t2
=
= 0
0
160 + 0
0
149 3
0
0 + 0
0
077 4 = 0
0
595.
El valor de inuencia asociado al dato r
t
= (r
t1
, r
t2
) = (3
0
0; 4) es
/
tt
= r
t
t
_
A
t
A
_
1
r
t
=
_
1 3
0
0 4
_
_
_
_
1
0
360 0
0
092 0
0
282
0
0
092 0
0
016 0
0
013
0
0
282 0
0
013 0
0
067
_
_
_
_
_
_
1
3
0
0
4
_
_
_ = 0
0
07649
= :
t
=
1
0
0
07649
= 13
0
073.
La varianza del estimador ^ :
t
es
\ ar ( ^ :
t
) = ^ :
2
R
/
tt
= 0
0
0060 0
0
07649 = 0
0
00046 =o ( ^ :
t
) = 0
0
0214.
Y un intervalo de conanza para :
t
al 90 % es
:
t
0
0
595 t
12
_
0
0
95
_
0
0
0214 = 0
0
595 0
0
038 =
_
0
0
557, 0
0
633
_
.
12 Modelos estadsticos aplicados. Juan Vilar
Prediccin de una observacin.
La familia Prez que tiene unos ingresos de r
t1
= 3
0
0 y un tamao de r
t2
= 4.
Esto es (r
t
= (r
t1
, r
t2
) = (3
0
0; 4)) qu gasto en alimentacin tendr?.
Utilizando el modelo de regresin estimado la prediccin es
^ j(3
0
0, 4) = ^ c
0
+ ^ c
1
r
1
+ ^ c
2
r
2
= 0
0
595.
La varianza de la prediccin es
\ ar (^ j
t
) = ^ :
2
R
(1 +/
tt
) = 0
0
0060
_
1 + 0
0
07649
_
= 0
0
0065
= o (^ j
t
) = 0
0
0803.
Un intervalo de prediccin al 90 % para j
t
es
j
t
0
0
595 t
12
_
0
0
95
_
0
0
0803 = 0
0
595 0
0
143 =
_
0
0
452, 0
0
738
_
.
Algunos grcos de inters que ayudan a resolver el problema son los grcos par-
ciales de las componentes que sirven para observar la inuencia de las regresoras (Figuras
5.1. y 5.2.) y los grcos de residuos que se utilizan para chequar que se verican las hipte-
sis estructurales del modelo, dos de ellos (frente a ingreso y frente a ndice) se representan
en las Figuras 5.3. y 5.4.
Figura 5.1. Grco parcial de ingreso.
Prcticas y problemas de regresin lineal mltiple. 13
Figura 5.2. Grco parcial de tamao.
Figura 5.3. Grco de residuos frente a ingreso.
Figura 5.4. Grco de residuos frente a ndice.
14 Modelos estadsticos aplicados. Juan Vilar
1.3. Resumen de los modelos de regresin lineal.
Las principales frmulas de los modelos de regresin lineal simple y mltiple se pre-
sentan en la tabla adjunta.
R. L. Simple R. L. Mltiple
Modelo
j
i
= c
0
+c
1
r
i
+-
i
~
Y = c
0
~
1 +c
1
~
X+~"
j
i
= c
0
+c
1
r
i1
+c
2
r
i2
+
+. . . +c
k
r
ik
+-
i
~
Y = X ~ +-
Estimacin
^ c
1
=
:
XY
:
2
X
^ c
0
= j ^ c
1
r
^ =
_
X
t
X
_
1
X
t
Y
Propiedades
^ c
1
~
_
c
1
,
o
2
::
2
x
_
^ c
0
~
_
c
0
,
o
2
:
_
1 +
r
2
:
2
x
__
~ ~
_
~ ,o
2
_
X
t
X
_
1
_
(normal multivariante)
^ c
i
~
_
c
i
, o
2

ii
_
Prediccin
^ j
i
= ^ c
0
+ ^ c
1
r
i
^
Y = ^ c
0
~
1 + ^ c
1
~
X
^ j
i
= ^ c
0
+ ^ c
1
r
i1
+ ^ c
2
r
i2
+
+. . . + ^ c
k
r
ik
^
Y = X ^
Residuos
c
i
= j
i
^ j
i
~e =
~
Y
^
Y
c
i
= j
i
^ j
i
~e =
~
Y
^
Y
Varianza
Estimada
^ :
2
R
=
1
: 2

n
i=1
c
2
i
^ :
2
R
=
1
: (/ + 1)

n
i=1
c
2
i
Propiedades
:^ o
2
MV
o
2
~
2
n2
(: (/ + 1)) ^ :
2
R
o
2
~
2
n(k+1)
Interv. de
Conanza
.
0
=
^ c
0
c
0
^ :
R
_
1
:
_
1 +
r
2
:
2
x
_
~ t
n2
.
1
=
^ c
1
c
1
^ :
R
:
x
_
: ~ t
n2
.
i
=
^ c
i
c
i
^ :
R
_

ii
~ t
n(k+1)
Contraste F
^
1
R
=
^ :
2
e
^ :
2
R
~ 1
k;n2
^
1
M
=
^ :
2
e
^ :
2
R
~ 1
k;n(k+1)
Prcticas y problemas de regresin lineal mltiple. 15
1.4. Problemas propuestos de regresin lineal mltiple.
Problema 5.5. Se realiza un experimento para determinar la duracin de vida de
ciertos circuitos electrnicos (1 ) en funcin de dos variables de fabricacin (A
1
) y (A
2
),
con los siguientes resultados:
1 11 8 73 21 46 30
A
1
10 0 10 10 0 10
A
2
0 5 5 0 5 5
1. Ajustar un modelo de regresin lineal.
2. Calcular el coeciente de determinacin y la varianza residual. Es el ajuste adecua-
do?
3. Construir un intervalo de conanza al 90 % para la prediccin en el punto (0, 0).
Problema 5.6. Los datos de la tabla adjunta indican la gravedad especca (A
1
),
contenido de humedad (A
2
) y fuerza (1 ) de diez vigas de madera. Encontrar el modelo
de regresin que mejor se ajusta a estos datos.
1 11
0
14 12
0
74 13
0
13 11
0
51 12
0
38 12
0
60 11
0
13 11
0
70 11
0
02 11
0
41
A
1
0
0
99 0
0
558 0
0
604 0
0
441 0
0
550 0
0
528 0
0
418 0
0
480 0
0
406 0
0
467
A
2
11
0
1 8
0
9 8
0
8 8
0
9 8
0
8 9
0
9 10
0
7 10
0
5 10
0
5 10
0
7
Problema 5.7. En la tabla adjunta se presenta un indicador provincial global de
consumo (1 ) el nmero de automviles por mil habitantes (A
1
) y el nmero de telfonos
por mil habitantes (A
2
) en ocho provincias espaolas. Estudiar un modelo explicativo que
relacione el indicador global con los dos indicadores de consumo (datos de 1974).
Provincia Avila Palenc Segov Burgos Soria Vallad Logroo Santan
1 64 778 83 88 89 99 101 102
A
1
58 84 78 81 82 102 85 102
A
2
111 131 158 147 121 165 174 169
Problema 5.8. La demanda de un tipo de impresoras ha cambiado debido a una
rpida variacin en el precio. Se ha observado la demanda (1 ) en una amplia regin
geogrca y el precio unitario (A) (en unidades de diez mil pesetas). Los resultados son
los de la tabla adjunta. Ajustar un polinomio de regresin a estos datos que explique el
comportamiento de la demanda.
1 360 305 230 242 180 172
A 8
0
8 9
0
7 9
0
9 10
0
3 11
0
0 12
0
5
1 121 83 122 91 105
A 13
0
2 14
0
8 15
0
8 17
0
4 18
0
2
16 Modelos estadsticos aplicados. Juan Vilar
Problema 5.9. El chero problema-5-9 contiene datos relativos a veinticuatro
pases. El chero consta de las siguientes variables referidas a cada pas:
- Coches: Nmero de coches por persona.
- Pob: Poblacin en millones de personas.
- Den: Densidad de poblacin.
- Ingresos: Ingresos per capita en dlares U.S.A.
- Gasol: Precio de la gasolina en centavos U.S.A. por litro.
- Consumo: Toneladas de gasolina consumida por coche al ao.
- Pasaj: Miles de pasajeros-kilmetros por persona que usan bs o tren.
- Pas: Pas al que se reeren los datos de la la.
Se quiere ajustar un modelo de regresin mltiple que explique la variable coches en
funcin de las variables explicativas: pob, den, ingresos, gasol, consumo y pasaj.
Problema 5.10. El chero problemas-5-10 contiene datos relativos a partidos de
la liga ACB de baloncesto. Los datos son de 62 jugadores al azar del total y han sido
obtenidos de la Gua Ocial de la Liga 1989-1990 de la ACB (Asociacin de Clubs de
Baloncesto). En base a esta muestra se desea estudiar si existe una relacin lineal entre la
variable puntos por partido (puntpart) que es capaz de anotar un jugador de baloncesto
respecto a las siguientes regresoras:
- La altura del jugador (altura).
- Los minutos que juega por partido (minpart).
- Los balones que pierde por partido (bppart).
- Las faltas personales cometidas por partido (fppart).
- El porcentaje en tiros de campo por partido (porcentaje obtenido de los tiros de dos
y tres puntos conseguidos e intentados) (por_tc).
En base a estos datos:
1. Ajustar un modelo de regresin sin excluir ninguna variable e interpretar el resultado.
Es el ajuste bueno?
2. Analizar la hiptesis de multicolinealidad para el modelo anterior.
3. En el modelo ajustado Cules son las observaciones atpicas y/o inuyentes?
4. Existe un modelo de regresin lineal ms adecuado?
5. Es aconsejable utilizar un ajuste no lineal? Justicar la respuesta.
6. Analizar los residuos del modelo que se considere ms adecuado.
Problema 5.11. El chero problema-5-11 contiene datos relativos a 60 observa-
ciones de datos del Mercado Financiero Canadiense (de septiembre del 77 a diciembre del
80). Se han considerado las siguientes variables:
- Bankcan: activos del Banco de Canad.
- Trsbill: intereses de las Letras del Tesoro a 90 das.
Prcticas y problemas de regresin lineal mltiple. 17
- CPI: ndice de precios al consumo.
- Usspot: razn de cambio Canad/USA.
- Usforw: razn de cambio a un mes Canad/USA.
Se quiere estudiar el modelo de regresin lineal mltiple de la variable de inters Trsbill
frente a las otras cuatro variables regresoras. Se pide:
1. Calcular el modelo de regresin lineal mltiple.
2. Estudio de la multicolinealidad del modelo.
3. Estudio de las observaciones inuyentes y atpicas.
4. Anlisis de residuos. Se verican las hiptesis del modelo?
5. Encontrar un ajuste que mejore al modelo de regresin lineal obtenido.
Problema 5.12. (Observaciones inuyentes y datos atpicos) Con los datos
de la tabla adjunta se construyen tres conjuntos de datos. El primero consta de los casos
1 a 9 repetidos tres veces cada uno y aadiendo el caso 28(A). El segundo est formado
por los casos de 1 a 9 repetidos tres veces y, adicionalmente, el caso 28(B). Finalmente, el
tercero se construye de igual manera pero con la observacin adicional 28(C). Por tanto,
estos tres conjuntos tienen 27 datos iguales y uno diferente. Estudiar las regresiones de los
tres conjuntos y examinar las observaciones inuyentes y atpicas.
Caso 1 2 3 4 5 6 7 8 9 A B C
r
1
2 0 2 4 3 1 3 1 4 0 3 3
r
2
6,5 7,3 8,3 6,0 8,8 8,0 5,9 6,9 9,5 7,2 9 7,3
j 1,5 0,5 1,6 3,9 3,5 0,8 2,7 1,3 4,1 5 1,5 4
Problema 5.13. Se ha realizado un experimento para investigar como la resistencia
del corcho al rozamiento se ve afectada por la dureza del corcho y la fuerza tensorial. Para
ello se han testado treinta muestras de corcho de las que se ha calculado la dureza (en
grados Shore, a mayor nmero mayor dureza) y la fuerza tensorial (medidos en Kgr por
c:
2
).
Las muestras de corcho eran sometidas a un rozamiento continuo por un perodo de
tiempo jo y despus se meda la prdida de peso de corcho en gramos por hora. Los datos
obtenidos en este experimento se encuentran en el chero problema-5-13, en base a
ellos:
1. Analizar la relacin lineal de la variable de inters, peso de corcho perdido, con las
dos variables explicativas.
2. Analizar las hiptesis del modelo .
18 Modelos estadsticos aplicados. Juan Vilar
Problema 5.14. El chero problema-5-14 contiene datos de contaminacin atmos-
frica en 41 ciudades de EEUU en los aos 1969-71 . La variable de inters es 1 =contenido
de oO
2
en el aire en microgramos por metro cbico. Se desea estudiar la relacin de 1
con seis variables regresoras, dos relativas a ecologa humana y cuatro al clima. Son la
siguientes:
A
1
=temperatura media anual en grados Farenheit.
A
2
=nmero de fbricas con ms de 20 empleados
A
3
=nmero de habitantes, en miles
A
4
=Velocidad media del viento al ao en millas por hora
A
5
=precipitacin media anual en litros por pulgada
A
6
=nmero medio de das con lluvia al ao
El objetivo del estudio es encontrar un modelo de regresin mltiple que explique
adecuadamente el comportamiento de la variable 1 .
Problema 5.15. El chero problema-5-15 contiene datos de seis variables de 22
aviones de combate de EEUU. Las variables estudiadas son las siguientes:
111=rst ight date, fecha del primer vuelo en meses despus de Enero de 1940
o11=specic power, potencia especca proporcional a la potencia por unidad de
peso
1G1=ight range factor, factor de rango de vuelo
111=payload como una fraccin del peso bruto del avin
o11=factor de carga sostenido
C1=una variable binaria que vale 1 si el avin puede aterrizar en un portaviones y
0 en otro caso
El objetivo del estudio es encontrar un modelo de regresin mltiple que explique el
comportamiento de la variable de inters 111 o una transformada de la misma (por
ejemplo, tomar logaritmos) como una funcin del resto de variables.
Tener en cuenta la presencia de la variable atributo C1, interpretar el modelo resul-
tante al introducir esta variable.
Problema 5.16. Algunas veces es necesario bajar la presin sangunea de un pa-
ciente durante una intervencin quirrgica utilizando un frmaco hipotensivo. El chero
problema-5-16 contiene datos relativos a la utilizacin de un determinado frmaco en 53
enfermos. En cada uno de ellos se ha medido el tiempo en minutos antes de que la presin
sistlica sangunea del paciente vuelva a los 100 mm (TR es el tiempo de recuperacin), el
logaritmo de la dosis de frmaco en miligramos (LD) y la presin media sistlica sangunea
del paciente mientras el frmaco haca efecto (PM). Qu relacin existe entre la variable
TR y las otras dos variables?.
Problema 5.17. El chero problema-5-17 contiene datos del fsforo encontrado
en 18 muestras de aceite tomadas a 20
o
. La variable A
1
es el fsforo inorgnico, A
2
el
fsforo orgnico e 1 es el fsforo de maz en el aceite. Encontrar un modelo que explique
la variable 1 como funcin de las otras dos regresoras.
Prcticas y problemas de regresin lineal mltiple. 19
Problema 5.18. Se est interesado en estudiar la temperatura mnima de una ciu-
dad en relacin con su longitud y latitud geogrca. Se ha tomado una muestra de 56
ciudades de EEUU y se ha calculado la temperatura mnima (en grados Farenheit) en el
mes de enero, el resultado obtenido es el promedio de 30 aos (de 1931 a 1960). El chero
problema-5-18 contiene los datos de esta variable y de las regresoras: longitud y latitud
de la ciudad.
En base a estos datos ajustar un modelo de regresin que explique el comportamiento
de la variable de inters en funcin de las dos regresoras. En un estudio previo se propona
ajustar la temperatura con una relacin lineal respecto a la variable latitud y un ajuste
cbico respecto a la variable longitud.
Problema 5.19. Se desea estudiar la relacin entre el consumo de helados, medido
en pintas per capita, y las variables regresoras precio del helado, en dolres por pinta,
el ingreso familiar por semana y la temperatura media medida en grados Farenheit. Para
ello se obtuvieron datos de 30 meses, desde marzo de 1951 a julio de 1953. El chero
problema-5-19 contiene estos datos. Analizarlos y estudiar un modelo de regresin que
se ajuste a los mismos.
Problema 5.20. El chero problema-5-20 contiene datos relativos al nmero de
muertes e intensidad de los terremotos ocurridos desde 1.900. Tambin se proporciona el
ao en que ocurri el terremoto, en total, 40 datos. Se desea estudiar si existe una relacin
entre el nmero de muertes y la intensidad del terremoto. Analizar las hiptesis bsicas
del modelo ajustado.
Problema 5.21. El chero problema-5-21 contiene datos de 209 procesadores
(CPU). De cada uno de ellos se han obtenido caractersticas y medidas de rendimiento
relativo respecto a un procesador IBM 370/158-3. Las variables observadas las siguientes:
-Cycle time(ns), nmero de ciclos por segundo.
-Minimum memory (kb), memoria mnima en kb.
-Maximum memory (kb), memoria mxima en kb.
-Cache size (kb), tamao del cach.
-Minimum channels, nmero mnimo de canales.
-Maximum channels, nmero mximo de canales.
-Relative performance, rendimiento relativo.
-Estimated relative performance, rendimiento relativo estimado.
El objetivo del estudio es conocer que variables inuyen en el rendimiento relativo
(en el relative performance y en el estimated relative performance). Ajustar el modelo de
regresin en cada uno de los dos casos e indicar la bondad del ajuste.
(Los datos proceden del trabajo de Ein-Dor,P. y Feldmesser,J. (1987) Atributes of
the performance of central processing units: a relative performance prediction model,
Communitaions of the ACM, 30,308-317).
20 Modelos estadsticos aplicados. Juan Vilar
Problema 5.22. El chero problema-5-22 contiene los resultados de 35 carreras
de montaa celebradas en Escocia en 1984. Se proporcionan datos sobre la distancia en
millas de la carrera, tiempo del vencedor en minutos y la altura total ganada en pies.
Se quiere estudiar un modelo de regresin que relacione el tiempo con las otras dos
variables. Al analizar los datos parece razonable transformar la variable respuesta pero
tambin se observa la aparicin de observaciones inuyentes.
Problema 5.23. El chero problema-5-23 contiene datos de tres variables relativas
a las 48 ciudades ms grandes del mundo en 1991. Las variables consideradas son:
Horas de trabajo=promedio ponderado de 12 ocupaciones
Nivel de precios=coste de una cesta de la compra de 112 productos bsicos, en base
al nivel de Zurich=100
Nivel de salarios=nivel del salario de 12 ocupaciones diferentes ponderadas segn la
distribucin ocupacional, excludas tasas a la seguridad social e impuestos, en base al nivel
de Zurich=100
El objetivo del estudio es encontrar una relacin entre estas tres variables. Tiene par-
ticular inters el estudio de los siguientes modelos de regresin:
1. Estudiar la variable respuesta nivel de precios respecto a la regresora nivel de salarios.
2. Estudiar la respuesta nivel de precios respecto a las otras dos regresoras.
3. Estudiar la respuesta nivel de salarios respecto a la regresora horas de trabajo.
Problema 5.24. Se est interesado en investigar el ndice de criminalidad en relacin
con otras variables. Para ello se dispone de datos de 47 estados de EEUU relativos al ao
1960 (problema-5-24). Las variables estudiadas son las siguientes:
1=ndice de criminalidad, nmero de delitos conocidos por la polica por cada milln
de habitantes
qc=distribucin de la edad, nmero de varones de edad 14-24 por cada mil de toda
la poblacin del estado
o=variable binaria que distingue entre estados del sur (o = 1) del resto
1d=nivel educativo, nmero medio de aos de escolarizacin
1r
1
=gasto per cpita en proteccin policial relativa a 1960
1r
2
=gasto per cpita en proteccin policial relativa a 1959
11=proporcin en participacin en trabajos de fuerza por cada mil hombres con edad
14-24
'=Nmero de varones por mil mujeres
=Tamao de la poblacin del estado en cin mil
\=El nmero de personas de raza no blanca por 1000 habitantes
l
1
=Razn de desempleo entre hombres de edad 14-24, por cada mil
l
2
=Razn de desempleo entre hombres de edad 35-39, por cada mil
\=Riqueza medida por el ingreso familiar
Prcticas y problemas de regresin lineal mltiple. 21
A=Desigualdad en ingresos, el nmero de familias por mil que ganan por debajo de
la mitad de la mediana de ingresos
El objetivo del estudio es encontrar la mejor relacin entre la variable de inters 1 con
el resto de las variables regresoras. Analizar la inuencia de la variable atributo o.
Problema 5.25. Los datos de este problema son clsicos en anlisis de regresin
(chero problema-5-25), corresponden a la observacin de 21 das de trabajo en una
planta qumica para la oxidacin del amonio como una etapa en la produccin del cido
ntrico. Las variables observadas son:
A
1
=ujo de aire
A
2
=temperatura del ahua de refrigeracin (
o
C)
A
3
=concentracin de cido ( %)
1 =prdida acumulada, porcentage del amonio que escapa sin ser absorbido
El objetivo del estudio es ajustar un modelo de regresin a estos datos que explique el
comportamiento de la respuesta 1 respecto a las tres regresoras.
Problema 5.26. En la tabla adjunta se presentan cuatro indicadores del tamao
medio de las empresas en 15 paises desarrolados. Estos indicadores son: (\ ) ventas, ()
activos, () nmero de empleados y (1) recursos propios. Estudiar un modelo de regresin
que relacione la variable \ con las restantes variables (se sugiere transformar los datos
tomando logaritmos).
Pais \ 1
Espaa 249 454 3,358 166
EE.UU. 3,334 2,612 15,230 1,209
Alemania 707 542 7,391 119
Inglaterra 511 352 7,307 243
Francia 477 535 6,306 91
Suecia 142 137 2,075 34
Suiza 494 475 6,163 215
Holanda 301 227 3,517 70
Pais \ 1
Italia 109 100 874 16
Blgica 167 124 1,267 37
Noruega 100 81 894 14
Dinamarca 84 67 978 20
Finlandia 119 100 1,350 15
Portugal 35 46 1,302 16
Irlanda 237 283 3,668 80
Problema 5.27. En la tabla adjunta se indica la altura (H), longitudde las naves
(1), anchura de la nave principal () y nmero de naves () de algunas iglesias romnicas
espaolas. Estudiar la relacin entre la variable altura (H) y el resto de las variables.
22 Modelos estadsticos aplicados. Juan Vilar
H L A N H L A N H L A N
6
0
15 20
0
00 6
0
18 1 9
0
20 17
0
00 8
0
20 1 9
0
00 20
0
50 7
0
00 3
11
0
60 19
0
40 5
0
20 3 9
0
10 20
0
60 9
0
50 1 13
0
00 26
0
50 6
0
40 3
22
0
00 85
0
00 8
0
10 3 7
0
75 12
0
20 5
0
40 1 11
0
45 21
0
75 7
0
45 3
10
0
20 24
0
00 5
0
50 3 8
0
85 17
0
90 6
0
50 1 8
0
50 10
0
00 6
0
70 1
8
0
90 14
0
30 6
0
50 1 10
0
00 28
0
20 5
0
45 1 6
0
70 14
0
60 6
0
20 3
9
0
50 11
0
90 6
0
40 1 10
0
50 26
0
78 8
0
80 3 11
0
60 13
0
60 7
0
60 1
12
0
20 20
0
00 6
0
10 3 19
0
00 35
0
00 7
0
70 3 10
0
15 11
0
60 4
0
10 3
11
0
40 19
0
30 7
0
50 1 8
0
20 16
0
00 9
0
00 1
Problema 5.28. El chero problema-5-28 contiene datos de tres variables obser-
vadas en cincuenta tipos de madera utilizados en la construccin. Las variables estudiadas
son las siguientes:
A =densidad de la madera en aire seco
1 =mdulo de rigidez
7 =mdulo de elasticidad.
El objetivo del estudio es ajustar un mdelo de regresin que explique el compor-
tamiento de la variable elasticidad en funcin de las otras dos variables.
Los datos estn ordenados de forma creciente segn la variable A.
1 7 A 1 7 A
1000 99 25
0
3 1897 240 50
0
3
1112 173 28
0
2 1822 248 51
0
3
1033 188 28
0
6 2129 261 51
0
7
1087 133 29
0
1 2053 245 52
0
8
1069 146 30
0
7 1676 186 53
0
8
925 91 31
0
4 1621 188 53
0
9
1306 188 32
0
5 1990 252 54
0
9
1306 194 36
0
8 1764 222 55
0
1
1323 195 37
0
1 1909 244 55
0
2
1379 177 38
0
3 2086 274 55
0
3
1332 182 39
0
0 1916 276 56
0
9
1254 110 39
0
6 1889 254 57
0
3
1587 203 40
0
1 1870 238 58
0
3
1 7 A 1 7 A
1145 193 40
0
3 2036 264 58
0
6
1438 167 40
0
3 2570 189 58
0
7
1281 188 40
0
6 1474 223 59
0
5
1595 238 42
0
3 2116 245 60
0
8
1129 130 42
0
4 2054 272 61
0
3
1492 189 42
0
5 1994 264 61
0
5
1605 213 43
0
0 1746 196 63
0
2
1647 165 43
0
0 2604 268 63
0
3
1539 210 46
0
7 1767 205 68
0
1
1706 224 49
0
0 2649 346 68
0
9
1728 228 50
0
2 2159 246 68
0
9
1703 209 50
0
3 2078 237,5 70
0
8
Problema 5.29. Se presentan dos problemas anlogos. En una primera parte en el
chero problema-5-29A, se recogen las distancias en metros de los saltos obtenidos por
los ganadores de la medalla de oro en las Olimpadas en las siguientes pruebas: salto de
altura, salto de prtiga, salto de longitud y triple salto, en las pruebas realizadas entre los
aos 1896 y 1988.
Prcticas y problemas de regresin lineal mltiple. 23
Los datos de la segunda parte estn en el chero problema-5-29B que contiene los
tiempos, en segundos, de los ganadores de las carreras de hombres de 100, 200, 400, 800 y
1500 metros en los JJOO desde 1900 a 1988 (no hubo JJOO en 1916, 1940 y 1944).
En ambos casos el objetivo del estudio es el mismo:
1. Ajustar un modelo de regresin razonable a la nube de datos que permita predecir
futuros resultados.
2. Para una determinada variable (en ambos cheros) ajustar un modelo de regresin
simple donde la variable regresora es el tiempo (reescalado) o, dicho de otra forma,
estimar la tendencia de la variable (serie de tiempo).
3. En ambos apartados estudiar la hiptesis de independencia. (Estas variables son
series de tiempo y los modelos estadsticos ARIMA son, en muchos casos, adecuados
para hacer predicciones).
Problema 5.30. El chero problema-5-30 contiene datos de tres variables relativas
a 35 carreras de montaa que tuvieron lugar en Escocia durante el ao 1984. Las variables
estudiadas son:
- Distancia: recorrida en la carrera medida en millas.
- Altura: alcanzada en la montaa en el ascenso efectuado, medida en pies.
- Tiempo: que tard el vencedor de la carrera.
Se desea ajustar un modelo de regresin que explique el comportamiento de la variable
respuesta, tiempo, respecto a las dos regresoras distancia y altura. En principio, puede ser
razonable hacer una transformacin de la variable respuesta pero debe de estudiarse la
existencia de datos inuyentes.
Problema 5.31. En este problema se presenta una coleccin de datos obtenidos en
pruebas simuladas de accidentes de motos. Se observaban dos variables:
- A = tiempo transcurrido (en milisegundos) despus del impacto.
- 1 = aceleracin de la cabeza.
Los datos se recogen en el chero problema-5-31. En base a ellos se pide:
1. Representar los datos y ajustar un modelo de regresin que explique el compor-
tamiento de la variable respuesta 1 a partir de la variable regresora. Se mejoran
los resultados si se transforma alguna de las dos variables o ambas?
2. Utilizando mtodos de regresin no paramtrica se obtienen mejores resultados?
Problema 5.32. El chero problema-5-32 contiene datos de porcentajes de delitos
de siete tipos (asesinato, violacin, atraco, agresin, robo, latrocinio y robo de vehculos)
en cincuenta estados de EEUU en el ao 1986. Los datos que se presentan son el nmero
de delitos por cada 100.000 residentes.
Analizar analtica y grcamente estas variables y estudiar si se puede ajustar un
modelo de regresin que explique el comportamiento de una de ellas en funcin de las
otras.

You might also like