Professional Documents
Culture Documents
Soluciones Unidad 3 Opcionales
Soluciones Unidad 3 Opcionales
Ejercicio 3.6
Thirty-nine MBA students were asked about happiness and how this related to their income and social
life. The data are found in happy. Fit a regression model with happy as the response and the other four
variables as predictors.
> library(faraway)
> data(happy)
> fit <- lm(happy ~ ., data=happy)
> summary(fit)
Call:
lm(formula = happy ~ ., data = happy)
Residuals:
Min 1Q Median 3Q Max
-2.7186 -0.5779 -0.1172 0.6340 2.0651
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.072081 0.852543 -0.085 0.9331
money 0.009578 0.005213 1.837 0.0749 .
sex -0.149008 0.418525 -0.356 0.7240
love 1.919279 0.295451 6.496 1.97e-07 ***
work 0.476079 0.199389 2.388 0.0227 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(b) Use the table function to produce a numerical summary of the response. What assumption used
to perform the t-tests seems questionable in light of this summary?
> table(happy$happy)
2 3 4 5 6 7 8 9 10
1 1 4 5 2 8 14 3 1
Los valores de la variable respuesta happy no parecen para nada de una variable con distribución
normal.
(c) Use the permutation procedure described in Section 3.3 to test the significance of the money pre-
dictor.
[1] 0.0795
Página 2 de 15
Histogram of tstats
0.3
Density
0.2
0.1
0.0
−4 −2 0 2 4
tstats
Histogram of tstats
0.4
0.3
Density
0.2
0.1
0.0
−4 −2 0 2 4
tstats
(f) Use the bootstrap procedure from Section 3.6 to compute 90 % and 95 % confidence intervals for
βmoney . Does zero fall within these confidence intervals? Are these results consistent with previous
tests?
> set.seed(123)
> nb <- 4000
> coefmat <- matrix(NA,nb,5)
> resids <- residuals(fit)
Página 3 de 15
> preds <- fitted(fit)
> for(i in 1:nb){
+ booty <- preds + sample(resids, rep = TRUE)
+ bmod <- update(fit, booty ~ .)
+ coefmat[i,] <- coef(bmod)
+ }
> colnames(coefmat) <- c("Intercept",colnames(happy[,2:5]))
> coefmat <- data.frame(coefmat)
> quantile(coefmat[,2],c(0.05,0.95))
5% 95%
0.00187984 0.01748788
5 % 95 %
money 0.000763349 0.0183928
> quantile(coefmat[,2],c(0.025,0.975))
2.5% 97.5%
0.000297174 0.019075282
2.5 % 97.5 %
money -0.001015941 0.02017209
Los intervalos por el método bootstrap no atrapan al cero, de forma que el coeficiente es significativo.
Los intervalos calculados con la t de Student son más anchos y para un nivel del 95 % contiene al
cero.
Página 4 de 15
Bootstrap regression coefficient density
80
60
Density
40
20
0
Ejercicio 3.7
In the punting data, we find the average distance punted and hang times of 10 punts of an American
football as related to various measures of leg strength for 13 volunteers.
(a) Fit a regression model with Distance as the response and the right and left leg strengths and
flexibilities as predictors. Which predictors are significant at the 5 % level?
> data(punting)
> g <- lm(Distance ~ RStr + LStr + RFlex + LFlex, data=punting)
> (sg <- summary(g))
Call:
lm(formula = Distance ~ RStr + LStr + RFlex + LFlex, data = punting)
Residuals:
Min 1Q Median 3Q Max
-23.941 -8.958 -4.441 13.523 17.016
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -79.6236 65.5935 -1.214 0.259
RStr 0.5116 0.4856 1.054 0.323
LStr -0.1862 0.5130 -0.363 0.726
RFlex 2.3745 1.4374 1.652 0.137
LFlex -0.5277 0.8255 -0.639 0.541
Página 5 de 15
El test F de significación colectiva de las variables regresoras se puede ver en la última línea del
summary(). El contraste es significativo.
> c(sg$fstatistic,
+ p=pf(sg$fstatistic[1],sg$fstatistic[2],sg$fstatistic[3],lower.tail = F))
(c) Relative to the model in (a), test whether the right and left leg strengths have the same effect.
> require(ellipse)
> plot(ellipse(g,2:3),type="l",ylim=c(-2,2))
> points(coef(g)[2], coef(g)[3], pch=19)
> abline(0,1,lty=2)
2
1
LStr
0
−1
−2
RStr
Página 6 de 15
(e) Fit a model to test the hypothesis that it is total leg strength defined by adding the right and left
leg strengths that is sufficient to predict the response in comparison to using individual left and
right leg strengths.
(f) Relative to the model in (a), test whether the right and left leg flexibilities have the same effect.
Aceptamos la simetría.
(h) Fit a model with Hang as the response and the same four predictors. Can we make a test to compare
this model to that used in (a)? Explain.
Página 7 de 15
Warning in anova.lmlist(object, ...): models with response ’"Distance"’ removed because
response differs from model 1
Response: Hang
Df Sum Sq Mean Sq F value Pr(>F)
RStr 1 1.98540 1.98540 30.0416 0.0005867 ***
LStr 1 0.19827 0.19827 3.0001 0.1214978
RFlex 1 0.14699 0.14699 2.2241 0.1742114
LFlex 1 0.00833 0.00833 0.1260 0.7317905
Residuals 8 0.52871 0.06609
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El aviso es debido a que los modelos tienen diferente variable respuesta y NO son comparables.
donde los errores verifican las condiciones de Gauss-Markov, ya que son independientes (muestras inde-
pendientes y poblaciones independientes) y con la misma varianza (σ 2 para las dos poblaciones).
La matriz del diseño es de rango 2 que coincide con el número de parámetros, luego el modelo es de rango
máximo y toda función lineal paramétrica es estimable. En nuestro caso
H0 : µ1 − µ2 = 0
Página 8 de 15
de manera que
X X
RSS = y0 y − y0 X(X0 X)−1 X0 y = x2i + yi2 − n1 x̄2 − n2 ȳ 2
X X
= (xi − x̄)2 + (yi − ȳ)2 = n1 s2x + n2 s2y
En cuanto a la matriz de diseño cuando la hipótesis sea cierta, ésta se reduce a una columna de n1 + n2
unos y entonces
X X X X
RSSH = y0 y − y0 X0 (X00 X0 )−1 X00 y = x2i + yi2 − ( xi + yi )2 /(n1 + n2 )
X X
= x2i + yi2 − (n1 x̄ + n2 ȳ)2 /(n1 + n2 )
Como los grados de libertad del numerador son q = 1 y los del denominador n − r = n1 + n2 − 2, el
estadístico es
1 2
1 (x̄ − ȳ)
(RSSH − RSS)/q 1
n1 + n2 (x̄ − ȳ)2
F = = =
RSS/(n − r) (n1 s2x + n2 s2y )/(n1 + n2 − 2) 1 1 2
n1 + n2 σ̂
y como F1,n1 +n2 −2 = t2n1 +n2 −2 , la raíz cuadrada del estadístico anterior coincide con el test t de Student
de comparación de medias en poblaciones con igual varianza.
Ejercicio 5.2
Una variable Y depende de otra x (variable control no aleatoria) que toma los valores x1 = 1, x2 = 2,
x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal
yi = β0 + β1 xi + β2 x2i + i
H0 : β2 = 0
Página 9 de 15
> X <- matrix(c(1,1,1,
+ 1,2,4,
+ 1,3,9,
+ 1,4,16), byrow = T, ncol=3)
> ImP <- diag(rep(1,4)) - X %*% solve(t(X) %*% X) %*% t(X)
> ImP
Por otra parte, la matriz de diseño bajo la hipótesis nula coincide con la del modelo de regresión simple.
donde I − Pω − (I − PΩ ) = PΩ − Pω es
es decir
1 −1 −1 1
1 −1 1 1 −1
4 −1 1 1 −1
1 −1 −1 1
Página 10 de 15
de forma que
1 −1 −1 1 y1
1 −1 1 1 −1 y2
RSSH − RSS = y1 y2 y3 y4 −1
4 1 1 −1 y3
1 −1 −1 1 y4
1 2
= (y − 2y1 y2 − 2y1 y3 + 2y1 y4 + y22 + 2y2 y3 − 2y2 y4 + y32 − 2y3 y4 + y42 )
4 1
1
= (y1 − y2 − y3 + y4 )2
4
con q = r − rH = 3 − 2 = 1 grados de libertad.
En cuanto al denominador del test F , su valor es RSS/(n − r) = RSS/(4 − 3) = RSS.
Finalmente el estadístico F con 1, 1 grados de libertad es
1
4 (y1 − y2 − y3 + y4 )2
F =
RSS
Por otra parte y dado que los grados de libertad del numerador son q = 1, el numerador es mucho más
sencillo de hallar si directamente calculamos la t de Student equivalente.
Con a0 = (0, 0, 1), tenemos que a0 β = (0, 0, 1)β = β2 . Entonces
a0 β̂ = (0, 0, 1)(X0 X)−1 X0 y
donde la matriz (0, 0, 1)(X0 X)−1 X0 es
de modo que
1
βˆ2 = a0 β̂ = (y1 − y2 − y3 + y4 )
4
luego
a0 β̂ βˆ2 1
4 (y1 − y2 − y3 + y4 )
t= =p =
M SE · a0 (X0 X)−1 a
q
0
se(a β̂) RSS · 41
ya que M SE = RSS/1 y
[,1]
[1,] 0.25
Ejercicio 5.5
Dado el siguiente modelo lineal normal
β1 + β2 = 6.6
2β1 + β2 = 7.8
−β1 + β2 = 2.1
2β1 − β2 = 0.4
Página 11 de 15
Estudiar si se puede aceptar la hipótesis H0 : β2 = 2β1 .
La matriz del diseño de este modelo es
1 1
2 1
−1 1
2 −1
y no hay duda que su rango es 2, de modo que es de rango máximo. Eso significa que cualquier función
lineal paramétrica es estimable, en particular 2β1 − β2 . Así pues, la hipótesis propuesta es contrastable.
La estimación de los parámetros es
[,1]
[1,] 2.090
[2,] 4.025
[1] 0.24325
Como se trata de una hipótesis con una única fpe, el contraste con la t de Student es
Página 12 de 15
Model 1: y ~ 0 + I(x1 + 2 * x2)
Model 2: y ~ 0 + x1 + x2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 3 0.52346
2 2 0.48650 1 0.036962 0.1519 0.7343
Observemos que bajo la hipótesis nula β2 = 2β1 , de modo que en el modelo de la hipótesis nula solo
queda un parámetro β1 y sus valores son x1 + 2*x2.
En este caso el estadístico es la F con 1, 2 grados de libertad y se comprueba que los estadísticos verifican
t2 = F y que los p-valores son los mismos.
Ejercicio 5.6
Continuación del ejercicio 3.10:
El transportista discute con un amigo que afirma que el doble de la distancia entre A y B es equivalente
a la distancia del trayecto A → C → B. ¿Podemos aclarar en términos estadísticos su discusión?
En primer lugar, vamos a traducir la pregunta en términos paramétricos. La distancia entre A y B es α
y el trayecto A → C → B es β + γ. Así pues, la hipótesis que plantea el transportista es
H0 : 2α = β + γ ⇒ H0 : 2α − β − γ = 0
Ahora veamos si es contrastable. Para ello la función paramétrica debe ser estimable.
En este caso las fpe deben verificar (ver solución del ejercicio 3.10) 2a2 = a1 + 4a3 . En nuestra hipótesis
√
(a1 , a2 , a3 ) = (2, −1, −1) ⇒ 2 · (−1) = 2 + 4 · (−1)
de modo que podemos proceder a su contraste.
En el ejercicio 3.10 ya calculamos una estimación de los parámetros:
> require(MASS)
> y <- c(533,583,1111,1069)
> X <- matrix(c(2,1,0,
+ 0,2,1,
+ 2,3,1,
+ 4,2,0), byrow=T, ncol=3)
> betas <- ginv(t(X) %*% X) %*% t(X) %*% y
El estadístico t de Student es
Página 13 de 15
Ejercicio 5.10
Supongamos que cada uno de los valores x1 , x2 , . . . , x12 son las observaciones de los ángulos a, a0 ,A, A0 ,b, b0 ,
B, B 0 ,c, c0 ,C, C 0 del triángulo del gráfico adjunto. Los errores de las observaciones 1 , . . . , 12 se asume
que son independientes y con distribución N (0, σ).
Antes de escribir el modelo asociado a estos datos observemos que, aunque aparentemente hay 12 pará-
metros a, a0 , . . . , éstos están ligados por las conocidas propiedades de un triángulo, es decir
a = a0 A = A0 a + A = 180 a + b + c = 180
y de forma similar para b, b0 , B, B 0 y c, c0 , C, C 0 . El conjunto de estas relaciones nos conduce a que,
realmente, sólo hay dos parámetros independientes, les llamaremos α y β. Si trasladamos a la izquierda
las cantidades 180 y con estos parámetros, el modelo es
y1 = α + 1 y2 = α + 2 y3 = −α + 3 y4 = −α + 4
y5 = β + 5 y6 = β + 6 y7 = −β + 7 y8 = −β + 8
y9 = −α − β + 9 y10 = −α − β + 10 y11 = α + β + 11 y12 = α + β + 12
donde
y1 = x1 y2 = x2 y3 = x3 − 180 y4 = x4 − 180
y5 = x5 y6 = x6 y7 = x7 − 180 y8 = x8 − 180
y9 = x9 − 180 y10 = x10 − 180 y11 = x11 y12 = x12
Deseamos contrastar la hipótesis de que el triángulo es equilátero, es decir, que a = b = c = 60. Pero si
a = 60, b = 60, c es automáticamente 60, luego la hipótesis es
H0 : α = β = 60
con 2 grados de libertad, no 3.
Resolver el contraste.
El modelo lineal que se plantea tiene n = 12 observaciones con matriz de diseño
1 0
1 0
−1 0
−1 0
0 1
0 1
0 −1
0 −1
−1 −1
−1 −1
1 1
1 1
Página 14 de 15
de rango r = 2.
En forma matricial la hipótesis es
1 0 α 60
H0 : Aβ = c ⇒ H0 : =
0 1 β 60
Entonces tenemos
0 8 4 2 1 0 −1 1 2/3 −1/3 1 2 −1
XX= =4 ⇒ (X X) = =
4 8 1 2 4 −1/3 2/3 12 −1 2
0 −1 0 1 2 −1 1 1 −1 −1 0 0 0 0 −1 −1 1 1
(X X) X =
12 −1 2 0 0 0 0 1 1 −1 −1 −1 −1 1 1
y la estimación de los parámetros
1
α̂ = [2(y1 + y2 − y3 − y4 ) − (y5 + y6 − y7 − y8 ) − (y9 + y10 − y11 − y12 )]
12
1
β̂ = [−(y1 + y2 − y3 − y4 ) + 2(y5 + y6 − y7 − y8 ) − (y9 + y10 − y11 − y12 )]
12
Con estas estimaciones y como A = I y q = 2, el numerador del test F es
2 1 α̂ − 60 1
α̂ − 60 β̂ − 60 4
1 2 β̂ − 60 2
[,1]
[1,] 0.9988585
Página 15 de 15