Professional Documents
Culture Documents
a
o
Introduccin Terica y
o
o
Prctica basada en R
a
Fernando Tusell
Indice general
Indice general
Indice de guras
IV
Indice de cuadros
.
.
.
.
.
.
1
1
3
5
7
7
9
.
.
.
.
.
.
.
15
15
17
18
21
28
31
36
.
.
.
.
.
43
43
45
46
49
49
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Estimacin m
o
nimo cuadrtica.
a
2.1. Obtencin de los estimadores de los parmetros.
o
a
2.2. Una obtencin alternativa . . . . . . . . . . . .
o
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
50
INDICE GENERAL
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Inferencia simultnea.
a
8.1. Problemas que plantea el contrastar mltiples hiptesis
u
o
multneas . . . . . . . . . . . . . . . . . . . . . . . . . .
a
8.2. Desigualdad de Bonferroni. . . . . . . . . . . . . . . . . .
8.3. Intervalos de conanza basados en la mxima t. . . . . .
a
8.4. Mtodo S de Sche. . . . . . . . . . . . . . . . . . . . .
e
e
8.5. Empleo de mtodos de inferencia simultnea. . . . . . . .
e
a
9 Multicolinealidad.
9.1. Introduccin. . . . . . . . . . . . . . . . . . .
o
9.2. Una aproximacin intuitiva . . . . . . . . . .
o
9.3. Deteccin de la multicolinealidad aproximada
o
9.4. Caracterizacin de formas lineales estimables.
o
9.5. Varianza en la estimacin de una forma lineal.
o
9.6. Eleccin ptima de observaciones. . . . . . . .
o o
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
50
51
53
.
.
.
.
60
60
60
63
64
.
.
.
.
65
65
72
80
81
.
.
.
.
.
83
83
85
90
97
105
106
si. .
. .
. .
. .
. .
106
111
112
114
119
.
.
.
.
.
.
122
122
123
125
127
130
131
.
.
.
.
.
.
10 Regresin sesgada.
o
136
10.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . 136
o
10.2. Una aproximacin intuitiva. . . . . . . . . . . . . . . . . . . 137
o
INDICE GENERAL
10.3. Regresin ridge. . . . . . . . . . . . . .
o
10.4. Regresin en componentes principales.
o
10.5. Regresin en ra latentes . . . . . .
o
ces
10.6. Lectura recomendada . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
150
158
162
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
180
180
189
200
201
13 Transformaciones
204
13.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
o
13.2. Transformaciones de los regresores . . . . . . . . . . . . . . . 204
13.3. Transformaciones de la variable respuesta . . . . . . . . . . . 207
14 Regresin con respuesta cualitativa
o
211
14.1. El modelo logit. . . . . . . . . . . . . . . . . . . . . . . . . . 211
A Algunos resultados en Algebra Lineal.
220
A.1. Resultados varios sobre Algebra Matricial. . . . . . . . . . . 220
A.2. Clculo diferencial con notacin matricial . . . . . . . . . . . 222
a
o
A.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . 223
B Algunos prerrequisitos estad
sticos.
224
2
B.1. Distribuciones y F descentradas . . . . . . . . . . . . . . 224
B.2. Estimacin mximo veros
o
a
mil . . . . . . . . . . . . . . . . . 225
B.3. Contraste razn generalizada de verosimilitudes . . . . . . . 226
o
C Regresin en S-Plus y R.
o
C.1. El sistema estad
stico y grco S-Plus . . . . . . . . . . . .
a
C.2. El sistema estad
stico y grco R . . . . . . . . . . . . . . .
a
C.3. Correspondencia de funciones para regresin y ANOVA en
o
S-Plus y R . . . . . . . . . . . . . . . . . . . . . . . . . . .
227
227
227
234
D Procedimientos de clculo.
a
235
D.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
o
246
Indice de guras
1.1. Old Faithful Geyser: datos de 272 erupciones. . . . . . . . . . .
1.2. El vector PM y es la proyeccin de y sobre M (plano horizontal).
o
2
8
29
42
44
45
La l
nea horizontal es la varianza (y ECM) del estimador MCO.143
10.2. Trazas ridge y GVC para los datos longley . . . . . . . . . . . 147
11.1. Una observacin como a tiene residuo borrado muy grande, y
o
gran inuencia en la pendiente de la recta de regresin. . . . . . 171
o
11.2. Grcos para contraste de normalidad . . . . . . . . . . . . . . 177
a
2
iv
Indice de cuadros
C.1. Equivalencia de funciones para regresin y ANOVA en S-Plus
o
y R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Introduccin
o
Lo que sigue contiene una introduccin muy concisa al anlisis de reo
a
gresin, concebida como apoyo de las clases. Hay varios niveles de lectura:
o
en un primer nivel, las Observaciones que jalonan el texto pueden en su
mayor omitirse, sin prdida de continuidad. Ello proporciona una lectura
a
e
bastante lineal.
Si se desea una lectura ms detallada, con digresiones que, no siendo
a
imprescindibles, pueden mejorar la comprensin del conjunto, conviene leer
o
tanto las observaciones como las secciones de Complementos y ejercicios al n de cada cap
tulo: son parte integrante del texto a este segundo
nivel y completan muchos detalles.
A lo largo del texto, tanto en demostraciones como en ejercicios o complementos se ha hecho uso abundante del s
mbolo de giro peligroso mostrado
en el margen, popularizado por la obra clsica Knuth (1986). Se trata de
a
fragmentos que corresponder a un tercer nivel, con detalles de inters,
an
e
extensiones de alguna idea, referencias a la literatura o ejercicios y demostraciones de mayor dicultad. La echa vertical remite a algn ejercicio,
u
observacin o ejemplo que son requisito previo.
o
Hay un mundo de diferencia entre saber cmo se hacen las cosas y sao
ber hacerlas. Querr
amos que los alumnos supieran hacerlas. La experiencia
sugiere que lo que resulta de ms ayuda al lector es ver ejemplos de aplicaa
cin detallados, que pueda reproducir o modicar para resolver sus propios
o
problemas. Intercalados entre la teor hay fragmentos en R, que el lector
a
puede ejecutar o tomar como modelo. Todos se han ejecutado con R versin
o
2.13.2.
No se ha buscado el cdigo ms terso ni la forma ms rpida o elegante
o
a
a a
de hacer las cosas, sino la que ilustra mejor la teor
a.
vi
Cap
tulo 1
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
4.0
3.5
3.0
2.5
1.5
2.0
4.5
5.0
50
60
70
80
90
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
1.2.
Notacin
o
Consideramos una variable aleatoria Y (regresando, respuesta, o variable endgena) de la que suponemos que se genera as
o
:
Y
= 0 X0 + 1 X1 + + p1 Xp1 + ,
(1.1)
siendo:
1. 0 , . . . , p1 , parmetros jos desconocidos.
a
2. X0 , . . . , Xp1 , variables explicativas no estocsticas, regresores, cuyos
a
valores son jados por el experimentador. Frecuentemente X0 toma el
valor constante uno.
3. una variable aleatoria inobservable.
La ecuacin (1.1) indica que la variable aleatoria Y se genera como
o
combinacin lineal de las variables explicativas, salvo en una perturbacin
o
o
aleatoria . En el Ejemplo 1.1, Y ser la variable I, y el unico regresor
a
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
(1.2)
siendo:
y el vector N 1 de observaciones de la variable aleatoria Y,
X la matriz N p de valores de las variables explicativas. Su elemento
xij denota el valor que la jsima variable explicativa toma en la i
e
sima observacin,
e
o
el vector de parmetros (0 , . . . , p1 ) ,
a
el vector N 1 de valores de la perturbacin aleatoria .
o
def
2
yi
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
2 es totalmente arbitrario.
de el vector minimizando y X
En lugar de minimizar la norma eucl
dea ordinaria, podr
amos mini L1 (suma de los valores absolutos de los errores de
mizar ||y X ||
aproximacin, tambin llamada norma L1 ), o cualquier otra cosa. Si
o
e
se emplea la norma eucl
dea es por conveniencia matemtica y por
a
ser un criterio razonable desde diversos puntos de vista.
Observacin 1.3
o
Por qu introducir la norma euclidea
e
y no limitarnos a proponer como criterio la minimizacin de
o
1.3.
Supuestos.
E[ ] = 0.
2.
E[ ] = 2 I.
3.
rango(X) = p < N.
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
= 0 1 + 1 x 1 + + p1 x p1 +
(1.3)
= (0 1 + ) + 1 x1 + + p1 xp1 + ( ),
(1.4)
= 0 + 1 x1 + + k x2 + + p1 xp1 + .
k
= kz1 1 z2 2 ,
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
1.4.
La estimacin m
o
nimo cuadrtica como
a
problema de aproximacin vectorial.
o
La ecuacin matricial y = X + puede reescribirse as
o
:
y
= 0 x0 + + p1xp1 + ,
(1.5)
1.5.
Proyecciones.
u M,
2.
u=y
3.
(y u) M
si
y M,
si
y M.
/
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
PM y
b
o
subespacio M, tal como establece el teorema siguiente1 .
Teorema 1.1 Sea H un espacio vectorial, y M un subespacio del mismo.
Para cualquier vector y H existe siempre un unico vector u = PM y ,
m
n
zM
y z
(1.6)
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
y b
b PM y
>
1.6.
Lectura recomendada.
Sobre la teor
a. Puede leerse como complemento a este cap
tulo Faraway (2005), Cap. 1 y Cap. 2, Seccin 1 a 3, o los cap
o
tulos introductorios de
la mir
ada de buenos textos que existe sobre regresin lineal: Seber (1977),
o
Stapleton (1995), Arnold (1981), Draper and Smith (1998), Fox (2002), Pena (2002), Myers (1990), Searle (1971), Ryan (1997) o Trocniz (1987a) son
o
algunos de ellos.
Sobre la utilizacin de R. El primero de los libros citados, Faraway
o
(2005), ilustra tambin el modo de emplear R para hacer regresin (pero
e
o
es demasiado escueto para servir de introduccin al lenguaje). R es una
o
implementacin de fuente libre del lenguaje estad
o
stico y grco S (ver por
a
ejemplo Becker et al. (1988), Chambers and Hastie (1992) o Chambers
(1998)). Los textos introductorios sobre S son por ello utilizables con R.
Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec
co para R, Venables and Ripley (1999b)), Dalgaard (2002), o
Ugarte et al. (2008). Hay documentos con extensin de libro disponibles en
o
Internet, como Maindonald (2000) o Kuhnert and Venables (2005).
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
10
Complementos y ejercicios
Algunos de los ejercicios que siguen requieren hacer uso de un ordenador
y un programa especializado, tal como R. En la Seccin 1.6, pg. 9, se
o
a
proporcionan referencias.
1.1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-. Por ejemplo,
x <- 5
El valor de la variable puede ser utilizado en clculos subsiguientes;
a
tecleando
x + 5
obtendr
amos 10.
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
x %*% y
produce:
produce:
produce:
produce:
produce:
produce:
produce:
produce:
6
6
6
6
7
8
8
7
7 8
7
7
8
Los sub
ndices se ponen entre corchetes, [ ]. Un sub
ndice negativo
se interpreta como omitir el correspondiente valor. Adems de suba
nea, emplear expresiones que den como valor un vector lgico: a > 6 produce el vector
o
F T T, que empleado como sub
ndices retorna los elementos de a
mayores que 6.
11
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
1.7 La funcin help permite interrogar a R sobre el modo de
o
empleo de cualquier funcin. Por ejemplo, para obtener la descripcin
o
o
de sum podr
amos teclear:
help(sum)
Emplese la funcin help para averiguar el cometido de las siguientes
e
o
funciones de R: t, cbind, rbind, solve, scan, read.table, list,
nrow, ncol. Obsrvese que tecleando
e
example(scan)
podemos ejecutar los ejemplos que aparecen en la documentacin on
o
line sin necesidad de reteclearlos. Obsrvese tambin que el mandato
e
e
help.start() abre una ventana de ayuda en un navegador si es
que hay alguno instalado en la mquina que empleamos, lo que
a
permite navegar cmodamente por la documentacin.
o
o
12
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
1.9 Recordemos que el producto eucl
deo (o escalar ) de dos
vectores x , y en R3 verica:
< x , y >= ||x ||||y || cos()
siendo el ngulo que ambos vectores forman. Esta igualdad se
a
extiende a RN deniendo cos() convenientemente (vase Denie
cin A.3, pg. 220). Sea PM y la proyeccin de y sobre el subespacio
o
a
o
M . Si ||x || = 1, del esquema a continuacin inmediatamente se deo
duce que < x , y >= ||PM y ||, siendo M el subespacio generado por
x.
y
PM y
1.10 Escr
base una funcin que, dados dos vectores arbitrarios
o
x e y , obtenga el vector proyeccin del segundo sobre el espacio
o
(unidimensional) generado por el primero. Comprubese que el vector
e
z resultante es efectivamente la proyeccin buscada, para lo cual es
o
preciso ver: i) Que z es colineal con x , y ii) Que (y z ) x .
0 , 0 , 1 , 1
1.13 ( 1.10) Los siguientes dos vectores generan un subespacio 2-dimensional de R3 . Encuentrese por ejemplo, mediante el
procedimiento de Gram-Schmidt una base ortonormal de dicho
subespacio.
1
2
0 , 3
0
1
13
CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
1.14 Demustrese que la correspondencia PM : x y =
e
1.15
La estimacin de un modelo de regresin lineal
o
o
realiza una aproximacin del vector respuesta Y similar a la que
o
llevar a cabo una red neuronal compuesta por una unica neuroa
14
Cap
tulo 2
Estimacin m
o
nimo cuadrtica.
a
2.1.
o
M. Como M es el
M. Por consiguiente, ha de vericarse que (y X )
subespacio generado por las columnas de X,
X 0 (y X )
X 1 (y X )
.
.
.
.
.
.
X p1 (y X )
(2.1)
(2.2)
(2.3)
(2.4)
X (y X ) = 0
y de aqu se deduce que:
X X = X y .
(2.5)
= (X X)1 X y .
15
(2.6)
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
16
(2.7)
=
=
=
=
y X
y X(X X)1 X y
(I X(X X)1 X )y
(I PM )y .
(2.8)
(2.9)
(2.10)
(2.11)
es m
e igualando las derivadas a cero (ver Observacin 1.3, pg. 5), obo
a
del que todo lo que podr
tendr
amos un
amos armar es que corresponde a un punto estacionario de la expresin anterior (suma
o
de cuadrados de los residuos). Para establecer que se trata de un
m
nimo, habr
amos de tomar a n segundas derivadas y vericar el
u
cumplimiento de las condiciones de segundo orden.
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
17
3. Se verica que (I P )X = 0.
Demostracion:
El apartado 1) es inmediato. En cuanto a 2), siendo (I P ) idempotente,
su rango coincide con su traza (vase Teorema A.1, pg. 220). Por tanto:
e
a
rango(I P ) = traza(I P )
= traza(I) traza(P )
= N traza[X(X X)1 X ]
= N traza[(X X)1 X X]
= N p.
(2.12)
(2.13)
(2.14)
(2.15)
(2.16)
a
matricial indicado. Es adems inmediato si reparamos en que la matriz (I
a
P ) proyecta sobre el subespacio M , por lo que su producto por cualquiera
de los vectores columna de X (pertenecientes a M) da el vector 0.
2.2.
(2.17)
m (y X ) (y X ).
n
(2.18)
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
18
o equivalentemente
X y = (X X) ,
(2.20)
2.3.
a
E[ ] = .
E[] = .
Recordemos tambin que la matriz de covarianzas de un vector aleatorio
e
se dene por:
como
= E[ E()][ E()] ,
= E[ ][ ] .
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
19
Acontece que el vector de estimadores disfruta de esta atractiva propiedad de insesgadez. Adicionalmente, dentro de una clase particular de
estimadores es el que exhibe menores varianzas en la diagonal principal de
o
y, en este sentido, es el que estima con mayor precisin el vector .
3. (Gauss-Markov). Si es el estimador m
nimo cuadrtico ordinario de
a
de que sea lineal e insesgado tiene
, cualquier otro estimador
matriz de covarianzas con elementos diagonales no menores que los
de .
Demostracion:
Tomando valor medio en (2.6):
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
20
a
luego es insesgado. Por consiguiente, la matriz de covarianzas tendr
por expresin:
o
= E( )( )
=
=
=
=
=
(2.21)
se deduce:
E[(X X)1 X (X + ) + D(X + )] = ,
+ DX
= ,
(2.22)
(2.23)
insesgadez de implica DX = 0.
E[( )( ) ].
(2.24)
(2.25)
Pero:
= [(X X) X + D](X + )
= [(X X)1 X + D] .
(2.26)
(2.27)
(2.28)
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
21
= 2 (X X)1 + 2 DD
= + 2 DD .
(2.29)
(2.30)
(2.31)
La matriz DD tiene necesariamente elementos no negativos en la diagonal principal (sumas de cuadrados), lo que concluye la demostracin de
o
3). De forma completamente similar se puede demostrar una versin ligerao
mente ms general: la estimacin lineal insesgada con varianza m
a
o
nima de
2.4.
def
y X
N p
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
22
Demostracion:
Como
X = P Y = X(X X)1 X Y ,
(2.32)
(Y X ) = (I P )Y
(2.33)
tenemos que
= (I P )(X + )
= (I P ) ,
(2.34)
(2.35)
y por tanto
SSE = Y (I P ) (I P ) Y = (I P ) (I P ) .
En virtud de la simetr e idempotencia de (I P ),
a
SSE = (I P )
= traza (I P )
= traza (I P ) .
(2.36)
(2.37)
(2.38)
(2.39)
SSE
= 2
N p
def
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
23
N
i=1 (Yi
Y )2
.
N 1
(2.40)
Este resultado puede obtenerse como caso particular del Teorema 2.3
si reparamos en lo siguiente: podemos imaginar las Yi como generadas
por
Yi = 0 + i ,
en que 0 es la media y i una perturbacin de media cero y misma
o
varianza que Yi . Si regresramos las observaciones Y1 , . . . , YN sobre
a
una columna de unos, 1 , el unico parmetro estimado ser
a
a:
0 = (X X)1 X Y = (1 1 )1 1 Y = N 1
Yi = Y
i=1
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
Al margen de la comodidad, lsfit realiza los clculos de un
a
modo mucho ms eciente en tiempo y estable numricamente que
a
e
el sugerido por la teor no se invierte la matriz (X X) sino que se
a:
emplea la factorizacin QR (ver Seccin D.2, pg. 235, o Lawson and
o
o
a
Hanson (1974)). Se trata de detalles que no necesitan preocuparnos
por el momento. Generamos en primer lugar los datos y realizamos
la estimacin aplicando la teor de modo ms directo. Primero, la
o
a
a
matriz de dise o,
n
> X <- matrix(c(1, 1, 1, 1,
+
1, 1, 1, 4, 12, 1, 4,
+
13, 0, 6, 7, 0, 2, 2),
+
6, 3)
> X
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
24
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
[,1]
[1,] 2.3517
[2,] 2.8129
[3,] 4.2329
(la funcin solve(A,b) proporciona una solucin, si existe, del sisteo
o
ma de ecuaciones lineales Ax = b ). Una forma ms rpida de calcua a
25
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[,1]
0.42097
-0.29124
0.15416
-0.61805
0.53689
-0.20272
26
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
> ajuste <- lsfit(X, y, intercept = FALSE)
hace todo lo anterior y algunas cosas ms de modo mucho ms eciena
a
te. La funcin lsfit (least squares t) devuelve una lista u objeto
o
compuesto conteniendo en sus componentes los estimadores de los
parmetros, los residuos y algunos resultados auxiliares asociados al
a
mtodo de clculo empleado (la factorizacin QR aludida ms arrie
a
o
a
ba). Vemoslo:
a
> ajuste
$coefficients
X1
X2
X3
2.3517 2.8129 4.2329
$residuals
[1] 0.42097 -0.29124 0.15416
[4] -0.61805 0.53689 -0.20272
$intercept
[1] FALSE
$qr
$qt
[1] -75.33003
[4] -0.66854
48.78812 -23.94068
0.42874 -0.60529
$qr
X1
X2
[1,] -2.44949 -14.28869
[2,] 0.40825 11.95129
[3,] 0.40825 -0.63322
[4,] 0.40825
0.28718
[5,] 0.40825
0.03616
[6,] 0.40825 -0.71690
X3
[1,] -6.940221
[2,] 3.583992
[3,] -5.655823
[4,] -0.375532
[5,] -0.004607
[6,] 0.047314
27
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
28
$qraux
[1] 1.4082 1.0362 1.9256
$rank
[1] 3
$pivot
[1] 1 2 3
$tol
[1] 1e-07
attr(,"class")
[1] "qr"
> resid <- ajuste$residuals
> resid
[1] 0.42097 -0.29124 0.15416
[4] -0.61805 0.53689 -0.20272
El argumento intercept=FALSE indica a la funcin lsfit que no
o
debe agregarse a la matriz de dise o X una columna de unos (porn
que ya gura entre los regresores). Ordinariamente ello no suceder,
a
y podremos prescindir de especicar el argumento intercept, con
lo que tomar el valor por omisin TRUE.
a
o
Fin del ejemplo
2.5.
El coeciente R2
Hay una relacin interesante entre SSE y otras dos sumas de cuadrados
o
que denimos a continuacin. Sea y el vector N 1 siguiente:
o
y=
y
.
.
.
e
en que y denota la media aritmtica de las observaciones en y . Denamos:
SST =
SSR =
y y
X y
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
29
X
y
(2.41)
Demostracion:
SST =
y y
(2.42)
2
y X + X y
(2.43)
=
y X + X y + 2 < y X , X y >
(2.45)
=
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
30
son ortogonales.
Observacin 2.6 En la Figura 2.1 puede visualizarse R2 coo
mo el coseno al cuadrado del ngulo que forman los vectores (y y)
a
n
y (X y). Un valor peque o de R2 signica que este coseno es
peque o, y el ngulo correspondiente grande; es decir, que y est
n
a
a
2 grande implimuy elevado sobre el plano M . Por el contrario, R
ca que el ngulo referido es peque o, y que y est prximo a su
a
n
a o
proyeccin en M .
o
o
0 que resulta ser igual a y (se comprob en la Observacin 2.5,
o
o
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
31
2.6.
Demostracion:
Es una consecuencia inmediata de la unicidad de la proyeccin (Teoreo
ma 1.1, pg. 8).
a
Demostracion:
Es una especializacin del resultado segn el cual, prejadas las bases
o
u
en ambos espacios, la matriz que representa una aplicacin lineal de uno
o
en otro es unica. La proyeccin es una aplicacin lineal (vase solucin al
o
o
e
o
Ejercicio 1.14).
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
32
Demostracion:
Sea N la dimensin de H y p la dimensin de M. Sea v1 , . . . , vp una base
o
o
de M formada por vectores ortonormales, y T la matriz N p siguiente:
T = v1 | v2 | . . . | vp
Siempre podemos completar {v1 , . . . , vp } con N p vectores adicionales {vp+1 , . . . , vN } hasta obtener una base de H (vase por ej. Grafe (1985),
e
pg. 79). Adems, los N p vectores adicionales pueden tomarse ortogonales
a
a
entre s y a los de T , y normalizados (por ejemplo, utilizando el procedi
miento de ortogonalizacin de Gram-Schmidt; vase Grafe (1985), pg. 93).
o
e
a
Entonces, para cualquier y H tendremos:
p
ci vi
y =
cj vj ,
(2.46)
j=p+1
i=1
M
siendo ci (i = 1, . . . , N) las coordenadas de y en la base escogida. Premultiplicando ambos lados de (2.46) por vi (i = 1, . . . , p), obtenemos:
vi y
= vi
cj vj =
j=1
cj (vi vj ) = ci ,
(2.47)
j=1
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
33
u = PM y
p
(vi y )vi
=
i=1
v1 | v2 | | vp
v1 y
v2 y
.
.
.
vp y
v1 | v2 | | vp
v1
v2
. y
.
.
vp
= T T y
Demostracion:
La matriz PM es unica (Lema 2.2) y puede expresarse siempre como T T
PM = (T T ) = T T = PM
PM PM = T T T T = T (T T )T = T T = PM .
Lema 2.5 Denotamos por R(C) el subespacio generado por las columnas
de C, siendo C una matriz cualquiera. PM denota la matriz de proyeccin
o
sobre un cierto subespacio M. Entonces:
R(PM ) = M.
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
34
Demostracion:
Claramente R(PM ) M. Por otra parte, para todo x M,
PM x = x = M R(PM ).
sobre M .
Demostracion:
Es consecuencia inmediata de los Lemas 2.1 y 2.4.
Demostracion:
Consideremos la identidad y = P y + (I P )y . Claramente, (I P )y
P y y adems (I P )y = y P y es ortogonal a P y . Por tanto, P y es
a
proyeccin de y sobre un cierto subespacio, que, de acuerdo con el Lema
o
2.5, es el generado por las columnas de P .
(2.48)
(2.49)
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
35
Demostracion:
De (2.48) deducimos:
DD Dz = c
(2.50)
(2.51)
(2.52)
Demostracion:
Sea y un vector cualquiera. Su proyeccin sobre R(X) ha de ser de la
o
y vericar las ecuaciones normales (2.5) en la pg. 15:
forma X ,
a
X X = X y
(2.53)
ya que hay mltiples (X X) en general); no obstante, X(X X) X y es
u
la unica proyeccin de y sobre M, y X(X X) X es la unica matriz de
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
2.7.
36
Lectura recomendada
Sobre la teor
a. Seber (1977), Cap. 3 cubre completamente la materia
de este cap
tulo. Para las cuestiones de lgebra matricial, proyecciones, etc.
a
Draper and Smith (1998) tiene un cap
tulo completo (el 20) mostrando el
problema de la estimacin MCO desde un punto de vista geomtrico, similar
o
e
al empleado aqu Searle (1982), Searle (1971) y Abadir and Magnus (2005)
;
son buenas referencias. Sobre matrices inversas generalizadas, en particular,
pueden verse, adems de Searle (1982), Ben-Israel and Greville (1974), Rao
a
and Mitra (1971) y Yanai et al. (2011).
Sobre R. Son de utilidad las referencias indicadas en el Cap
tulo precedente. Espec
camente sobre regresin con R, Cornillon and Matznero
Lober (2011) y Faraway (2005). Como se indic, hay mucha documentao
cin on line sobre R, como Venables et al. (1997) (hay traduccin caso
o
tellana, Venables et al. (2000), un poco desfasada), Maindonald (2000) o
Kuhnert and Venables (2005); una relacin actualizada puede obtenerse en
o
http://cran.r-project.org/.
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
Complementos y ejercicios
1
n
n
i=1
(Zi Z)2
no es insesgado.
o
de Moore-Penrose):
DD D = D;
D DD = D ;
D D y DD simtricas.
e
Moore-Penrose. Sobre inversas generalizadas e inversas de MoorePenrose puede consultarse Searle (1971) y Rao and Mitra (1971)
37
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
[,1] [,2]
[1,]
2
0
[2,]
0
0
> XXig <- ginv(XX)
> XXig
[1,]
[2,]
[,1] [,2]
0.5
0
0.0
0
[,1] [,2]
2
0
0
0
[,1] [,2]
0.5
0
0.0
0
[,1] [,2]
1
0
0
0
38
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
2.8 Justif
quese la armacin hecha en la Observacin 2.7,
o
o
pg. 30, de acuerdo con la cual el ajuste, medido en trminos de
a
e
SSE, no puede empeorar al a adir regresores.
n
5,8
4,7
y = 4,9
3,8
2,1
10
6,2
X1 = 2,5
3,0
4,6
X
-0.44798
El coeciente que afecta a la unica variable es negativo (= 0,447984),
lo que estar
amos tentados de interpretar as por cada grado que
:
aumenta la temperatura, disminuye en 0.447984 la velocidad de sedimentacin. (Quedar por ver si la estimacin del coeciente de
o
a
o
regresin es de ar, cuestin que abordaremos ms adelante.)
o
o
a
Supongamos ahora que otro investigador repite el mismo anlisis,
a
pero en lugar de expresar las temperaturas en grados cent
grados (C)
39
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
lo hace en grados Fahrenheit (F) cuya relacin con los cent
o
grados
9
5
a
viene dada por C = 9 (F 32) ( F = 5 C + 32). Los clculos,
siempre haciendo una regresin pasando por el origen, ser ahora:
o
an
>
+
>
+
>
>
>
X
0.12265
Ahora el coeciente afectando a la variable temperatura es positivo, dando la impresin de una asociacin directa entre temperatuo
o
ra y velocidad de sedimentacin! Claramente, tenemos motivo para
o
preocuparnos si llegamos a conclusiones diferentes dependiendo de
nuestra eleccin de los sistemas de medida enteramente convencioo
nales ambos. El problema desaparece si incluimos una columna de
unos en ambos anlisis, para dar cuenta de los diferentes or
a
genes.
>
+
>
+
>
>
Intercept
3.80119
X
-0.20667
X
-0.11482
> ajuste$coefficients[2] *
+
(9/5)
X
-0.20667
40
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
Los coecientes de X no son ahora iguales (porque los grados
Fahrenheit son ms peque os), pero si relacionados por un factor
a
n
de escala y dar lugar a la misma conclusin de asociacin inversa
an
o
o
entre ambas magnitudes. La inversin del signo del coeciente se
o
explica comparando en la Figura 2.2 los puntos muestrales (en escalas
comparables) y las respectivas rectas de regresin. Dichas rectas de
o
regresin y las grcas se han generado mediante
o
a
>
+
+
>
>
+
>
+
>
>
>
>
+
>
>
>
>
>
>
+
>
>
>
>
postscript(file = "demo2d.eps",
horizontal = FALSE, width = 5,
height = 10)
par(mfcol = c(2, 1))
y <- c(5.8, 4.7, 4.9, 3.8,
2.1)
C <- c(-10, -6.2, -2.5, 3,
4.6)
ajuste <- lsfit(C, y, intercept = FALSE)
par(xlim = c(-25, 5))
par(ylim = c(-0.5, 6))
plot(C, y, ylim = c(-0.5,
6), xlim = c(-25, 5))
title(main = "Ajuste en grados centigrados")
abline(a = 0, b = ajuste$coefficients)
text(x = 0, y = 0, labels = "(0,0)")
F <- (9/5) * C + 32
ajuste <- lsfit(F, y, intercept = FALSE)
plot(F, y, ylim = c(-0.5,
6), xlim = c(-13, 41))
title(main = "Ajuste en grados Fahrenheit")
text(x = 0, y = 0, labels = "(0,0)")
abline(a = 0, b = ajuste$coefficients)
scratch <- dev.off()
Puede verse que el forzar a ambas a pasar por el origen las obliga
a tener pendiente de signo opuesto para aproximar la nube de puntos.
41
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
42
(0,0)
25
20
15
10
(0,0)
10
10
20
F
30
40
Cap
tulo 3
Uno de los que hemos llamado supuestos habituales (Seccin 1.3, pg. 5,
o
a
apartados 1 a 3) es que el rango de la matriz de diseo X coincide con
n
el nmero de sus columnas, p. Cuando sto no ocurre, sigue habiendo una
u
e
unica proyeccin de y sobre M = R(X), tal como ha quedado demostrado.
o
(Recurdese que R(X) designa el subespacio generado por las columnas de
e
o
nimo cuadrtica del vector . Se dice que
a
hay multicolinealidad exacta entre las columnas de la matriz de diseo X.
n
Una matriz de diseo de rango deciente es demasiado pobre para desn
lindar todos los efectos de inters: no podemos con la informacin disponible
e
o
deslindar la relacin de cada uno de los regresores con la variable respuesta,
o
pero puede ocurrir que si lo podamos deslindar con algunos. El Ejemplo 3.1
a continuacin lo ilustra.
o
43
CAP
ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
Figura 3.1: Regresin en el caso de matrix X de rango deciente.
o
X p1
X1
X0
1
1
1
1
2
2
4
4
2
2
3
5
.
7
8
4
o
o
X 1 . Podemos estimar 2 , pero no 0 1 : no es posible adscribir a
o
uno de ellos la parte de PM y colineal con la direccin com n de
o
u
X 0 y X 1.
Fin del ejemplo
44
CAP
ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
45
X2
X0
PM y
X1
3.2.
Funciones estimables.
vocamente
Incluso aunque el vector no sea estimable por no estar un
determinado, puede haber algunos parmetros o combinaciones lineales de
a
parmetros que s puedan estimarse.
a
Demostracion:
CAP
ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
a
= E[c Y ] = E[c (X + )] = c X
46
(3.1)
3.3.
Restricciones de identicacin.
o
(X X) = X y
Si contamos con informacin adicional sobre que podamos imponer sobre
o
(X X) = X y
A = c
(3.2)
(3.3)
CAP
ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
47
Ejemplo 3.2 Retomemos el Ejemplo 3.1. Vimos que era parcialmente estimable, y que el problema resid en que la componente
a
de PM y colineal con la direccin (com n) de X0 y X1 no puede ser
o
u
distribuida entre ambos. Si, no obstante, supiramos que 0 = 1, el
e
problema dejar de existir. Por tanto, A = 1 con
a
A= 1 0 0
es una restriccin de identicacin.
o
o
Fin del ejemplo
(3.4)
CAP
ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
> ajuste1 <- lsfit(X, y, intercept = FALSE)
> ajuste1$coefficients
X1
X2
X3
4.5116 5.4303 3.8234
> ajuste1$residuals
[1]
[6]
X1
0.68824
X2
1.60690
X3
0.00000
> ajuste2$residuals
[1]
[6]
48
CAP
ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
49
3.4.
La existencia de dependencia lineal exacta entre las columnas de la matriz de diseo X, es, como se ha visto, fruto habitualmente de una decisin
n
o
consciente. Escogemos un diseo de rango incompleto, pero lo suplemenn
tamos con restricciones de identicacin que solventan el problema de la
o
estimacin y dotan a los parmetros de la interpretacin que deseamos.
o
a
o
En la medida en que la matriz X sea de nuestra eleccin, siempre poo
demos eludir el problema. Si, por el contrario, no podemos disear nuestro
n
experimento y nos vemos obligados a utilizar unos datos X, y dados, puede ocurrir que la matriz X, aunque no precisamente de rango incompleto,
proporcione una matriz (X X) casi singular. Esto se traduce en dicultades numricas para resolver las ecuaciones normales, dicultades para
e
seleccionar un modelo adecuado, grandes varianzas de los estimadores y
otros inconvenientes a los que nos referiremos en el Cap
tulo 9.
3.5.
Lectura recomendada.
Pueden verse Seber (1977), Seccin 3.8, o Draper and Smith (1998),
o
Seccin 20.4, por ejemplo.
o
Cap
tulo 4
50
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
51
m y X
n
condicionado a: A = c
(4.1)
L(0 , . . . , p1) =
i=1
4.2.
Lemas auxiliares.
Demostracion:
x K(C) Cx = 0 x C = 0 x R(C )
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
52
Demostracion:
Para cualquier v H,
Ph v h M PM Ph v = Ph v
PM Ph = Ph
Demostracion:
Partimos de la identidad,
PM v = Ph v + (PM v Ph v)
en la que Ph v h M mientras que (PM v Ph v) M. Por otra parte,
< Ph v, (PM v Ph v) > = v Ph (PM v Ph v)
= v (Ph PM Ph )v
= 0,
la ultima igualdad en virtud del Lema 4.2. Por consiguiente, (PM Ph ),
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
4.3.
53
Estimacin condicionada.
o
(4.2)
= ,
(4.3)
= X + = y X = X X + = y = X +
= c = A( + ) = c = A = c A = A = 0
condicionado a
A = 0,
o, alternativamente,
m y X
n
condicionado a:
A(X X)1 X (X ) = 0.
(4.4)
o
a
anteriores.
Si denotamos por h las estimaciones m
X h = Ph y
= (PM PM h )
y
1
= [X(X X) X PM h ]
y
(4.5)
(4.6)
(4.7)
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
54
en que el paso de (4.5) a (4.6) ha hecho uso del Lema 4.3. Pero es que, de
acuerdo con el Lema 4.4,
M h = R[X(X X)1 X X(X X)1 A ] = R[X(X X)1 A ]
PM
(4.8)
1 1
= X X(X X) A [A(X X) A ] A ,
(4.9)
se deduce:
h = (X X)1 A [A(X X)1 A ]1 A .
(4.10)
nimo1 . Adems,
a
el tratamiento anterior se generaliza de modo inmediato al caso de modelos
de rango no completo, sin ms que reemplazar en los lugares procedentes
a
matrices inversas por las correspondientes inversas generalizadas.
En segundo lugar, dado que los estimadores m
nimo cuadrticos ordia
narios estiman insesgadamente los correspondientes parmetros, tomando
a
valor medio en (4.10) vemos que:
E[h ] = (X X)1 A [A(X X)1 A ]1 A
h =
=
=
=
(I G) (I G )
2
(I G) (X X)1 (I G )
2 [(X X)1 G(X X)1 (X X)1 G + G(X X)1 G ]
2 [(X X)1 G(X X)1 G ]
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
55
(4.11)
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
56
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
57
Complementos y ejercicios
4.1 Sea un espacio vectorial M cualquiera, de dimensin nita.
o
Comprubese que siempre existe una matriz C tal que M = K(C).
e
(Ayuda: considrese una matriz cuyas las fueran una base de M ).
e
4.2 ( 4.1) Prubese la igualdad (E.15), pg. 244.
e
a
4.3 Justif
quese el paso de (4.9) a (4.10).
4.4
El Ejemplo 4.1 se sale del marco conceptual en el que
nos movemos. Los regresores (K y L, log(K) y log(L) al linealizar la
o
funcin de produccin) no pueden ser jados por el experimentador:
o
o
dependen de los agentes econmicos. Estamos ante datos observados
o
en oposicin a datos experimentales. Faraway (2005), Sec. 3.8, cono
tiene una difana discusin de los problemas que ello conlleva. Es
a
o
tambin interesante, aunque de ms dif lectura, Wang (1993).
e
a
cil
4.5
X
+
A
y hagamos m
nimos cuadrados ordinarios con la muestra ampliada
(las las a adidas se denominan en ocasiones pseudo-observaciones).
n
La idea es que las las a adidas funcionan como observaciones y,
n
X
+ .
kA
(4.12)
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
58
4.6 ( 4.5)
Un caso particular de inters se presenta cuane
do en el problema anterior se toma A = I y c = 0 . Se dice entonces que estamos ante el estimador ridge de parmetro k. En 10.3,
a
pg. 139, abordamos su estudio y justicacin con detalle.
a
o
4.7 ( 4.5)
La estimacin de (4.12) haciendo uso de las
o
ecuaciones normales proporciona
= (X X + k2 A A)1 (X y + k2 A c ),
(4.13)
1
(y X ) (y X )
2
2
1
exp ( 0 ) 1 ( 0 )
0
2
1
= exp 2 (y X ) (y X )
2
f ( |y , 2 , 0 , 0 ) exp
2 ( 0 ) 1 ( 0 )
0
1
(2X (y X ) + 2 2 1 ( 0 ) = 0 ,
0
2
2
que proporciona
(X X + 2 1 ) X y 2 1 0 = 0 ,
0
0
y por tanto la moda de la distribucin a posteriori (que fcilmente
o
a
se comprueba es normal multivariante) es:
= (X X + 2 1 )1 (X y + 2 1 0 ).
0
0
(4.14)
CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
Comparando (4.14) con (4.13) vemos que son idnticas cuando kA =
e
1
59
Cap
tulo 5
Introduccin.
o
En lo que antecede hemos dado por supuesto que el modelo lineal que
se estima es el correcto, es decir, que la variable aleatoria Y efectivamente
se genera de la siguiente manera:
Y = 0 X0 + 1 X1 + . . . + p1 Xp1 + .
(5.1)
5.2.
Supongamos que
Y
= X +
60
(5.2)
CAP
ITULO 5. ESPECIFICACION INADECUADA DEL MODELO
61
= X + Z +
(5.3)
X X X Z
Z X Z Z
X
Y
Z
(5.4)
X
Z
X X X Z
Z X Z Z
X X X Z
+
Z X Z Z
0
X Z
1
+
0
X
.
Z
(5.5)
(5.6)
E[] = ,
E[ ] = 0.
(5.7)
(5.8)
X X X Z
Z X Z Z
(5.9)
CAP
ITULO 5. ESPECIFICACION INADECUADA DEL MODELO
62
Haciendo uso del Teorema A.3, pg. 221, vemos que el bloque que nos
a
2
interesa de (5.9) es multiplicado por
(X X)1 + (X X)1 X Z[Z Z Z X(X X)1 X Z]1 Z X(X X)1 .
Por simple inspeccin vemos que el segundo sumando es una matriz deo
nida no negativa2, y por tanto la expresin anterior tendr en su diagonal
o
a
principal elementos no menores que los de la diagonal principal de (X X)1 .
En consecuencia, la inclusin de regresores irrelevantes no disminuye, y en
o
general incrementa, las varianzas de los estimadores de los parmetros relea
vantes. No afecta sin embargo a su insesgadez.
De cuanto antecede se deduce que
Y X Z
(5.10)
X Z ,
(5.11)
es, bajo los supuestos habituales ms normalidad, una forma cuadrtica con
a
a
distribucin 2 2 (p+q) , en que p y q son respectivamente los rangos de X
o
N
y Z. La consecuencia que de ello nos interesa ahora es que
2 =
SSE
N (p + q)
(5.12)
k
adverso de la inclusin de los q regresores irrelevantes ha sido la prdida de
o
e
otros tantos grados de libertad.
2
Llamemos G a dicho segundo sumando. Para mostrar que es denida no negativa, basta ver que para cualquier a se verica a Ga 0. Pero a Ga = b (Z Z
o
Z X(X X)1 XZ)1 b con b = Z X(X X)1 a; ya slo tenemos que comprobar que
(Z Z Z X(X X)1 XZ)1 es denida no negativa, o equivalentemente que (Z Z
Z X(X X)1 XZ) lo es. Esto ultimo es inmediato: (Z Z Z X(X X)1 XZ) =
CAP
ITULO 5. ESPECIFICACION INADECUADA DEL MODELO
5.3.
63
.
.
n
Sea X = (X1 . X2 ) una matriz de diseo particionada en sendos bloques
.
de p y r columnas. Sea = ( 1 . 2 ) el correspondiente vector de p + r
.
parmetros. Consideremos el caso en que el modelo correcto es
a
Y
= X + = X1 1 + X2 2 + ,
(5.13)
= X1 1 + .
(5.14)
Estimar (5.14) es lo mismo que estimar (5.13) junto con las restricciones
h : 2 = 0, expresables as
:
0 0
0 I
1
2
0
0
(5.15)
inmediatas:
(h)
El estimador 1 obtenido en el modelo escaso (5.14) es, en general,
sesgado. El sesgo puede obtenerse haciendo uso de (4.11). Tenemos
as que
(h)
1
0
1 1
(X X) A [A(X X) A ] (A 0),
2
y en consecuencia
0
2
(5.16)
(p1)
X1 X1
0
0
X 2 X2
0 0
0 I
(5.17)
CAP
ITULO 5. ESPECIFICACION INADECUADA DEL MODELO
64
tiene sus primeras p las de ceros. Ello hace que el bloque considerado
en (5.16) est formado por ceros.
e
El estimador de la varianza de la perturbacin
o
(h)
(h)
(Y X1 1 ) (Y X1 1 )
SSE
=
=
N p
N p
2
(5.18)
5.4.
o
tulo 9.
Omitir regresores relevantes tiene consecuencias en general ms graves
a
(h)
1 en el
y que no se atenan al crecer el tamao muestral: el sesgo de
u
n
modelo escaso (5.14) no decrece hacia cero al crecer N.
En este cap
tulo hemos rastreado las consecuencias de dos posibles errores de especicacin puros: falta o sobra de regresores. En la prctica los
o
a
dos tipos de errores se pueden presentar conjuntamente y sus efectos se
combinan.
Conocidos los problemas de una mala especicacin se plantea el proo
blema de cmo lograr una buena. Esta cuestin se trata en el Cap
o
o
tulo 12.
Algunas tcnicas de anlisis grco de residuos que pueden ser de ayuda en
e
a
a
la especicacin de modelos se consideran en la Seccin 13.2.
o
o
Cap
tulo 6
Introduccin.
o
Demostracion:
Sea D la matriz diagonalizadora de A. Siendo A simtrica, D es una
e
matriz ortogonal cuyas columnas son vectores propios de A, vericndose:
a
D AD = , en que es una matriz en cuya diagonal principal aparecen los
valores propios de A. Como A es idempotente, es de la forma
r (n r)
I
0
,
0
0
El s
mbolo denotar en lo sucesivo que el lado izquierdo es una variable aleatoria
a
con la distribucin que especica el lado derecho.
o
65
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 6
6
Si hacemos el cambio de variable v = D u ( u = Dv), el nuevo vector
v sigue tambin una distribucin N(0, 2 I). Entonces,
e
o
u Au
v D ADv
v I 0 v
=
=
=
2
2
0 0
2
vi
.
2
i=1
(6.1)
Lema 6.2 Sea B una matriz simtrica nn y P una matriz simtrica ideme
e
potente del mismo orden y rango r. Sea u un vector aleatorio n-variante,
u N(0, 2 I), y supongamos que se verica BP = 0. Entonces, u Bu y
u P u son variables aleatorias independientes.
Demostracion:
Sea D la matriz diagonalizadora de P . Al igual que antes, denamos
v = D u, (lo que implica u = Dv). Tenemos que:
BP = 0 D BDD P D = 0
D BD
(6.2)
(6.3)
r (n r)
I
0
0
0
=0
(6.4)
(6.5)
(6.6)
Por tanto:
D BD =
r
(n r)
r (n r)
0
L12
0
L22
=0
(6.7)
u Bu = v D BDv = v
2
r (n r)
0
0
v
0
L22
(6.8)
El rec
proco es tambin cierto; vase en Searle (1971), Teorema 2, pag. 57 una
e
e
versin ms potente de este teorema.
o
a
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 7
6
Por otra parte:
u P u = v D P Dv = v
r (n r)
I
0
v
0
0
(6.9)
Demostracion:
Sea D la matriz que diagonaliza M. Al igual que antes, denamos v =
D u ( u = Dv). Como AM = 0, y D MD es una matriz diagonal con r
unos y (n r) ceros en la diagonal principal, se verica que
AM = ADD MD = 0 AD =
r
(n r)
0 |
L2
,
(6.10)
r
(n r)
0 |
L2
v.
(6.11)
Como
u Mu = v D MDv = v
r (n r)
I
0
v,
0
0
(6.12)
Podemos ahora, con ayuda de los Lemas precedentes, demostrar el siguiente resultado:
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 8
6
Teorema 6.1 Si Y = X + , N(0, 2 I), y X es de orden N p y
rango p, se verica:
1.
N( , 2 (X X)1 )
2.
( ) (X X)( ) 2 2
p
3.
(N p) 2 = SSE 2 2 p
4.
y 2 son variables aleatorias independientes.
Demostracion:
El apartado 1) es inmediato. Si se verican los supuestos habituales, fue
=
=
=
=
=
=
(Y X ) (Y X )
2
(Y X(X X)1 X Y ) (Y X(X X)1 X Y )
2
Y [I X(X X)1 X ]Y
2
(X + ) [I X(X X)1 X ](X + )
2
[I X(X X)1 X ]
2
M
2
2 p ,
N
(6.13)
(6.14)
(6.15)
(6.16)
(6.17)
(6.18)
(6.19)
= (X X)1 X Y ,
(6.20)
2 =
SSE
Y [I X(X X)1 X ]Y
=
.
N p
N p
(6.21)
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 9
6
1
+ (X X) X . La misma sustitucin en (6.21) muestra que
o
2 =
[I X(X X)1 X ]
.
N p
Como
(X X)1 X [I X(X X)1 X ] = 0,
el Lema 6.3, pg. 67, demuestra la independencia de las formas lineal y
a
cuadrtica anteriores y por tanto de (6.20) y (6.21).
a
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 0
7
> muestras <- 100
> b <- matrix(0, muestras, 3)
e iteremos, generando en cada pasada del bucle for un nuevo vector
de perturbaciones (mediante rnorm), un nuevo vector de valores de
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 1
7
10
0
Frecuencia absoluta
15
Histograma de beta1.tipif
beta1.tipif
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 2
7
1. En ocasiones no conocemos la distribucin terica de los estao
o
d
sticos de inters para muestras nitas. Todo lo que podemos
e
obtener tericamente es la distribucin asinttica (la distribuo
o
o
cin cuando el tama o muestral tiende a innito). En este caso,
o
n
la simulacin permite ver si la aproximacin asinttica es acepo
o
o
table para un cierto tama o muestral.
n
2. En otras ocasiones, ni siquiera la distribucin asinttica es obteo
o
nible anal
ticamente. Este es el caso ms frecuente en la prctia
a
ca. De nuevo el mtodo de Monte-Carlo proporciona un mtodo
e
e
para obtener aproximaciones a la distribucin de cualquier eso
tad
stico.
El uso del mtodo de Monte-Carlo reposa en la posibilidad de gee
nerar mediante un ordenador n meros aleatorios con la distribucin
u
o
que deseemos. En este ejemplo, se ha empleado rnorm para generar variables aleatorias normales. (R ofrece generadores de n meros
u
aleatorios de las distribuciones ms usuales, como casi cualquier otro
a
paquete estad
stico.)
Fin del ejemplo
6.2.
(6.22)
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 3
7
La forma de efectuar el contraste es la habitual. Se busca un estad
stico que bajo la hiptesis nula h siga una distribucin conocida; si el valor
o
o
obtenido en el muestreo de dicho estad
stico es raro de acuerdo con lo
esperable cuando h es cierta, rechazaremos la hiptesis nula. El estad
o
stico
de contraste y su distribucin se deducen del siguiente teorema:
o
(SSEh SSE)/q
Fq,N p
SSE/(N p)
en que q p es el rango de A.
Demostracion:
SSEh SSE
=
=
=
=
=
2
2
Y X h Y X
(6.23)
2
2
Y X + X X h Y X
(6.24)
2
2
2
Y X + X X h Y X
+2 < (Y X ), (X X h ) >
2
X X h
( h ) (X X)( h ).
(6.25)
(6.26)
(6.27)
(6.28)
Esto naliza la demostracin del primer apartado. Por otra parte, como
o
= + (X X)1 X ,
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 4
7
tenemos que, cuando se verica la hiptesis h,
o
(A c) = (A A ) = A(X X)1 X ,
resultado que llevado a (6.28) proporciona:
h
(6.29)
Esta expresin muestra que SSEh SSE es una forma cuadrtica en
o
a
variables normales (las ) de matriz G que fcilmente comprobamos es idema
potente. Por tanto, segn el Lema 6.1, pg. 65, SSEh SSE sigue una disu
a
2 2
tribucin q , con grados de libertad q iguales al rango de G (= rango(A)).
o
Tenemos adems (Teorema 6.1) que:
a
SSE = Y (I PM )Y 2 2 p
N
(6.30)
, la regin cr
o
tica estar formada por valores mayores que Fq,N p .
a
En efecto, son grandes discrepancias entre SSEh y SSE las que cabe
considerar evidencia contra h. Desde otro punto de vista, el apartado
1) del Teorema 6.2 muestra que el estad
stico tiene en su numerador
mx g(; y, X)
a
mx g(h ; y, X)
a
h
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 5
7
t = [A(X X)1 A ] 2 (A c ).
Ello permite calcular fcilmente la potencia de cualquier contraste
a
frente a alternativas prejadas, si se dispone de tablas o bacos de
a
la F de Snedecor no central. En R se dispone de la funcin pf que
o
admite un parmetro de no centralidad. Alternativamente, puede
a
estimarse la potencia por simulacin.
o
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 6
7
+
+
+
+
+
+
+
+
+
+ }
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 7
7
[1] 161.11
> result$p.value
[1] 0.0010548
Rechazar
amos por consiguiente la hiptesis contrastada para cualo
quier nivel de signicacin > 0.0010548.
o
Frecuentemente podemos obtener las sumas de cuadrados requeridas para el contraste de hiptesis de inters de manera ms simple.
o
e
a
En el caso que nos ocupa, si realmente 1 = 2 ,
Y = 0 X0 + 1 X1 + 2 X2 +
(6.31)
Y = 0 X0 + 1 (X1 + X2 ) +
(6.32)
es equivalente a
e
ms arriba:
a
> Qh
[1] 161.11
Esta tcnica de calcular las sumas de cuadrados SSE y SSEh en
e
dos regresiones ad-hoc puede ser muy frecuentemente utilizada. En el
caso frecuente de hiptesis de exclusin (alguno o varios betas iguales
o
o
a cero), puede obtenerse SSEh de una regresin en que los regresores
o
correspondientes estn ausentes. Si en nuestro ejemplo quisiramos
a
e
contrastar h : 1 = 2 = 0, podr
amos obtener SSE de la regresin
o
(6.31) y SSEh de la regresin
o
Y = 0 X0 + ,
para calcular el estad
stico Qh as
:
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 8
7
>
>
>
+
>
[1] 16956
El valor que dicho estad
stico Qh deja en a su derecha en la distribucin de referencia,
o
> 1 - pf(Qh, 2, nrow(X) - ncol(X))
[1] 8.3193e-07
permite rechazar contundentemente la hiptesis h : 1 = 2 = 0
o
contrastada.
Fin del ejemplo
o e
e
a
a partir de 0 ). En tal caso, Qh puede escribirse as
:
Qh =
(6.33)
1
de la diagonal principal de (X X) . Bajo la hiptesis h, (6.33) sigue una
o
1
2
2
distribucin F1,N p , y como (X X)ii = tenemos que:
o
i1
Qh =
i1
i1
F1,N p tN p
(6.34)
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 9
7
Rechazar h : i1 = 0 al nivel de signicacin si
o
i1
/2
> tN p .
i1
El estad
stico |i1 /i1 | recibe el nombre de estad
stico t o t-ratio.
De forma anloga se contrasta la hiptesis h : i1 = c.
a
o
SSEh =
i=1
(Yi Y )2
0
A = .
.
.
0
1
0
.
.
.
0
0
1
.
.
.
0
0
0
.
.
.
0
0
0
. = 0 | I
.
.
1
Qh =
(SST SSE)/(p 1)
SSE/(N p)
N p (SST SSE)
p1
SSE
N p
R2
p1
(1 R2 )
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 0
8
6.3.
= x .
la Y es: Y
Teorema 6.3 Se verica lo siguiente:
1.
E(Y Y ) = 0
2.
E(Y Y )2 = 2 (1 + x (X X)1 x )
Demostracion:
El apartado 1) se sigue inmediatamente de las ecuaciones (6.35) y (6.36)
a continuacin, consecuencia la primera de los supuestos habituales, y la
o
E(Y ) = E(x ) = x
(6.35)
(6.36)
E(Y Y )2 = E[x + x ]2
= E[x ( ) + ]2
(6.37)
(6.38)
= E[x ( )] + E[ ]
= E[x ( )( ) x ] + E[ ]2
2
= x x +
(6.39)
= x 2 (X X)1 x + 2
= 2 [1 + x (X X)1 x ]
(6.42)
(6.43)
(6.40)
(6.41)
o
de una observacin adicional, distinta de las que han servido para estimar
o
e independiente de ellas).
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 1
8
El examen de (6.43) muestra dos cosas. Una, que la varianza del error
de prediccin es mayor o igual que la varianza de la perturbacin (ya
o
o
1
que x (X X) x es una forma cuadrtica semidenida positiva). Esto es
a
lgico: es del todo impredecible, y, adems, la prediccin Y incorpora
o
a
o
6.4.
Lectura recomendada.
Sobre la teor
a. Pueden ser consultados los manuales repetidamente citados: Seber (1977), Cap. 4, Draper and Smith (1998) Cap. 8, Stapleton
(1995) Sec. 3.8, Pea (2002) Sec. 7.7 son unos cuantos.
n
Sobre generadores de nmeros aleatorios, pueden consultarse Knuth
u
(1968), Kennedy (1980), Lange (1998), Thisted (1988) y, en general, cualquier texto sobre computacin estad
o
stica.
Sobre el contraste razn generalizada de verosimilitudes, puede verse
o
Cox and Hinkley (1974) p. 313 y para su aplicacin al contraste de hiptesis
o
o
lineales generales, Stapleton (1995) Sec. 3.8.
Sobre la utilizacin de R. En el Ejemplo 4.1, pg. 55 y siguientes, se
o
a
han denido las funciones lscond y contraste.h por motivos didcticos.
a
En R hay funciones en varios paquetes que proporcionan anloga funcionalia
dad. Puede consultarse por ejemplo la documentacin de linear.hypothesis
o
(paquete car) y glh.test (paquete gmodels).
Por lo que hace a intervalos de conanza, que tambin pueden obtenerse
e
fcilmente de acuerdo con la teor esbozada en la Seccin 6.3, puede ser de
a
a
o
utilidad la funcin confint (paquete stats).
o
El empleo de dichas funciones, sin embargo, presupone familiaridad con
la funcin lm, que es objeto de atencin en el Cap
o
o
tulo 7 a continuacin.
o
CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 2
8
Complementos y ejercicios
6.1 Demustrese que si G es la matriz denida en (6.29) con A
e
y (X X) ambas de rango completo, entonces rango(G) = rango(A).
Cap
tulo 7
funcin lm y algunas otras, para ilustrar tanto los conceptos tericos ado
o
quiridos como la potencia del entorno de modelizacin proporcionado por
o
R.
Este cap
tulo es eminentemente prctico y puede ser omitido sin prdida
a
e
de continuidad por lectores que no estn interesados en utilizar R como
e
herramienta de clculo.
a
7.1.
CAP
ITULO 7. REGRESION CON R
84
esencial con las variables nominales es que hay una ordenacin entre los diso
tintos niveles: cada una de las categor en el orden en que se hay escrito
as
implica ms estudios que la categor precedente. No hab en cambio, en
a
a
a,
el ejemplo anterior una ordenacin natural entre las zonas geogrcas.
o
a
Las variables que hemos denominado numricas pueden en principio
e
ponerse en correspondencia con un intervalo de nmeros reales. Ser el caso
u
a
de variables como Peso Temperatura (aunque en la prctica el nmero
o
a
u
de estados que pueden tomar es nito a causa de la precisin tambin nita
o
e
de los instrumentos de medida que empleamos).
En cierto sentido, los tres tipos de variables, en el orden en que se han
descrito, reejan una mayor nura o contenido informativo: una variable numrica puede convertirse en ordinal jando intervalos: por ejemplo, Teme
peratura podr convertirse en una variable ordinal con niveles Fr
a
o,
Templado y Caliente, al precio de un cierto sacricio de informacin:
o
dos temperaturas de, por ejemplo, 80C y 93C podr ambas convertirse
an
en Caliente, perdindose la informacin de que la segunda es superior a
e
o
la primera.
Anlogamente, una variable ordinal puede tratarse como nominal, haa
ciendo abstraccin de su orden, tambin al precio de sacricar cierta inforo
e
macin.
o
Observacin 7.1 En general, no interesar degradar una vao
a
riable tratndola como un tipo inferior, aunque en algunos casos,
a
puede convenirnos hacerlo. Por ejemplo, si examinamos la inuencia
de la renta sobre el consumo de un cierto bien en una muestra de
familias, medir la renta en euros da al coeciente asociado la interpretacin de Incremento de consumo asociado a un incremento
o
de renta de un euro. T
picamente, tendr un valor muy peque o.
a
n
Adems, el suponer una dependencia lineal del consumo sobre la rena
ta ser en la mayor de los casos poco realista. En tal caso, podr
a
a
a
convenirnos redenir la variable renta en categor
as. Los coecientes estimados sern ms fcilmente interpretables, y tendremos un
a
a a
modelo ms exible, que no fuerza una relacin lineal entre renta
a
o
y consumo. (Adicionalmente, si la variable se obtiene por encuestacin, los sujetos podr ser ms veraces al encuadrarse en intervalos
o
an
a
amplios de renta que al responder directamente sobre su valor.)
CAP
ITULO 7. REGRESION CON R
7.2.
85
Factores y dataframes.
"Africa"
> Zona
[1] Europa Europa Asia
Africa America
[6] Oceana Asia
CAP
ITULO 7. REGRESION CON R
86
> str(Zona)
Factor w/ 5 levels "Africa","America",..: 4 4 3 1 2 5 3
Un factor tiene denidos niveles, en tanto una cadena de caracteres
no:
> levels(Zona.chr)
NULL
> levels(Zona)
[1] "Africa" "America" "Asia"
[5] "Oceana"
"Europa"
CAP
ITULO 7. REGRESION CON R
87
CAP
ITULO 7. REGRESION CON R
88
Zona
Estudios Ingresos Mortalidad
Europa Superiores
13456
0.003
Europa
Medios
12345
0.004
Asia
Medios
3456
0.010
Africa Primarios
1234
0.020
America
Ningunos
6789
0.006
Oceana
Medios
4567
0.005
Asia Primarios
2300
0.015
> str(Datos)
data.frame:
$ Zona
:
$ Estudios :
$ Ingresos :
$ Mortalidad:
7 obs. of 4 variables:
Factor w/ 5 levels "Asia","Africa",..: 4 4 1 2 3 5 1
Ord.factor w/ 4 levels "Ningunos"<"Primarios"<..: 4 3 3 2 1 3 2
num 13456 12345 3456 1234 6789 ...
num 0.003 0.004 0.01 0.02 0.006 0.005 0.015
3456
1234
6789
4567
2300
3456
1234
6789
4567
2300
6789
4567
2300
> Datos[[3]]
[1] 13456 12345
3456
1234
CAP
ITULO 7. REGRESION CON R
89
Estudios Ingresos
Medios
3456
CAP
ITULO 7. REGRESION CON R
90
7.3.
Frmulas
o
(Intercept) Ingresos
1
13456
1
12345
1
3456
1
1234
CAP
ITULO 7. REGRESION CON R
5
1
6
1
7
1
attr(,"assign")
[1] 0 1
6789
4567
2300
91
CAP
ITULO 7. REGRESION CON R
92
Fin del ejemplo
0
0.67082
0.5
0.22361
0
0.22361
-0.5
-0.67082
0
0.22361
-0.5
-0.67082
0
-0.22361
-0.5
0.67082
0
-0.67082
0.5
-0.22361
1
0.22361
-0.5
-0.67082
0
-0.22361
-0.5
0.67082
Ingresos
13456
12345
3456
1234
6789
4567
2300
CAP
ITULO 7. REGRESION CON R
attr(,"assign")
[1] 0 1 1 1 1 2 2 2 3
attr(,"contrasts")
attr(,"contrasts")$Zona
[1] "contr.treatment"
attr(,"contrasts")$Estudios
[1] "contr.poly"
La variable Ingresos (numrica) ha sido dejada tal cual. La variae
ble Zona es cualitativa nominal, y requiere ser desglosada en tantas
columnas como niveles tiene (as el asociado a cada columna re,
coge el efecto del correspondiente nivel). Eso es lo que ha hecho
model.matrix, salvo que se ha omitido uno de los niveles (el primero) para evitar la multicolinealidad exacta que se hubiera producido
de otro modo. El nivel omitido (Asia) pasa as a formar parte del
93
CAP
ITULO 7. REGRESION CON R
94
CAP
ITULO 7. REGRESION CON R
95
0.6
L
Q
0.2
0.0
0.2
0.4
Estudios.{L,Q,C}
0.4
0.6
L
1
C
2
CAP
ITULO 7. REGRESION CON R
Estudios.Q
Estudios.C
0
0
96
1
0
0
1
CAP
ITULO 7. REGRESION CON R
97
> contr.poly(NivelEstudios)
.L
.Q
.C
[1,] -0.67082 0.5 -0.22361
[2,] -0.22361 -0.5 0.67082
[3,] 0.22361 -0.5 -0.67082
[4,] 0.67082 0.5 0.22361
Obsrvese que mientras contrasts se invoca tomando como argue
mento un factor, las funciones contr.sum y similares toman como
argumento el vector de niveles de un factor.
7.4.
La funcin lm.
o
CAP
ITULO 7. REGRESION CON R
98
del libro Venables and Ripley (1999b)) que hemos de cargar (mediante una instruccin library(MASS)). Tras hacerlo, podemos obtener
o
informacin detallada sobre los datos tecleando help(UScrime).
o
> library(MASS)
> UScrime[1:3, 1:5]
M So Ed Po1 Po2
1 151 1 91 58 56
2 143 0 113 103 95
3 142 1 89 45 44
> str(UScrime)
data.frame:
$ M
: int
$ So : int
$ Ed : int
$ Po1 : int
$ Po2 : int
$ LF : int
$ M.F : int
$ Pop : int
$ NW : int
$ U1 : int
$ U2 : int
$ GDP : int
$ Ineq: int
$ Prob: num
$ Time: num
$ y
: int
47 obs. of 16 variables:
151 143 142 136 141 121 127 131 157 140 ...
1 0 1 0 0 0 1 1 1 0 ...
91 113 89 121 121 110 111 109 90 118 ...
58 103 45 149 109 118 82 115 65 71 ...
56 95 44 141 101 115 79 109 62 68 ...
510 583 533 577 591 547 519 542 553 632 ...
950 1012 969 994 985 964 982 969 955 1029 ...
33 13 18 157 18 25 4 50 39 7 ...
301 102 219 80 30 44 139 179 286 15 ...
108 96 94 102 91 84 97 79 81 100 ...
41 36 33 39 20 29 38 35 28 24 ...
394 557 318 673 578 689 620 472 421 526 ...
261 194 250 167 174 126 168 206 239 174 ...
0.0846 0.0296 0.0834 0.0158 0.0414 ...
26.2 25.3 24.3 29.9 21.3 ...
791 1635 578 1969 1234 682 963 1555 856 705 ...
No se arma que el modelo que ensayamos sea el mejor en ning n sentido: es slo
u
o
una ilustracin. El Cap
o
tulo 12 abordar la cuestin de cmo seleccionar modelos.
a
o
o
CAP
ITULO 7. REGRESION CON R
99
Ineq
-1.58
Prob
-8698.46
3Q
Max
82.5 1057.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1538.36
345.84
4.45
6e-05
Ineq
-1.58
1.95
-0.81
0.4220
Prob
-8698.46
2725.42
-3.19
0.0026
So
242.99
169.48
1.43
0.1589
(Intercept) ***
Ineq
Prob
**
So
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 353 on 43 degrees of freedom
Multiple R-squared: 0.22,
Adjusted R-squared: 0.166
F-statistic: 4.05 on 3 and 43 DF, p-value: 0.0127
CAP
ITULO 7. REGRESION CON R
Desmenucemos la salida anterior. Se imprime, en primer lugar, el
modelo ajustado y unos estad
sticos sobre los residuos (m
nimo, ma
ximo y cuartiles, es decir, valores dejando a su izquierda el 25 %,
50 % y 75 % de los residuos; el segundo cuartil es la mediana). A continuacin, tenemos un estadillo proporcionando para cada regresor
o
mencionado al margen:
1. Su i (bajo Estimate).
2. Su i (bajo Std. Error).
3. Su estad
stico t,
i
i
(bajo t value).
4. La probabilidad bajo la hiptesis nula H0 : i = 0 de obtener un
o
valor del estad
stico t tan o ms alejado de cero que el obtenido
a
(bajo Pr(>|t|)).
A continuacin tenemos
o
SSE
,
N p
"residuals"
"rank"
"assign"
"df.residual"
"call"
"model"
100
CAP
ITULO 7. REGRESION CON R
Podemos referirnos a los componentes de fit y emplearlos en clculos
a
subsiguientes. Por ejemplo, para obtener la suma de cuadrados de los
residuos, SSE, podr
amos hacer:
> SSE <- sum(fit$residuals^2)
> SSE
[1] 5363970
El estadillo anterior suger que el regresor Prob era muy signicativo,
a
en tanto los restantes no lo eran. Podemos contrastar la hiptesis
o
H0 : Ineq = So = 0 del modo sugerido al nal del Ejemplo 6.2,
pg. 77: ajustamos una segunda regresin eliminando los regresores
a
o
Ineq y So,
> fit.h <- lm(y ~ Prob, data = UScrime)
calculamos la suma de cuadrados de sus residuos,
> SSE.h <- sum(fit.h$residuals^2)
y a continuacin el estad
o
stico Qh asociado a la hiptesis y los grados
o
de libertad del mismo:
>
>
>
>
>
N <- nrow(UScrime)
q <- 2
p <- 4
Qh <- ((SSE.h - SSE)/q)/(SSE/(N - p))
Qh
[1] 1.0417
La probabilidad que el valor 1.0417 del estad
stico deja en la cola a
su derecha es
> 1 - pf(Qh, q, N - p)
[1] 0.3616
lo que sugiere que podemos prescindir de dichos dos regresores.
La instruccin anova proporciona una descomposicin de la suma
o
o
de cuadrados de los residuos correpondiente a cada regresor cuando
se introducen en el orden dado. Comprese por ejemplo,
a
101
CAP
ITULO 7. REGRESION CON R
102
> anova(fit)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
Ineq
1 220530 220530
1.77 0.1907
Prob
1 1040010 1040010
8.34 0.0061 **
So
1 256417 256417
2.06 0.1589
Residuals 43 5363970 124743
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
con:
> fit2 <- lm(y ~ Prob + Ineq + So, data = UScrime)
> anova(fit2)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
Prob
1 1257075 1257075
10.08 0.0028 **
Ineq
1
3466
3466
0.03 0.8684
So
1 256417 256417
2.06 0.1589
Residuals 43 5363970 124743
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Fin del ejemplo
CAP
ITULO 7. REGRESION CON R
103
3Q
Max
124.3 1059.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1212.4
134.8
8.99 2.4e-11
Prob
-9013.8
2717.7
-3.32
0.0019
Ineq.L
-143.2
132.7
-1.08
0.2866
Ineq.Q
-10.6
110.4
-0.10
0.9238
SoSur
284.8
184.3
1.55
0.1298
(Intercept) ***
Prob
**
Ineq.L
Ineq.Q
SoSur
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 355 on 42 degrees of freedom
Multiple R-squared: 0.232,
Adjusted R-squared: 0.159
F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229
CAP
ITULO 7. REGRESION CON R
104
3Q
Max
124.3 1059.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1354.7
151.0
8.97 2.6e-11
Prob
-9013.8
2717.7
-3.32
0.0019
Ineq.L
-143.2
132.7
-1.08
0.2866
Ineq.Q
-10.6
110.4
-0.10
0.9238
So1
-142.4
92.1
-1.55
0.1298
(Intercept) ***
Prob
**
Ineq.L
Ineq.Q
So1
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 355 on 42 degrees of freedom
Multiple R-squared: 0.232,
Adjusted R-squared: 0.159
F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229
(Vase la Observacin 7.3.) Vemos un slo regresor asociado a So1, el
e
o
o
primer nivel de So; el asociado al segundo nivel es su opuesto, ya que
contr.sum fuerza los coecientes asociados a un regresor nominal a
sumar cero.
CAP
ITULO 7. REGRESION CON R
105
7.5.
Lectura recomendada.
Sobre R. Son ya bastantes las obras que es posible consultar sobre la utilizacin de R como herramienta para los clculos que requiere la regresin
o
a
o
lineal. Una excelente referencia es Venables and Ripley (1999a). Exclusivamente orientado a modelos lineales es Faraway (2005).
Cap
tulo 8
Inferencia simultnea.
a
8.1.
106
CAP
ITULO 8. INFERENCIA SIMULTANEA.
107
CAP
ITULO 8. INFERENCIA SIMULTANEA.
108
1
32
635000
5,804527 10955771 .
(8.1)
CAP
ITULO 8. INFERENCIA SIMULTANEA.
109
p0 = (1 p)10
1
= 1
32
0,0030138,
955770
635000 10
CAP
ITULO 8. INFERENCIA SIMULTANEA.
110
= 0 X 0 + 1 X 1 + . . . + 99 X 99 + .
(8.2)
CAP
ITULO 8. INFERENCIA SIMULTANEA.
111
El problema de inferencias distorsionadas es grave y muchas veces indetectable. Pensemos en el investigador que hace multitud de regresiones,
quiz miles, a cul ms descabellada. Por puro azar, encuentra una pocas
a
a a
culo y lo publica. Si el experimento es recon R2 muy alto, escribe un art
producible, cabe esperar que otros investigadores tratarn de replicarlo y, al
a
2
no lograrlo el R alto era casualidad, la supercher quedar al descua
a
bierto. Pero si la investigacin versa sobre, por ejemplo, Ciencias Sociales,
o
en que con frecuencia una y slo una muestra est disponible, todo lo que
o
a
sus colegas podrn hacer es reproducir sus resultados con la unica muestra
a
8.2.
Desigualdad de Bonferroni.
Consideremos k sucesos, Ei , (i = 1, . . . , k), cada uno de ellos con probabilidad (1 ). Designamos por E i el complementario del suceso Ei . La
probabilidad de que todos los sucesos Ei , (i = 1, . . . , k) acaezcan simulta
neamente es:
CAP
ITULO 8. INFERENCIA SIMULTANEA.
112
E1 : [(1 1 tN p )
.
.
.
/2
Ek : [(k t
)
k N p
cubre 1 ]
(8.4)
(8.5)
cubre k ]
(8.6)
8.3.
CAP
ITULO 8. INFERENCIA SIMULTANEA.
113
a
i
u = 1
Prob
k,n
ai
i=1
k
(8.7)
Es claro que ai /ai (i = 1, . . . , k) no son independientes. Sin embargo, la distribucin aludida del mximo valor absoluto de k variables t de
o
a
Student est tambin tabulada cuando dichas variables tienen correlacin
a
e
o
por pares. (Esto sucede en algunos casos particulares, como el de ciertos
diseos de Anlisis de Varianza equilibrados: la correlacin entre parejas
n
a
o
de t-ratios es la misma, y fcil de calcular.)
a
An cuando la correlacin por pares de t-ratios no sea siempre la
u
o
misma, (8.7) es de utilidad. Suministra intervalos simultneos de conanza
a
aproximada 1 . En caso de que conozcamos , podemos emplear la expresin (8.7) con u reemplazado por u , extra ste ultimo de la tabla
o
do e
k,n
k,n,
correspondiente; en caso de que no conozcamos , o sta no sea constante,
e
podemos utilizar u
k,n,=0 , lo que hace en general los intervalos calculados
con ayuda de (8.7) conservadores (es decir, la probabilidad conjunta en el
lado izquierdo de (8.7) es mayor que 1 ).
Es importante sealar que, si nuestro objetivo es contrastar una hiptesis
n
o
del tipo h : A = c con rango(A) > 1, tenemos que emplear un contraste
como el descrito en la Seccin 6.2, pg. 72. El comparar cada una de las
o
a
/2
CAP
ITULO 8. INFERENCIA SIMULTANEA.
114
u
o
(ai ci )/ai (i = 1, . . . , k) con u (k = nmero de las de A). N
k,n
tese que es perfectamente posible rechazar la hiptesis conjunta y no poder
o
rechazar ninguna de las hiptesis parciales correspondientes a las las de A.
o
8.4.
Mtodo S de Sche.
e
e
sup
c=0
[c b]
c Lc
b L1 b
(8.8)
Demostracion:
Siendo L denida positiva, existe una matriz R cuadrada no singular tal
que: L = RR . Si denimos:
v = R c
(8.9)
(8.10)
u = R b
y tenemos en cuenta que por la desigualdad de Schwarz,
< u, v >2
u 2 v 2
(8.11)
a1
a
A= 2
ak
c1
c
c= 2
ck
(8.12)
CAP
ITULO 8. INFERENCIA SIMULTANEA.
115
(A c) [A(X X)1 A ]1 (A c)
Fq,N p
q 2
(8.13)
siendo q = m
n(d, p), en que d = rango A y p = rango (X X). Las
inversas pueden ser inversas generalizadas, si los rangos de las matrices as
lo exigen.
1 =
(8.15)
Prob ( c ) L1 ( c ) q 2 Fq,N p
c
c
1 =
=
Prob sup
h =0
Prob
h =0
[h ( c )]
c
q 2 Fq,N p
Lh
h ( c )
c
h
Lh
1
2
1
2
(q Fq,N p ) 2
(8.16)
(8.17)
(8.18)
h Lh
Por consiguiente, cuantos intervalos para h c construyamos de la forma:
h c
(h Lh )(q 2 Fq,N p )
(8.19)
CAP
ITULO 8. INFERENCIA SIMULTANEA.
(h (X X)1 h )(p 2 Fp,N p)
116
(8.20)
CAP
ITULO 8. INFERENCIA SIMULTANEA.
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
p <- ncol(X)
N <- nrow(X)
A <- cbind(1, diag(-1, p - 1))
A
[1,]
[2,]
[3,]
[4,]
117
CAP
ITULO 8. INFERENCIA SIMULTANEA.
> A <- t(contrasts(as.factor(1:5)))
> A
[1,]
[2,]
[3,]
[4,]
1
1
0
0
0
2
0
1
0
0
3
0
0
1
0
4
0
0
0
1
5
-1
-1
-1
-1
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
118
CAP
ITULO 8. INFERENCIA SIMULTANEA.
119
comp.
comp.
comp.
comp.
comp.
comp.
comp.
comp.
comp.
comp.
1
1
1
1
0
0
0
0
0
0
-1 0 0 0
0 -1 0 0
0 0 -1 0
0 0 0 -1
1 -1 0 0
1 0 -1 0
1 0 0 -1
0 1 -1 0
0 1 0 -1
0 0 1 -1
es:
es:
es:
es:
es:
es:
es:
es:
es:
es:
(
(
(
(
(
(
(
(
(
(
-1.0463 , -0.94141 ) *
-1.0631 , -0.95825 ) *
-2.0886 , -1.9837 ) *
-2.067 , -1.9622 ) *
-0.069268 , 0.035591 )
-1.0947 , -0.98989 ) *
-1.0732 , -0.96834 ) *
-1.0779 , -0.97305 ) *
-1.0564 , -0.9515 ) *
-0.030881 , 0.073979 )
8.5.
7.4.
Puede consultarse tambin Trocniz (1987a) Cap. 5 y Cox and Hinkley (1974), Sec.
e
o
CAP
ITULO 8. INFERENCIA SIMULTANEA.
120
CAP
ITULO 8. INFERENCIA SIMULTANEA.
Complementos y ejercicios
8.1 Un investigador sospecha que la concentracin de una too
xina en la sangre puede estar relacionada con la ingesta de alg n
u
tipo de alimento. Realiza un completo estudio en que para N = 500
sujetos mide la concentracin de dicha toxina y las cantidades consuo
midas de 200 diferentes tipos de alimento. Cree razonable proponer
como modelo explicativo,
Y
= 0 + 1 X1 + . . . + 200 X200 + .
Calcular el estad
stico Qh para la hiptesis H0 : 1 , . . . , 200 = 0
o
y comparar con F200,500201; .
8.2 Preocupado por el posible impacto de las antenas de telefon mvil sobre la salud de los ni os, un pol
a o
n
tico solicita un listado
completo de las 15320 escuelas del pa a menos de 500 metros de
s
una antena. Investiga la probabilidad de contraer leucemia y la probabilidad de que por puro azar se presenten los casos de leucemia
que se han registrado en dichas escuelas.
Aparece un caso llamativo: en la escuela X con 650 ni os hay
n
tres que han contraido la enfermedad, lo que, de acuerdo con los
clculos realizados por nuestro pol
a
tico, asistido por un epidemilogo,
o
acontecer por azar con probabilidad 0,0003. Al d siguiente acude
a
a
al Parlamento y pide la dimisin del Ministro de Sanidad: Hay
o
dice evidencia concluyente de que las antenas de telefon mvil
a o
inuyen en la prevalencia de la leucemia entre la poblacin infantil.
o
Un evento como el registrado en la escuela X slo se presentar por
o
a
azar con probabilidad 0,0003. Comenta.
121
Cap
tulo 9
Multicolinealidad.
9.1.
Introduccin.
o
o
amos
entonces que el vector de parmetros no estaba identicado.
a
Este Cap
tulo1 analiza esta cuestin con mayor detalle. En particular,
o
aborda las siguientes cuestiones:
1. Es estimable una cierta combinacin lineal c de los parmetros?
o
a
a
o
e
2. Si c es estimable, cul es la varianza de la estimacin?. De qu depende la precisin con que pueden estimarse distintas combinaciones
o
lineales de los parmetros?
a
3. Cmo escoger la matriz de diseo X u observaciones adicionales
o
n
a la misma si el objetivo es estimar determinadas combinaciones
lineales c con varianza m
nima?
Responder a la primera requiere que caractericemos las formas lineales
estimables. Ntese que cuando c es un vector de ceros con un 1 en una
o
unica posicin, la primera cuestin incluye, como caso particular, la de si
o
o
un parmetro concreto es estimable.
a
La segunda cuestin introducir la idea de multicolinealidad aproximada.
o
a
Mientras que desde un punto de vista formal la matriz de diseo es de rango
n
deciente o no lo es, en la prctica interesa distinguir aqullas situaciones
a
e
en que la matriz de diseo es de rango casi deciente. Cuando esto ocurra,
n
1
122
CAP
ITULO 9. MULTICOLINEALIDAD.
123
9.2.
5,3
1,9
X0 =
2,65
0,95
X1 =
1,325
0,475
(9.1)
PM y = 0 X0 + 1 X1
(9.2)
hecho, cualesquiera
o
CAP
ITULO 9. MULTICOLINEALIDAD.
124
X0
X1
PM y
X0
X1
PM y
CAP
ITULO 9. MULTICOLINEALIDAD.
125
5,3
1,9
X0 =
2,75
0,75
X1 =
1,525
;
0,675
(9.3)
5,4
1,8
X0 =
2,75
0,75
X1 =
1,525
0,675
(9.4)
tendr
amos que la solucin unica ser PM y = 1,263X0 +1,2632X1 . Una peo
a
quea perturbacin en PM y ha originado un cambio drstico en los valores
n
o
a
de los estimadores.
Si examinamos el panel inferior de la Figura 9.1, podemos entender
fcilmente lo que sucede: los regresores son linealmente independientes y
a
generan el plano horizontal, pero tienen una colinealidad acusada. Un leve
cambio en la posicin de PM y hace que sea mucho ms colineal con un
o
a
regresor que con otro, y provoca una drstica modicacin en los valores de
a
o
0 y 1 .
Tenemos as que si en situaciones de multicolinealidad exacta los par
a
metros (o algunos de entre ellos) son radicalmente inestimables, cuando el
rango de la matrix X es completo, pero algunas de sus columnas son acusadamente colineales, la estimacin es posible, pero imprecisa. Decimos que
o
estamos ante una situacin de multicolinealidad aproximada.
o
La multicolinealidad aproximada es, en esencia, una matriz de diseo
n
pobre, que no permite deslindar con precisin el efecto de cada regresor
o
sobre la variable respuesta. Es una situacin muy frecuente en la prctica,
o
a
a medio camino entre la multicolinealidad exacta y la ortogonalidad entre
los regresores. La Seccin que sigue detalla algunos s
o
ntomas que permiten
percibir su existencia.
9.3.
CAP
ITULO 9. MULTICOLINEALIDAD.
126
VIF(i) =
1
;
1 R2 (i)
(9.5)
valores de VIF(i) mayores que 10 (equivalentes a R2 (i) > 0,90) se consideran indicativos de multicolinealidad afectando a X i junto a alguna de las
restantes columnas de X.
Observacin 9.1 El nombre de factores de incremento de
o
varianza tiene la siguiente motivacin. Supongamos que X tiene
o
CAP
ITULO 9. MULTICOLINEALIDAD.
127
i de la matriz (X X)1 .
Si X tuviera sus columnas ortogonales, (X X) (y por tanto
9.4.
Teorema 9.1 La forma lineal c es estimable si, y solo si, c es una combinacin lineal de los vectores propios de X X asociados a valores propios
o
no nulos.
Demostracion:
Observemos que el enunciado no es sino una parfrasis del Teorema 3.1,
a
pg. 45. La siguiente cadena de implicaciones, que puede recorrerse en ambas
a
direcciones, establece la demostracin.
o
c estimable
d : c = E[d Y ]
(9.6)
(9.7)
c = d X
(9.8)
c = d X
c = X d
c R(X )
c R(X X)
c = 1 v1 + + pj vpj
(9.9)
(9.10)
(9.11)
(9.12)
CAP
ITULO 9. MULTICOLINEALIDAD.
128
equivalencia entre (9.11) y (9.12) hace uso del hecho de que los vectores
propios de R(X X) asociados a valores propios no nulos generan R(X X).
zadora de X X, y denamos:
Z = XV
(9.13)
= V
(9.14)
(9.15)
(9.16)
siendo una matriz cuya diagonal principal contiene los valores propios de
X X. Sin prdida de generalidad los supondremos ordenados de forma que
e
los p j primeros s son no nulos, y los restantes j son cero: p = p1 =
= pj+1 = 0.
Observemos que de (9.14) se deduce, dado que V es ortogonal, que
= V . Por consiguiente, es equivalente el problema de estimar al de
estimar , pues el conocimiento de un vector permite con facilidad recuperar
el otro. Las ecuaciones normales al estimar son:
(Z Z) = = Z y
(9.17)
o en forma desarrollada:
1 0
0
2
.
.
.
.
.
.
0
0
0 0
.
.
.
.
.
.
0
...
...
..
.
0
0
.
.
.
... 0
. . . 0
.
.
. . . .
. . . pj . . .
...
0
...
.
..
.
.
.
...
0
...
0 = Z y
.
.
.
0
(9.18)
CAP
ITULO 9. MULTICOLINEALIDAD.
129
1/i , (i = 1, . . . , p j).
Consideremos una forma lineal cualquiera c . Tenemos que:
c = c V V = (c V ) = (V c )
(9.19)
c vp
c vp1
.
.
.
c vpj+1
(9.20)
(9.21)
(9.22)
(9.23)
o
Para que c sea estimable, c debe poder escribirse como combinacin
(9.24)
CAP
ITULO 9. MULTICOLINEALIDAD.
9.5.
130
vi (X X) = vi X Y
i vi = vi X Y
y tomando varianzas a ambos lados:
2 var(vi ) = var(vi X Y )
i
= vi X 2 IXvi
= vi X Xvi 2
= i 2
(9.25)
var(vi ) =
2
i
(9.26)
cov(vi , vj ) = vi vj
=
=
=
=
vi (X X)1 vj 2
vi j 1 vj 2
2 j 1 vi vj
0
(9.27)
var(c ) =
var[(1 v1 + + pj vpj ) ]
2
2
= 1 var(v1 ) + + pj var(vpj )
2
= 1
= 2
2
2
2
+ + pj
1
pj
2
2
1
+ + pj
1
pj
(9.28)
CAP
ITULO 9. MULTICOLINEALIDAD.
131
res propios de X X son exactamente cero. Es claro que si todos los valores
propios son mayores que cero, todas las formas lineales sern estimables,
a
con varianza:
var(c ) =
var[(1 v1 + + pj vpj ) ]
2
2
= 1 var(v1 ) + + p var(vp )
2
= 1
= 2
9.6.
2
2
2
+ + p
1
p
2
2
1
++ p
1
p
(9.29)
(9.30)
CAP
ITULO 9. MULTICOLINEALIDAD.
132
(9.31)
N+1 = (X X + xN +1 xN +1 )
2
c N = 2 c (X X)1 c
(9.32)
(9.33)
2
c N+1 = 2 c (X X + xN +1 xN +1 )1 c
(9.34)
Entonces,
2
2
c N c N+1 = 2 c [(X X)1 (X X + xN +1 xN +1 )1 ]c
(9.35)
(9.36)
(9.37)
(9.38)
= 2 a [D 1 V (X X + xN +1 xN +1 )1 V ]a
= 2 a [D 1 (V (X X + xN +1 xN +1 )V )1 ]a
= 2 a [D 1 (D + z z )1 ]a
(9.39)
D 1 z z D 1
1 + z D 1 z
(9.40)
2
c N+1
= a
= 2
D 1 z z D 1
a
1 + z D 1 z
ai zi
i
i
2
zi
1+
i i
(9.41)
(9.42)
CAP
ITULO 9. MULTICOLINEALIDAD.
133
(z ) = 2
ai zi
i
i
2
zi
1+
i i
2
zi K 2
(9.43)
ai zi ai
1+
i i
2
zi
i
2
zi
1+
i
ai zi
i
zi
i
zi = 0
(9.44)
Denominando:
A =
i
B =
ai zi
i
1+
i
(9.45)
2
zi
i
(9.46)
2 =0
2
i B i B
(9.47)
A2 2
K 2B 2
(9.48)
2 2 zi = 0
i B i B 2 K B
zi
5
1
1
+ 2
i K
B ai
A i
(i = 1, . . . , p)
(i = 1, . . . , p)
(9.49)
(9.50)
CAP
ITULO 9. MULTICOLINEALIDAD.
134
o sea:
zi
ai
1 + 1
i
K2
ai
1 + Ki
2
(9.51)
(9.52)
c ser:
a
xN +1 =
(por (9.52))
=
(por (9.36)) =
=
=
Vz
V (I + K 2 D)1 a
V (I + K 2 D)1 V V a
V (I + K 2 D)1 V c
[V (I + K 2 D)V ]1 c
[I + K 2 (X X)]1 c
o
que es lgico que as sea. Si 2 es ja, es claro que siempre preferiremos las
o
(9.53)
CAP
ITULO 9. MULTICOLINEALIDAD.
135
Vase Silvey (1980), una monograf que trata el tema de dise o ptimo.
e
a
n o
Cap
tulo 10
Regresin sesgada.
o
10.1.
Introduccin.
o
a
c
E[ c]2 = E [ E[] + E[] c]2
c
c
c
c
2
= E [ E[]] + E [E[] c]2 + 2 E [ E[]] [E[] c]
c
c
c
c
c
c
=0
var() + ( sesgo c)
c
(10.1)
CAP
ITULO 10. REGRESION SESGADA.
137
o
e
dos de regresin sesgada. Denominaciones alternativas son regresin
o
o
regularizada o mtodos de estimacin por encogimiento (shrinkage
e
o
estimators), est ultima abarcando un conjunto de estimadores mua
cho ms amplio que el considerado aqu
a
.
Si se utilizan, es con la fundada creencia de que, en presencia de multicolinealidad acusada, la reduccin de varianza que se obtiene compensa la
o
introduccin de sesgo. Existe incluso un resultado (Teorema 10.1, pg. 142)
o
a
que demuestra la existencia de un estimador sesgado que domina (en trmie
nos de ECM) al MCO; su aplicacin prctica est limitada por el hecho de
o
a
a
que no es inmediato saber cul precisamente es este estimador.
a
10.2.
2
2
es un estimador insesgado de . Su varianza ser Var( ) = 1 /4 +
a
2 /4.
2
Es de m
nima varianza? No; y en general puede ser sumamente
2
2
ineciente. Imaginemos, por ejemplo, que 1 = 1 y 2 = 99; entonces,
2
2
CAP
ITULO 10. REGRESION SESGADA.
138
= 1 X1 + 2 X2
2
= 1 1 + (1 1 )2 99
2
= 99 1981 + 1001
100
100
El resultado parece lgico; debemos ponderar las dos observaciones
o
dando ms peso a la ms able. La segunda conclusin a que llegamos
a
a
o
es que cuando tengamos observaciones con grado de precisin muy
o
variable, convendr ponderarlas de forma inversamente proporcional
a
a sus respectivas varianzas.
Fin del ejemplo
a
segundo, , se serv de dicha observacin pero hacindole poco caso.
a
o
e
Se ha razonado sobre estimadores a los que hemos impuesto la condicin
o
de ser insesgados, por mantener el ejemplo simple, pero esta condicin es
o
inesencial. (De hecho, como veremos a continuacin, todav ser posible
o
a
a
e
Qu implicaciones tiene lo anterior sobre la estimacin de (o, en genee
o
ral, de c ) en un modelo lineal? Recordemos la discusin en la Seccin 9.5.
o
o
CAP
ITULO 10. REGRESION SESGADA.
139
1
v i para i = 1, . . . , p son variables aleatorias incorreladas con varianzas
10.3.
Regresin ridge.
o
ECM() = E[( ) ( )]
(10.3)
que podemos ver tambin como el valor medio del cuadrado de la distancia
e
eucl
dea ordinaria entre y . Supondremos (X X) de rango total, y por
tanto que (X X)1 existe (este supuesto se puede relajar). Como E[] =
2
1
y = (X X) , tenemos que:
ECM() = E[ traza ( ) ( )]
= E[ traza ( )( ) ]
= 2 traza (X X)1
= 2 traza (X X)1 V V
= 2 traza V (X X)1 V
p
1
2
,
=
i=1 i
(V = diagonalizadora de (X X)1 )
(10.4)
CAP
ITULO 10. REGRESION SESGADA.
140
en que los i son los valores propios de la matriz (X X). (Recurdese que
e
1
los vectores propios de las matrices (X X) y (X X) son los mismos, y
los valores propios de una los inversos de los de la otra.)
(k) = (X X + kI)1 X Y
(10.5)
= (X X + kI)1 (X X)
=
(X X)1 (X X + kI)
I + k(X X)1
= Z
def
(10.6)
1
ECM[ (k) ]
p
2
k 2 i
i
+
2
2
i=1 (i + k)
i=1 (i + k)
p
(10.7)
Demostracion:
CAP
ITULO 10. REGRESION SESGADA.
141
El ECM del estimador ridge que habremos de comparar con (10.4) es:
= E[(Z Z + Z ) (Z Z + Z )]
= E[(Z Z ) (Z Z )] + (Z ) (Z )
(a)
(b)
(10.8)
Obsrvese que el primer trmino (a) es la suma de varianzas de los elementos
e
e
(k) , mientras que (b) es la suma de los sesgos al cuadrado de dichos
de
elementos. Examinemos por separado los dos sumandos de la expresin
o
anterior:
(a) = E[( ) Z Z( )]
= E[traza{( ) Z Z( )}]
= E[traza{( )( ) Z Z}]
= traza{E( )( ) Z Z}
= 2 traza [(X X)1 Z Z]
(10.9)
1
I + k(X X)1
= 2 traza (X X) + kI + kI + k 2 (X X)1
= 2 traza
(X X) + 2kI + k 2 (X X)1
VV
(10.10)
= 2
1
1 2
i=1 i + 2k + i k
(10.11)
i
.
2
i=1 (i + k)
(10.12)
)( )] =
CAP
ITULO 10. REGRESION SESGADA.
142
I + k(X X)1
I + k(X X)1
= k 2 ( + kI)2
=
I
(10.13)
traza k ( + kI)
p
2
k 2 i
2
i=1 (i + k)
(10.14)
Teorema 10.1 Hay algn valor de k > 0 para el que ECM[ (k) ] dado por
u
(10.7) es estrictamente menor que el ECM del estimador MCO dado por
(10.4).
Demostracion:
(10.15)
(
arbitrariamente grande si i 0 para algn i. La expresin (10.12) est a
u
o
a
CAP
ITULO 10. REGRESION SESGADA.
143
0.35
0.20
0.25
ECM MCO
0.10
0.15
0.05
0.30
0.00
0.00
0.02
0.04
0.06
0.08
0.10
cobijo de tal eventualidad, pues ninguno de los sumandos puede crecer por
encima de i /k 2 .
La Figura 10.1 muestra en un caso concreto cmo var en funcin
o
an
o
de k los componentes (a) y (b) de (10.8), y su suma. Como trmino de
e
comparacin se ha representado mediante una l
o
nea horizontal la varianza
del MCO (igual a su varianza, puesto que es insesgado). Puede verse que,
tal como el Teorema 10.1 establece, hay valores de k en que el ECM( (k) )
desciende por debajo del ECM(); ocurre para valores de k menores que
0.039 aproximadamente.
CAP
ITULO 10. REGRESION SESGADA.
144
Eleccin de k
o
Sabemos que existe un k (de hecho, un intervalo de valores de k) mejorando el ECM del estimador MCO; pero nada en la discusin anterior nos
o
permite decidir cul es su valor. En la prctica, se recurre a alguna o varias
a
a
de las siguientes soluciones:
Uso de trazas ridge. Se prueban diversos valores de k representndose
a
las diferentes estimaciones del vector (trazas ridge); se retiene entonces
aquel valor de k a partir del cual se estabilizan las estimaciones.
La idea es intuitivamente atrayente: pequeos incrementos de k partienn
do de cero tienen habitualmente un efecto drstico sobre , al coste de
a
introducir algn sesgo. Incrementaremos k por tanto hasta que parezca que
u
su inuencia sobre se atena hasta que las trazas ridge sean casi horiu
zontales. El decidir dnde ocurre esto es, no obstante, bastante subjetivo.
o
Eleccin de k por validacin cruzada. La idea es tambin muy simo
o
e
ple, aunque computacionalmente algo laboriosa. Sea y(i),k la prediccin que
o
hacemos de la observacin yi cuando empleamos el estimador ridge de pao
rmetro k obtenido con una muestra de la que excluimos la observacin
a
o
i-sima. Denamos
e
N
CV (k) =
i=1
(yi y(i),k )2 ;
y = X (k) = A(k)y ;
CAP
ITULO 10. REGRESION SESGADA.
145
entonces, elegimos
kGCV
= arg m
n
k
(10.16)
kHKB = (p 2) 2 /
(10.17)
i
2
i k
+ k2
kM U R = arg m 2
n
2
k
i (i + k)
i i (i + k)
(10.18)
(10.19)
El criterio (10.17) fue propuesto por Hoerl et al. (1975) y tiene una justicacin bayesiana. El criterio (10.18) fue propuesto en Lawless and Wang
o
(1976). El criterio (10.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimacin.
o
Observacin 10.2 En las ecuaciones (10.17)(10.19), p es el
o
orden y rango de la matrix (X X). En caso de que (X X) sea de
rango deciente r, r < p, puede sustituirse ste por p tomando como
e
el estimador m
nimo cuadrtico de m
a
nima longitud; ver detalles
en Brown (1993), pg. 63.
a
Comentarios adicionales
Es evidente que la forma del ECM propuesto pondera por igual las
discrepancias en la estimacin de un i cuyo valor real es muy grande que
o
aqullas en la estimacin de uno cuyo valor real es muy pequeo. Por ello,
e
o
n
es aconsejable antes de emplear el procedimiento normalizar los regresores.
Alternativamente podr reproducirse el desarrollo anterior empleando como
a
CAP
ITULO 10. REGRESION SESGADA.
146
o
restaurndolo al nal.
a
Finalmente, es de inters sealar que el estimador ridge puede verse
e
n
desde distintos puntos de vista. Uno de ellos lo interpreta como un estimador
bayesiano, en la l
nea esbozada en los Ejercicios 4.6 y 4.7, pg. 58.
a
R: Ejemplo 10.1 (ejemplo de regresin ridge)
o
El siguiente cdigo muestra el uso de regresin ridge sobre un
o
o
conjunto de datos acusadamente colineal. La Figura 10.2 muestra las
trazas ridge de los seis parmetros estimados y el valor del criterio
a
GCV para distintos valores de k. En ambas grcas, que comparten
a
la escala de abscisas, se ha trazado una recta vertical al nivel de
kGCV . Los valores de kHKB y kLW son tambin output de la funcin
e
o
lm.ridge y podr haberse utilizado. El primero es prcticamente
an
a
idntico a kGCV y no se ha representado en la Figura 10.2; el segundo
e
s
.
>
>
>
>
>
>
options(digits = 4)
options(columns = 40)
library(MASS)
data(longley)
names(longley)[1] <- "y"
longley[1:3, ]
1947
1948
1949
1947
1948
1949
y
GNP
83.0 234.3
88.5 259.4
88.2 258.1
Population
107.6
108.6
109.8
Unemployed Armed.Forces
235.6
159.0
232.5
145.6
368.2
161.6
Year Employed
1947
60.32
1948
61.12
1949
60.17
CAP
ITULO 10. REGRESION SESGADA.
147
Trazas ridge
10
10
20
kGCV
0.00
0.02
0.04
0.06
0.08
0.10
0.08
0.10
Criterio GCV
kGCV
0.130
0.120
GCV
0.140
kLW
0.00
0.02
0.04
0.06
k
CAP
ITULO 10. REGRESION SESGADA.
Residuals:
Min
1Q Median
-2.009 -0.515 0.113
3Q
0.423
148
Max
1.550
Coefficients:
Estimate Std. Error t value
(Intercept) 2946.8564 5647.9766
0.52
GNP
0.2635
0.1082
2.44
Unemployed
0.0365
0.0302
1.21
Armed.Forces
0.0112
0.0155
0.72
Population
-1.7370
0.6738
-2.58
Year
-1.4188
2.9446
-0.48
Employed
0.2313
1.3039
0.18
Pr(>|t|)
(Intercept)
0.614
GNP
0.038 *
Unemployed
0.258
Armed.Forces
0.488
Population
0.030 *
Year
0.641
Employed
0.863
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.19 on 9 degrees of freedom
Multiple R-squared: 0.993,
Adjusted R-squared: 0.988
F-statistic: 203 on 6 and 9 DF, p-value: 4.43e-09
Ntese la fuerte multicolinealidad, aparente en los reducidos t-ratios
o
y elevada R2 . Probemos ahora regresin ridge con valores de k (=
o
lambda) entre 0 y 0.1 variando de milsima en milsima. Imprimie
e
remos a continuacin las estimaciones correspondientes a los tres
o
primeros valores de k ensayados. Cuando k = 0, deben coincidir las
estimaciones con las obtenidas por MCO.
> longley.rr <- lm.ridge(y ~ ., longley,
+
lambda = seq(0, 0.1, 0.001))
> summary(longley.rr)
Length
coef
606
scales
6
Inter
1
Class
-none-none-none-
Mode
numeric
numeric
numeric
CAP
ITULO 10. REGRESION SESGADA.
lambda 101
ym
1
xm
6
GCV
101
kHKB
1
kLW
1
-none-none-none-none-none-none-
numeric
numeric
numeric
numeric
numeric
numeric
> coef(longley.rr)[1:3, ]
GNP Unemployed Armed.Forces
0.000 2947 0.2635
0.03648
0.011161
0.001 1896 0.2392
0.03101
0.009372
0.002 1166 0.2210
0.02719
0.008243
Population
Year Employed
0.000
-1.737 -1.4188 0.23129
0.001
-1.644 -0.8766 0.10561
0.002
-1.565 -0.5011 0.03029
La funcin select aplicada al objeto que devuelve lm.ridge deo
vuelve los valores ptimos de tres de los criterios mencionados m as
o
n
arriba.
> select(longley.rr)
modified HKB estimator is 0.006837
modified L-W estimator is 0.05267
smallest value of GCV at 0.006
Podemos seleccionar el k optimo de acuerdo, por ejemplo, al criterio
GNP
1.765e-01
Population
-1.328e+00
Unemployed
1.937e-02
Year
2.556e-01
149
CAP
ITULO 10. REGRESION SESGADA.
>
>
+
+
>
>
>
>
+
+
>
>
>
>
150
10.4.
(10.20)
( W W = V V )
(10.21)
CAP
ITULO 10. REGRESION SESGADA.
151
= W v1
= W v2
.
.
.
= W vp1
(10.22)
o abreviadamente:
U = WV
(10.23)
(10.24)
(10.25)
(10.26)
y
y
0
= (U U)1 U y = 1 U y
(10.27)
Todo lo que hemos hecho hasta el momento es tomar una diferente base
del espacio de proyeccin la formada por las columnas de U en lugar de
o
la formada por las columnas de W . Llegados a este punto, tenemos que
recuperar los estimadores de los parmetros originales a partir de . Si
a
lo hacemos mediante
= V
trminos en :
e
CP = V
(q)
.
0
(10.28)
Necesitamos por tanto criterios para escoger los estimadores i que inclui
CAP
ITULO 10. REGRESION SESGADA.
152
i
(vase (9.26), pg. 130), una estrategia consistir en tomar los i asociados
e
a
a
con mucha varianza y por tanto desechados tengan no obstante gran poder predictivo de y . En este caso, podr ser preferible emplear la estrategia
a
a continuacin.
o
Eleccin basada en el contraste de nulidad de los i . Se procede
o
as
:
1. Se calcula
PU y
= U
= 1 u1
2
+ + p1 up1
2
(10.29)
stico:
Qi =
N p i2 ui
1
SSE
F1,N p
(10.30)
CAP
ITULO 10. REGRESION SESGADA.
153
retiene junto a todos los que le siguen (con i mayor, por tanto). Todos los
i retenidos componen el vector (q) .
El sesgo de CP es:
p1
(q)
i vi
V =
0
i=q+1
E[CP ] = E V
(10.31)
y su matriz de covarianzas:
CP
= V
I 0
Iq 0
1 q
0 0
0 0
(10.32)
1 vi vi
i
(10.33)
1 vi vi
i
(10.34)
i=1
p1
i=1
= 2 (W W )1
3
(10.35)
CAP
ITULO 10. REGRESION SESGADA.
154
en que el s
mbolo indica elementos no mayores en la diagonal principal.
La diferencia entre la matriz de covarianzas de los estimadores MCO y la
de los estimadores en componentes principales es:
p1
1 vi vi
i
(10.36)
i=q+1
[E(CP ) ] [E(CP ) ] =
p1
(i )2
(10.37)
i=q+1
stico puede
contemplarse como relacin seal/ruido.
o
n
El estimador ridge no hace una eleccin tan drstica sino que, mediante
o
a
la introduccin del parmetro k, atena las componentes principales reso
a
u
CP = V
Iq 0
=V
0 0
Iq 0
1 U y
0 0
(10.38)
(k) = (W W + kI)1 W y
= V V (W W + kI)1 V V W y
= V ( + kI)1 U y
(10.39)
(10.40)
(10.41)
CAP
ITULO 10. REGRESION SESGADA.
155
CAP
ITULO 10. REGRESION SESGADA.
+
+
+
+
+
+
+
+
+ }
156
library(MASS)
data(longley)
y <- longley[, 1]
X <- as.matrix(longley[, -1])
regCP(X, y, tomar = 1:3)
$betasCP
Intercept
-9.731e+02
Armed.Forces
1.553e-02
Employed
7.239e-01
GNP
2.459e-02
Population
3.391e-01
Unemployed
9.953e-03
Year
4.967e-01
$landas
[1] 4.5478430 1.1858692 0.2517070 0.0124261
[5] 0.0018422 0.0003126
$CP.usadas
[1] 1 2 3
Una comprobacin util consiste en ver que el estimador en CP, cuano
do se utilizan todas las componente principales, coincide con el estimador MCO. Vemoslo:
a
> regCP(X, y, tomar = 1:ncol(X))
$betasCP
Intercept
GNP
Unemployed
CAP
ITULO 10. REGRESION SESGADA.
2946.85636
Armed.Forces
0.01116
Employed
0.23129
0.26353
Population
-1.73703
157
0.03648
Year
-1.41880
$landas
[1] 4.5478430 1.1858692 0.2517070 0.0124261
[5] 0.0018422 0.0003126
$CP.usadas
[1] 1 2 3 4 5 6
> lsfit(X, y)$coefficients
Intercept
2946.85636
Armed.Forces
0.01116
Employed
0.23129
GNP
0.26353
Population
-1.73703
Unemployed
0.03648
Year
-1.41880
GNP
0.02372
Population
0.33197
Unemployed
0.01373
Year
0.49223
$landas
[1] 4.5478430 1.1858692 0.2517070 0.0124261
[5] 0.0018422 0.0003126
$CP.usadas
[1] 1 2
Fin del ejemplo
CAP
ITULO 10. REGRESION SESGADA.
10.5.
158
Regresin en ra
o
ces latentes
Consideramos el modelo:
y = 10 + W +
(10.42)
y = W +
(10.43)
o alternativamente:
en que tanto los regresores como la variable respuesta y han sido normalizados y centrados. Es decir, y = 1 (y y) siendo 2 = N (yi y)2 . Si
i=1
constru
mos la matriz N p siguiente:
A = [y | W ]
(10.44)
(10.45)
Avj = v0j y + W vj ,
(0)
dnde vj
o
(j = 1, . . . , p)
(10.46)
vj =
(0) 2
v0j yi + W vj
N
=
i=1
p1
y v0j
i
+
k=1
Wik vkj
(10.47)
(0)
= vj (A A)vj
= j ,
(10.48)
CAP
ITULO 10. REGRESION SESGADA.
159
yi v0j
Wik vkj
i [1, . . . , N]
k=1
(10.49)
1
y v0j W vj
def
y(j)
(10.50)
(10.51)
tenemos:
(y y(j) ) (y y(j) ) = 2 (y y(j) ) (y y(j) )
= (Avj ) (Avj )
=
2
2
v0j
2
2
v0j
j 2
2
v0j
(10.52)
di y(i)
y =
i=1
p
(0)
di y + W (v0i 1 vi )
i=1
p
=
i=1
di y + W
0 1 + W
(0)
di v0i 1 vi
i=1
CAP
ITULO 10. REGRESION SESGADA.
160
0 = y
di
(10.53)
i=1
p
(0)
di v0i 1 vi
(10.54)
i=1
(0)
div0i 1 vi
y +W
y + W
i=1
i=1
p
di
(0)
(y v0i + W vi )
v0i
= 2
i=1
p
di
Avi
v0i
= 2
i=1
di
(0)
(y v0i + W vi )
v0i
i=1
p
i=1
p
(0)
di v0i 1 vi
i d 2
i
v0i 2
di
Avi
v0i
i=1
(10.55)
(d ) = 2
i=1
p
i=1
di = 1.
i d 2
i
2
v0i
i=1
di 1
(10.56)
cuyas derivadas
(d )
d i i
= 2 2
di
v0i 2
=0
(i = 1, . . . , p)
(10.57)
= 2 2
2
v0i
i=1 i
(10.58)
CAP
ITULO 10. REGRESION SESGADA.
161
i
= = 2 2
2
v0i
2
v0i
i=1 i
(10.59)
y por tanto:
p
2
v0i
i=1 i
v2
di = 0i
i
(10.60)
0 = y
(10.61)
p
i=1
v0i v (0)
i
i
2
v0i
p
i=1
i
(10.62)
Podr
amos detenernos aqu pero hay ms. Cabe distinguir dos tipos de
,
a
multicolinealidades entre las columnas de la matriz [y | W ]; aqullas en
e
que v0i 0 que llamaremos (multicolinealidades predictivas), y aqullas
e
en que v0i 0 (multicolinealidades no predictivas); las primeras permiten
despejar y , y son aprovechables para la prediccin, en tanto las segundas
o
son multicolinealidades fundamentalmente entre los regresores.
(0)
El estimador anterior pondera cada vi en proporcin directa a v0i e
o
inversa a i . Es lo sensato: lo primero, prima las multicolinealidades predictivas sobre las que lo son menos; lo segundo, a las multicolinealidades
ms fuertes (en que la igualdad aproximada (10.49) es ms ajustada). Pea
a
ro podemos eliminar en (10.62) trminos muy inestables, cuando v0i y i
e
son ambos muy pequeos, para evitar que el sumando correspondiente en
n
(10.62) reciba gran ponderacin, si parece evidente que se trata de una mulo
ticolinealidad no predictiva. La relacin (10.62) se transformar entonces
o
a
en:
v0i v (0)
i
i
2
v0i
iP
i
iP
(10.63)
CAP
ITULO 10. REGRESION SESGADA.
10.6.
162
Lectura recomendada
CAP
ITULO 10. REGRESION SESGADA.
163
Complementos y ejercicios
10.1 Al nal de la Seccin 10.3 se propon emplear un criterio
o
a
del tipo
( ) M ( )
= (X X)1 X y
= (X X + kI)
= (X X + kI)
= (k)
(X y + kI 0 )
(10.64)
(10.65)
X y
(10.66)
(10.67)
n
Alternativamente, se puede formar X a adiendo a X las las de una
matriz unidad, y realizar regresin ponderada (dando a cada obsero
vacin normal peso unitario y a las p seudo-observaciones a adidas
o
n
o
a o
peso k). La alteracin de los pesos es habitualmente ms cmoda
que la creacin de una nueva matriz de regresores. Este ser de ordio
a
nario el mtodo a utilizar cuando hayamos de probar muchos valores
e
diferentes de k y dispongamos de un programa para hacer regresin
o
m
nimo cuadrtica ponderada. Las funciones lsfit y lm (disponibles
a
en R) admiten ambas el uso de pesos y por tanto se prestan al uso
descrito. La librer MASS contiene no obstante la funcin lm.ridge,
a
o
que hace estimacin ridge de modo ms cmodo para el usuario.
o
a o
CAP
ITULO 10. REGRESION SESGADA.
164
y las observaciones corresponden a N diferentes sujetos. Estamos interesados en especicar la evolucin del peso con la edad. Podr
o
amos
construir la matrix de dise o
n
X=
x1
x2
x3
x2
1
x2
2
x2
3
x3
1
x3
2
x3
3
.
.
.
. . . xp1
1
. . . xp1
2
. . . xp1
3
.
.
.
1 xN
x2
N
x3
N
. . . xp1
N
1
1
1
.
.
.
(10.68)
Cap
tulo 11
11.1.
Anlisis de residuos.
a
(11.1)
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
166
. En particular,
Teorema 11.1 Bajo los supuestos habituales se verica que:
1. Los residuos no son, en general, homoscedsticos, incluso cuando las
a
perturbaciones lo son.
2. Los residuos no son, en general, incorrelados, incluso cuando las perturbaciones lo son.
Demostracion:
= E[( E())( E()) ]
(11.2)
= (I X(X X)1 X ) 2 I
= 2 (I P ),
(11.3)
(11.4)
(11.5)
(11.6)
pij j
(11.7)
i=j
a
Los valores pij dependen slo de la matrix de diseo y son del mayor
o
n
inters, como veremos ms abajo.
e
a
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
167
ri =
+ 2 (1 pii )
(11.8)
a
bajo los supuestos habituales ms el de normalidad en las perturbaciones,
a
1 1
2
ri /(N p) sigue una distribucin beta B( 2 , 2 (N p 1)).
o
Al tener los ri la misma varianza, se prestan mejor a ser examinados
grcamente para identicar posibles observaciones anmalas o outliers.
a
o
i
+ 2 (i)(1 pii )
(11.9)
2
una eleccin adecuada de (i) puede lograrse que ti siga una distribucin
o
o
t de Student con (N p 1) grados de libertad. Esto permite, entre otras
cosas, hacer uso de la distribucin del mximo de k variables t de Student
o
a
con correlacin por pares (vase Seccin 8.3, pg. 112) para contrastar la
o
e
o
a
presencia de outliers. Tomaremos,
2 (i) =
i (1 pii )1 i
(N p 1)
(11.10)
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
168
Teorema 11.2 Con 2 (i) denido como en (11.10), bajo los supuestos ha
bituales ms el de normalidad en las perturbaciones, los residuos ti denidos
a
en (11.9) (externamente studentizados) siguen una distribucin t de Student
o
con (N p 1) grados de libertad.
Demostracion:
Podemos escribir i = Gi (I P ) siendo Gi de dimensin 1 N, con
o
un unico uno en posicin i-sima y ceros en los dems lugares. Llamando
o
e
a
A = Gi (I P ) tenemos que:
i = A
(11.11)
= B
(11.12)
2 (i)(1 pii )
i / 2 (1 pii )
2 (i)/ 2
i / 2 (1 pii )
B /(N p 1) 2
(11.13)
(11.14)
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
169
Residuos BLUS.
La studentizacin, tanto interna como externa, elimina la heterocedastio
cidad de los residuos, pero no la mutua correlacin. No es posible obtener
o
un vector de N residuos incorrelados y ortogonales a las columnas de X. La
razn se ve fcilmente: R(X) es un vector aleatorio de N coordenadas,
o
a
Residuos borrados.
Sean X(i) e Y (i) la matriz de diseo y vector respuesta desprovistos de
n
(i) el vector de estimadores de los parmetros
la observacin i-sima. Sea
o
e
a
(i) = (X X(i) )1 X Y (i) . Se
obtenido sin dicha observacin, es decir,
o
(i)
(i)
llama residuos borrados (deleted residuals) a los di denidos as2 :
di = yi xi (i)
(11.15)
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
170
(i)
= yi xi [(X X) xi xi ]
X(i) Y
(11.16)
(i)
(X X)1 xi xi (X X)1
X(i) Y (i)
(11.17)
1 xi (X X)1 xi
(1 pii )(X X)1 + (X X)1 xi xi (X X)1
= yi xi
X(i) Y (i)
1 pii
(1 pii )xi (X X)1 + pii xi (X X)1
= yi
X(i) Y (i)
1 pii
= yi xi (X X)1 +
=
=
=
=
1
yi xi (X X) X Y
1 pii
i
1 pii
(11.18)
(11.19)
en que el paso de (11.16) a (11.17) hace uso del Teorema A.2, pg. 221.
a
Veremos en lo que sigue que di est relacionado con la inuencia que la
a
observacin i-sima tiene sobre la estimacin de los parmetros.
o
e
o
a
11.2.
Anlisis de inuencia.
a
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
171
Figura 11.1: Una observacin como a tiene residuo borrado muy grande, y
o
gran inuencia en la pendiente de la recta de regresin.
o
10
15
20
25
30
10
20
30
40
a un resultado completamente diferente (la recta dibujada con trazo discontinuo). Sin embargo, su residuo MCO es muy pequeo; un exmen de
n
a
los residuos MCO o incluso de los residuos studentizados dif
cilmente
delatar ninguna anormalidad.
a
El examen de los residuos borrados detectar una situacin como la
a
o
mencionada: a tendr un residuo borrado grande. Pero todav es posible un
a
a
anlisis ms sosticado, que tenga en cuenta, en particular, los parmetros
a
a
a
sobre los que una observacin es muy inuyente. Abordamos este anlisis a
o
a
continuacin.
o
(11.20)
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
172
= (X X)1 xi di .
( (i) ) =
(1 pii )
(11.21)
Demostracion:
( (i) ) = (X X)1 X Y ((X X) xi xi )1 (X Y xi yi)
= (X X)1 X Y
(X X)1 +
(X X)1 xi xi (X X)1
(X Y xi yi)
1 x
1 xi (X X) i
(X X)1 xi xi (X X)1 X Y
1 pii
(X X) xi xi (X X)1 xi yi
+
1 pii
1
(X X) xi
=
(1 pii )yi xi + pii yi
1 pii
i
= (X X)1 xi
1 pii
= (X X)1 xi yi
En consecuencia,
SICi = (N 1)( (i) ) = (N 1)(X X)1 xi
i
1 pii
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
173
2
(en la EIC se divide entre (1 pii ) , en lugar de entre (1 pii ) como en
(11.22).
Distancia de Cook.
Tal y como se indica ms arriba, la curva de inuencia en cualquiera de
a
sus versiones es, en nuestro caso, un vector p1 (p = nmero de parmetros).
u
a
La coordenada k-sima de SICi proporciona informacin sobre la inuencia
e
o
k . Aunque esta informacin
de la observacin i-sima en la estimacin de
o
e
o
o
pormenorizada sea util, en ocasiones queremos una unica medida resumen
o
Di =
( (i) ) S( (i) )
c
(11.22)
o
o
(11.22) se denomina distancia de Cook y es una medida global de la inuencia de la observacin (xi , yi ). Hay otras posibles elecciones de S y c
o
con diferencias, en general, slo de matiz3 .
o
Haciendo uso del Lema 11.1 tenemos que la distancia de Cook puede
escribirse as
:
2 (1 p )2
p
ii
1 2 pii
=
r
p i 1 pii
Di =
(11.23)
(11.24)
DFFITS.
Se denen as
:
DFFITi = ti
3
pii
1 pii
(11.25)
Una relacin de las mismas puede verse en Cook and Weisberg (1982), p. 124.
o
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
174
p
N
(11.26)
DFBETAS.
Se denen por:
DFBETAij =
j j,(i)
(X X)1
jj
(11.27)
Los estad
sticos DFBETA permiten evaluar la inuencia de la observacin i-sima sobre el parmetro j-simo. En cierto modo desglosan la
o
e
a
e
informacin que la distancia de Cook resume en un unico estad
o
stico por
observacin. La motivacin de la expresin (11.27) es clara: la diferencia
o
o
o
entre la estimacin de j -simo con y sin la observacin i-sima se divide
o
e
o
e
j .
por una estimacin de la desviacin t
o
o pica de
11.3.
Al margen del uso que pueda hacerse de los residuos en cualquiera de sus
variedades para, por ejemplo, contrastar hiptesis de presencia de outliers,
o
etc., con frecuencia ser conveniente construir algunos grcos. Es mucha, en
a
a
efecto, la informacin que cabe obtener de ellos. Presentamos a continuacin
o
o
algunos de estos grcos; otros aparecern en contexto en los cap
a
a
tulos
dedicados a seleccin de modelos (Cap
o
tulo 12) y transformaciones de las
variables (cap
tulo 13). Referencias utiles para ampliar lo que se expone
Frecuentemente, el
ndice de cada observacin es el tiempo, es decir, las
o
observaciones han sido tomadas secuencialmente una despues de otra. El
representar i frente a i nos podr poner de maniesto rupturas tempoa
rales por ejemplo, una brusca disminucin del tamao de los residuos a
o
n
partir de un cierto i. En ocasiones podemos ver tambin en un grco de
e
a
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
175
e
cuadrtico, entrar como funcin exponencial, etc.
a
o
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
176
Hay multitud de pruebas utilizables para contrastar ajuste a una distribucin. La de Kolmogorov-Smirnov (vase Trocniz (1987b), pg. 255)
o
e
o
a
es de uso general con muestras grandes y distribuciones continuas lo que
incluye a la normal. Hay contrastes como el de Shapiro-Wilk descrito en
Shapiro and Wilk (1965) y Shapiro and Francia (1972), especializados en el
contraste de la hiptesis de normalidad.
o
Tan util como pueda ser una prueba estadistica convencional de normali
dad, en ocasiones es util un instrumento que permita visualizar la naturaleza
>
>
>
>
>
>
>
>
>
+
+
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
177
1 0
150
0 50
Sample Quantiles
2
1
1
3
Sample Quantiles
250
QQ Plot de
200 obs. F con 1,2 g.l.
Q_Q Plot de
200 obs. N(0,1)
1 0
Theoretical Quantiles
2 1
Theoretical Quantiles
2
1
0
2
Sample Quantiles
2
1
0
2
Sample Quantiles
Theoretical Quantiles
2 1
Theoretical Quantiles
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
178
o
de i frente a di . En general, deber
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
Complementos y ejercicios
2
11.1 Demustrese que ri /(N p), bajo los supuestos habituae
1
les ms normalidad, sigue una distribucin beta, B( 2 , 1 (N p 1)).
a
o
2
179
Cap
tulo 12
Seleccin de modelos.
o
12.1.
Maximizacin de Rp .
o
Se dene el coeciente de determinacin corregido as
o
:
2
2
Rp = 1 [1 Rp ]
1
N 1
N p
(12.1)
180
CAP
ITULO 12. SELECCION DE MODELOS.
181
N 1
N p
SSEp N 1
=
SST
N p
2
1 Rp = [1 Rp ]
(12.2)
(12.3)
Demostracion:3
Para contrastar la signicacin del (p + 1)-simo parmetro, empleamos
o
e
a
(Seccin 6.2, pg. 72):
o
a
Qh =
=
SSEp SSEp+1 N p 1
SSEp+1
1
(12.4)
2
2
(Rp+1 Rp ) N p 1
2
1 Rp+1
1
(12.5)
de donde:
2
2
2
(1 Rp+1 )Qh = (Rp+1 Rp )(N p 1)
(12.6)
2
2
Qh + (N p 1)Rp = Rp+1 [(N p 1) + Qh ]
(12.8)
2
2
2
Qh Qh Rp+1 = (N p 1)Rp+1 (N p 1)Rp (12.7)
CAP
ITULO 12. SELECCION DE MODELOS.
182
2
Despejando Rp+1 tenemos:
2
Rp+1 =
2
Qh + (N p 1)Rp
(N p 1) + Qh
(12.9)
1
2
Q + Rp
N p1 h
1
1 + N p1 Qh
(12.10)
2
Rp+1 = 1 [1 Rp+1 ]
N 1
(N p 1)
(12.11)
= 1
2
[1 Rp ]
N p1+Qh
N p1
N 1
N p1
(12.12)
N 1
N p 1 + Qh
N p
2 N 1
= 1 [1 Rp ]
N p N p 1 + Qh
2
= 1 [1 Rp ]
(12.14)
Rp
2
(12.13)
Criterio Cp de Mallows.
Supongamos que la variable aleatoria Y se genera realmente como
prescribe el modelo Y = X + , no obstante lo cual ajustamos el modelo
(12.15)
CAP
ITULO 12. SELECCION DE MODELOS.
183
que sumando y restando E(Y (p) ) dentro de cada parntesis podemos dese
componer as
:
(12.16)
(12.17)
(12.18)
((Y (p) E(Y (p) )) ((Y (p) E(Y (p) )) = X(X X)1 X X(X X)1 X
= X(X X)1 X
2 2 .
p
(12.19)
(Sesgo)2
E (I X(X X) X ) .
Por consiguiente,
(Sesgo)2 = E[SSE] E[ 2 2 p ].
N
(12.20)
(12.21)
(12.22)
y por consiguiente:
ECM
SSE
=E
N + 2p.
2
(12.23)
o
E
SSE
+ 2p,
2
(12.24)
CAP
ITULO 12. SELECCION DE MODELOS.
184
SSE
+ 2p.
2
(12.25)
o
Para que se verique la aproximacin en (12.25) es preciso que 2
o
2
, lo que se consigue si la muestra es lo sucientemente grande y 2 =
o
2
Rp , en cambio, requerir en anloga situacin introducir el mismo
a
a
o
regresor si disminuye SSE en al menos una vez 2 . El criterio Cp de
5.
Mallows es ms restrictivo
a
Cp se obtiene, t
picamente, ajustando el modelo ms parametrizado (esto minimiza el riesa
go de introducir sesgos en la estimacin de 2 , aunque seguramente nos hace despilfarrar
o
2
algunos grados de libertad). Por el contrario, al utilizar el criterio basado en Rp introducimos el nuevo regresor si Qh > 1 en (12.4), es decir, si la disminucin SSEp SSEp+1
o
en la suma de cuadrados de los residuos es mayor que 2 = SSEp+1 /(N p1), varianza
CAP
ITULO 12. SELECCION DE MODELOS.
185
Criterio AIC
Relacionado con el criterio Cp de Mallows, aunque vlido de modo mua
cho ms general y motivado de modo muy diferente, est el criterio AIC
a
a
(Akaikes Information Criterion, o An Information Criterion). Consiste en
seleccionar el modelo minimizando
a
AIC(p) = 2 loge mx verosimilitud(x , ) + 2p
CAP
ITULO 12. SELECCION DE MODELOS.
186
(B)
CAP
ITULO 12. SELECCION DE MODELOS.
187
o
o
tipo leave one out).
En muchas situaciones esta estrategia puede requerir un esfuerzo
de clculo formidable: cada modelo ha de ser reestimado (N 1)
a
veces, dejando cada vez fuera de la muestra de estimacion una observacin diferente! En regresin lineal, sin embargo, la diferencia
o
o
entre la prediccin de la observacin i-sima haciendo uso de todas
o
o
e
las restantes y el valor observado de la misma es, simplemente, el
residuo borrado, de cmoda y rpida obtencin (vase Seccin 11.1).
o
a
o
e
o
Por tanto, utilizando la notacin de dicha Seccin,
o
o
SSEi = d2
( = 1, . . . , N )
N
SSEi .
SSEi = N 1
=1
Ntese que SSEi es lo que se conoce tambin como suma de cuadrados de los
o
e
residuos predictiva o PRESS; vase nota a pie de pgina de la Seccin 11.1.
e
a
o
CAP
ITULO 12. SELECCION DE MODELOS.
188
Adems de codicar los datos tenemos que codicar los parmetros del
a
a
modelo probabilistico. La longitud total de descripcin de la muestra y
o
cuando hacemos uso del modelo probabil
stico Mk haciendo uso del vector
de parmetros k es entonces
a
MDL(Mk ; y ) = (Cdigo necesario para y )
o
+
(12.26)
Un mal ajuste har que el primer sumando sea grande; los datos muestrales
a
se desv mucho de lo que el modelo predice. Un modelo con un perfecto
an
ajuste tendr un primer sumando nulo (porque las y se deducir exactaa
an
mente del modelo, y no requerir ser codicadas), pero requerir quiz
an
a
a
muchos parmetros incrementando el segundo sumando.
a
El criterio MDL propone seleccionar el modelo Mk que minimiza (12.27).
En el caso de modelos de regresin, el criterio MDL da resultados
o
ntimamente emparentados asintticamente con los precedentes (suma de cuadrados
o
PRESS y Cp ); vanse detalles en Rissanen (1989), Cap. 5.
e
CAP
ITULO 12. SELECCION DE MODELOS.
12.2.
189
Seleccin de variables.
o
CAP
ITULO 12. SELECCION DE MODELOS.
190
CAP
ITULO 12. SELECCION DE MODELOS.
191
set.seed(123457)
X <- matrix(rnorm(1000),
ncol = 20)
betas <- rep(0, 20)
betas[c(3, 5, 7, 12)] <- 1:4
y <- X %*% betas + rnorm(50)
datos <- as.data.frame(cbind(X,
y))
dimnames(datos)[[2]][21] <- "y"
completo <- lm(y ~ ., datos)
3Q
0.829
Coefficients:
Estimate Std. Error
(Intercept) -0.0706
0.2227
V1
0.0408
0.2422
V2
0.1720
0.2603
V3
1.1884
0.2397
V4
-0.0238
0.2067
cin diferente (vase Cap
o
e
tulo 8). El nivel de signicacin asociado al contraste impl
o
cito
en la inclusin o exclusin de un regresor no es la probabilidad a la derecha (o izquierda)
o
o
de F entrada (o F salida ) en una distribucin F con grados de libertad apropiados.
o
CAP
ITULO 12. SELECCION DE MODELOS.
V5
V6
V7
V8
V9
V10
V11
V12
V13
V14
V15
V16
V17
V18
V19
V20
192
2.0035
0.2022
0.2633
0.2217
2.9970
0.1875
-0.1074
0.2804
0.0514
0.2105
-0.2367
0.2148
-0.2053
0.2042
4.0374
0.2212
0.1137
0.2161
-0.2115
0.2163
0.0191
0.3076
0.1206
0.2328
0.0318
0.1972
-0.0786
0.2108
0.0879
0.2569
0.0162
0.1949
t value Pr(>|t|)
(Intercept)
-0.32
0.75
V1
0.17
0.87
V2
0.66
0.51
V3
4.96 2.9e-05 ***
V4
-0.11
0.91
V5
9.91 8.1e-11 ***
V6
1.19
0.24
V7
15.98 6.5e-16 ***
V8
-0.38
0.70
V9
0.24
0.81
V10
-1.10
0.28
V11
-1.01
0.32
V12
18.25 < 2e-16 ***
V13
0.53
0.60
V14
-0.98
0.34
V15
0.06
0.95
V16
0.52
0.61
V17
0.16
0.87
V18
-0.37
0.71
V19
0.34
0.73
V20
0.08
0.93
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.2 on 29 degrees of freedom
CAP
ITULO 12. SELECCION DE MODELOS.
193
postscript(file = "demo10.eps",
horizontal = FALSE, width = 5,
height = 9)
opar <- par()
par(mfrow = c(2, 1))
plot(mods$size, mods$Cp,
main = "Cp versus talla modelos",
xlab = expression(p),
ylab = expression(C[p]))
mods.r <- leaps(x = X, y = y,
method = "adjr2")
plot(mods.r$size, mods.r$adjr2,
main = "R2 versus talla modelos",
xlab = expression(p),
ylab = expression(bar(R)^2))
par(opar)
dev.off()
X11cairo
2
La Figura 12.1 muestra el comportamiento t
pico de los criterios Cp
2
y R . Se aprecia que, aunque de forma no muy notoria en este caso,
2
a
el criterio R tiende a seleccionar modelos ms parametrizados.
> mejores <- order(mods$Cp)[1:15]
> regres <- mods$which[mejores,
+
]
> dimnames(regres)[[2]] <- dimnames(datos)[[2]][1:20]
CAP
ITULO 12. SELECCION DE MODELOS.
194
600
0
200
Cp
1000
10
15
20
0.4
0.2
0.0
R2
0.6
0.8
1.0
10
15
p
20
CAP
ITULO 12. SELECCION DE MODELOS.
> Cp <- mods$Cp[mejores]
> cbind(regres, Cp)
5
6
6
4
6
5
6
5
7
6
6
5
6
7
6
5
6
6
4
6
5
6
5
7
6
6
5
6
7
6
5
6
6
4
6
5
6
5
V1 V2 V3 V4
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
1 0 1 0
1 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
V11 V12 V13
0
1
0
0
1
0
0
1
0
0
1
0
1
1
0
0
1
0
0
1
0
1
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
1
1
0
0
1
1
V18 V19 V20
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
V5 V6 V7 V8 V9 V10
1 1 1 0 0
0
1 1 1 0 0
0
1 1 1 0 0
1
1 0 1 0 0
0
1 1 1 0 0
0
1 0 1 0 0
1
1 1 1 0 0
0
1 0 1 0 0
0
1 1 1 0 0
1
1 1 1 0 0
0
1 1 1 0 0
0
1 0 1 0 0
0
1 1 1 0 0
0
1 1 1 0 0
0
1 1 1 0 0
0
V14 V15 V16 V17
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
Cp
-4.225
-3.491
-3.455
-3.453
-3.213
-3.150
-2.654
-2.550
195
CAP
ITULO 12. SELECCION DE MODELOS.
7
6
6
5
6
7
6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
196
-2.548
-2.518
-2.476
-2.405
-2.368
-2.365
-2.335
3Q
0.627
Coefficients:
Estimate Std. Error
(Intercept) -0.03573
0.18316
V3
1.08674
0.19721
V4
-0.00741
0.16766
V5
2.03931
0.16976
V7
3.05622
0.14772
V10
-0.27977
0.19088
V12
4.10685
0.18483
V16
0.08436
0.15101
V17
0.05185
0.14567
V1
0.16370
0.18257
V2
-0.00659
0.20666
t value Pr(>|t|)
(Intercept)
-0.20
0.85
V3
5.51 2.5e-06 ***
V4
-0.04
0.96
V5
12.01 1.1e-14 ***
V7
20.69 < 2e-16 ***
CAP
ITULO 12. SELECCION DE MODELOS.
197
V10
-1.47
0.15
V12
22.22 < 2e-16 ***
V16
0.56
0.58
V17
0.36
0.72
V1
0.90
0.38
V2
-0.03
0.97
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.11 on 39 degrees of freedom
Multiple R-squared: 0.973,
Adjusted R-squared: 0.966
F-statistic: 141 on 10 and 39 DF, p-value: <2e-16
> mod3 <- update(mod1, . ~
+
. - V10 - V16 - V17)
> summary(mod3)
Call:
lm(formula = y ~ V3 + V4 + V5 + V7 + V12, data = datos)
Residuals:
Min
1Q
-2.0289 -0.6955
Max
2.5956
Median
0.0539
3Q
0.7177
Coefficients:
Estimate Std. Error
(Intercept)
0.0738
0.1596
V3
1.0693
0.1819
V4
-0.0410
0.1567
V5
1.9898
0.1603
V7
3.0484
0.1400
V12
4.1357
0.1642
t value Pr(>|t|)
(Intercept)
0.46
0.65
V3
5.88 5.1e-07 ***
V4
-0.26
0.79
V5
12.41 5.7e-16 ***
V7
21.77 < 2e-16 ***
V12
25.19 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
CAP
ITULO 12. SELECCION DE MODELOS.
198
CAP
ITULO 12. SELECCION DE MODELOS.
1
2
3
4
5
6
7
8
(
(
(
(
(
(
(
(
1
1
1
1
1
1
1
1
)
)
)
)
)
)
)
)
1
2
3
4
5
6
7
8
(
(
(
(
(
(
(
(
1
1
1
1
1
1
1
1
)
)
)
)
)
)
)
)
1
2
3
4
5
6
7
8
(
(
(
(
(
(
(
(
1
1
1
1
1
1
1
1
)
)
)
)
)
)
)
)
" "
"*"
"*"
"*"
"*"
"*"
"*"
"*"
V13
" "
" "
" "
" "
" "
" "
" "
" "
V19
" "
" "
" "
" "
" "
" "
" "
"*"
" "
" "
" "
" "
" "
" "
" "
" "
V14
" "
" "
" "
" "
" "
"*"
"*"
"*"
V20
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
V15
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
"*"
"*"
V16
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
V17
" "
" "
" "
" "
" "
" "
" "
" "
"*"
"*"
"*"
"*"
"*"
"*"
"*"
"*"
V18
" "
" "
" "
" "
" "
" "
" "
" "
> library(MASS)
> step <- stepAIC(completo,
+
scope = y ~ ., direction = "both",
+
trace = FALSE)
> summary(step)
Call:
lm(formula = y ~ V3 + V5 + V6 + V7 + V12, data = datos)
Residuals:
Min
1Q Median
-1.9495 -0.6503 -0.0349
Max
2.6196
3Q
0.5244
Coefficients:
Estimate Std. Error
199
CAP
ITULO 12. SELECCION DE MODELOS.
200
(Intercept)
V3
V5
V6
V7
V12
0.0514
0.1518
1.0256
0.1761
2.0499
0.1557
0.3046
0.1603
3.0499
0.1346
4.1077
0.1585
t value Pr(>|t|)
(Intercept)
0.34
0.736
V3
5.82 6.1e-07 ***
V5
13.17 < 2e-16 ***
V6
1.90
0.064 .
V7
22.65 < 2e-16 ***
V12
25.91 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.05 on 44 degrees of freedom
Multiple R-squared: 0.973,
Adjusted R-squared: 0.97
F-statistic: 317 on 5 and 44 DF, p-value: <2e-16
12.3.
El LASSO
CAP
ITULO 12. SELECCION DE MODELOS.
201
= arg m (y X )2
n
p1
sujeto a
i=1
|i | t
(12.28)
12.4.
(12.29)
En el paquete lars.
CAP
ITULO 12. SELECCION DE MODELOS.
202
= 0 + 1 X + 2 X 2 + .
(12.30)
CAP
ITULO 12. SELECCION DE MODELOS.
Complementos y ejercicios
12.1 Supongamos que hacemos regresin escalonada hacia
o
adelante. Qu valor de F entrada equivaldr a introducir regresoe
a
2
res en el modelo en tanto en cuanto incrementen Rp ?
12.2 Las estrategias de regresin escalonada descritas (hacia
o
adelante, hacia atrs, o mixta) exploran un subconjunto de los modea
los posibles, a adiendo (omitiendo) en cada momento el regresor que
n
parece con mayor (menor) capacidad explicativa de la variable respuesta. Puede perfectamente alcanzarse un ptimo local, al llegarse
o
a un modelo en el que no es posible mejorar el criterio elegido (Cp , o
cualquier otro) a adiendo u omitiendo regresores, pese a existir otro
n
modelo mejor en trminos de dicho criterio. Mejoran nuestras expece
tativas de encontrar el ptimo global mediante regresin escalonada
o
o
cuando las columnas de la matriz X de regresores son ortogonales?
Justif
quese la respuesta.
(SSEA SSEB )
203
Cap
tulo 13
Transformaciones
13.1.
Introduccin
o
Nada nos obliga a utilizar los regresores o la variable respuesta tal cual;
es posible que la relacin que buscamos entre una y otros requiera para ser
o
expresada realizar alguna transformacin. Por ejemplo, si regresramos el
o
a
volumen de slidos aproximadamente esfricos sobre sus mayores dimensioo
e
nes, obtendr
amos probablemente un ajuste muy pobre; ser mucho mejor,
a
en cambio, regresando el volumen sobre el cubo de la mayor dimensin
o
4
dado que la frmula del volumen de una esfera es 3 r 3 , y cabr esperar una
o
a
relacin similar en los slidos aproximadamente esfricos que manejamos.
o
o
e
En el ejemplo anterior, bastaba tomar un regresor la mayor dimensin
o
y elevarla al cubo para obtener un ajuste mejor. Adems, la naturaleza del
a
problema y unos m
nimos conocimientos de Geometr sugieren el tipo de
a
transformacin que procede realizar. En otros casos, la transformacin pueo
o
de distar de ser obvia. En ocasiones, es la variable respuesta la que conviene
transformar. En las secciones que siguen se muestran algunos procedimientos para seleccionar un modelo, acaso transformando regresores, variable
respuesta, o ambas cosas.
13.2.
204
CAP
ITULO 13. TRANSFORMACIONES
205
2
2
Residuos
20
40
60
80
100
Transformaciones de Box-Tidwell
Consideremos los regresores X1 , . . . , Xp y transformaciones de los mismos denidas del siguiente modo:
Wj =
si j = 0,
Xj j
ln(Xj ) si j = 0.
(13.1)
CAP
ITULO 13. TRANSFORMACIONES
206
= 0 + 1 X1 1 + . . . + p Xp p +
= 0 + 1 W1 + . . . + p Wp + .
(13.2)
(13.3)
0 + 1 X1 + . . . + p Xp + 1 Z1 + . . . + p Zp + ,
(13.4)
en donde
j = j (j 1)
Zj = Xj ln(Xj ).
(13.5)
(13.6)
j =
+ 1.
(13.7)
j
Podemos detenernos aqu pero cabe pensar en un proceso iterativo de re,
(1)
nado de la solucin obtenida. Llamemos k , k = 1, . . . , p, a los estimadores
o
(1)
= Xj j
(1)
= Wj ln(Wj )
Wj
Zj
(1)
(13.8)
(1)
(13.9)
y estimar
Y
(1)
(1)
(1)
(1)
(
= 0 + 1 W1 + . . . + p Wp + 1 Z1 + . . . + p Zp + ,13.10)
(2)
(2)
Obtendr
amos as estimaciones de W1 , . . . , Wp , y podr
amos proseguir de
modo anlogo hasta convergencia, si se produce.
a
CAP
ITULO 13. TRANSFORMACIONES
13.3.
207
Generalidades
Adems de transformar los regresores, o en lugar de hacerlo, podemos
a
transformar la variable respuesta Y . Es importante tener en cuenta que si
realizamos transformaciones no lineales de la Y los modelos ya no sern
a
directamente comparables en trminos de, por ejemplo, R2 o suma de cuae
drados residual. Comparaciones de esta naturaleza requerir reformular
an
el modelo en las variables originales.
Ejemplo 13.1 Supongamos que nos planteamos escoger entre
los dos modelos alternativos,
Y
= 0 + 1 X1 +
(13.11)
log(Y ) = 0 + 1 X1 + .
(13.12)
(Yi 0 1 Xi1 )2
(13.13)
(log(Yi ) 0 1 Xi1 )2 ,
(13.14)
(Yi 0 1 Xi1 )2
(13.15)
pero s lo ser
an
(13.16)
CAP
ITULO 13. TRANSFORMACIONES
208
La transformacin de Box-Cox.
o
En ocasiones puede resultar inadecuado suponer que la variable respuesta Y est relacionada linealmente con las X, y, sin embargo, ser plausible
a
un modelo como el siguiente:
g(Yi) = xi + i
(13.17)
(Y
1)/ cuando = 0,
ln Y
cuando = 0.
N(0, I)
(13.18)
(13.19)
fY (y ) = fW (w ) |J()|
(13.20)
La variable transformada w depende en todo caso del empleado en la transformacin; omitimos dicha dependencia para aligerar la notacin, salvo donde interese enfatio
o
zarla.
CAP
ITULO 13. TRANSFORMACIONES
209
J() =
(13.21)
Por tanto:
1
log ver( , , 2 ; Y ) = log
2
1
1
| 2 I| 2
1 (w() X ) (w() X )
log exp
|J()|
2
2
N
N
log(2) log 2
2
2
N
1 (w() X ) (w() X )
1
+ log yi
2
2
i=1
N
N
N
2
= log(2) log + ( 1)
log yi
2
2
i=1
(13.22)
nimo cuadrtico.
(w() X ) (w() X ), y ste es precisamente el m
e
a
La suma de cuadrados de los residuos es entonces (vase (2.36), pg. 22)
e
a
+ ( 1)
log yi .
(13.23)
2
2
2
i=1
N
N
log yi.
log () + ( 1)
2
2
i=1
(13.24)
CAP
ITULO 13. TRANSFORMACIONES
210
L()
2 ln
2 ;
1
L(0 )
(13.25)
2
2
1;
2
2
i=1
(13.26)
Cap
tulo 14
El modelo logit.
Con frecuencia se presentan situaciones en que la variable respuesta a explicar toma slo uno de dos estados, a los que convencionalmente asignamos
o
valor 0 1. Por ejemplo, variables de renta, habitat, educacin y similares
o
o
pueden inuenciar la decisin de compra de un cierto art
o
culo. Podr
amos
as plantearnos el estimar,
= X +
(14.1)
compra).
Nada parecer en principio, impedir el empleo del modelo lineal estudiaa,
do en una situacin como sta. Pero hay varias circunstancias que debemos
o
e
considerar.
1. No tiene ya sentido suponer una distribucin normal en las perturbao
ciones. En efecto, para cualesquiera valores que tomen los regresores,
de
Yi = 0 + 1 Xi1 + . . . + p1 Xi,p1 + i
se deduce que slo puede tomar uno de dos valores: la diferencia
o
que separa a la Yi (0 1) de la combinacin lineal de regresores que
o
o
constituye su parte explicada.
2. Tratndose de una respuesta que puede tomar valor 0 o 1, interpretaa
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
212
1 P
Pi
con probabilidad Pi
con probabilidad Qi = 1 Pi .
def
ln
Pi
.
1 Pi
(14.3)
Pi
1 Pi
= x i ,
(14.4)
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
213
exp(x i )
1 + exp(x i )
(14.5)
X=1
n11
n21
X=0
n12
n22
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
X=1
e0 +1
1+e0 +1
Y=1
(1) =
Y=0
1 (1) =
1
1+e0 +1
214
X=0
(0) =
e0
1+e0
1 (0) =
1
1+e0
(1)/(1 (1))
.
(0)/(1 (0))
(14.6)
Entonces,
(1) / (1 (1))
(0)/(1 (0))
1
e0 +1
= ln
0 +1
1+e
1 + e0 +1
e0 +1
= ln
e0
= 1 .
ln() = ln
ln
e0
1 + e0
1
1 + e0
(14.7)
(0)
(0)/(1 (0))
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
215
si y slo si
o
1 (0)
1.
1 (1)
Ello acontece, por ejemplo, cuando Y = 1 se presenta muy raramente en la
poblacin como cuando estudiamos la incidencia de una enfermedad muy
o
rara, tanto para sujetos tratados (X = 1) como no tratados (X = 0).
a
o
1 > 0 signicar, por tanto, que X = 1 incrementa
relacin de riesgos. Un
o
a
el riesgo de que Y = 1, y viceversa.
X=1
n11
n21
n,1
X=0
n12
n22
n,2
Total
n1.
n2.
n..
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
216
Estimacin
o
Consideremos una muestra de tamao N, formada por observaciones
n
(yi , x i ). Para cada observacin, yi es 0 1. El modelo logit, sin embargo, le
o
o
atribuye una probabilidad Pi (si se trata de un 1) 1 Pi (si se trata de
o
un 0). Por consiguiente, la verosimilitud de la muestra es
N
L(, y , X) =
(14.8)
i=1
1yi
i=1
1 + exp(x i )
=
N
=
i=1
1
1 + i
1yi
i
1 + i
yi
exp(x i )
1 + exp(x i )
(14.9)
yi
(14.10)
ln
i=1
N
1
+
yi ln(i ).
1 + i
i=1
(14.11)
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
217
valores ajustados P
De acuerdo con la teor en la Seccin B.3, bajo la hiptesis nula de que
a
o
o
el modelo correcto es (14.4)
L()
2 ln
kp ,
L(P )
(14.12)
L(1 , 2 , . . . , j1 , j+1, . . . , k )
,
2 ln
(14.13)
que debe ser comparado con una 2 ; valores grandes de (14.13) son evidencia
1
contra la hiptesis h : j = 0.
o
Para contrastar la hiptesis de nulidad de todos los parmetros, salvo
o
a
quiz 0 afectando a la columna de unos, comparar
a
amos
L(0 )
2 ln
L(0 , 1 , 2 , . . . , k )
(14.14)
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
218
L(0 )
2 ln
.
L(P )
(14.15)
L(0 )
2(k 1),
= 2 ln
L(0 , 1 , 2 , . . . , k )
(14.16)
y una R2 as
:
R2 =
2 ln
L(0 )
L(0 ,1 ,2 ,...,k )
2 ln
(14.17)
L(0 )
L(P )
(14.18)
CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
219
Complementos y ejercicios
14.1 Mustrese que la desviacin denida a continuacin de (14.12)
e
o
o
coincide con SSE cuando consideramos un modelo lineal ordinario
con normalidad en las perturbaciones.
14.2 Comprubese derivando (14.11) que los estimadores me
a
ximo veros
miles de los parmetros son soluciones del sistema de
a
ecuaciones:
N
i
= 0,
x i yi
1 + i
i=1
en que i = x i .
Apndice A
e
(A.1)
(A.2)
(A.3)
(A.4)
2
dene como ||u || = + < u , u > = u1 + . . . + u2
n
Denicin A.3 Dados dos vectores u , v en un espacio vectorial, denimos
o
el coseno del ngulo que forman como
a
cos() =
220
(A.5)
APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. 221
Teorema A.2 (Sherman-Morrison-Woodbury) Sea D una matriz simtrie
ca p p y a ,c vectores p 1. Entonces,
(D + a c )1 = D 1 D 1 a (1 + c D 1 a )1 c D 1
(A.6)
Demostracion:
Multiplicando ambos lados de (A.6) por (D + a c ) se llega a la igualdad
I = I. En particular, si a = c = z, la relacin anterior produce:
o
(D + zz )1 = D 1 D 1 z(1 + z D 1 z)1 z D 1
(A.7)
A1 + F E 1 F F E 1
E 1 F
E 1
(A.8)
siendo
E = D B A1 B
F = A1 B
(A.9)
(A.10)
Demostracion:
Basta efectuar la multiplicacin matricial correspondiente.
o
APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. 222
A.2.
a
demostraciones en Abadir and Magnus (2005), Searle (1982) y Magnus and
Neudecker (1988).
Haremos uso de las siguientes deniciones y notacin.
o
Denicin A.4 Sea x un vector m 1 e y una funcin escalar de x :
o
o
y = f (x1 , . . . , xm ) = f (x ). Entonces:
y
x
y
x1
x2
.
.
.
y
xm
def
= (A + A )x .
= 2A x
(A.12)
def
y1
x1
.
.
.
y1
xm
y2
x1
.
.
.
...
yn
x1
.
.
.
y2
yn
xm . . . xm
a1
.
y
. = a;
= .
x
am
APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. 223
si y = Ax , siendo A una matriz (n m) de constantes,
y
x
= A .
loge |A|
1
= [A ]
A
tr(BA1 C)
= (A1 CBA1 )
A
A.3.
(A.13)
(A.14)
Lectura recomendada
Apndice B
e
Distribuciones 2 y F descentradas
indep
Z=
2
2
X1 + . . . + Xn
2
(B.1)
nZ
mV
(B.2)
APENDICE B. ALGUNOS PRERREQUISITOS ESTAD
ISTICOS.
225
B.2.
asint
N( , )
I()
(B.3)
(B.4)
I()
ij
2 ( , y )
.
i j
(B.5)
( ) ( )1 ( ) ( ) I()( ) 2 ;
p
esto permite contrastar hiptesis como H0 : = 0 utilizando como estao
d
stico
( 0 ) I( 0 )( 0 )
(B.6)
( 0 ) I()( 0 ).
(B.7)
o alternativamente
APENDICE B. ALGUNOS PRERREQUISITOS ESTAD
ISTICOS.
B.3.
226
h = arg mx L( , Y )
a
(B.8)
M = arg mx L( , Y ).
a
(B.9)
L(h , Y )
2 .
2 loge
(pq)
L(M , Y )
(B.10)
Apndice C
e
Regresin en S-Plus y R.
o
C.1.
El sistema estad
stico y grco S-Plus
a
C.2.
El sistema estad
stico y grco R
a
228
229
La funcin lsfit.
o
Es el principal bloque constructivo de cualquier procedimiento de regresin. Ajusta una regresin (opcionalmente ponderada) y devuelve una lista
o
o
con los coecientes estimados, los residuos, y otra variada informacin de
o
inters. La sintaxis es la siguiente:
e
lsfit(x, y, wt=<<ver texto>>, intercept=T, tolerance=1.e-07,
yname=NULL)
Argumentos. Los argumentos obligatorios son los siguientes:
x Vector o matriz de regresores. No es preciso inclu una columna de unos:
r
se incluye automticamente a menos que especiquemos intercept=F. Ha
a
de tener tantas las como el argumento y. Puede tener valores perdidos. x
puede ser un vector cuando estamos regresando solo sobre una variable.
y Variable respuesta. Es un vector, o una matriz. Si se trata de una matriz, se
regresa cada una de sus columnas sobre los regresores en x. De esta manera,
una sola invocacin de lsfit puede realizar un gran nmero de regresiones,
o
u
cuando los regresores son comunes a todas ellas. Tambien se permiten valores
perdidos.
Los restantes argumentos son optativos. Si no se especican, se supone que
sus valores son los que aparecen en el ejemplo de sintaxis ms arriba. Sus
a
signicados son los siguientes:
wt
intercept
230
Resultados. La funcin lsfit devuelve una lista con los siguientes como
ponentes:
coef
wt
La funcin leaps.
o
La funcin leaps realiza all-subsets regresin. No debe invocarse con
o
o
un nmero excesivo de regresores, al crecer el esfuerzo de clculo exponenu
a
cialmente con ste.
e
La sintaxis es:
leaps(x, y, wt, int=TRUE, method=
231
names
df
size
label
which
La funcin hat.
o
Se invoca as
:
hat(x, int=TRUE)
en que x es argumento obligatorio y es la matriz de regresores. El argumento int toma el valor T por omisin y seala si se desea inclu en la
o
n
r
matrix x columna de unos.
La funcin devuelve un vector con los elementos diagonales de la matriz
o
de proyeccin X(X X)1 X (los pii del Cap
o
tulo 11).
232
La funcin lm.
o
La funcin lm ajusta un modelo lineal. La sintaxis es:
o
lm(formula,data,weights,subset,na.action,method="qr",
model=F,x=F,y=F,...)
Argumentos. El argumento weights se utiliza para hacer regresin pono
derada, de modo similar a como se hace con lsfit. Los dems argumentos
a
tienen los siguientes signicados:
method
data
formula
Una
expresin
o
del
tipo
Resp Regr01 + Regre02 +
log(Regre03) en que a la izquierda est el regresando y a
a
la derecha los regresores o funciones de ellos.
subset
La funcin lm.influence.
o
La sintaxis es:
lm.influence(ajuste)
233
La funcin ls.diag.
o
La sintaxis es:
ls.diag(ls)
Argumentos. La funcin ls.diag se invoca con un objeto de tipo ls
o
(devuelto por lsfit) por argumento.
Resultados. Produce como resultado una lista con los componentes siguientes:
SSE
.
N p
std.dev
==
hat
1
X(X X) X .
std.res
stud.res
cooks
dfits
correlation
std.err
Desviaciones t
picas estimadas de los parmetros estimados, i .
a
cov.unscaled
C.3.
234
En S-Plus
add1
drop1
leaps
ls.diag
lsfit
lm
lm.influence
multicomp
step
stepwise
-
En R
add1
drop1
leaps
ls.diag
lsfit
lm
lm.influence
regsubsets
step
stepAIC
p.adjust
pairwise.t.test
lm.ridge
Paquete:
base
base
leaps
base
base
base
base
leaps
base
MASS
base
ctest
MASS
Funcionalidad:
Aadir un regresor
n
Eliminar un regresor
Regresin sobre todos los subconjuntos
o
Diagnsticos
o
Ajuste recta regresin
o
Ajuste recta de regresin
o
Anlisis de inuencia
a
Inferencia simultnea
a
Regresin sobre todos los subconjuntos
o
Regresin escalonada
o
Regresin escalonada
o
Regresin escalonada
o
Ajuste p por simultaneidad
Contrastes ms usuales
a
Regresin ridge
o
Apndice D
e
Procedimientos de clculo.
a
D.1.
Introduccin
o
D.2.
Transformaciones ortogonales.
Sea el problema,
m ||Dx c ||2
n
x
(D.1)
= m (Dx c ) Q Q(Dx c )
n
x
= m ||Dx c ||2
n
x
235
236
al ser Q ortogonal.
Denicin D.1 Sea D una matriz de orden n m. Supongamos que puede
o
expresarse del siguiente modo:
D = HRK
en que:
(i) H es n n y ortogonal.
(ii) R es n m de la forma,
R11 0
0 0
con R11 cuadrada de rango completo k m
n(m, n).
(iii) K es m m ortogonal.
Se dice que HRK es una descomposicin ortogonal de D.
o
En general, hay ms de una descomposicin ortogonal, dependiendo de
a
o
la estructura que quiera imponerse a R. Si requerimos que R sea diagonal,
tenemos la descomposicin en valores singulares. Podemos tambin requerir
o
e
que R sea triangular superior, o triangular inferior, obteniendo diferentes
descomposiciones de D.
La eleccin de una descomposicin ortogonal adecuada simplica enoro
o
memente la solucin de (D.1). Los resultados fundamentales vienen recogio
dos en el siguiente teorema.
Teorema D.1 Sea D una matriz de orden n m y rango k, admitiendo la
descomposicin ortogonal,
o
D = HRK .
(D.2)
Sea el problema
m ||Dx y ||2
n
x
y denamos,
H y
= g =
K x = =
g1
k
g2 n k
1
k
.
2 m k
(D.3)
237
u = v + ||v ||e1
||v ||e1
e1
||v ||e1
(u
2u||u ||2v )
o u
R11 1 = g 1 .
Entonces, todas las posibles soluciones del problema (D.3) son de la forma
x = K
,
2
= y Dx = H
0
g2
= ||v ||e1
(D.4)
238
siendo
e1
0
.
.
.
(D.5)
+1
=
Esta matriz tiene por expresin,
o
si v1 0
1 si v1 < 0.
(D.6)
uu
||u ||2
(D.7)
= v + ||v ||e1
= v ||v ||e1
(D.8)
(D.9)
P = I 2
con u = v + ||v ||e1 .
Demostracion:
Entonces (ver Figura D.1),
u
z
1
son ortogonales y v = 2 u + 1 z . Tenemos en consecuencia,
2
Pv
=
=
=
=
=
D.3.
1
1
uu
u+ z
||u ||2
2
2
1
1
u u + z
2
2
1
1
u +v u
2
2
v u
||v ||e1
I 2
(D.10)
(D.11)
(D.12)
(D.13)
(D.14)
Factorizacin QR.
o
(D.15)
239
R
N d
Demostracion:
La prueba es constructiva, y reposa en la aplicacin reiterada de la
o
transformacin de Householder a las columna de la matriz X. Sea x1 la
o
primera de dichas columnas. Existe una transformacin de Householder, de
o
matriz ortogonal P1 que abate dicha primera columna sobre el e1 de la base
cannica de Rn . Es decir,
o
P1 X =
P2 . Entonces,
1 0
P1
0 P2
(D.16)
240
1 0
P1 X =
0 P2
1 0
P2 =
0 P2
el producto P2 P1 reduce las dos primeras columnas de X a forma escalonada. Como tanto P1 como P2 son ortogonales, su producto tambin lo es.
e
Fcilmente se comprueba que el proceso puede continuarse hasta obtener
a
un producto de matrices ortogonales Q = Pd Pd1 . . . P1 que deja X con
sus d primeras columnas escalonadas. Adems, como el rango de X era d,
a
necesariamente las ultimas N d las de R son de ceros.
D.4.
Bibliograf
a
Apndice E
e
E.1.
m y z
n
zM
241
(E.1)
APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES242
(y vn ) (y vm )
(y vn ) + (y vm )
(E.2)
Podemos escribir:
D
=
+
=
(y vn )
(y vn )
2 (y vn )
+
2
2
(y vm )
+ (y vm )
2 < (y vm ), (y vn ) >
+ 2 (y vm )
+ 2 < (y vm ), (y vn ) >
(E.3)
(vm vn )
(vm vn )
2
2
1
+ 2y 2 ( 2 ) (vn + vm )
+ 4 y ( 1 ) (vn + vm )
2
2
2
(E.4)
2 y vn
+ 2 y vm
4 y ( 1 ) (vn + vm )
2
(E.5)
e
d, tenemos:
vm vn
2 (y vn )
+ 2 (y vm )
4d
(E.6)
(y vm )
2
2
d + /4
d + /4.
(E.7)
(E.8)
APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES243
Sustituyendo sto en (E.5) obtenemos:
e
(vm vn )
(E.9)
y v
2
= d+
d.
+ 2 z
2
2 < y v, z(E.10)
>
2 < y v, z >
(E.11)
(E.12)
Por tanto:
2
2 z
2 < y v, z >
2
0,
(E.13)
=
=
=
< y u, y u >
y v
y v
vu
vu
+ 2 < y v, v u >
2
0, y
vu
= 0
APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES244
Observacin E.2
o
Debemos preocuparnos de vericar que estamos ante un espacio de Hilbert? Cmo hacerlo? Cuano
do los regresores generan un espacio de dimension nita, nada de
ello es preciso. Cuando se hace anlisis de series temporales, la mea
jor prediccin lineal en el momento t del valor de la misma en t + 1
o
(prediccin una etapa hacia adelante) se hace proyectando yt+1 soo
bre el subespacio que generan yt , yt1 , yt2 , . . . (todo el pasado de
la serie). Este pasado, al menos en principio, puede ser innito dimensional y aqu s tiene objeto suponer que genera un espacio de
Hilbert para garantizar la existencia de la proyeccin.
o
Ntese, incidentalmente, que en este problema emplear
o
amos una
norma que no ser la eucl
a
dea ordinaria, sino la inducida por el
producto interno < yt , ys >= E[yt ys ] (supuesta estacionariedad y
media cero). Pueden verse ms detalles en la obra ya citada Anderson
a
(1971), Seccin 7.6. Ejemplos del uso del espacio de Hilbert en series
o
temporales pueden verse en Davis (1977), Cap. 2, o Shumway and
Stoer (2006), Apndice B.1.
e
E.2.
Demostracion:
En primer lugar, M h puede expresarse de otro modo que har ms
a a
simple la demostracin. En efecto,
o
M h = M R(B );
(E.15)
APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES245
i) M h R(PM B ). En efecto,
x M h =
=
=
=
=
x M R(B )
a : x = B a
PM x = PM B a
x = PM B a
x R(PM B )
Bibliograf
a
Abadir, K. and Magnus, J. (2005). Matrix Algebra. Cambridge Univ. Press.
Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical
Model Identication. In Proc. 5th. Hawai Int. Conf. on System Sciences,
pp. 249250.
Akaike, H. (1974). Information Theory and an Extension of the Maximum
Likelihood Principle. In B. N. Petrov and F. Csaki, editors, Second International Symposium on Information Theory, pp. 267281, Budapest:
Akademia Kiado.
Akaike, H. (1991). Information Theory and an Extension of the Maximum
Likelihood Principle. In Johnson and Kotz, editors, Breakthroughs in Statistics, volume 1, p. 610 y ss., Springer Verlag.
Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York:
Wiley.
Ansley, C. F. (1985). Quick Proofs of Some Regression Theorems Via the
QR Algorithm. As, 39, 5559.
Arnold, S. F. (1981). The Theory of Linear Models and Multivariate Analysis. New York: Wiley.
Atkinson, A. C. (1985). Plots, Transformations and Regression. Oxford
Univ. Press.
Barnett, V. and Lewis, T. (1978). Outliers in Statistical Data. New York:
Wiley.
Becker, R. A., Chambers, J. M., and Wilks, A. R. (1988). The New S Language. A Programming Environment for Data Analysis and Graphics. Pacic Grove, California: Wadsworth & Brooks/Cole.
246
BIBLIOGRAF
IA
247
BIBLIOGRAF
IA
248
BIBLIOGRAF
IA
249
BIBLIOGRAF
IA
250
BIBLIOGRAF
IA
251