Análisis de Regresión

Anlisis de Regresin.
a
o
Introduccin Terica y
o
o
Prctica basada en R
a
Fernando Tusell
Bilbao, Octubre 2011

Indice general
Indice general
Indice de guras
IV
Indice de cuadros
1 El modelo de regresin lineal.

o
1.1. Planteamiento del problema. . . . .
1.2. Notacin . . . . . . . . . . . . . . .
o
1.3. Supuestos. . . . . . . . . . . . . . .
1.4. MCO como aproximacin vectorial
o
1.5. Proyecciones. . . . . . . . . . . . .
1.6. Lectura recomendada. . . . . . . .
.
.
.
.
.
.
1
1
3
5
7
7
9
.
.
.
.
.
.
.
15
15
17
18
21
28
31
36
.
.
.
.
.
43
43
45
46
49
49
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Estimacin m
o
nimo cuadrtica.
a
2.1. Obtencin de los estimadores de los parmetros.
o
a
2.2. Una obtencin alternativa . . . . . . . . . . . .
o
2.3. Propiedades del estimador m

nimo cuadrtico .
a
2.4. Estimacin de la varianza de la perturbacin. .
o
o
2.5. El coeciente R2 . . . . . . . . . . . . . . . . .
2.6. Algunos lemas sobre proyecciones. . . . . . . . .
2.7. Lectura recomendada . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Identicacin. Colinealidad exacta

o
3.1. Modelos con matriz de diseo de rango deciente.
n
3.2. Funciones estimables. . . . . . . . . . . . . . . . .
3.3. Restricciones de identicacin. . . . . . . . . . . .
o
3.4. Multicolinealidad exacta y aproximada . . . . . .
3.5. Lectura recomendada. . . . . . . . . . . . . . . .
4 Estimacin con restricciones
o
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
50

INDICE GENERAL
ii
4.1. Planteamiento del problema. . . . . . . . . . . . . . . . . . .

4.2. Lemas auxiliares. . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Estimacin condicionada. . . . . . . . . . . . . . . . . . . . .
o
5 Especicacin inadecuada del modelo
o
5.1. Introduccin. . . . . . . . . . . . . .
o
5.2. Inclusin de regresores irrelevantes. .
o
5.3. Omisin de regresores relevantes. . .
o
5.4. Consecuencias de orden prctico . . .
a
.
.
.
.
.
.
.
.
6 Regresin con perturbaciones normales.

o
6.1. Introduccin. . . . . . . . . . . . . . . .
o
6.2. Contraste de hiptesis lineales. . . . . . .
o
6.3. Intervalos de conanza para la prediccin
o
6.4. Lectura recomendada. . . . . . . . . . .
7 Regresin con R
o
7.1. Tipolog de variables explicativas.
a
7.2. Factores y dataframes. . . . . . . .
7.3. Frmulas . . . . . . . . . . . . . . .
o
7.4. La funcin lm. . . . . . . . . . . . .
o
7.5. Lectura recomendada. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Inferencia simultnea.
a
8.1. Problemas que plantea el contrastar mltiples hiptesis
u
o
multneas . . . . . . . . . . . . . . . . . . . . . . . . . .
a
8.2. Desigualdad de Bonferroni. . . . . . . . . . . . . . . . . .
8.3. Intervalos de conanza basados en la mxima t. . . . . .
a
8.4. Mtodo S de Sche. . . . . . . . . . . . . . . . . . . . .
e
e
8.5. Empleo de mtodos de inferencia simultnea. . . . . . . .
e
a
9 Multicolinealidad.
9.1. Introduccin. . . . . . . . . . . . . . . . . . .
o
9.2. Una aproximacin intuitiva . . . . . . . . . .
o
9.3. Deteccin de la multicolinealidad aproximada
o
9.4. Caracterizacin de formas lineales estimables.
o
9.5. Varianza en la estimacin de una forma lineal.
o
9.6. Eleccin ptima de observaciones. . . . . . . .
o o
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
50
51
53
.
.
.
.
60
60
60
63
64
.
.
.
.
65
65
72
80
81
.
.
.
.
.
83
83
85
90
97
105
106
si. .
. .
. .
. .
. .
106
111
112
114
119
.
.
.
.
.
.
122
122
123
125
127
130
131
.
.
.
.
.
.
10 Regresin sesgada.
o
136
10.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . 136
o
10.2. Una aproximacin intuitiva. . . . . . . . . . . . . . . . . . . 137
o

INDICE GENERAL
10.3. Regresin ridge. . . . . . . . . . . . . .
o
10.4. Regresin en componentes principales.
o
10.5. Regresin en ra latentes . . . . . .
o
ces
10.6. Lectura recomendada . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
150
158
162
11 Evaluacin del ajuste. Diagnsticos.

o
o
165
11.1. Anlisis de residuos. . . . . . . . . . . . . . . . . . . . . . . 165
a
11.2. Anlisis de inuencia. . . . . . . . . . . . . . . . . . . . . . . 170
a
11.3. Anlisis grco de residuos . . . . . . . . . . . . . . . . . . . 174
a
a
12 Seleccin de modelos.
o
12.1. Criterios para la comparacin. . . . . . . . .
o
12.2. Seleccin de variables. . . . . . . . . . . . .
o
12.3. El LASSO . . . . . . . . . . . . . . . . . . .
12.4. Modelos bien estructurados jerrquicamente
a
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
180
180
189
200
201
13 Transformaciones
204
13.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
o
13.2. Transformaciones de los regresores . . . . . . . . . . . . . . . 204
13.3. Transformaciones de la variable respuesta . . . . . . . . . . . 207
14 Regresin con respuesta cualitativa
o
211
14.1. El modelo logit. . . . . . . . . . . . . . . . . . . . . . . . . . 211
A Algunos resultados en Algebra Lineal.
220
A.1. Resultados varios sobre Algebra Matricial. . . . . . . . . . . 220
A.2. Clculo diferencial con notacin matricial . . . . . . . . . . . 222
a
o
A.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . 223
B Algunos prerrequisitos estad
sticos.
224
2
B.1. Distribuciones y F descentradas . . . . . . . . . . . . . . 224
B.2. Estimacin mximo veros
o
a
mil . . . . . . . . . . . . . . . . . 225
B.3. Contraste razn generalizada de verosimilitudes . . . . . . . 226
o
C Regresin en S-Plus y R.
o
C.1. El sistema estad
stico y grco S-Plus . . . . . . . . . . . .
a
C.2. El sistema estad
stico y grco R . . . . . . . . . . . . . . .
a
C.3. Correspondencia de funciones para regresin y ANOVA en
o
S-Plus y R . . . . . . . . . . . . . . . . . . . . . . . . . . .
227
227
227
234
D Procedimientos de clculo.
a
235
D.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
o
D.2. Transformaciones ortogonales. . . . . . . . . . . . . . . . . . 235

D.3. Factorizacin QR. . . . . . . . . . . . . . . . . . . . . . . . . 238
o
D.4. Bibliograf . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
a
E Enunciados y demostraciones formales
241
E.1. Existencia y unicidad de proyecciones. . . . . . . . . . . . . 241
E.2. Proyeccin sobre subespacios h = M K(B). . . . . . . . . 244
o
Bibliograf
a
246
Indice de guras
1.1. Old Faithful Geyser: datos de 272 erupciones. . . . . . . . . . .
1.2. El vector PM y es la proyeccin de y sobre M (plano horizontal).
o
2
8
2.1. X es la proyeccin de y sobre M. R2 = cos2 . . . . . . . . .

o
2.2. En un ajuste sin trmino constante, la pendiente depende de la
e
eleccin arbitraria del origen . . . . . . . . . . . . . . . . . . . .
o
29
42
3.1. Regresin en el caso de matrix X de rango deciente. . . . . . .

o
3.2. Caso de un vector parcialmente estimable. . . . . . . . . . . .
44
45
9.1. Multicolinealidad exacta (panel superior) y aproximada (panel

inferior). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
10.1. Componentes del ECM( (k) ) en el estimador ridge. Las l

neas de
trazos y puntos representa respectivamente la varianza y (sesgo)2
de (k) en funcin de k. La curva slida representa ECM[ (k) ].

o
o
La l
nea horizontal es la varianza (y ECM) del estimador MCO.143
10.2. Trazas ridge y GVC para los datos longley . . . . . . . . . . . 147
11.1. Una observacin como a tiene residuo borrado muy grande, y
o
gran inuencia en la pendiente de la recta de regresin. . . . . . 171
o
11.2. Grcos para contraste de normalidad . . . . . . . . . . . . . . 177
a
2
12.1. Valores de Cp y R para 141 modelos ajustados a los datos UScrime194
iv
13.1. Disposicin de residuos sugiriendo una transformacin cuadrtio

o
a
ca del regresor Xi . . . . . . . . . . . . . . . . . . . . . . . . . . 205
D.1. Visualizacin de la transformacin de Householder. . . . . . . . 237
o
o
Indice de cuadros
C.1. Equivalencia de funciones para regresin y ANOVA en S-Plus
o
y R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Introduccin
o
Lo que sigue contiene una introduccin muy concisa al anlisis de reo
a
gresin, concebida como apoyo de las clases. Hay varios niveles de lectura:
o
en un primer nivel, las Observaciones que jalonan el texto pueden en su
mayor omitirse, sin prdida de continuidad. Ello proporciona una lectura
a
e
bastante lineal.
Si se desea una lectura ms detallada, con digresiones que, no siendo
a
imprescindibles, pueden mejorar la comprensin del conjunto, conviene leer
o
tanto las observaciones como las secciones de Complementos y ejercicios al n de cada cap
tulo: son parte integrante del texto a este segundo
nivel y completan muchos detalles.
A lo largo del texto, tanto en demostraciones como en ejercicios o complementos se ha hecho uso abundante del s
mbolo de giro peligroso mostrado
en el margen, popularizado por la obra clsica Knuth (1986). Se trata de
a
fragmentos que corresponder a un tercer nivel, con detalles de inters,
an
e
extensiones de alguna idea, referencias a la literatura o ejercicios y demostraciones de mayor dicultad. La echa vertical remite a algn ejercicio,
u
observacin o ejemplo que son requisito previo.
o
Hay un mundo de diferencia entre saber cmo se hacen las cosas y sao
ber hacerlas. Querr
amos que los alumnos supieran hacerlas. La experiencia
sugiere que lo que resulta de ms ayuda al lector es ver ejemplos de aplicaa
cin detallados, que pueda reproducir o modicar para resolver sus propios
o
problemas. Intercalados entre la teor hay fragmentos en R, que el lector
a
puede ejecutar o tomar como modelo. Todos se han ejecutado con R versin
o
2.13.2.
No se ha buscado el cdigo ms terso ni la forma ms rpida o elegante
o
a
a a
de hacer las cosas, sino la que ilustra mejor la teor
a.
vi
Cap
tulo 1
El modelo de regresin lineal.

o
1.1.
Planteamiento del problema.
Son frecuentes en la prctica situaciones en las que se cuenta con obsera

vaciones de diversas variables, y es razonable pensar en una relacin entre
o
ellas. El poder determinar si existe esta relacin y, en su caso, una forma
o
funcional para la misma es de sumo inters. Por una parte, ello permitie
r conocidos los valores de algunas variables, efectuar predicciones sobre
a,
los valores previsibles de otra. Podr
amos tambin responder con criterio
e
estad
stico a cuestiones acerca de la relacin de una variable sobre otra.
o
Ejemplo 1.1 La Figura 1.1 (pg. 2), muestra una grca recoa
a
giendo datos correspondientes a 272 erupciones del geyser Old Faithfull, en el Parque Nacional de Yellowstone (los datos proceden de
Cook and Weisberg (1982)). En abscisas se representa la duracin
o
de las erupciones. En ordenadas, el intervalo de tiempo transcurrido
hasta la siguiente erupcin.
o
A la vista del grco, parece evidente que existe una relacin ena
o
tre ambas variables erupciones de duracin D corta son seguidas
o
de otras tras un intervalo de tiempo I ms reducido que en el caso
a
de erupciones largas. Podr interesarnos contrastar con criterio
a
estad
stico si tal relacin existe (en el caso presente, la relacin es
o
o
tan n
tida que el plantearse el contraste de hiptesis correspondiente
o
no tendr demasiado sentido). Ms interesante, en el caso presente,
a
a
ser llegar a una expresin del tipo I = f (D) relacionando el intera
o
valo con la duracin (ello nos permitir anticipar en qu momento
o
a
e
se presentar la siguiente erupcin, conocida la duracin D que se
a
o
o
ha observado en la anterior).
Es claro que la relacin I = f (D) no puede ser exacta es dif
o
cil
pensar en una funcin que pase precisamente por cada uno de los 272
o
1

CAP
ITULO 1. EL MODELO DE REGRESION LINEAL.
4.0
3.5
3.0
2.5
1.5
2.0
Intervalo en minutos (I)
4.5
5.0
Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.
50
60
70
80
90
Duracin en minutos (D)
puntos en la Figura 1.1. Habremos de considerar ms bien funcioa

nes del tipo I = f (D) + , en que el valor de I es una cierta funcin
o
(desconocida) de D ms una cantidad aleatoria inobservable . Decia
mos que f (D) es una funcin de regresin de I sobre D, y nuestro
o
o
objetivo es especicar su forma. Habitualmente realizamos para ello
supuestos simplicadores, como el de que f (D) es una funcin lineal.
o
Fin del ejemplo
Es de inters sealar que el ajuste de un modelo de regresin no se limita

e n
o
a analizar la relacin entre dos variables; en general, buscaremos relaciones
o
del tipo
Y = f (X0 , X1 , . . . , Xp1 ) + ,
relacionando de manera aproximada los valores de Y con los que toman
otras variables, X0 , . . . , Xp1. Por simplicidad, limitaremos por el momento

CAP
nuestra atencin a funciones f (X0 , . . . , Xp1 ) lineales; el modelo resultante

o
es el modelo de regresin lineal, que se examina en la Seccin 1.2 a contio
o
nuacin.
o
Sealemos, nalmente, que el hecho de aislar una variable Y al lado izn
quierdo y escribirla como funcin de otras ms una perturbacin aleatoria
o
a
o
no prejuzga ninguna relacin de causalidad en ningn sentido; slo postulao
u
o
mos la existencia de una relacin cuya forma y alcance queremos investigar.
o
En el Ejemplo 1.1, el ajuste de un modelo del tipo I = f (D) + no implica
que consideremos que la duracin D causa el subsiguiente intervalo I hasta
o
la prxima erupcin, sino slo que parece existir una relacin entre ambas
o
o
o
o
variables.
1.2.
Notacin
o
Consideramos una variable aleatoria Y (regresando, respuesta, o variable endgena) de la que suponemos que se genera as
o
:
Y
= 0 X0 + 1 X1 + + p1 Xp1 + ,
(1.1)
siendo:
1. 0 , . . . , p1 , parmetros jos desconocidos.
a
2. X0 , . . . , Xp1 , variables explicativas no estocsticas, regresores, cuyos
a
valores son jados por el experimentador. Frecuentemente X0 toma el
valor constante uno.
3. una variable aleatoria inobservable.
La ecuacin (1.1) indica que la variable aleatoria Y se genera como
o
combinacin lineal de las variables explicativas, salvo en una perturbacin
o
o
aleatoria . En el Ejemplo 1.1, Y ser la variable I, y el unico regresor
a
ser la variable D. Si decidimos ajustar un modelo con trmino constante

a
e
0 , tendr
amos como regresores D y X0 =uno. La funcin que aparece en
o
(1.1) ser entonces f (D) = 0 + 1 D.
a
El problema que abordamos es el de estimar los parmetros desconocia
dos 0 , . . . , p1. Para ello contamos con una muestra de N observaciones
de la variable aleatoria Y , y de los correspondientes valores de las variables explicativas X. Como se ha dicho, es inobservable. La muestra nos

CAP
permitir escribir N igualdades similares a (1.1):

a
y1 = 0 x1,0 + 1 x1,1 + + p1 x1,p1 + 1
y2 = 0 x2,0 + 1 x2,1 + + p1 x2,p1 + 2
.
.
.
yN = 0 xN,0 + 1 xN,1 + + p1xN,p1 + N .
En forma matricial, escribiremos dichas N igualdades as
:
y = X + ,
(1.2)
siendo:
y el vector N 1 de observaciones de la variable aleatoria Y,
X la matriz N p de valores de las variables explicativas. Su elemento
xij denota el valor que la jsima variable explicativa toma en la i
e
sima observacin,
e
o
el vector de parmetros (0 , . . . , p1 ) ,
a
el vector N 1 de valores de la perturbacin aleatoria .
o
Denotaremos mediante al vector de estimadores de los parmetros,

a
es decir,
y por al vector N 1 de residuos, denido por = y X ;
los residuos recogen la diferencia entre los valores muestrales observados y

ajustados de la variable aleatoria Y .
Utilizamos minsculas para designar valores muestrales y maysculas
u
u
para las correspondientes variables aleatorias (as por ejemplo, y denota el
vector de valores observados de la variable aleatoria Y en una determinada

experimentacin). El contexto aclarar, por otra parte, cuando y son
o
a
variables aleatorias o valores muestrales.
Adoptaremos para la estimacin el criterio m
o
nimo cuadrtico ordinaa
es ptimo si y X 2 es
rio (MCO). Por consiguiente, diremos que

o
m
nimo, denotando la norma eucl
dea ordinaria:
y
def
2
yi
(ver Denicin A.2, pg. 220).

o
a
Observacin 1.1 El suponer que los valores de los regresores
o
pueden ser jados por el analista (apartado 2, al comienzo de esta

CAP
Seccin) nos coloca en una situacin de diseo experimental. De ah

o
o
n
que a la matriz X se la denomine matriz de diseo.

n
Muchas veces (notablemente en Ciencias Sociales) no es posible
jar los valores de X, sino tan solo recolectar una muestra. Decimos
entonces que estamos ante una situacin observacional (en oposicin
o
o
a un dise o experimental). Ello no afecta a la teor que sigue; la
n
a
inferencia sobre los parmetros , etc. es entonces condicional a los
a
valores observados de X.
Observacin 1.2 El criterio de seleccionar como estimadores

o
2 es totalmente arbitrario.
de el vector minimizando y X
En lugar de minimizar la norma eucl
dea ordinaria, podr
amos mini L1 (suma de los valores absolutos de los errores de
mizar ||y X ||
aproximacin, tambin llamada norma L1 ), o cualquier otra cosa. Si
o
e
se emplea la norma eucl
dea es por conveniencia matemtica y por
a
ser un criterio razonable desde diversos puntos de vista.
Observacin 1.3
o
Por qu introducir la norma euclidea
e
y no limitarnos a proponer como criterio la minimizacin de
o
yi 0 xi0 1 xi1 . . . p1 xi,p1
Si realizamos las demostraciones en trminos de normas, servirn

e
a
sea cual fuere la norma que adoptemos. Muchos resultados sern as
a
todo terreno, trasladables de inmediato a problemas con supuestos

diferentes a los realizados en la Seccin 1.3 a continuacin. Veremos
o
o
en breve (Observacin 2.1, pg. 16) ventajas adicionales de plantear
o
a
y resolver el problema en trminos de aproximacin vectorial, minie
o
mizando una norma.
1.3.
Supuestos.
Adems de suponer que Y = X + y que la matriz X es no aleatoria,

a
requeriremos lo siguiente:
1.
E[ ] = 0.
2.
E[ ] = 2 I.
3.
rango(X) = p < N.

CAP
Nos referiremos a 1)3) en lo sucesivo como los supuestos habituales.

El supuesto 1) no implica prdida de generalidad ni supone ninguna
e
restriccin, al menos en el caso en que X tiene entre sus columnas una
o
cuyos valores sean constantes (y sto suele suceder; t
e
picamente, la primera
columna est formada por unos). En efecto, es claro que si:
a
Y
= 0 1 + 1 x 1 + + p1 x p1 +
(1.3)
y el vector de perturbaciones verica E[ ] = , entonces (1.3) puede reescribirse equivalentemente como:

Y
= (0 1 + ) + 1 x1 + + p1 xp1 + ( ),
(1.4)
y (1.4) incorpora un vector de perturbaciones ( ) vericando el primero

de nuestros supuestos.
El supuesto 2), bastante ms restrictivo, requiere que las perturbaciones
a
sean incorrelacionadas (covarianzas cero) y homoscedsticas (de idntica
a
e
varianza).
El supuesto 3) simplemente fuerza la independencia lineal entre las (p)
columnas de X. El requerimiento N > p excluye de nuestra consideracin
o
el caso N = p, pues entonces y = X es un sistema de ecuaciones linea

les determinado, y tiene siempre solucin para algn vector que hace los
o
u
residuos nulos. Las estimaciones del vector se obtendr entonces rean
solviendo dicho sistema. Veremos en lo que sigue que este caso particular
carece de inters (se dice que no tiene grados de libertad).
e
Algunos de los supuestos anteriores sern relajados, y las consecuencias
a
que de ello se derivan estudiadas.
Observacin 1.4 Nada impide que los regresores sean transo
formaciones adecuadas de las variables originales. Por ejemplo, si
pensamos que la variable aleatoria Y depende del cuadrado de Xk y
de otras variables, podr
amos especicar un modelo de regresin as
o
:
Y
= 0 + 1 x1 + + k x2 + + p1 xp1 + .
k
Anlogamente, si pensramos que la variable aleatoria W se genera

a
a
del siguiente modo:
W
= kz1 1 z2 2 ,
siendo una perturbacin aleatoria no negativa (por ejemplo, con

o
distribucin logar
o
tmico normal), nada impedir que tomramos loa
a
garitmos para obtener
Y = log(W ) = 0 + 1 x1 + 2 x2 + ,

CAP
en que xi = log(zi ), 0 = log(k) y = log(). Lo que realmente se

requiere es que la expresin de la variable endgena o regresando Y
o
o
sea lineal en los parmetros.
a
1.4.
La estimacin m
o
nimo cuadrtica como
a
problema de aproximacin vectorial.
o

La ecuacin matricial y = X + puede reescribirse as
o
:
y
= 0 x0 + + p1xp1 + ,
(1.5)
donde x0 , . . . , xp1 denotan los vectores columna de la matriz X (x0 ser

a
en general una columna de unos, como se ha indicado). Hay diferentes
posibilidades en cuanto a criterio de estimacin de los . Si adoptamos
o
el criterio MCO propuesto ms arriba, consistente en minimizar 2 , la
a
ecuacin (1.5) muestra que el problema puede reformularse as Cuales

o
:
0 , . . . , p1 que hacen que la combinacin lineal 0 x0 +
son los coecientes

o
+ p1 xp1 aproxime ptimamente (en sentido m

o
nimo cuadrtico) el
a
vector y ? Veremos inmediatamente que esta combinacin lineal es lo que
o
llamaremos proyeccin de y sobre el subespacio generado por las columnas
o
x0 . . . , xp1 .
1.5.
Proyecciones.
Aunque en lo que sigue se hace un tratamiento generalizable, impl

citamente consideramos productos internos (vase Denicin A.1, pg. 220)
e
o
a
real-valorados, lo que simplica algunas frmulas. Hacemos tambin un uso
o
e
bastante tosco del lenguaje y notacin, identicando vectores con matrices
o
columna, operadores lineales y matrices asociadas a ellos, etc. Lo inadecuado del formalismo puede ser fcilmente suplido por el lector, y evita notacin
a
o
que podr hacerse agobiante.
a
Denicin 1.1 Sea H un espacio vectorial. Sea M H un subespacio del
o
mismo, e y H un vector cualquiera. Decimos que u es proyeccin de y
o
sobre M (y lo denotamos por u = PM y ) si:
1.
u M,
2.
u=y
3.
(y u) M
si
y M,
si
y M.
/

CAP
Figura 1.2: El vector PM y es la proyeccin de y sobre M (plano horizontal).

o
PM y
b
Siempre existe (y es unica) la proyeccin de un vector en H sobre el
o
subespacio M, tal como establece el teorema siguiente1 .
Teorema 1.1 Sea H un espacio vectorial, y M un subespacio del mismo.
Para cualquier vector y H existe siempre un unico vector u = PM y ,
proyeccin de y sobre M. Se verica que:

o
y u
m
n
zM
y z
(1.6)
La Fig. 1.2 ilustra en tres dimensiones la nocin de proyeccin, y hace

o
o
intuitivamente evidente el Teorema 1.1. En dicha gura se ha considerado
H = R3 y un subespacio M de dimensin dos representado como el plano
o
horizontal. Consideremos PM y : podr
amos describirlo como el obtenido al
dejar caer una plomada desde el extremo de y hasta hacer contacto con M.
Es claro que = y PM y es ortogonal a M. Como consecuencia, para
cualquier vector b = PM y en M, y b es la hipotenusa de un tringulo

a
1
Estrictamente incorrecto. El Teorema E.1, pg. 242 es una versin ms elaborada

a
o
a
del Teorema 1.1.

CAP
rectngulo, cuyos catetos son y el segmento b PM y . Por tanto,

a
y b
b PM y
>
lo que demuestra la propiedad de PM y de ser la mejor aproximacin de

o
y en M. (Una demostracin formal que va ms all de esta incompleta
o
a
a
argumentacin puede encontrarse en la Seccin E.1, pg. 242.)
o
o
a
1.6.
Lectura recomendada.
Sobre la teor
a. Puede leerse como complemento a este cap
tulo Faraway (2005), Cap. 1 y Cap. 2, Seccin 1 a 3, o los cap
o
tulos introductorios de
la mir
ada de buenos textos que existe sobre regresin lineal: Seber (1977),
o
Stapleton (1995), Arnold (1981), Draper and Smith (1998), Fox (2002), Pena (2002), Myers (1990), Searle (1971), Ryan (1997) o Trocniz (1987a) son
o
algunos de ellos.
Sobre la utilizacin de R. El primero de los libros citados, Faraway
o
(2005), ilustra tambin el modo de emplear R para hacer regresin (pero
e
o
es demasiado escueto para servir de introduccin al lenguaje). R es una
o
implementacin de fuente libre del lenguaje estad
o
stico y grco S (ver por
a
ejemplo Becker et al. (1988), Chambers and Hastie (1992) o Chambers
(1998)). Los textos introductorios sobre S son por ello utilizables con R.
Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec
co para R, Venables and Ripley (1999b)), Dalgaard (2002), o
Ugarte et al. (2008). Hay documentos con extensin de libro disponibles en
o
Internet, como Maindonald (2000) o Kuhnert and Venables (2005).

CAP
10
Complementos y ejercicios
Algunos de los ejercicios que siguen requieren hacer uso de un ordenador
y un programa especializado, tal como R. En la Seccin 1.6, pg. 9, se
o
a
proporcionan referencias.
1.1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-. Por ejemplo,
x <- 5
El valor de la variable puede ser utilizado en clculos subsiguientes;
a
tecleando
x + 5
obtendr
amos 10.
1.2 En R para crear un vector y asignarlo a la variable x

haremos:
x <- c(1,3,4)
1.3 Para efectuar multitud de clculos en R empleamos funcioa

nes. Por ejemplo, para sumar varios n meros y asignar el resultado
u
a x podr
amos escribir:
x <- 5 + 7 + 12
o tambin
e
x <- sum(c(5,7,12))
que hace uso de la funcin sum.
o
1.4 El producto interno eucl

deo de dos vectores x e y puede
calcularse as
:
sum(x * y)
o alternativamente:

CAP
x %*% y
1.5 En R rige la regla del reciclado, que permite operar con

operandos disimilares. Por ejemplo, si:
a <- c(1,2,3)
b <- 5
entonces, tecleando
a + b
obtendr
amos el vector (6 7 8) . El argumento ms corto, b, se ha
a
usado repetidamente para construir un operando que pueda sumarse
a a.
1.6 En R es muy fcil acceder a elementos aislados de un veca

tor. Por ejemplo, si:
a <- c(6,7,8)
entonces, tecleando las expresiones que aparece a la izquierda obtendr
amos los resultados que se indican a la derecha:
a
a[1]
a[1:2]
a[c(1,2)]
a[-1]
a[-(1:2)]
a[c(F,F,T)]
a[a>6]
produce:
produce:
produce:
produce:
produce:
produce:
produce:
produce:
6
6
6
6
7
8
8
7
7 8
7
7
8
Los sub
ndices se ponen entre corchetes, [ ]. Un sub
ndice negativo
se interpreta como omitir el correspondiente valor. Adems de suba
ndices numricos, podemos emplear sub

e
ndices lgicos: F (falso) y T
o
(cierto). Podemos incluso, como en la ultima l
nea, emplear expresiones que den como valor un vector lgico: a > 6 produce el vector
o
F T T, que empleado como sub
ndices retorna los elementos de a
mayores que 6.
11

CAP
1.7 La funcin help permite interrogar a R sobre el modo de
o
empleo de cualquier funcin. Por ejemplo, para obtener la descripcin
o
o
de sum podr
amos teclear:
help(sum)
Emplese la funcin help para averiguar el cometido de las siguientes
e
o
funciones de R: t, cbind, rbind, solve, scan, read.table, list,
nrow, ncol. Obsrvese que tecleando
e
example(scan)
podemos ejecutar los ejemplos que aparecen en la documentacin on
o
line sin necesidad de reteclearlos. Obsrvese tambin que el mandato
e
e
help.start() abre una ventana de ayuda en un navegador si es
que hay alguno instalado en la mquina que empleamos, lo que
a
permite navegar cmodamente por la documentacin.
o
o
1.8 Cuando escribimos expresiones como

sum(x * y)
estamos empleando funciones predenidas (en este caso, sum). En
R no necesitamos limitarnos a ellas; el lenguaje es extensible por el
usuario. Podr
amos denir una funcin eucl para realizar el proo
ducto interno as
:
eucl <- function(x,y) { sum(x*y) }
que asigna a eucl la funcin especicada en el lado derecho. Para
o
invocarla con los vectores u y v, teclear
amos: eucl(u,v).
Una funcin puede emplearse como bloque constructivo de otras,
o
y esto hasta el nivel de complejidad que se desee. La norma eucl
dea
podr calcularse mediante una funcin denida as
a
o
:
norma.eucl <- function(x) {
sqrt(eucl(x,x)) }
que hace uso de eucl denida anteriormente. Tras esta denicin,
o
podemos calcular la norma eucl
dea de un vector x tecleando simplemente:
norma.eucl(x)
En realidad, la denicin de una funcin como eucl es innecesaria:
o
o
en R podemos emplear x %* % x (o alternativamente crossprod(x))
que cumplen anlogo cometido.
a
12

CAP
1.9 Recordemos que el producto eucl
deo (o escalar ) de dos
vectores x , y en R3 verica:
< x , y >= ||x ||||y || cos()
siendo el ngulo que ambos vectores forman. Esta igualdad se
a
extiende a RN deniendo cos() convenientemente (vase Denie
cin A.3, pg. 220). Sea PM y la proyeccin de y sobre el subespacio
o
a
o
M . Si ||x || = 1, del esquema a continuacin inmediatamente se deo
duce que < x , y >= ||PM y ||, siendo M el subespacio generado por
x.
y
PM y
Ded zcase que, en el caso general en que ||x || = 1, se verica:

u
PM y =
< x,y >

x
< x,x >
1.10 Escr
base una funcin que, dados dos vectores arbitrarios
o
x e y , obtenga el vector proyeccin del segundo sobre el espacio
o
(unidimensional) generado por el primero. Comprubese que el vector
e
z resultante es efectivamente la proyeccin buscada, para lo cual es
o
preciso ver: i) Que z es colineal con x , y ii) Que (y z ) x .
1.11 Demustrese que los siguientes cuatro vectores de R3 son

e
un sistema generador de dicho espacio, pero no base.

0 , 0 , 1 , 1
1.12 ( 1.11) Seleccinese, de entre los cuatro vectores indicao

dos en el Problema 1.11, tres que formen base de R3 .
1.13 ( 1.10) Los siguientes dos vectores generan un subespacio 2-dimensional de R3 . Encuentrese por ejemplo, mediante el
procedimiento de Gram-Schmidt una base ortonormal de dicho
subespacio.

1
2

0 , 3
0
1
13

CAP
1.14 Demustrese que la correspondencia PM : x y =
e
PM x es una aplicacin lineal.

o
1.15
La estimacin de un modelo de regresin lineal
o
o
realiza una aproximacin del vector respuesta Y similar a la que
o
llevar a cabo una red neuronal compuesta por una unica neuroa
na. Similar porque en el caso de una red neuronal la estimacin

o
(entrenamiento o aprendizaje) se realiza de ordinario mediante un
proceso iterativo, cuyo resultado no necesariamente ha de coincidir
exactamente con la estimacin MCO. Un excelente manual sobre reo
des neuronales es Haykin (1998). Textos que tratan redes neuronales
desde una perspectiva estad
stica son Ripley (1996) y Bishop (1996).
1.16
Hay alternativas a la regresin lineal: regresin
o
o
no lineal y regresin no paramtrica (en que se considera una reo
e
lacin entre regresores y regresando que no est constre ida a ser
o
a
n
lineal ni de ninguna otra forma funcional prejada). En regresin no
o
paramtrica se emplean principalmente tres mtodos: kernels, vecie
e
nos ms prximos y splines. Pueden consultarse, por ejemplo, Hastie
a
o
et al. (2001) y Eubank (1988).
1.17
Como se ha indicado en la Observacin 1.2, pg. 5,

o
a
hay alternativas al criterio MCO. En lugar de minimizar la suma de
cuadrados de los residuos, podr
amos minimizar la suma de sus valoN
res absolutos: i=1 || (norma L1 del vector de residuos). Uno de sus

atractivos es que los resultados resultan menos afectados por observaciones con residuo muy grande; pero es computacionalmente mucho
ms costosa.
a
14
Cap
tulo 2
Estimacin m
o
nimo cuadrtica.
a
2.1.
Obtencin de los estimadores de los pao

rmetros.
a
Si y es un vector N 1, consideremos H = RN y M = subespacio

generado por las columnas de X. Si dotamos a H del producto interno
eucl
deo < v, w > = v w, de las Secciones 1.4 y 1.5 inmediatamente se
deduce que el vector en M ms prximo a y (en el sentido de minimizar la
a
o
norma al cuadrado del vector de residuos ) es la proyeccin de y sobre
o
M. Como M es el
M. Por consiguiente, ha de vericarse que (y X )
subespacio generado por las columnas de X,
X 0 (y X )
X 1 (y X )
.
.
.
.
.
.
X p1 (y X )
(2.1)
(2.2)
(2.3)
(2.4)
que podemos reunir en la igualdad matricial
X (y X ) = 0
y de aqu se deduce que:
X X = X y .
(2.5)
La igualdad matricial anterior recoge las ecuaciones normales. Si, como

suponemos, rango(X) = p, entonces (X X) es de rango completo, y posee
inversa. Por tanto, el vector de estimadores de los parmetros ser:
a
a
= (X X)1 X y .
15
(2.6)
CAP
ITULO 2. ESTIMACION M
INIMO CUADRATICA.
16
Obsrvese que el supuesto de rango total de la matriz X y consiguiene

temente de (X X) es requerido exclusivamente para pasar de (2.5) a (2.6).
Las ecuaciones normales se verican en todo caso, y la proyeccin de y soo
bre M es tambin unica (Teorema 1.1, pg. 8). El defecto de rango en X
e
a
tiene tan solo por consecuencia que el vector deja de estar un

vocamente
determinado. Volveremos sobre esta cuestin al hablar de multicolinealidad.
o
De (2.6) se deduce tambin que, en el caso de rango total, la proyeccin
e
o
de y sobre M viene dada por
PM y = X(X X)1 X y ,
(2.7)
y el vector de residuos por
=
=
=
=
y X
y X(X X)1 X y
(I X(X X)1 X )y
(I PM )y .
(2.8)
(2.9)
(2.10)
(2.11)
Observacin 2.1 El ser X proyeccin de y sobre M garantio

o
za sin ms que
a
es m
nimo. Si hubiramos obtenido derivando

e
yi 0 xi0 1 xi1 . . . p1 xi,p1
e igualando las derivadas a cero (ver Observacin 1.3, pg. 5), obo
a
del que todo lo que podr
tendr
amos un
amos armar es que corresponde a un punto estacionario de la expresin anterior (suma
o
de cuadrados de los residuos). Para establecer que se trata de un
m
nimo, habr
amos de tomar a n segundas derivadas y vericar el
u
cumplimiento de las condiciones de segundo orden.
Podemos ver X y como las proyecciones de y sobre dos espacios
mutuamente ortogonales: M y M . Las matrices PM e (I PM ) que, para

aligerar la notacin, denominaremos en lo sucesivo P e (I P ), sobreeno
tendiendo el subespacio M, tienen algunas propiedades que detallamos a
continuacin.
o
Teorema 2.1 Sean P e (I P ) las matrices de proyeccin denidas en el
o
prrafo anterior. Se verica lo siguiente:
a
1. Las matrices P e (I P ) son simtricas e idempotentes.
e
2. rango(I P ) = N p.
CAP
INIMO CUADRATICA.
17
3. Se verica que (I P )X = 0.
Demostracion:
El apartado 1) es inmediato. En cuanto a 2), siendo (I P ) idempotente,
su rango coincide con su traza (vase Teorema A.1, pg. 220). Por tanto:
e
a
rango(I P ) = traza(I P )
= traza(I) traza(P )
= N traza[X(X X)1 X ]
= N traza[(X X)1 X X]
= N p.
(2.12)
(2.13)
(2.14)
(2.15)
(2.16)
El apartado 3), por ultimo, se prueba sin ms que efectuar el producto
a
matricial indicado. Es adems inmediato si reparamos en que la matriz (I
a
P ) proyecta sobre el subespacio M , por lo que su producto por cualquiera
de los vectores columna de X (pertenecientes a M) da el vector 0.
2.2.
Una obtencin alternativa

o
La obtencin del vector de estimadores en la seccin precedente tiene

o
o
muchos mritos, y no es el menor el de proporcionar intuicin geomtrie
o
e
ca acerca de la solucin m
o
nimo cuadrtica ordinaria (MCO). Tendremos
a
ocasiones abundantes de explotar esta intuicin.
o
Podemos seguir una v alternativa para llegar al mismo resultado: plana
tear el problema en forma de minimizacin respecto a de la expresin:
o
o
N
i=1
(yi 0 xi0 1 xi1 . . . p1 xi,p1 )2 ,
(2.17)
tal como suger la Observacin 2.1. Con notacin matricial, el problema

a
o
o
puede reescribirse as
:
m (y X ) (y X ).
n
(2.18)
La suma de cuadrados anterior es una forma cuadrtica de matriz unidad.

a
Haciendo uso de la frmula (A.12), pg. 222, obtenemos las condiciones de
o
a
primer orden
2X (y X ) = 0 ,
(2.19)
CAP
INIMO CUADRATICA.
18
o equivalentemente
X y = (X X) ,
(2.20)
que son las ecuaciones normales (2.5).

Es fcil comprobar tomando las segundas derivadas que la solucin (o
a
o
soluciones, si hay ms de una) del sistema de ecuaciones precedente corresa
ponde a un m
nimo y no a un mximo o punto de silla: la matriz de segundas
a
derivadas (X X) es por construccin (semi)denida positiva.

o
Importa comprobar que esta aproximacin al problema, a diferencia de
o
la que hac uso de la nocin de proyeccin, deja en la penumbra muchas
a
o
o
cosas que son de inters: la ortogonalidad del vector de residuos = y X ,

e
la idempotencia de algunas matrices, etc.
2.3.
Propiedades del estimador m

nimo cua
drtico .
a
Notemos que es un vector aleatorio. Aunque X se mantenga ja

cosa que podemos lograr, pues los valores de los regresores se jan por el
experimentador: recurdese los supuestos introducidos en la Seccin 1.2
e
o
, en experimentos repetidos obtendremos cada vez un diferente vector y
de valores de la variable respuesta. En efecto, cada vez intervendrn en la
a
formacin de y diferentes perturbaciones.
o
El vector = (X X)1 X y por tanto es un vector aleatorio: hereda

su condicin de tal de y , que a su vez la obtiene de . Tiene por ello sentido
o
preguntarse por su vector de valores medios y por su matriz de covarianzas.
Recordemos que un estimador del parmetro se dice insesgado si
a
E[ ] = .
En el caso de estimar un vector de parmetros, la condicin anloga es

a
o
a
E[] = .
Recordemos tambin que la matriz de covarianzas de un vector aleatorio
e
se dene por:
como
= E[ E()][ E()] ,
expresin que en el caso de ser insesgado como estimador de se simplica

o
de modo obvio a
= E[ ][ ] .
CAP
INIMO CUADRATICA.
19
La matriz de covarianzas tiene en su diagonal principal las varianzas de
y fuera de la diagonal principal las covarianzas.

los componentes del vector
La insesgadez de un estimador es intuitivamente atrayente: supone que
no incurrimos en derivas sistemticas al estimar el parmetro objeto de ina
a
ters. Si repitiramos el mismo experimento muchas veces y promediramos
e
e
a
los valores del estimador insesgado obtenidos en cada experimento, esperar
amos que este promedio se acercar progresivamente ms a su objetivo (el
a
a
verdadero valor del parmetro).
a
Acontece que el vector de estimadores disfruta de esta atractiva propiedad de insesgadez. Adicionalmente, dentro de una clase particular de
estimadores es el que exhibe menores varianzas en la diagonal principal de
o
y, en este sentido, es el que estima con mayor precisin el vector .
El siguiente Teorema formaliza y demuestra estas propiedades.

Teorema 2.2 Si se verican los supuestos habituales (Seccin 1.3, pg. 5)
o
a
se cumple tambin que:
e
1. es un estimador lineal insesgado de .
2. La matriz de covarianzas de es = 2 (X X)1 .
3. (Gauss-Markov). Si es el estimador m
nimo cuadrtico ordinario de
a
de que sea lineal e insesgado tiene
, cualquier otro estimador
matriz de covarianzas con elementos diagonales no menores que los
de .
Demostracion:
Tomando valor medio en (2.6):
E[] = E[(X X)1 X y ]

= E[(X X)1 X (X + )]
= + E[(X X)1 X ]
= .
CAP
INIMO CUADRATICA.
20
a
luego es insesgado. Por consiguiente, la matriz de covarianzas tendr
por expresin:
o
= E( )( )
=
=
=
=
=
E[(X X)1 X (X + ) ][(X X)1 X (X + ) ]

E[(X X)1 X ][(X X)1 X ]
E[(X X)1 X X(X X)1 ]
(X X)1 X 2 IX(X X)1
2 (X X)1 .
Para demostrar 3), consideremos cualquier estimador alternativo a .

Dado que restringimos nuestra atencin a estimadores lineales, podemos eso
cribir = C Y , siendo C una matriz de orden adecuado. Siempre podremos

expresar C as
:
C = (X X)1 X + D.
(2.21)
Puesto que nos limitamos a considerar estimadores insesgados, ha de veri

carse: E = EC Y = , y por tanto: E[(X X)1 X + D]Y = . De aqu
se deduce:
E[(X X)1 X (X + ) + D(X + )] = ,
+ DX
= ,
(2.22)
(2.23)
dado que E = 0. Como (2.23) se ha de vericar sea cual fuere , la
insesgadez de implica DX = 0.
La matriz de covarianzas de es:
E[( )( ) ].
(2.24)
( ) = [(X X)1 X + D]Y
(2.25)
Pero:
= [(X X) X + D](X + )
= [(X X)1 X + D] .
(2.26)
(2.27)
donde (2.27) se ha obtenido haciendo uso de DX = 0. Llevando (2.27) a

(2.24), obtenemos:
= E{[(X X)1 X + D] [(X X)1 X + D] }
(2.28)
CAP
INIMO CUADRATICA.
21
que, de nuevo haciendo uso de que DX = 0, se transforma en:

= (X X)1 X 2 IX(X X)1 + 2 DID
= 2 (X X)1 + 2 DD
= + 2 DD .
(2.29)
(2.30)
(2.31)
La matriz DD tiene necesariamente elementos no negativos en la diagonal principal (sumas de cuadrados), lo que concluye la demostracin de
o
3). De forma completamente similar se puede demostrar una versin ligerao
mente ms general: la estimacin lineal insesgada con varianza m
a
o
nima de
cualquier forma lineal c es c , siendo el vector de estimadores m

nimo
cuadrticos.
a
Observacin 2.2 La insesgadez de un estimador es una proo

piedad en principio atrayente, pero de ning n modo indispensable.
u
De hecho, un estimador insesgado de un parmetro puede incluso no
a
existir. (Para una discusin de la condicin de insesgadez y de sus
o
o
implicaciones puede verse Lehmann (1983), Cap. 2.)
En el Cap
tulo 10 comprobaremos que, en ocasiones, podemos
optar con ventaja por utilizar estimadores sesgados.
2.4.
Estimacin de la varianza de la perturo

bacin.
o
El Teorema 2.2 proporciona la matriz de covarianzas del vector de esti

madores , = 2 (X X)1 . Pero mientras que (X X) es conocida, 2 es
un parmetro que necesita ser estimado. Veamos como hacerlo.
a
Denicin 2.1 Denominamos SSE o suma de cuadrados de los residuos
o
al cuadrado de la norma del vector de residuos,
SSE
def
y X
Teorema 2.3 Una estimacin insesgada de la varianza de la perturbacin

o
o
viene proporcionada por
SSE
2 =
N p
CAP
INIMO CUADRATICA.
22
Demostracion:
Como
X = P Y = X(X X)1 X Y ,
(2.32)
(Y X ) = (I P )Y
(2.33)
tenemos que
= (I P )(X + )
= (I P ) ,
(2.34)
(2.35)
y por tanto
SSE = Y (I P ) (I P ) Y = (I P ) (I P ) .
En virtud de la simetr e idempotencia de (I P ),
a
SSE = (I P )
= traza (I P )
= traza (I P ) .
(2.36)
(2.37)
(2.38)
Tomando valor medio en (2.38) tenemos:

E(SSE) = traza (I P )( 2 I) = 2 (N p).
(2.39)
(El ultimo paso ha hecho uso de la propiedad traza(I P ) = N p, Teorema
2.1, pg. 16.) De (2.39) se deduce entonces que

a
E
SSE
= 2
N p
def
y 2 = SSE/(N p) es por tanto un estimador insesgado de 2 .
Observacin 2.3 En lo que sigue, SSE denotar tanto la vao

a
riable aleatoria denida ms arriba como su valor en una experimena
tacin concreta, contra la convencin habitual con otras variables
o
o
en que se emplean min sculas para denotar sus valores en una exu
perimentacin. El contexto aclarar si nos estamos reriendo a una
o
a
variable aleatoria o a un valor experimental de la misma.
CAP
INIMO CUADRATICA.
23
Observacin 2.4 El Teorema 2.3 muestra que para obtener

o
una estimacin insesgada de la varianza de la perturbacin debemos
o
o
dividir la suma de cuadrados de los residuos, no entre el n mero de
u
residuos N , sino entre los grados de libertad N p. Que el n mero
u
de parmetros estimado debe tomarse en consideracin en el denoa
o
minador del estimador es intuitivamente plausible. Despus de todo,
e
si aumentramos el n mero de regresores (y parmetros estimados)
a
u
a
p hasta que p = N , SSE ser idnticamente cero. (Estar
a e
amos ante
un problema sin grados de libertad.) Sin llegar a este extremo, es
claro que aumentando el n mero de regresores incrementamos nuesu
tra capacidad de aproximar y (y de reducir SSE), y esto ha de ser
contrapesado reduciendo tambin el denominador.
e
Observacin 2.5 El Teorema 2.3 subsume y ampl un resulo

a
tado que habitualmente aparece sin demostracin en los cursos eleo
mentales de Estad
stica: un estimador insesgado de la varianza de
una poblacin, dada una muestra i.i.d. de la misma, viene dada por
o
2 =
N
i=1 (Yi
Y )2
.
N 1
(2.40)
Este resultado puede obtenerse como caso particular del Teorema 2.3
si reparamos en lo siguiente: podemos imaginar las Yi como generadas
por
Yi = 0 + i ,
en que 0 es la media y i una perturbacin de media cero y misma
o
varianza que Yi . Si regresramos las observaciones Y1 , . . . , YN sobre
a
una columna de unos, 1 , el unico parmetro estimado ser
a
a:
0 = (X X)1 X Y = (1 1 )1 1 Y = N 1
Yi = Y
i=1
El mejor ajuste que puede hacerse de las Yi en trminos de este unico

e
regresor es 0 1 y la suma de cuadrados de los residuos es por tanto

N
N
2
2
o
i=1 (Yi 0 1 ) =
i=1 (Yi Y ) . La expresin (2.40) coincide por
tanto, en este caso particular, con la dada por el Teorema 2.3.
R: Ejemplo 2.1 (clculo de los estimadores MCO)

a
El siguiente listado crea articialmente una matriz X y el vector
respuesta y . A continuacin, realiza la regresin de dos formas. En la
o
o
primera, se realizan los clculos de modo expl
a
cito. En la segunda, se
recurre a la funcin lsfit predenida en R, que simplica consideo
rablemente el trabajo. Existen funciones alternativas ms avanzadas
a
que se introducen ms adelante.
a
CAP
INIMO CUADRATICA.
Al margen de la comodidad, lsfit realiza los clculos de un
a
modo mucho ms eciente en tiempo y estable numricamente que
a
e
el sugerido por la teor no se invierte la matriz (X X) sino que se
a:
emplea la factorizacin QR (ver Seccin D.2, pg. 235, o Lawson and
o
o
a
Hanson (1974)). Se trata de detalles que no necesitan preocuparnos
por el momento. Generamos en primer lugar los datos y realizamos
la estimacin aplicando la teor de modo ms directo. Primero, la
o
a
a
matriz de dise o,
n
> X <- matrix(c(1, 1, 1, 1,
+
1, 1, 1, 4, 12, 1, 4,
+
13, 0, 6, 7, 0, 2, 2),
+
6, 3)
> X
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[,1] [,2] [,3]

1
1
0
1
4
6
1
12
7
1
1
0
1
4
2
1
13
2
A continuacin, jamos un vector

o
> beta <- c(2, 3, 4)
Finalmente, generamos los valores de la variable respuesta del modo
que prescribe el modelo lineal:
> y <- X %*% beta + rnorm(6)
(La funcin rnorm(n) genera n variables aleatorias N (0, 1).) A cono
tinuacin, obtenemos los estimadores resolviendo las ecuaciones noro
males (2.5), pg, 15. Se muestran varias formas alternativas de haa
cerlo. Podemos por ejemplo escribir
> b <- solve(t(X) %*% X, t(X) %*%
+
y)
> b
24
CAP
INIMO CUADRATICA.
[,1]
[1,] 2.3517
[2,] 2.8129
[3,] 4.2329
(la funcin solve(A,b) proporciona una solucin, si existe, del sisteo
o
ma de ecuaciones lineales Ax = b ). Una forma ms rpida de calcua a
lar (X X) y X y la proporciona la funcin crossprod. Podr

o
amos
sustituir lo anterior por
> b <- solve(crossprod(X),
+
crossprod(X, y))
> b
[,1]
[1,] 2.3517
[2,] 2.8129
[3,] 4.2329
Podemos tambin escribir:
e
> XXinv <- solve(crossprod(X))
> b <- XXinv %*% crossprod(X,
+
y)
> b
[,1]
[1,] 2.3517
[2,] 2.8129
[3,] 4.2329
Hemos obtenido separadamente (X X)1 (que puede servirnos para
estimar la matriz de covarianzas de los estimadores, 2 (X X)1 ).
La funcin solve con un unico argumento matricial proporciona la

o
matriz inversa. De cualquiera de las maneras que calculemos , la

obtencin de los residuos es inmediata:
o
> e <- y - X %*% b
> e
25
CAP
INIMO CUADRATICA.
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[,1]
0.42097
-0.29124
0.15416
-0.61805
0.53689
-0.20272
Podemos comprobar la ortogonalidad de los residuos a las columnas

de la matriz X:
> t(e) %*% X
[,1]
[,2]
[1,] -2.6379e-13 -8.3933e-13
[,3]
[1,] -5.9686e-13
> crossprod(e, X)
[,1]
[,2]
[1,] -2.6379e-13 -8.3933e-13
[,3]
[1,] -5.9686e-13
> round(crossprod(e, X))
[1,]
[,1] [,2] [,3]

0
0
0
La suma de cuadrados de los residuos y una estimacin de la varianza

o
de la perturbacin pueden ahora obtenerse con facilidad:
o
> s2 <- sum(e * e)/(nrow(X) +
ncol(X))
> s2
[1] 0.33238
Fin del ejemplo
R: Ejemplo 2.2 Todos los clculos anteriores pueden hacerse

a
con mucha mayor comodidad mediante funciones de regresin espeo
cializadas. Por ejemplo,
26
CAP
INIMO CUADRATICA.
> ajuste <- lsfit(X, y, intercept = FALSE)
hace todo lo anterior y algunas cosas ms de modo mucho ms eciena
a
te. La funcin lsfit (least squares t) devuelve una lista u objeto
o
compuesto conteniendo en sus componentes los estimadores de los
parmetros, los residuos y algunos resultados auxiliares asociados al
a
mtodo de clculo empleado (la factorizacin QR aludida ms arrie
a
o
a
ba). Vemoslo:
a
> ajuste
$coefficients
X1
X2
X3
2.3517 2.8129 4.2329
$residuals
[1] 0.42097 -0.29124 0.15416
[4] -0.61805 0.53689 -0.20272
$intercept
[1] FALSE
$qr
$qt
[1] -75.33003
[4] -0.66854
48.78812 -23.94068
0.42874 -0.60529
$qr
X1
X2
[1,] -2.44949 -14.28869
[2,] 0.40825 11.95129
[3,] 0.40825 -0.63322
[4,] 0.40825
0.28718
[5,] 0.40825
0.03616
[6,] 0.40825 -0.71690
X3
[1,] -6.940221
[2,] 3.583992
[3,] -5.655823
[4,] -0.375532
[5,] -0.004607
[6,] 0.047314
27
CAP
INIMO CUADRATICA.
28
$qraux
[1] 1.4082 1.0362 1.9256
$rank
[1] 3
$pivot
[1] 1 2 3
$tol
[1] 1e-07
attr(,"class")
[1] "qr"
> resid <- ajuste$residuals
> resid
[1] 0.42097 -0.29124 0.15416
[4] -0.61805 0.53689 -0.20272
El argumento intercept=FALSE indica a la funcin lsfit que no
o
debe agregarse a la matriz de dise o X una columna de unos (porn
que ya gura entre los regresores). Ordinariamente ello no suceder,
a
y podremos prescindir de especicar el argumento intercept, con
lo que tomar el valor por omisin TRUE.
a
o
Fin del ejemplo
2.5.
El coeciente R2
Hay una relacin interesante entre SSE y otras dos sumas de cuadrados
o
que denimos a continuacin. Sea y el vector N 1 siguiente:
o

y=

y
.
.
.
e
en que y denota la media aritmtica de las observaciones en y . Denamos:
SST =
SSR =
y y
X y
CAP
INIMO CUADRATICA.
29
Figura 2.1: X es la proyeccin de y sobre M. R2 = cos2

o
X
y
Se verica entonces el Teorema a continuacin.

o
Teorema 2.4 Si y pertenece al subespacio M generado por las columnas
de la matriz X lo que acontece, por ejemplo, siempre que dicha matriz
tiene una columna de unos, se verica:
SST = SSR + SSE
(2.41)
Demostracion:
SST =
y y
(2.42)
2
y X + X y
(2.43)
= < (y X ) + (X y), (y X ) + (X y) > (2.44)

2
2

=
y X + X y + 2 < y X , X y >
(2.45)
=
Pero si y M, (X y) M, y como quiera que = (y X ) M, el

ultimo producto interno es nulo. Por consiguiente (2.45) se reduce a (2.41).
Denimos R2 = SSR/SST ; se denomina a R coeciente de correlacin

o
2
mltiple. Claramente, 0 R 1, siempre que X contenga una columna
u
CAP
INIMO CUADRATICA.
30
constante, ya que de (2.41) se obtiene:

SSR SSE
SST
=
+
,
SST
SST
SST
luego 1 = R2 + SSE , y como ambos sumandos son no negativos (son cocientes
SST
de sumas de cuadrados), R2 necesariamente ha de tomar valores entre 0 y
1.
La igualdad (2.41) es fcil de visualizar con ayuda de la ilustracin esa
o
quemtica en la Fig. 2.1; es una generalizacin N-dimensional del teorema
a
o
de Pitgoras. Obsrvese que si y no perteneciera a M, que hemos represena
e
tado como el plano horizontal, ya no podr asegurarse que y (X y)

a
son ortogonales.
Observacin 2.6 En la Figura 2.1 puede visualizarse R2 coo
mo el coseno al cuadrado del ngulo que forman los vectores (y y)
a
n
y (X y). Un valor peque o de R2 signica que este coseno es
peque o, y el ngulo correspondiente grande; es decir, que y est
n
a
a
2 grande implimuy elevado sobre el plano M . Por el contrario, R
ca que el ngulo referido es peque o, y que y est prximo a su
a
n
a o
proyeccin en M .
o
Observacin 2.7 Si regresamos y solamente sobre una columo

na de unos, obtenemos un unico coeciente de regresin estimado,
o
0 que resulta ser igual a y (se comprob en la Observacin 2.5,
o
o
pg. 23). SST puede interpretarse como la suma de cuadrados de los

a
residuos de este modelo m
nimo.
Si regresamos y sobre varios regresores incluyendo la columna de
unos obtenemos una suma de cuadrados de los residuos igual a SSE
que nunca puede ser superior a SST . En efecto: al a adir regresores el
n
ajuste no puede empeorar (por qu?). El coeciente R2 puede verse
e
como una medida de la mejora en el ajuste atribuible a los regresores
distintos de la columna de unos. En efecto, el numerador de R2
es SST SSE, diferencia de suma de cuadrados entre el modelo
ampliado y el m
nimo. El denominador SST meramente normaliza
el numerador anterior para que tome valores entre 0 y 1.
Un valor grande de R2 podemos interpretarlo como una mejora
sustancial del modelo m
nimo al incluir regresores distintos de la
columna de unos. Obsrvese que para que esta interpretacin sea
e
o
vlida, uno de los modelos (el m
a
nimo) ha de estar anidado en el otro,
es decir, su unico regresor (la columna de unos) ha de estar entre
los regresores del otro.
CAP
INIMO CUADRATICA.
31
Observacin 2.8 Si ajustamos un modelo sin columna deunos

o
podemos encontrarnos con que R2 denido como en el Teorema 2.4
puede ser menor que cero. Es fcil de entender: puede que los regresoa
res ensayados no den cuenta de la variabilidad de y , y SSE sea por
tanto grande. Si acontece que y tiene poca variabilidad en torno a su
media, SST ser en cambio peque o, y SST SSE puede fcilmente
a
n
a
ser negativo.
Observacin 2.9 Cuando no hay columna de unos algunos

o
programas de ordenador automticamente sustituyen SST por
a
||y ||2
(suma de cuadrados de las desviaciones respecto del origen en lugar
de respecto a la media). Ello da lugar a una denicin alternativa de
o
R2 que evita que pueda ser negativa.
2.6.
Algunos lemas sobre proyecciones.
Los siguientes resultados, de muy sencilla prueba en la mayor de los

a
casos, resultan utiles en demostraciones posteriores.
Lema 2.1 Sea H un espacio vectorial, y M un subespacio. Todo y H

tiene expresin unica en la forma: y = u + v, con u M y v M .
o
Demostracion:
Es una consecuencia inmediata de la unicidad de la proyeccin (Teoreo
ma 1.1, pg. 8).
a
Lema 2.2 Prejadas las bases en H y M H, la aplicacin lineal que

o
proyecta sobre M tiene por asociada una unica matriz PM .
Demostracion:
Es una especializacin del resultado segn el cual, prejadas las bases
o
u
en ambos espacios, la matriz que representa una aplicacin lineal de uno
o
en otro es unica. La proyeccin es una aplicacin lineal (vase solucin al
o
o
e
o
Ejercicio 1.14).
CAP
INIMO CUADRATICA.
32
Lema 2.3 La matriz de proyeccin sobre M puede ser expresada as

o
:
PM = T T ,
siendo T una matriz cuyas columnas forman una base ortonormal de M
H.
Demostracion:
Sea N la dimensin de H y p la dimensin de M. Sea v1 , . . . , vp una base
o
o
de M formada por vectores ortonormales, y T la matriz N p siguiente:
T = v1 | v2 | . . . | vp
Siempre podemos completar {v1 , . . . , vp } con N p vectores adicionales {vp+1 , . . . , vN } hasta obtener una base de H (vase por ej. Grafe (1985),
e
pg. 79). Adems, los N p vectores adicionales pueden tomarse ortogonales
a
a
entre s y a los de T , y normalizados (por ejemplo, utilizando el procedi
miento de ortogonalizacin de Gram-Schmidt; vase Grafe (1985), pg. 93).
o
e
a
Entonces, para cualquier y H tendremos:
p
ci vi
y =
cj vj ,
(2.46)
j=p+1
i=1
M
siendo ci (i = 1, . . . , N) las coordenadas de y en la base escogida. Premultiplicando ambos lados de (2.46) por vi (i = 1, . . . , p), obtenemos:
vi y
= vi
cj vj =
j=1
cj (vi vj ) = ci ,
(2.47)
j=1
en virtud de la ortonormalidad de los vectores {vi }. Entonces, u = PM y

puede escribirse as
:
CAP
INIMO CUADRATICA.
33
u = PM y
p
(vi y )vi
=
i=1
v1 | v2 | | vp
v1 y

v2 y
.
.
.
vp y
v1 | v2 | | vp
v1

v2
. y
.
.
vp
= T T y
Lema 2.4 La matriz PM es simtrica idempotente.

e
Demostracion:
La matriz PM es unica (Lema 2.2) y puede expresarse siempre como T T
(Lema 2.3). Entonces:
PM = (T T ) = T T = PM
PM PM = T T T T = T (T T )T = T T = PM .
Lema 2.5 Denotamos por R(C) el subespacio generado por las columnas
de C, siendo C una matriz cualquiera. PM denota la matriz de proyeccin
o
sobre un cierto subespacio M. Entonces:
R(PM ) = M.
CAP
INIMO CUADRATICA.
34
Demostracion:
Claramente R(PM ) M. Por otra parte, para todo x M,
PM x = x = M R(PM ).
Lema 2.6 Si PM es la matriz asociada al operador de proyeccin sobre M,

o
(IPM ) es simtrica, idempotente, y est asociada al operador de proyeccin
e
a
o
sobre M .
Demostracion:
Es consecuencia inmediata de los Lemas 2.1 y 2.4.
Lema 2.7 Toda matriz simtrica idempotente P representa una proyeccin

e
o
ortogonal sobre el subespacio generado por las columnas de P .
Demostracion:
Consideremos la identidad y = P y + (I P )y . Claramente, (I P )y
P y y adems (I P )y = y P y es ortogonal a P y . Por tanto, P y es
a
proyeccin de y sobre un cierto subespacio, que, de acuerdo con el Lema
o
2.5, es el generado por las columnas de P .
Denicin 2.2 Sea D una matriz cualquiera, de orden m n. Decimos

o
que D es una pseudo-inversa (o inversa generalizada) de D si:

DD D = D
(2.48)
En general, D as denida no es unica. En el caso particular de que D
sea una matriz cuadrada de rango completo, D = D 1 .

Lema 2.8 Sea D una matriz m n cualquiera. Sea c una matriz m 1 y
z un vector de variables. Si el sistema:
Dz = c
(2.49)
es compatible, una solucin viene dada por z = D c, siendo D una pseudoo

inversa.
CAP
INIMO CUADRATICA.
35
Demostracion:
De (2.48) deducimos:
DD Dz = c
(2.50)
y sustituyendo (2.49) en (2.50):

DD c = c
D(D c) = c
(2.51)
(2.52)
lo que muestra que D c es solucin de (2.49).

o
En realidad, es posible probar un resultado algo ms fuerte1 ; toda solua
cin de (2.49) puede expresarse como D c para alguna eleccin de D .

o
o
Lema 2.9 Si M = R(X), entonces PM = X(X X) X .
Demostracion:
Sea y un vector cualquiera. Su proyeccin sobre R(X) ha de ser de la
o
y vericar las ecuaciones normales (2.5) en la pg. 15:
forma X ,
a
X X = X y
(2.53)
Identicando D = X X, z = , y c = X y, el lema anterior garantiza
que (X X) X y ser una posible solucin para (no necesariamente unica,

a
o

ya que hay mltiples (X X) en general); no obstante, X(X X) X y es
u
la unica proyeccin de y sobre M, y X(X X) X es la unica matriz de
proyeccin. La unicidad de la proyeccin se demostr en el Teorema 1.1,

o
o
o
pg. 8. La unicidad de la matriz de proyeccin, fue objeto del Lema 2.2.
a
o
Como se ha indicado, hay en general mltiples inversas generalizadas

u
D , cada una de las cuales da lugar a una diferente solucin del sistema
o
(2.51)(2.52).
1
Cf. Searle (1971), Teorema 8, pg. 26.

a
CAP
INIMO CUADRATICA.
2.7.
36
Lectura recomendada
Sobre la teor
a. Seber (1977), Cap. 3 cubre completamente la materia
de este cap
tulo. Para las cuestiones de lgebra matricial, proyecciones, etc.
a
Draper and Smith (1998) tiene un cap
tulo completo (el 20) mostrando el
problema de la estimacin MCO desde un punto de vista geomtrico, similar
o
e
al empleado aqu Searle (1982), Searle (1971) y Abadir and Magnus (2005)
;
son buenas referencias. Sobre matrices inversas generalizadas, en particular,
pueden verse, adems de Searle (1982), Ben-Israel and Greville (1974), Rao
a
and Mitra (1971) y Yanai et al. (2011).
Sobre R. Son de utilidad las referencias indicadas en el Cap
tulo precedente. Espec
camente sobre regresin con R, Cornillon and Matznero
Lober (2011) y Faraway (2005). Como se indic, hay mucha documentao
cin on line sobre R, como Venables et al. (1997) (hay traduccin caso
o
tellana, Venables et al. (2000), un poco desfasada), Maindonald (2000) o
Kuhnert and Venables (2005); una relacin actualizada puede obtenerse en
o
http://cran.r-project.org/.
CAP
INIMO CUADRATICA.
2.1 Que efecto tienen sobre los estimadores cambios en la

escala de los regresores en X?. Demustrese.
e
2.2 Haciendo uso del mismo argumento empleado (en (2.39),

pg. 22) para mostrar que SSE/(N p) es un estimador insesgado de
a
2 , comprubese que, dada una muestra aleatoria simple Z1 , . . . , Zn ,
e
el estimador de la varianza
2
Z =
1
n
n
i=1
(Zi Z)2
no es insesgado.
2.3 Extindase el teorema de Gauss-Markov, para probar la

e
armacin hecha al nal de la Seccin 2.4 (pg. 21): si c es cualo
o
a
quier forma lineal, en el caso de rango completo el estimador inses
gado de varianza m
nima de c es c .
2.4 La Denicin 2.2, pg. 34, no individualiza una unica invero
a
sa generalizada, salvo cuando D es cuadrada de rango completo. Las

siguientes condiciones, la primera de las cules coincide con (2.48),
a
proporcionan una unica denicin de inversa generalizada (la inversa
o
de Moore-Penrose):
DD D = D;
D DD = D ;
D D y DD simtricas.
e
A la unica matriz D as especicada se la denomina inversa de
Moore-Penrose. Sobre inversas generalizadas e inversas de MoorePenrose puede consultarse Searle (1971) y Rao and Mitra (1971)
2.5 ( 2.4) Cuando la funcin lsfit de R encuentra una mao

triz de dise o de rango incompleto, proporciona no obstante una
n
solucin de , haciendo un cmputo en esencia equivalente a =

o
o
X) X y . Podemos llevar a cabo el clculo de la inversa generali(X
a
zada de Moore-Penrose mediante la funcin ginv del paquete MASS
o
(asociado al libro Venables and Ripley (1999a))
> library(MASS)
> XX <- matrix(c(2, 0, 0, 0),
+
2, 2)
> XX
37
CAP
INIMO CUADRATICA.
[,1] [,2]
[1,]
2
0
[2,]
0
0
> XXig <- ginv(XX)
> XXig
[1,]
[2,]
[,1] [,2]
0.5
0
0.0
0
Observemos que las condiciones que denen a la inversa de MoorePenrose se verican.

> XX %*% XXig %*% XX
[1,]
[2,]
[,1] [,2]
2
0
0
0
> XXig %*% XX %*% XXig

[1,]
[2,]
[,1] [,2]
0.5
0
0.0
0
> XXig %*% XX

[1,]
[2,]
[,1] [,2]
1
0
0
0
> XX %*% XXig

[,1] [,2]
[1,]
1
0
[2,]
0
0
2.6 ( 1.13) Resulvase el problema 1.13, pg. 13, haciendo

e
a
uso de regresin lineal. (Ayuda: basta normalizar el primer vector y
o
regresar el segundo sobre l. El vector de residuos de esta regresin
e
o
es ortogonal al primero.)
2.7 ( 2.6) Escr

base una funcin en R que resuelva el probleo
ma 2.6 de un modo completamente general: debe admitir como unico
argumento una matrix de rango completo cuyas columnas contengan

los vectores a ortonormalizar, y devolver una matrix de las mismas
dimensiones cuyas columnas sean los vectores ortonormalizados.
38
CAP
INIMO CUADRATICA.
2.8 Justif
quese la armacin hecha en la Observacin 2.7,
o
o
pg. 30, de acuerdo con la cual el ajuste, medido en trminos de
a
e
SSE, no puede empeorar al a adir regresores.
n
2.9 Cundo incluir y cundo no una columna de unos? En

a
a
general, siempre convendr hacerlo. Las unicas situaciones en que no
a
ser conveniente son aqullas en que la columna de unos crear una

a
e
a
dependencia lineal exacta entre las columnas de la matriz X.
El no incluir columna de unosfuerza a la recta (o hiperplano) de
regresin a pasar por el origen. Salvo que haya buenos motivos para
o
ello, no querremos forzar tal cosa en nuestra regresin, especialmente
o
si, como sucede en multitud de ocasiones, el origen es arbitrario.
2.10 ( 2.1)( 2.9) Pensemos en la siguiente situacin: un ino

vestigador est interesado en dilucidar si la velocidad de sedimentaa
cin de un uido (y, medida en unidades adecuadas) est inuida
o
a
por la temperatura (X1 , medida en grados cent
grados). Cuenta con
las siguientes observaciones:
5,8
4,7

y = 4,9

3,8
2,1
10
6,2
X1 = 2,5
3,0
4,6
Imaginemos que ajusta una regresin a dichos datos. Los resultados

o
pueden verse en el siguiente fragmento en R:
>
+
>
+
>
>
y <- c(5.8, 4.7, 4.9, 3.8,

2.1)
X <- c(-10, -6.2, -2.5, 3,
4.6)
ajuste <- lsfit(X, y, intercept = FALSE)
ajuste$coefficients
X
-0.44798
El coeciente que afecta a la unica variable es negativo (= 0,447984),
lo que estar
amos tentados de interpretar as por cada grado que
:
aumenta la temperatura, disminuye en 0.447984 la velocidad de sedimentacin. (Quedar por ver si la estimacin del coeciente de
o
a
o
regresin es de ar, cuestin que abordaremos ms adelante.)
o
o
a
Supongamos ahora que otro investigador repite el mismo anlisis,
a
pero en lugar de expresar las temperaturas en grados cent
grados (C)
39
CAP
INIMO CUADRATICA.
lo hace en grados Fahrenheit (F) cuya relacin con los cent
o
grados
9
5
a
viene dada por C = 9 (F 32) ( F = 5 C + 32). Los clculos,
siempre haciendo una regresin pasando por el origen, ser ahora:
o
an
>
+
>
+
>
>
>
y <- c(5.8, 4.7, 4.9, 3.8,

2.1)
X <- c(-10, -6.2, -2.5, 3,
4.6)
X <- (9/5) * X + 32
ajuste <- lsfit(X, y, intercept = FALSE)
ajuste$coefficients
X
0.12265
Ahora el coeciente afectando a la variable temperatura es positivo, dando la impresin de una asociacin directa entre temperatuo
o
ra y velocidad de sedimentacin! Claramente, tenemos motivo para
o
preocuparnos si llegamos a conclusiones diferentes dependiendo de
nuestra eleccin de los sistemas de medida enteramente convencioo
nales ambos. El problema desaparece si incluimos una columna de
unos en ambos anlisis, para dar cuenta de los diferentes or
a
genes.
>
+
>
+
>
>
y <- c(5.8, 4.7, 4.9, 3.8,

2.1)
X <- c(-10, -6.2, -2.5, 3,
4.6)
ajuste <- lsfit(X, y)
ajuste$coefficients
Intercept
3.80119
X
-0.20667
> X <- (9/5) * X + 32

> ajuste <- lsfit(X, y)
> ajuste$coefficients
Intercept
7.47538
X
-0.11482
> ajuste$coefficients[2] *
+
(9/5)
X
-0.20667
40
CAP
INIMO CUADRATICA.
Los coecientes de X no son ahora iguales (porque los grados
Fahrenheit son ms peque os), pero si relacionados por un factor
a
n
de escala y dar lugar a la misma conclusin de asociacin inversa
an
o
o
entre ambas magnitudes. La inversin del signo del coeciente se
o
explica comparando en la Figura 2.2 los puntos muestrales (en escalas
comparables) y las respectivas rectas de regresin. Dichas rectas de
o
regresin y las grcas se han generado mediante
o
a
>
+
+
>
>
+
>
+
>
>
>
>
+
>
>
>
>
>
>
+
>
>
>
>
postscript(file = "demo2d.eps",
horizontal = FALSE, width = 5,
height = 10)
par(mfcol = c(2, 1))
y <- c(5.8, 4.7, 4.9, 3.8,
2.1)
C <- c(-10, -6.2, -2.5, 3,
4.6)
ajuste <- lsfit(C, y, intercept = FALSE)
par(xlim = c(-25, 5))
par(ylim = c(-0.5, 6))
plot(C, y, ylim = c(-0.5,
6), xlim = c(-25, 5))
title(main = "Ajuste en grados centigrados")
abline(a = 0, b = ajuste$coefficients)
text(x = 0, y = 0, labels = "(0,0)")
F <- (9/5) * C + 32
ajuste <- lsfit(F, y, intercept = FALSE)
plot(F, y, ylim = c(-0.5,
6), xlim = c(-13, 41))
title(main = "Ajuste en grados Fahrenheit")
text(x = 0, y = 0, labels = "(0,0)")
abline(a = 0, b = ajuste$coefficients)
scratch <- dev.off()
Puede verse que el forzar a ambas a pasar por el origen las obliga
a tener pendiente de signo opuesto para aproximar la nube de puntos.
41
CAP
INIMO CUADRATICA.
42
Figura 2.2: En un ajuste sin trmino constante, la pendiente depende de la

e
eleccin arbitraria del origen
o
Ajuste en grados centigrados
(0,0)
25
20
15
10
Ajuste en grados Fahrenheit
(0,0)
10
10
20
F
30
40
Cap
tulo 3
Identicacin. Colinealidad exaco

ta
3.1.
Modelos con matriz de dise o de rango

n
deciente.
Uno de los que hemos llamado supuestos habituales (Seccin 1.3, pg. 5,
o
a
apartados 1 a 3) es que el rango de la matriz de diseo X coincide con
n
el nmero de sus columnas, p. Cuando sto no ocurre, sigue habiendo una
u
e
unica proyeccin de y sobre M = R(X), tal como ha quedado demostrado.
o
(Recurdese que R(X) designa el subespacio generado por las columnas de
e
X.) Ocurre sin embargo (Lema 2.9) que = (X X) X y no es unico.
La Figura 3.1 resulta iluminante a este respecto; el plano horizontal

representa M, y en l yacen los vectores X0 , . . . , Xp1 que lo generan. La
e
proyeccin X es unica. Si X0 , . . . , Xp1 son linealmente independientes,

o
forman base del espacio que generan, y los coecientes 0 , . . . , p1 que

permiten expresar PM y como combinacin lineal de dichos vectores son
o
unicos.
Si, como acontece en el caso de rango deciente de la matriz X, los

vectores X0 , . . . , Xp1 no son linealmente independientes, hay innidad de
maneras de expresar PM y como combinacin lineal de ellos. No hay por
o
tanto una unica estimacin m
o
nimo cuadrtica del vector . Se dice que
a
hay multicolinealidad exacta entre las columnas de la matriz de diseo X.
n
Una matriz de diseo de rango deciente es demasiado pobre para desn
lindar todos los efectos de inters: no podemos con la informacin disponible
e
o
deslindar la relacin de cada uno de los regresores con la variable respuesta,
o
pero puede ocurrir que si lo podamos deslindar con algunos. El Ejemplo 3.1
a continuacin lo ilustra.
o
43

CAP
ITULO 3. IDENTIFICACION. COLINEALIDAD EXACTA
Figura 3.1: Regresin en el caso de matrix X de rango deciente.
o
X p1
X1
X0
Ejemplo 3.1 Imaginemos una matriz de dise o como

n
1
1
1
1
2
2
4
4
2
2
3
5
.
7
8
4
Observemos que la primera columna, X0 , es igual a la segunda, X1 ,

dividida entre dos. La Figura 3.2 ilustra una situacin similar. Puede
o
verse que X0 y X1 yacen uno sobre otro, diriendo slo en el mdulo.
o
o
En un caso as la proyeccin, PM y , puede expresarse de manera
,
o
unica como combinacin lineal de X 2 y uno de los vectores X 0
o
o
X 1 . Podemos estimar 2 , pero no 0 1 : no es posible adscribir a
o
uno de ellos la parte de PM y colineal con la direccin com n de
o
u
X 0 y X 1.
Fin del ejemplo
44

CAP
45
Figura 3.2: Caso de un vector parcialmente estimable.
X2
X0
PM y
X1
La nocin de funcin estimable a continuacin permite caracterizar sio

o
o
tuaciones como la mostrada en el ejemplo anterior.
3.2.
Funciones estimables.
vocamente
Incluso aunque el vector no sea estimable por no estar un
determinado, puede haber algunos parmetros o combinaciones lineales de
a
parmetros que s puedan estimarse.
a
Denicin 3.1 Decimos que una funcin lineal de los parmetros a es

o
o
a
estimable si existe un vector c de constantes tal que:
E[c Y ] = a
El Teorema a continuacin permite caracterizar las funciones estimables.
o
Teorema 3.1 La funcin lineal a es estimable si a R(X ).
o
Demostracion:

CAP
a
= E[c Y ] = E[c (X + )] = c X
46
(3.1)
Como (3.1) ha de vericarse para cualesquiera valores de , ha de existir c

tal que: c X = a , lo que demuestra que a R(X ).
Observacin 3.1 El teorema anterior incluye como caso partio

cular el de parmetros aislados, i . En efecto, podemos ver i como
a
la funcin lineal e i+1 , en que e i es un vector de ceros con un 1
o
en posicin isima. Entonces, i es estimable si e i R(X ). La too
e
talidad de los parmetros sern estimables si {e 1 , . . . , e p } (que son
a
a
linealmente independientes) estn en R(X ). Esto requiere que la
a
dimensin de R(X ) sea p, es decir, que X sea de rango completo.

o
Observacin 3.2 El enunciado del Teorema 3.1 tiene gran cono
tenido intuitivo. Son estimables aqullas combinaciones lineales de
e
los parmetros cuyos coecientes coinciden con los dados por las de
a
X. En efecto, si queremos estimar a y a coincide con la j-sima
e
la xj de la matriz X, es claro que Yj ser un estimador insesgado
a
de a , pues:
E[Yj ] = E[xj + j ] = E[a + j ] = a .
De manera anloga se demuestra que si a puede expresarse como
a
combinacin lineal de las de X, la combinacin lineal anloga de
o
o
a
observaciones en el vector Y es un estimador insesgado de a .
3.3.
Restricciones de identicacin.
o
Hemos visto que la inestimabilidad de los parmetros es consecuencia

a
de la indeterminacin del sistema de ecuaciones normales:
o
(X X) = X y
Si contamos con informacin adicional sobre que podamos imponer sobre
o
el vector de estimadores , podemos aadir al anterior sistema ecuaciones

n
adicionales que reduzcan o resuelvan la indeterminacin. Por ejemplo, si
o
supiramos que A = c, podr
e
amos formar el sistema:
(X X) = X y
A = c
(3.2)
(3.3)
y, dependiendo del rango de X X y A, obtener estimaciones unicas de . Se
= c son restricciones de identicacin.

dice entonces que las relaciones A
o

CAP
47
Ejemplo 3.2 Retomemos el Ejemplo 3.1. Vimos que era parcialmente estimable, y que el problema resid en que la componente
a
de PM y colineal con la direccin (com n) de X0 y X1 no puede ser
o
u
distribuida entre ambos. Si, no obstante, supiramos que 0 = 1, el
e
problema dejar de existir. Por tanto, A = 1 con
a
A= 1 0 0
es una restriccin de identicacin.
o
o
Fin del ejemplo
Una matriz de diseo de rango incompleto se puede presentar por falta de

n
cuidado al disear el experimento, pero, ms frecuentemente, es intencional.
n
a
El Ejemplo 3.1 ilustra este punto.
R: Ejemplo 3.1 Supongamos que se investiga el efecto de
tres diferentes tratamientos trmicos sobre la dureza de un acero.
e
Podemos pensar en el modelo:
Y = 1 X1 + 2 X2 + 3 X3 + ;
(3.4)
Habremos de realizar mediciones de la dureza con varias probetas

de acero elaborado con los distintos tratamientos, y estimar dicho
lmodelo. La variable explicativa o regresor i-simo tomar el valor
e
a
1 cuando se emplee el tratamiento i-simo, y cero en caso contrae
rio. Con esta especicacin i , (i = 1, 2, 3), se interpretar como la
o
a
dureza estimada derivada de utilizar el tratamiento i-simo. Consie
deremos los datos siguientes:
> cbind(X, y)
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[,1] [,2] [,3]

[,4]
1
0
0 4.8150
1
0
0 4.3619
1
0
0 4.3579
0
1
0 4.8403
0
1
0 5.2419
0
1
0 6.2087
0
0
1 3.9853
0
0
1 4.0601
0
0
1 3.4247
Podemos estimar los parmetros mediante

a

CAP
> ajuste1 <- lsfit(X, y, intercept = FALSE)
> ajuste1$coefficients
X1
X2
X3
4.5116 5.4303 3.8234
> ajuste1$residuals
[1]
[6]
0.30342 -0.14972 -0.15371 -0.58995 -0.18841

0.77837 0.16193 0.23672 -0.39865
> SSE <- sum(ajuste1$residuals^2)

> SSE
[1] 1.3687
Podr
amos pensar, sin embargo, en adoptar una diferente parametrizacin:
o
(3.5)
Y = 0 + 1 X1 + 2 X2 + 3 X3 + ;
En esta nueva parametrizacin, 0 ser una dureza media y 1 a
o
a
3 recoger el efecto diferencial (respecto de dicha dureza media)
an
resultado de emplear cada uno de los tres tratamientos. Para introducir en el modelo 0 multiplicando a una columna de unos, basta
omitir el argumento intercept=FALSE, con lo que obtenemos:
> ajuste2 <- lsfit(X, y, intercept = TRUE)
> ajuste2$coefficients
Intercept
3.82339
X1
0.68824
X2
1.60690
X3
0.00000
> ajuste2$residuals
[1]
[6]
0.30342 -0.14972 -0.15371 -0.58995 -0.18841

0.77837 0.16193 0.23672 -0.39865
> SSE <- sum(ajuste1$residuals^2)

> SSE
[1] 1.3687
Observemos que los dos ajustes son idnticos, como muestran los
e
residuos, que son iguales, y SSE =1.3687, igual en los dos casos;
resultado lgico, dado que los subespacios que generan X1 , . . . , X3
o
y estos tres vectores ms la columna de unos son idnticos. Las
a
e
proyecciones han de serlo tambin.
e
48

CAP
49
En el segundo ajuste, lsfit ha proporcionado una estimacin de

o
los parmetros, a pesar de que el rango de la matriz X ampliada con
a
una columna de unos es incompleto. lsfit ha tomado una restriccin identicadora arbitraria ha hecho 3 = 0 y proporcionado
o
una de las innitas soluciones equivalentes.
La restriccin adoptada hace 3 = 0. El tratamiento 3 pasa as
o
a convertirse en caso de referencia y la dureza atribuible al mismo
viene medida por 0 =3.8234. Los valores estimados 1 y 2 miden

as las diferencias de dureza de los tratamientos 1 y 2 respecto del
caso de referencia, o tratamiento 3.

Podr
amos adoptar restricciones de identicacin diferentes. Una
o
muy habitual ser en el caso que nos ocupa, 1 + 2 + 3 = 0. Esto
a,
equivale a forzar que los efectos diferenciales de los tres tratamientos
no puedan ser todos positivos o negativos. Con esta restriccin, 0
o
tendr la interpretacin de dureza media y 1 , 2 , 3 ser desviaa
o
an
ciones respecto de esta dureza media.
Fin del ejemplo
3.4.
Multicolinealidad exacta y aproximada
La existencia de dependencia lineal exacta entre las columnas de la matriz de diseo X, es, como se ha visto, fruto habitualmente de una decisin
n
o
consciente. Escogemos un diseo de rango incompleto, pero lo suplemenn
tamos con restricciones de identicacin que solventan el problema de la
o
estimacin y dotan a los parmetros de la interpretacin que deseamos.
o
a
o
En la medida en que la matriz X sea de nuestra eleccin, siempre poo
demos eludir el problema. Si, por el contrario, no podemos disear nuestro
n
experimento y nos vemos obligados a utilizar unos datos X, y dados, puede ocurrir que la matriz X, aunque no precisamente de rango incompleto,
proporcione una matriz (X X) casi singular. Esto se traduce en dicultades numricas para resolver las ecuaciones normales, dicultades para
e
seleccionar un modelo adecuado, grandes varianzas de los estimadores y
otros inconvenientes a los que nos referiremos en el Cap
tulo 9.
3.5.
Pueden verse Seber (1977), Seccin 3.8, o Draper and Smith (1998),
o
Seccin 20.4, por ejemplo.
o
Cap
tulo 4
Estimacin con restricciones

o
4.1.
Planteamiento del problema.
En ocasiones deseamos imponer a las estimaciones de los parmetros

a
ciertas condiciones, ya para hacer el modelo interpretable ya porque as lo
imponen criterios extra-estad

sticos.
Ntese que no nos estamos reriendo exclusivamente a restricciones de
o
identicacin. Puede que el conjunto de restricciones que impongamos sea
o
tal que, junto con las ecuaciones normales, determine un unico vector de es
timadores , en un problema que previamente admit mltiples soluciones

a u
(como suced en el Ejemplo 3.2). En tal caso, todo se reduce a resolver el
a
sistema (3.3). Las restricciones se han limitado a remover la indeterminacin
o
presente en las ecuaciones normales.
En otras ocasiones, sin embargo, partimos de un modelo ya identicable
(con solucin unica para las ecuaciones normales), pero no obstante deseao
mos imponer una restriccin que viene dictada al margen de los datos, como
o
ilustra el ejemplo a continuacin.
o
Ejemplo 4.1 Si quisiramos estimar los parmetros de una fune
a
cin de produccin Cobb-Douglas Q = L K , podr
o
o
amos desear
que las estimaciones de los parmetros y vericaran la condia
cin + = 1 (rendimientos constantes a escala). Con tres o ms
o
a
observaciones es perfectamente posible estimar , y ; la restriccin es innecesaria desde el punto de vista de la estimabilidad de
o
los parmetros. No obstante, puede formar parte de la especicacin
a
o
que deseamos: no queremos ajustar cualquier funcin de produccin
o
o
Cobb-Douglas a nuestros datos, sino una con rendimientos constantes a la escala.
Fin del ejemplo
50

CAP
ITULO 4. ESTIMACION CON RESTRICCIONES
51
De un modo general, nos planteamos el problema siguiente:
m y X
n
condicionado a: A = c
(4.1)
Est claro que no podemos esperar obtener la solucin de este problema

a
o
resolviendo un sistema como (3.3), que en general ser incompatible.
a
Hay al menos dos v para resolver un problema como el indicado. Poas
demos recurrir a resolver el problema de optimizacin condicionada (4.1)
o
escribiendo el lagrangiano,
N
L(0 , . . . , p1) =
i=1
(yi 0 xi0 . . . p1 xi,p1 )2 (A c);
derivando respecto a 0 , . . . , p1 y a los multiplicadores de Lagrange en

el vector , e igualando las derivadas a cero, obtendr
amos una solucin
o
que mediante las condiciones de segundo orden podr
amos comprobar que
corresponde a un m
nimo.
Resolveremos el problema por un procedimiento diferente, anlogo al sea
guido con el problema incondicionado: proyectando y sobre un subespacio
adecuado. Para ello habremos de transformar el problema en otro equivalente, que nos permita utilizar la tcnica de la proyeccin. Previamente
e
o
precisamos algunos resultados instrumentales, de algunos de los cuales nos
serviremos repetidamente en lo que sigue.
4.2.
Lemas auxiliares.
Lema 4.1 Si K(C) designa el ncleo de la aplicacin lineal representada

u
o
por la matriz C, se tiene:
K(C) = [R(C )]
Demostracion:
x K(C) Cx = 0 x C = 0 x R(C )
Lema 4.2 Si h M H, y Ph , PM son las matrices de proyeccin sobre

o
los subespacios respectivos, se verica: PM Ph = Ph PM = Ph

CAP
52
Demostracion:
Para cualquier v H,
Ph v h M PM Ph v = Ph v
PM Ph = Ph
La simetr de PM y Ph (Lema 2.4) implica entonces que: Ph = Ph =

a

Ph PM = Ph PM .
Lema 4.3 Si h M H, se tiene:

PM Ph = PM h
Demostracion:
Partimos de la identidad,
PM v = Ph v + (PM v Ph v)
en la que Ph v h M mientras que (PM v Ph v) M. Por otra parte,
< Ph v, (PM v Ph v) > = v Ph (PM v Ph v)
= v (Ph PM Ph )v
= 0,
la ultima igualdad en virtud del Lema 4.2. Por consiguiente, (PM Ph ),
que es simtrica idempotente, proyecta sobre un subespacio ortogonal a h

e
e inclu en M; lo denotaremos mediante M h .
do
Lema 4.4 Sea B una matriz cualquiera, y K(B) el ncleo de la aplicacin

u
o
lineal que representa. Sea M un subespacio de H y h = M K(B). Entonces,
M h = R(PM B ).
La demostracin puede hallarse en el Apndice E.2, pg. 244.
o
e
a

CAP
4.3.
53
Estimacin condicionada.
o
Los Lemas anteriores proporcionan todos los elementos para obtener de

forma rpida el estimador condicionado que buscamos. (Supondremos X y
a
A de rango completo, pero es fcil generalizar el tratamiento reemplazando
a
las inversas por inversas generalizadas.) Aunque el desarrollo formal es algo
farragoso, la idea es muy simple. Vamos a transformar el modelo de modo
que las restricciones A = c se conviertan en A = 0 .
Lo haremos mediante la transformacin
o
y = y X
(4.2)
= ,
(4.3)
siendo una solucin cualquiera de A = c (de no existir tal solucin,

o
o
no tendr sentido el problema; estar
a
amos imponiendo condiciones a los
parmetros imposibles de satisfacer). Se tiene entonces que:
a
y
A
= X + = y X = X X + = y = X +
= c = A( + ) = c = A = c A = A = 0
y el problema original (4.1) puede ahora reescribirse as

:
m y X
n
condicionado a
A = 0,
o, alternativamente,
m y X
n
condicionado a:
A(X X)1 X (X ) = 0.
(4.4)
Qu ventajas presenta la expresin (4.4) del problema comparada con

e
o
la original? Una importante: muestra que el X buscado no es sino la pro
yeccin de y sobre un cierto subespacio: h = M K(A(X X)1 X ). Hay
o
garant de que h es un subespacio porque M y K(A(X X)1 X ) lo son.

a
Basta proyectar y sobre h para obtener X y, si X es de rango completo,
; y esta proyeccin se puede obtener fcilmente con ayuda de los Lemas
o
a
anteriores.
Si denotamos por h las estimaciones m
nimo cuadrticas condicionadas

a
o restringidas por A = 0, tenemos que:
X h = Ph y
= (PM PM h )
y
1
= [X(X X) X PM h ]
y
(4.5)
(4.6)
(4.7)

CAP
54
en que el paso de (4.5) a (4.6) ha hecho uso del Lema 4.3. Pero es que, de
acuerdo con el Lema 4.4,
M h = R[X(X X)1 X X(X X)1 A ] = R[X(X X)1 A ]
PM
Por consiguiente, PM h es, de acuerdo con el Lema 2.9, pg. 35,

a
PM h = Z(Z Z)1 Z ,
(4.8)
ecuacin que, llevada a (4.7), proporciona:

o
X h = X(X X)1 X y X(X X)1 A [A(X X)1 A ]1 A(X X)1 X y
1 1
= X X(X X) A [A(X X) A ] A ,
(4.9)
en que es el vector de estimadores m
nimo-cuadrticos ordinarios al regrea

sar y sobre X. Si X es de rango total, como venimos suponiendo, de (4.9)
se deduce:
h = (X X)1 A [A(X X)1 A ]1 A .
(4.10)
(vase el Ejercicio 4.3.)

e
Hay algunas observaciones interesantes que hacer sobre las ecuaciones
(4.9) y (4.10). En primer lugar, el lado izquierdo de (4.9) es una proyeccin.
o
Ello garantiza de manera automtica que y X h 2 es m
a
nimo1 . Adems,
a
el tratamiento anterior se generaliza de modo inmediato al caso de modelos
de rango no completo, sin ms que reemplazar en los lugares procedentes
a
matrices inversas por las correspondientes inversas generalizadas.
En segundo lugar, dado que los estimadores m
nimo cuadrticos ordia
narios estiman insesgadamente los correspondientes parmetros, tomando
a
valor medio en (4.10) vemos que:
E[h ] = (X X)1 A [A(X X)1 A ]1 A
lo que muestra que h es un estimador insesgado de si A = 0. Es decir, la
insesgadez se mantiene si los parmetros realmente verican las condiciones

a
impuestas sobre los estimadores.
En tercer lugar, si denimos: G = (X X)1 A [A(X X)1 A ]1 A tenemos que: h = (I G) . Por consiguiente,
h =
=
=
=
(I G) (I G )
2
(I G) (X X)1 (I G )
2 [(X X)1 G(X X)1 (X X)1 G + G(X X)1 G ]
2 [(X X)1 G(X X)1 G ]
Si hubiramos llegado al mismo resultado minimizando una suma de cuadrados por

e
el procedimiento habitual (derivando un lagrangiano) tendr
amos an que mostrar que
u
el punto estacionario encontrado es un m
nimo y no un mximo.
a

CAP
55
que muestra, dado que el segundo sumando tiene claramente elementos

no negativos en su diagonal principal (la matriz (X X)1 es denida no
negativa), que h tiene en la diagonal principal varianzas no mayores que
las correspondientes en . Podemos concluir, pues, que la imposicin

o
de restricciones lineales sobre el vector de estimadores nunca incrementa

su varianza, aunque eventualmente, si las restricciones impuestas no son
vericadas por los parametros a estimar, puede introducir algn sesgo.
u
Hemos razonado en las l
neas anteriores sobre el modelo transformado.
Podemos sustituir sin embargo (4.3) en (4.10) y obtener la expresin equio
valente en trminos de los parmetros originales:
e
a
h = (X X)1 A [A(X X)1 A ]1 (A c)
(4.11)
R: Ejemplo 4.1 (estimacin condicionada)

o
No hay en R una funcin de propsito general para realizar estio
o
macin condicionada. La extensibilidad del lenguaje hace sin embaro
go extraordinariamente fcil el denirla. El fragmento a continuacin
a
o
ilustra el modo de hacerlo y como utilizarla. No se ha buscado la eciencia ni elegancia sino la correspondencia ms directa con la teor
a
a
expuesta ms arriba.
a
Denimos en primer lugar una funcin para uso posterior:
o
> lscond <- function(X, y, A, d, beta0 = TRUE) {
+
ajuste <- lsfit(X, y, intercept = beta0)
+
betas <- ajuste$coefficients
+
xxinv <- solve(t(X) %*% X)
+
axxa <- solve(A %*% xxinv %*% t(A))
+
betas.h <- betas - xxinv %*% t(A) %*%
+
axxa %*% (A %*% betas - d)
+
betas.h <- as.vector(betas.h)
+
names(betas.h) <- names(ajuste$coefficients)
+
return(list(betas = betas, betas.h = betas.h,
+
ajuste.inc = ajuste))
+ }
Generamos a continuacin los datos y realizamos la estimacin cio
o
nndonos a la teor del modo ms directo. X es la matriz de dise o,
e
a
a
n
beta contiene los parmetros e y la variable respuesta:
a
> X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4,
+
12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6,
+
3)
> X

CAP
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[,1] [,2] [,3]

1
1
0
1
4
6
1
12
7
1
1
0
1
4
2
1
13
2
> beta <- c(2, 3, 4)

> y <- X %*% beta + rnorm(6)
Especicamos la restriccin lineal 1 = 2 tomando la matriz A y
o
vector d siguientes:
> A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE)
> d <- 0
y a continuacin realizamos la estimacin condicionada:
o
o
> resultado <- lscond(X, y, A = A, d = d,
+
beta0 = FALSE)
> resultado$betas.h
X1
X2
X3
2.8392 3.2647 3.2647
> resultado$betas
X1
X2
X3
2.8037 3.0526 3.7138
Fin del ejemplo
56

CAP
57
4.1 Sea un espacio vectorial M cualquiera, de dimensin nita.
o
Comprubese que siempre existe una matriz C tal que M = K(C).
e
(Ayuda: considrese una matriz cuyas las fueran una base de M ).
e
4.2 ( 4.1) Prubese la igualdad (E.15), pg. 244.
e
a
4.3 Justif
quese el paso de (4.9) a (4.10).
4.4
El Ejemplo 4.1 se sale del marco conceptual en el que
nos movemos. Los regresores (K y L, log(K) y log(L) al linealizar la
o
funcin de produccin) no pueden ser jados por el experimentador:
o
o
dependen de los agentes econmicos. Estamos ante datos observados
o
en oposicin a datos experimentales. Faraway (2005), Sec. 3.8, cono
tiene una difana discusin de los problemas que ello conlleva. Es
a
o
tambin interesante, aunque de ms dif lectura, Wang (1993).
e
a
cil
4.5
Las restricciones que hemos discutido en la Seccin 4.3

o
son exactas. Los parmetros las verican de modo exacto. En ocasioa
nes se recurre a restricciones estocsticas, llevando a los parmetros
a
a
a vericarlas de forma aproximada. Es muy fcil introducirlas. Recora
demos que, al hacer estimacin m
o
nimo-cuadrtica, los parmetros
a
a
se jan de modo que la suma de cuadrados de los residuos sea la m
nima posible. Si tenemos restricciones A = c que queremos imponer
de modo aproximado basta que a adamos las las de A a la matriz
n
X y los elementos correspondientes de c al vector y para obtener:
y
c
X
+
A
y hagamos m
nimos cuadrados ordinarios con la muestra ampliada
(las las a adidas se denominan en ocasiones pseudo-observaciones).
n
La idea es que las las a adidas funcionan como observaciones y,
n
por tanto, el procedimiento de estimacin tender a hacer A c

o
a
sean peque os).
(para que los residuos correspondientes c A
n
A n ms: podemos graduar la importancia que damos a las pseudou
a
observaciones (y por tanto el nivel de aproximacin con que deseamos
o
imponer las restricciones estocsticas): basta que las multipliquemos
a
por una constante adecuada k para estimar
y
kc
X
+ .
kA
(4.12)

CAP
58
Obsrvese que ahora los residuos de las pseudo-observaciones sern

e
a
y si tomamos k elevado el mtodo m
k(c A)
e
nimo cuadrtico
a
tendr que prestar atencin preferente a que A c se verique

a
o
con gran aproximacin (porque los cuadrados de los residuos correso
pondientes entran en SSE afectados de un coeciente k2 ). Cuando
k nos acercamos al efecto de restricciones exactas.
4.6 ( 4.5)
Un caso particular de inters se presenta cuane
do en el problema anterior se toma A = I y c = 0 . Se dice entonces que estamos ante el estimador ridge de parmetro k. En 10.3,
a
pg. 139, abordamos su estudio y justicacin con detalle.
a
o
4.7 ( 4.5)
La estimacin de (4.12) haciendo uso de las
o
ecuaciones normales proporciona
= (X X + k2 A A)1 (X y + k2 A c ),
(4.13)
que admite una interpretacin bayesiana. Supongamos que a priori

o
N ( 0 , 0 ). Dado , Y se distribuye como N (X , 2 I). La
densidad a posteriori de es entonces
1
(y X ) (y X )
2
2
1
exp ( 0 ) 1 ( 0 )
0
2
1
= exp 2 (y X ) (y X )
2
f ( |y , 2 , 0 , 0 ) exp
2 ( 0 ) 1 ( 0 )
0
Tomando el logaritmo neperiano e igualando a cero su derivada respecto a tenemos entonces
1
(2X (y X ) + 2 2 1 ( 0 ) = 0 ,
0
2
2
que proporciona
(X X + 2 1 ) X y 2 1 0 = 0 ,
0
0
y por tanto la moda de la distribucin a posteriori (que fcilmente
o
a
se comprueba es normal multivariante) es:
= (X X + 2 1 )1 (X y + 2 1 0 ).
0
0
(4.14)

CAP
Comparando (4.14) con (4.13) vemos que son idnticas cuando kA =
e
1
0 2 y kc = 0 2 0 : para obtener el estimador bayesiano con

informacin a priori como la indicada, basta por tanto con obtener el
o
estimador MCO en una muestra ampliada con pseudo-observaciones.
59
Cap
tulo 5
Especicacin inadecuada del moo

delo
5.1.
Introduccin.
o
En lo que antecede hemos dado por supuesto que el modelo lineal que
se estima es el correcto, es decir, que la variable aleatoria Y efectivamente
se genera de la siguiente manera:
Y = 0 X0 + 1 X1 + . . . + p1 Xp1 + .
(5.1)
En la prctica, sin embargo, no tenemos un conocimiento preciso del mea

canismo que genera las Y s. Tenemos, todo lo ms, una lista de variables
a
susceptibles de formar parte de la ecuacin (5.1) en condicin de regresores.
o
o
De ordinario, por ello, incurriremos en errores en la especicacin, que
o
pueden ser de dos naturalezas:
1. Incluir en (5.1) regresores irrelevantes.
2. Omitir en (5.1) regresores que hubieran debido ser incluidos.
Estudiamos en lo que sigue el efecto de estos dos tipos de mala especicacin.
o
5.2.
Inclusin de regresores irrelevantes.

o
Supongamos que
Y
= X +
60
(5.2)

CAP
ITULO 5. ESPECIFICACION INADECUADA DEL MODELO
61
pese a lo cual decidimos estimar el modelo

Y
= X + Z +
(5.3)
Qu ocurre con los estimadores de los parmetros ?

e
a
Al estimar el modelo sobreparametrizado (5.3) obtendr
amos:
X X X Z
Z X Z Z
X
Y
Z
(5.4)
En el caso particular de columnas Z ortogonales a las columnas en X, los

estimadores de proporcionados por (5.3) son idnticos a los que se obtene
dr de (5.2). En efecto, si existe tal ortogonalidad, la matriz inversa en
an
(5.4) es una matriz diagonal por bloques y = (X X)1 X Y .

Fuera de este caso particular, los estimadores de procedentes de (5.4)
son diferentes a los que se obtendr de estimar (5.2).
a
Sin embargo, (5.4) proporciona estimadores insesgados, sean cuales fueren los regresores irrelevantes aadidos1 . En efecto, sustituyendo (5.2) en
n
(5.4) tenemos:
X
Z
X X X Z
Z X Z Z
X X X Z
+
Z X Z Z
0
X Z
1
+
0
X
.
Z
(5.5)
(5.6)
Al tomar valor medio en la ecuacin anterior obtenemos:

o
E[] = ,
E[ ] = 0.
(5.7)
(5.8)
De la misma ecuacin (5.6) obtenemos que la matriz de covarianzas del

o

vector ( ) es:
=
X X X Z
Z X Z Z
(5.9)
El bloque superior izquierdo de (5.9) es la matriz de covarianzas de los
obtenidos en el modelo sobreparametrizado. Debemos comparar dicho
bloque con 2 (X X)1 , matriz de covarianzas de los obtenidos al estimar

el modelo (5.2).
1
De los que lo unico que supondremos es que no introducen combinaciones lineales
exactas que hagan inestimables los parmetros.

a

CAP
62
Haciendo uso del Teorema A.3, pg. 221, vemos que el bloque que nos
a
2
interesa de (5.9) es multiplicado por
(X X)1 + (X X)1 X Z[Z Z Z X(X X)1 X Z]1 Z X(X X)1 .
Por simple inspeccin vemos que el segundo sumando es una matriz deo
nida no negativa2, y por tanto la expresin anterior tendr en su diagonal
o
a
principal elementos no menores que los de la diagonal principal de (X X)1 .
En consecuencia, la inclusin de regresores irrelevantes no disminuye, y en
o
general incrementa, las varianzas de los estimadores de los parmetros relea
vantes. No afecta sin embargo a su insesgadez.
De cuanto antecede se deduce que
Y X Z
(5.10)
es un vector aleatorio de media cero. Denominando,

L =
X Z ,
un desarrollo enteramente similar al que realizaremos en el Teorema 6.1,

pg. 68, muestra que en el modelo sobreparametrizado
a
SSE = Y (I L(L L)1 L )Y = (I L(L L)1 L )
(5.11)
es, bajo los supuestos habituales ms normalidad, una forma cuadrtica con
a
a
distribucin 2 2 (p+q) , en que p y q son respectivamente los rangos de X
o
N
y Z. La consecuencia que de ello nos interesa ahora es que
2 =
SSE
N (p + q)
(5.12)
es un estimador insesgado de 2 . (Recurdese que el valor medio de una v.a.

e
con distribucin 2 es k, el nmero de grados de ibertad.) El unico efecto
o
u
k
adverso de la inclusin de los q regresores irrelevantes ha sido la prdida de
o
e
otros tantos grados de libertad.
2
Llamemos G a dicho segundo sumando. Para mostrar que es denida no negativa, basta ver que para cualquier a se verica a Ga 0. Pero a Ga = b (Z Z
o
Z X(X X)1 XZ)1 b con b = Z X(X X)1 a; ya slo tenemos que comprobar que
(Z Z Z X(X X)1 XZ)1 es denida no negativa, o equivalentemente que (Z Z
Z X(X X)1 XZ) lo es. Esto ultimo es inmediato: (Z Z Z X(X X)1 XZ) =
Z (I X(X X) X)Z, y d Z (I X(X X)1 X)Z d puede escribirse como e (I

X(X X)1 X)e con e = Z d . La matriz de la forma cuadrtica en e es la conocida
a
matriz de coproyeccin, denida no negativa por ser idempotente (con valores propios
o
cero o uno).

CAP
5.3.
63
Omisin de regresores relevantes.

o
.
.
n
Sea X = (X1 . X2 ) una matriz de diseo particionada en sendos bloques
.
de p y r columnas. Sea = ( 1 . 2 ) el correspondiente vector de p + r
.
parmetros. Consideremos el caso en que el modelo correcto es
a
Y
= X + = X1 1 + X2 2 + ,
(5.13)
pese a lo cual estimamos el modelo escaso

Y
= X1 1 + .
(5.14)
Estimar (5.14) es lo mismo que estimar (5.13) junto con las restricciones
h : 2 = 0, expresables as
:
0 0
0 I
1
2
0
0
(5.15)
En consecuencia, podemos deducir cuanto necesitamos saber haciendo

uso de los resultados en la Seccin 4.3. Las siguientes conclusiones son as
o
inmediatas:
(h)
El estimador 1 obtenido en el modelo escaso (5.14) es, en general,
sesgado. El sesgo puede obtenerse haciendo uso de (4.11). Tenemos
as que
(h)
1
0
1 1
(X X) A [A(X X) A ] (A 0),
2
y en consecuencia
E[1 1 ] = (X X)1 A [A(X X)1 A ]1

(h)
0
2
(5.16)
(p1)
en que [M](pq) designa el bloque superior izquierdo con p las y q

columnas de la matriz M. La ecuacin (5.16) muestra que el sesgo
o
introducido depende de la magnitud de los parmetros asociados a
a
los regresores omitidos.
La ecuacin (5.16) muestra tambin que hay un caso particular en que
o
e
(h)
1 es insesgado para 1 ; cuando las columnas de X1 y las de X2 son
ortogonales, X1 X2 = 0, la matrix (X X)1 es diagonal por bloques, y

(X X)1 A =
X1 X1
0
0
X 2 X2
0 0
0 I
(5.17)

CAP
64
tiene sus primeras p las de ceros. Ello hace que el bloque considerado
en (5.16) est formado por ceros.
e
El estimador de la varianza de la perturbacin
o
(h)
(h)
(Y X1 1 ) (Y X1 1 )
SSE
=
=
N p
N p
2
(5.18)
no es insesgado. En efecto, puede verse que no es de aplicacin a

o
(5.18) el Teorema 2.3, pg. 21, porque los residuos no tiene media
a
cero.
5.4.
Consecuencias de orden prctico

a
Los resultados de las dos Secciones anteriores pueden ayudarnos a tomar

decisiones a la hora de especicar un modelo. Hemos visto que sobreparametrizar no introduce sesgos: tan slo incrementa la varianza de los estimadores
o
y resta grados de libertad. Errar por exceso tendr por ello en general cona
secuencias menos graves, y tanto menos importantes cuanto mayor sea el
tamao muestral. La prdida de un grado de libertad adicional originada
n
e
por la inclusin de un parmetro es menos importante cuando los grados
o
a
de libertad restantes (N p) siguen siendo muchos.
La sla circunstancia en que la inclusin de un regresor innecesario puede
o
o
perjudicar gravemente la estimacin se presenta cuando la muestra es muy
o
pequea o el parmetro adicional es aproximadamente combinacin lineal
n
a
o
de los ya presentes. A esta ultima cuestin volveremos en el Cap
o
tulo 9.
Omitir regresores relevantes tiene consecuencias en general ms graves
a
(h)
1 en el
y que no se atenan al crecer el tamao muestral: el sesgo de
u
n
modelo escaso (5.14) no decrece hacia cero al crecer N.
En este cap
tulo hemos rastreado las consecuencias de dos posibles errores de especicacin puros: falta o sobra de regresores. En la prctica los
o
a
dos tipos de errores se pueden presentar conjuntamente y sus efectos se
combinan.
Conocidos los problemas de una mala especicacin se plantea el proo
blema de cmo lograr una buena. Esta cuestin se trata en el Cap
o
o
tulo 12.
Algunas tcnicas de anlisis grco de residuos que pueden ser de ayuda en
e
a
a
la especicacin de modelos se consideran en la Seccin 13.2.
o
o
Cap
tulo 6
Regresin con perturbaciones noro

males.
6.1.
Introduccin.
o
Si a los supuestos habituales (Seccin 1.3, pg. 5) aadimos1 el de que

o
a
n
N(0, 2 I), todos los resultados anteriores se mantienen; obtendremos
no obstante muchos adicionales, relativos a la distribucin de diferentes
o
estad
sticos. Podremos tambin efectuar contrastes de hiptesis diversas.
e
o
Buena parte de estos resultados son consecuencia casi inmediata de alguno
de los siguientes lemas.
Lema 6.1 Si u N(0, 2 I) y A es una matriz simtrica idempotente de
e
orden n y rango r, entonces: u Au 2 .

2
r
Demostracion:
Sea D la matriz diagonalizadora de A. Siendo A simtrica, D es una
e
matriz ortogonal cuyas columnas son vectores propios de A, vericndose:
a
D AD = , en que es una matriz en cuya diagonal principal aparecen los
valores propios de A. Como A es idempotente, es de la forma
r (n r)
I
0
,
0
0
en que I es una matriz unidad de rango r, y los bloques de ceros que la

circundan son de rdenes adecuados para completar una matriz cuadrada
o
de orden n n.
1
El s
mbolo denotar en lo sucesivo que el lado izquierdo es una variable aleatoria
a
con la distribucin que especica el lado derecho.
o
65

CAP
ITULO 6. REGRESION CON PERTURBACIONES NORMALES. 6
6
Si hacemos el cambio de variable v = D u ( u = Dv), el nuevo vector
v sigue tambin una distribucin N(0, 2 I). Entonces,
e
o
u Au
v D ADv
v I 0 v
=
=
=
2
2
0 0
2
vi
.
2
i=1
(6.1)
Pero el lado derecho de (6.1) es una suma de cuadrados de r variables

aleatorias N(0, 1) independientes, y por tanto sigue una distribucin2 2 .
o
r
Lema 6.2 Sea B una matriz simtrica nn y P una matriz simtrica ideme
e
potente del mismo orden y rango r. Sea u un vector aleatorio n-variante,
u N(0, 2 I), y supongamos que se verica BP = 0. Entonces, u Bu y
u P u son variables aleatorias independientes.
Demostracion:
Sea D la matriz diagonalizadora de P . Al igual que antes, denamos
v = D u, (lo que implica u = Dv). Tenemos que:
BP = 0 D BDD P D = 0
D BD
(6.2)
(6.3)
r (n r)
I
0
0
0
=0
(6.4)
D BD tiene sus r primeras columnas nulas
(6.5)
(6.6)
Por tanto:
D BD =
r
(n r)
r (n r)
0
L12
0
L22
=0
(6.7)
Como, adems, D BD es simtrica, L12 ha de ser tambin un bloque de

a
e
e
ceros, y:
u Bu = v D BDv = v
2
r (n r)
0
0
v
0
L22
(6.8)
El rec
proco es tambin cierto; vase en Searle (1971), Teorema 2, pag. 57 una
e
e
versin ms potente de este teorema.
o
a

CAP
6
Por otra parte:
u P u = v D P Dv = v
r (n r)
I
0
v
0
0
(6.9)
De (6.8) y (6.9) se deduce que ambas formas cuadrticas consideradas

a
dependen de distintas componentes del vector v, y son por tanto independientes.
Lema 6.3 Sea M una matriz simtrica idempotente de rango r y dimene

siones n n. Sea A una matriz que verica AM = 0, y u N(0 , 2 I).
Entonces Au y u Mu son variables aleatorias independientes.
Demostracion:
Sea D la matriz que diagonaliza M. Al igual que antes, denamos v =
D u ( u = Dv). Como AM = 0, y D MD es una matriz diagonal con r
unos y (n r) ceros en la diagonal principal, se verica que
AM = ADD MD = 0 AD =
r
(n r)
0 |
L2
,
(6.10)
es decir, AD tiene sus primeras r columnas de ceros. Por consiguiente,

Au = ADv =
r
(n r)
0 |
L2
v.
(6.11)
Como
u Mu = v D MDv = v
r (n r)
I
0
v,
0
0
(6.12)
deducimos de (6.11) y (6.12) que ambas variables aleatorias consideradas

dependen de distintas componentes de v, y son consecuentemente independientes.
Podemos ahora, con ayuda de los Lemas precedentes, demostrar el siguiente resultado:

CAP
6
Teorema 6.1 Si Y = X + , N(0, 2 I), y X es de orden N p y
rango p, se verica:
1.
N( , 2 (X X)1 )
2.
( ) (X X)( ) 2 2
p
3.
(N p) 2 = SSE 2 2 p
4.

y 2 son variables aleatorias independientes.
Demostracion:
El apartado 1) es inmediato. Si se verican los supuestos habituales, fue
ya demostrado (Teorema 2.2, pg. 19) que es un estimador insesgado de

a
con la matriz de covarianzas indicada. Como, adems, es una combinacin
a
o
lineal de variables aleatorias normales e independientes, es tambin normal.
e
El apartado 2) es consecuencia inmediata del Lema 6.1, una vez que
1
observamos que (X X) 2 ( ) N(0 , 2 I).

Para demostrar el apartado 3) observemos que:
SSE
2
=
=
=
=
=
=
(Y X ) (Y X )
2
(Y X(X X)1 X Y ) (Y X(X X)1 X Y )
2
Y [I X(X X)1 X ]Y
2
(X + ) [I X(X X)1 X ](X + )
2
[I X(X X)1 X ]
2
M
2
2 p ,
N
(6.13)
(6.14)
(6.15)
(6.16)
(6.17)
(6.18)
(6.19)
donde (6.19) es consecuencia inmediata del Lema 6.1, ya que M es simtrica

e
idempotente y de rango N p.
Para probar 4), basta invocar el Lema 6.3, ya que
= (X X)1 X Y ,
(6.20)
2 =
SSE
Y [I X(X X)1 X ]Y
=
.
N p
N p
(6.21)

CAP
6
De la ecuacin (6.20) deducimos (sustituyendo Y por X + ) que =

o
1
+ (X X) X . La misma sustitucin en (6.21) muestra que
o
2 =
[I X(X X)1 X ]
.
N p
Como
(X X)1 X [I X(X X)1 X ] = 0,
el Lema 6.3, pg. 67, demuestra la independencia de las formas lineal y
a
cuadrtica anteriores y por tanto de (6.20) y (6.21).
a
R: Ejemplo 6.1 (ejemplo de simulacin)

o
El cdigo que sigue tiene por objeto ilustrar cmo examinar
o
o
amos
emp
ricamente la concordancia entre lo que la teor predice y lo que
a
podemos obtener en la prctica. Lo que se hace es generar m ltiples
a
u
muestras articiales, obtener de ellas m ltiples observaciones del esu
tad
stico de inters (aqu ) y examinar el ajuste de la distribucin
e
,
o
emp
rica de los mismos a la terica.
o
Generemos en primer lugar la matriz de dise o X, vector de
n
parmetros y los valores medios de la respuesta X :
a
> X <- matrix(c(1, 1, 1, 1, 1, 1, 9, 4,
+
12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6,
+
3)
> X
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[,1] [,2] [,3]

1
9
0
1
4
6
1
12
7
1
1
0
1
4
2
1
13
2
> beta <- c(2, 3, 4)

> Ey <- X %*% beta
Deniremos ahora una matriz b de dimensiones 100 3, cada una
de cuyas las guardar los parmetros estimados con una muestra

a
a
articial diferente

CAP
7
> muestras <- 100
> b <- matrix(0, muestras, 3)
e iteremos, generando en cada pasada del bucle for un nuevo vector
de perturbaciones (mediante rnorm), un nuevo vector de valores de
la variable respuesta y y nuevas estimaciones de los parmetros

a
(fit$coefficients, que se almacenan en b[i,]):
> for (i in 1:muestras) {
+
y <- Ey + rnorm(6)
+
fit <- lsfit(X, y, intercept = FALSE)
+
b[i, ] <- fit$coefficients
+ }
La distribucin terica de los betas es Normal, con vector de medias
o
o
(2, 3, 4) y matriz de covarianzas (X X)1 (la varianza de las perturbaciones generadas por rnorm es 1 si no se especica otra cosa).
> cov.betas <- solve(t(X) %*% X)
Por consiguiente, un modo de vericar que los resultados emp
ricos
son congruentes con la teor consistir en tipicar las estimaciones
a
a
de los parmetros y comparar su distribucin con una N (0, 1). Poa
o
demos por ejemplo comparar la media y varianza emp
ricas con las
tericas,
o
> beta1.tipif <- (b[, 1] - beta[1])/sqrt(cov.betas[1,
+
1])
> mean(beta1.tipif)
[1] 0.19871
> var(beta1.tipif)
[1] 1.1125
dibujar el histograma
> hist(beta1.tipif, ylab = "Frecuencia absoluta",
+
main = "Histograma de beta1.tipif")

CAP
7
10
0
Frecuencia absoluta
15
Histograma de beta1.tipif
beta1.tipif
o llevar a cabo alg n contraste de normalidad especializado:

u
> ks.test(beta1.tipif, "pnorm")
One-sample Kolmogorov-Smirnov test
data: beta1.tipif
D = 0.1036, p-value = 0.2334
alternative hypothesis: two-sided
> shapiro.test(beta1.tipif)
Shapiro-Wilk normality test
data: beta1.tipif
W = 0.9874, p-value = 0.4679
Lo que antecede ilustra, reducido a sus rasgos esenciales, el llamado mtodo de Monte-Carlo. Puede parecer un ejercicio ocioso en
e
el caso que nos ocupa (ya sab

amos cmo se distribuye a que
o
viene comprobarlo mediante una simulacin?). Sin embargo, tiene
o
una enorme aplicacin prctica por varias razones:
o
a

CAP
7
1. En ocasiones no conocemos la distribucin terica de los estao
o
d
sticos de inters para muestras nitas. Todo lo que podemos
e
obtener tericamente es la distribucin asinttica (la distribuo
o
o
cin cuando el tama o muestral tiende a innito). En este caso,
o
n
la simulacin permite ver si la aproximacin asinttica es acepo
o
o
table para un cierto tama o muestral.
n
2. En otras ocasiones, ni siquiera la distribucin asinttica es obteo
o
nible anal
ticamente. Este es el caso ms frecuente en la prctia
a
ca. De nuevo el mtodo de Monte-Carlo proporciona un mtodo
e
e
para obtener aproximaciones a la distribucin de cualquier eso
tad
stico.
El uso del mtodo de Monte-Carlo reposa en la posibilidad de gee
nerar mediante un ordenador n meros aleatorios con la distribucin
u
o
que deseemos. En este ejemplo, se ha empleado rnorm para generar variables aleatorias normales. (R ofrece generadores de n meros
u
aleatorios de las distribuciones ms usuales, como casi cualquier otro
a
paquete estad
stico.)
Fin del ejemplo
6.2.
Contraste de hiptesis lineales.

o
El problema que nos planteamos es el siguiente: dado el modelo lineal

Y = X + con los supuestos habituales ms normalidad, queremos, con
a
ayuda de una muestra, contrastar la siguiente hiptesis lineal
o
h : A = c
( rango de A = q < p),
(6.22)
siendo A de dimensiones q p. Cualquier hiptesis lineal sobre los parmeo

a
tros se puede expresar en la forma (6.22). En particular, mediante adecuada
eleccin de A se pueden hacer contrastes de nulidad de uno o varios paro
a
metros, de igualdad de dos o ms de ellos, etc.
a
Observacin 6.1 Llamamos hiptesis lineales a las que pueo
o
den expresarse del modo (6.22); multitud de hiptesis de inters ado
e
miten tal expresin, como se ver en lo que sigue. Hay hiptesis, sin
o
a
o
embargo, que no pueden escribirse de tal forma. Por ejemplo, restricciones de no negatividad sobre los parmetros (i > 0) o sobre el
a
2
2
mdulo de (cosas como 1 + 2 = 1).
o

CAP
7
La forma de efectuar el contraste es la habitual. Se busca un estad
stico que bajo la hiptesis nula h siga una distribucin conocida; si el valor
o
o
obtenido en el muestreo de dicho estad
stico es raro de acuerdo con lo
esperable cuando h es cierta, rechazaremos la hiptesis nula. El estad
o
stico
de contraste y su distribucin se deducen del siguiente teorema:
o
Teorema 6.2 Sea h : A = c una hiptesis lineal, h el vector de estimao

2
dores m
nimo cuadrticos condicionados por h, y SSEh = Y X h
a
Bajo los supuestos habituales ms el de normalidad en las perturbaciones,
a
se verica:
1.
2.
SSEh SSE = (A c ) [A(X X)1 A ]1 (A c )

Si h : A = c es cierta,
Qh =
(SSEh SSE)/q
Fq,N p
SSE/(N p)
en que q p es el rango de A.
Demostracion:
SSEh SSE
=
=
=
=
=
2
2
Y X h Y X
(6.23)
2
2
Y X + X X h Y X
(6.24)
2
2
2
Y X + X X h Y X
+2 < (Y X ), (X X h ) >
2
X X h

( h ) (X X)( h ).
(6.25)
(6.26)
(6.27)
Se ha hecho uso en el paso de (6.25) a (6.26) de que es ortogonal a
toda combinacin lineal de las columnas de X, lo que garantiza la nulidad

o
del producto interno en (6.25).
Haciendo uso de la ecuacin (4.11), pg. 55, la expresin (6.27) se cono
a
o
vierte en:
SSEh SSE = (A c ) [A(X X)1 A ]1 (A c ).
(6.28)
Esto naliza la demostracin del primer apartado. Por otra parte, como
o
= + (X X)1 X ,

CAP
7
tenemos que, cuando se verica la hiptesis h,
o
(A c) = (A A ) = A(X X)1 X ,
resultado que llevado a (6.28) proporciona:
h
SSEh SSE = X(X X)1 A [A(X X)1 A ]1 A(X X)1 X

G
(6.29)
Esta expresin muestra que SSEh SSE es una forma cuadrtica en
o
a
variables normales (las ) de matriz G que fcilmente comprobamos es idema
potente. Por tanto, segn el Lema 6.1, pg. 65, SSEh SSE sigue una disu
a
2 2
tribucin q , con grados de libertad q iguales al rango de G (= rango(A)).
o
Tenemos adems (Teorema 6.1) que:
a
SSE = Y (I PM )Y 2 2 p
N
(6.30)
Para demostrar que Qh en el enunciado es una variable aleatoria con

distribucin F de Snedecor, slo resta comprobar que numerador y denomio
o
nador son independientes: pero sto es inmediato, ya que
e
(I PM ) X(X X)1 A [A(X X)1 A ]1 A(X X)1 X = 0.
G
El Lema 6.2 garantiza por tanto la independencia.
Observacin 6.2 Hay cuestiones de inters sobre el Teorema

o
e
6.2. En primer lugar, es claro que, para un nivel de signicacin
o
, la regin cr
o
tica estar formada por valores mayores que Fq,N p .
a
En efecto, son grandes discrepancias entre SSEh y SSE las que cabe
considerar evidencia contra h. Desde otro punto de vista, el apartado
1) del Teorema 6.2 muestra que el estad
stico tiene en su numerador
una forma cuadrtica que crece al separarse A de c.

a
Observacin 6.3 La presentacin es puramente heur

o
o
stica; se
ha propuesto el estad
stico Qh y encontrado su distribucin, indio
cndose, sin otro apoyo que el sentido com n, qu valores debemos
a
u
e
considerar en la regin cr
o
tica. Podr
amos llegar a un resultado anloa
go si construyramos un estad
e
stico de contraste basado en la razn
o
generalizada de verosimilitudes:
=
mx g(; y, X)
a
mx g(h ; y, X)
a
h

CAP
7
siendo h aquellos vericando h : A = c. Ello proporciona una

justicacin al estad
o
stico anterior.
Observacin 6.4 Del enunciado del teorema anterior se sigue

o
con facilidad que cuando h no es cierta (y en consecuencia A c =
d = 0, Qh sigue una distribucin F de Snedecor no central, con
o
e
e
parmetro de no centralidad 2 = t t (vase Apndice B.1), siendo
a
1
t = [A(X X)1 A ] 2 (A c ).
Ello permite calcular fcilmente la potencia de cualquier contraste
a
frente a alternativas prejadas, si se dispone de tablas o bacos de
a
la F de Snedecor no central. En R se dispone de la funcin pf que
o
admite un parmetro de no centralidad. Alternativamente, puede
a
estimarse la potencia por simulacin.
o
R: Ejemplo 6.2 (contraste de una hiptesis lineal)

o
Veamos el modo en que contrastar
amos una hiptesis lineal geo
neral sobre los parmetros de un modelo de regresin lineal. Nos
a
o
serviremos de la funcin lscond para realizar estimacin condicionao
o
da presentada en el Ejemplo 4.1, pg. 55.
a
> lscond <- function(X, y, A, d, beta0 = TRUE) {
+
ajuste <- lsfit(X, y, intercept = beta0)
+
betas <- ajuste$coefficients
+
xxinv <- solve(t(X) %*% X)
+
axxa <- solve(A %*% xxinv %*% t(A))
+
betas.h <- betas - xxinv %*% t(A) %*%
+
axxa %*% (A %*% betas - d)
+
betas.h <- as.vector(betas.h)
+
names(betas.h) <- names(ajuste$coefficients)
+
return(list(betas = betas, betas.h = betas.h,
+
ajuste.inc = ajuste))
+ }
Deniremos ahora una nueva funcin, contraste.h, que calcula SSE,
o
SSEh (utilizando lscond), el estad
stico Qh y su nivel de signicacin.
o
> contraste.h <- function(X, y, A, d, beta0 = TRUE) {
+
lscond.result <- lscond(X, y, A, d,
+
beta0 = beta0)
+
betas <- lscond.result$betas

CAP
7
+
+
+
+
+
+
+
+
+
+ }
betas.h <- lscond.result$betas.h

SSE <- sum((y - X %*% betas)^2)
SSE.h <- sum((y - X %*% betas.h)^2)
numer <- (SSE.h - SSE)/nrow(A)
denom <- SSE/(nrow(X) - ncol(X))
Qh <- numer/denom
p.value <- 1 - pf(Qh, nrow(A), nrow(X) ncol(X))
return(list(Qh = Qh, p.value = p.value))
Generemos datos articiales:

> X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4,
+
12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6,
+
3)
> X
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[,1] [,2] [,3]

1
1
0
1
4
6
1
12
7
1
1
0
1
4
2
1
13
2
> beta <- c(2, 3, 4)

> y <- X %*% beta + rnorm(6)
Sabemos, porque los datos han sido articialmente generados, que
1 = 3 y 2 = 4. Probaremos a continuacin a contrastar la hipo
o
tesis 1 = 2 , que debiera ser rechazada. La matriz A y vector c
especicando dicha hiptesis pueden construirse as
o
:
> A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE)
> d <- 0
El contraste puede entonces llevarse a cabo as
:
> result <- contraste.h(X, y, A = A, d = d,
+
beta0 = FALSE)
> result$Qh

CAP
7
[1] 161.11
> result$p.value
[1] 0.0010548
Rechazar
amos por consiguiente la hiptesis contrastada para cualo
quier nivel de signicacin > 0.0010548.
o
Frecuentemente podemos obtener las sumas de cuadrados requeridas para el contraste de hiptesis de inters de manera ms simple.
o
e
a
En el caso que nos ocupa, si realmente 1 = 2 ,
Y = 0 X0 + 1 X1 + 2 X2 +
(6.31)
Y = 0 X0 + 1 (X1 + X2 ) +
(6.32)
es equivalente a
y las sumas de cuadrados SSE y SSEh podr obtenerse as

an
:
>
>
>
>
+
SSE <- sum(lsfit(X, y)$residuals^2)

Xmod <- cbind(X[, 1], X[, 2] + X[, 3])
SSE.h <- sum(lsfit(Xmod, y)$residuals^2)
Qh <- ((SSE.h - SSE)/1)/(SSE/(nrow(X) ncol(X)))
Puede verse que el valor de Qh as calculado es idntico al obtenido
e
ms arriba:
a
> Qh
[1] 161.11
Esta tcnica de calcular las sumas de cuadrados SSE y SSEh en
e
dos regresiones ad-hoc puede ser muy frecuentemente utilizada. En el
caso frecuente de hiptesis de exclusin (alguno o varios betas iguales
o
o
a cero), puede obtenerse SSEh de una regresin en que los regresores
o
correspondientes estn ausentes. Si en nuestro ejemplo quisiramos
a
e
contrastar h : 1 = 2 = 0, podr
amos obtener SSE de la regresin
o
(6.31) y SSEh de la regresin
o
Y = 0 X0 + ,
para calcular el estad
stico Qh as
:

CAP
7
>
>
>
+
>
SSE <- sum(lsfit(X, y)$residuals^2)

SSE.h <- sum(lsfit(X[, 1], y)$residuals^2)
Qh <- ((SSE.h - SSE)/2)/(SSE/(nrow(X) ncol(X)))
Qh
[1] 16956
El valor que dicho estad
stico Qh deja en a su derecha en la distribucin de referencia,
o
> 1 - pf(Qh, 2, nrow(X) - ncol(X))
[1] 8.3193e-07
permite rechazar contundentemente la hiptesis h : 1 = 2 = 0
o
contrastada.
Fin del ejemplo
Contraste sobre coecientes i aislados.

El Teorema 6.2 permite obtener como casos particulares multitud de
contrastes frecuentemente utilizados. Por ejemplo, la hiptesis h : i1 = 0
o
puede contrastarse tomando c = 0 y A = 0 1 0 , ocupando el
unico uno la posicin i-sima (recurdese que los parmetros se numeran
o e
e
a
a partir de 0 ). En tal caso, Qh puede escribirse as
:
Qh =
(i1 0) [(X X)1 ]1 (i1 0)

ii
2
(6.33)
donde (X X)1 = [A(X X)1 A ] designa el elemento en la posicin i-sima

o e
ii
1
de la diagonal principal de (X X) . Bajo la hiptesis h, (6.33) sigue una
o
1
2
2
distribucin F1,N p , y como (X X)ii = tenemos que:
o
i1
Qh =
i1
i1
F1,N p tN p
La regla de decisin que se deduce de (6.34) es:

o
(6.34)

CAP
7
Rechazar h : i1 = 0 al nivel de signicacin si
o
i1
/2
> tN p .
i1
El estad
stico |i1 /i1 | recibe el nombre de estad
stico t o t-ratio.
De forma anloga se contrasta la hiptesis h : i1 = c.
a
o
Contraste de signicacin conjunta de la regresin.

o
o
Otra hiptesis frecuentemente de inters es: h : 1 = = p1 = 0
o
e
es decir, nulidad de todos los parmetros, salvo el correspondiente a la
a
columna de unos, 0 . En este caso,
N
SSEh =
i=1
(Yi Y )2
y la hiptesis h puede expresarse en la forma A = c siendo:

o
0
A = .
.
.
0
1
0
.
.
.
0
0
1
.
.
.
0
0
0
.
.
.
0
0
0
. = 0 | I
.
.
1
una matriz con (p 1) las y p columnas, y:

c = 0 0 0
Pero SSEh en este caso particular es lo que hemos denido (Teorema
2.4, pg. 28) como SST . Por tanto,
a
Qh =
(SST SSE)/(p 1)
SSE/(N p)
N p (SST SSE)
p1
SSE
N p
R2
p1
(1 R2 )
siendo R el coeciente de correlacin mltiple denido en el Teorema 2.4,

o
u
pg. 29. El contraste de h requiere solamente conocer R2 . Cuando h es
a
cierta, Qh se distribuye como una Fp1,N p.

CAP
8
6.3.
Construccin de intervalos de conanza

o
para la prediccin.
o
Supongamos de nuevo que trabajamos sobre el modelo Y = X +

con los supuestos habituales ms el de normalidad en las perturbaciones.
a
Frecuentemente es de inters, adems de la estimacin de los parmetros,
e
a
o
a
la utilizacin del modelo con nalidad predictiva.
o
Sea x un vector p 1 de valores a tomar por los regresores. La correspondiente Y ser: Y = x + . Una prediccin Y del valor a tomar por
a
o
= x .
la Y es: Y
Teorema 6.3 Se verica lo siguiente:
1.
E(Y Y ) = 0
2.
E(Y Y )2 = 2 (1 + x (X X)1 x )
Demostracion:
El apartado 1) se sigue inmediatamente de las ecuaciones (6.35) y (6.36)
a continuacin, consecuencia la primera de los supuestos habituales, y la
o
segunda de la insesgadez de (Teorema 2.2, pg. 19).

a
E(Y ) = E(x + ) = x
E(Y ) = E(x ) = x
(6.35)
(6.36)
Se dice que Y es una prediccin insesgada de Y . Observemos que:

o
E(Y Y )2 = E[x + x ]2
= E[x ( ) + ]2
(6.37)
(6.38)
= E[x ( )] + E[ ]
= E[x ( )( ) x ] + E[ ]2
2
= x x +
(6.39)
= x 2 (X X)1 x + 2
= 2 [1 + x (X X)1 x ]
(6.42)
(6.43)
(6.40)
(6.41)
En el paso de (6.38) a (6.39) se ha hecho uso de la circunstancia de que

y son independientes ( depende solamente de , y es perturbacin
o
de una observacin adicional, distinta de las que han servido para estimar
o
e independiente de ellas).

CAP
8
El examen de (6.43) muestra dos cosas. Una, que la varianza del error
de prediccin es mayor o igual que la varianza de la perturbacin (ya
o
o
1
que x (X X) x es una forma cuadrtica semidenida positiva). Esto es
a
lgico: es del todo impredecible, y, adems, la prediccin Y incorpora
o
a
o
una fuente adicional de error, al emplear en lugar de .

Por otra parte, (6.43) muestra que la varianza del error de prediccin
o
depende de x . Habr determinadas Y cuya prediccin ser ms precisa

a
o
a a
que la de otras. En el Cap
tulo 9 volveremos sobre el particular.
6.4.
Sobre la teor
a. Pueden ser consultados los manuales repetidamente citados: Seber (1977), Cap. 4, Draper and Smith (1998) Cap. 8, Stapleton
(1995) Sec. 3.8, Pea (2002) Sec. 7.7 son unos cuantos.
n
Sobre generadores de nmeros aleatorios, pueden consultarse Knuth
u
(1968), Kennedy (1980), Lange (1998), Thisted (1988) y, en general, cualquier texto sobre computacin estad
o
stica.
Sobre el contraste razn generalizada de verosimilitudes, puede verse
o
Cox and Hinkley (1974) p. 313 y para su aplicacin al contraste de hiptesis
o
o
lineales generales, Stapleton (1995) Sec. 3.8.
Sobre la utilizacin de R. En el Ejemplo 4.1, pg. 55 y siguientes, se
o
a
han denido las funciones lscond y contraste.h por motivos didcticos.
a
En R hay funciones en varios paquetes que proporcionan anloga funcionalia
dad. Puede consultarse por ejemplo la documentacin de linear.hypothesis
o
(paquete car) y glh.test (paquete gmodels).
Por lo que hace a intervalos de conanza, que tambin pueden obtenerse
e
fcilmente de acuerdo con la teor esbozada en la Seccin 6.3, puede ser de
a
a
o
utilidad la funcin confint (paquete stats).
o
El empleo de dichas funciones, sin embargo, presupone familiaridad con
la funcin lm, que es objeto de atencin en el Cap
o
o
tulo 7 a continuacin.
o

CAP
8
6.1 Demustrese que si G es la matriz denida en (6.29) con A
e
y (X X) ambas de rango completo, entonces rango(G) = rango(A).
Cap
tulo 7
Estimacin del modelo de regreo

sin lineal con R.
o
En los cap
tulos anteriores han aparecido fragmentos de cdigo ilustrano
do el modo de llevar a cabo diversos clculos en R. Se presenta aqu la
a
funcin lm y algunas otras, para ilustrar tanto los conceptos tericos ado
o
quiridos como la potencia del entorno de modelizacin proporcionado por
o
R.
Este cap
tulo es eminentemente prctico y puede ser omitido sin prdida
a
e
de continuidad por lectores que no estn interesados en utilizar R como
e
herramienta de clculo.
a
7.1.
Tipolog de variables explicativas.

a
Interesar distinguir dos tipos de variables: cualitativas (tambin llamaa

e
das categricas) y numricas. Las variables cualitativas se desglosan a su
o
e
vez en nominales y ordinales.
Una variable cualitativa nominal especica una caracter
stica o atributo
que puede tomar un nmero entero (y habitualmente pequeo) de niveles o
u
n
estados. Por ejemplo, una variable Zona podr tomar los niveles o estados:
a
Europa, Africa, Asia, America y Ocean Requeriremos que las
a.
categor sean exhaustivas, de forma que todo caso muestral pueda recibir
as
un valor. Si es preciso, podemos crear una categor especial como Otros
a
o Resto.
Una variable cualitativa ordinal se diferencia unicamente de una nomi
nal en que hay una ordenacin natural entre las categor Por ejemplo,
o
as.
en una variable como Nivel de estudios podr
amos tener categor coas
mo: Sin estudios, Primarios, Secundarios, Superiores. La diferencia
83

CAP
ITULO 7. REGRESION CON R
84
esencial con las variables nominales es que hay una ordenacin entre los diso
tintos niveles: cada una de las categor en el orden en que se hay escrito
as
implica ms estudios que la categor precedente. No hab en cambio, en
a
a
a,
el ejemplo anterior una ordenacin natural entre las zonas geogrcas.
o
a
Las variables que hemos denominado numricas pueden en principio
e
ponerse en correspondencia con un intervalo de nmeros reales. Ser el caso
u
a
de variables como Peso Temperatura (aunque en la prctica el nmero
o
a
u
de estados que pueden tomar es nito a causa de la precisin tambin nita
o
e
de los instrumentos de medida que empleamos).
En cierto sentido, los tres tipos de variables, en el orden en que se han
descrito, reejan una mayor nura o contenido informativo: una variable numrica puede convertirse en ordinal jando intervalos: por ejemplo, Teme
peratura podr convertirse en una variable ordinal con niveles Fr
a
o,
Templado y Caliente, al precio de un cierto sacricio de informacin:
o
dos temperaturas de, por ejemplo, 80C y 93C podr ambas convertirse
an
en Caliente, perdindose la informacin de que la segunda es superior a
e
o
la primera.
Anlogamente, una variable ordinal puede tratarse como nominal, haa
ciendo abstraccin de su orden, tambin al precio de sacricar cierta inforo
e
macin.
o
Observacin 7.1 En general, no interesar degradar una vao
a
riable tratndola como un tipo inferior, aunque en algunos casos,
a
puede convenirnos hacerlo. Por ejemplo, si examinamos la inuencia
de la renta sobre el consumo de un cierto bien en una muestra de
familias, medir la renta en euros da al coeciente asociado la interpretacin de Incremento de consumo asociado a un incremento
o
de renta de un euro. T
picamente, tendr un valor muy peque o.
a
n
Adems, el suponer una dependencia lineal del consumo sobre la rena
ta ser en la mayor de los casos poco realista. En tal caso, podr
a
a
a
convenirnos redenir la variable renta en categor
as. Los coecientes estimados sern ms fcilmente interpretables, y tendremos un
a
a a
modelo ms exible, que no fuerza una relacin lineal entre renta
a
o
y consumo. (Adicionalmente, si la variable se obtiene por encuestacin, los sujetos podr ser ms veraces al encuadrarse en intervalos
o
an
a
amplios de renta que al responder directamente sobre su valor.)

CAP
7.2.
85
Factores y dataframes.
R ofrece excelentes facilidades para tratar variables de diferentes tipos

como regresores. En la jerga de R, una variable cualitativa se denomina
factor.
Hay factores ordinarios, que permiten manejar variables cualitativas nominales, y factores ordenados (ordered factors), para variables cualitativas
ordinales. El Ejemplo 7.1 a continuacin ilustra la manera de operar con
o
ellos.
R: Ejemplo 7.1 Para que una variable sea un factor, hay que
especicarlo. Observemos el siguiente fragmento de cdigo:
o
> Zona.chr <- c("Europa", "Europa", "Asia",
+
"Africa", "America", "Oceana", "Asia")
> Zona <- as.factor(Zona.chr)
> Zona.chr
[1] "Europa" "Europa" "Asia"
[5] "America" "Oceana" "Asia"
"Africa"
> Zona
[1] Europa Europa Asia
Africa America
[6] Oceana Asia
Levels: Africa America Asia Europa Oceana
Obsrvese que Zona.chr y Zona se imprimen de manera similar, aune

que uno es una cadena de caracteres y otro un factor. La diferencia
estriba en las comillas en el primer caso y la l
nea adicional especicando los niveles en el segundo. Podemos preguntar la clase de objeto
con la funcin class o ver la structura con la funcin str para ver
o
o
la diferencia:
> class(Zona.chr)
[1] "character"
> class(Zona)
[1] "factor"
> str(Zona.chr)
chr [1:7] "Europa" "Europa" "Asia" ...

CAP
86
> str(Zona)
Factor w/ 5 levels "Africa","America",..: 4 4 3 1 2 5 3
Un factor tiene denidos niveles, en tanto una cadena de caracteres
no:
> levels(Zona.chr)
NULL
> levels(Zona)
[1] "Africa" "America" "Asia"
[5] "Oceana"
"Europa"
Veamos ahora como denir un factor ordenado:

> Estudios <- ordered(c("Superiores", "Medios",
+
"Medios", "Primarios", "Ningunos"))
Si no se especica lo contrario, el orden de los niveles se determina
por el orden alfabtico de sus denominaciones. Esto har que en
e
a
Estudios el nivel Medios precediera a Ningunos, y ste a Primae
rios, lo que es indeseable:
> Estudios
[1] Superiores Medios
Medios
Primarios
[5] Ningunos
4 Levels: Medios < Ningunos < ... < Superiores
Para especicar un orden, podemos crear el objeto Estudios as
:
> Estudios <- ordered(c("Superiores", "Medios",
+
"Medios", "Primarios", "Ningunos",
+
"Medios", "Primarios"), levels = c("Ningunos",
+
"Primarios", "Medios", "Superiores"))
> Estudios
Medios
Primarios
[5] Ningunos
Medios
Primarios
4 Levels: Ningunos < Primarios < ... < Superiores

CAP
87
Podemos de modo anlogo reordenar los niveles. Si, por ejemplo,

a
queremos revertir el orden, podemos hacerlo as
:
> Estudios.1 <- ordered(Estudios, levels = c("Superiores",
+
"Medios", "Primarios", "Ningunos"))
o, mas simplemente podemos revertir el orden de los niveles mediante
la funcion rev, sin necesidad de enumerarlos. Comprobemos a continuacin que obtenemos en ambos casos el mismo objeto con el orden
o
de los niveles deseado:
> Estudios.2 <- ordered(Estudios, levels = rev(levels(Estudios)))
> Estudios.1
Medios
Primarios
[5] Ningunos
Medios
Primarios
4 Levels: Superiores < Medios < ... < Ningunos
> Estudios.2
Medios
Primarios
[5] Ningunos
Medios
Primarios
4 Levels: Superiores < Medios < ... < Ningunos
Una manipulacin que deseamos hacer de ordinario con factores no
o
ordenados es la de poner en primer lugar uno de los niveles, el nivel de
referencia. Podemos lograrlo cmodamente con la funcin relevel
o
o
> Zona
Africa America
[6] Oceana Asia
Levels: Africa America Asia Europa Oceana
> Zona <- relevel(Zona, ref = "Asia")

> Zona
Africa America
[6] Oceana Asia
Levels: Asia Africa America Europa Oceana
Veremos en el Ejemplo 7.5 la utilidad de esto. Denamos ahora dos

variables numricas:
e

CAP
88
> Ingresos <- c(13456, 12345, 3456, 1234,

+
6789, 4567, 2300)
> Mortalidad <- c(0.003, 0.004, 0.01, 0.02,
+
0.006, 0.005, 0.015)
Podemos reunir variables de diferentes tipos en una dataframe. A
todos los efectos, es como una matriz, pero presenta la peculiaridad
de que sus columnas pueden ser de diferentes tipos:
> Datos <- data.frame(Zona, Estudios, Ingresos,
+
Mortalidad)
> Datos
1
2
3
4
5
6
7
Zona
Estudios Ingresos Mortalidad
Europa Superiores
13456
0.003
Europa
Medios
12345
0.004
Asia
Medios
3456
0.010
Africa Primarios
1234
0.020
America
Ningunos
6789
0.006
Oceana
Medios
4567
0.005
Asia Primarios
2300
0.015
> str(Datos)
data.frame:
$ Zona
:
$ Estudios :
$ Ingresos :
$ Mortalidad:
7 obs. of 4 variables:
Factor w/ 5 levels "Asia","Africa",..: 4 4 1 2 3 5 1
Ord.factor w/ 4 levels "Ningunos"<"Primarios"<..: 4 3 3 2 1 3 2
num 13456 12345 3456 1234 6789 ...
num 0.003 0.004 0.01 0.02 0.006 0.005 0.015
Una dataframe tiene la misma representacin interna que una lista.

o
Podemos referirnos a sus trminos como a los elementos de una lista,
e
o proporcionando
ndices de la y columna:
> Datos$Ingresos
[1] 13456 12345
3456
1234
6789
4567
2300
3456
1234
6789
4567
2300
6789
4567
2300
> Datos[[3]]
[1] 13456 12345
> Datos[, "Ingresos"]

[1] 13456 12345
3456
1234

CAP
89
> Datos[3, 2:3]

3
Estudios Ingresos
Medios
3456
Fin del ejemplo
Una dataframe provee un entorno de evaluacin. Muchas funciones en R

o
admiten un argumento data que permite especicar la dataframe en la que
es preciso buscar las variables que se nombran. Adicionalmente, la instruccin attach hace que las columnas en una dataframe sean accesibles como
o
variables denidas en el espacio de trabajo. El Ejemplo 7.2, continuacin
o
del Ejemplo 7.1, lo ilustra.
R: Ejemplo 7.2 Comencemos por eliminar del espacio de trabajo algunas variables:
> rm(Zona, Estudios, Ingresos, Mortalidad)
Si ahora tecleramos el nombre de alguna de ellas obtendr
a
amos un
error. No obstante, tras invocar la funcin attach sus columnas son
o
visibles como si variables en el espacio de trabajo se tratase:
> attach(Datos)
> Zona
Africa America
[6] Oceana Asia
Levels: Asia Africa America Europa Oceana
La funcin detach revierte el efecto de attach:

o
> detach(Datos)
Si un objeto existe en el espacio de trabajo, su valor oculta el de la
columna del mismo nombre en una dataframe attacheada:
> Zona <- c("a", "b", "c")
> attach(Datos)

CAP
90
The following object(s) are masked _by_ .GlobalEnv:

Zona
> Zona
[1] "a" "b" "c"
Fin del ejemplo
7.3.
Frmulas
o
Bastantes funciones en R hacen uso de frmulas. Permiten, entre otras

o
cosas, especicar de modo simple modelos de regresin, simplemente nomo
brando a la izquierda del s
mbolo ~ la variable respuesta, y a la derecha las
variables regresores.
Una frmula puede proporcionarse como argumento directamente para
o
estimar un modelo de regresin lineal ordinaria (mediante la funcin lm;
o
o
un ejemplo en la Seccin 7.4), regresin lineal generalizada (mediante la
o
o
funcin glm) o regresin no lineal (mediante la funcin nlme en el paquete
o
o
o
del mismo nombre). Por razones didcticas, sin embargo, exploraremos
a
primero el modo en que los diferentes tipos de variables son tratados en
una frmula por la funcin model.matrix.
o
o
La funcin model.matrix recibe como argumentos una frmula y, opcioo
o
nalmente, una dataframe en la que los trminos de la frmula son evaluados.
e
o
Proporciona la matriz de diseo asociada al modelo que especicamos en la
n
frmula.
o
R: Ejemplo 7.3 Supongamos que deseamos investigar la relacin entre la variable Mortalidad y la variable Ingresos. Podemos
o
construir la matriz de dise o as
n
:
> X <- model.matrix(Mortalidad ~ Ingresos,
+
data = Datos)
> X
1
2
3
4
(Intercept) Ingresos
1
13456
1
12345
1
3456
1
1234

CAP
5
1
6
1
7
1
attr(,"assign")
[1] 0 1
6789
4567
2300
Como podemos ver, se ha a adido automticamente una columna de

n
a
unos. Si esto fuera indeseable por alg n motivo, podr
u
amos evitarlo
incluyendo como regresor -1.
> X <- model.matrix(Mortalidad ~ -1 + Ingresos,
+
data = Datos)
> X
Ingresos
1
13456
2
12345
3
3456
4
1234
5
6789
6
4567
7
2300
attr(,"assign")
[1] 1
Obsrvese que la variable Mortalidad no juega ning n papel en la
e
u
conformacin de la matriz de dise o. Podr
o
n
amos omitirla y dar slo
o
el lado derecho de la frmula, as
o
:
> X <- model.matrix(~Ingresos, data = Datos)
> X
(Intercept) Ingresos
1
1
13456
2
1
12345
3
1
3456
4
1
1234
5
1
6789
6
1
4567
7
1
2300
attr(,"assign")
[1] 0 1
91

CAP
92
Fin del ejemplo
La comodidad que proporciona la utilizacin de frmulas se hace ms evio

o
a
dente, sin embargo, cuando tenemos regresores cualitativos. El Ejemplo 7.4
lo ilustra.
R: Ejemplo 7.4 Consideremos un modelo que tiene como regresores Zona, Ingresos y Estudios. Podemos construir su matriz
de dise o as
n
:
> X <- model.matrix(~Zona + Estudios + Ingresos,
+
data = Datos)
Las variables Zona y Estudios son cualitativas. Requieren ser tratadas de manera especial, y la funcin model.matrix as lo hace.
o
Veamos la matriz de dise o que proporciona:

n
> X
1
2
3
4
5
6
7
1
2
3
4
5
6
7
1
2
3
4
5
6
7
(Intercept) ZonaAfrica ZonaAmerica ZonaEuropa

1
0
0
1
1
0
0
1
1
0
0
0
1
1
0
0
1
0
1
0
1
0
0
0
1
0
0
0
ZonaOceana Estudios.L Estudios.Q Estudios.C
0
0.67082
0.5
0.22361
0
0.22361
-0.5
-0.67082
0
0.22361
-0.5
-0.67082
0
-0.22361
-0.5
0.67082
0
-0.67082
0.5
-0.22361
1
0.22361
-0.5
-0.67082
0
-0.22361
-0.5
0.67082
Ingresos
13456
12345
3456
1234
6789
4567
2300

CAP
attr(,"assign")
[1] 0 1 1 1 1 2 2 2 3
attr(,"contrasts")
attr(,"contrasts")$Zona
[1] "contr.treatment"
attr(,"contrasts")$Estudios
[1] "contr.poly"
La variable Ingresos (numrica) ha sido dejada tal cual. La variae
ble Zona es cualitativa nominal, y requiere ser desglosada en tantas
columnas como niveles tiene (as el asociado a cada columna re,
coge el efecto del correspondiente nivel). Eso es lo que ha hecho
model.matrix, salvo que se ha omitido uno de los niveles (el primero) para evitar la multicolinealidad exacta que se hubiera producido
de otro modo. El nivel omitido (Asia) pasa as a formar parte del
caso de referencia: la funcin relevel (ver Ejemplo 7.1) permitir

o
a
cambiar fcilmente el nivel que forma parte del caso de referencia.
a
El tratamiento de las variables ordinales como Estudios es algo ms elaborado. En una variable ordinal hay una nocin natural
a
o
de proximidad entre niveles: el nivel de estudios Medios est ms
a a
cerca del nivel Superiores que el nivel Primarios. Lo que hace
model.matrix es conceptualmente equivalente a lo siguiente (detalles en la Observacin 7.2, pg. 94):
o
a
1. Asignar a cada nivel de Estudios un valor entero, respetando el orden de la variable: Ningunos=1, Primarios=2, Medios=3 y Superiores=4.
2. Con la variable Estudios as codicada, crear tantas colum
nas para la variable Estudios como niveles tenga, de la forma:
(Estudios)0 , (Estudios)1 , (Estudios)2 , (Estudios)3 .
La primera columna, que es constante, es automticamente desechaa
da si en la matriz de dise o existe columna de unos, para evitar
n
la multicolinealidad. Las restantes son rotuladas con las letras L
(Linear), Q (Quadratic), C (Cubic), y as sucesivamente.
Si empleamos todas las columnas que model.matrix crea para

una variable ordinal, obtenemos exactamente el mismo subespacio
que habr
amos obtenido con columnas de ceros y unos como las empleadas para una variable nominal: la ventaja de utilizar una base de
dicho subespacio como la que model.matrix construye, es que permite en ocasiones realizar una modelizacin ms simple: podemos, a
o
a
voluntad, emplear en un modelo de regresin algunas, varias o todas
o
93

CAP
94
las columnas como regresores, para modelizar un efecto ms o menos

a
suave sobre la variable respuesta.
Fin del ejemplo
Observacin 7.2 Se indica en el Ejemplo 7.4 que el efecto de

o
una variable ordinal se recoge de modo conceptualmente equivalente
a construir potencias de orden creciente de la variable ordinal codicada por valores enteros que respetan el orden. Ayudar representar
a
grcamente las columnas correspondientes de la matriz X frente a
a
los enteros codicando los niveles de la variable Estudios. Para ello,
eliminamos primero niveles duplicados y representaremos los restantes:
>
>
>
+
+
>
>
x <- as.numeric(Datos[, "Estudios"])

i <- !duplicated(x)
plot(x[i], X[i, "Estudios.L"], type = "b",
pch = "L", xaxp = c(1, 4, 3), xlab = "x",
ylab = "Estudios.{L,Q,C}")
points(x[i], X[i, "Estudios.Q"], pch = "Q")
points(x[i], X[i, "Estudios.C"], pch = "C")

CAP
95
0.6
L
Q
0.2
0.0
0.2
0.4
Estudios.{L,Q,C}
0.4
0.6
L
1
C
2
Hemos dibujado una l

nea uniendo las L para destacar su crecimiento lineal. Las Q puede verse que se sit an sobre una parbola
u
a
y las C sobre una funcin c bica.
o u
Un vistazo al grco anterior muestra, sin embargo, que el tra
e
mino lineal, por ejemplo, no toma los valores 1, 2, 3 4, ni el cuadrtico
a
1, 4, 9, 16. En efecto,
> X[i, 6:8]
1
2
4
5
Estudios.L Estudios.Q Estudios.C

0.67082
0.5
0.22361
0.22361
-0.5
-0.67082
-0.22361
-0.5
0.67082
-0.67082
0.5
-0.22361
En realidad se han rescalado las columnas y se han ortogonalizado:

> round(crossprod(X[i, 6:8]))
Estudios.L Estudios.Q Estudios.C
Estudios.L
1
0
0

CAP
Estudios.Q
Estudios.C
0
0
96
1
0
0
1
Ello se hace por razones de conveniencia numrica y de interpretae

cin.
o
Aunque por razones didcticas hemos construido primero la maa
triz de dise o y extraido luego un subconjunto de las y columnas
n
para ver como se codicaba la variable Estudios, R proporciona un
modo ms simple de hacerlo:
a
> contrasts(Datos[, "Estudios"])
.L
.Q
.C
[1,] -0.67082 0.5 -0.22361
[2,] -0.22361 -0.5 0.67082
[3,] 0.22361 -0.5 -0.67082
[4,] 0.67082 0.5 0.22361
Observacin 7.3 El anterior es el comportamiento por omio

sin de la funcin model.matrix. Podemos alterarlo especicando
o
o
distintos modos de desdoblar los factores y factores ordenados. Ello
se hace invocando la funcin options de modo similar al siguiente:
o
options(contrasts=c("contr.treatment","contr.poly"))
La primera opcin en el argumento contrasts se aplica a los faco
tores, la segunda a los factores ordenados. Por ejemplo, para los
factores podemos especicar que se desdoblen en tantas columnas
como niveles haya, sin incluir ning n nivel en el caso de referencia.
u
Para ello, deberemos proporcionar contr.sum como primer valor de
contrasts:
options(contrasts=c("contr.sum","contr.poly"))
Vase la documentacin de contrasts para ms detalles.
e
o
a
Adicionalmente, podemos invocar directamente las funciones
contr.sum, contr.treatment, contr.poly, contr.helmert
para obtener informacin sobre el diferente modo en que quedar
o
a
codicado un factor. Por ejemplo,
> NivelEstudios <- levels(Datos[, "Estudios"])
> contr.sum(NivelEstudios)

CAP
97
[,1] [,2] [,3]

Ningunos
1
0
0
Primarios
0
1
0
Medios
0
0
1
Superiores
-1
-1
-1
> contr.treatment(NivelEstudios)
Ningunos
Primarios
Medios
Superiores
Primarios Medios Superiores

0
0
0
1
0
0
0
1
0
0
0
1
> contr.poly(NivelEstudios)
.L
.Q
.C
[1,] -0.67082 0.5 -0.22361
[2,] -0.22361 -0.5 0.67082
[3,] 0.22361 -0.5 -0.67082
[4,] 0.67082 0.5 0.22361
Obsrvese que mientras contrasts se invoca tomando como argue
mento un factor, las funciones contr.sum y similares toman como
argumento el vector de niveles de un factor.
7.4.
La funcin lm.
o
La funcin lm es un instrumento potente y cmodo de utilizar para el

o
o
anlisis de regresin lineal. Puede utilizarse con tan solo dos argumentos:
a
o
una frmula y una dataframe que suministra los valores para evaluar las
o
expresiones en dicha frmula. Por ejemplo, as
o
:
ajuste <-
lm(y ~ x1 + x2 + x4, data=datos)
La funcin lm construye entonces la matriz de diseo mediante la funcin

o
n
o
model.matrix y estima el modelo deseado, suministrando un cmulo de
u
informacin sobre la estimacin. El Ejemplo 7.5 a continuacin proporciona
o
o
o
detalles.
R: Ejemplo 7.5 Veamos en primer lugar los datos que utilizaremos. Se trata de datos correspondientes a 47 estados en EE.UU.
y referidos al a os 1960. Forman parte del paquete MASS (soporte
n

CAP
98
del libro Venables and Ripley (1999b)) que hemos de cargar (mediante una instruccin library(MASS)). Tras hacerlo, podemos obtener
o
informacin detallada sobre los datos tecleando help(UScrime).
o
> library(MASS)
> UScrime[1:3, 1:5]
M So Ed Po1 Po2
1 151 1 91 58 56
2 143 0 113 103 95
3 142 1 89 45 44
> str(UScrime)
data.frame:
$ M
: int
$ So : int
$ Ed : int
$ Po1 : int
$ Po2 : int
$ LF : int
$ M.F : int
$ Pop : int
$ NW : int
$ U1 : int
$ U2 : int
$ GDP : int
$ Ineq: int
$ Prob: num
$ Time: num
$ y
: int
47 obs. of 16 variables:
151 143 142 136 141 121 127 131 157 140 ...
1 0 1 0 0 0 1 1 1 0 ...
91 113 89 121 121 110 111 109 90 118 ...
58 103 45 149 109 118 82 115 65 71 ...
56 95 44 141 101 115 79 109 62 68 ...
510 583 533 577 591 547 519 542 553 632 ...
950 1012 969 994 985 964 982 969 955 1029 ...
33 13 18 157 18 25 4 50 39 7 ...
301 102 219 80 30 44 139 179 286 15 ...
108 96 94 102 91 84 97 79 81 100 ...
41 36 33 39 20 29 38 35 28 24 ...
394 557 318 673 578 689 620 472 421 526 ...
261 194 250 167 174 126 168 206 239 174 ...
0.0846 0.0296 0.0834 0.0158 0.0414 ...
26.2 25.3 24.3 29.9 21.3 ...
791 1635 578 1969 1234 682 963 1555 856 705 ...
La funcin str permite ver la estructura de cualquier objeto en R.

o
Lo que muestra en el fragmento anterior es que UScrime es una
dataframe. En este caso, todas las variables son numricas, algunas
e
reales (num) y otras enteras (int). Vemos tambin que tiene 47 las
e
(=observaciones) y 16 columnas (=posibles regresores).
Probemos ahora a hacer una regresin1 . La variable y (tasa de
o
criminalidad) podemos relacionarla con la desigualdad(Ineq), probabilidad de ser encarcelado (Prob) y con un indicador de Estado
sure o (So):
n
1
No se arma que el modelo que ensayamos sea el mejor en ning n sentido: es slo
u
o
una ilustracin. El Cap
o
tulo 12 abordar la cuestin de cmo seleccionar modelos.
a
o
o

CAP
99
> fit <- lm(y ~ Ineq + Prob + So, data = UScrime)

> fit
Call:
lm(formula = y ~ Ineq + Prob + So, data = UScrime)
Coefficients:
(Intercept)
1538.36
So
242.99
Ineq
-1.58
Prob
-8698.46
El objeto fit, al imprimirlo, proporciona una informacin muy suo

maria: apenas la descripcin del modelo ajustado y los coecientes
o
estimados. El empleo de la funcin summary, sin embargo, proporcioo
na un estadillo con informacin mucho ms completa.
o
a
> summary(fit)
Call:
lm(formula = y ~ Ineq + Prob + So, data = UScrime)
Residuals:
Min
1Q Median
-662.8 -163.8 -56.1
3Q
Max
82.5 1057.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1538.36
345.84
4.45
6e-05
Ineq
-1.58
1.95
-0.81
0.4220
Prob
-8698.46
2725.42
-3.19
0.0026
So
242.99
169.48
1.43
0.1589
(Intercept) ***
Ineq
Prob
**
So
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 353 on 43 degrees of freedom
Multiple R-squared: 0.22,
Adjusted R-squared: 0.166
F-statistic: 4.05 on 3 and 43 DF, p-value: 0.0127

CAP
Desmenucemos la salida anterior. Se imprime, en primer lugar, el
modelo ajustado y unos estad
sticos sobre los residuos (m
nimo, ma
ximo y cuartiles, es decir, valores dejando a su izquierda el 25 %,
50 % y 75 % de los residuos; el segundo cuartil es la mediana). A continuacin, tenemos un estadillo proporcionando para cada regresor
o
mencionado al margen:
1. Su i (bajo Estimate).
2. Su i (bajo Std. Error).
3. Su estad
stico t,
i
i
(bajo t value).
4. La probabilidad bajo la hiptesis nula H0 : i = 0 de obtener un
o
valor del estad
stico t tan o ms alejado de cero que el obtenido
a
(bajo Pr(>|t|)).
A continuacin tenemos
o
SSE
,
N p
(Residual standard error), que estima , los grados de libertad

2
N p, (43 degrees of freedom), R2 (que toma el valor 0.22) y R
(Adjusted R-squared; este ultimo estad
stico ser introducido en el

a
Cap
tulo 12). Finalmente, tenemos el estad
stico Qh para contrastar
signicacin conjunta de la regresin, como se indica en la Seccin 6.2
o
o
o
(F-statistic). Aqu toma el valor 4.05. Dicho valor deja a su derecha
en una distribucin F3,43 una cola de probabilidad 0.0127, que es el

o
nivel de signicacin conjunto de la regresin ajustada.
o
o
El objeto compuesto fit contiene la informacin que ha permio
tido imprimir todos los anteriores resultados y mucha otra, cuyos
nombres son autoexplicativos:
> attributes(fit)
$names
[1] "coefficients"
[3] "effects"
[5] "fitted.values"
[7] "qr"
[9] "xlevels"
[11] "terms"
$class
[1] "lm"
"residuals"
"rank"
"assign"
"df.residual"
"call"
"model"
100

CAP
Podemos referirnos a los componentes de fit y emplearlos en clculos
a
subsiguientes. Por ejemplo, para obtener la suma de cuadrados de los
residuos, SSE, podr
amos hacer:
> SSE <- sum(fit$residuals^2)
> SSE
[1] 5363970
El estadillo anterior suger que el regresor Prob era muy signicativo,
a
en tanto los restantes no lo eran. Podemos contrastar la hiptesis
o
H0 : Ineq = So = 0 del modo sugerido al nal del Ejemplo 6.2,
pg. 77: ajustamos una segunda regresin eliminando los regresores
a
o
Ineq y So,
> fit.h <- lm(y ~ Prob, data = UScrime)
calculamos la suma de cuadrados de sus residuos,
> SSE.h <- sum(fit.h$residuals^2)
y a continuacin el estad
o
stico Qh asociado a la hiptesis y los grados
o
de libertad del mismo:
>
>
>
>
>
N <- nrow(UScrime)
q <- 2
p <- 4
Qh <- ((SSE.h - SSE)/q)/(SSE/(N - p))
Qh
[1] 1.0417
La probabilidad que el valor 1.0417 del estad
stico deja en la cola a
su derecha es
> 1 - pf(Qh, q, N - p)
[1] 0.3616
lo que sugiere que podemos prescindir de dichos dos regresores.
La instruccin anova proporciona una descomposicin de la suma
o
o
de cuadrados de los residuos correpondiente a cada regresor cuando
se introducen en el orden dado. Comprese por ejemplo,
a
101

CAP
102
> anova(fit)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
Ineq
1 220530 220530
1.77 0.1907
Prob
1 1040010 1040010
8.34 0.0061 **
So
1 256417 256417
2.06 0.1589
Residuals 43 5363970 124743
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
con:
> fit2 <- lm(y ~ Prob + Ineq + So, data = UScrime)
> anova(fit2)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
Prob
1 1257075 1257075
10.08 0.0028 **
Ineq
1
3466
3466
0.03 0.8684
So
1 256417 256417
2.06 0.1589
Residuals 43 5363970 124743
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Fin del ejemplo
No hay ninguna necesidad ni aparente ventaja en hacerlo as pero a efec,

tos puramente ilustrativos re-estimaremos la regresin anterior convirtiendo
o
previamente la variable indicadora So (Estado del Sur) en una variable nominal y la variable Ineq en una variable ordinal (o factor ordenado). Para
lo primero, basta que reemplacemos la columna So de la dataframe del
siguiente modo:
> UScrime[, "So"] <- factor(UScrime[, "So"],
+
labels = c("Norte", "Sur"))

CAP
103
Para la segunda variable, dividiremos su recorrido en tres intervalos, y a

continuacin denimos un factor ordenado con tres categor
o
as:
> Temp <- ordered(cut(UScrime[, "Ineq"],
+
breaks = 3), labels = c("Baja", "Media",
+
"Alta"))
> UScrime[, "Ineq"] <- Temp
Podemos ahora repetir la estimacin anterior:

o
R: Ejemplo 7.6 (continuacin del Ejemplo 7.5)
o
> summary(fit3)
Call:
lm(formula = y ~ Prob + Ineq + So, data = UScrime)
Residuals:
Min
1Q Median
-641.9 -195.5 -55.4
3Q
Max
124.3 1059.5
Coefficients:
(Intercept)
1212.4
134.8
8.99 2.4e-11
Prob
-9013.8
2717.7
-3.32
0.0019
Ineq.L
-143.2
132.7
-1.08
0.2866
Ineq.Q
-10.6
110.4
-0.10
0.9238
SoSur
284.8
184.3
1.55
0.1298
(Intercept) ***
Prob
**
Ineq.L
Ineq.Q
SoSur
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

CAP
104
La variable ordinal Ineq da lugar a tres trminos (constante, omitido

e
por colineal con la columna de unos, lineal y cuadrtico). La variable
a
nominal So se desglosa tambin en dos: el nivel Norte se integra en
e
el caso de referencia y el parmetro restante mide el efecto deferencial
a
del nivel Surrespecto al nivel Norte. A t
tulo ilustrativo, podemos
ajustar la anterior regresin empleando un diferente desdoblamiento
o
del regresor cualitativo So:
> options(contrasts = c("contr.sum", "contr.poly"))
> summary(fit4)
Call:
lm(formula = y ~ Prob + Ineq + So, data = UScrime)
Residuals:
Min
1Q Median
-641.9 -195.5 -55.4
3Q
Max
124.3 1059.5
Coefficients:
(Intercept)
1354.7
151.0
8.97 2.6e-11
Prob
-9013.8
2717.7
-3.32
0.0019
Ineq.L
-143.2
132.7
-1.08
0.2866
Ineq.Q
-10.6
110.4
-0.10
0.9238
So1
-142.4
92.1
-1.55
0.1298
(Intercept) ***
Prob
**
Ineq.L
Ineq.Q
So1
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Vase la Observacin 7.3.) Vemos un slo regresor asociado a So1, el
e
o
o
primer nivel de So; el asociado al segundo nivel es su opuesto, ya que
contr.sum fuerza los coecientes asociados a un regresor nominal a
sumar cero.

CAP
105
Si observamos los dos ajustes, vemos que son idnticos. Lo unico

e
que se altera es la interpretacin de los parmetros. En fit3, el

o
a
tratarse de un Estado del Sur ten como efecto incrementar la tasa
a
de criminalidad en 284.8, respecto de la tasa prevalente en un Estado
del Norte de anlogas caracter
a
sticas. La parametrizacin en el model
o
fit4 expresa lo mismo de otro modo: en un Estado del Norte, la
criminalidad desciende en -142.4 sobre el nivel promedio de Norte
y Sur, mientras que en un Estado del Sur aumenta en 142.4. La
diferencia entre ambos niveles contin a siendo 284.8.
u
Puede encontrarse una discusin exhaustiva de las diferentes opo
ciones de parametrizacin disponibles en Venables and Ripley (1999a),
o
Sec. 6.2.
Fin del ejemplo
7.5.
Sobre R. Son ya bastantes las obras que es posible consultar sobre la utilizacin de R como herramienta para los clculos que requiere la regresin
o
a
o
lineal. Una excelente referencia es Venables and Ripley (1999a). Exclusivamente orientado a modelos lineales es Faraway (2005).
Cap
tulo 8
Inferencia simultnea.
a
8.1.
Problemas que plantea el contrastar m lu

tiples hiptesis simultneas
o
a
Evidencia contra una hiptesis

o
Si examinamos la teor sobre contrastes de hiptesis presentada en la
a
o
Seccin 6.2 veremos que el mtodo ha sido el habitual en Estad
o
e
stica no
bayesiana. Los pasos se pueden esquematizar as
:
1. Fijar una hiptesis H0 sobre los parmetros de un modelo.
o
a
2. Seleccionar un estad
stico cuya distribucin sea conocida cuando H0
o
es cierta y que se desv de modo predecible de dicha distribucin
a
o
cuando H0 no es cierta.
3. Calcular el valor del estad
stico en una determinada muestra.
4. Si el valor de dicho estad
stico es anmalo respecto de lo que
o
esperar
amos bajo H0 , rechazar H0 .
La lgica subyacente es: Como cuando H0 es cierta es dif que se de
o
cil
un valor del estad
stico como el observado, lo ms plausible es que H0 no
a
sea cierta.
Cuando el estad
stico que empleamos en el contraste tiene una distribucin continua, todos los valores posibles tienen probabilidad cero. No
o
obstante, podemos ordenarlos de ms a menos raros de acuerdo con su
a
densidad respectiva.
106

CAP
ITULO 8. INFERENCIA SIMULTANEA.
107
Ejemplo 8.1 Para una muestra X1 , . . . , Xn procedente de una
distribucin N (, 2 ), todos los posibles valores del estad

o
stico X
tienen probabilidad cero. No obstante, la distribucin de dicho estao
d
stico una N (, 2 /n) genera de modo frecuente observaciones
en las cercan de , y slo raramente valores en las colas. Consias
o
deraremos a estos ultimos raros y favoreciendo el rechazo de H0 .
Tienen densidad menor que los cercanos a .

Fin del ejemplo
Tendr inters en lo que sigue la nocin de nivel de signicacin emp

a
e
o
o
rico 1 .
Denicin 8.1 Llamamos nivel de signicacin emp
o
o
rico asociado al valor
observado de un estad
stico a la probabilidad de obtener en el muestreo (bajo
H0 ) valores tan o ms raros que el obtenido.
a
Ejemplo 8.2 En el Ejemplo 8.1, supongamos que H0 : = 0.
Supongamos conocida 2 = 1. Sea una muestra con n = 100, e
imaginemos que obtenemos un valor de X de 0.196 (= 1,96 1001 ).

El nivel de signicacin emp
o
rico (u observado) ser 0.05, porque
a
bajo H0 hay probabilidad 0.05 de observar valores de X igual o ms
a
alejados de que el que se ha presentado.
Fin del ejemplo
Si en ocasiones al abordar un contraste de hiptesis prejamos de ano

temano el nivel de signicacin que deseamos utilizar (y la regin cr
o
o
tica),
es muy frecuente realizar el contraste sin una regin cr
o
tica preespecicada
y tomar el nivel de signicacin emp
o
rico como una medida del acuerdo (o
desacuerdo) de la evidencia con la hiptesis de inters. Niveles de signio
e
cacin emp
o
ricos muy pequeos habr as de entenderse como evidencia
n
an
contra la hiptesis nula objeto de contraste.
o
Cmo de raro ha de ser algo para ser realmente

o
raro?
El siguiente ejemplo2 ilustra que un resultado aparentemente muy raro
puede no serlo tanto.
1
2
O p-value, en la literatura inglesa.

Parfrasis de un clebre comentario de Bertrand Russell.
a
e

CAP
108
Ejemplo 8.3 Consideremos un mono frente a una mquina de

a
escribir. Imaginemos que tras un periodo de tiempo observamos el
conjunto de folios tecleados por el mono y constatamos que ha escrito sin una sla falta de ortograf Hamlet!
o
a
Bajo la hiptesis nula H0 : mono irracional, tal resultado es abo
solutamente inveros
mil. La probabilidad de que golpeando al azar el
teclado un mono logre tal cosa es rid
culamente baja. Supongamos
que una obra como Hamlet requiriera, entre blancos y caracteres,
de 635000 digitaciones. Supongamos que hay 26 letras ms caraca
teres de puntuacin, etc. totalizando 32 posibilidades de digitacin.
o
o
Componer Hamlet totalmente al azar consistir en apretar la tecla
a
correcta sucesivamente 635.000 veces, algo que, suponiendo las 32
posibilidades de digitacin equiprobables, tendr probabilidad:
o
a
p=
1
32
635000
5,804527 10955771 .
(8.1)
La observacin de un mono que teclea Hamlet ser prcticamente

o
a a
imposible bajo H0 : habr
amos de rechazar H0 y pensar en alguna
alternativa (quiz Shakespeare reencarnado en un mono?)
a
Imaginemos ahora una multitud de monos a los que situamos
frente a mquinas de escribir, hacindoles teclear a su entero arbia
e
trio 635.000 digitaciones. Espec
camente, imaginemos 10955771 monos. Supongamos que examinando el trabajo de cada uno de ellos,
nos topamos con que el mono n-simo ha compuesto Hamlet! Lo see
parar
amos de sus congneres para homenajearlo como reencarnacin
e
o
de Shakespeare? Claramente no; porque, entre tantos, no es extra o
n
que uno, por puro azar, haya tecleado Hamlet. De hecho, si todos los
conjuntos de 635.000 digitaciones son equiprobables, del trabajo de
10955771 monos esperar
amos obtener en torno a 5,8045 transcripciones exactas de Hamlet. Lo observado no es raro en absoluto.
Fin del ejemplo
El ejemplo anterior, deliberadamente extremo e inveros

mil, ilustra un
punto importante. Algo, aparentemente lo mismo, puede ser raro o no dependiendo del contexto. Observar un mono tecleando Hamlet es rar
simo, pero
si seleccionamos el mono entre una mir
ada de ellos precisamente porque ha
tecleado Hamlet, ya no podemos juzgar el suceso observado del mismo modo.
Hemos seleccionado la observacin por su rareza, no podemos extraarnos
o
n
de que sea rara!
Cuando seleccionamos la evidencia, hemos de tenerlo en cuenta al hacer
inferencia. De otro modo, estaremos prejuzgando el resultado.

CAP
109
Anlisis exploratorio e inferencia

a
Es importante entender lo que el Ejemplo 8.3 intenta transmitir. El
error, frecuente en el trabajo aplicado, es seleccionar la evidencia e ignorar
este hecho al producir armaciones o resultados de tipo inferencial como
rechazar tal o cual hiptesis con nivel de signicacin p, construir tal o cual
o
o
intervalo con conanza (1p). Es el valor de p que reportamos el que resulta
completamente irreal a menos que corrijamos el efecto de la seleccin.
o
Ejemplo 8.4 Regresemos al Ejemplo 8.3. Imaginemos la segunda situacin descrita en que uno entre los 10955771 monos examinao
dos compone Hamlet. Ser incorrecto rechazar la hiptesis H0 : Los
a
o
monos son irracionales. atribuyendo a esta decisin un nivel de sigo
nicacin de 5,804525 10955771 . Por el contrario, la probabilidad
o
de que ninguno de los monos hubiera tecleado Hamlet ser
a:
955771
p0 = (1 p)10
1
= 1
32
0,0030138,
955770
635000 10
el ultimo valor calculado haciendo uso de una aproximacin de Pois

o
son (con media = 5,804527). Por tanto, la probabilidad de observar
una o ms transcripciones de Hamlet (un suceso tan raro o ms raa
a
ro que el observado, bajo H0 ) es tan grande como 1 0,0030138 =
0,9969862! Dif
cilmente considerar
amos evidencia contra la hiptesis
o
nula algo que, bajo H0 , acontece con probabilidad mayor que 0.99.
Fin del ejemplo
Nada nos impide, sin embargo, hacer anlisis exploratorio: examinar

a
nuestros datos, y seleccionar como interesante la evidencia que nos lo parezca.
Ejemplo 8.5 De nuevo en el Ejemplo 8.3, no hay nada reprobable en examinar el trabajo de cada uno de los monos y detenernos
con toda atencin a examinar al animal que produce Hamlet. Seguo
ramente le invitar
amos a seguir escribiendo. Ser del mayor inters
a
e
que ese mono produjera a continuacin Macbeth.
o
Lo que es reprobable es seleccionar el unico mono que teclea Ham
let y reportar el hallazgo como si ese mono fuera el unico observado.
Fin del ejemplo

CAP
110
Inferencia simultnea y modelo de regresin lineal ora

o
dinario
Pero qu tiene sto que ver con el modelo de regresin lineal, objeto de
e
e
o
nuestro estudio?
Bastante. En ocasiones, hemos de hacer uso de modelos con un nmero
u
grande de parmetros. Cuando ello ocurre, hay muchas hiptesis que poa
o
demos plantearnos contrastar. Si lo hacemos, hemos de ser conscientes de
que algunas hiptesis sern objeto de rechazo con una probabilidad mucho
o
a
mayor que el nivel de signicacin nominal empleado para contrastar cada
o
una de ellas. El siguiente ejemplo lo aclara.
Ejemplo 8.6 Supongamos el modelo
Y
= 0 X 0 + 1 X 1 + . . . + 99 X 99 + .
Supongamos, por simplicidad, normalidad de las perturbaciones y

ortogonalidad de las columnas de la matriz de dise o. Dicho modelo
n
tiene su origen en nuestra completa ignorancia acerca de cul de las
a
cien variables regresoras consideradas, si es que alguna, inuye sobre
la respuesta.
Si quisiramos contrastar la hiptesis H0 : i = 0, i = 0, . . . , 99,
e
o
podr
amos (si se verican los supuestos necesarios) emplear el contraste presentado en la Seccin 6.2, pg. 79. Podr
o
a
amos ser ms ama
biciosos e intentar al mismo tiempo ver cul o cuales i son distintos
a
de cero. Ser incorrecto operar as
a
:
1. Contrastar las hiptesis H0i : i = 0 al nivel de signicacin
o
o
/2
comparando cada t-ratio en valor absoluto con tN p .
/2
2. Si alg n t-ratio excede tN p , rechazar la hiptesis H0i , y por

u
o
consiguiente H0 , reportando un nivel de signicacin .
o
Es fcil ver por qu es incorrecto. Bajo H0 hay probabilidad tan slo
a
e
o
/2
de que un t-ratio prejado exceda en valor absoluto de tN p . Pero
/2
la probabilidad de que algn t-ratio exceda de tN p es3

u
Prob(Alg n i = 0) = 1 (1 )p .
u
(8.2)
mayor (en ocasiones mucho mayor ) que . Tomemos por ejemplo

el caso examinado en que p = 100 y supongamos = 0,05. La
probabilidad de obtener alg n t-ratio fuera de l
u
mites es 10,95100 =
3
Bajo la hiptesis de independencia entre los respectivos t-ratios, hiptesis que se

o
o
verica por la normalidad de las perturbaciones y la ortogonalidad entre las columnas
de la matriz de diseo.
n

CAP
111
0,9940. Lejos de tener un nivel de signicacin de = 0,05, el que

o
tenemos es de 0,9940. Contrastar la hiptesis H0 de este modo tiene
o
una probabilidad de falsa alarma de 0.9940.
Si nuestro propsito fuera puramente exploratorio, nada debe
o
disuadirnos de estimar el modelo con los cien regresores y examinar
luego las variables asociadas a t-ratios mayores, quiz estimando un
a
modelo restringido con muestra adicional. Lo que es inadmisible es
dar un nivel de signicacin incorrectamente calculado.
o
Fin del ejemplo
El problema de inferencias distorsionadas es grave y muchas veces indetectable. Pensemos en el investigador que hace multitud de regresiones,
quiz miles, a cul ms descabellada. Por puro azar, encuentra una pocas
a
a a
culo y lo publica. Si el experimento es recon R2 muy alto, escribe un art
producible, cabe esperar que otros investigadores tratarn de replicarlo y, al
a
2
no lograrlo el R alto era casualidad, la supercher quedar al descua
a
bierto. Pero si la investigacin versa sobre, por ejemplo, Ciencias Sociales,
o
en que con frecuencia una y slo una muestra est disponible, todo lo que
o
a
sus colegas podrn hacer es reproducir sus resultados con la unica muestra
a
a mano. A menos que el primer investigador tenga la decencia de sealar

n
2
que el alto R obtenido era el ms alto entre miles de regresiones efectuadas
a
(lo que permitir calcular correctamente el nivel de signicacin y apreciar
a
o
de un modo realista su valor como evidencia), es fcil que su trabajo pase
a
por ciencia.
De nuevo es preciso insistir: no hay nada objetable en la realizacin de
o
miles de regresiones, quiz con carcter exploratorio. Tampoco es objetable
a
a
el concentrar la atencin en la unica (o las pocas) que parecen prometedoo
ras. Al revs, ello es muy sensato. Lo que es objetable es reportar dichas

e
regresiones como si fueran las unicas realizadas, el resultado de estimar un
modelo prejado de antemano, dando la impresin de que la evidencia mueso

tral sustenta una hiptesis o modelo pre-establecidos, cuando lo cierto es
o
que la hiptesis o modelo han sido escogidos a la vista de los resultados.
o
8.2.
Desigualdad de Bonferroni.
Consideremos k sucesos, Ei , (i = 1, . . . , k), cada uno de ellos con probabilidad (1 ). Designamos por E i el complementario del suceso Ei . La
probabilidad de que todos los sucesos Ei , (i = 1, . . . , k) acaezcan simulta
neamente es:

CAP
112
Prob{k Ei } = 1 Prob{k Ei } = 1 Prob{k Ei } 1 k (8.3)

i=1
i=1
i=1
Se conoce (8.3) como desigualdad de Bonferroni de primer orden. Es
una igualdad si los Ei son disjuntos. Muestra que la probabilidad conjunta
de varios sucesos puede, en general, ser muy inferior a la de uno cualquiera de
ellos. Por ejemplo, si k = 10 y Prob{Ei } = 0,95 = 1 0,05, la desigualdad
anterior solo permite garantizar que Prob{k Ei } 1 10 0,05 = 0,50.
i=1
Consideremos ahora el modelo Y = X + y los siguientes sucesos:
/2
E1 : [(1 1 tN p )
.
.
.
/2
Ek : [(k t
)
k N p
cubre 1 ]
(8.4)
(8.5)
cubre k ]
(8.6)
Cada Ei por separado es un suceso cuya probabilidad es 1 . De

acuerdo con (8.3), sin embargo, todo cuanto podemos asegurar acerca de
Prob{k Ei } es que su probabilidad es superior a 1 k.
i=1
Las implicaciones son importantes. Si regresramos Y sobre X0 , . . . , Xp1
a
y quisiramos obtener intervalos de conanza simultneos para los pare
a
a
metros 0 , , p1 , ser claramente incorrecto emplear los que aparecen
a
en (8.4)(8.6). Si actusemos de este modo, el nivel de conanza conjunto
a
no ser el deseado de 1 , sino que tan slo podr
a
o
amos armar que es
mayor que 1 k.
Si queremos intervalos de conanza simultneos al nivel 1 , podr
a
amos construir intervalos para cada uno de los parmetros con un nivel de
a
conanza = . Haciendo sto, tendr
e
amos que la probabilidad de que
k
todos los i fueran cubiertos por sus respectivos intervalos, ser mayor, de
a
acuerdo con (8.3), que 1 k = 1 k( ) = 1 . Ello se logra, sin embark
go, al coste de ensanchar el intervalo de conanza correspondiente a cada
i quiz ms de lo necesario. En lo que sigue veremos procedimientos para
a a
lograr el mismo resultado con intervalos en general ms estrechos.
a
8.3.
Intervalos de conanza basados en la

mxima t.
a
Supongamos que tenemos k variables aleatorias independientes, t1 , . . . , tk

con distribucin t-Student, y nmero comn n de grados de libertad. La
o
u
u

CAP
113
variable aleatoria mx{|t1 |, . . . , |tk |} sigue una distribucin que se halla

a
o
4
tabulada .
Sea u el cuantil 1 de dicha distribucin, es decir, un valor que
o
k,n
resulta superado con probabilidad por mx{|t1 |, . . . , |tk |}. Entonces,
a
Prob{k [|ti | u ]} = 1 ,
i=1
k,n
dado que si u acota con probabilidad 1 al mximo, acota simultneaa
a
k,n
mente con la misma probabilidad la totalidad de las variables aleatorias.

Si ai /ai (i = 1, . . . , k) fueran independientes, y la hiptesis nula
o
h : ai = 0 (i = 1, . . . , k) fuera cierta, tendr

amos que:
a
i
u = 1
Prob
k,n
ai

i=1
k
(8.7)

Es claro que ai /ai (i = 1, . . . , k) no son independientes. Sin embargo, la distribucin aludida del mximo valor absoluto de k variables t de
o
a
Student est tambin tabulada cuando dichas variables tienen correlacin
a
e
o
por pares. (Esto sucede en algunos casos particulares, como el de ciertos
diseos de Anlisis de Varianza equilibrados: la correlacin entre parejas
n
a
o
de t-ratios es la misma, y fcil de calcular.)
a
An cuando la correlacin por pares de t-ratios no sea siempre la
u
o
misma, (8.7) es de utilidad. Suministra intervalos simultneos de conanza
a
aproximada 1 . En caso de que conozcamos , podemos emplear la expresin (8.7) con u reemplazado por u , extra ste ultimo de la tabla
o
do e
k,n
k,n,
correspondiente; en caso de que no conozcamos , o sta no sea constante,
e
podemos utilizar u
k,n,=0 , lo que hace en general los intervalos calculados
con ayuda de (8.7) conservadores (es decir, la probabilidad conjunta en el
lado izquierdo de (8.7) es mayor que 1 ).
Es importante sealar que, si nuestro objetivo es contrastar una hiptesis
n
o
del tipo h : A = c con rango(A) > 1, tenemos que emplear un contraste
como el descrito en la Seccin 6.2, pg. 72. El comparar cada una de las
o
a
/2
variables aleatorias (ai ci )/ai (i = 1, . . . , k) con una tN p supone

emplear un nivel de signicacin mayor que . Como caso particular, es
o
inadecuado contrastar la hiptesis h : 1 = = p = 0 comparando cada
o
/2
uno de los t-ratios con tN p ; tal contraste tendr un nivel de signicacin
a
o
sensiblemente superior a , en especial si p es grande.
En el caso de que el contraste conjunto rechace h : A = c y queramos saber qu las de A son culpables del rechazo, podr
e
amos comparar
4
Vase, por ej., Seber (1977), Apndice E.

e
e

CAP
114
u
o
(ai ci )/ai (i = 1, . . . , k) con u (k = nmero de las de A). N
k,n
tese que es perfectamente posible rechazar la hiptesis conjunta y no poder
o
rechazar ninguna de las hiptesis parciales correspondientes a las las de A.
o
8.4.
Mtodo S de Sche.
e
e
Este mtodo permite la construccin de un nmero arbitrario de intere

o
u
valos de conanza simultneos, de manera muy simple. Necesitaremos el
a
siguiente lema:
Lema 8.1 Sea L una matriz simtrica de orden k k denida positiva, y
e
c, b vectores k-dimensionales cualesquiera. Se verica que:
sup
c=0
[c b]
c Lc
b L1 b
(8.8)
Demostracion:
Siendo L denida positiva, existe una matriz R cuadrada no singular tal
que: L = RR . Si denimos:
v = R c
(8.9)
(8.10)
u = R b
y tenemos en cuenta que por la desigualdad de Schwarz,
< u, v >2
u 2 v 2
(8.11)
entonces sustituyendo (8.9) y (8.10) en (8.11) obtenemos (8.8).
Podemos ahora abordar la construccin de intervalos de conanza sio

multneos por el mtodo de Sche. Supongamos que tenemos k hiptesis
a
e
e
o
lineales hi : ai = ci (i = 1, . . . , k) cuyo contraste conjunto deseamos

efectuar. Si denominamos:
a1
a
A= 2

ak
c1
c

c= 2

ck
(8.12)

CAP
115
dichas k hiptesis se pueden escribir como h : A = c. Cuando h es cierta,

o
sabemos (Seccin 6.2) que:
o
(A c) [A(X X)1 A ]1 (A c)
Fq,N p
q 2
(8.13)
siendo q = m
n(d, p), en que d = rango A y p = rango (X X). Las
inversas pueden ser inversas generalizadas, si los rangos de las matrices as
lo exigen.
Llamemos c a A. Bajo h, sabemos que:
1 =
Prob ( c ) [A(X X)1 A ]1 ( c ) q 2 Fq,N p (8.14)

c
c

(8.15)
Prob ( c ) L1 ( c ) q 2 Fq,N p
c
c

en que L = [A(X X)1 A ]. Teniendo en cuenta el Lema 8.1, obtenemos:
1 =
=
Prob sup
h =0
Prob
h =0
[h ( c )]
c
q 2 Fq,N p

Lh
h ( c )
c
h
Lh
1
2
1
2
(q Fq,N p ) 2
(8.16)
(8.17)
La ecuacin (8.17) muestra que (q 2 Fq,N p) 2 es un valor que acota con

o

probabilidad 1 un nmero arbitrariamente grande de cocientes como:
u
h ( c )
c
(8.18)
h Lh
Por consiguiente, cuantos intervalos para h c construyamos de la forma:
h c
(h Lh )(q 2 Fq,N p )

(8.19)
tendrn conanza simultnea 1 .

a
a
Esto es ms de lo que necesitamos pues slo quer
a
o
amos intervalos
de conanza simultneos para c1 , . . . , ck . El mtodo de Sche propora
e
e
ciona intervalos de conanza conservadores (ms amplios, en general, de lo
a
estrictamente necesario).
Obsrvese que, en el caso particular en que A = Ipp , los intervalos de
e
conanza en (8.19) se reducen a:

CAP

(h (X X)1 h )(p 2 Fp,N p)
116
(8.20)
expresin que ser frecuente en la prctica. Cuando el conjunto de hiptesis

o
a
a
o
simultneas que se contrastan congure una matriz A de rango q < p, ser
a
a
sin embargo conveniente tener en cuenta este hecho, ya que obtendremos
intervalos menos amplios.
R: Ejemplo 8.1 (uso del mtodo de Sche)
e
e
El siguiente cdigo implementa el mtodo de Sche para contraso
e
e
tar la igualdad entre todas las parejas de parmetros intervinientes
a
en un modelo. La matriz de dise o es una matriz de ceros y unos. Si,
n
por ejemplo, Xkl fuera uno cuando la k-sima parcela se siembra
e
con la variedad l-sima de semilla y la variable respuesta recogiera
e
las cosechas obtenidas en las diferentes parcelas, los parmetros i
a
ser interpretables como la productividad de las diferentes variean
dades de semilla (suponemos que no hay otros factores en juego; las
parcelas son todas homogneas).
e
En una situacin como la descrita tendr inters contrastar too
a
e
das las hiptesis del tipo: hij : i j = 0. Aquellas parejas para
o
las que no se rechazase corresponder a variedades de semilla no
an
signicativamente diferentes.
Fcilmente se ve que el contraste de todas las hiptesis de intea
o
rs agrupadas (h : A = c ) no es de gran inters: no nos interesa
e
e
saber si hay algunas variedades de semilla diferentes, sino cules son.
a
Fcilmente se ve tambin que, incluso para un n mero moderado de
a
e
u
variedades de semilla, hay bastantes parejas que podemos formar y
el realizar m ltiples contrastes como hij : i j = 0 requerir el
u
a
uso de mtodos de inferencia simultnea.
e
a
Comencemos por construir una matriz de dise o y generar artin
cialmente las observaciones:
> X <- matrix(c(rep(1, 5), rep(0, 25)),
+
25, 5)
> X
[1,]
[2,]
[3,]
[4,]
[5,]
[,1] [,2] [,3] [,4] [,5]

1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0

CAP
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
> b <- c(3, 4, 4, 5, 5)

> y <- X %*% b + rnorm(25, sd = 0.1)
Construyamos la matriz deniendo la hiptesis conjunta A = c :
o
>
>
>
>
p <- ncol(X)
N <- nrow(X)
A <- cbind(1, diag(-1, p - 1))
A
[1,]
[2,]
[3,]
[4,]
[,1] [,2] [,3] [,4] [,5]

1
-1
0
0
0
1
0
-1
0
0
1
0
0
-1
0
1
0
0
0
-1
> q <- nrow(A)

Aunque por motivos didcticos hemos constru A del modo
a
do
que se ha visto, hay funciones standard que permiten hacerlo con
mayor comodidad.
117

CAP
> A <- t(contrasts(as.factor(1:5)))
> A
[1,]
[2,]
[3,]
[4,]
1
1
0
0
0
2
0
1
0
0
3
0
0
1
0
4
0
0
0
1
5
-1
-1
-1
-1
que es equivalente a la A precedente.

Habiendo p betas a comparar, habr un total de p(p1) compaa
2
raciones a efectuar. Construimos una matriz cada una de cuyas las
corresponde a una comparacin:
o
>
>
>
+
+
+
+
>
H <- matrix(0, p * (p - 1)/2, p)

j <- 0
for (i in ((p - 1):1)) {
H[(j + 1):(j + i), (p - i):p] <- cbind(1,
diag(-1, i))
j <- j + i
}
H
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[,1] [,2] [,3] [,4] [,5]

1
-1
0
0
0
1
0
-1
0
0
1
0
0
-1
0
1
0
0
0
-1
0
1
-1
0
0
0
1
0
-1
0
0
1
0
0
-1
0
0
1
-1
0
0
0
1
0
-1
0
0
0
1
-1
El siguiente fragmento de cdigo construye ahora todos los intero

valos de la forma dada por (8.20) y los imprime:
>
>
>
>
fit <- lsfit(X, y, intercept = FALSE)

betas <- fit$coefficients
s2 <- sum(fit$residuals^2)/(N - p)
qsf <- q * s2 * qf(0.05, q, N - p)
118

CAP
119
> xxi <- solve(t(X) %*% X)

> for (i in 1:nrow(H)) {
+
cat("Intervalo comp. ", H[i, ])
+
z <- sqrt(t(H[i, ]) %*% xxi %*% H[i,
+
] * qsf)
+
d <- t(H[i, ]) %*% betas
+
cat(" es: (", d - z, " , ", d + z,
+
")")
+
if ((d - z < 0) && (d + z > 0))
+
cat("\n")
+
else cat(" * \n")
+ }
Intervalo
Intervalo
Intervalo
Intervalo
Intervalo
Intervalo
Intervalo
Intervalo
Intervalo
Intervalo
comp.
comp.
comp.
comp.
comp.
comp.
comp.
comp.
comp.
comp.
1
1
1
1
0
0
0
0
0
0
-1 0 0 0
0 -1 0 0
0 0 -1 0
0 0 0 -1
1 -1 0 0
1 0 -1 0
1 0 0 -1
0 1 -1 0
0 1 0 -1
0 0 1 -1
es:
es:
es:
es:
es:
es:
es:
es:
es:
es:
(
(
(
(
(
(
(
(
(
(
-1.0463 , -0.94141 ) *
-1.0631 , -0.95825 ) *
-2.0886 , -1.9837 ) *
-2.067 , -1.9622 ) *
-0.069268 , 0.035591 )
-1.0947 , -0.98989 ) *
-1.0732 , -0.96834 ) *
-1.0779 , -0.97305 ) *
-1.0564 , -0.9515 ) *
-0.030881 , 0.073979 )
Vemos que la mayor de intervalos de conanza simultneos no cua

a
bren el cero. Los correspondientes a 2 3 y 4 5 si lo hacen,
como esperbamos, ya que en ambas parejas los parmetros han sido
a
a
jados al mismo valor.
Fin del ejemplo
8.5.
Empleo de mtodos de inferencia simule

tnea.
a
Si el desarrollo anterior es formalmente simple, puede no ser obvio, en

cambio, en que situaciones es de aplicacin. Las notas siguientes esbozan
o
algunas ideas sobre el particular5 .
5
7.4.
Puede consultarse tambin Trocniz (1987a) Cap. 5 y Cox and Hinkley (1974), Sec.
e
o

CAP
120
Emplearemos inferencia simultnea cuando a priori, y por cualquier

a
motivo, estemos interesados en mltiples contrastes (o intervalos de
u
conanza) y queramos que el nivel de signicacin conjunto sea 1 .
o
Esta situacin se presenta con relativa rareza en la prctica estad
o
a
stica.
Ms importante, emplearemos los mtodos anteriores cuando la eleca
e
cin de hiptesis o parmetros objeto de contraste o estimacin se
o
o
a
o
haga a la vista de los resultados. Esta situacin es muy frecuente en el
o
anlisis exploratorio. Ser incorrecto, por ejemplo, estimar una ecuaa
a
cin con veinte regresores, seleccionar aquel i con el mximo t-ratio,

o
a
y comparar dicho t-ratio con una t de Student con grados de libertad
adecuados. Dado que hemos seleccionado el i de inters como el de

e
mayor t-ratio, hemos de comparar ste con los cuantiles de la distribue
cin del mximo de k (k = 20 en este caso) variables aleatorias con
o
a
distribucin t de Student (u 20 ).
o
20,N
Por ultimo, conviene resaltar la diferencia entre el contraste de varias
hiptesis simultneas ai = ci agrupadas en A = c mediante Qh

o
a
(Seccin 6.2) y el que hace uso de (8.7). El primero es perfectamente
o
utilizable; el segundo ser, en general, conservador menos rechazos
a
de los que sugiere el nivel de signicacin nominal, pero tiene la
o
ventaja de arrojar luz sobre cuales de las subhiptesis ai = ci son
o
responsables del rechazo, caso de que se produzca. Esta informacin
o
queda sumergida al emplear Qh .

CAP
8.1 Un investigador sospecha que la concentracin de una too
xina en la sangre puede estar relacionada con la ingesta de alg n
u
tipo de alimento. Realiza un completo estudio en que para N = 500
sujetos mide la concentracin de dicha toxina y las cantidades consuo
midas de 200 diferentes tipos de alimento. Cree razonable proponer
como modelo explicativo,
Y
= 0 + 1 X1 + . . . + 200 X200 + .
Tras estimar los 201 parmetros del mismo, se plantea contrastar

a
la hiptesis como H0 : 1 = . . . = 200 y considera las siguientes
o
posibilidades:

Comparar cada uno de los t-ratios i / con el cuantil tN p ;/2 .
i
Idem con el cuantil correspondiente de una distribucin del

o
mximo de k variables t de Student, con grados de libertad
a
apropiados.
Calcular el estad
stico Qh para la hiptesis H0 : 1 , . . . , 200 = 0
o
y comparar con F200,500201; .
Juzga los diferentes procedimientos, e indica con cul (o cules) de

a
a
ellos tendr
amos garantizada una probabilidad de error de tipo I no
superior al prejado.
8.2 Preocupado por el posible impacto de las antenas de telefon mvil sobre la salud de los ni os, un pol
a o
n
tico solicita un listado
completo de las 15320 escuelas del pa a menos de 500 metros de
s
una antena. Investiga la probabilidad de contraer leucemia y la probabilidad de que por puro azar se presenten los casos de leucemia
que se han registrado en dichas escuelas.
Aparece un caso llamativo: en la escuela X con 650 ni os hay
n
tres que han contraido la enfermedad, lo que, de acuerdo con los
clculos realizados por nuestro pol
a
tico, asistido por un epidemilogo,
o
acontecer por azar con probabilidad 0,0003. Al d siguiente acude
a
a
al Parlamento y pide la dimisin del Ministro de Sanidad: Hay
o
dice evidencia concluyente de que las antenas de telefon mvil
a o
inuyen en la prevalencia de la leucemia entre la poblacin infantil.
o
Un evento como el registrado en la escuela X slo se presentar por
o
a
azar con probabilidad 0,0003. Comenta.
121
Cap
tulo 9
Multicolinealidad.
9.1.
Introduccin.
o
Hemos visto (Cap

tulo 3) que, en presencia de multicolinealidad exacta
entre las columnas de la matriz de diseo X, la proyeccin de y sobre M =
n
o
R(X) sigue siendo unica, pero no hay una unica estimacin de . Dec
o
amos
entonces que el vector de parmetros no estaba identicado.
a
Este Cap
tulo1 analiza esta cuestin con mayor detalle. En particular,
o
aborda las siguientes cuestiones:
1. Es estimable una cierta combinacin lineal c de los parmetros?
o
a
a
o
e
2. Si c es estimable, cul es la varianza de la estimacin?. De qu depende la precisin con que pueden estimarse distintas combinaciones
o
lineales de los parmetros?
a
3. Cmo escoger la matriz de diseo X u observaciones adicionales
o
n
a la misma si el objetivo es estimar determinadas combinaciones
lineales c con varianza m
nima?
Responder a la primera requiere que caractericemos las formas lineales
estimables. Ntese que cuando c es un vector de ceros con un 1 en una
o
unica posicin, la primera cuestin incluye, como caso particular, la de si
o
o
un parmetro concreto es estimable.
a
La segunda cuestin introducir la idea de multicolinealidad aproximada.
o
a
Mientras que desde un punto de vista formal la matriz de diseo es de rango
n
deciente o no lo es, en la prctica interesa distinguir aqullas situaciones
a
e
en que la matriz de diseo es de rango casi deciente. Cuando esto ocurra,
n
1
Basado en Silvey (1969).
122
CAP
ITULO 9. MULTICOLINEALIDAD.
123
en un sentido que se aclarar ms abajo, todo es estimable, pero algunas

a a
formas lineales c lo son con gran imprecisin: la varianza de su mejor

o
estimador lineal insesgado depende de la direccin del vector c en R(X X).
o
La tercera cuestin hace referencia a un tema de gran inters; el de
o
e
diseo ptimo. Admitido que algunas formas lineales quiz slo pueden ser
n o
a o
estimadas con gran varianza cmo habr que escoger o ampliar X en los
o
a
casos en que somos libres de ampliar la muestra?
El principal hallazgo al responder a las dos primeras cuestiones ser que
a
combinaciones lineales c con c aproximadamente colineal a un vector
propio de (X X) de valor propio asociado pequeo, son las de estimacin
n
o
ms imprecisa. La consecuencia ser que haremos lo posible en nuestros
a
a
diseos experimentales para que, si c es una forma lineal de inters, no
n
e
haya vectores propios de (X X) con valor propio pequeo aproximadamente

n
en la misma direccin de c . Recurriremos para ello a ampliar la muestra,
o
si podemos hacerlo, o a procedimientos ad-hoc de manipulacin de dichos
o
valores propios pequeos para obtener estimadores diferentes del MCO. Esta
n
cuestin se estudia en el Cap
o
tulo 10.
Realizaremos un anlisis formal de la multicolinealidad en las Seccioa
nes 9.4 y siguientes. Previamente ser de inters abordar la cuestin desde
a
e
o
una perspectiva informal (en la Seccin 9.2) y examinar los s
o
ntomas que
evidencian problemas de multicolinealidad en una matriz de diseo (Secn
cin 9.3).
o
9.2.
Una aproximacin intuitiva

o
La Figura 9.1 recoge sendas situaciones de multicolinealidad exacta (en

el panel superior) y multicolinealidad aproximada (en el inferior). En el
panel superior,
PM y =
5,3
1,9
X0 =
2,65
0,95
X1 =
1,325
0,475
(9.1)
Puede comprobarse que X0 = 2 X1 , por lo que la matriz de diseo

n
que tuviera a ambos vectores por columnas ser de rango deciente. Cona
secuentemente, los estimadores MCO de los parmetros 0 y 1 no estn
a
a
un
vocamente determinados. Puede comprobarse que
PM y = 0 X0 + 1 X1
(9.2)
se verica con 0 = 2 y 1 = 0 con 0 = 0 y 1 = 4, por ejemplo. De

o
0 , 1 vericando 0 +21 = 2 son una solucin de (9.2).
hecho, cualesquiera
o
CAP
124
Figura 9.1: Multicolinealidad exacta (panel superior) y aproximada (panel

inferior).
X0
X1
PM y
X0
X1
PM y
CAP
125
En el panel inferior de la Figura 9.1,

PM y =
5,3
1,9
X0 =
2,75
0,75
X1 =
1,525
;
0,675
(9.3)
puede comprobarse que ahora PM y = 0,9544X0 +1,7544X1 . Si, no obstante,

PM y fuera ligeramente diferente, con los mismos regresores,
PM y =
5,4
1,8
X0 =
2,75
0,75
X1 =
1,525
0,675
(9.4)
tendr
amos que la solucin unica ser PM y = 1,263X0 +1,2632X1 . Una peo
a
quea perturbacin en PM y ha originado un cambio drstico en los valores
n
o
a
de los estimadores.
Si examinamos el panel inferior de la Figura 9.1, podemos entender
fcilmente lo que sucede: los regresores son linealmente independientes y
a
generan el plano horizontal, pero tienen una colinealidad acusada. Un leve
cambio en la posicin de PM y hace que sea mucho ms colineal con un
o
a
regresor que con otro, y provoca una drstica modicacin en los valores de
a
o
0 y 1 .
Tenemos as que si en situaciones de multicolinealidad exacta los par
a
metros (o algunos de entre ellos) son radicalmente inestimables, cuando el
rango de la matrix X es completo, pero algunas de sus columnas son acusadamente colineales, la estimacin es posible, pero imprecisa. Decimos que
o
estamos ante una situacin de multicolinealidad aproximada.
o
La multicolinealidad aproximada es, en esencia, una matriz de diseo
n
pobre, que no permite deslindar con precisin el efecto de cada regresor
o
sobre la variable respuesta. Es una situacin muy frecuente en la prctica,
o
a
a medio camino entre la multicolinealidad exacta y la ortogonalidad entre
los regresores. La Seccin que sigue detalla algunos s
o
ntomas que permiten
percibir su existencia.
9.3.
Deteccin de la multicolinealidad aproo

ximada
Hay algunos indicios y estad

sticos que pueden ayudar en el diagnstico
o
de multicolinealidad.
Elevado R2 y todos los parmetros no signicativos. La multicoa
linealidad aproximada se pone de maniesto en elevadas varianzas de los
CAP
126
parmetros estimados que, como consecuencia, son de ordinario no signia

cativos y frecuentemente toman signos contrarios a los previstos.
Una situacin t
o pica es aqulla, aparentemente paradjica, en que todos
e
o
los parmetros en son no signicativos y sin embargo R2 es muy elevado.
a
Parece que ningn regresor ayuda a ajustar el regresando, y sin embargo
u
todos en conjunto lo hacen muy bien! Ello se debe a que la multicolinealidad
no permite deslindar la contribucin de cada regresor.
o
Valores propios y n mero de condicin de (X X). La existencia
u
o
de relaciones lineales aproximadas entre las columnas de X se traduce en
relaciones lineales aproximadas entre las columnas de (X X). Los mtodos
e
usuales para examinar el condicionamiento de una matriz en anlisis numa
e
rico son por tanto de aplicacin. En particular, puede recurrirse a calcular
o
los valores propios de la matriz (X X); uno o mas valores propios muy
pequeos (cero, en caso de multicolinealidad perfecta) son indicativos de
n
multicolinealidad aproximada.
A menudo se calcula el nmero de condicin de la matriz (X X), deniu
o
do como 1 /p ; nmeros de condicin grandes evidencian gran disparidad
u
o
entre el mayor y menor valor propio, y consiguientemente multicolinealidad
aproximada. Hay que notar, sin embargo, que se trata de un indicador relativo, que, en particular, depende de la escala en que se miden las respectivas
columnas de la matriz X algo perfectamente arbitrario.
Factores de incremento de varianza (VIF). Otra prctica muy usual
a
consiste en regresar cada columna de X sobre las restantes; un R2 muy
elevado en una o ms de dichas regresiones evidencia una relacin lineal
a
o
aproximada entre la variable tomada como regresando y las tomadas como
regresores.
Llamemos R2 (i) al R2 resultante de regresar X i sobre las restantes columnas de X. Se dene el factor de incremento de varianza (variance ination factor) VIF(i) as
:
def
VIF(i) =
1
;
1 R2 (i)
(9.5)
valores de VIF(i) mayores que 10 (equivalentes a R2 (i) > 0,90) se consideran indicativos de multicolinealidad afectando a X i junto a alguna de las
restantes columnas de X.
Observacin 9.1 El nombre de factores de incremento de
o
varianza tiene la siguiente motivacin. Supongamos que X tiene
o
CAP
127
sus columnas normalizadas de modo que (X X) es una matriz de
correlacin (elementos diagonales unitarios). La varianza de i es

o
2 (X X)ii , en que (X X)ii denota el elemento en la la y columna
i de la matriz (X X)1 .
Si X tuviera sus columnas ortogonales, (X X) (y por tanto
(X X)1 ) ser matrices unidad y Var(i ) = 2 ; por tanto, (X X)ii

an
recoge el factor en que se modica en general Var(i ) respecto de la

situacin de m
o
nima multicolinealidad (= regresores ortogonales). Se
puede demostrar que (X X)ii = (1 R2 (i))1 , lo que muestra que
se trata precisamente del VIF(i).
9.4.
Caracterizacin de formas lineales estio

mables.
Teorema 9.1 La forma lineal c es estimable si, y solo si, c es una combinacin lineal de los vectores propios de X X asociados a valores propios
o
no nulos.
Demostracion:
Observemos que el enunciado no es sino una parfrasis del Teorema 3.1,
a
pg. 45. La siguiente cadena de implicaciones, que puede recorrerse en ambas
a
direcciones, establece la demostracin.
o
c estimable
d : c = E[d Y ]
(9.6)
(9.7)
c = d X
(9.8)
c = d X
c = X d
c R(X )
c R(X X)
c = 1 v1 + + pj vpj
(9.9)
(9.10)
(9.11)
(9.12)
siendo v1 , . . . , vpj los vectores propios de (X X) asociados a valores propios

no nulos. El paso de (9.10) a (9.11) hace uso del hecho de que tanto las
columnas de X como las de X X generan el mismo subespacio2 de Rp . La
2
Es inmediato ver que R(X X) R(X ), pues si v R(X X) a : v = X Xa =

X d, siendo d = Xa. Por otra parte, R(X X) no es subespacio propio de R(X ), pues
ambos tienen la misma dimensin. Para verlo, basta comprobar que toda dependencia
o
lineal entre las columnas de X X es una dependencia lineal entre las columnas de X. En
efecto, X X b = 0 b X X b = d d = 0 d = 0 X b = 0.
CAP
128
equivalencia entre (9.11) y (9.12) hace uso del hecho de que los vectores
propios de R(X X) asociados a valores propios no nulos generan R(X X).
Hay una forma alternativa de llegar al resultado anterior, que resulta

interesante en s misma y util para lo que sigue. Sea V la matriz diagonali
zadora de X X, y denamos:
Z = XV
(9.13)
= V
(9.14)
Entonces, como V V = I tenemos que:

X = XV V = Z
(9.15)
y por consiguiente el modelo Y = X + se transforma en: Y = Z + .

El cambio de variables y parmetros ha convertido la matriz de diseo
a
n
en una matriz de columnas ortogonales:
Z Z = (XV ) (XV ) = V X XV =
(9.16)
siendo una matriz cuya diagonal principal contiene los valores propios de
X X. Sin prdida de generalidad los supondremos ordenados de forma que
e
los p j primeros s son no nulos, y los restantes j son cero: p = p1 =
= pj+1 = 0.
Observemos que de (9.14) se deduce, dado que V es ortogonal, que
= V . Por consiguiente, es equivalente el problema de estimar al de
estimar , pues el conocimiento de un vector permite con facilidad recuperar
el otro. Las ecuaciones normales al estimar son:
(Z Z) = = Z y
(9.17)
o en forma desarrollada:
1 0
0
2
.
.
.
.
.
.
0
0
0 0
.
.
.
.
.
.
0
...
...
..
.
0
0
.
.
.
... 0
. . . 0
.
.
. . . .
. . . pj . . .
...
0
...
.
..
.
.
.
...
0
...
0 = Z y
.
.
.
0
(9.18)
CAP
129
El sistema (9.18) es indeterminado; solo los (p j) primeros s pueden
obtenerse de l. Obsrvese adems que de (9.18 ) se deduce que var(i)

e
e
a
1/i , (i = 1, . . . , p j).
Consideremos una forma lineal cualquiera c . Tenemos que:
c = c V V = (c V ) = (V c )
(9.19)
y consiguientemente una estimacin de c vendr dada por (V c ) . Por

o
a
tanto, c ser estimable si es estimable, o si c depende slo de

a
aquellos s que pueden ser estimados. Es decir, en el caso de rango (p j)
correspondiente a las ecuaciones normales (9.18), c podr estimarse si

a

(V c) tiene nulas sus ultimas j coordenadas, lo que a su vez implica:
c vp
c vp1
.
.
.
c vpj+1
(9.20)
(9.21)
(9.22)
(9.23)
o
Para que c sea estimable, c debe poder escribirse como combinacin
lineal de los vectores propios de (X X) que no guran en (9.20)(9.23): c =

1 v1 + + pj vpj . Toda forma estimable debe por tanto ser expresable
as
:
c = (1 v1 + + pj vpj ) ,
(9.24)
resultado al que hab

amos llegado.
Recapitulemos: una forma lineal c es estimable si c = 1 v1 + +
pj vpj , es decir, no depende de vectores propios de (X X) asociados a
valores propios nulos. Tal como suger la Seccin 9.2, podemos sin embargo
a
o
esperar que formas lineales que son estrictamente estimables lo sean muy
imprecisamente, en situaciones de multicolinealidad aproximada. La Seccin
o
que sigue formaliza esta intuicin, mostrando que si c depende de vectores
o
propios de valor propio cercano a cero, la forma lineal c ser estimable
a
slo con gran varianza.
o
CAP
9.5.
130
Varianza en la estimacin de una forma

o
lineal.
Si premultiplicamos ambos lados de las ecuaciones normales (X X) =
X Y por vi , (i = 1, . . . , p j), tenemos:
vi (X X) = vi X Y
i vi = vi X Y
y tomando varianzas a ambos lados:
2 var(vi ) = var(vi X Y )
i
= vi X 2 IXvi
= vi X Xvi 2
= i 2
(9.25)
De la igualdad (9.25) se deduce que:
var(vi ) =
2
i
(9.26)
Adems, para cualquier i = j se tiene:

a
cov(vi , vj ) = vi vj
=
=
=
=
vi (X X)1 vj 2
vi j 1 vj 2
2 j 1 vi vj
0
(9.27)
La varianza de cualquier forma estimable c , teniendo en cuenta que

puede escribirse como en (9.24), y haciendo uso de (9.26) y (9.27), ser:
a
var(c ) =
var[(1 v1 + + pj vpj ) ]
2
2
= 1 var(v1 ) + + pj var(vpj )
2
= 1
= 2
2
2
2
+ + pj
1
pj
2
2
1
+ + pj
1
pj
(9.28)
CAP
131
La expresin (9.28) es reveladora; la varianza en la estimacin de c

o
o
2
depender de la varianza de la perturbacin y de la direccin de c. Si c no
a
o
o
puede expresarse como combinacin lineal de los vectores propios con valor
o
propio no nulo, c no es estimable. Si c = 1 v1 + + pj vpj y los s
multiplicando a vectores propios con reducido valor propio son sustanciales,
los correspondientes sumandos tendern a dominar la expresin (9.28).
a
o
En denitiva, la varianza en la estimacin de una forma lineal c
o
depende, fundamentalmente, de cun colineal es c con vectores propios de
a
reducido valor propio.
Hemos razonado en esta Seccin y la precedente en el caso de que j valoo
res propios de X X son exactamente cero. Es claro que si todos los valores
propios son mayores que cero, todas las formas lineales sern estimables,
a
con varianza:
var(c ) =
var[(1 v1 + + pj vpj ) ]
2
2
= 1 var(v1 ) + + p var(vp )
2
= 1
= 2
9.6.
2
2
2
+ + p
1
p
2
2
1
++ p
1
p
(9.29)
(9.30)
Eleccin ptima de observaciones.

o o
La expresin (9.28) y comentario posterior muestran que, para guarecero

nos de varianzas muy grandes en la estimacin de algunas formas lineales,
o
debemos actuar sobre los valores propios ms pequeos de (X X), increa
n
3
mentndolos . En lo que sigue, examinamos esta cuestin con ms detalle.
a
o
a
Supongamos que tenemos un conjunto de N observaciones (y | X), y
nos planteamos ampliar X con una la adicional xN +1 (e y con el correspondiente valor observado de Y ) de modo que se reduzca al mximo la
a
varianza en la estimacin de una determinada forma lineal c en que

o
estamos interesados.
Supondremos tambin en lo que sigue (X X) de rango completo, aunque
e
quiz con acusada multicolinealidad4 . Emplearemos los sub
a
ndices N + 1 y
N para designar estimaciones respectivamente con y sin esta observacin
o
3
O suprimindolos. Los mtodos de regresin sesgada del Cap

e
e
o
tulo 10 hacen expl
cita
esta idea.
4
Los resultados se pueden generalizar al caso en que (X X) es de rango deciente, y
slo mediante la nueva la xN +1 se hace c estimable.
o
CAP
132
adicional. Tenemos entonces que:

N = 2 (X X)1
(9.31)
N+1 = (X X + xN +1 xN +1 )
2
c N = 2 c (X X)1 c
(9.32)
(9.33)
2
c N+1 = 2 c (X X + xN +1 xN +1 )1 c
(9.34)
Entonces,
2
2
c N c N+1 = 2 c [(X X)1 (X X + xN +1 xN +1 )1 ]c
(9.35)
y el problema es encontrar xN +1 maximizando esta expresin. Sea V la

o
matriz que diagonaliza a (X X). Denominemos:
a = V c
z = V xN +1
D = V (X X)V
(9.36)
(9.37)
(9.38)
Entonces, (9.35) puede transformarse as

:
2
2
c N c N+1 = 2 c V V [(X X)1 (X X + xN +1 xN +1 )1 ]V V c
= 2 a [D 1 V (X X + xN +1 xN +1 )1 V ]a
= 2 a [D 1 (V (X X + xN +1 xN +1 )V )1 ]a
= 2 a [D 1 (D + z z )1 ]a
(9.39)
Pero (vase Teorema A.2, pg. 221):

e
a
(D + z z )1 = D 1
D 1 z z D 1
1 + z D 1 z
(9.40)
Sustituyendo (9.40) en (9.39):

2
c N
2
c N+1
= a
= 2
D 1 z z D 1
a
1 + z D 1 z
ai zi
i
i
2
zi
1+
i i
(9.41)
(9.42)
Obsrvese que el problema de maximizar (9.35) carece de sentido si no

e
imponemos restricciones, pues la expresin equivalente (9.42) es montona
o
o
CAP
133
creciente al multiplicar z por una constante k mayor que la unidad5 . Ne2

cesitamos una restriccin del tipo z z = i zi = K 2 para obtener una
o
solucin unica. Formando entonces el lagrangiano,
o
(z ) = 2
ai zi
i
i
2
zi
1+
i i
2
zi K 2
(9.43)
y derivando respecto a zi , (i = 1, . . . , p), obtenemos p igualdades de la

forma:
ai zi ai
1+
i i
2
zi
i
2
zi
1+
i
ai zi
i
zi
i
zi = 0
(9.44)
Denominando:
A =
i
B =
ai zi
i
1+
i
(9.45)
2
zi
i
(9.46)
las p igualdades anteriores toman la forma:

ai A
zi A2
zi
2 =0
2
i B i B
(9.47)
Multiplicando por zi cada una de las anteriores igualdades y sumndolas,

a
puede despejarse:
=
A2 2
K 2B 2
(9.48)
y por consiguiente de (9.47) se obtiene:

zi A2
A2
ai A
2 2 zi = 0
i B i B 2 K B
zi
5
1
1
+ 2
i K
B ai
A i
(i = 1, . . . , p)
(i = 1, . . . , p)
(9.49)
(9.50)
Observemos que al multiplicar z por k el numerador queda multiplicado por k 2 , en

tanto slo una parte del denominador lo hace. Es pues claro que el numerador crece ms
o
a
que el denominador, y el cociente en consecuencia aumenta.
CAP
134
o sea:
zi
ai
1 + 1
i
K2
ai
1 + Ki
2
(9.51)
para i = 1, . . . , p. Las anteriores p igualdades pueden expresarse en notacin

o
matricial as
:
z (I + K 2 D)1 a
(9.52)
Por tanto, la la a aadir a X para mejorar al mximo la estimacin de

n
a
o
c ser:
a
xN +1 =
(por (9.52))
=
(por (9.36)) =
=
=
Vz
V (I + K 2 D)1 a
V (I + K 2 D)1 V V a
V (I + K 2 D)1 V c
[V (I + K 2 D)V ]1 c
[I + K 2 (X X)]1 c
Recordemos que hemos obtenido una solucin unica para z (y en cono

secuencia xN +1 ) slo mediante la imposicin de una restriccin de escala
o
o
o
2
2
o
i zi = K . Es decir, podemos determinar la direccin de z , pero no su
norma. El examen de (9.42) hace evidente que una norma tan grande como
sea posible es lo deseable.
Cabe hacer dos comentarios sobre esta ultima armacin. El primero,
o
que es lgico que as sea. Si 2 es ja, es claro que siempre preferiremos las
o
de mdulo muy grande, pues si:

o
Yi = mi + i = 0 + + p1 xi,p1 + i
(9.53)
incrementar el mdulo de xN +1 equivale a incrementar |mi |; y haciendo

o
|mi | i podemos reducir en trminos relativos el peso de i en yi .
e
En la prctica, sin embargo, hay un l
a
mite al valor de |mi |, cuyo crecimiento desaforado podr llevarnos a regiones en las que las Yi dejan de
a
ser una funcin aproximadamente lineal de los regresores. Por ejemplo, si
o
el modelo intenta ajustar una constante biolgica como funcin lineal de
o
o
ciertos tipos de nutrientes, hay un l
mite prctico a los valores que pueden
a
tomar los regresores: el impuesto por las cantidades que los sujetos bajo
estudio pueden ingerir.
En denitiva, el desarrollo anterior suministra la direccin en que debe
o
tomarse una observacin adicional para mejorar al mximo la varianza en
o
a
CAP
135
la estimacin de c . Tomaremos xN +1 tan grande como sea posible en

o
dicha direccin. Si no tuviramos una forma estimable unica como objetivo,
o
e
una estrategia sensata consistir en tomar observaciones de forma que se

a
incrementasen los menores valores propios de la matriz (X X). Podr
amos
tambin aceptar como criterio el de maximizar el determinante de (X X).
e
Este criterio se conoce como de D-optimalidad6.
Vase Silvey (1980), una monograf que trata el tema de dise o ptimo.
e
a
n o
Cap
tulo 10
Regresin sesgada.
o
10.1.
Introduccin.
o
De acuerdo con el teorema de Gauss-Markov (Teorema 2.2, pg. 19), los

a
estimadores m
nimo cuadrticos ordinarios (MCO) son los de varianza m
a
nima en la clase de los estimadores lineales insesgados. Cualesquiera otros que
consideremos, si son lineales y de varianza menor, habrn de ser sesgados.
a
Si consideramos adecuado como criterio en la eleccin de un estimador
o
def
c su error cuadrtico medio, ECM = E[ c]2 , y reparamos en que:
a
c
E[ c]2 = E [ E[] + E[] c]2
c
c
c
c
2
= E [ E[]] + E [E[] c]2 + 2 E [ E[]] [E[] c]
c
c
c
c
c
c
=0
var() + ( sesgo c)
c
(10.1)
podemos plantearnos la siguiente pregunta: Es posible reducir el ECM en

la estimacin tolerando un sesgo? Si la respuesta fuera armativa, podr
o
amos preferir el estimador resultante que, aunque sesgado, tendr un ECM
a
menor, producido por una disminucin en la varianza capaz de compensar
o
el segundo sumando en (10.1).
El Cap
tulo 9 pon de maniesto que vectores propios de (X X) con
a
valor propio asociado nulo o muy pequeo eran responsables de la inestiman
bilidad (en el caso extremo de valores propios exactamente cero) o estimacin muy imprecisa de formas lineales c en los parmetros. Analizaremos
o
a
ahora las implicaciones del anlisis realizado.
a
Si los valores propios pequeos son causantes de elevada varianza en las
n
estimaciones, caben varias soluciones:
1. Incrementarlos mediante observaciones adicionales, segn se indic en
u
o
la Seccin 9.6, pg. 131.
o
a
136

CAP
ITULO 10. REGRESION SESGADA.
137
2. Incrementarlos mediante procedimientos ad-hoc, que no requieren

la toma de observaciones adicionales (ridge regression).
3. Prescindir, simplemente, de ellos (regresin en componentes princio
pales y regresin en ra latentes).
o
ces
Nos ocuparemos de procedimientos tomando las alternativas 2) y 3) para
reducir la varianza de los estimadores. De acuerdo con los comentarios anteriores, los procedimientos que diseemos habrn perdido la condicin de
n
a
o
insesgados.
Observacin 10.1 De ah la denominacin colectiva de mtoo
o
e
dos de regresin sesgada. Denominaciones alternativas son regresin
o
o
regularizada o mtodos de estimacin por encogimiento (shrinkage
e
o
estimators), est ultima abarcando un conjunto de estimadores mua
cho ms amplio que el considerado aqu
a
.
Si se utilizan, es con la fundada creencia de que, en presencia de multicolinealidad acusada, la reduccin de varianza que se obtiene compensa la
o
introduccin de sesgo. Existe incluso un resultado (Teorema 10.1, pg. 142)
o
a
que demuestra la existencia de un estimador sesgado que domina (en trmie
nos de ECM) al MCO; su aplicacin prctica est limitada por el hecho de
o
a
a
que no es inmediato saber cul precisamente es este estimador.
a
10.2.
Una aproximacin intuitiva.

o
Antes de introducir los estimadores sesgados ms utilizados en la prca

a
tica, es util ver sobre un ejemplo simple las ideas que explotan.
Ejemplo 10.1 Consideremos la siguiente situacin. Tenemos

o
2
2
dos poblaciones con media com n y varianzas respectivas 1 , 2 .
u
Nuestro objetivo es estimar , para lo que contamos con dos observaciones, una de cada poblacin. Sean stas X1 , X2 . Sabemos adems
o
e
a
2
2
que 2 es mucho mayor que 1 .
Es claro que
1
(10.2)
= (X1 + X2 )
2
2
es un estimador insesgado de . Su varianza ser Var( ) = 1 /4 +
a
2 /4.
2
Es de m
nima varianza? No; y en general puede ser sumamente
2
2
ineciente. Imaginemos, por ejemplo, que 1 = 1 y 2 = 99; entonces,
2
2
Var( ) = (1 + 2 )/4 = (1 + 99)/4 = 25, mientras que = X1 , por
ejemplo, ser tambin insesgado con Var( ) = 1.

a
e

CAP
138
La conclusin a la que llegamos es que es mejor prescindir de la

o
observacin X2 dando muy imprecisa informacin acerca del valor
o
o
de que utilizarla en pie de igualdad con X1 .
Si examinamos el ejemplo con ms cuidado, se nos hace evidente
a
que podemos hacerlo mejor: si nos limitamos a estimadores lineales
por simplicidad cualquier estimador insesgado ser de la forma
a
= 1 X1 + 2 X2
con 1 + 2 = 1 (pues de otro modo al tomar valor medio en (10.3),

no obtendr
amos , como requiere la condicin de insesgadez).
o
Podemos a continuacin plantearnos cules son 1 y 2 = 1 1
o
a
o
ptimos. De (10.3) deducimos que
2 2
2 2
Var( ) = 1 1 + 2 2
2
= 1 1 + (1 1 )2 99
2
= 99 1981 + 1001
Derivando respecto a 1 e igualando a cero obtenemos 1 = 99/100

y consecuentemente 2 = 1/100. Fcilmente se comprueba que se
a
trata de un m
nimo. El estimador insesgado de varianza m
nima es
por tanto:
1
99
X1 +
X2 .
=
100
100
El resultado parece lgico; debemos ponderar las dos observaciones
o
dando ms peso a la ms able. La segunda conclusin a que llegamos
a
a
o
es que cuando tengamos observaciones con grado de precisin muy
o
variable, convendr ponderarlas de forma inversamente proporcional
a
a sus respectivas varianzas.
Fin del ejemplo
El ejemplo anterior pretende ilustrar dos principios, que se resumen en

uno: es mejor prescindir de informacin imprecisa que hacerle demasiado
o
caso. El primer estimador construido, , prescind directamente de X2 ; el
a
segundo, , se serv de dicha observacin pero hacindole poco caso.
a
o
e
Se ha razonado sobre estimadores a los que hemos impuesto la condicin
o
de ser insesgados, por mantener el ejemplo simple, pero esta condicin es
o
inesencial. (De hecho, como veremos a continuacin, todav ser posible
o
a
a
mejorar en trminos de ECM si tolerasemos un sesgo.)
e
Qu implicaciones tiene lo anterior sobre la estimacin de (o, en genee
o
ral, de c ) en un modelo lineal? Recordemos la discusin en la Seccin 9.5.
o
o

CAP
139
El estimador de cualquier forma lineal c puede escribirse como combina
cin lineal de v 1 , v 2 , . . . , v p , segn muestra (9.29), pg. 131. Adems,

o
u
a
a
1
v i para i = 1, . . . , p son variables aleatorias incorreladas con varianzas
respectivas Var(vi ) = 2 /i , (9.26), pg. 130.

a
Tenemos pues c puede escribirse como combinacin lineal de observao
ciones v i con varianzas muy diferentes. Al igual que en el Ejemplo 10.1 al

estimar , podemos tener inters en prescindir de algunas de estas observae
ciones v i , atenuarlas, si sus varianzas son muy grandes; ello acontecer

o
a
cuando los valores propios i sean muy pequeos.
n
Los estimadores que se presentan a continuacin hacen precisamente
o
esto. El estimador en componentes principales de la Seccin 10.4 prescino
de de algunas v i ; el estimador ridge de la Seccin 10.3 atena las v i

o
u
ms inestables. Volveremos de nuevo sobre la cuestin en la Seccin 10.4,
a
o
o
pg. 153.
a
10.3.
Regresin ridge.
o
Error cuadrtico medio del estimador m

a
nimo cuadra
tico ordinario
Dado que hay varios parmetros a estimar, deniremos como ECM del
a
estimador MCO:
ECM() = E[( ) ( )]
(10.3)
que podemos ver tambin como el valor medio del cuadrado de la distancia
e
eucl
dea ordinaria entre y . Supondremos (X X) de rango total, y por
tanto que (X X)1 existe (este supuesto se puede relajar). Como E[] =
2
1
y = (X X) , tenemos que:
ECM() = E[ traza ( ) ( )]
= E[ traza ( )( ) ]
= 2 traza (X X)1
= 2 traza (X X)1 V V
= 2 traza V (X X)1 V
p
1
2
,
=
i=1 i
(V = diagonalizadora de (X X)1 )
Independientes, si se verica el supuesto de normalidad.
(10.4)

CAP
140
en que los i son los valores propios de la matriz (X X). (Recurdese que
e
1
los vectores propios de las matrices (X X) y (X X) son los mismos, y
los valores propios de una los inversos de los de la otra.)
Clase de estimadores ridge

Denicin 10.1 Deniremos el estimador ridge de parmetro k as
o
a
:
(k) = (X X + kI)1 X Y
(10.5)
siendo k una constante positiva a determinar.

El estimador ridge es idntico al MCO en el caso particular en que k = 0.
e
La relacin entre ambos para un valor arbitrario de k queda de maniesto
o
en la siguiente cadena de igualdades:
(k) = (X X + kI)1 (X X)(X X)1 X Y
= (X X + kI)1 (X X)
=
(X X)1 (X X + kI)
I + k(X X)1
= Z
def
(10.6)
1
siendo Z = [I + k(X X)1 ] .

El Teorema 10.1, que muestra la superioridad del estimador ridge sobre
el MCO para algn valor de k, es consecuencia del Lema 10.1 a continuacin.
u
o
Lema 10.1 El error cuadrtico medio del estimador ridge de parmetro k
a
a
viene dado por la expresin
o
ECM[ (k) ]
p
2
k 2 i
i
+
2
2
i=1 (i + k)
i=1 (i + k)
p
(10.7)
en que los i son los valores propios de la matrix (X X) y = V , siendo

V una matriz cuyas columnas son vectores propios de (X X).
Demostracion:

CAP
141
El ECM del estimador ridge que habremos de comparar con (10.4) es:
ECM[ (k) ] = E[( (k) ) ( (k) )]
(por (10.6)) = E[(Z ) (Z )]
= E[(Z Z + Z ) (Z Z + Z )]
= E[(Z Z ) (Z Z )] + (Z ) (Z )
(a)
(b)
(10.8)
Obsrvese que el primer trmino (a) es la suma de varianzas de los elementos
e
e
(k) , mientras que (b) es la suma de los sesgos al cuadrado de dichos
de
elementos. Examinemos por separado los dos sumandos de la expresin
o
anterior:
(a) = E[( ) Z Z( )]
= E[traza{( ) Z Z( )}]
= E[traza{( )( ) Z Z}]
= traza{E( )( ) Z Z}
= 2 traza [(X X)1 Z Z]
= 2 traza (X X)1 I + k(X X)1
(10.9)
1
I + k(X X)1
= 2 traza (X X) + kI + kI + k 2 (X X)1
= 2 traza
(X X) + 2kI + k 2 (X X)1
VV
= 2 traza V [(X X) + 2kI + k 2 (X X)1 ]1 V
(10.10)
= 2
1
1 2
i=1 i + 2k + i k
(10.11)
i
.
2
i=1 (i + k)
(10.12)
La obtencin de la expresin (10.9) hace uso de el habitual intercambio

o
o
de los operadores de traza y valor medio, as como del hecho de que si
)( )] =
es el estimador MCO y X X es de rango completo, E[(

2 (X X)1 (Teorema 2.2, pg. 19). En el paso de (10.10) a (10.11) se ha
a
empleado el hecho de que si V diagonaliza a (X X) diagonaliza tambin
e
a cada una de las matrices en el corchete, y por consiguiente a la matriz
inversa de la contenida en el corchete.

CAP
142
Tomando ahora el segundo trmino de (10.8),

e
(b) = (Z ) (Z )
= (Z I) (Z I)
I + k(X X)1
I + k(X X)1
= k 2 ( + kI)2
=
I
(10.13)
traza k ( + kI)
p
2
k 2 i
2
i=1 (i + k)
(10.14)
El paso a (10.13) desde la expresin anterior hace uso de que = V .

o
Sustituyendo (10.12) y (10.14) en (10.8) se obtiene (10.7)
El Teorema 10.1 se sigue casi inmediatamente del resultado anterior.
Teorema 10.1 Hay algn valor de k > 0 para el que ECM[ (k) ] dado por
u
(10.7) es estrictamente menor que el ECM del estimador MCO dado por
(10.4).
Demostracion:
Hemos visto ms arriba que cuando k = 0, el estimador ridge (k) coina

cide con el MCO. Por consiguiente, para k = 0 la expresin (10.7) debe
o
coincidir con (10.4), como en efecto puede comprobarse que sucede. Derivando (10.7) respecto de k, es fcil comprobar que la derivada en k = 0
a
p
2
2
existe y es 2 i=1 i , claramente negativa. Por consiguiente, siempre
podremos (incrementando ligeramente k) lograr que:
ECM[ (k) ] < ECM[ (0) ] = ECM[]
(10.15)
lo que demuestra el teorema.
Una percepcin intuitiva del resultado anterior la proporciona la compao

racin de las expresiones (10.4) y (10.8), valores medios respectivamente de
o
) ( ) y ( (k) ) ( (k) ). Se observa que (10.4) puede hacerse
(
arbitrariamente grande si i 0 para algn i. La expresin (10.12) est a
u
o
a

CAP
143
0.35
Figura 10.1: Componentes del ECM( (k) ) en el estimador ridge. Las l

neas
2
de trazos y puntos representa respectivamente la varianza y (sesgo) de (k)

(k) ]. La l
en funcin de k. La curva slida representa ECM[
o
o
nea horizontal
MCO.
es la varianza (y ECM) del estimador
0.20
0.25
ECM MCO
0.10
0.15
Sesgo ridge (b)
0.05
ECM, varianza y (sesgo)2
0.30
ECM ridge (a) + (b)
0.00
Var ridge (a)
0.00
0.02
0.04
0.06
0.08
0.10
cobijo de tal eventualidad, pues ninguno de los sumandos puede crecer por
encima de i /k 2 .
La Figura 10.1 muestra en un caso concreto cmo var en funcin
o
an
o
de k los componentes (a) y (b) de (10.8), y su suma. Como trmino de
e
comparacin se ha representado mediante una l
o
nea horizontal la varianza
del MCO (igual a su varianza, puesto que es insesgado). Puede verse que,
tal como el Teorema 10.1 establece, hay valores de k en que el ECM( (k) )
desciende por debajo del ECM(); ocurre para valores de k menores que
0.039 aproximadamente.

CAP
144
Eleccin de k
o
Sabemos que existe un k (de hecho, un intervalo de valores de k) mejorando el ECM del estimador MCO; pero nada en la discusin anterior nos
o
permite decidir cul es su valor. En la prctica, se recurre a alguna o varias
a
a
de las siguientes soluciones:
Uso de trazas ridge. Se prueban diversos valores de k representndose
a
las diferentes estimaciones del vector (trazas ridge); se retiene entonces
aquel valor de k a partir del cual se estabilizan las estimaciones.
La idea es intuitivamente atrayente: pequeos incrementos de k partienn
do de cero tienen habitualmente un efecto drstico sobre , al coste de
a
introducir algn sesgo. Incrementaremos k por tanto hasta que parezca que
u
su inuencia sobre se atena hasta que las trazas ridge sean casi horiu
zontales. El decidir dnde ocurre esto es, no obstante, bastante subjetivo.
o
Eleccin de k por validacin cruzada. La idea es tambin muy simo
o
e
ple, aunque computacionalmente algo laboriosa. Sea y(i),k la prediccin que
o
hacemos de la observacin yi cuando empleamos el estimador ridge de pao
rmetro k obtenido con una muestra de la que excluimos la observacin
a
o
i-sima. Denamos
e
N
CV (k) =
i=1
(yi y(i),k )2 ;
es decir, CV (k) es la suma de cuadrados de los residuos obtenidos al ajustar

cada observacin con una regresin que la ha dejado fuera al estimar los
o
o
parmetros. Entonces,
a
kCV = arg m CV (k),
n
k
y la idea es emplear este valor kCV . En principio, calcular CV (k) para un

valor de k requerir llevar a cabo N regresiones, excluyendo cada vez una
a
observacin distinta. En la prctica, el clculo puede agilizarse de modo
o
a
a
considerable.
Eleccin de k por validacin cruzada generalizada (GCV). Es un
o
o
criterio estrechamente emparentado con el anterior. Sean
A(k) = X((X X) + kI)1 X
y = X (k) = A(k)y ;

CAP
145
entonces, elegimos
kGCV
= arg m
n
k
||(I A(k))y ||2

.
[traza(I A(k))]2
(10.16)
Sobre la justicacin de dicha eleccin puede verse Eubank (1988) o Brown

o
o
(1993), por ejemplo; no podemos entrar aqu en detalles. Baste decir que
la expresin que se minimiza en (10.16) se reduce a SSE/(N p)2 cuando

o
k = 0 (m
nimos cuadrados ordinarios), como resulta inmediato de la denicin de A(k); una expresin cuya minimizacin parece razonable. Para otros
o
o
o
valores de k el numerador de (10.16) contina siendo una suma de cuadrau
dos de los residuos y el denominador el cuadrado del nmero de grados de
u
libertad equivalentes.
Otros criterios. Nos limitamos a mencionarlos. Detalles adicionales pueden encontrarse en Brown (1993) o en los trabajos originales de sus respectivos proponentes.
kHKB = (p 2) 2 /

(10.17)
kLW = (p 2) 2 traza(X X)/(p (X X))
i
2
i k
+ k2
kM U R = arg m 2
n
2
k
i (i + k)
i i (i + k)
(10.18)
(10.19)
El criterio (10.17) fue propuesto por Hoerl et al. (1975) y tiene una justicacin bayesiana. El criterio (10.18) fue propuesto en Lawless and Wang
o
(1976). El criterio (10.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimacin.
o
Observacin 10.2 En las ecuaciones (10.17)(10.19), p es el
o
orden y rango de la matrix (X X). En caso de que (X X) sea de
rango deciente r, r < p, puede sustituirse ste por p tomando como
e
el estimador m
nimo cuadrtico de m
a
nima longitud; ver detalles
en Brown (1993), pg. 63.
a
Comentarios adicionales
Es evidente que la forma del ECM propuesto pondera por igual las
discrepancias en la estimacin de un i cuyo valor real es muy grande que
o
aqullas en la estimacin de uno cuyo valor real es muy pequeo. Por ello,
e
o
n
es aconsejable antes de emplear el procedimiento normalizar los regresores.
Alternativamente podr reproducirse el desarrollo anterior empleando como
a

CAP
146
ECM una expresin del tipo: ( ) M( ), siendo M una matriz

o
2
denida positiva adecuada tipicando los ( ).

Es habitual no slo normalizar sino tambin centrar tanto las columnas
o
e
de X como y . El parmetro 0 se sustrae as al proceso de estimacin ridge,
a
o
restaurndolo al nal.
a
Finalmente, es de inters sealar que el estimador ridge puede verse
e
n
desde distintos puntos de vista. Uno de ellos lo interpreta como un estimador
bayesiano, en la l
nea esbozada en los Ejercicios 4.6 y 4.7, pg. 58.
a
R: Ejemplo 10.1 (ejemplo de regresin ridge)
o
El siguiente cdigo muestra el uso de regresin ridge sobre un
o
o
conjunto de datos acusadamente colineal. La Figura 10.2 muestra las
trazas ridge de los seis parmetros estimados y el valor del criterio
a
GCV para distintos valores de k. En ambas grcas, que comparten
a
la escala de abscisas, se ha trazado una recta vertical al nivel de
kGCV . Los valores de kHKB y kLW son tambin output de la funcin
e
o
lm.ridge y podr haberse utilizado. El primero es prcticamente
an
a
idntico a kGCV y no se ha representado en la Figura 10.2; el segundo
e
s
.
>
>
>
>
>
>
options(digits = 4)
options(columns = 40)
library(MASS)
data(longley)
names(longley)[1] <- "y"
longley[1:3, ]
1947
1948
1949
1947
1948
1949
y
GNP
83.0 234.3
88.5 259.4
88.2 258.1
Population
107.6
108.6
109.8
Unemployed Armed.Forces
235.6
159.0
232.5
145.6
368.2
161.6
Year Employed
1947
60.32
1948
61.12
1949
60.17
> longley.mco <- lm(y ~ ., longley)

> summary(longley.mco)
Call:
lm(formula = y ~ ., data = longley)
2
Es decir, empleando una mtrica distinta de la eucl

e
dea ordinaria para medir la
discrepancia entre y ; M = (X X) ser una eleccin natural.

a
o

CAP
147
Figura 10.2: Trazas ridge y GVC para los datos longley
Trazas ridge
10
10
20
kGCV
0.00
0.02
0.04
0.06
0.08
0.10
0.08
0.10
Criterio GCV
kGCV
0.130
0.120
GCV
0.140
kLW
0.00
0.02
0.04
0.06
k

CAP
Residuals:
Min
1Q Median
-2.009 -0.515 0.113
3Q
0.423
148
Max
1.550
Coefficients:
Estimate Std. Error t value
(Intercept) 2946.8564 5647.9766
0.52
GNP
0.2635
0.1082
2.44
Unemployed
0.0365
0.0302
1.21
Armed.Forces
0.0112
0.0155
0.72
Population
-1.7370
0.6738
-2.58
Year
-1.4188
2.9446
-0.48
Employed
0.2313
1.3039
0.18
Pr(>|t|)
(Intercept)
0.614
GNP
0.038 *
Unemployed
0.258
Armed.Forces
0.488
Population
0.030 *
Year
0.641
Employed
0.863
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.19 on 9 degrees of freedom
F-statistic: 203 on 6 and 9 DF, p-value: 4.43e-09
Ntese la fuerte multicolinealidad, aparente en los reducidos t-ratios
o
y elevada R2 . Probemos ahora regresin ridge con valores de k (=
o
lambda) entre 0 y 0.1 variando de milsima en milsima. Imprimie
e
remos a continuacin las estimaciones correspondientes a los tres
o
primeros valores de k ensayados. Cuando k = 0, deben coincidir las
estimaciones con las obtenidas por MCO.
> longley.rr <- lm.ridge(y ~ ., longley,
+
lambda = seq(0, 0.1, 0.001))
> summary(longley.rr)
Length
coef
606
scales
6
Inter
1
Class
-none-none-none-
Mode
numeric
numeric
numeric

CAP
lambda 101
ym
1
xm
6
GCV
101
kHKB
1
kLW
1
-none-none-none-none-none-none-
numeric
numeric
numeric
numeric
numeric
numeric
> coef(longley.rr)[1:3, ]
GNP Unemployed Armed.Forces
0.000 2947 0.2635
0.03648
0.011161
0.001 1896 0.2392
0.03101
0.009372
0.002 1166 0.2210
0.02719
0.008243
Population
Year Employed
0.000
-1.737 -1.4188 0.23129
0.001
-1.644 -0.8766 0.10561
0.002
-1.565 -0.5011 0.03029
La funcin select aplicada al objeto que devuelve lm.ridge deo
vuelve los valores ptimos de tres de los criterios mencionados m as
o
n
arriba.
> select(longley.rr)
modified HKB estimator is 0.006837
modified L-W estimator is 0.05267
smallest value of GCV at 0.006
Podemos seleccionar el k optimo de acuerdo, por ejemplo, al criterio
GCV, y hacer regresin ridge con l:

o
e
> nGCV <- which.min(longley.rr$GCV)
> lGCV <- longley.rr$lambda[nGCV]
> lm.ridge(y ~ ., longley, lambda = lGCV)
-3.144e+02
Armed.Forces
6.565e-03
Employed
-5.812e-02
GNP
1.765e-01
Population
-1.328e+00
Unemployed
1.937e-02
Year
2.556e-01
El cdigo a continuacin genera las grcas en la Figura 10.2.

o
o
a
149

CAP
>
>
+
+
>
>
>
>
+
+
>
>
>
>
150
par(mfrow = c(2, 1))

matplot(longley.rr$lambda, t(longley.rr$coef),
type = "l", xlab = expression(k),
ylab = expression(beta[i]))
abline(v = lGCV)
mtext(expression(k[GCV]), side = 3, at = lGCV)
title(main = "Trazas ridge")
plot(longley.rr$lambda, longley.rr$GCV,
type = "l", xlab = expression(k),
ylab = "GCV", main = "Criterio GCV")
abline(v = lGCV)
mtext(expression(k[GCV]), side = 3, at = lGCV)
abline(v = longley.rr$kLW)
mtext(expression(k[LW]), side = 3, at = longley.rr$kLW)
Fin del ejemplo
10.4.
Regresin en componentes principales.

o
Descripcin del estimador

o
Consideraremos, por conveniencia notacional, el modelo habitual en que
la columna de unos, si existe, ha sido segregada, y los restantes regresores
han sido centrados y normalizados. Esto tiene por unico efecto multiplicar
los parmetros y sus estimadores por constantes respectivamente iguaa

les a la norma de las columnas de X afectadas. Con este convenio, el modelo
de regresion lineal que consideramos se puede escribir as
:
y = 10 + W +
(10.20)
Supondremos, consistentemente con la notacin anterior, que es un

o
vector (p 1) 1, y W una matriz N (p 1). La matriz W W es una
matriz con unos en la diagonal principal, simtrica, y denida no negativa.
e
Existe siempre una diagonalizadora ortogonal V tal que:
V (W W )V =
( W W = V V )
(10.21)

CAP
151
Sean v1 , . . . , vp1 los vectores columna de V . Llamaremos componentes

principales de W a los vectores u1 , . . . , up1 denidos as
:
u1
u2
up1
= W v1
= W v2
.
.
.
= W vp1
(10.22)
o abreviadamente:
U = WV
(10.23)
La matriz U es N (p 1), con columnas combinacin lineal de las de

o
W . Es adems aparente que las columnas de U son ortogonales: U U =
a
V (W W )V = , y que generan el mismo subespacio de RN que las de W .
Siendo V ortogonal, (10.20) puede transformarse as
:
y = 10 + W +
= 10 + W V V +
= 10 + U +
(10.24)
(10.25)
(10.26)
Teniendo en cuenta (ver Problema 10.2) que 1 ui , (i = 1, . . . , p 1), el

vector de estimadores puede escribirse as
:
y
y
0
= (U U)1 U y = 1 U y
(10.27)
Todo lo que hemos hecho hasta el momento es tomar una diferente base
del espacio de proyeccin la formada por las columnas de U en lugar de
o
la formada por las columnas de W . Llegados a este punto, tenemos que
recuperar los estimadores de los parmetros originales a partir de . Si
a
lo hacemos mediante
= V
estaremos obteniendo exactamente los estimadores MCO. La idea del es

timador en componentes principales CP es emplear slo algunos de los
o
trminos en :
e
CP = V
(q)
.
0
(10.28)
Necesitamos por tanto criterios para escoger los estimadores i que inclui
mos en (q) y los que reemplazamos por cero en (10.28).

CAP
152
Estrategias de seleccin de componentes principales

o
Hay varias estrategias. Una discusin ms pormenorizada que el resumen
o
a
a continuacin puede encontrarse en Brown (1993) o en Jollie (1986).
o
Eleccin basada en i . Como quiera que la varianza de i es 2 1
o
i
(vase (9.26), pg. 130), una estrategia consistir en tomar los i asociados
e
a
a
a i ms grande (es decir, con menos varianza), despreciando los restana

tes. El nmero de componentes principales a retener (= el nmero de i s
u
u
grandes) es en buena medida subjetivo.
Ntese que puede ocurrir que componentes asociadas a parmetros i
o
a
con mucha varianza y por tanto desechados tengan no obstante gran poder predictivo de y . En este caso, podr ser preferible emplear la estrategia
a
a continuacin.
o
Eleccin basada en el contraste de nulidad de los i . Se procede
o
as
:
1. Se calcula
PU y
= U
= 1 u1
2
+ + p1 up1
2
(10.29)
la ultima igualdad haciendo uso de la ortogonalidad entre las columnas
de U. Entonces, SSR = PU y 2 , y SSE = y y 2 U 2 .

2. Se contrasta la hiptesis de nulidad para cada uno de los parmetros,
o
a
(Hi : i = 0, i = 1, . . . , p 1), mediante el estad
stico:
Qi =
N p i2 ui
1
SSE
F1,N p
(10.30)
que sigue la distribucin indicada bajo los supuestos habituales ms

o
a
normalidad cuando Hi es cierta.
Obsrvese que, gracias a ser ortogonales las columnas de U, la frace
cin de SSR atribuible a cada regresor es independiente de los que
o
pueda haber ya incluidos en la ecuacin de regresin; por tanto, la
o
o
diferencia de suma de cuadrados explicada con y sin el regresor ui es
precisamente i2 ui 2 .
3. Se introducen todos los regresores cuyo estad

stico Qi supere un nivel
prejado. Sin prdida de generalidad, supondremos que stos son los
e
e
q primeros, formando el vector (q) .

CAP
153
4. Los CP se obtienen mediante la transformacin (10.28).

o
Ntese que mientras que la estrategia precedente consist en desechar
o
a
componentes principales asociadas a reducido i , la presente propone desechar
las asociadas a reducido Qi ; frecuentemente, no suele haber conicto entre
ambos objetivos: ui 2 = i 0 Qi 0 a menos que simultneamente
a
i 0. Puede ocurrir, sin embargo, que una componente principal asocia

da a un i muy pequeo tenga apreciable valor predictivo (si i es grande).
n
Proceder incluir dicha componente principal como predictor si el valor de

a
Qi lo justica y la prediccin es el objetivo del anlisis3 .
o
a
Estrategia mixta. Propuesta por Jollie (1986), ordena los i de menor
a mayor i y realiza en este orden un contraste como el del apartado anterior

sobre cada uno de ellos. Cuando se encuentra el primer i signicativo, se
retiene junto a todos los que le siguen (con i mayor, por tanto). Todos los
i retenidos componen el vector (q) .
Validacin cruzada. Computacionalmente muy laboriosa. Puede ocurrir

o
que al omitir distintas observaciones, dos componentes principales permuten
su orden. Vanse detalles en Brown (1993).
e
Propiedades del estimador en componentes principales
El sesgo de CP es:
p1
(q)
i vi
V =
0
i=q+1
E[CP ] = E V
(10.31)
y su matriz de covarianzas:

CP
= V
I 0
Iq 0
1 q
0 0
0 0
(10.32)
1 vi vi
i
(10.33)
1 vi vi
i
(10.34)
i=1
p1
i=1
= 2 (W W )1
3
Pero este criterio no es unnimemente compartido. Vase Hocking (1976).

a
e
(10.35)

CAP
154
en que el s
mbolo indica elementos no mayores en la diagonal principal.
La diferencia entre la matriz de covarianzas de los estimadores MCO y la
de los estimadores en componentes principales es:
p1
1 vi vi
i
(10.36)
i=q+1
y ser importante si entre las componentes principales exclu

a
das como regresores hay alguna asociada a un i muy pequeo.
n
Las expresiones (10.31) y (10.32)(10.35) muestran el conicto varianzasesgo en el caso de la regresin en componentes principales. De (10.31) se
o
deduce la siguiente expresin para la suma de los sesgos al cuadrado:
o
[E(CP ) ] [E(CP ) ] =
p1
(i )2
(10.37)
i=q+1
Es interesante comparar el estimador en componentes principales con el

estimador ridge, y examinarlo a la luz del anlisis efectuado en el Cap
a
tulo
9. En realidad, todo cuanto hace el estimador en componentes principales
es reparametrizar el modelo, estimarlo por MCO, y obtener los estimadores
de los parmetros originales despreciando informacin (algunos i ) de gran
a
o
varianza (si se sigue el criterio de despreciar sin ms componentes principales

a
con pequeo i ) o de reducido Qi (i )2 i ; este ultimo estad
n
stico puede
contemplarse como relacin seal/ruido.
o
n
El estimador ridge no hace una eleccin tan drstica sino que, mediante
o
a
la introduccin del parmetro k, atena las componentes principales reso
a
u
ponsables en mayor medida de la varianza de . Esto se hace evidente si

comparamos la siguiente expresin:
o
CP = V
Iq 0
=V
0 0
Iq 0
1 U y
0 0
(10.38)
con la del estimador ridge equiparable4 :
(k) = (W W + kI)1 W y
= V V (W W + kI)1 V V W y
= V ( + kI)1 U y
(10.39)
(10.40)
(10.41)
En (10.38) slo q columnas de U y se utilizan; en (10.41), todas, si bien

o
las que corresponden a componentes principales con i ms pequeo reciben
a
n
4
Es decir, tras haber centrado y normado los regresores y segregado la columna de

unos.

CAP
155
una ponderacin menor, al ser divididas por i + k en lugar de por i . Por

o
ejemplo, si 1 = 5, 4 = ,002 y k = 0,01, la primera columna de U y
ser dividida por 5,01 5, mientras que la cuarta resultar dividida por
a
a
0,012 0,002, es decir, su ponderacin se reducir a la sexta parte de la
o
a
original.
R: Ejemplo 10.2 (regresin en componentes principales)
o
La funcin regCP que sigue traduce directamente de la teor
o
a
expuesta el mtodo para llevar a cabo estimacin en componentes
e
o
principales. Admite como argumentos la matriz de regresores, el vector respuesta, y uno de dos argumentos:
tomar: Vector de
ndices de las componentes principales a retener. Por ejemplo, tomar=1:3 tomar las tres primeras.
a
sig: Nivel de signicacin de las componentes principales a
o
retener. Se toman todas aqullas sea cual fuere su valor propio
e
asociado signicativas al nivel sig.
La funcin es ineciente, no hace comprobacin de errores y tiene
o
o
slo inters didctico.
o
e
a
> regCP <- function(X, y, tomar = NULL,
+
sig = 0.05) {
+
X.c <- scale(X, scale = FALSE)
+
y.c <- scale(y, scale = FALSE)
+
W <- scale(X.c, center = FALSE)/sqrt(nrow(X) +
1)
+
WW <- crossprod(W)
+
factores.escala <- X.c[1, ]/W[1, ]
+
N <- nrow(X)
+
p <- ncol(X)
+
res <- eigen(WW)
+
V <- res$vectors
+
landas <- res$values
+
U <- W %*% V
+
gamas <- (1/landas) * t(U) %*% y.c
+
if (is.null(tomar)) {
+
fit <- lsfit(X.c, y.c, intercept = FALSE)
+
SSE <- sum(fit$residuals^2)
+
qi <- (N - p) * (gamas * landas)^2/SSE
+
tomar <- (1:p)[sig > (1 - pf(qi,
+
1, N - p))]
+
}
+
betasCPstar <- V[, tomar] %*% gamas[tomar]

CAP
+
+
+
+
+
+
+
+
+ }
betasCP <- betasCPstar/factores.escala

m.X <- apply(X, 2, mean)
m.Y <- mean(y)
beta0 <- m.Y - sum(m.X * betasCP)
betasCP <- c(beta0, betasCP)
names(betasCP) <- c("Intercept", dimnames(X)[[2]])
return(list(betasCP = betasCP, landas = landas,
CP.usadas = tomar))
Veamos el modo de emplearla, con los datos longley, frecuentemente

empleados como banco de pruebas por su muy acusada multicolinealidad:
>
>
>
>
>
156
library(MASS)
data(longley)
y <- longley[, 1]
X <- as.matrix(longley[, -1])
regCP(X, y, tomar = 1:3)
$betasCP
Intercept
-9.731e+02
Armed.Forces
1.553e-02
Employed
7.239e-01
GNP
2.459e-02
Population
3.391e-01
Unemployed
9.953e-03
Year
4.967e-01
$landas
[1] 4.5478430 1.1858692 0.2517070 0.0124261
[5] 0.0018422 0.0003126
$CP.usadas
[1] 1 2 3
Una comprobacin util consiste en ver que el estimador en CP, cuano
do se utilizan todas las componente principales, coincide con el estimador MCO. Vemoslo:
a
> regCP(X, y, tomar = 1:ncol(X))
$betasCP
Intercept
GNP
Unemployed

CAP
2946.85636
Armed.Forces
0.01116
Employed
0.23129
0.26353
Population
-1.73703
157
0.03648
Year
-1.41880
$landas
[1] 4.5478430 1.1858692 0.2517070 0.0124261
[5] 0.0018422 0.0003126
$CP.usadas
[1] 1 2 3 4 5 6
> lsfit(X, y)$coefficients
Intercept
2946.85636
Armed.Forces
0.01116
Employed
0.23129
GNP
0.26353
Population
-1.73703
Unemployed
0.03648
Year
-1.41880
Para que la funcin seleccione aquellas componentes principales con

o
un nivel de signicacin de sus parmetros asociados prejado, la
o
a
invocamos as
:
> regCP(X, y, sig = 0.1)
$betasCP
Intercept
-961.37468
Armed.Forces
0.01991
Employed
0.66205
GNP
0.02372
Population
0.33197
Unemployed
0.01373
Year
0.49223
$landas
[1] 4.5478430 1.1858692 0.2517070 0.0124261
[5] 0.0018422 0.0003126
$CP.usadas
[1] 1 2
Fin del ejemplo

CAP
10.5.
158
Regresin en ra
o
ces latentes
Consideramos el modelo:
y = 10 + W +
(10.42)
y = W +
(10.43)
o alternativamente:
en que tanto los regresores como la variable respuesta y han sido normalizados y centrados. Es decir, y = 1 (y y) siendo 2 = N (yi y)2 . Si
i=1
constru
mos la matriz N p siguiente:
A = [y | W ]
(10.44)
tenemos que la matriz (A A) es una matriz de correlacin (tiene unos en

o
la diagonal principal, es simtrica y semidenida positiva). Sea V = (v1 |
e
| vp ) la matriz que la diagonaliza:
V (A A)V = V V = A A
(10.45)
Entonces, utilizando (10.44), tenemos

(0)
Avj = v0j y + W vj ,
(0)
dnde vj
o
(j = 1, . . . , p)
(10.46)
es vj desprovisto de su primer elemento:

v0j
(0) .
vj
vj =
Tomando norma al cuadrado de (10.46),

Avj
(0) 2
v0j yi + W vj
N
=
i=1
p1
y v0j
i
+
k=1
Wik vkj
(10.47)
(0)
en que vkj es la k-sima coordenada de vj . Como por otra parte

e
Avj
= vj (A A)vj
= j ,
(10.48)

CAP
159
igualando (10.47) y (10.48) deducimos que si j 0

p1
yi v0j
Wik vkj
i [1, . . . , N]
k=1
(10.49)
Si, adems, v0j = 0, podemos escribir:

a
(0)
1
y v0j W vj
def
y(j)
(10.50)
Como y = 1 (y y), y = y + y y denominando

y
y(j) = y + (j)
(10.51)
tenemos:
(y y(j) ) (y y(j) ) = 2 (y y(j) ) (y y(j) )
= (v0j y v0j y(j)) (v0j y v0j y(j) )
= (Avj ) (Avj )
=
2
2
v0j
2
2
v0j
j 2
2
v0j
(10.52)
Ntese que la aproximacin de y en (10.50) y suma de cuadrados de los

o
o
residuos en (10.52), hacen uso exclusivamente de una parte de la informacin
o
disponible; la de que j es aproximadamente cero para un determinado j.
Podemos pensar en hacer uso de toda la informacin disponible aproximano
do y mediante una combinacin lineal de y(i) (i = 1, . . . , p), debidamente
o
ponderadas por coecientes di a determinar:

p
di y(i)
y =
i=1
p
[usando (10.50) y (10.51)] =
(0)
di y + W (v0i 1 vi )
i=1
p
=
i=1
di y + W
Por otro lado, de (10.42) tenemos
0 1 + W
(0)
di v0i 1 vi
i=1

CAP
160
que junto con la igualdad precedente proporciona:

p
0 = y
di
(10.53)
i=1
p
(0)
di v0i 1 vi
(10.54)
i=1
Como los regresores W estn centrados, es claro que 0 = y, y por tanto

a
p
de (10.53) se deduce i=1 di = 1. Haciendo uso de (10.52), (10.53), y (10.54)
obtenemos la suma de cuadrados de los residuos:
(y y ) (y y ) = 2 (y y ) (y y )
(0)
div0i 1 vi
y +W
y + W
i=1
i=1
p
di
(0)
(y v0i + W vi )
v0i
= 2
i=1
p
di
Avi
v0i
= 2
i=1
di
(0)
(y v0i + W vi )
v0i
i=1
p
i=1
p
(0)
di v0i 1 vi
i d 2
i
v0i 2
di
Avi
v0i
i=1
(10.55)
Podemos ahora minimizar la expresin (10.55) sujeta a que

o
El lagrangiano es:
p
(d ) = 2
i=1
p
i=1
di = 1.
i d 2
i
2
v0i
i=1
di 1
(10.56)
cuyas derivadas
(d )
d i i
= 2 2
di
v0i 2
=0
(i = 1, . . . , p)
(10.57)
permiten (multiplicando cada igualdad en (10.57) por v0i 2 1 y sumando)

i
obtener:
p
= 2 2
2
v0i
i=1 i
(10.58)

CAP
161
Llevando (10.58) a (10.57) obtenemos:

2 2 di
i
= = 2 2
2
v0i
2
v0i
i=1 i
(10.59)
y por tanto:
p
2
v0i
i=1 i
v2
di = 0i
i
(10.60)
Los estimadores deseados se obtienen llevando (10.60) a (10.53)(10.54):
0 = y
(10.61)
p
i=1
v0i v (0)
i
i
2
v0i
p
i=1
i
(10.62)
Podr
amos detenernos aqu pero hay ms. Cabe distinguir dos tipos de
,
a
multicolinealidades entre las columnas de la matriz [y | W ]; aqullas en
e
que v0i 0 que llamaremos (multicolinealidades predictivas), y aqullas
e
en que v0i 0 (multicolinealidades no predictivas); las primeras permiten
despejar y , y son aprovechables para la prediccin, en tanto las segundas
o
son multicolinealidades fundamentalmente entre los regresores.
(0)
El estimador anterior pondera cada vi en proporcin directa a v0i e
o
inversa a i . Es lo sensato: lo primero, prima las multicolinealidades predictivas sobre las que lo son menos; lo segundo, a las multicolinealidades
ms fuertes (en que la igualdad aproximada (10.49) es ms ajustada). Pea
a
ro podemos eliminar en (10.62) trminos muy inestables, cuando v0i y i
e
son ambos muy pequeos, para evitar que el sumando correspondiente en
n
(10.62) reciba gran ponderacin, si parece evidente que se trata de una mulo
ticolinealidad no predictiva. La relacin (10.62) se transformar entonces
o
a
en:
v0i v (0)
i
i
2
v0i
iP
i
iP
(10.63)
siendo P un subconjunto de (1, . . . , p).

La determinacin de P es una tarea eminentemente subjetiva; se suele
o
desechar una multicolinealidad cuando i < 0,10 y v0i < 0,10, si adems
a
(0)
vi se aproxima a un vector propio de W W .

CAP
10.6.
162
Lectura recomendada
Sobre regresin ridge, el trabajo original es Hoerl and Kennard (1970)

o
(ver tambin Hoerl et al. (1975)). Hay una enorme literatura sobre los ese
timadores ridge y en componentes principales. Pueden verse por ejemplo
Brown (1993), Cap. 4, Trocniz (1987a) Cap. 10 Pea (2002) Sec. 8.3.4,
o
o n
que relaciona el estimador ridge con un estimador bayesiano.
Los mtodos de regresin sesgada se contemplan a veces como altere
o
nativas a los mtodos de seleccin de variables en situaciones de acusada
e
o
multicolinealidad: vase por ejemplo Miller (2002), Cap. 3. De hecho, ese
tudiaremos en el Cap
tulo 12 estimadores como el LASSO y garrote no
negativo que pueden tambin verse como mtodos de regresin sesgada.
e
e
o
El trabajo original regresin en ra
o
ces latentes puede verse en Webster
et al. (1974). Hay tambin descripciones completas del mtodo en manuales
e
e
como Trocniz (1987a) (pg. 247 y ss.) o Gunst and Mason (1980), Sec. 10.2.
o
a

CAP
163
10.1 Al nal de la Seccin 10.3 se propon emplear un criterio
o
a
del tipo
( ) M ( )
con M = (X X). Dse una justicacin para esta eleccin de M .

e
o
o
10.2 Demustrese que si ui es denida como en (10.22), se

e
verica que 1 ui .
10.3 Sea una muestra formada por n observaciones, X1 , . . . , Xn ,

generadas por una distribucin con media. Demustrese que, para alo
e
a
g n c, cX es mejor estimador (en terminos de error medio cuadrtico,
u
ECM) que X. Es esto un caso particular de alguno de los procedimientos de estimacin examinados en este cap
o
tulo?
10.4 Es fcil realizar regresin ridge incluso con programas

a
o
pensados slo para hacer regresin m
o
o
nimo cuadrtica ordinaria. Basa
ta prolongar el vector y con p ceros, y la matriz X con p las adi

cionales: las de la matriz kIpp . Llamamos X e y a la matriz de
regresores y vector respuesta as ampliados. Al hacer regresin ordi
o
naria de y sobre X obtenemos:

= (X X)1 X y
= (X X + kI)
= (X X + kI)
= (k)
(X y + kI 0 )
(10.64)
(10.65)
X y
(10.66)
(10.67)
n
Alternativamente, se puede formar X a adiendo a X las las de una
matriz unidad, y realizar regresin ponderada (dando a cada obsero
vacin normal peso unitario y a las p seudo-observaciones a adidas
o
n
o
a o
peso k). La alteracin de los pesos es habitualmente ms cmoda
que la creacin de una nueva matriz de regresores. Este ser de ordio
a
nario el mtodo a utilizar cuando hayamos de probar muchos valores
e
diferentes de k y dispongamos de un programa para hacer regresin
o
m
nimo cuadrtica ponderada. Las funciones lsfit y lm (disponibles
a
en R) admiten ambas el uso de pesos y por tanto se prestan al uso
descrito. La librer MASS contiene no obstante la funcin lm.ridge,
a
o
que hace estimacin ridge de modo ms cmodo para el usuario.
o
a o
10.5 Supongamos una muestra formada por pares de valores

(yi , xi ), i = 1, . . . , N . La variable Y es peso, la variable X es edad,

CAP
164
y las observaciones corresponden a N diferentes sujetos. Estamos interesados en especicar la evolucin del peso con la edad. Podr
o
amos
construir la matrix de dise o
n
X=
x1
x2
x3
x2
1
x2
2
x2
3
x3
1
x3
2
x3
3
.
.
.
. . . xp1
1
. . . xp1
2
. . . xp1
3
.
.
.
1 xN
x2
N
x3
N
. . . xp1
N
1
1
1
.
.
.
(10.68)
y contrastar hiptesis tales como H0 : 2 = 3 = . . . = p1 = 0

o
(tendencia no ms que lineal), H0 : 3 = . . . = p1 = 0 (tendena
cia no ms que cuadrtica), etc. Sucede sin embargo, como es fcil
a
a
a
comprobar, que una matriz como la anterior adolece de una acusada
multicolinealidad, sean cuales fueren los valores x1 , . . . , xN .
Podr
amos ortogonalizar los vectores columna de la matriz de
dise o (por ejemplo mediante el procedimiendo de Gram-Schmidt:
n
vase Grafe (1985) o cualquier libro de Algebra Lineal), para obtener
e
una nueva matriz de dise o. Los nuevos vectores columna generan
n
el mismo espacio y el contraste puede hacerse del mismo modo que
con los originales, pero sin problemas de multicolinealidad.
Otra posibilidad es sustituir las potencias creciente de xi en las
columnas de X por polinomios ortogonales evaluados para los mismos valores xi (ver por ejemplo Seber (1977), Dahlquist and Bjrck
o
(1974), o cualquier texto de Anlisis Numrico).
a
e
Ambos procedimientos tienen por nalidad encontrar una base
ortogonal o aproximadamente ortogonal generando el mismo espacio
que los vectores columna originales de la matriz de dise o.
n
10.6 ( 10.5) Por qu, para la nalidad perseguida en el Ejere

cicio 10.5, no ser de utilidad hacer regresin en componentes prina
o
cipales?
Cap
tulo 11
Evaluacin del ajuste. Diagnso

o
ticos.
Ya hemos visto en lo que precede estad
sticos para evaluar la bondad de
ajuste de un modelo, como R2 ; pero se trata de estad
sticos que dan una
2
idea global del ajuste. Puede ocurrir que un R encubra el hecho de que
localmente para unas ciertas observaciones el ajuste es muy deciente.
En lo que sigue abordaremos esta cuestin, considerando instrumentos
o
para examinar el ajuste localmente (para observaciones individuales). Examinaremos tambin la cuestin
e
o ntimamente relacionada de cundo una
a
observacin (o varias) son muy inuyentes, en el sentido de condicionar de
o
modo importante la estimacin del modelo.
o
11.1.
Anlisis de residuos.
a
En general, como se ha indicado ya en el Cap

tulo 12, no conocemos la
forma en que se generan los valores de la variable respuesta Y . Todos los
modelos que ajustemos son en alguna medida provisionales, y su adecuacin
o
a los datos debe ser objeto de anlisis. El desarrollo que se hace a continuaa
cin sigue principalmente a Cook and Weisberg (1982). Otras referencias
o
de utilidad son Hawkins (1980), Barnett and Lewis (1978), Belsley et al.
(1980), Myers (1990) y Trocniz (1987a).
o
La forma ms natural de examinar el ajuste consiste en considerar los
a
residuos
= y X = (I X(X X)1 X )y = (I X(X X)1 X )
(11.1)
Podemos contemplar los i como estimaciones de las perturbaciones i
(inobservables) que han intervenido en la generacin de las Yi . Veremos sin

o
165
CAP
ITULO 11. EVALUACION DEL AJUSTE. DIAGNOSTICOS.
166
embargo que, en general, slo vagamente reproduce el comportamiento de

o
. En particular,
Teorema 11.1 Bajo los supuestos habituales se verica que:
1. Los residuos no son, en general, homoscedsticos, incluso cuando las
a
perturbaciones lo son.
2. Los residuos no son, en general, incorrelados, incluso cuando las perturbaciones lo son.
Demostracion:
= E[( E())( E()) ]
(11.2)
Como E() = 0, (11.2) se reduce a:
E = E[(I X(X X)1 X )yy (I X(X X)1 X ) ]
= (I X(X X)1 X ) 2 I
= 2 (I P ),
(11.3)
(11.4)
(11.5)
que en general no tiene elementos iguales a lo largo de la diagonal principal.

El apartado 2) del enunciado es inmediato a partir de (11.5), dado que
(I P ) es una matriz no diagonal.
Sea,
pij = xi (X X)1 xj
(11.6)
un elemento genrico de la matriz P (xi denota la i-sima la de X). De

e
e
la igualdad (11.1) se deduce:
i = (1 pii )i
pij j
(11.7)
i=j
Por tanto, el residuo i-simo es un promedio ponderado de la perturbacin

e
o
correspondiente a dicha observacin y las de todas las dems observaciones,
o
a
con ponderaciones (1 pii ) y (pij ). Dependiendo de los valores que tomen
estos coecientes, i recoger con desigual delidad el valor de i .
a
Los valores pij dependen slo de la matrix de diseo y son del mayor
o
n
inters, como veremos ms abajo.
e
a
CAP
167
Residuos internamente studentizados.

Los residuos MCO denidos en (11.1) son, por causa de su heterocedasticidad, desaconsejables para la deteccin de observaciones anormales
o
o diagnstico de modelos de regresin. Es sin embargo fcil corregir dicha
o
o
a
heterocedasticidad. De (11.5) se deduce que una estimacin de la varianza
o
2
de i viene dada por (1 pii ). Por tanto,
ri =
+ 2 (1 pii )
(11.8)
para i = 1, . . . , N son residuos de varianza comn. Se llama studentizacin

u
o
2
a la eliminacin del efecto de un parmetro de escala (aqu ) mediante
o
a
divisin por una estimacin adecuada. Se denomina internamente studeno

o
tizados a los residuos denidos en (11.8).
Es de notar que, a pesar de su denominacin, los ri no siguen una distrio
bucin t de Student, pues numerador y denominador no son independientes
o
(i ha intervenido en el cmputo de 2 ). Es fcil demostrar, sin embargo, que
a
bajo los supuestos habituales ms el de normalidad en las perturbaciones,
a
1 1
2
ri /(N p) sigue una distribucin beta B( 2 , 2 (N p 1)).
o
Al tener los ri la misma varianza, se prestan mejor a ser examinados
grcamente para identicar posibles observaciones anmalas o outliers.
a
o
Residuos externamente studentizados.

Denidos por:
ti =
i
+ 2 (i)(1 pii )
(11.9)
son formalmente idnticos a los ri , con la unica salvedad de haberse tomado

e
en el denominador un estimador 2 (i) de 2 que no hace uso de i . Mediante
2
una eleccin adecuada de (i) puede lograrse que ti siga una distribucin
o
o
t de Student con (N p 1) grados de libertad. Esto permite, entre otras
cosas, hacer uso de la distribucin del mximo de k variables t de Student
o
a
con correlacin por pares (vase Seccin 8.3, pg. 112) para contrastar la
o
e
o
a
presencia de outliers. Tomaremos,
2 (i) =
i (1 pii )1 i

(N p 1)
lo que permite probar el siguiente,
(11.10)
CAP
168
Teorema 11.2 Con 2 (i) denido como en (11.10), bajo los supuestos ha
bituales ms el de normalidad en las perturbaciones, los residuos ti denidos
a
en (11.9) (externamente studentizados) siguen una distribucin t de Student
o
con (N p 1) grados de libertad.
Demostracion:
Podemos escribir i = Gi (I P ) siendo Gi de dimensin 1 N, con
o
un unico uno en posicin i-sima y ceros en los dems lugares. Llamando
o
e
a
A = Gi (I P ) tenemos que:
i = A
(11.11)
Por otra parte, de (11.10) deducimos:

(N p 1) 2 (i) = [I Gi [Gi (I P )Gi ]1 Gi ]
= (I P )[I Gi [Gi (I P )Gi]1 Gi ](I P )

B
= B
(11.12)
Es fcil comprobar que AB = 0, luego i y 2 (i) son independientes (Lema

a

6.3, pg. 67). Por otra parte, es tambin fcil comprobar que B es idempoa
e a
tente, con rango (= traza) (N p 1). Por consiguiente,
i
2 (i)(1 pii )
i / 2 (1 pii )
2 (i)/ 2
i / 2 (1 pii )
B /(N p 1) 2
(11.13)
(11.14)
Pero en el numerador y denominador de (11.14) hay respectivamente una

variable aleatoria N(0, 1) y una 2 dividida entre sus grados de libertad,
ambas independientes, lo que demuestra el Teorema.
Para contrastar la hiptesis de presencia de outliers, podemos comparar
o
el mayor de los residuos externamente studentizados con el cuantil apropiado de la distribucin del mximo valor absoluto de k variables aleatorias t
o
a
de Student (Seccin 8.3, pg. 112). Supondremos que son incorrelados, salo
a
vo que podamos calcular fcilmente su correlacin por pares, como sucede
a
o
a menudo en Anlisis de Varianza. El texto Seber (1977) reproduce en su
a
Apndice E tablas adecuadas. Alternativamente, podemos comparar el mae
yor residuo internamente studentizado con los valores cr
ticos en las tablas
de Lund (1975), o emplear la desigualdad de Bonferroni.
CAP
169
Residuos BLUS.
La studentizacin, tanto interna como externa, elimina la heterocedastio
cidad de los residuos, pero no la mutua correlacin. No es posible obtener
o
un vector de N residuos incorrelados y ortogonales a las columnas de X. La
razn se ve fcilmente: R(X) es un vector aleatorio de N coordenadas,
o
a
pero constreido a yacer en un subespacio (N p) dimensional. Su distrin

bucin en RN es degenerada, y su matriz de covarianzas de rango (N p)
o
(supuesta X de rango completo). Ninguna transformacin ortogonal puede
o
convertir tal matriz en diagonal de rango N.
Si es posible, sin embargo, obtener (N p) residuos incorrelados, homoscedsticos, y de media 0; de hecho, hay multitud de maneras de hacerlo1 ,
a
dependiendo del subconjunto de (N p) residuos que escojamos.
Tales residuos, denominados BLUS (o ELIO), son de utilidad para contrastar homoscedasticidad (suministrando una alternativa al conocido mtoe
do de Goldfeld-Quandt), normalidad, etc. Un tratamiento detallado puede
encontrarse en Theil (1971), Cap. 5.
Residuos borrados.
Sean X(i) e Y (i) la matriz de diseo y vector respuesta desprovistos de
n
(i) el vector de estimadores de los parmetros
la observacin i-sima. Sea
o
e
a
(i) = (X X(i) )1 X Y (i) . Se
obtenido sin dicha observacin, es decir,
o
(i)
(i)
llama residuos borrados (deleted residuals) a los di denidos as2 :
di = yi xi (i)
(11.15)
Un di muy pequeo o nulo indicar que la observacin i-sima no se sen

a
o
e
para en su comportamiento del recogido por la regresin sobre las restantes
o
N 1 observaciones. Lo contrario es cierto si di es muy grande.
Hay una relacin muy simple que permite calcular los di sin necesidad
o
de realizar N regresiones diferentes sobre todos los conjuntos posibles de
1
Vase Theil (1971), pg. 202 y ss.

e
a
Una denominacin alternativa frecuente en la literatura es la de residuos PRESS
o
(predictive sum of squares residuals).
2
CAP
170
N 1 observaciones. En efecto, de (11.15) se deduce que:
di = yi xi (X(i) X(i) )1 X(i) Y
(i)
= yi xi [(X X) xi xi ]
X(i) Y
(11.16)
(i)
(X X)1 xi xi (X X)1
X(i) Y (i)
(11.17)
1 xi (X X)1 xi
(1 pii )(X X)1 + (X X)1 xi xi (X X)1
= yi xi
X(i) Y (i)
1 pii
(1 pii )xi (X X)1 + pii xi (X X)1
= yi
X(i) Y (i)
1 pii
= yi xi (X X)1 +
=
=
=
=
xi (X X)1 X(i) Y (i)

yi
1 pii
(1 pii )yi xi (X X)1 (X Y xi yi)
1 pii
1
yi xi (X X) X Y
1 pii
i
1 pii
(11.18)
(11.19)
en que el paso de (11.16) a (11.17) hace uso del Teorema A.2, pg. 221.
a
Veremos en lo que sigue que di est relacionado con la inuencia que la
a
observacin i-sima tiene sobre la estimacin de los parmetros.
o
e
o
a
11.2.
Anlisis de inuencia.
a
Es en general indeseable que la estimacin de un parmetro dependa de

o
a
modo casi exclusivo de una sola observacin o de unas pocas, de manera que
o
su eliminacin conduzca a resultados completamente diferentes. En general,
o
cuando esto ocurre, es necesario particionar la muestra o replantear el modelo. En todo caso, es necesario saber hasta que punto observaciones aisladas
inuencian las estimaciones de los parmetros para obrar en consecuencia.
a
Puede parecer que para determinar qu observaciones inuyen ms en el
e
a
resultado de la estimacin basta mirar los residuos, brutos o studentizados.
o
Ello es verdad, pero slo en parte: puede haber observaciones extraordinao
riamente inuyentes que resulten muy bien ajustadas por la regresin, como
o
el ejemplo de la Fig. 11.1 pone de maniesto.
Claramente, el punto a tiene una notable inuencia en la estimacin
o
de la pendiente de la recta, hasta el punto de que su omisin dar lugar
o
a
CAP
171
Figura 11.1: Una observacin como a tiene residuo borrado muy grande, y
o
gran inuencia en la pendiente de la recta de regresin.
o
10
15
20
25
30
10
20
30
40
a un resultado completamente diferente (la recta dibujada con trazo discontinuo). Sin embargo, su residuo MCO es muy pequeo; un exmen de
n
a
los residuos MCO o incluso de los residuos studentizados dif
cilmente
delatar ninguna anormalidad.
a
El examen de los residuos borrados detectar una situacin como la
a
o
mencionada: a tendr un residuo borrado grande. Pero todav es posible un
a
a
anlisis ms sosticado, que tenga en cuenta, en particular, los parmetros
a
a
a
sobre los que una observacin es muy inuyente. Abordamos este anlisis a
o
a
continuacin.
o
La curva de inuencia muestral.

La forma obvia de examinar la inuencia de la observacin i-sima cono
e
siste en comparar los vectores de estimadores obtenidos con y sin dicha
observacin: y (i) respectivamente. En consecuencia, denimos la curva
o
de inuencia muestral (SIC) as
:

SICi = (N 1)( (i) ).
(11.20)
CAP
172
El factor (N 1) tiene por misin corregir el efecto del tamao muestral:

o
n
en igualdad de todo lo dems, una observacin altera la estimacin tanto
a
o
o
menos cuanto ms grande sea la muestra.
a
La expresin (11.20) es vector-valorada: recoge, debidamente amplicao
das por (N 1), por la razn apuntada, las diferencias que introduce la
o
inclusin de la observacin i-sima sobre cada uno de los p parmetros estio
o
e
a
mados. Podemos relacionar (11.20) con el residuo borrado i-simo haciendo
e
uso del siguiente lema.
Lema 11.1 Se verica que
(X X)1 xi i

= (X X)1 xi di .
( (i) ) =
(1 pii )
(11.21)
Demostracion:

( (i) ) = (X X)1 X Y ((X X) xi xi )1 (X Y xi yi)
= (X X)1 X Y
(X X)1 +
(X X)1 xi xi (X X)1
(X Y xi yi)
1 x
1 xi (X X) i
(X X)1 xi xi (X X)1 X Y
1 pii
(X X) xi xi (X X)1 xi yi
+
1 pii
1
(X X) xi
=
(1 pii )yi xi + pii yi
1 pii
i
= (X X)1 xi
1 pii
= (X X)1 xi yi
En consecuencia,

SICi = (N 1)( (i) ) = (N 1)(X X)1 xi
i
1 pii
y el clculo de la curva de inuencia muestral SICi correspondiente a la oba

servacin i no requiere realizar una regresin para cada i; todos los clculos
o
o
a
se se pueden hacer con ayuda de los residuos ordinarios y diagonal de la matriz de proyeccin correspondientes a la matriz de proyeccin X(X X)1 X .
o
o
Diferentes versiones de la curva de inuencia disponibles en regresin
o
lineal puede encontrarse en Cook and Weisberg (1982) y Belsley et al. (1980).
Alternativas como la curva de inuencia emp
rica EIC y otras, dieren de
CAP
173
la curva de inuencia muestral presentada en el grado en que se corrige i
2
(en la EIC se divide entre (1 pii ) , en lugar de entre (1 pii ) como en
(11.22).
Distancia de Cook.
Tal y como se indica ms arriba, la curva de inuencia en cualquiera de
a
sus versiones es, en nuestro caso, un vector p1 (p = nmero de parmetros).
u
a
La coordenada k-sima de SICi proporciona informacin sobre la inuencia
e
o
k . Aunque esta informacin
de la observacin i-sima en la estimacin de
o
e
o
o
pormenorizada sea util, en ocasiones queremos una unica medida resumen
de la inuencia de una observacin.

o
(i) el vector de estimadores obtenido sin hacer uso de la observacin
Sea
o
el computado con la muestra completa. Una posibilidad es
i-sima, y
e
ponderar las discrepancias en una unica expresin como:
o
Di =

( (i) ) S( (i) )
c
(11.22)
siendo S una matriz denida no negativa y c una constante positiva. Puesto
que ( , 2 (X X)1 ), una eleccin posible que aproximadamente noro
maliza (11.22) es: S = (X X) y c = p 2 . Con esta eleccin, la expresin
o
o
(11.22) se denomina distancia de Cook y es una medida global de la inuencia de la observacin (xi , yi ). Hay otras posibles elecciones de S y c
o
con diferencias, en general, slo de matiz3 .
o
Haciendo uso del Lema 11.1 tenemos que la distancia de Cook puede
escribirse as
:
i xi (X X)1 (X X)(X X)1 xi i
2 (1 p )2
p
ii
1 2 pii
=
r
p i 1 pii
Di =
(11.23)
(11.24)
siendo ri el i-simo residuo internamente studentizado.

e
DFFITS.
Se denen as
:
DFFITi = ti
3
pii
1 pii
(11.25)
Una relacin de las mismas puede verse en Cook and Weisberg (1982), p. 124.
o
CAP
174
Se suele considerar observaciones inusuales a aqullas con

e
| DFFITi | > 2
p
N
(11.26)
DFBETAS.
Se denen por:
DFBETAij =
j j,(i)
(X X)1
jj
(11.27)
Los estad
sticos DFBETA permiten evaluar la inuencia de la observacin i-sima sobre el parmetro j-simo. En cierto modo desglosan la
o
e
a
e
informacin que la distancia de Cook resume en un unico estad
o
stico por
observacin. La motivacin de la expresin (11.27) es clara: la diferencia
o
o
o
entre la estimacin de j -simo con y sin la observacin i-sima se divide
o
e
o
e
j .
por una estimacin de la desviacin t
o
o pica de
El criterio que se sigue es el de comparar |DFBETAij | con 2/ N . Ms

a
detalles en Belsley et al. (1980).
11.3.
Anlisis grco de residuos

a
a
Al margen del uso que pueda hacerse de los residuos en cualquiera de sus
variedades para, por ejemplo, contrastar hiptesis de presencia de outliers,
o
etc., con frecuencia ser conveniente construir algunos grcos. Es mucha, en
a
a
efecto, la informacin que cabe obtener de ellos. Presentamos a continuacin
o
o
algunos de estos grcos; otros aparecern en contexto en los cap
a
a
tulos
dedicados a seleccin de modelos (Cap
o
tulo 12) y transformaciones de las
variables (cap
tulo 13). Referencias utiles para ampliar lo que se expone
a continuacin incluyen Trocniz (1987a), Myers (1990), Ryan (1997) o

o
o
Atkinson (1985).
Grcos de residuos frente a

a
ndice de observacin (i, i)
o
Frecuentemente, el
ndice de cada observacin es el tiempo, es decir, las
o
observaciones han sido tomadas secuencialmente una despues de otra. El
representar i frente a i nos podr poner de maniesto rupturas tempoa
rales por ejemplo, una brusca disminucin del tamao de los residuos a
o
n
partir de un cierto i. En ocasiones podemos ver tambin en un grco de
e
a
CAP
175
esta naturaleza pautas como agrupamiento de residuos, que puede convenir

investigar.
Pueden emplearse residuos ordinarios o studentizados en cualquiera de
sus variedades.
Grcos de residuos frente a variables incluidas (xij , i)

a
Los residuos ordinarios son por construccin ortogonales a cualquiera

o
de los regresores. No obstante, un grco de esta naturaleza puede aportar
a
informacin acerca del modo en que un regresor interviene en la generacin
o
o
de la respuesta: por ejemplo, podr
amos ver una pauta de relacin no lio
neal entre i y xij , sugiriendo que xij debe suplementarse con un trmino
e
cuadrtico, entrar como funcin exponencial, etc.
a
o
Grcos de residuos frente a variables excluidas (x , i)

a
ij
La idea es similar a la del apartado precedente, pero x son ahora los
ij
valores de una variable no incluida (y candidato a serlo) en la regresin.
o
Un grco de esta naturaleza permitir ver si la parte no explicada de la
a
a
respuesta (los residuos) tiene alguna relacin evidente con la nueva variable.
o
En su caso, dependiendo de la pauta que dibujaran los residuos, tendr
amos
pistas acerca de si dicha variable x j ha de incluirse tal cual o tras alguna

transformacin funcional.
o
Grcos de variable a adida (Y |Xj , Xj |Xj )

a
n
La idea es similar a la del apartado anterior. Se dibujan los residuos

de la regresin de Y sobre todas las variables menos Xj sobre los residuos
o
de regresar dicha variable sobre todas las dems. Los residuos de ambas
a
regresiones recogen, respectivamente, las partes de Y y Xj ortogonales al
subespacio generado por las restantes variables.
Si hubiera alguna pauta en dicha grca, podr
a
amos interpretarla como
relacin entre Y y Xj eliminado en ambas el efecto de las restantes variables.
o
Grcos de normalidad de residuos

a
Aunque, como se ha visto (Seccin 11.1 y siguiente), los residuos stuo
dentizados no siguen una distribucin normal, a efectos prcticos y para
o
a
tamaos muestrales moderados (Trocniz (1987a), pg. 174, indica que suen
o
a
le bastar N > 20) la aproximacin a la normalidad es muy buena, si las
o
perturbaciones son a su vez normales.
CAP
176
Hay multitud de pruebas utilizables para contrastar ajuste a una distribucin. La de Kolmogorov-Smirnov (vase Trocniz (1987b), pg. 255)
o
e
o
a
es de uso general con muestras grandes y distribuciones continuas lo que
incluye a la normal. Hay contrastes como el de Shapiro-Wilk descrito en
Shapiro and Wilk (1965) y Shapiro and Francia (1972), especializados en el
contraste de la hiptesis de normalidad.
o
Tan util como pueda ser una prueba estadistica convencional de normali
dad, en ocasiones es util un instrumento que permita visualizar la naturaleza
y alcance de la desviacin respecto a la normalidad, si existe. Los grcos

o
a
en papel normal cumplen esta nalidad.
El principio es muy simple: dada una muestra {xi }N , si procede de una
i=1
distribucin normal los puntos (1 (F (xi )), xi ), en que F (xi ) es la funo
cin de distribucin emp
o
o
rica de la muestra, deben estar aproximadamente
alineados. Vase por ejemplo Trocniz (1987b), pg. 270.
e
o
a
El grco puede hacerse manualmente sobre papel especial (papel nora
mal) en que la escala vertical absorbe la transformacin 1 (.); o puede
o
hacerse mediante ordenador en cuyo caso basta facilitar los datos y vericar
la linealidad del grco resultante.
a
En cualquiera de los casos se cuenta con un instrumento que permite no
slo apreciar si hay desviaciones respecto de la normalidad, sino tambin
o
e
de qu naturaleza son y a qu puntos afectan.
e
e
R: Ejemplo 11.1 (grcos para contraste de normalidad de
a
residuos)
La Figura 11.2 se genera mediante el fragmento de cdigo reo
producido a continuacin. Los dos primeros paneles recogen sendos
o
grcos de normalidad para una muestra normal y una muestra proa
cedente de una F1,2 ; puede verse la llamativa desviacin de la noro
malidad en este ultimo caso.
>
>
>
>
>
>
>
>
>
+
+

muestra <- rnorm(200)
qqnorm(muestra, main = "Q_Q Plot de\n 200 obs. N(0,1)")
muestra <- rf(200, 1, 2)
qqnorm(muestra, main = "Q-Q Plot de\n 200 obs. F con 1,2 g.l.")
rm(muestra)
library(MASS)
data(UScrime)
modelo <- lm(y ~ M + Ed +
Po1 + M.F + U1 + U2 +
Prob + Ineq, data = UScrime)
CAP
177
Figura 11.2: Grcos para contraste de normalidad

a
1 0
150
0 50
Sample Quantiles
2
1
1
3
Sample Quantiles
250
QQ Plot de
200 obs. F con 1,2 g.l.
Q_Q Plot de
200 obs. N(0,1)
1 0
Theoretical Quantiles
Q_Q Plot residuos

int. studentizados
Q_Q Plot residuos

ext. studentizados
2 1
2
1
0
2
Sample Quantiles
2
1
0
2
Sample Quantiles
2 1
> qqnorm(stdres(modelo), main = "Q_Q Plot residuos\n int. studentizados

> qqnorm(studres(modelo), main = "Q_Q Plot residuos\n ext. studentizado
X11cairo
2
Los siguientes dos paneles muestran los grcos de normalidad
a
correspondientes a los residuos interna y externamente studentizados
de un mismo modelo. Puede constatarse que son casi idnticos y que
e
sugieren un buen ajuste de la muestra a la hiptesis de normalidad.
o
Fin del ejemplo
CAP
178
Grcos de residuos ordinarios frente a residuos borraa

dos (di, i )
Un residuo borrado grande no necesariamente es indicativo de que una

observacin sea muy inuyente. Lo realmente sintomtico es una gran dio
a
vergencia entre el residuo ordinario y el residuo borrado, pues ello indica
que al omitir la observacin correspondiente los resultados var mucho, al
o
an
menos en el ajuste de la observacin i-sima.
o
e
Por ello se propone como grco util en el diagnstico de un modelo el
a
o
de i frente a di . En general, deber
amos observar puntos aproximadamente

sobre la bisectriz: di i . Puntos muy separados de la bisectriz correspon
der a observaciones que alteran sustancialmente la regresin.
an
o
CAP
2
11.1 Demustrese que ri /(N p), bajo los supuestos habituae
1
les ms normalidad, sigue una distribucin beta, B( 2 , 1 (N p 1)).
a
o
2
179
Cap
tulo 12
Seleccin de modelos.
o
12.1.
Criterios para la comparacin.

o
En ocasiones, ajustamos un modelo de regresin teniendo una idea clara

o
de las variables que debemos incluir como regresores. Es ms frecuente, sin
a
embargo, el caso en que slo tenemos una idea aproximada de la forma
o
adecuada para nuestro modelo, y debemos decidir con criterio estad
stico
qu regresores deben ser incluidos.
e
Para enfrentar este tipo de situaciones necesitamos, por una parte, criterios de bondad de ajuste, capaces de permitirnos comparar distintos modelos
ajustados a una misma muestra. Por otra, necesitamos estrategias de seleccin de variables que construyan de manera automtica o semi-automtica
o
a
a
subconjuntos de todos los modelos posibles susceptibles de incluir el mejor.
Examinaremos en esta Seccin el primer punto.
o
Es claro que no podemos preferir un modelo a otro simplemente porque
su SSE es menor, dado que toda1 variable que incluyamos en la regresin,
o
tenga mucha o poca relacin con la variable respuesta, reducir SSE. Teo
a
nemos, pues, que buscar criterios ms elaborados.
a
2
Maximizacin de Rp .
o
Se dene el coeciente de determinacin corregido as
o
:
2
2
Rp = 1 [1 Rp ]
1
N 1
N p
(12.1)
Las unicas excepciones son aquellas variables correspondientes a columnas de la
matriz de diseo X ortogonales a y, o que son combinacin lineal exacta de columnas

n
o
correspondientes a variables ya presentes entre los regresores.
180

CAP
ITULO 12. SELECCION DE MODELOS.
181
haciendo referencia el sub

ndice p al nmero de regresores presentes en el
u
modelo. Si reescribimos la ecuacin (12.1) en la forma:
o
2
N 1
N p
SSEp N 1
=
SST
N p
2
1 Rp = [1 Rp ]
(12.2)
(12.3)
vemos que mientras que el primer trmino de la derecha de (12.3) es mone

o
tono no creciente con p, el segundo es montono creciente. Por consiguiente,
o
el producto de ambos2 puede crecer o decrecer al crecer p.
2
Es frecuente por ello utilizar Rp como criterio de ajuste. Aunque util,

veremos sin embargo que debe complementarse con otros criterios. Su exclusiva aplicacin da lugar con gran probabilidad a modelos sobreparameo
trizados, como pone de maniesto el siguiente teorema.
2
Teorema 12.1 El estad

stico Rp crece con la introduccin de un parmetro
o
a
en la ecuacin de regresin si el estad
o
o
stico Qh asociado al contraste de
signicacin de dicho parmetro verica Qh > 1.
o
a
Demostracion:3
Para contrastar la signicacin del (p + 1)-simo parmetro, empleamos
o
e
a
(Seccin 6.2, pg. 72):
o
a
Qh =
=
SSEp SSEp+1 N p 1
SSEp+1
1
(12.4)
2
2
(Rp+1 Rp ) N p 1
2
1 Rp+1
1
(12.5)
de donde:
2
2
2
(1 Rp+1 )Qh = (Rp+1 Rp )(N p 1)
(12.6)
2
2
Qh + (N p 1)Rp = Rp+1 [(N p 1) + Qh ]
(12.8)
2
2
2
Qh Qh Rp+1 = (N p 1)Rp+1 (N p 1)Rp (12.7)
Expresiones como la anterior con un trmino funcin de la suma de cuadrados de

e
o
los residuos y otro interpretable como penalizacin por la introduccin de parmetros
o
o
a
adicionales, son ubicuas en la literatura estad
stica. La Cp de Mallows que se examina
ms abajo tiene la misma forma, como muchos criterios de ajuste utilizados sobre todo
a
en el anlisis de series temporales: Criterio de Informacin de Akaike (AIC), FPE, BIC,
a
o
etc.
3
Sigue a Haitovsky (1969).

CAP
182
2
Despejando Rp+1 tenemos:
2
Rp+1 =
2
Qh + (N p 1)Rp
(N p 1) + Qh
(12.9)
1
2
Q + Rp
N p1 h
1
1 + N p1 Qh
(12.10)
De (12.10) y de la denicin de Rp+1 se deduce que:

o
2
2
Rp+1 = 1 [1 Rp+1 ]
N 1
(N p 1)
(12.11)
Sustituyendo en esta expresin (12.10) llegamos a:

o
2
Rp+1
= 1
2
[1 Rp ]
N p1+Qh
N p1
N 1
N p1
(12.12)
N 1
N p 1 + Qh
N p
2 N 1
= 1 [1 Rp ]
N p N p 1 + Qh
2
= 1 [1 Rp ]
(12.14)
Rp
2
(12.13)
Es evidente de (12.14) que Rp+1 Rp si Qh > 1, y viceversa4 . Ma2

ximizar Rp implica introducir en la ecuacin de regresin todos aquellos
o
o
regresores cuyo estad
stico Qh sea superior a la unidad; pero esto ocurre
con probabilidad 0,50 incluso cuando h : i = 0 es cierta. Consecuentemente, el emplear este criterio en exclusiva conducir con gran probabilidad
a
al ajuste de modelos sobreparametrizados.
Criterio Cp de Mallows.
Supongamos que la variable aleatoria Y se genera realmente como
prescribe el modelo Y = X + , no obstante lo cual ajustamos el modelo
equivocado Y = X + con p parmetros. Una vez estimado, dicho modelo

a
suministra las predicciones Y (p) . Un criterio para evaluar la adecuacin del

o
modelo estimado al real, ser el error cuadrtico medio
a
a
ECM = E(Y (p) X ) (Y (p) X )
(12.15)
Obsrvese que si el trmino t en (12.14) fuera la unidad lo que acontece cuando

e
e
2
Qh = 1, el lado derecho ser precisamente Rp . Si Qh > 1, t es menor que 1 y, como
a
2
slo multiplica al sustraendo en (12.14), el resultado es mayor que Rp .

o

CAP
183
que sumando y restando E(Y (p) ) dentro de cada parntesis podemos dese
componer as
:
ECM = E (Y (p) E(Y (p) )) (Y (p) E(Y (p) ))
+E (E(Y (p) ) X ) (E(Y (p) ) X )
= Var(Y (p) ) + (Sesgo)2 .
(12.16)
(12.17)
El primer trmino no ofrece dicultad. Como

e
Y (p) = X(X X)1 X Y = X(X X)1 X (X + ),

tenemos que
(12.18)
E[Y (p) ] = X(X X)1 X X
((Y (p) E(Y (p) )) ((Y (p) E(Y (p) )) = X(X X)1 X X(X X)1 X

= X(X X)1 X
2 2 .
p
(12.19)
Falta el trmino de sesgo. Observemos que

e
E[(Y Y (p) ) (Y Y (p) )] = E (X X(X X)1 X X ) (X X(X X)1 X X )

SSE
(Sesgo)2
E (I X(X X) X ) .
Por consiguiente,
(Sesgo)2 = E[SSE] E[ 2 2 p ].
N
(12.20)
Sustituyendo en (12.17) tenemos entonces que

ECM = E SSE 2 2 p + E 2 2
p
N
= E[SSE] 2 (N p) + 2 p,
(12.21)
(12.22)
y por consiguiente:
ECM
SSE
=E
N + 2p.
2
(12.23)
Minimizar esta ultima expresin es lo mismo que minimizar
o
E
SSE
+ 2p,
2
(12.24)

CAP
184
ya que N es constante. Como quiera que el valor medio en la expresin

o
anterior no puede ser calculado y es desconocida, todo lo que podemos
hacer es reemplazar (12.24) por la expresin anloga,
o
a
Cp =
SSE
+ 2p.
2
(12.25)
A esta ultima expresin se la conoce como Cp de Mallows.
o
Para que se verique la aproximacin en (12.25) es preciso que 2
o
2
, lo que se consigue si la muestra es lo sucientemente grande y 2 =
SSE (N pk) /(N p k), estando entre los (p + k) regresores inclu

dos los
p necesarios. Incluso aunque entre dichos (p + k) regresores haya algunos
innecesarios, 2 es insesgado; el precio que se paga por emplear ms par
a
a
2
metros de los debidos en la estimacin de es una reduccin en el nmero
o
o
u
de grados de libertad (vase Seccin 5.2).
e
o
De acuerdo con el criterio de Mallows, seleccionaremos el modelo que
minimice Cp . La expresin (12.25) es otro ejemplo de criterio de ajuste con
o
penalizacin. Cada nuevo parmetro que introducimos, reduce quiz SSE,
o
a
a
pero esta reduccin tiene un precio: el incremento del segundo sumando de
o
(12.25) en 2. El efecto neto indica si el nuevo regresor es o no deseable.
Observacin 12.1 De acuerdo con el criterio Cp de Mallows,
o
dada una ecuacin de regresin con unos ciertos regresores presentes,
o
o
introduciremos un nuevo regresor si ste puede pagar su inclusin
e
o
reduciendo SSE en, al menos, dos veces 2 . La maximizacin de
o
2
Rp , en cambio, requerir en anloga situacin introducir el mismo
a
a
o
regresor si disminuye SSE en al menos una vez 2 . El criterio Cp de
5.
Mallows es ms restrictivo
a
Observacin 12.2 Un estad

o
stico se enfrenta con frecuencia a
este dilema en su trabajo. Hasta dnde procede llevar la complejidad
o
del modelo a emplear? Qu mejora en el ajuste de un modelo a la
e
muestra justica la adicin de un nuevo parmetro?. O, si se preere,
o
a
Cun alada debe ser la navaja de Ockham? En el caso del modelo
a
de regresin lineal, el criterio Cp suministra seguramente una navaja
o
con el lo adecuado; argumentos alternativos llevan a criterios equivalentes o similares al Cp . Es un hecho notable y llamativo que por
5
La comparacin es aproximada tan slo. El valor de 2 que se emplea en el criterio

o
o
Cp se obtiene, t
picamente, ajustando el modelo ms parametrizado (esto minimiza el riesa
go de introducir sesgos en la estimacin de 2 , aunque seguramente nos hace despilfarrar
o
2
algunos grados de libertad). Por el contrario, al utilizar el criterio basado en Rp introducimos el nuevo regresor si Qh > 1 en (12.4), es decir, si la disminucin SSEp SSEp+1
o
en la suma de cuadrados de los residuos es mayor que 2 = SSEp+1 /(N p1), varianza
estimada en el modelo con p + 1 regresores.

CAP
185
diversas v se llegue siempre a anlogos resultados, que tienen en

as
a
com n el medir la complejidad del modelo empleado como una funu
cin lineal o aproximadamente lineal del n mero de sus parmetros;
o
u
a
ms sobre esto en la Seccin 12.1. En la Seccin 12.1 se introduce la
a
o
o
idea de la validacin cruzada, que proporciona una forma alternativa
o
de evaluar la bondad de ajuste de un modelo soslayando el empleo
de una penalizacin basada en el n mero de parmetros.
o
u
a
Criterio AIC
Relacionado con el criterio Cp de Mallows, aunque vlido de modo mua
cho ms general y motivado de modo muy diferente, est el criterio AIC
a
a
(Akaikes Information Criterion, o An Information Criterion). Consiste en
seleccionar el modelo minimizando
a
AIC(p) = 2 loge mx verosimilitud(x , ) + 2p
El primer trmino en la expresin anterior es, como en la Cp de Mallows,

e
o
una medida de bondad de ajuste (disminuye al crecer el mximo de la
a
verosimilitud); el segundo penaliza el nmero de parmetros en . Puede
u
a
verse una justicacin en Akaike (1972) (y en Akaike (1974), Akaike (1991)).
o
Una explicacin simplicada que sigue esencialmente a de Leeuw (2000)
o
puede encontrarse en Tusell (2003), Seccin ??.
o
Cuando consideremos modelos de regresin lineal con normalidad, el
o
uso de los criterios AIC y Cp dar resultados exactamente equivalentes si
a
conociramos 2 (ambos criterios dieren en tal caso en una constante; ver
e
Venables and Ripley (1999a), pg. 185). Cuando 2 es desconocida y ha de
a
ser estimada a partir de los datos, ambos criterios pueden diferir, pero son a
efectos prcticos intercambiables. El criterio AIC no obstante es de ambito
a
mucho ms general, y puede ser utilizado dondequiera que tengamos una

a
verosimilitud, sea o no normal la distribucin generadora de la muestra.
o
Residuos borrados y validacin cruzada

o
Hemos visto que el problema de emplear como criterio para la seleccin
o
de modelos alguno de los estad
sticos de ajuste obvios (suma de cuadrados
residual, R2 , o similar) estriba en que hay que tomar en consideracin el
o
diferente nmero de parmetros en cada modelo.
u
a
El problema consiste en que, al incrementar el nmero de parmetros,
u
a
el modelo puede seguir ms a la muestra, ajustando no slo el comportaa
o
miento predecible sino incluso el puramente aleatorio Se adapta muy bien

CAP
186
a una muestra la que hemos empleado para estimarlo, pero quiz no a

a
otras.
Una solucin consistir en estimar los modelos con una muestra (mueso
a
tra de entrenamiento o aprendizaje) y evaluarlos examinando su comportamiento en la prediccin de otra diferente (muestra de validacin). Actuando
o
o
as estar
,
amos a salvo de impresiones excesivamente optimistas: la suma de
cuadrados de los residuos o R2 que calculramos para cada modelo reejar
a
a
su capacidad de generalizacin: su comportamiento con otras observaciones
o
distintas de las que han servido para estimarlo.
Lamentablemente, esto requiere dividir nuestra disponibilidad de observaciones en dos grupos: uno para estimar y otro para validar. El obtener
un diagnstico realista por este procedimiento requiere sacricar en aras de
o
la validacin una preciosa fraccin de muestra que habr permitido, quiz,
o
o
a
a
estimar mejor.
Realmente es esto as No; una vez que hemos decidido por el procedi?
miento anterior de fraccionar la muestra en dos para seleccionar el modelo
mejor, podemos emplear todas las observaciones en reestimarlo.
La idea de la validacin cruzada incorpora una mejora adicional al plano
teamiento anterior. No tenemos necesariamente que usar slo una fraccin
o
o
de la muestra para validar. Podemos dividir la muestra en dos (o ms) para
tes y emplear todas ellas en la validacin. El ejemplo que sigue detalla los
o
pasos a seguir haciendo validacin cruzada por mitades.
o
Ejemplo 12.1 Consideremos una muestra de tama o N = 100.
n
Tenemos una coleccin de K modelos Mi , i = 1, . . . , K, posiblemeno
te con diferente n mero de parmetros, de entre los que queremos
u
a
seleccionar uno. Podemos dividir la muestra en dos trozos, A y B,
de tama os respectivos NA = NB = 50, y proceder as
n
:
1. Con la muestra A estimaremos cada uno de los modelos Mi .
2. Examinaremos el ajuste de los modelos as estimados a la mues

tra B, computando sumas de cuadrados residuales para cada
(A)
uno de los modelos, SSEi .
3. Con la muestra B estimaremos cada uno de los modelos Mi .
4. Examinaremos el ajuste de los modelos as estimados a la mues

tra A, computando sumas de cuadrados residuales para cada
(B)
uno de los modelos, SSEi
(A)
(B)
5. Tanto SSEi como SSEi son estimaciones de las sumas de

cuadrados de los residuos del modelo Mi , cuando se utiliza en
prediccin sobre una muestra diferente de la que se ha empleado
o
en su estimacin. Podemos promediar ambas para obtener un
o
(A)
(B)
1
unico estad
stico, SSEi = 2 (SSEi + SSEi ).

CAP
187
6. Seleccionaremos el modelo Mi tal que SSEi es m

nimo.
Observemos que nada nos constri e a dividir la muestra en dos partes;

n
podr
amos dividirla en s partes, y proceder exactamente del mismo
modo: utilizar
amos sucesivamente s 1 partes para estimar y la
()
restante para evaluar SSEi , = 1, . . . , s, (suma de cuadrados de los
residuos al predecir en la muestra mediante el modelo Mi estimado
()
con las restantes observaciones). Promediando los s valores SSEi
obtendr
amos el SSEi del modelo Mi .
El caso extremo consistir en tomar s = N , y realizar el proceso
a
dejando cada vez fuera una unica observacin (validacin cruzada de
o
o
tipo leave one out).
En muchas situaciones esta estrategia puede requerir un esfuerzo
de clculo formidable: cada modelo ha de ser reestimado (N 1)
a
veces, dejando cada vez fuera de la muestra de estimacion una observacin diferente! En regresin lineal, sin embargo, la diferencia
o
o
entre la prediccin de la observacin i-sima haciendo uso de todas
o
o
e
las restantes y el valor observado de la misma es, simplemente, el
residuo borrado, de cmoda y rpida obtencin (vase Seccin 11.1).
o
a
o
e
o
Por tanto, utilizando la notacin de dicha Seccin,
o
o
SSEi = d2
( = 1, . . . , N )
N
SSEi .
SSEi = N 1
=1
El modelo seleccionado es aqul al que corresponde un SSEi ms

e
a
peque o6 .
n
Fin del ejemplo
Complejidad estocstica y longitud de descripcin m

a
o
nima
En esencia, seleccionar un modelo entraa adoptar un compromiso enn
tre la bondad de ajuste y la complejidad, medida por el nmero de sus
u
parmetros. Sabemos que un modelo lineal sucientemente parametrizado
a
podr ajustar perfectamente la muestra, pero que ello no signica que sea
a
idneo: puede tener muy poca capacidad de generalizacin. Por el contrario,
o
o
un modelo que no incluya los parmetros sucientes dara un ajuste suscepa
tible de mejora. Se trata de alcanzar un equilibrio entre los dos objetivos en
6
Ntese que SSEi es lo que se conoce tambin como suma de cuadrados de los
o
e
residuos predictiva o PRESS; vase nota a pie de pgina de la Seccin 11.1.
e
a
o

CAP
188
contradiccin: un modelo dando buen ajuste y con los m

o
nimos parmetros
a
precisos.
Una aproximacin intuitivamente atrayente al problema es la siguiente:
o
tratemos de dar una descripcin tan corta como sea posible de la evidencia
o
(la muestra). Esto puede de nuevo verse como una apelacin al principio de
o
Ockham: construir explicaciones de la realidad que hacen uso del m
nimo
nmero de entidades.
u
La aproximacin propuesta exige medir la longitud de la descripcin que
o
o
hagamos, y podemos para ello hacer uso de la Teor de la Informacin. No
a
o
podemos elaborar esta cuestin con detalle aqu (vase una buena introo
e
duccin en Rissanen (1989), y detalles en Legg (1996)). En esencia, dado
o
un modelo probabilistico podemos describir o codicar unos datos de modo
compacto asignando a los ms raros (menos probables) los cdigos ms
a
o
a
largos.
Observacin 12.3 Esta estrategia, de sentido com n, es la
o
u
que hace que al codicar en el alfabeto telegrco de Morse la lea
tra e (muy frecuente en ingls) se adoptara el cdigo ., reservando
e
o
los cdigos ms largos para caracteres menos frecuentes (ej: -..o
a
para la x).
Adems de codicar los datos tenemos que codicar los parmetros del
a
a
modelo probabilistico. La longitud total de descripcin de la muestra y
o
cuando hacemos uso del modelo probabil
stico Mk haciendo uso del vector
de parmetros k es entonces
a
MDL(Mk ; y ) = (Cdigo necesario para y )
o
+
(12.26)
(Cdigo necesario para k ). (12.27)

o
Un mal ajuste har que el primer sumando sea grande; los datos muestrales
a
se desv mucho de lo que el modelo predice. Un modelo con un perfecto
an
ajuste tendr un primer sumando nulo (porque las y se deducir exactaa
an
mente del modelo, y no requerir ser codicadas), pero requerir quiz
an
a
a
muchos parmetros incrementando el segundo sumando.
a
El criterio MDL propone seleccionar el modelo Mk que minimiza (12.27).
En el caso de modelos de regresin, el criterio MDL da resultados
o
ntimamente emparentados asintticamente con los precedentes (suma de cuadrados
o
PRESS y Cp ); vanse detalles en Rissanen (1989), Cap. 5.
e

CAP
12.2.
189
Seleccin de variables.
o
Una aproximacin ingenua al problema consistir en estudiar la reduco

a
2
o
cin en un cierto criterio (SSE, Rp , Cp , . . . ) originada por la introduccin
o
de cada variable, y retener como regresores todas aquellas variables que dieran lugar a una reduccin signicativa. Desgraciadamente, esta estrategia
o
no tiene en cuenta el hecho de que, a menos que las columnas de la matriz
de diseo X sean ortogonales, la reduccin en SSE originada por la inclun
o
sin de una variable depende de qu otras variables estn ya presentes en
o
e
e
la ecuacin ajustada.
o
Se impone, pues, emplear procedimientos ms sosticados. Relacionaa
mos algunos de los ms utilizados.
a
Regresin sobre todos los subconjuntos de variables.

o
De acuerdo con el prrafo anterior, la adopcin de una estrategia ingenua
a
o
podr dicultar el hallazgo de un modelo adecuado. Por ejemplo, puede
a
bien suceder que una variable Xi , que debiera ser inclu en el modelo, no
da
origine una reduccin signicativa de SSE cuando la introducimos despus
o
e
de Xj . Si esto ocurre, es claro que Xi no mostrar sus buenas condiciones
a
como regresor mas que si es introducida con Xj ausente.
Una posible solucin ser dados p regresores, formar todos los posio
a,
bles subconjuntos de regresores y efectuar todas las posibles regresiones,
reteniendo aqulla que, de acuerdo con el criterio de bondad de ajuste que
e
hayamos adoptado, parezca mejor.
El inconveniente es el gran volumen de clculo que es preciso realizar.
a
Pinsese que con p regresores pueden estimarse 2p 1 diferentes regresiones.
e
Si p = 5, 2p 1 = 31; pero si p = 10, 2p 1 = 1023, y para p > 20 habr
a
que realizar por encima de un milln de regresiones. Hay procedimientos
o
7
para reducir y agilizar el clculo , pero an as ste puede resultar excesivo.
a
u
e
Regresin escalonada (stepwise regression).

o
Se trata de un procedimiento muy utilizado que, aunque no garantiza obtener la mejor ecuacin de regresin, suministra modelos que habitualmente
o
o
son ptimos o muy prximos al ptimo, con muy poco trabajo por parte
o
o
o
del analista. Describiremos el procedimiento de regresin escalonada hacia
o
adelante (forward selection procedure); la regresin escalonada hacia atrs
o
a
(backward elimination) o mixta son variantes fciles de entender.
a
7
Vase Seber (1977), pag. 349 y ss.

e

CAP
190
En cada momento, tendremos una ecuacin de regresin provisional, que

o
o
incluye algunas variables (regresores incluidos) y no otras (regresores ausentes). Al comienzo del procedimiento, la ecuacin de regresin no incluye
o
o
ningn regresor. El modo de operar es entonces el siguiente:
u
1. Calcular los estad
sticos Qh para todos los regresores ausentes (h : i =
0).
2. Sea Q el mximo estad
a
stico de los calculados en 1). Si Q < F ,
h
h
siendo F un umbral prejado, nalizar; la ecuacin provisional es
o
la denitiva. Si, por el contrario, Q F , se introduce la variable
h
correspondiente en la ecuacin de regresin.
o
o
3. Si no quedan regresores ausentes, nalizar el procedimiento. En caso
contrario, reiniciar los clculos en 1).
a
En suma, se trata de introducir las variables de una en una, por orden
de mayor contribucin a disminuir SSE, y mientras la disminucin sea
o
o
apreciable.
El procedimiento de regresion hacia atrs procede de manera anloga,
a
a
pero se comienza con una ecuacin que incluye todos los regresores, y se
o
van excluyendo de uno en uno, mientras el incremento en SSE que dicha
exclusin origine no sea excesivo. En el procedimiento m
o
xto, por n, se
alterna la inclusin y exclusin de variables en la recta de regresin; ello
o
o
o
permite que una variable incluida sea posteriormente desechada cuando la
presencia de otra u otras hacen su contribucin a la reduccin de SSE
o
o
insignicante.
Los criterios de entrada y salida de variables se jan especicando sendos valores F entrada y F salida que deben ser superados (no alcanzados) por
el Q correspondiente para que una variable pueda ser incluida (excluida)
h
en la regresin. Ambos umbrales pueden ser el mismo. Mediante su seleco
cin adecuada, puede lograrse un algoritmo hacia adelante puro (jando
o
F salida = 0, con lo que se impide el abandono de cualquier variable introducida), hacia atrs puro (jando F entrada muy grande, y comenzando con una
a
ecuacin de regresin que incluye todas las variables), o un procedimiento
o
o
mixto arbitrariamente prximo a cualquiera de los dos extremos8 .
o
8
Podr pensarse en jar niveles de signicacin para la entrada y salida de variables.

a
o
Esto no se hace porque ser considerablemente arduos de computar; obsrvese que en
an
e
un procedimiento stepwise se selecciona para entrar o salir de la ecuacin de regresin la
o
o
variable con un Qh mayor (menor). Bajo la hiptesis de nulidad del correspondiente pao
rmetro, un Qh cualquiera se distribuye como una F de Snedecor con grados de libertad
a
apropiados. El mayor (o menor) de los estad
sticos Qh en cada etapa, sigue una distribu-

CAP
191
R: Ejemplo 12.1 (seleccin automtica de modelos) El ejemo

a
plo siguiente muestra el uso de las funciones leaps (en el paquete
del mismo nombre) para hacer regresin sobre todos los subconjuno
2 , R2 C , stepAIC (en el paquete MASS) para
tos con criterios R
o p
hacer regresin escalonada con criterio AIC y algunas otras funcioo
nes ancilares.
Primero generamos datos sintticos del modo habitual. Como
e
puede verse, hay muchos betas no signicativos.
>
>
+
>
>
>
>
+
>
>
set.seed(123457)
X <- matrix(rnorm(1000),
ncol = 20)
betas <- rep(0, 20)
betas[c(3, 5, 7, 12)] <- 1:4
y <- X %*% betas + rnorm(50)
datos <- as.data.frame(cbind(X,
y))
dimnames(datos)[[2]][21] <- "y"
completo <- lm(y ~ ., datos)
Como puede verse, hay muchos betas no signicativos:

> summary(completo)
Call:
lm(formula = y ~ ., data = datos)
Residuals:
Min
1Q Median
-1.916 -0.550 -0.106
Max
2.204
3Q
0.829
Coefficients:
Estimate Std. Error
(Intercept) -0.0706
0.2227
V1
0.0408
0.2422
V2
0.1720
0.2603
V3
1.1884
0.2397
V4
-0.0238
0.2067
cin diferente (vase Cap
o
e
tulo 8). El nivel de signicacin asociado al contraste impl
o
cito
en la inclusin o exclusin de un regresor no es la probabilidad a la derecha (o izquierda)
o
o
de F entrada (o F salida ) en una distribucin F con grados de libertad apropiados.
o

CAP
V5
V6
V7
V8
V9
V10
V11
V12
V13
V14
V15
V16
V17
V18
V19
V20
192
2.0035
0.2022
0.2633
0.2217
2.9970
0.1875
-0.1074
0.2804
0.0514
0.2105
-0.2367
0.2148
-0.2053
0.2042
4.0374
0.2212
0.1137
0.2161
-0.2115
0.2163
0.0191
0.3076
0.1206
0.2328
0.0318
0.1972
-0.0786
0.2108
0.0879
0.2569
0.0162
0.1949
t value Pr(>|t|)
(Intercept)
-0.32
0.75
V1
0.17
0.87
V2
0.66
0.51
V3
4.96 2.9e-05 ***
V4
-0.11
0.91
V5
9.91 8.1e-11 ***
V6
1.19
0.24
V7
15.98 6.5e-16 ***
V8
-0.38
0.70
V9
0.24
0.81
V10
-1.10
0.28
V11
-1.01
0.32
V12
18.25 < 2e-16 ***
V13
0.53
0.60
V14
-0.98
0.34
V15
0.06
0.95
V16
0.52
0.61
V17
0.16
0.87
V18
-0.37
0.71
V19
0.34
0.73
V20
0.08
0.93
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

CAP
193

F-statistic:
61 on 20 and 29 DF, p-value: <2e-16
Utilizamos ahora la funcin leaps para hacer regresin sobre todos
o
o
los subconjuntos. Con 15 regresores, es un problema de talla modesta.
> library(leaps)
> mods <- leaps(x = X, y = y,
+
method = "Cp")
El objeto mods contiene informacin sobre todos los modelos estimao
2
u
dos. Podemos ver como var Cp y R con el n mero de regresores:
a
>
+
+
>
>
>
+
+
+
>
+
>
+
+
+
>
>
postscript(file = "demo10.eps",
horizontal = FALSE, width = 5,
height = 9)
opar <- par()
plot(mods$size, mods$Cp,
main = "Cp versus talla modelos",
xlab = expression(p),
ylab = expression(C[p]))
mods.r <- leaps(x = X, y = y,
method = "adjr2")
plot(mods.r$size, mods.r$adjr2,
main = "R2 versus talla modelos",
xlab = expression(p),
ylab = expression(bar(R)^2))
par(opar)
dev.off()
X11cairo
2
La Figura 12.1 muestra el comportamiento t
pico de los criterios Cp
2
y R . Se aprecia que, aunque de forma no muy notoria en este caso,
2
a
el criterio R tiende a seleccionar modelos ms parametrizados.
> mejores <- order(mods$Cp)[1:15]
> regres <- mods$which[mejores,
+
]
> dimnames(regres)[[2]] <- dimnames(datos)[[2]][1:20]

CAP
194
Figura 12.1: Valores de Cp y R para 141 modelos ajustados a los datos

UScrime
600
0
200
Cp
1000
Cp versus talla modelos
10
15
20
0.4
0.2
0.0
R2
0.6
0.8
1.0
R2 versus talla modelos
10
15
p
20

CAP
> Cp <- mods$Cp[mejores]
> cbind(regres, Cp)
5
6
6
4
6
5
6
5
7
6
6
5
6
7
6
5
6
6
4
6
5
6
5
7
6
6
5
6
7
6
5
6
6
4
6
5
6
5
V1 V2 V3 V4
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
1 0 1 0
1 0 1 0
0 0 1 0
0 0 1 0
0 0 1 0
V11 V12 V13
0
1
0
0
1
0
0
1
0
0
1
0
1
1
0
0
1
0
0
1
0
1
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
1
1
0
0
1
1
V18 V19 V20
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
V5 V6 V7 V8 V9 V10
1 1 1 0 0
0
1 1 1 0 0
0
1 1 1 0 0
1
1 0 1 0 0
0
1 1 1 0 0
0
1 0 1 0 0
1
1 1 1 0 0
0
1 0 1 0 0
0
1 1 1 0 0
1
1 1 1 0 0
0
1 1 1 0 0
0
1 0 1 0 0
0
1 1 1 0 0
0
1 1 1 0 0
0
1 1 1 0 0
0
V14 V15 V16 V17
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
Cp
-4.225
-3.491
-3.455
-3.453
-3.213
-3.150
-2.654
-2.550
195

CAP
7
6
6
5
6
7
6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
196
-2.548
-2.518
-2.476
-2.405
-2.368
-2.365
-2.335
> mod1 <- lm(y ~ V3 + V4 +

+
V5 + V7 + V10 + V12 +
+
V16 + V17, data = datos)
> mod2 <- update(mod1, . ~
+
. + V1 + V2)
> summary(mod2)
Call:
lm(formula = y ~ V3 + V4 + V5 + V7 + V10 + V12 + V16 + V17 +
V1 + V2, data = datos)
Residuals:
Min
1Q Median
-1.611 -0.762 0.122
Max
2.237
3Q
0.627
Coefficients:
Estimate Std. Error
(Intercept) -0.03573
0.18316
V3
1.08674
0.19721
V4
-0.00741
0.16766
V5
2.03931
0.16976
V7
3.05622
0.14772
V10
-0.27977
0.19088
V12
4.10685
0.18483
V16
0.08436
0.15101
V17
0.05185
0.14567
V1
0.16370
0.18257
V2
-0.00659
0.20666
t value Pr(>|t|)
(Intercept)
-0.20
0.85
V3
5.51 2.5e-06 ***
V4
-0.04
0.96
V5
12.01 1.1e-14 ***
V7
20.69 < 2e-16 ***

CAP
197
V10
-1.47
0.15
V12
22.22 < 2e-16 ***
V16
0.56
0.58
V17
0.36
0.72
V1
0.90
0.38
V2
-0.03
0.97
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
F-statistic: 141 on 10 and 39 DF, p-value: <2e-16
> mod3 <- update(mod1, . ~
+
. - V10 - V16 - V17)
> summary(mod3)
Call:
lm(formula = y ~ V3 + V4 + V5 + V7 + V12, data = datos)
Residuals:
Min
1Q
-2.0289 -0.6955
Max
2.5956
Median
0.0539
3Q
0.7177
Coefficients:
Estimate Std. Error
(Intercept)
0.0738
0.1596
V3
1.0693
0.1819
V4
-0.0410
0.1567
V5
1.9898
0.1603
V7
3.0484
0.1400
V12
4.1357
0.1642
t value Pr(>|t|)
(Intercept)
0.46
0.65
V3
5.88 5.1e-07 ***
V4
-0.26
0.79
V5
12.41 5.7e-16 ***
V7
21.77 < 2e-16 ***
V12
25.19 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

CAP
198

> m <- regsubsets(y ~ ., datos,
+
method = "forward")
> summary(m)
Subset selection object
Call: regsubsets.formula(y ~ ., datos, method = "forward")
20 Variables (and intercept)
Forced in Forced out
V1
FALSE
FALSE
V2
FALSE
FALSE
V3
FALSE
FALSE
V4
FALSE
FALSE
V5
FALSE
FALSE
V6
FALSE
FALSE
V7
FALSE
FALSE
V8
FALSE
FALSE
V9
FALSE
FALSE
V10
FALSE
FALSE
V11
FALSE
FALSE
V12
FALSE
FALSE
V13
FALSE
FALSE
V14
FALSE
FALSE
V15
FALSE
FALSE
V16
FALSE
FALSE
V17
FALSE
FALSE
V18
FALSE
FALSE
V19
FALSE
FALSE
V20
FALSE
FALSE
1 subsets of each size up to 8
Selection Algorithm: forward
V1 V2 V3 V4 V5 V6
1 ( 1 ) " " " " " " " " " " " "
2 ( 1 ) " " " " " " " " " " " "
3 ( 1 ) " " " " " " " " "*" " "
4 ( 1 ) " " " " "*" " " "*" " "
5 ( 1 ) " " " " "*" " " "*" "*"
6 ( 1 ) " " " " "*" " " "*" "*"
7 ( 1 ) " " " " "*" " " "*" "*"
8 ( 1 ) " " " " "*" " " "*" "*"
V7 V8 V9 V10 V11 V12

CAP
1
2
3
4
5
6
7
8
(
(
(
(
(
(
(
(
1
1
1
1
1
1
1
1
)
)
)
)
)
)
)
)
1
2
3
4
5
6
7
8
(
(
(
(
(
(
(
(
1
1
1
1
1
1
1
1
)
)
)
)
)
)
)
)
1
2
3
4
5
6
7
8
(
(
(
(
(
(
(
(
1
1
1
1
1
1
1
1
)
)
)
)
)
)
)
)
" "
"*"
"*"
"*"
"*"
"*"
"*"
"*"
V13
" "
" "
" "
" "
" "
" "
" "
" "
V19
" "
" "
" "
" "
" "
" "
" "
"*"
" "
" "
" "
" "
" "
" "
" "
" "
V14
" "
" "
" "
" "
" "
"*"
"*"
"*"
V20
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
V15
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
"*"
"*"
V16
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
" "
V17
" "
" "
" "
" "
" "
" "
" "
" "
"*"
"*"
"*"
"*"
"*"
"*"
"*"
"*"
V18
" "
" "
" "
" "
" "
" "
" "
" "
> library(MASS)
> step <- stepAIC(completo,
+
scope = y ~ ., direction = "both",
+
trace = FALSE)
> summary(step)
Call:
lm(formula = y ~ V3 + V5 + V6 + V7 + V12, data = datos)
Residuals:
Min
1Q Median
-1.9495 -0.6503 -0.0349
Max
2.6196
3Q
0.5244
Coefficients:
Estimate Std. Error
199

CAP
200
(Intercept)
V3
V5
V6
V7
V12
0.0514
0.1518
1.0256
0.1761
2.0499
0.1557
0.3046
0.1603
3.0499
0.1346
4.1077
0.1585
t value Pr(>|t|)
(Intercept)
0.34
0.736
V3
5.82 6.1e-07 ***
V5
13.17 < 2e-16 ***
V6
1.90
0.064 .
V7
22.65 < 2e-16 ***
V12
25.91 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Fin del ejemplo
12.3.
El LASSO
Tibshirani (1996) introdujo el mtodo conocido como LASSO (=least

e
absolute shrinkage and selection operator). Puede verse como un procedimiento a medio camino de la seleccin de variables y regresin ridge.
o
o
Los mtodos que se han examinado en las secciones precedentes produe
cen decisiones todo o nada: un regresor permanece o es excluido de la
regresin, sin alternativas intermedias. En regresin ridge (cf. Seccin 10.3,
o
o
o
p. 139 y ss.), todos los regresores permanecen en el modelo, pero sus coecientes estimados se encogen hacia cero; este encogimiento, que puede
verse alternativamente como una restriccin estocstica, o una distribucin
o
a
o
a priori sobre los parmetros, introduce un sesgo pero ayuda a reducir drsa
a
ticamente la varianza.
El mtodo LASSO participa de ambas caracter
e
sticas; aproxima los estimadores de los parmetros a cero, en ocasiones hacindolos exactamente
a
e
igual a cero (cosa que no ocurre en regresin ridge), lo que es equivalente a
o
excluir el regresor correspondiente del modelo.

CAP
201
El mtodo se describe fcilmente. Sea Y = X + un modelo de

e
a
= (0 , . . . , p1 ). El estimador LASSO se dene as
regresin lineal, con
o
:
= arg m (y X )2
n
p1
sujeto a
i=1
|i | t
(12.28)
en que t es un parmetro de calibrado, similar a en regresin ridge. Obsra

o
e
vese que al igual que en regresin ridge, 0 , el estimador de la ordenada

o
en el origen, no se encoge. Obsrvese tambin que algunos betas pueden pere
e
fectamente ser cero.
El problema formulado en (12.28) es uno de optimizacin cuadrtica
o
a
sujeta a restricciones lineales, y es por tanto computacionalmente ms coma
plejo que MCO o regresin ridge; no obstante, existen buenos algoritmos
o
para resolverlo.
En R, la funcin9 lars implementa el estimador LASSO (y otros relao
cionados tambin). La seleccin de t se puede hacer por validacin cruzada.
e
o
o
12.4.
Modelos bien estructurados jerrquicaa

mente
La facilidad con que los algoritmos presentados en este Cap

tulo producen modelos candidatos no debe hacer que el analista delegue demasiado en
ellos. Un modelo ha de ser consistente con los conocimientos ables que se
tengan acerca del fenmeno bajo estudio. Debe ser tambin interpretable.
o
e
Prestemos algo de atencin a este ultimo requerimiento.
o
Imaginemos un modelo como el siguiente:

y = 0 + 1 X + 2 X 2 + .
(12.29)
En un caso as frecuentemente el inters se centrar en dilucidar si la rela,

e
a
cin de X con Y es lineal o cuadrtica es decir, en contrastar la hiptesis
o
a
o
h : 2 = 0.
Es frecuentemente el caso que X se mide en unidades en que tanto la
escala como el origen son arbitrarios (como ocurr por ejemplo, en el Ejera,
cicio 2.10, pg. 39); y ser inconveniente que el contraste de h dependiera
a
a
del origen y de la escala empleadas. Lo menos que debemos esperar de
nuestra inferencia es que sea invariante frente a cambios en las unidades de
medida.
9
En el paquete lars.

CAP
202
Si en (12.29) reemplazamos X por Z = aX + b, obtenemos

y = 0 + 1 (aX + b) + 2 (aX + b)2 +
= (0 + 1 b + 2 b2 ) + (1 a + 2ab2 )X + a2 2 X 2 +
= 0 + 1 X + 2 X 2 + .
(12.30)
En este nuevo modelo, 2 = a2 2 absorbiendo el cambio de escala en la X.
Es fcil ver que es equivalente contrastar h : 2 = 0 en (12.29) o h : 2 = 0

a
en (12.30); el contraste de la hiptesis efecto cuadrtico de X sobre Y , al
o
a
menos, no se altera por el cambio de unidades. Sin embargo, sean cuales
fueren 1 y 2 , habr coecientes a, b anulando 1 = (1 a + 2ab2 ) en

a
(12.30). Ello hace ver que:
No tiene sentido contrastar efecto lineal en un modelo que incluye

trmino cuadrtico, porque el contraste tendr un resultado diferente
e
a
a
dependiendo de las unidades de medida.
La inclusin de un trmino en X 2 debe ir acompaada de un trmino
o
e
n
e
lineal y constante, si queremos que el modelo sea invariante frente a
cambios en el origen y la escala.
La conclusin que extraemos es que los trminos de orden superior deben
o
e
estar acompaados de todos los trminos de orden inferior es decir, si
n
e
incluimos un trmino cbico, deben tambin existir trminos cuadrticos y
e
u
e
e
a
lineales, etc.. Un modelo que cumpla con dicho requisito se dice que est
a
jerrquicamente estructurado y en l podemos contrastar no nulidad del
a
e
coeciente del trmino jerrquico de orden superior, pero no de los inferiores.
e
a
La misma conclusin es de aplicacin a trminos recogiendo interacciones:
o
o
e
si introducimos una variable compuesta como Xi Xj en el modelo, Xi y Xj
deben tambin ser incluidas. Se suele decir que un modelo jerrquicamente
e
a
bien estructurado verica restricciones de marginalidad y que, por ejemplo,
Xi y Xj son ambas marginales a Xi Xj .
Si regresamos al Ejercicio 2.10 en que se arg la necesidad de utilizar
ua
un trmino 0 veremos que se trata del mismo problema: necesitamos el
e
trmino jerrquico inferior (la constante) cuando incluimos X dado que las
e
a
unidades y el origen son arbitrarios. No es imposible que un modelo sin 0
sea adecuado, pero lo normal es lo contrario.
Dependiendo de los programas que se utilicen, un algoritmo puede eliminar del modelo de regresin un trmino jerrquico inferior manteniendo
o
e
a
otro de orden superior. Es responsabilidad del analista garantizar que ello
no ocurra, manteniendo la interpretabilidad de los parmetros en toda cira
cunstancia.

CAP
12.1 Supongamos que hacemos regresin escalonada hacia
o
adelante. Qu valor de F entrada equivaldr a introducir regresoe
a
2
res en el modelo en tanto en cuanto incrementen Rp ?
12.2 Las estrategias de regresin escalonada descritas (hacia
o
adelante, hacia atrs, o mixta) exploran un subconjunto de los modea
los posibles, a adiendo (omitiendo) en cada momento el regresor que
n
parece con mayor (menor) capacidad explicativa de la variable respuesta. Puede perfectamente alcanzarse un ptimo local, al llegarse
o
a un modelo en el que no es posible mejorar el criterio elegido (Cp , o
cualquier otro) a adiendo u omitiendo regresores, pese a existir otro
n
modelo mejor en trminos de dicho criterio. Mejoran nuestras expece
tativas de encontrar el ptimo global mediante regresin escalonada
o
o
cuando las columnas de la matriz X de regresores son ortogonales?
Justif
quese la respuesta.
12.3 En la Observacin 12.1 se comparan los criterios de seo

2
leccin de modelos consistentes en maximizar Rp y Cp , viendo que
o
el segundo es en general ms restrictivo.
a
Consideremos ahora dos posibles modelos A y B de regresin
o
con sumas de cuadrados de los residuos respectivamente SSEA y
SSEB . El primer modelo utiliza slo un subconjunto de los regresores
o
presentes en el segundo (por tanto, SSEA SSEB ).
Para escoger entre los modelos A y B podr
amos adoptar uno de
los siguientes criterios:
1. Seleccionar el modelo B si la disminucin en la suma de cuao
drados respecto al modelo A es estad
sticamente signicativa,
es decir, si:
Qh =
(SSEA SSEB )
> Fq,N (p+q)

q 2
siendo p el n mero de parmetros presentes en A y q el de los

u
a
adicionales presentes en B.
2. Seleccionar el modelo B si su estad
stico Cp es menor.
Supongamos adems que el modelo B es el ms parametrizado
a
a
de los posibles (incluye todas las variables de que disponemos). Qu
e
relacin existe entre ambos criterios?
o
203
Cap
tulo 13
Transformaciones
13.1.
Introduccin
o
Nada nos obliga a utilizar los regresores o la variable respuesta tal cual;
es posible que la relacin que buscamos entre una y otros requiera para ser
o
expresada realizar alguna transformacin. Por ejemplo, si regresramos el
o
a
volumen de slidos aproximadamente esfricos sobre sus mayores dimensioo
e
nes, obtendr
amos probablemente un ajuste muy pobre; ser mucho mejor,
a
en cambio, regresando el volumen sobre el cubo de la mayor dimensin
o
4
dado que la frmula del volumen de una esfera es 3 r 3 , y cabr esperar una
o
a
relacin similar en los slidos aproximadamente esfricos que manejamos.
o
o
e
En el ejemplo anterior, bastaba tomar un regresor la mayor dimensin
o
y elevarla al cubo para obtener un ajuste mejor. Adems, la naturaleza del
a
problema y unos m
nimos conocimientos de Geometr sugieren el tipo de
a
transformacin que procede realizar. En otros casos, la transformacin pueo
o
de distar de ser obvia. En ocasiones, es la variable respuesta la que conviene
transformar. En las secciones que siguen se muestran algunos procedimientos para seleccionar un modelo, acaso transformando regresores, variable
respuesta, o ambas cosas.
13.2.
Transformaciones de los regresores
En ocasiones, teor o conocimientos previos acerca del funcionamiento

a
del fenmeno bajo anlisis puede sugerir transformaciones en los regresores.
o
a
Alternativamente podemos recurrir a mtodos exploratorios, grcos o no.
e
a
En lo que sigue se mencionan algunas posibilidades.
204
CAP
ITULO 13. TRANSFORMACIONES
205
Grcos de residuos frente a regresores

a
Se trata de representar grcamente los residuos en ordenadas frente a
a
cada uno de los regresores en abscisas. La motivacin es muy simple: los
o
residuos recogen la fraccin de la respuesta que el modelo no ha podido
o
recoger. Si observamos alguna pauta al representar dichos residuos frente
a un regresor, podemos intuir la transformacin precisa en dicho regresor.
o
Por ejemplo, en la Figura 13.1 se muestran residuos que frente a los valores
de Xi toman forma de parbola; ello sugiere introducir el regresor Xi2 . En
a
efecto, esto permitir recoger una parte de Y de la que el modelo actual
a
no da cuenta, y que por este motivo aora en los residuos.
2
2
Residuos
Figura 13.1: Disposicin de residuos sugiriendo una transformacin cuadro

o
a
tica del regresor Xi
20
40
60
80
100
Transformaciones de Box-Tidwell
Consideremos los regresores X1 , . . . , Xp y transformaciones de los mismos denidas del siguiente modo:
Wj =
si j = 0,
Xj j
ln(Xj ) si j = 0.
(13.1)
CAP
206
Para diferentes valores de j , la transformacin (13.1) incluye muchos casos

o
particulares de inters: transformacin cuadrado, ra cuadrada, logaritmo,
e
o
z
etc. Un j = 1 signicar que el regresor aparece sin ninguna transformaa
cin. El problema est en seleccionar para cada regresor el j adecuado.
o
a
El modo de hacerlo propuesto por Box and Tidwell (1962) es el siguiente.
Consideremos el modelo,
Y
= 0 + 1 X1 1 + . . . + p Xp p +
= 0 + 1 W1 + . . . + p Wp + .
(13.2)
(13.3)
Si realizamos una linealizacin aproximada mediante un desarrollo en serie

o
de Taylor en torno al punto (1 , . . . , k ) = (1, 1, . . . , 1) , obtenemos:
Y
0 + 1 X1 + . . . + p Xp + 1 Z1 + . . . + p Zp + ,
(13.4)
en donde
j = j (j 1)
Zj = Xj ln(Xj ).
(13.5)
(13.6)
Tenemos pues un modelo en el que podemos estimar los parmetros,

a
(0 , . . . , p , 1, . . . , p ). De ellos podemos recuperar valores estimados de
(1 , . . . , p ) as
:
j
j =
+ 1.
(13.7)
j
Podemos detenernos aqu pero cabe pensar en un proceso iterativo de re,
(1)
nado de la solucin obtenida. Llamemos k , k = 1, . . . , p, a los estimadores
o
de los parmetros de transformacin k obtenidos como primera aproximaa

o
cin al estimar (13.4). Podr
o
amos ahora denir
(1)
(1)
= Xj j
(1)
= Wj ln(Wj )
Wj
Zj
(1)
(13.8)
(1)
(13.9)
y estimar
Y
(1)
(1)
(1)
(1)
(
= 0 + 1 W1 + . . . + p Wp + 1 Z1 + . . . + p Zp + ,13.10)
(2)
(2)
Obtendr
amos as estimaciones de W1 , . . . , Wp , y podr
amos proseguir de
modo anlogo hasta convergencia, si se produce.
a
CAP
13.3.
207
Transformaciones de la variable respuesta
Generalidades
Adems de transformar los regresores, o en lugar de hacerlo, podemos
a
transformar la variable respuesta Y . Es importante tener en cuenta que si
realizamos transformaciones no lineales de la Y los modelos ya no sern
a
directamente comparables en trminos de, por ejemplo, R2 o suma de cuae
drados residual. Comparaciones de esta naturaleza requerir reformular
an
el modelo en las variables originales.
Ejemplo 13.1 Supongamos que nos planteamos escoger entre
los dos modelos alternativos,
Y
= 0 + 1 X1 +
(13.11)
log(Y ) = 0 + 1 X1 + .
(13.12)
La transformacin log deforma la escala de la Y ; si el logaritmo es

o
decimal, por ejemplo, valores de Y entre 1 y 1000 quedan convertidos
en valores entre 0 y 3 (si hubiera valores de Y cercanos a cero, por
el contrario, al tomar logaritmos se separar hacia ). Esta dean
formacin puede ser bastante drstica, y afectar mucho a la suma de
o
a
cuadrados de los residuos, independientemente del poder predictivo
del unico regresor X1 .
Para efectuar la comparacin podemos convertir todo a unidades

o
comunes. As no ser comparables las sumas de cuadrados
,
an
(Yi 0 1 Xi1 )2
(13.13)
(log(Yi ) 0 1 Xi1 )2 ,
(13.14)
(Yi 0 1 Xi1 )2
(13.15)
pero s lo ser
an
(Yi exp{0 + 1 Xi1 })2 ;
(13.16)
no obstante, vase la discusin en la Observacin 13.1 que sigue.

e
o
o
Fin del ejemplo
CAP
208
Observacin 13.1 Las sumas de cuadrados de los residuos de

o
dos modelos son comparables cuando ambos poseen el mismo n mero
u
de parmetros estimados. Si no es el caso, y los modelos son lineaa
les, podemos corregir el efecto del diferente n mero de parmetros
u
a
penalizando la suma de cuadrados (por ejemplo, adoptando criterios
como la Cp de Mallows; vase la Seccin 12.1). En el caso en que se
e
o
hace alguna transformacin, hay que contarla como parmetro?
o
a
En cierto modo, la transformacin efectuada es una manipulacin
o
o
tendente a mejorar el ajuste a los datos, y habra que tener esto en
cuenta, especialmente si la transformacin se escoge a la vista de los

o
datos.
No est claro, sin embargo, cmo contar una transformacin.
a
o
o
Una posibilidad que elude el problema es renunciar a penalizar la
correspondiente suma de cuadrados y hacer validacin cruzada (ver
o
la Seccin 12.1).
o
La transformacin de Box-Cox.
o
En ocasiones puede resultar inadecuado suponer que la variable respuesta Y est relacionada linealmente con las X, y, sin embargo, ser plausible
a
un modelo como el siguiente:
g(Yi) = xi + i
(13.17)
Una familia de funciones g(.) de particular inters y exibilidad es la

e
proporcionada por la llamada transformacin de Box-Cox, sustancialmente
o
idntica a la adoptada para los regresores en la Seccin 13.2. Denamos,
e
o
W() = g(Y ; ) =
(Y
1)/ cuando = 0,
ln Y
cuando = 0.
y supongamos que W() se genera de acuerdo con (13.17), es decir,

W(),i = xi + i
2
N(0, I)
(13.18)
(13.19)
Podemos, dadas las observaciones X, y , escribir la verosimilitud conjunta

de todos los parmetros: , , y . Dicha verosimilitud puede escribirse en
a
funcin de w as1 :
o
fY (y ) = fW (w ) |J()|
(13.20)
La variable transformada w depende en todo caso del empleado en la transformacin; omitimos dicha dependencia para aligerar la notacin, salvo donde interese enfatio
o
zarla.
CAP
209
siendo J() el jacobiano de la transformacin:

o
N
w
1
yi
=
y
i=1
J() =
(13.21)
Por tanto:
1
log ver( , , 2 ; Y ) = log
2
1
1
| 2 I| 2
1 (w() X ) (w() X )
log exp
|J()|
2
2
N
N
log(2) log 2
2
2
N
1 (w() X ) (w() X )
1
+ log yi
2
2
i=1
N
N
N
2
= log(2) log + ( 1)
log yi
2
2
i=1
1 w() (I X(X X)1 X )w()

2
2
(13.22)
La expresin (13.22) se ha obtenido maximizando la precedente respecto de

o
. El mximo, en efecto, se alcanza para aqul valor de que minimiza
a
e
nimo cuadrtico.
(w() X ) (w() X ), y ste es precisamente el m
e
a
La suma de cuadrados de los residuos es entonces (vase (2.36), pg. 22)
e
a
w() (I X(X X)1 X )w() .

Si ahora maximizamos (13.22) respecto a 2 , vemos que el mximo se
a
alcanza para,
() =
2
w() (I X(X X)1 X )w()

N
y el logaritmo de la verosimilitud concentrada es:

N
N
N
N
2
log ver(; Y ) = log(2) log ()
+ ( 1)
log yi .
(13.23)
2
2
2
i=1
Podemos escoger como transformacin aqulla cuyo maximice (13.23),

o
e
o, de modo equivalente, tras prescindir de las constantes,
log ver(; Y ) =
N
N
log yi.
log () + ( 1)
2
2
i=1
(13.24)
CAP
210
Un modo sencillo de hacerlo consiste en tomar un nmero adecuado de

u
valores de equiespaciados en un intervalo susceptible de contener el
o
ptimo, ajustar una regresin para cada , y calcular el correspondiente
o
valor de (13.24). Frecuentemente se suele tomar el intervalo 2 2 (que
incluye como casos particulares la transformacin ra cuadrada ( = 1 ),
o
z
2
cuadrado ( = 2), logaritmo ( = 0), ra cuadrada negativa, etc.), y dentro
z
de l unas cuantas decenas de valores de .
e
Es frecuente que log ver(; Y ) como funcin de sea una funcin relao
o
tivamente plana. Ello suscita el problema de decidir si el valor de que
la maximiza es signicativamente distinto de 1 (lo que supondr que no
a
es preciso hacer ninguna transformacin). Podemos recurrir a un contraste
o
razn de verosimilitudes (vase B.3). Bajo la hiptesis H0 : = 0 , si

o
e
o
denota el estimador mximo veros
a
mil de y L() el valor que toma la
verosimilitud, para muestras grandes se tiene que
L()
2 ln
2 ;
1
L(0 )
(13.25)
por tanto, a la vista de (13.23), rechazaremos H0 al nivel de signicacin

o
si
N
N
N
2
0 )
log yi log (0 ) > 2 .
log () + (
2
2
1;
2
2
i=1
(13.26)
Utilizando la misma idea podemos construir intervalos de conanza para .
Cap
tulo 14
Regresin con respuesta cualitao

tiva
14.1.
El modelo logit.
Con frecuencia se presentan situaciones en que la variable respuesta a explicar toma slo uno de dos estados, a los que convencionalmente asignamos
o
valor 0 1. Por ejemplo, variables de renta, habitat, educacin y similares
o
o
pueden inuenciar la decisin de compra de un cierto art
o
culo. Podr
amos
as plantearnos el estimar,
= X +
(14.1)
en que Y es una variable tomando dos valores: 1 (= Compra) o 0 (= No
compra).
Nada parecer en principio, impedir el empleo del modelo lineal estudiaa,
do en una situacin como sta. Pero hay varias circunstancias que debemos
o
e
considerar.
1. No tiene ya sentido suponer una distribucin normal en las perturbao
ciones. En efecto, para cualesquiera valores que tomen los regresores,
de
Yi = 0 + 1 Xi1 + . . . + p1 Xi,p1 + i
se deduce que slo puede tomar uno de dos valores: la diferencia
o
que separa a la Yi (0 1) de la combinacin lineal de regresores que
o
o
constituye su parte explicada.
2. Tratndose de una respuesta que puede tomar valor 0 o 1, interpretaa
i como su valor medio dados los valores de los regresores. Al

r
amos Y
211

CAP
ITULO 14. REGRESION CON RESPUESTA CUALITATIVA
212
poder tomar Yi slo los valores 0 y 1, su valor medio es Pi , la probabilio
dad del valor 1. Por tanto, valores de Yi entre 0 y 1 son interpretables.

Pero nada impide que el modelo proporciones predicciones mayores
que 1 (o menores que 0), circunstancia molesta.
3. Tampoco podemos ya suponer que hay homoscedasticidad. En efecto,
si tomamos valor medio en la expresin anterior tenemos:
o
E[Yi] = 0 + 1 Xi1 + . . . + p1 Xi,p1 = Pi
En consecuencia, Yi toma valor 1 con probabilidad Pi y valor 0 con
probabilidad Qi = 1 Pi y,
i =
Entonces,
1 P
Pi
con probabilidad Pi
con probabilidad Qi = 1 Pi .
E[2 ] = (1 Pi )2 Pi + (Pi )2 (1 Pi ) = Q2 Pi + Qi Pi2 = Pi Qi .(14.2)

i
i
La varianza de Y var por tanto de observacin a observacin de
a
o
o
acuerdo con los valores que toman los regresores. Adicionalmente,
(14.2) muestra que la distribucin de i ser binaria de parmetro
o
a
a
Pi .
El tercer inconveniente podr resolverse haciendo uso de regresin pona
o
derada, para corregir el efecto de la heterocedasticidad. No obstante, suele
emplearse una aproximacin alternativa que da cuenta tambin de los dos
o
e
primeros. El modelo lineal ordinario hace depender linealmente de las variables X la media de la variable respuesta, E(Yi ). Podemos en lugar de
ello hacer depender de los regresores una funcin de la media E(Yi ); por
o
ejemplo, la conocida como logit,
(E(Yi))
def
ln
Pi
.
1 Pi
(14.3)
Ntese que como E(Yi) = Pi , (14.3) es efectivamente una funcin de la meo

o
dia. Obsrvese tambin que (E(Yi )) toma valores de modo continuo entre
e
e
y +. Podemos pensar en hacer que (E(Yi )), y no E(Yi), dependa
linealmente de los regresores:
(E(Yi)) = ln
Pi
1 Pi
= x i ,
(14.4)
y a continuacin especicar la distribucin de Yi en torno a su media E(Yi ).

o
o
Ya hemos visto que una distribucin binaria es una eleccin natural si Yi es
o
o
una variable 0/1.

CAP
213
Observacin 14.1 Transformar la media E(Yi ) es un enfoque

o
alternativo al de transformar Yi , y en muchos aspectos un renamiento. Una transformacin de la respuesta como, por ejemplo, las de la
o
familia de Box-Cox, tiene que cumplir varios objetivos, generalmente
contradictorios. Por un lado, deseamos que la variable respuesta se
acerque a la normalidad. Por otro, que la varianza sea homognea, y
e
la dependencia de los regresores lineal.
El enfoque de hacer depender linealmente de los regresores una
funcin de la media de la variable respuesta es mucho ms exible.
o
a
Podemos escoger la funcin de la media que sea ms aproximadao
a
mente funcin lineal de los regresores, y especicar separadamente
o
la distribucin de la variable respuesta en torno a su media. El enfoo
que goza as de una enorme exibilidad.
Despejando Pi de la expresin anterior,

o
Pi =
exp(x i )
1 + exp(x i )
(14.5)
Interpretacin de los coecientes

o
Los parmetros de un modelo logit tienen interpretacin inmediata: i
a
o
es el efecto de un cambio unitario en Xi sobre el logit o logaritmo de la razn de posibilidades (log odds). Pero pueden en ocasiones ser interpretados
o
de manera ms directamente relacionada con magnitudes de inters. Cona
e
sideremos primero el caso ms simple, en que tenemos un unico regresor
a
dicotmico, X, codicado con valores 0/1. El resultado de clasicar una

o
muestra de N sujetos con arreglo a los valores observados de Y (respuesta)
y X (regresor) puede imaginarse en una tabla de doble entrada como la
siguiente:
Y=1
Y=0
X=1
n11
n21
X=0
n12
n22
Si el modelo logit es de aplicacin, las probabilidades de cada celda en la

o
tabla anterior vendr dadas por las expresiones que aparecen en la tabla
an
siguiente:

CAP
X=1
e0 +1
1+e0 +1
Y=1
(1) =
Y=0
1 (1) =
1
1+e0 +1
214
X=0
(0) =
e0
1+e0
1 (0) =
1
1+e0
Denamos la razn de posibilidades relativa (relative odds ratio) as

o
:
=
(1)/(1 (1))
.
(0)/(1 (0))
(14.6)
Entonces,
(1) / (1 (1))
(0)/(1 (0))
1
e0 +1
= ln
0 +1
1+e
1 + e0 +1
e0 +1
= ln
e0
= 1 .
ln() = ln
ln
e0
1 + e0
1
1 + e0
(14.7)
Por tanto, 1 estimar ln(), y exp (1 ) estimar .

a
a
Observacin 14.2 La codicacin de X, al igual que la de
o
o
Y , es arbitraria. La interpretacin correcta de 1 es incremento de
o
ln() cuando X se incrementa en una unidad. Por tanto, como se
ha indicado, si la presencia de una caracter
stica se codica mediante
X = 1 y su ausencia mediante X = 0, ln() = 1 y = exp(1 ).

Pero si la presencia de la misma caracter
stica se codica mediante
X = a y su ausencia mediante X = b, clculos similares a los realia
zados muestran que ln() = 1 (a b). A la hora de interpretar los
coecientes de un modelo logit es necesario por tanto tener en cuenta
la codicacin utilizada.
o
Interpretamos como indicando aproximadamente cunto ms probable

a
a
es que Y tome el valor 1 cuando X = 1 que cuando X = 0. Aproximadamente, porque
(1)/(1 (1))
(1)
(0)
(0)/(1 (0))

CAP
215
si y slo si
o
1 (0)
1.
1 (1)
Ello acontece, por ejemplo, cuando Y = 1 se presenta muy raramente en la
poblacin como cuando estudiamos la incidencia de una enfermedad muy
o
rara, tanto para sujetos tratados (X = 1) como no tratados (X = 0).
En este ultimo caso, exp(1 ) se interpretar como una estimacin de la
a
o
1 > 0 signicar, por tanto, que X = 1 incrementa
relacin de riesgos. Un
o
a
el riesgo de que Y = 1, y viceversa.
La importancia del dise o muestral

n
Slo podemos estimar, y an aproximadamente, la razn de riesgos
o
u
o
(1)/(0)? Qu impedir estimar el riesgo Pi correspondiente a unos dee
a
terminados valores de los regresores, x i , haciendo uso de el anlogo muestral
a
de (14.5)? Es importante observar (vase Kleinbaum (1994) para una dise
cusin completa de esto) que en ocasiones ello no ser posible.
o
a
Se hace preciso distinguir dos situaciones que pueden dar lugar a los mismos datos pero reejan modos de obtenerlos radicalmente diferentes. En el
primer caso tenemos un dise o de exposicin, t
n
o
pico en trabajos epidemiolgicos, en que una muestra jada de antemano sin conocer el valor de la
o
variable respuesta Y y representativa del total de la poblacin en riesgo se
o
sigue a lo largo de un periodo de tiempo al cabo del cual se conoce el valor
de Y . En este caso, podr
amos estimar el riesgo Pi como se ha dicho.
Completamente diferente es el diseo muestral de casos-controles. En esn
te caso seleccionamos la muestra a la vista de los valores de Yi. T
picamente,
si examinamos un evento que se presenta raramente, como una enfermedad
poco frecuente, tomaremos todos los individuos enfermos de que dispongamos (casos), completando la muestra con un nmero arbitrario de sanos
u
(controles). Los coecientes 1 , . . . , p son interpretables, pero 0 no lo es.
Ninguna frmula que lo requiera como (14.5) puede utilizarse.
o
La razn es fcil de entender: 0 depende de la abundancia relativa de

o
a
casos y controles, y sta es como hemos dicho arbitraria. La situacin se
e
o
asemeja a la que se presenta cuando construimos una tabla de contingencia
2 2 como:
Y=1
Y=0
Total
X=1
n11
n21
n,1
X=0
n12
n22
n,2
Total
n1.
n2.
n..

CAP
216
Si hemos escogido los sujetos completamente al azar, es razonable tomar el

cociente n1. /n.. como estimador de la proporcin de casos con Y = 1 en la
o
poblacin (y cocientes como n11 /n,1 o n12 /n,2 estimar las proporciones
o
an
en las subpoblaciones caracterizadas por X = 1 y X = 0 respectivamente).
Si, por el contrario, hemos jado los valores n1. y n2. , es claro que dicho
cociente no estima nada, sino que es resultado de una decisin arbitraria.
o
Estimacin
o
Consideremos una muestra de tamao N, formada por observaciones
n
(yi , x i ). Para cada observacin, yi es 0 1. El modelo logit, sin embargo, le
o
o
atribuye una probabilidad Pi (si se trata de un 1) 1 Pi (si se trata de
o
un 0). Por consiguiente, la verosimilitud de la muestra es
N
L(, y , X) =
(Pi )yi (1 Pi )1yi
(14.8)
i=1
1yi
i=1
1 + exp(x i )
=
N
=
i=1
1
1 + i
1yi
i
1 + i
yi
exp(x i )
1 + exp(x i )
(14.9)
yi
(14.10)
con i = exp(x i ). Tomando logaritmos en (14.10), obtenemos

N
ln
i=1
N
1
+
yi ln(i ).
1 + i
i=1
(14.11)
Si derivamos (14.11) respecto de e igualamos el vector de derivadas a

cero, obtenemos un sistema no lineal; no obstante, puede resolverse numrie
Alternativamente, podr
camente para obtener el vector de estimadores .
a
procederse a la maximizacin directa de (14.9) mediante un algoritmo cono
veniente.
Observacin 14.3 La verosimilitud en (14.9) es la ordinaria o
o
incondicional. En determinadas circunstancias notablemente en estudios con casos y controles emparejados respecto de variables de estraticacin cuyos coecientes carecen de inters podr
o
e
amos desear
realizar estimacin mximo veros
o
a
mil condicional. Sobre el fundamento de esto puede verse Cox and Hinkley (1978), pg. 298 y siguiena
tes, Kleinbaum (1994) o Hosmer and Lemeshow (1989), Cap. 7. En
R puede estimarse un modelo logit mediante mxima verosimilitud
a
condicional utilizando la funcin clogit (en el paquete survival).
o

CAP
217
Contrastes y seleccin de modelos

o
Necesitamos criterios para decidir sobre la inclusin o no de parmetros,
o
a
y para comparar modelos. La teor para ello deriva del contraste razn
a
o
generalizada de verosimilitudes (ver B.3).
Consideremos un modelo saturado, proporcionando el mejor ajuste posible. Llamaremos a ste modelo modelo base o modelo de referencia: se
e
tratar en general de un modelo claramente sobreparametrizado, pero que
a
proporciona un trmino de comparacin util. Requerir, en principio, un pae
o
a
rmetro por cada combinacin de valores de los regresores, y proporcionar
a
o
a
= (P1 , . . . , Pk ).
valores ajustados P
De acuerdo con la teor en la Seccin B.3, bajo la hiptesis nula de que
a
o
o
el modelo correcto es (14.4)
L()
2 ln
kp ,
L(P )
(14.12)
en que p es el nmero de parmetros estimados en . Al cociente (14.12)

u
a
se le denomina desviacin respecto del modelo de referencia parametrizado
o
.
por P
El adoptar un modelo menos parametrizado que el de referencia, implica
una disminucin de la verosimilitud y una desviacin (14.12) positiva cuya
o
o
distribucin, bajo la hiptesis nula, sigue la distribucin 2 indicada. Si
o
o
o
kp
2
la desviacin fuera excesiva (es decir, si sobrepasa kp; para el nivel de
o
signicacin que hayamos escogido), rechazar
o
amos la hiptesis nula.
o
Anlogo criterio podemos seguir para hacer contrastes sobre un unico
a
parmetro o sobre grupos de parmetros. Por ejemplo, para contrastar si

a
a
el parmetro j es signicativamente diferente de cero en un cierto modelo
a
parametrizado por , calcular
amos
L(1 , 2 , . . . , j1 , j+1, . . . , k )
,
2 ln

L(1 , 2 , . . . , j1, j , j+1 , . . . , k )
(14.13)
que debe ser comparado con una 2 ; valores grandes de (14.13) son evidencia
1
contra la hiptesis h : j = 0.
o
Para contrastar la hiptesis de nulidad de todos los parmetros, salvo
o
a
quiz 0 afectando a la columna de unos, comparar
a
amos
L(0 )
2 ln

L(0 , 1 , 2 , . . . , k )
(14.14)

CAP
218
a una 2 ; la expresin (14.14) es similar a la suma de cuadrados SSR en

o
k1
una regresin ordinaria. El anlogo a SST ser
o
a
a
L(0 )
2 ln
.
L(P )
(14.15)
Esta analog puede extenderse para obtener un estad

a
stico similar a la Cp
de Mallows as
:
k
L(0 )
2(k 1),
= 2 ln

L(0 , 1 , 2 , . . . , k )
(14.16)
y una R2 as
:
R2 =
2 ln
L(0 )

L(0 ,1 ,2 ,...,k )
2 ln
(14.17)
L(0 )
L(P )
Obsrvese que en (14.16) el primer sumando de la derecha sigue asinttie

o
2
camente una distribucin k1 con grados de libertad bajo el supuesto de
o
que el modelo ms parametrizado no aade realmente nada. Los grados de
a
n
libertad y por tanto el valor esperado de dicho sumando crecen con
el nmero de parmetros ajustados. El segundo trmino que se sustrae a
u
a
e
continuacin es, precisamente, el valor medio de una 2 . Mientras que el
o
k1
primero crece montonamente al introducir nuevos parmetros, el segundo
o
a
penaliza este crecimiento.
Observacin 14.4 Escoger
o
amos de acuerdo con este criterio
el modelo maximizando k o, alternativamente, minimizando

AICk = 2 ln L(0 , 1 , 2 , . . . , k ) + 2k.
(14.18)
La expresin anterior se conoce como criterio AIC (=An Informao

tion Criterion o Akaike Information Criterion, por su proponente).
Puede ser obtenido de diversos modos, incluido un argumento haciendo uso de Teor de la Informacin: vase Akaike (1972).
a
o
e

CAP
219
14.1 Mustrese que la desviacin denida a continuacin de (14.12)
e
o
o
coincide con SSE cuando consideramos un modelo lineal ordinario
con normalidad en las perturbaciones.
14.2 Comprubese derivando (14.11) que los estimadores me
a
ximo veros
miles de los parmetros son soluciones del sistema de
a
ecuaciones:
N
i
= 0,
x i yi
1 + i
i=1
en que i = x i .
Apndice A
e
Algunos resultados en Algebra

Lineal.
A.1.
Resultados varios sobre Algebra Matricial.
Teorema A.1 El rango y la traza de una matriz idempotente coinciden.

Denicin A.1 En un espacio vectorial V llamamos producto interno a
o
una aplicacin de H H R (si es real-valorado) o en C (si es como
pleto valorado), tal que a cada par de vectores u , v corresponde 
vericando:
= < v , u >
 0
u H
= 0 = u = 0
= + 
(A.1)
(A.2)
(A.3)
(A.4)
Denicin A.2 Llamamos producto interno eucl

o
deo de dos n-eplas u , v
en Rn al denido as = u v . Es fcil comprobar que verica las
:
a
condiciones de la Denicin A.1. La norma eucl
o
dea ||u || del vector u se
2
dene como ||u || = + = u1 + . . . + u2
n
Denicin A.3 Dados dos vectores u , v en un espacio vectorial, denimos
o
el coseno del ngulo que forman como
a
cos() =
< u,v >

.
||u ||||v ||
220
(A.5)

APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. 221
Teorema A.2 (Sherman-Morrison-Woodbury) Sea D una matriz simtrie
ca p p y a ,c vectores p 1. Entonces,
(D + a c )1 = D 1 D 1 a (1 + c D 1 a )1 c D 1
(A.6)
Demostracion:
Multiplicando ambos lados de (A.6) por (D + a c ) se llega a la igualdad
I = I. En particular, si a = c = z, la relacin anterior produce:
o
(D + zz )1 = D 1 D 1 z(1 + z D 1 z)1 z D 1
(A.7)
Teorema A.3 Si A y D son simtricas y todas las inversas existen:

e
A B
B D
A1 + F E 1 F F E 1
E 1 F
E 1
(A.8)
siendo
E = D B A1 B
F = A1 B
(A.9)
(A.10)
Demostracion:
Basta efectuar la multiplicacin matricial correspondiente.
o
Un caso particular de inters se presenta cuando la matriz particionada

e
cuya inversa deseamos es del tipo:
X X X Z
Z X Z Z
La aplicacin de (A.8) proporciona entonces para el bloque superior izquiero
do:
A1 + F E 1 F = (X X)1 +
+ (X X)1 X Z[Z Z Z X(X X)1 X Z]1 Z X(X X)1
(A.11)
y similarmente para los dems bloques. Vase Seber (1977), pg. 390 y
a
e
a
Myers (1990), pg. 459.
a

A.2.
Clculo diferencial con notacin matria

o
cial
Hay aqu slo una breve recopilacin de resultados utiles. Ms detalles y

o
o
a
demostraciones en Abadir and Magnus (2005), Searle (1982) y Magnus and
Neudecker (1988).
Haremos uso de las siguientes deniciones y notacin.
o
Denicin A.4 Sea x un vector m 1 e y una funcin escalar de x :
o
o
y = f (x1 , . . . , xm ) = f (x ). Entonces:
y
x
y
x1
x2
.
.
.
y
xm
def
Si y = x Ax siendo A una matriz cuadrada cualquiera, es inmediato comprobar que:

y
x
= (A + A )x .
En el caso, frecuente, de que A sea simtrica, tenemos que:

e
y
x
= 2A x
(A.12)
Denicin A.5 Sea y una funcin vectorial (n 1)valorada de x , vector

o
o
m 1. Entonces:
y
x
def
y1
x1
.
.
.
y1
xm
y2
x1
.
.
.
...
yn
x1
.
.
.
y2
yn
xm . . . xm
Hay algunos casos particulares de inters. Si y = a x = a1 x1 + . . . + am xm ,

e
siendo a un vector de constantes,
a1
.
y
. = a;
= .
x
am

si y = Ax , siendo A una matriz (n m) de constantes,
y
x
= A .
Se reproducen a continuacin algunos otros resultados utiles:

o
loge |A|
1
= [A ]
A
tr(BA1 C)
= (A1 CBA1 )
A
A.3.
(A.13)
(A.14)
Lectura recomendada
Hay muchos manuales de lgebra lineal en que se pueden encontrar los

a
resultados anteriores. Entre los particularmente orientados a la Estad
stica,
pueden citarse Gentle (2007), Seber (2007), Abadir and Magnus (2005),
o Searle (1982). En relacin con las cuestiones numricas espec
o
e
camente
relacionadas con la estimacin m
o
nimo-cuadrtica es todav de util consulta
a
a
Lawson and Hanson (1974).
Apndice B
e
Algunos prerrequisitos estad

sticos.
B.1.
Distribuciones 2 y F descentradas
indep
Sean Xi N(i , 2 ), (i = 1 . . . , n). Sea 2 = (2 + . . . + 2 )/ 2 . En1

n
tonces, la variable aleatoria
Z=
2
2
X1 + . . . + Xn
2
(B.1)
se dice que sigue una distribucin 2 (), o distribucin 2 descentrada con

o n
o
parmetro de no centralidad y n grados de libertad. Algunos textos denen
a
1
a
o
2 o 2 2 como parmetro de no centralidad; la notacin que empleamos es
congruente con las Tablas en ?? . Claramente, si = 0 se tiene la 2 habitual
o centrada.
Si Z 2 () y V 2 son ambas independientes, la variable aleatoria
m
n
W =
nZ
mV
(B.2)
sigue una distribucin Fm,n () o F de Snedecor descentrada, con parmetro

o
a
de no centralidad . Si V siguiera una distribucin 2 (), tendr
o n
amos que W
ser una F de Snedecor doblemente descentrada, habitualmente denotada
a
como Fm,n (, ). Siempre nos referiremos al primer tipo, en que solo el
numerador es descentrado.
La F de Snedecor descentrada es una distribucin denida en el semieje
o
real positivo, cuya forma es similar a la de su homloga centrada. Su moda
o
224

APENDICE B. ALGUNOS PRERREQUISITOS ESTAD
ISTICOS.
225
est tanto mas desplazada a la derecha cuanto mayor sea el parmetro de

a
a
no centralidad. El examen del estad
stico de contraste Qh introducido en la
Seccin 12 hace evidente que cuando la hiptesis contrastada no es cierta, la
o
o
distribucin de Qh es descentrada. Ello permite, como ya se indic, calcular
o
o
con facilidad la potencia de cualquier contraste, si se dispone de tablas de
la Fm,n (). El apndice A.4 proporciona tablas que permiten calcular la
e
potencia de los contrastes en anlisis de varianza directamente, prejada
a
una alternativa.
B.2.
Estimacin mximo veros

o
a
mil
Se realiza maximizando la funcin de verosimilitud L( , y ) o, equivaleno
temente, su logaritmo, ( , y ). Sea el vector que maximiza ( , y ). En

condiciones muy generales, se tiene que para muestras grandes
asint
N( , )
I()
(B.3)
(B.4)
En la expresin anterior, I() es la llamada matriz de informacin cuyo

o
o
elemento genrico de lugar ij se dene as
e
:
I()
ij
2 ( , y )
.
i j
(B.5)
Una consecuencia de (B.3)(B.4) es que si es de dimensin p p,

o

( ) ( )1 ( ) ( ) I()( ) 2 ;
p
esto permite contrastar hiptesis como H0 : = 0 utilizando como estao
d
stico
( 0 ) I( 0 )( 0 )
(B.6)

( 0 ) I()( 0 ).
(B.7)
o alternativamente
Asintticamente ambos contrastes son equivalentes, y ambos se conocen

o
como contrastes de Wald ; pueden consultarse ms detalles en Lehmann
a
(1983), Cap. 6 o Garthwaite et al. (1995), Cap. 3 y 4.

APENDICE B. ALGUNOS PRERREQUISITOS ESTAD
ISTICOS.
B.3.
226
Contraste razn generalizada de verosio

militudes
Supongamos una hiptesis nula H0 que prescribe para el vector de

o
parmetros un subespacio h. Supongamos h es un subespacio de M, y
a
dim(h) = q < p = dim(H). Supongamos, nalmente, que L( , Y ) es la
funcin de verosimilitud y
o
h = arg mx L( , Y )
a
(B.8)
M = arg mx L( , Y ).
a
(B.9)
Entonces, en condiciones muy generales, que no requieren que Y siga una

distribucin particular, se verica que bajo H0 ,
o
L(h , Y )
2 .
2 loge
(pq)
L(M , Y )
(B.10)
Por lo tanto, un contraste de la hiptesis H0 puede obtenerse comparando el

o
estad
stico en el lado izquierdo de (B.10) con el cuantil 2
(pq); ; valores del
estad
stico mayores que dicho cualtil conducirn al rechazo de la hiptesis
a
o
nula.
Apndice C
e
Regresin en S-Plus y R.
o
C.1.
El sistema estad
stico y grco S-Plus
a
El lenguaje y sistema estad

stico S fue desarrollado en ATT a principios
de los ochenta. Es una s
ntesis afortunada de simplicidad, sintaxis consistente, exibilidad, e integracin con el sistema operativo UNIX, sobre el que
o
se desarroll y para el que fue principalmente desarrollado.
o
Incorpora conceptos y ventajas de muchos lenguajes. El manejo de vectores y matrices, y la facilidad para denirlos, empalmarlos, y operar con
ellos recuerda al lenguaje APL. El uso de listas es reminiscente de LISP. La
sintaxis, el convenio de paso de argumentos por valor, y la forma de denir
funciones son similares a los que existen en C. Sobre todo ello, S aade un
n
conjunto bastante rico de funciones primitivas que hace fcil programar casi
a
cualquier procedimiento. Las facilidades grcas son tambin excelentes.
a
e
La referencia fundamental para utilizar S es Becker et al. (1988). Hay
una versin comercial de S (S-Plus, de Insightful, Inc.) que es un supero
conjunto del S descrito en Becker et al. (1988); para ella existen manuales
espec
cos. Las funciones ms modernas entre ellas, algunas de inters
a
e
para anlisis de regresin estn descritas en Chambers and Hastie (1992).
a
o
a
C.2.
El sistema estad
stico y grco R
a
R comenz siendo un paquete estad

o
stico no muy diferente de S, cuya
funcionalidad pretend replicar manteniendo una losof de cdigo fuente
a
a
o
disponible. Puede verse una descripcin en Ihaka and Gentleman (1996).
o
Adicionalmente puede consultarse Venables et al. (1997) (traduccin casteo
llana Venables et al. (2000)), o el manual Venables and Ripley (1999a) y
sus complementos Venables and Ripley (1999b).
227
APENDICE C. REGRESION EN S-PLUS Y R.
228
En la actualidad contina manteniendo una buena compatibilidad aunu

que con diferencias sustanciales en su arquitectura (que por lo general slo
o
precisa conocer el usuario avanzado). No replica toda la funcionalidad de
S-Plus en algunos aspectos, pero la amplia en otros. Esta siendo muy
activamente desarrollado por la comunidad universitaria e investigadora internacional. Su fcil extensibilidad y disponibilidad gratuita hace que sea el
a
paquete en que primero se implementan mtodos que tardan en encontrar
e
hueco en los paquetes comerciales.
En http://cran.r-project.org/ o sus espejos en los cinco continentes
pueden encontrarse las versiones ms recientes para multitud de sistemas
a
operativos, las fuentes y los aadidos que la comunidad de usuarios ha ido
n
contribuyendo.
Las secciones siguientes describen algunas funciones espec
cas para ana
lisis de regresin. Dado que pueden producirse modicaciones de una versin
o
o
a otra, la informacin autorizada y denitiva debe buscarse en los manuales.
o
Las mismas funciones estn disponibles en R, con funcionalidad equivalente
a
pero posibles ligeras diferencias en los argumentos y resultados. De nuevo
la consulta de los manuales o ayuda on line es obligada para contrastar lo
que sigue.
Finalmente, en la Seccin C.3 se presenta una tabla recogiendo la correso
pondencia entre algunas funciones similares de S-Plus y R.
229
La funcin lsfit.
o
Es el principal bloque constructivo de cualquier procedimiento de regresin. Ajusta una regresin (opcionalmente ponderada) y devuelve una lista
o
o
con los coecientes estimados, los residuos, y otra variada informacin de
o
inters. La sintaxis es la siguiente:
e
lsfit(x, y, wt=<<ver texto>>, intercept=T, tolerance=1.e-07,
yname=NULL)
Argumentos. Los argumentos obligatorios son los siguientes:
x Vector o matriz de regresores. No es preciso inclu una columna de unos:
r
se incluye automticamente a menos que especiquemos intercept=F. Ha
a
de tener tantas las como el argumento y. Puede tener valores perdidos. x
puede ser un vector cuando estamos regresando solo sobre una variable.
y Variable respuesta. Es un vector, o una matriz. Si se trata de una matriz, se
regresa cada una de sus columnas sobre los regresores en x. De esta manera,
una sola invocacin de lsfit puede realizar un gran nmero de regresiones,
o
u
cuando los regresores son comunes a todas ellas. Tambien se permiten valores
perdidos.
Los restantes argumentos son optativos. Si no se especican, se supone que
sus valores son los que aparecen en el ejemplo de sintaxis ms arriba. Sus
a
signicados son los siguientes:
wt
Vector de ponderaciones, si se quiere realizar regresin ponderada.

o
Ha de tener la misma longitud que y. Salvo que se especique, la
regresin pondera igualmente todas las observaciones.
o
intercept
Si es T, se incluye una columna de unos. Si no deseamos columna

de unos, es preciso especicar intercept=F.
tolerance Valor numrico para especicar cuando consideramos una matriz

e
singular.
yname
Nombre de la variable y en la regresin.

o
230
Resultados. La funcin lsfit devuelve una lista con los siguientes como
ponentes:
coef
Vector de estimadores, en forma de matriz con una columna para

cada regresin, si se han hecho varias a la vez.
o
residuals Vector (o matriz, si y era una matriz) conteniendo los residuos

ordinarios .
wt
Si especicamos ponderaciones, nos son devueltas inalteradas. Esto

es util si guardamos la lista de resultados, pues permite con poste
rioridad saber a qu tipo de regresin corresponden.
e
o
intercept Valor lgico, T F.

o
o
qr
Objeto representando la factorizacin QR de la matriz x de regreo

sores. Vase la funcin qr en Becker et al. (1988). Tiene utilidad
e
o
para computar algunos resultados.
La funcin leaps.
o
La funcin leaps realiza all-subsets regresin. No debe invocarse con
o
o
un nmero excesivo de regresores, al crecer el esfuerzo de clculo exponenu
a
cialmente con ste.
e
La sintaxis es:
leaps(x, y, wt, int=TRUE, method=
Cp, nbest=10, names, df=nrow(x))
Argumentos. Los argumentos x, y, wt tienen el mismo signicado

que en la funcin lsfit. El argumento int se utiliza para indicar si se
o
desea inclu columna de unos (por omisin, s Los dems argumentos
r
o
).
a
231
tienen los siguientes signicados:

method Argumento alfanumrico (entre dobles comillas, por tanto) especie
cando el criterio que se desea emplear en la seleccin de las mejores
o
regresiones. Puede ser Cp (Cp de Mallows, el valor por omisin),
o
2
2
r2 (el R ), y adjr2 (valor R ).
nbest
Nmero de regresiones que deseamos para cada tamao de modelo.

u
n
names
Vector de nombres de los regresores.
df
Grados de libertad de y (puede no coincidir con el nmero de las

u
si ha sido previamente objeto de alguna manipulacin. Un caso freo
cuente en Econom es la desestacionalizacin, que consume grados
a
o
de libertad.
Resultados. Retorna una lista con cuatro elementos:

Cp
Criterio de ajuste especicado como argumento.
size
Nmero de regresores (incluyendo, en su caso, la columna de unos.

u
label
Vector de nombres de los regresores.
which
Matriz lgica. Tiene tantas las como subconjuntos de regresores

o
devueltos, y la la i-sima tiene valores T F segn el regresor
e
o
u
correspondiente haya sido o no seleccionado en el i-simo subcone
junto.
La funcin hat.
o
Se invoca as
:
hat(x, int=TRUE)
en que x es argumento obligatorio y es la matriz de regresores. El argumento int toma el valor T por omisin y seala si se desea inclu en la
o
n
r
matrix x columna de unos.
La funcin devuelve un vector con los elementos diagonales de la matriz
o
de proyeccin X(X X)1 X (los pii del Cap
o
tulo 11).
232
La funcin lm.
o
La funcin lm ajusta un modelo lineal. La sintaxis es:
o
lm(formula,data,weights,subset,na.action,method="qr",
model=F,x=F,y=F,...)
Argumentos. El argumento weights se utiliza para hacer regresin pono
derada, de modo similar a como se hace con lsfit. Los dems argumentos
a
tienen los siguientes signicados:
method
Mtodo de ajuste a emplear. Por omisin, se utiliza la factorizacin

e
o
o
QR.
data
Una data frame conteniendo los datos tanto de regresores como

de variable respuesta.
formula
Una
expresin
o
del
tipo
Resp Regr01 + Regre02 +
log(Regre03) en que a la izquierda est el regresando y a
a
la derecha los regresores o funciones de ellos.
subset
Criterio para seleccionar las las de la tabla de datos que deseamos

emplear.
na.action Accin a tomar cuando algn dato en una la de la tabla de datos

o
u
es NA. Por omisin es omitir dicha la.
o
model,x,y
Seleccionando estos argumentos como T se obtienen como resultado.
Resultados. Retorna un objeto de tipo lm.object, una estructura de

datos compuesta que contiene los resultados del ajuste. Hay funciones especializadas en extraer los resultados y presentarlos de modo ordenado. Por
ejemplo, summary(), residuals(), coefficients() o effects(). Por otra
parte, el carcter objeto-orientado de S-Plus (una descripcin de esto rea
o
ferida a XLisp-Stat en la Seccin ??) hace que funciones como print()
o
aplicadas a un objeto de tipo lm.object sepan como imprimirlo.
Debe invocarse tras lm y ls y sobre los objetos que stas devuelven.
e
La funcin lm.influence.
o
La sintaxis es:
lm.influence(ajuste)
233
Argumentos. ajuste es un objeto de tipo lm.object devuelto por lm.

Resultados. La funcin lm.influence devuelve (salvo una constante)
o
los coecientes de la curva de inuencia muestral (SIC).
La funcin ls.diag.
o
La sintaxis es:
ls.diag(ls)
Argumentos. La funcin ls.diag se invoca con un objeto de tipo ls
o
(devuelto por lsfit) por argumento.
Resultados. Produce como resultado una lista con los componentes siguientes:
SSE
.
N p
std.dev
==
hat
Los pii , elementos diagonales de la matriz de proyeccin P =

o
1
X(X X) X .
std.res
Residuos internamente studentizados (los ri en la notacin del Cao

p
tulo 11).
stud.res
Residuos externamente studentizados (los ti en la notacin del Cao

p
tulo 11).
cooks
Un vector conteniendo las distancias de Cook (Di en la notacin

o
del Cap
tulo 11).
dfits
Un vector conteniendo los DFITS mencionados en el Cap

tulo 11).
correlation
Matriz de correlacin de los parmetros estimados (es decir, la mao

a
triz de correlacin obtenida de la de covarianzas 2 (X X)1 ).
o
std.err
Desviaciones t
picas estimadas de los parmetros estimados, i .
a
cov.unscaled
Matriz de momentos (X X)1 .
C.3.
234
Correspondencia de funciones para regresin y ANOVA en S-Plus y R

o
Cuadro C.1: Equivalencia de funciones para regresin y ANOVA en S-Plus

o
y R.
En S-Plus
add1
drop1
leaps
ls.diag
lsfit
lm
lm.influence
multicomp
step
stepwise
-
En R
add1
drop1
leaps
ls.diag
lsfit
lm
lm.influence
regsubsets
step
stepAIC
p.adjust
pairwise.t.test
lm.ridge
Paquete:
base
base
leaps
base
base
base
base
leaps
base
MASS
base
ctest
MASS
Funcionalidad:
Aadir un regresor
n
Eliminar un regresor
Regresin sobre todos los subconjuntos
o
Diagnsticos
o
Ajuste recta regresin
o
Ajuste recta de regresin
o
Anlisis de inuencia
a
Inferencia simultnea
a
Regresin sobre todos los subconjuntos
o
Regresin escalonada
o
Regresin escalonada
o
Regresin escalonada
o
Ajuste p por simultaneidad
Contrastes ms usuales
a
Regresin ridge
o
Adems de las indicadas en la Tabla C.1, en R se dispone del paquete

a
multcomp con varias funciones espec
cas para inferencia simultnea.
a
Apndice D
e
Procedimientos de clculo.
a
D.1.
Introduccin
o
La resolucin de las ecuaciones normales,

o
(X X) = X Y
requiere, en su aproximacin ms directa, la obtencin de la inversa (ordio
a
o
naria o generalizada) de (X X). Hay procedimientos mucho menos costosos
desde el punto de vista del clculo que, adems, permiten en algunos casos
a
a
intuiciones interesantes y demostraciones de gran simplicidad.
En lo que sigue se presenta uno de los mtodos de clculo ms utilizados,
e
a
a
y la construccin en que se basa (la factorizacin QR). Se detalla tambin
o
o
e
la correspondencia entre la notacin empleada y los resultados de algunas
o
funciones de S que hacen uso de dicha factorizacin.
o
D.2.
Transformaciones ortogonales.
Sea el problema,
m ||Dx c ||2
n
x
(D.1)
Podemos ver el problema como el de encontrar la combinacin lineal de

o
las columnas de D que mejor aproxima c , en trminos de norma de la dise
crepancia. Dicho problema queda inalterado cuando realizamos una misma
transformacin ortogonal de las columnas de D y del vector c . En efecto,
o
m ||Q(Dx c )||2 = m < Q(Dx c ), Q(Dx c ) >
n
n
x
= m (Dx c ) Q Q(Dx c )
n
x
= m ||Dx c ||2
n
x
235
APENDICE D. PROCEDIMIENTOS DE CALCULO.
236
al ser Q ortogonal.
Denicin D.1 Sea D una matriz de orden n m. Supongamos que puede
o
expresarse del siguiente modo:
D = HRK
en que:
(i) H es n n y ortogonal.
(ii) R es n m de la forma,
R11 0
0 0
con R11 cuadrada de rango completo k m
n(m, n).
(iii) K es m m ortogonal.
Se dice que HRK es una descomposicin ortogonal de D.
o
En general, hay ms de una descomposicin ortogonal, dependiendo de
a
o
la estructura que quiera imponerse a R. Si requerimos que R sea diagonal,
tenemos la descomposicin en valores singulares. Podemos tambin requerir
o
e
que R sea triangular superior, o triangular inferior, obteniendo diferentes
descomposiciones de D.
La eleccin de una descomposicin ortogonal adecuada simplica enoro
o
memente la solucin de (D.1). Los resultados fundamentales vienen recogio
dos en el siguiente teorema.
Teorema D.1 Sea D una matriz de orden n m y rango k, admitiendo la
descomposicin ortogonal,
o
D = HRK .
(D.2)
Sea el problema
m ||Dx y ||2
n
x
y denamos,
H y
= g =
K x = =
g1
k
g2 n k
1
k
.
2 m k
(D.3)
237
Figura D.1: Visualizacin de la transformacin de Householder.

o
o
u = v + ||v ||e1
||v ||e1
e1
||v ||e1
(u
2u||u ||2v )
Sea 1 la solucin (nica) del sistema,
o u
R11 1 = g 1 .
Entonces, todas las posibles soluciones del problema (D.3) son de la forma
x = K
,
2
con 2 arbitrario. Cualquiera de esas soluciones da lugar al vector de residuos

r
= y Dx = H
0
g2
y en consecuencia, ||r || = ||g 2 ||.

Existe un resultado interesante que muestra cmo es posible encontrar
o
una transformacin ortogonal que rota (y quiz reeja) un vector v hasta
o
a
abatirlo sobre el subespacio generado por otro, e1 . Se denomina transformacin de Householder, y se obtiene de manera muy cmoda y simple como
o
o
muestra el teorema siguiente.
Teorema D.2 Sea v cualquier vector m 1 distinto de 0 . Existe una matriz ortogonal P m m tal que:
Pv
= ||v ||e1
(D.4)
238
siendo

e1

0
.
.
.
(D.5)
+1
=
Esta matriz tiene por expresin,
o
si v1 0
1 si v1 < 0.
(D.6)
uu
||u ||2
(D.7)
= v + ||v ||e1
= v ||v ||e1
(D.8)
(D.9)
P = I 2
con u = v + ||v ||e1 .
Demostracion:
Entonces (ver Figura D.1),
u
z
1
son ortogonales y v = 2 u + 1 z . Tenemos en consecuencia,
2
Pv
=
=
=
=
=
D.3.
1
1
uu
u+ z
||u ||2
2
2
1
1
u u + z
2
2
1
1
u +v u
2
2
v u
||v ||e1
I 2
(D.10)
(D.11)
(D.12)
(D.13)
(D.14)
Factorizacin QR.
o
Teorema D.3 Sea una matriz X de orden (N p) y rango d m

n(N, p).
Existe siempre una matriz ortogonal Q de orden (N N) y una matriz R
trapezoidal superior vericando:
X = QR
Esquemticamente,
a
(D.15)

Q
239
R
N d
Demostracion:
La prueba es constructiva, y reposa en la aplicacin reiterada de la
o
transformacin de Householder a las columna de la matriz X. Sea x1 la
o
primera de dichas columnas. Existe una transformacin de Householder, de
o
matriz ortogonal P1 que abate dicha primera columna sobre el e1 de la base
cannica de Rn . Es decir,
o
P1 X =
Llamemos X1 a la matriz as obtenida, y consideremos su segunda columna
eliminado su primer elemento. Los restantes, pueden verse como un vector

en RN 1 , que puede tambien abatirse sobre el primer vector e1 de la base
cannica de dicho subespacio multiplicando por una matriz de Householder
o
P2 . Entonces,
1 0
P1
0 P2
(D.16)
240
reduce la matriz X de la forma que esquemticamente se muestra a

a
continuacin:
o
1 0
P1 X =
0 P2
Por consiguiente, si llamamos
1 0
P2 =
0 P2
el producto P2 P1 reduce las dos primeras columnas de X a forma escalonada. Como tanto P1 como P2 son ortogonales, su producto tambin lo es.
e
Fcilmente se comprueba que el proceso puede continuarse hasta obtener
a
un producto de matrices ortogonales Q = Pd Pd1 . . . P1 que deja X con
sus d primeras columnas escalonadas. Adems, como el rango de X era d,
a
necesariamente las ultimas N d las de R son de ceros.
En denitiva, Q X = R y por tanto X = QR, lo que prueba el teorema.
D.4.
Bibliograf
a
Hay abundante literatura sobre la factorizacin QR y procedimientos

o
similares de aplicacin al problema (D.1). Casi cualquier texto de Clcuo
a
lo Numrico contiene una discusin de la factorizacin QR. Una referencia
e
o
o
fundamental que contina vigente es Lawson and Hanson (1974). Una expou
sicin breve, clara, y con abundantes referencias a la literatura ms reciente
o
a
puede encontrarse en Goodhall (1993). Ansley (1985) muestra como, al margen y adems de su utilidad como procedimiento numrico, la factorizacin
a
e
o
QR arroja luz sobre, y simplica la demostracin de, bastantes resultados
o
en regresin lineal.
o
Apndice E
e
Enunciados y demostraciones formales

Se incluyen aqu teoremas, desarrollos y demostraciones omitidos en el
curso de la exposicin, por su nivel de formalismo o por no ser esenciales.

o
E.1.
Existencia y unicidad de proyecciones.
Denicin E.1 Sea {vn } una sucesin de vectores en H, espacio vectoo

o
rial sobre el cuerpo de los nmeros reales R con las operaciones suma de
u
vectores y producto por nmeros reales, denidas ambas del modo usual.
u
Supongamos denido sobre H un producto interno < , > y correspondiente
norma v 2 = < v, v >. Decimos que {vn } es una sucesin de Cauchy si
o
para cualquier > 0 hay un N() tal que m, n N(),
vn vm < ;
es decir, si prejado un arbitrariamente peque o, existe siempre un N()
n
tal que cualesquiera vectores vm , vn que aparezcan en la sucesin en lugar
o
posterior al N() distan entre s menos de .
Denicin E.2 Sea H un espacio vectorial como en la Denicin E.1.

o
o
Decimos que tiene estructura de espacio de Hilbert si es completo, es
decir, si contiene los l
mites de todas las sucesiones de Cauchy de vectores
en H, innito-dimensional y separable. Cualquier subespacio vectorial de
un espacio de Hilbert, es a su vez espacio de Hilbert.
Teorema E.1 Sea H un espacio de Hilbert, y M un subespacio del mismo.
Para cualquier vector y H existe siempre un unico vector v = PM y ,
proyeccin de y sobre M. Se verica que:

o
y v
m y z
n
zM
241
(E.1)

APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES242
Demostracin. Veamos1 primero la existencia. Sea d =

o
2
m zM y z . Entonces, necesariamente existir en M alg n
n
a
u
vector v 1 tal que: y v1 2 d + 1; de no haberlo, m y z 2
n
tendr que ser mayor que d + 1, contra la hiptesis. Anlogamente,
a
o
a
para cualquier n mero natural n existir vn vericando: y vn 2
u
a
d + 1/n. Mostraremos que la sucesin {vn } es de Cauchy. Mostrareo
mos tambin que su l
e
mite nico verica las condiciones denitou
rias de proyeccin de y sobre M . Probaremos, en n, que ning n
o
u
otro vector en M distinto del l
mite anterior verica las mismas condiciones, as como la propiedad de m
nima distancia en el enunciado.

Sea:
D=
(y vn ) (y vm )
(y vn ) + (y vm )
(E.2)
Podemos escribir:
D
=
+
=
(y vn )
(y vn )
2 (y vn )
+
2
2
(y vm )
+ (y vm )
2 < (y vm ), (y vn ) >
+ 2 (y vm )
+ 2 < (y vm ), (y vn ) >
(E.3)
Por otra parte, tenemos:

D =
(vm vn )
(vm vn )
2
2
1
+ 2y 2 ( 2 ) (vn + vm )
+ 4 y ( 1 ) (vn + vm )
2
2
2
(E.4)
Igualando (E.3) y (E.4) obtenemos:

vm vn
2 y vn
+ 2 y vm
4 y ( 1 ) (vn + vm )
2
(E.5)
Como la norma al cuadrado del ultimo trmino de (E.5) es al menos
e
d, tenemos:
vm vn
2 (y vn )
+ 2 (y vm )
4d
(E.6)
Sea > 0. Para m, n mayores que N (/4), tenemos:

(y vn )
(y vm )
2
2
d + /4
d + /4.
(E.7)
(E.8)
Demostracin tomada de Anderson (1971). Es ms general de lo que estrictamente

o
a
necesitamos, pero merece la pena enunciar este Teorema as para poderlo emplear inalte
rado en otros contextos (por ejemplo, en prediccin lineal de procesos estocsticos). Una
o
a
demostracin ms simple y menos general puede encontrarse en Arnold (1981), pg. 34.
o
a
a

Sustituyendo sto en (E.5) obtenemos:
e
(vm vn )
2(d + /4) + 2(d + /4) 4d = ,
(E.9)
luego la sucesin {vn } es de Cauchy. Tendr por tanto un l

o
a
mite unico
v en M (M es completo), y fcilmente se deduce que y v 2 = d.

a
Por otra parte, para cualquier z M y para cualquier real se
tiene:
y v z
y v
2
= d+
d.
+ 2 z
2
2 < y v, z(E.10)
>
2 < y v, z >
(E.11)
(E.12)
Por tanto:
2
2 z
2 < y v, z >
2
0,
(E.13)
2 < y v, z > . (E.14)
Como (E.14) se ha de cumplir para cualquier posible valor de , ha de

suceder que < y v, z >= 0, y como z es arbitrario en M , se deduce
que (y v) M . Como adems hemos visto que v M , tenemos
a
que v es proyeccin de y en M (Denicin 1.1). El desarrollo anterior
o
o
muestra tambin que v es la mejor aproximacin de y por un vector
e
o
de M (en trminos de la norma denida).
e
Veamos, en n, que ning n otro vector u M, u = v puede ser
u
proyeccin de y en M , ni vericar y u 2 = d. Supongamos que
o
hubiera un tal u. Entonces, (y u) = (y v) + (v u). Adems,
a
(y v) M , y (v u) M . Por tanto,
y u
=
=
=
< y u, y u >
< (y v) + (v u), (y v) + (v u) >
y v
y v
ya que 2 < y v, v u > = 0,

implicar u = v.
a
vu
vu
+ 2 < y v, v u >
2
0, y
vu
= 0
Observacin E.1 Qu trascendencia tiene en el enunciado

o
e
del Teorema E.1 que H (y, en consecuencia, su subespacio M ) tengan estructura de espacio de Hilbert? Examinando la demostracin
o
del Teorema E.1, vemos que se da por supuesta la existencia en M
del l
mite de la sucesin {vn } construida. Si M no fuera espacio de
o
Hilbert, tal l
mite podr no existir en M .
a

Observacin E.2
o
Debemos preocuparnos de vericar que estamos ante un espacio de Hilbert? Cmo hacerlo? Cuano
do los regresores generan un espacio de dimension nita, nada de
ello es preciso. Cuando se hace anlisis de series temporales, la mea
jor prediccin lineal en el momento t del valor de la misma en t + 1
o
(prediccin una etapa hacia adelante) se hace proyectando yt+1 soo
bre el subespacio que generan yt , yt1 , yt2 , . . . (todo el pasado de
la serie). Este pasado, al menos en principio, puede ser innito dimensional y aqu s tiene objeto suponer que genera un espacio de

Hilbert para garantizar la existencia de la proyeccin.
o
Ntese, incidentalmente, que en este problema emplear
o
amos una
norma que no ser la eucl
a
dea ordinaria, sino la inducida por el
producto interno < yt , ys >= E[yt ys ] (supuesta estacionariedad y
media cero). Pueden verse ms detalles en la obra ya citada Anderson
a
(1971), Seccin 7.6. Ejemplos del uso del espacio de Hilbert en series
o
temporales pueden verse en Davis (1977), Cap. 2, o Shumway and
Stoer (2006), Apndice B.1.
e
E.2.
Proyeccin sobre subespacios h = M

o
K(B).
El Lema 4.4 dec

a:
Sea B una matriz cualquiera, y K(B) el ncleo de la apliu
cacin lineal que representa. Sea M un subespacio de H y h =
o
M K(B). Entonces, M h = R(PM B ).
Demostracion:
En primer lugar, M h puede expresarse de otro modo que har ms
a a
simple la demostracin. En efecto,
o
M h = M R(B );
(E.15)
vase el Ejercicio 4.2, pg. 57.

e
a
Probaremos ahora que ambos subespacios considerados en el enunciado
son el mismo, utilizando la expresin (E.15), y mostrando la mutua incluo
sin.
o

i) M h R(PM B ). En efecto,
x M h =
=
=
=
=
x M R(B )
a : x = B a
PM x = PM B a
x = PM B a
x R(PM B )
ii) M h R(PM B ). Es inmediato, ya que,

x R(PM B ) = x R(PM ) = x M
Sea ahora z h. Entonces, como h = M K(B), z M y z K(B).
Por tanto:
< x, z > = x z = a BPM z = a Bz = 0
Por tanto, x M y adems x h, luego x M h , lo que prueba ii) y
a
naliza la demostracin del lema.
o
Bibliograf
a
Abadir, K. and Magnus, J. (2005). Matrix Algebra. Cambridge Univ. Press.
Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical
Model Identication. In Proc. 5th. Hawai Int. Conf. on System Sciences,
pp. 249250.
Akaike, H. (1974). Information Theory and an Extension of the Maximum
Likelihood Principle. In B. N. Petrov and F. Csaki, editors, Second International Symposium on Information Theory, pp. 267281, Budapest:
Akademia Kiado.
Akaike, H. (1991). Information Theory and an Extension of the Maximum
Likelihood Principle. In Johnson and Kotz, editors, Breakthroughs in Statistics, volume 1, p. 610 y ss., Springer Verlag.
Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York:
Wiley.
Ansley, C. F. (1985). Quick Proofs of Some Regression Theorems Via the
QR Algorithm. As, 39, 5559.
Arnold, S. F. (1981). The Theory of Linear Models and Multivariate Analysis. New York: Wiley.
Atkinson, A. C. (1985). Plots, Transformations and Regression. Oxford
Univ. Press.
Barnett, V. and Lewis, T. (1978). Outliers in Statistical Data. New York:
Wiley.
Becker, R. A., Chambers, J. M., and Wilks, A. R. (1988). The New S Language. A Programming Environment for Data Analysis and Graphics. Pacic Grove, California: Wadsworth & Brooks/Cole.
246
BIBLIOGRAF
IA
247
Belsley, D. A., Kuh, E., and Welsch., R. E. (1980). Regression Diagnostics:

Identifying Inuential Data and Sources of Collinearity. New York: Wiley.
Ben-Israel, A. and Greville, T. N. E. (1974). Generalized Inverses: Theory
and Aplications. New York: Wiley.
Bishop, C. M. (1996). Neural Networks for Pattern Recognition. Oxford:
Clarendon Press.
Box, G. E. P. and Tidwell, P. W. (1962). Transformations of the Independent
Variables. Technometrics, 4, 531550.
Brown, P. J. (1993). Measurement, Regression and Calibration. Clarendon
Press/Oxford, Signatura: 519.235.5 BRO.
Chambers, J. M. (1998). Programming with Data. Mathsoft.
Chambers, J. M. and Hastie, T. J. (1992). Statistical Models in S. Pacic
Grove, Ca.: Wadsworth & Brooks/Cole.
Cook, R. D. and Weisberg, S. (1982). Residuals and Inuence in Regression.
New York: Chapman and Hall.
Cornillon, P.-A. and Matzner-Lober, E. (2011). Rgression avec R. Springer
e
Verlag.
Cox, D. R. and Hinkley, D. V. (1974). Theoretical Statistics. London: Chapman and Hall, 1979th edition.
Cox, D. R. and Hinkley, D. V. (1978). Problems and Solutions in Theoretical
Statistics. London: Chapman & Hall.
Dahlquist, G. and Bjrck, (1974). Numerical Methods. Englewood Clis,
o
A.
N.J.: Prentice Hall.
Dalgaard, P. (2002). Introductory Statistics with R. Statistics and Computing, Springer-Verlag, Signatura: 519.682 DAL.
Davis, M. H. A. (1977). Linear Estimation and Stochastic Control. Chapman and Hall.
de Leeuw, J. (2000). Information Theroy and an Extension of the
Maximum Likelihood Principle by Hirotugu Akaike. Disponible en
http://www.stat.ucla.edu/~deleeuw/work/research.phtml.
BIBLIOGRAF
IA
248
Draper, N. R. and Smith, H. (1998). Applied Regression Analysis. Wiley,

third edition, Signatura: 519.233.5 DRA.
Eubank, R. L. (1988). Spline Smoothing and Nonparametric Regression.
New York: Marcel Dekker.
Faraway, J. J. (2005). Linear Models with R. Chapman & Hall/CRC, Signatura: 519.233 FAR.
Fox, J. (2002). An R and S-Plus Companion to Applied Regression. Sage
Pub.
Garthwaite, P. H., Jollie, I. T., and Jones, B. (1995). Statistical Inference.
London: Prentice Hall.
Gentle, J. (2007). Matrix Algebra: Theory, Computations, and Applications
in Statistics. Springer.
Goodhall, C. R. (1993). Computation Using the QR Decomposition. In C. R.
Rao, editor, Handbook of Statistics, chapter 13, pp. 467508, Amsterdam:
North-Holland.
Grafe, J. H. (1985). Matemticas Universitarias. Madrid: MacGraw-Hill.
a
Gunst, R. F. and Mason, R. L. (1980). Regression Analysis and Ist Applications. A Data Oriented Approach. New York: Marcel Dekker, Inc.
2
Haitovsky, Y. (1969). A Note on Maximization of R . As, 23, 2021.

Harrell, F. E. (2001). Regression Modelling Strategies. Springer-Verlag, Signatura: 519.233.5 HAR.
Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer-Verlag,
Signatura: 519.237.8 HAS.
Hawkins, D. M. (1980). Identication of Outliers. London: Chapman & Hall.
Haykin, S. (1998). Neural Networks. A Comprehensive Foundation. Prentice
Hall, second edition.
Hocking, R. R. (1976). The Analysis and Selection of Variables in Linear
Regression. Biometrics, 32, 149.
Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Non-Orthogonal Problems. Technometrics, 12, 5567.
BIBLIOGRAF
IA
249
Hoerl, A. E., Kennard, R. W., and Baldwin, K. F. (1975). Ridge Regression:

Some Simulations. Cstat, 4, 105123.
Hosmer, D. W. and Lemeshow, S. (1989). Applied Logistic Regression. Wiley.
Ihaka, R. and Gentleman, R. (1996). R: a Language for Data Analysis and
Graphics. J. of Comp. and Graphical Stats., 5, 299314.
Jollie, I. T. (1986). Principal Components Analysis. New York: SpringerVerlag.
Kennedy, W. J. (1980). Statistical Computing. New York: Marcel Dekker.
Kleinbaum, D. G. (1994). Logistic Regression. A Self-Learning Test. Springer Verlag.
Knuth, D. (1986). The TEX Book. Reading, Mass.: Addison Wesley.
Knuth, D. K. (1968). Fundamental Algorithms. In The Art of Computer
Programming, volume 1, Reading, Mass.: Addison-Wesley.
Kuhnert, P. and Venables, W. (2005). An Introduction to R: Software for
Statistical Modelling and Computing. CSIRO Mathematical and Information Sciences, Cleveland, Australia.
Lange, K. (1998). Numerical Analysis for Statisticians. Springer, Signatura:
519.6 LAN.
Lawless, J. F. and Wang, P. (1976). A Simulation Study of Ridge and Other
Regression Estimators. Communications in Statistics, 5, 307323.
Lawson, C. L. and Hanson, R. J. (1974). Solving Least Squares Problems.
Englewood Clis, N.J.: Prentice-Hall.
Legg, S. (1996). Minimum Information Estimation of Linear Regression
Models. In D. L. Dowe, K. B. Korb, and J. J. Oliver, editors, ISIS: Information, Statistics and Induction in Science, pp. 103111, Singapore:
World Scientic.
Lehmann, E. L. (1983). Theory of Point Estimation. New York: Wiley.
Lund, R. E. (1975). Tables for the Approximate Test for Outliers in Linear
Regression. Technometrics, 17, 473476.
BIBLIOGRAF
IA
250
Magnus, J. and Neudecker, H. (1988). Matrix Dierential Calculus with

Applications in Statistics and Econometrics. Wiley.
Maindonald, J. H. (2000). Data Analysis and Graphics Using R - An Introduction.
Miller, A. (2002). Subset Selection In Regression, Second Editon. Chapman
& Hall/CRC.
Myers, R. H. (1990). Classical and Modern Regression with Applications.
Boston: PWS-KENT Pub. Co.
Pea, D. (2002). Regresin y Dise o de Experimentos. Alianza Editorial.
n
o
n
Rao, C. R. and Mitra, S. K. (1971). Generalized Inverse of Matrices and Its
Applications. John Wiley & Sons, New York [etc.].
Ripley, B. D. (1996). Pattern Recognition and Neural Networks. Cambridge
University Press, 519.237.8 RIP.
Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. Singapore:
World Scientic.
Ryan, T. P. (1997). Modern Regression Methods. Wiley, Signatura: 519.233.4
RYA.
Searle, S. R. (1971). Linear Models. New York: Wiley.
Searle, S. R. (1982). Matrix Algebra Useful for Statistics. Wiley.
Seber, G. (2007). A Matrix Handbook for Statisticians. Wiley.
Seber, G. A. F. (1977). Linear Regression Analysis. New York: Wiley.
Shapiro, S. S. and Francia, R. S. (1972). An Approximate Analysis of Variance Test for Normality. Jasa, 67, 215216.
Shapiro, S. S. and Wilk, M. B. (1965). An Analysis of Variance Test for
Normality (complete Samples). Biometrika, 52, 591611.
Shumway, R. H. and Stoer, D. S. (2006). Time Series Analysis and Its
Applications. With R Examples. Springer Verlag.
Silvey, S. D. (1969). Multicollinearity and Imprecise Estimation. Jrssb, 31,
539552.
Silvey, S. D. (1980). Optimal Design. London: Chapman & Hall.
BIBLIOGRAF
IA
251
Stapleton, J. H. (1995). Linear Statistical Models. New York: Wiley.

Theil, H. (1971). Principles of Econometrics. New York: Wiley.
Thisted, R. A. (1988). Elements of Statistical Computing. New York: Chapman & Hall.
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso.
Journal of the Royal Statistical Society, Ser. B, 58, 267288.
Trocniz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial
o
UPV/EHU.
Trocniz, A. F. (1987b). Probabilidades. Estad
o
stica. Muestreo. Madrid:
Tebar-Flores.
Tusell, F. (2003). Estad
stica Matemtica. 154 p., notas de clase.
a
Ugarte, M., Militino, A., and Arnholt, A. (2008). Probability and Statistics
with R. CRC Press.
Venables, B., Smith, D., Gentleman, R., and Ihaka, R. (1997). Notes on R:
A Programming Environment for Data Analysis and Graphics. Dept. of
Statistics, University of Adelaide and University of Auckland, Libremente
disponible en Internet.
Venables, B., Smith, D., Gentleman, R., Ihaka, R., and Mchler, M. (2000).
a
Notas sobre R: Un Entorno de Programacin para Anlisis de Datos y
o
a
Grcos. Traduccin espaola de A. Gonzlez y S. Gonzlez.
a
o
n
a
a
Venables, W. and Ripley, B. (1999a). Modern Applied Statistics with S-Plus.
New York: Springer-Verlag, third edition.
Venables, W. and Ripley, B. D. (1999b). R Complements to Modern Applied
Statistics with S-Plus. En http://www.stats.ox.ac.uk/pub/MASS3.
Wang, C. (1993). Sense and Nonsense of Statistical Inference. New York:
Marcel Dekker.
Webster, J. T., Gunst, R. F., and Mason, R. L. (1974). Latent Root Regression Analysis. Technometrics, 16, 513522.
Yanai, H., Takeuchi, K., and Takane, Y. (2011). Projection Matrices, Generalized Inverse Matrices and Singular Value Decomposition, volume 34.
Springer Verlag.

Análisis de Regresión

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis de Regresión

Uploaded by

Copyright:

Available Formats

Anlisis de Regresin.

Bilbao, Octubre 2011

1 El modelo de regresin lineal.

2.3. Propiedades del estimador m

3 Identicacin. Colinealidad exacta

4.1. Planteamiento del problema. . . . . . . . . . . . . . . . . . .

6 Regresin con perturbaciones normales.

11 Evaluacin del ajuste. Diagnsticos.

D.2. Transformaciones ortogonales. . . . . . . . . . . . . . . . . . 235

2.1. X es la proyeccin de y sobre M. R2 = cos2 . . . . . . . . .

3.1. Regresin en el caso de matrix X de rango deciente. . . . . . .

9.1. Multicolinealidad exacta (panel superior) y aproximada (panel

10.1. Componentes del ECM( (k) ) en el estimador ridge. Las l

de (k) en funcin de k. La curva slida representa ECM[ (k) ].

12.1. Valores de Cp y R para 141 modelos ajustados a los datos UScrime194

13.1. Disposicin de residuos sugiriendo una transformacin cuadrtio

El modelo de regresin lineal.

Planteamiento del problema.

Son frecuentes en la prctica situaciones en las que se cuenta con obsera

Intervalo en minutos (I)

Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.

Duracin en minutos (D)

puntos en la Figura 1.1. Habremos de considerar ms bien funcioa

Es de inters sealar que el ajuste de un modelo de regresin no se limita

nuestra atencin a funciones f (X0 , . . . , Xp1 ) lineales; el modelo resultante

ser la variable D. Si decidimos ajustar un modelo con trmino constante

permitir escribir N igualdades similares a (1.1):

Denotaremos mediante al vector de estimadores de los parmetros,

los residuos recogen la diferencia entre los valores muestrales observados y

vector de valores observados de la variable aleatoria Y en una determinada

rio (MCO). Por consiguiente, diremos que

(ver Denicin A.2, pg. 220).

Seccin) nos coloca en una situacin de diseo experimental. De ah

que a la matriz X se la denomine matriz de diseo.

Observacin 1.2 El criterio de seleccionar como estimadores

yi 0 xi0 1 xi1 . . . p1 xi,p1

Si realizamos las demostraciones en trminos de normas, servirn

todo terreno, trasladables de inmediato a problemas con supuestos

Adems de suponer que Y = X + y que la matriz X es no aleatoria,

Nos referiremos a 1)3) en lo sucesivo como los supuestos habituales.

y el vector de perturbaciones verica E[ ] = , entonces (1.3) puede reescribirse equivalentemente como:

y (1.4) incorpora un vector de perturbaciones ( ) vericando el primero

el caso N = p, pues entonces y = X es un sistema de ecuaciones linea

Anlogamente, si pensramos que la variable aleatoria W se genera

siendo una perturbacin aleatoria no negativa (por ejemplo, con

en que xi = log(zi ), 0 = log(k) y = log(). Lo que realmente se

donde x0 , . . . , xp1 denotan los vectores columna de la matriz X (x0 ser

ecuacin (1.5) muestra que el problema puede reformularse as Cuales

son los coecientes

+ p1 xp1 aproxime ptimamente (en sentido m

Aunque en lo que sigue se hace un tratamiento generalizable, impl

Figura 1.2: El vector PM y es la proyeccin de y sobre M (plano horizontal).

Siempre existe (y es unica) la proyeccin de un vector en H sobre el

proyeccin de y sobre M. Se verica que:

La Fig. 1.2 ilustra en tres dimensiones la nocin de proyeccin, y hace

cualquier vector b = PM y en M, y b es la hipotenusa de un tringulo

Estrictamente incorrecto. El Teorema E.1, pg. 242 es una versin ms elaborada

rectngulo, cuyos catetos son y el segmento b PM y . Por tanto,

lo que demuestra la propiedad de PM y de ser la mejor aproximacin de

1.2 En R para crear un vector y asignarlo a la variable x

1.3 Para efectuar multitud de clculos en R empleamos funcioa

1.4 El producto interno eucl

1.5 En R rige la regla del reciclado, que permite operar con

1.6 En R es muy fcil acceder a elementos aislados de un veca