You are on page 1of 28

Captulo 3

TEORA GENERAL DEL MODELO


LINEAL
1

1 Este captulo forma parte del apunte para el curso MA44D dictado por la profesora Nancy Lacourly con profesores auxiliares

Flix Carrasco y Claudio Pareja.

57
58
3.1. Introduccin.
Un problema muy frecuente en estadstica consiste en buscar y estimar interdependencias entre varia-
bles. En efecto, cuando un par de variables aleatorias (X,Y ) no son independientes, el conocimiento del
valor por X cambia nuestro incertidumbre con respecto a la realizacin de Y , esto se tiene debido a que la
distribucin de Y dado X = x tiene una varianza que en promedio es menor que la varianza marginal de Y ,
en efecto:

Proposicin 3.1 Sean X e Y dos variables aleatorias, luego

V(Y ) = EX {V(Y |X)} + VX {E(Y |X)}

Dem: Por definicin de varianza tenemos que:

V(Y ) = E(Y 2 ) E(Y )2 (3.1)


2 2
= EX {E(Y |X)} EX {E(Y |X)} (3.2)
2 2
= EX {V(Y |X) + E(Y |X) } EX {E(Y |X)} (3.3)
2 2
= EX {V(Y |X)} + (EX {E(Y |X) } EX {E(Y |X)} ) (3.4)
= EX {V(Y |X)} + VX {E(Y |X)} (3.5)

donde:

3.1 es por definicin de varianza.

3.2 se tiene por definicin de esperanza condicional.

3.3 se utiliza la definicin de varianza condicional.

3.4 es por que la esperanza de una suma es la suma de las esperanzas y se agrupan trminos.

3.5 se utiliza la definicin de varianza.

luego se deduce que V(Y ) = EX {V(Y |X)} + VX {E(Y |X)}.

De esta igualdad tenemos que EX {V(Y |X))} V(Y ), que es un resultado promedio, lo cual no impide
que para algunos valores de X, V(Y |X) sea mayor que V(Y ).

Cuando se puede aceptar que el fenmeno aleatorio representado por una variable o un vector X puede
servir para predecir aquel representado por Y , se busca una frmula de prediccin. Algunas relaciones son
fciles de plantear y verificar, como las relaciones planteadas a partir de leyes fsicas o mecnicas, pero
cuando la aleatoriedad juega un papel importante, el estudio se hace ms difcil.

Se busca descubrir como un conjunto de variables X1 , X2 , . . . Xp influye sobre una o varias otras varia-
bles Y . Para este propsito, se busca una funcin f que permita reconstruir los valores obtenidos sobre una
muestra de la variables respuesta Y :

Y = f (X1 , X2 , . . . Xp }.

59
Las variables {X1 , X2 , . . . Xp } se llaman variables explicativas 2 y la variables Y se llama variable
respuesta 3 .

Se darn algunos ejemplos, en que se ocupan estos modelos:

Ejemplo 3.1 La distancia que una partcula recorre en el tiempo t est dada por la frmula:

d = + t

en que es la velocidad promedio y la posicin de la partcula en el tiempo inicial t = 0. Si y


son desconocidos, observando la distancia d en dos pocas distintas, la solucin del sistema de las dos
ecuaciones lineales obtenidas permite obtener y . Sin embargo es difcil obtener en general una distancia
sin error de medicin. Por lo cual se observa una variable aleatoria: Y = d + en vez de d, en que es de
tipo aleatorio4 . En este caso no basta tener dos ecuaciones, sino que diferentes valores de la distancia para
distintos tiempos. Los mtodos estadsticos basados en la aleatoriedad del error permiten estimar a , y
d sobre la base de una relacin funcional de tipo lineal.

Ejemplo 3.2 Si consideramos el peso P y la talla T de las mujeres chilenas adultas, est claro que no
existe una relacin funcional entre P y T , pero existe una tendencia. Considerando que P y T son variables
aleatorias de distribucin conjunta normal bivariada:

P = f (T ) +
con f (T ) = E(P|T )

en que refleja la variabilidad del peso P entre las chilenas de la misma talla con respecto a la media. El
tipo de funcional f en este caso no es evidente, pero plantear en principio un modelo lineal puede servir al
menos para descartarlo.

Ejemplo 3.3 Para decidir la construccin de la nueva central elctrica, ENDESA busca prever el consumo
total de electricidad en Chile despus del ao 2002. Se construye un modelo que liga el consumo de
electricidad con variables econmicas, demogrficas y metereolgicas, y este modelo estima en base a
datos obtenidos en el pasado. Se aplica entonces el modelo para predecir el consumo de electricidad segn
ciertas evoluciones econmicas, metereolgicas y demogrficas. En este caso resulta an ms complejo
determinar cual es la relacin funcional que existe entre las variables explicativas y la variable respuesta.

Ejemplo 3.4 Para establecer una determinada publicidad en la televisin, se cuantifica el efecto de va-
riables culturales y socio-econmicas en la audiencia de los diferentes programas. Sobre la base de una
encuesta telespectadores se construye un modelo que determina los efectos de las variables culturales y
socio-econmicas en la audiencia.

Ejemplo 3.5 Ajuste polinomial. El modelo lineal puede ser generalizado tomando funciones de las varia-
bles explicativas y/o de la variable a explicar. Es el caso cuando se tiene una variables respuesta Y a partir
de una sola variable X en un modelo polinomial: Y = a0 + a1 X 1 + a2 X 2 + a p X p en donde X j correspon-
de a la potencia j de X. Note que es fcil argumentar que este ejemplo corresponde a un modelo lineal,
definiendo como variable X j = X j .

Ejemplo 3.6 Se quiere estimar la constante g de la gravitacin. Se toman los tiempos de cada t de un
1
objeto desde la altura h dada del suelo: d = gt 2 .
2
2 Tambin conocidas como variables independientes o variables exgenas
3 Conocida tambin como variable a explicar o variables dependiente o variable endgena
4 Conocido como ruido blanco", en el cual se suma a cada valor una cantidad con distribucin normal de media el valor real

y una varianza que se asume conocida

60
Observamos en los distintos ejemplos que las variables pueden ser aleatorias o no, las relaciones linea-
les o no y que cuando no son lineales pueden eventualmente existir transformaciones de las variables que
llevan a relaciones lineales.

Se presenta a modo de introduccin un enfoque terico de la regresin funcional, para luego presentar
el caso lineal sobre valores muestrales con ms detalle. Se usarn dos mtodos de estimacin para el caso
lineal:

El mtodo matemtico de ajuste de los mnimos cuadrados, que permite estimar los coeficientes del
modelo lineal a partir de valores observados. En este caso no se toma en cuenta la aleatoriedad de
las variables en la estimacin del modelo.

El mtodo de mxima verosimilitud basado en un modelo probabilstico normal, que permite justifi-
car el mtodo de mnimos cuadrados y discutir las propiedades de los estimadores y la precisin del
ajuste.

Finalmente se usar el modelo lineal para predecir. Se enfatizar en los aspectos geomtricos del problema
y como hacer una crtica de los supuestos probabilsticos usuales.

3.2. Modelo terico condicional.


Proposicin 3.2 Sean la v.a. Y R y el vector aleatorio X R p . El mnimo de E{(Y f (X))2 } se alcanza
en f (X) = E(Y |X).

Dem: Geomtricamente, en el espacio de Hilbert L2 (R p ) tomando como producto escalar

< U,V >= E(UV t )

E(Y |X) es la proyeccin ortogonal de Y sobre el subespacio L2 (X) generado por las funciones de X.
La funcin que vamos a minimizar se denomina Error Cuadrtico Medio (ECM), y el problema a
resolver es:
mn E{(Y g(X))2 }
gL2 (X)

Consideremos f (X) = E(Y |X)y sea g(X) L2 (X), se tiene:

E{(Y g(X))2 } = E{(Y f (X))2 } + 2E{(Y f (X))( f (X) g(X)) + E{( f (X) g(X))2 }

pero
E{(Y f (X))( f (X) g(X))} = E{( f (X) g(X))E{(Y f (X))|X}}
y dado que f (X) g(X) es independiente de Y y E{(Y f (X)|X) = 0 por definicin de esperanza condi-
cional, de donde podemos concluir que:

E{(Y g(X))2 } = E{(Y f (X))2 } + E{( f (X) g(X))2 }


E{(Y f (X))2 }

para toda g(X) L2 (X) por lo que f (X) = E(Y |X) resulta ser un mnimo, que es lo que queramos demos-
trar.

61
Un ndice para medir la calidad del modelo est dado por el coeficiente de correlacin entre Y y E(Y |X)
cuyo cuadrado es:

V{E(Y |X)}
Y2 |X Cor2 (Y, E(Y |X)) = (3.6)
V(Y )
V()
= 1 (3.7)
V(Y )

donde = Y E(Y |X), y entonces


V() = (1 Y2 |X )V(Y ).
de aqu que si || 1 se tiene que E(Y |X) resulta ser una buena aproximacin de la variable aleatoria Y .

En efecto, veamos que se satisface la relacin 3.6, por definicion de covarianza tenemos:

Cov(Y, E(Y |X)) = E[(y E(Y ))(E(Y |X) E(Y ))]


como E((X,Y ))) = EX {EY |X ((X,Y )|X)} se tiene:

Cov(Y, E(Y |X)) = EX {E{(Y E(Y ))(E(Y |X) E(Y ))|X}}

Ahora bien:

E{(Y E(Y ))(E(Y |X) E(Y ))|X} = (E(Y |X) E(Y ))(E(Y |X) E(Y )) = (E(Y |X) E(Y ))2

y
Cov(Y, E(Y |X)) = EX {(E(Y |X) E(Y ))2 } = V(E(Y |X))
Finalmente
V(E(Y |X))2 V(E(Y |X))
Cor2 (Y, E(Y |X)) = =
V(Y )V(E(Y |X)) V(Y )
En el caso lineal f (X) = E(Y |X) = T X y E() = 0.

Minimizar V() equivale a tomar Cov(, X) = 0. Luego Cov(Y, X) = V(X) en donde = (V(X))1 Cov(Y, X):

V(Y ) = V{E(Y |X)} + V().

3.3. Estimacin de los parmetros del modelo lineal


Sean {(yi , xi,1 , xi,2 , . . . , xi,p )|i = 1, 2, . . . , n} los valores obtenidos sobre una muestra aleatoria simple de
tamao n del vector (Y, X1 , X2 , . . . , Xp ) de R p+1 . Se plantea el modelo lineal:

E(Y |X) = (xi,1 , xi,2 , . . . , xi,p )) = 0 + 1 xi,1 + 2 xi,2 + + p xi,p .

consideraremos aqu el vector X como no aleatorio.

Se denota xi = (xi,1 , xi,2 , . . . , xi,p ) i = 1, 2, . . . , n y se supone sobre los errores: i = yi E(Y )


N(0, 2 ), independientes entre si e independientes de los xi . Tenemos entonces p + 2 parmetros a es-
timar, que son 0 , 1 , . . . , p y 2 . Se muestran dos mtodos de estimacin: el mtodo de ajuste de los
mnimos cuadrados y el mtodo de mxima verosimilitud.

62
3.3.1. Solucin de los mnimos cuadrados
Se busca minimizar una funcin de los errores, como por ejemplo:
p n
2i , |i |, max{i }
i
i=1 i=1

el criterio de los mnimos cuadrados toma como funcin ni=1 2i cuya solucin es fcil de obtener y que
tiene una interpretacin geomtrica simple. Primero escribiremos matricialmente el modelo aplicado a la
muestra de observaciones.

y1 1 x1,1 x1,2 . . . x1,p 0 1
y2 1 x2,1 x2,2 . . . x2,p 1 2
Sea Y = . , X = . , = , = .. .

.. .. .. .. ..
.. .. . . . . . .
yn 1 xn,1 xn,2 . . . xn,p p n

entonces el modelo se escribe


Y = X + .
El criterio de los mnimos cuadrados consiste en buscar la proyeccin ortogonal sobre el subespacio vec-
torial generado por las columnas de la matriz X, ie W = Im(X) Rn , la cual se obtiene de imponer que
la derivada de = Y X con respecto a X sea igual a cero, pues buscamos que la distancia entre entre el
hiperplano y la variable Y sea mnima, con esto se obtienen las denominadas ecuaciones normales con la
mtrica usual:
X t X = X t Y

Este sistema de ecuaciones lineales tiene una solucin nica cuando las columnas de X son linealmente
independientes, es decir que forman una base del subespacio vectorial W , o equivalentemente que el rango
de X sea igual a p + 1. En este caso la solucin de los mnimos cuadrados es igual a:

= (X t X)1 X t Y.

Se deduce que el operador de proyeccin ortogonal P sobre W , es un operador lineal idempotente de orden
2 y simtrico (por qu?), y se escribe matricialmente como:

P = X(X t X)1 X t

Si el rango de X es inferior a p+1, basta encontrar una base de W entre las columnas de X, y reemplazar
X por X1 la matriz formada por estas columnas linealmente independientes. Se observar que si bien no
es necesariamente nico, Y = X = PY y = Y X = (I P)Y lo son (ver 3.7). Si bien la manera de
entender y plantear este problema resulta ser bastante sencillo, tiene un problema puesto que no es posible
obtener una estimacin de la varianza de los errores 2 .

3.3.2. Solucin de mxima verosimilitud


El mtodo anterior permite estimar los coeficientes j usando un criterio matemtico que permite
ajustar el mejor hiperplano afn de R p+2 utilizando un criterio para minimizar el error. En esta seccin
usaremos el mtodo de mxima verosimilitud que a diferencia del anterior, involucra la aleatoriedad de los
errores en la resolucin. El modelo es:

E(Y ) = 0 + 1 X1 + + p Xp = X

63
con Y = E(Y ) + = X + y se supone que Nn (0, 2 In ). La funcin de verosimilitud, recordando que
es la densidad conjunta de los errores, queda con la forma:
  n2  
1 1 t
f (1 , 2 , . . . , n ) = exp 2
22 2
  n2  
2 1 1 t
f (1 , 2 , . . . , n ; , ) = exp 2 (Y X) (Y X)
22 2

pues = Y E(Y ). Calculemos el estimador de mxima verosimilitud de , tomando primero logaritmo


sobre la funcin de verosimilitud:
ln f (Y X)t (Y X)
=0 =0

(X t X) = X T Y

que corresponden a las Ecuaciones Normales. Como uno de los prametros de la funcin de verosi-
militud es la varianza 2 , planteamos de igual forma la ecuacin para encontrar su estimador 2 :

ln f t (Y X )
(Y X )
2
= 0 2 =
n
n
1
2 = 2i
n i=1

De aqu podemos concluir que la funcin de verosimilitud es mxima cuando se


puesto que = Y X .
cumplen las siguientes condiciones:

(X t X) = X t Y
1 n 2
2 = i
n i=1

Esta ltima expresin es denominada varianza residual y corresponde a la varianza emprica de los i .

As el estimador de los mnimos cuadrados de es igual al estimador de mxima verosimilitud cuando


se supone que Nn (0, 2 In ).

3.4. Propiedades del estimador


solucin de las ecuaciones
Mostramos en esta seccin una serie de propiedades que tiene el estimador ,
normales, que estn ligadas a los supuestos hechos sobre los errores i .

Proposicin 3.3 (Propiedades) Supongamos que X es de rango completo, luego se tienen las siguientes
propiedades:

1. El estimador es un estimador insesgado de :


=
E() = 0 E(Y ) = X E()

2. El estimador Y = PY = X es un estimador insesgado de X.

3. Nn (0, 2 In ) Y Nn (X, 2 P) donde P era el proyector ortogonal sobre W en Rn .

64
4. Nn (0, 2 In ) Nn (o, 2 (In P)), con ortogonal a W o independiente de X.

5. Np+1 (, 2 (X t X)1 ).

1 n 2
6. i es un estimador sesgado para 2 .
n i=1
n
7. es independiente de 2i .
i=1
n
1
8. es un estimador consistente para y 2 = 2i es consistente para 2 .
n p 1 i=1

Dem: Se presenta solo la demostracin de la propiedad 6, las dems quedan como ejercicio para el lector.
El estimador es sesgado puesto que:
!
n
E 2i X = (n p 1)2 (3.8)

i=1

luego
n
1
2 = 2
n p 1 i=1 i
resulta ser un estimador insesgado para 2 . Ahora bien la expresin 3.8 proviene del hecho que

= (In P)Y = (In P)X + (In P) = (In P).


Luego
t = t (In P) = Traza((In P)t )
y
E(t ) = 2 Traza((In P)) = (n p 1)2
que era lo que queramos demostrar.

Uno de los resultados importantes en esta seccin es la optimalidad que tiene el estimador bajo
ciertas condiciones, que se traduce en el Teorema de Gauss-Markov. Primero introducimos una nocin
para comparar matrices:

Definicin 3.1 Sean A, B Mn (R). Se dice que A B si y solamente si B = A + C, en donde C es semi-


definida positiva

Teorema 3.1 (Teorema de Gauss-Markov) Si E() = 0 y E(T ) = 2 In , entonces tiene varianza m-


nima entre los estimadores insesgados de , lineales en Y . Adems si Nn (0, 2 In ), entonces tiene
mnima varianza entre todos los estimadores insesgados de .

Dem: Si entre los estimadores insesgados de y lineales en Y , tiene la varianza ms pequea, hay que
mostrar que:
= GY : E( ) = V() V( ).

Sea = AY una solucin de las ecuaciones normales, entonces = + DY , en que D = G A.

65
= E(DY ) = 0 y como Y = X + entonces
Como los dos estimadores son insesgados, E( )

DX = 0. Calculemos la varianza de :
+ V(DY ) + 2Cov(,
V( ) = V() DY )

en donde
DY ) = E((DY
Cov(, t Dt )
)t ) = E(Y
= E((X t X)1 X t YY t Dt )
= (X t X)1 X t E(YY t )Dt
= (X t X)1 [V(Y ) + E(Y )E(Y )t ]Dt revisar
= 0
+ 2 DDt en donde DDt es semi-definida positiva.
Finalmente V( ) = V()

Si adems los errores siguen una distribucin normal, el estimador es de mnima varianza entre todos
los estimadores insesgados de . En efecto la cantidad de informacin de Fisher de la muestra multivariada
para el parmetro es:
1
In () = 2 X t X

y el estimador tiene una matriz de varianza igual a 2 (X t X)1 . Luego se obtiene la igualdad en la de-
sigualdad de Cramer-Rao, lo que concluye la ltima aseveracin.

Se obtiene faclmente una generalizacin de este teorema cuando V() = , donde se supone que es
invertible. El estimador de mnima varianza es entonces:

= (X t 1 X)1 X t 1Y

que se interpreta como la proyeccin ortogonal en el sentido de la mtrica 1 (Vea esto como un ejercicio
propuesto).

3.5. Calidad del modelo


Para ver si el modelo es vlido, se deben realizar varios estudios, entre los que se cuentan: la verifica-
cin de los supuestos sobre los errores, la forma y significacin de las dependencias y el aporte de cada
variable explicativa. Lo que se har estudiando, mediante grficos, ndices y test de hiptesis, adems no
solamente se debe verificar la calidad del modelo global y el aporte individual de cada variable explicativa,
sino que tambin el aporte de un grupo de m variables explicativas cualquiera.

3.5.1. Calidad global del modelo.


Los residuos i dan la calidad del ajuste para cada observacin de la muestra. Pero es una medida
individual que depende de la unidad de medicin, para evitar este problema un ndice adecuado es :
n
y2i
i=1
n
y2i
i=1

66
que representa el cuadrado del coseno del ngulo del vector Y con el vector Y en Rn (Figura 3.1).

Existen tres varianzas que son candidatas para comparar y que colocamos a continuacin:
1 n 2
Varianza residual: i .
n i=1

1 n
Varianza explicada por el modelo: (yi y)2 .
n i=1

1 n
Varianza total: (yi y)2 .
n i=1

Figura 3.1: Proyeccin del vector Y en W

Un ndice estadsticamente ms interesante es el coeficiente de correlacin mltiple R o su cuadrado,


el coeficiente de determinacin:
n
(yi y)2
i=1
R2 = n
(yi y)2
i=1
que compara la varianza explicada por el modelo con la varianza total. El coeficiente de correlacin ml-
tiple R tambin denominado coeficiente de correlacin lineal entre Y e Y 5 satisface, de su definicin, que
su valor est comprendido entre 0 y 1, as cuando R = 0, se obtiene que yi = y i ie, la mejor estima-
cin para los valores yi corresponde a la media muestral de los valores yi y en consecuencia las variables
no explican nada en el modelo. En cambio cuando R es igual a 1, el vector Y pertenece al subespacio
vectorial W = im(X), es decir que existe un modelo lineal que permite escribir las observaciones yi exac-
tamente como combinacin de las variables explicativas. Como este ultimo caso corresponde a un valor
extremadamente favorable y que en general no se tiene, se utiliza como referencia un valor de R cercano a
1, para decir que el modelo es bueno y que los valores estimados yi ajustan bien a los valores observados yi .

Para el caso general se tiene:


kY y1n k
Corr(Y, Y ) = max Corr(Y, Z) =
Z=X kY y1n k
5 Esto pues estamos planteando una relacin de tipo lineal para Y

67
en donde 1n es el valor de la bisectriz de Rn de componentes todas iguales a 1.

Ahora bien tal como se estudio en el captulo pasado, la idea es poder comprobar las hiptesis que
hemos supuesto sobre modelo completo. De esta manera se plantea la hiptesis global:

H0 : 1 = 2 = = p = 0 H0 : E(Y ) = 0 1n

esta hiptesis se interpreta como que los valores de las p variables explicativas no influyen en los valores
de Y . Nuestro objetivo ahora es descubrir cuales son los estadsticos que utilizaremos para decidir el test.
Recordando que Nn (0, 2 (In P)) e Y Nn (X, 2 P), y suponiendo que r es el rango de la matriz X,
se tiene:
n
2i (n r)2
i=1
= nr .
2 2
Notemos que bajo la hiptesis H0 se tiene que Y |H0 Nn (1 1n , 2 P) que es equivalente a que 0 = y,
de donde se puede deducir que:

n  2 n  2
yi 0 yi y
= 2r1
i=1 i=1
2
1 n 2 n yi y

Adems yi y son independientes. Se tiene entonces que bajo la hiptesis nula H0 :
2 i=1 i=1
n
(yi y)2 /(r 1)
i=1
F n Fr1,nr
2i /(n r)
i=1

en donde Fr1,nr es la denominacin usual para una distribucin de Fisher a r 1 y n r grados de


libertad. De la definicin de F es posible deducir una expresin para este en funcin del coeficiente de
correlacin mltiple R, la cual enunciamos a continuacin:

(n r)R2
F= .
(r 1)(1 R2 )

De los desarrollos hechos la regin crtica para la hiptesis nula H0 : E(Y |X) = 0 1n contra la hiptesis
alternativa H1 : E(Y |X) = X con un nivel de significacin queda definida por

r = {F > c } donde c satisface


P(Rechazar H0 |H0 es cierto) = P(Fr1,nr > c ) =

Cuando se rechaza H0 , es decir cuando se encuentra un valor de F en la muestra mayor que c , se


declara el modelo globalmente significativo.

En la prctica, se define la Probabilidad crtica o p-valor que corresponde al valor pc que satisface
P(Fr1,nr > F) = pc . Si el valor de la probabilidad crtica pc es bajo con respecto a algn valor de
referencia dado, entonces se rechaza H0 , es decir se declara el modelo como significativo y alguna de
las variables X j si incide en el valor de Y . Caso contrario por supuesto no se rechaza H0 pues puede que
ninguna de las variables incida en el valor de Y .

68
3.5.2. Medicin del efecto de cada variable en el modelo
En la seccin anterior revisamos cual era el efecto global de las variables del modelo, lo cual nos im-
pide distinguir del aporte significativo que tenga cada una de ellas, para esto se realizan test de hiptesis
asociados con cada una de ellas.

Para realizar estos test suponemos que las variables explicativas son independientes, adems recorde-
mos que el efecto asociado a la variable X j se mide con el trminoX j j . Gracias a estos test se observar
que el modelo lineal es invariante por el cambio de escalas de mediciones.

Consideramos las hiptesis:

H0 : j = 0
H1 : j 6= 0

Recordando que:

j N( j , 2j ) con
2 = Var( j ) = 2 (X t X)1
j j, j

sujeto a considerar un modelo con matriz X de rango completo. Luego se tiene que:

j j
N(0, 1)
j

Por otra parte, como:


(n r) j j
2
2nr = tnr .
j
y bajo la hiptesis nula H0 : j = 0 se tiene que:

j
tnr .
j

donde tnr es la denominacin usual de una distribucin t- student a n r grados de libertad. Note que
gracias a esto es posible deducir intervalos de confianza para cada uno de los j .

Luego si la probabilidad crtica o P-valor definida como:


!
j
P |tnr | > = pc
j

es grande, no se rechaza H0 y si es pequea se rechaza H0 , lo que en este caso muestra un efecto significa-
tivo de la variables X j sobre Y .

Estos test individuales sobre los efectos tienen validez cuando las variables explicativas son relativa-
mente independientes. Cuando no es el caso, es decir cuando una variable X j puede tener un efecto sobre Y
distinto cuando se combina con otras variables, hay entonces que eliminar los efectos de las otras variables.
Para eso se puede usar el coeficiente de correlacin parcial que estudiaremos en la prxima seccin.

69
3.5.3. Coeficiente de correlacin parcial
El efecto de una variable X1 sobre la variable Y puede estar afectado por una tercera variable X2 cuando
X2 tiene efecto sobre X1 tambin. El estudio se basa entonces en las dos relaciones del tipo lineal:

X1 = X2 +
Y = X2 +

Donde y son los errores del modelo. La influencia de la variable X2 sobre las variables X1 e Y se
mide solamente a partir de los restos:

X1 X2 =
Y X2 =

Definicin 3.2 El coeficiente de correlacin parcial entre X1 e Y bajo X2 constante es el coeficiente de


correlacin entre los errores y :

(X1 ,Y |X2 ) = Corr(, )

Con esto, si X1 y X2 son muy correlacionados entonces la correlacin parcial entre X1 e Y es muy pe-
quea. En efecto X1 aporta casi ninguna informacin nueva sobre Y (o vice-versa) cuando X2 es conocida.

Se puede usar un grfico de los errores para medir los efectos y el tipo de efecto (lineal o no): en el
grfico (3.2) se presentan los errores de la regresin de X1 tomando como variable explicativa X2 , versus,
la regresin de Y tomando X2 . En (a) podemos decir que la variable X2 no tiene efecto sobre la variable Y
en presencia de la variable X1 ; pero en (b) la variable X2 aporta a la explicacin de la variable Y an si la
variable X1 es presente en el modelo.

Figura 3.2: Interpretacin de los errores y del coeficiente de correlacin parcial

Se puede generalizar a ms de 2 variables X j , j = 2, 3, . . . , q. Si


q q
X= jX j + Y= X j +
j=2 j=2

entonces se define el coeficiente de correlacin parcial entre X1 e Y , dadas las variables X j , por:

(X1 ,Y |X2 , X3 , . . . , Xq ) = Corr(, ).

70
Si las variables X j no tienen efecto sobre X1 e Y , es decir que las correlaciones Corr(X, X j ) y Corr(Y, X j )
son todas nulas, entonces (X,Y |X2 , X3 , . . . , Xq ) = Corr(X,Y ).

Se tiene una intertretacin geomtrica del coeficiente de correlacion parcial; pensemos en slo tres va-
riables, sean rX1 y rY los residuos de las regresiones de X1 e Y sobre X2 , ie r es el vector de las diferencias
entre los valores a estimar y su estimadores. Un clculo simple mostrar que rX1 y rY viven en el plano
perpendicular a X2 , entonces el coeficiente de correlacin es el coseno del ngulo entre ellos en ese plano.

En la misma direccin que el coeficiente de correlacin parcial definimos la matriz de varianza-


covarianza del vector X dado el vector Z cuando el vector conjunto es una normal:
     
X X XX XZ
N ,
Z Z XZ ZZ

Luego
V(X|Z) = XX XZ 1
ZZ ZX

En general y V no son conocidos, por lo cual se estiman con la matriz de varianza covarianza muestral
S, dando (considerando la misma descompocisin que en ):
1
V(X|Z) = SXZ = SXX SXZ SZZ SZX
Corr(X1 ,Y ) Corr(X1 , X2 )Corr(Y, X2 )
(X1 ,Y |X2 ) = p p
1 Corr(X1 , X2 )2 1 Corr(Y, X2 )2

Se usa el siguiente estadstico para estudiar la hipotesis nula H0 : (X,Y |X2 , X3 , . . . , Xq ) = 0:


s
n2k
t = (X1 ,Y |X2 ) tn2k
1 (X1 ,Y |X2 )

Bajo los supuestos de normalidad esta distribucin es exacta, si no, es slo es una aproximacin para
grandes muestras. Con este estadstico rechazamos H0 si |t| > C con C tal que P(tn2k > C) = /2, donde
es el nivel de significancia.

3.5.4. Efecto de un grupo de variables


Vimos como estudiar el efecto global de todas las variables explicativas y los efectos individuales, aqu
veremos el efecto de un grupo de k variables, sean X j1 , X j2 , . . . , X jk (k p), entre las p variables. El efecto
de estas variables se mide considerando las hiptesis:

H0 : j1 = j2 = = jk = 0
H1 : E(Y ) = 0 + 1 X1 + + p Xp

Si X jk+1 , X jk+2 , . . . , X j p son las restantes variables explicativas, bajo H0 , el modelo se escribe: Y =
0 + jk+1 X jk+1 + + j p X j p + o . Notar que la varianza residual bajo H1 , i 2i , menor que la varianza
residual bajo H0 , i 2oi .

Se puede estudiar el cociente de stas varianzas (i 2oi )/(i 2i ) o su complemento (i y2oi )/(i 2i ) en
donde yoi son las componentes del estimador E(Y |X) bajo H0 .

71
Bajo la hiptesis H0 se tiene que

(yi yoi )2 /k
i
Q= Fk,nr .
2i /(n r)
i

Lo que conduce a un test de regin crtica de la forma Q c .

Se puede considerar otra forma de escribir el problema. Sea la hiptesis nula H0 : E(Y ) = X0 W0 ,
con X0 de rango s, contra H1 : E(Y ) = X W . La hiptesis H0 equivale a (X X0 ) = 0 lo que corres-
ponde a k = p s + 1 ecuaciones independientes D = 0, en que D es de x p + 1 con rango k. Para que
el test tenga sentido, D no debe depender de una solucin particular de las ecuaciones normales.

Sean Y e Y0 las proyecciones Y sobre W y W0 , respectivamente, adems sean y 0 las medias bajo
kY Y k2 2
2 = kY Y k , sigue que, bajo H , se tiene np1 R2 F
H1 y H0 . Se define S2 = y R 0 k,nr .
kY Y k2 kY Y k2 k
nr 2
Con lo que la regin crtica es de la forma R > C con C tal que P( nr 2
k R > C) = ( el nivel de
k
significacia).
max L
Se puede plantear el test de razn de verosimilitudes tambin: = maxH0L . Demostraremos que la
regin crtica se escribe S > C0 y que ste test coincide con el test F. Cuando la varianza 2 es conocida,
la razn de verosimilitudes es igual a:
max L  
H0 1 2
= = exp 2 kY Y0 k .
max L 2

Luego la regin crtica del test se escribe usando el hecho que kY Y0 k2 > 2 2k , al tomar 2 desconocida,
caemos en el caso anterior, ie, usamos un estadstico basado en una F de Fisher.

3.5.5. Caso de una hiptesis lineal general


Sea la hiptesis nula H0 : A = c contra la hiptesis alternativa H1 : A 6= c, en donde A Mk,p+1 es
conocida y de rango k. Se supondr aqu un modelo de rango completo.

Sea = (X t X)1 X t Y el estimador de mxima verosimilitud sin restriccin y 0 el estimador bajo


H0 : A = c. Se obtiene 0 usando los multiplicadores de Lagrange:

Q = (Y X)t (Y X) + 2(A c)
Q
= 0 X t X 0 = X t Y + At
0 = (X t X)1 (X t Y + At )
= + (X t X)1 At .

Utilizando la restriccin A 0 = c, obtenemos que = [A(X t X)1 At ]1 (c A)


0 = + (X t X)1 At [A(X t X)1 At ]1 (c A)


Sean P0 y P los proyectores asociados respectivamente a X 0 y X ,


es decir tales que P0Y = X 0 y Py = X .

Entonces

P0Y = PY + X(X t X)1 At [A(X t X)1 At ]1 (c A).
Sea la varianza residual del modelo sin restriccin: V = (Y X ) t (Y X )
y la varianza residual bajo
t
H0 : T = (Y X 0 ) (Y X 0 ). Como T V , consideraremos U = T V para compararlo a V .

72
Proposicin 3.4 La diferencia de las varianzas residuales con y sin restriccin es:

U = (A c)t [A(X t X)1 At ]1 (A c)

U
Adems, bajo la hiptesis nula 2
2k .

Dem:
U := (Y X 0 )t (Y X 0 ) (Y X )
t (Y X )
= Y t (P P0 )Y.

sigue el resultado.
Reemplazando P0Y = PY + X(X t X)1 At [A(X t X)1 At ]1 (c A)

Por otro lado como A es de rango igual a k, A Nk (A, 2 A(X t X)1 At ), luego U
2
2k .

Como es independiente de V = i 2i , usamos como el estadstico del test:

U/k
Fk,np .
V /(n p)

3.6. Anlisis de los residuos


Se supone que el efecto de numerosas causas no identificadas est contenido en los errores, lo que
se traduce como una perturbacin aleatoria. De aqu los supuestos sobre los errores, que condicionan las
propiedades del estimador. Es importante entonces comprobar si los supuestos se cumplen.

La mejor forma de chequear si los errores son aleatorios de medias nulas, independientes y de la misma
varianza, consiste en estudiar los residuos

i = 1, 2, . . . , n : i = yi j xi, j
j

considerandolos como muestra i.i.d. de una distribucin normal.

Se puede usar el grfico (Yi , i ), que debera mostrar ninguna tendencia de los puntos, o bien construir
test de hiptesis sobre los errores. En el grfico de la izquierda de la figura 3.3 se puede ver los residuos
aleatorios independientes de Y, lo que no es el caso de los residuos del grfico de la derecha.

Si el supuesto que los errores son N(0, 2 ) no se cumple, tenemos que estudiar el efecto que esto tiene
sobre la estimacin de los parmetros y sobre los tests de hiptesis, adems tenemos que detectar si este
supuesto es cierto o no y corregir eventualmente la estimacin de los parmetros y tests.

Vimos donde interviene el supuesto de normalidad en la estimacin de los parmetros del modelo y en
los tests de hiptesis para verificar la significacin de las variables en el modelo. Este tema se relaciona
con el concepto de la robustez (ver MILLER R.G. (1986), Beyond ANOVA, Basics of Applied Statistics).
La teora de estimacin y de test de hiptesis se basa en supuestos sobre la distribucin de poblacin.
Por lo tanto si estos supuestos son inexactos, la estimacin o la conclusin del test sera distorsionada. Se
buscan entonces mtodos que sean lo menos sensibles a la inexactitud de los supuestos. Se habla entonces
de robustez del mtodo.
Se divide el estudio en dos partes: la normalidad y la igualdad de las varianzas de los errores.

73
Figura 3.3: Grficos de residuos

3.6.1. Estudio de la normalidad de los errores


Si no se cumple la normalidad de los errores, los efectos sobre la estimacin o tests relativos a los
parmetros son pequeos, pero son ms importantes sobre los tests relativos a coeficiente de correlacin.
El problema es ms agudo en presencia de observaciones atpicas.

Tenemos entonces que verificar la hiptesis nula Ho : i N(0, 2 ) o sea si ui = i /, H0 : ui N(0, 1).
Esto sugiere comparar la funcin de distribucin emprica Fn de los residuos normalizados con la funcin
de distribucin de la N(0, 1).

Sea F la funcin de distribucin de la N(0, 1) (que es invertible), entonces si los ui provienen de


N(0, 1), F 1 (Fn (ui )) ui . Consideramos entonces los estadsticos de orden de los ui , que son los residuos
normalizados ordenados de menor a mayor: sea u(1) u(2) ... u(n) . La funcin de distribucin emprica
es entonces:

card{u(i) u}
Fn (u) =
n
Se define los cuantiles empricos qi = F 1 (Fn (u(i) ). Notemos que Fn (u(i) ) = Fn ((i) ).

Si Fn se parece a F, los puntos (ui , qi ) deberan ser colineales (sobre la primera bisectriz). Este grfico
se llama probit o recta de Henri ( grfico 3.4).
Si los puntos en ell grfico probit aparecen como no lineal, se rechaza la normalidad de los errores y
se puede corregir utilizando la regresin no paramtrica o bien otras alternativas segn la causa de la no
normalidad: no simetra, observaciones atpicas, etc..

3.6.2. Test para la igualdad de las varianzas


Queremos probar el supuesto de igualdad de varianzas u homocestacidad. En rigor queremos probar la
validez de la hiptesis nula H0 : V(|X1 , . . . , Xp ) = 2 , como E() = 0, podemos escribir la hipotesis nula

74
Figura 3.4: Recta de Henri

como:
E(2 |X1 , . . . , Xp ) = E(2 ) = 2
En este contexto, tenemos que la esperanza condicional de los errores sobre las variables corresponde
a:
2 = 0 + 1 X1 + . . . + p Xp + ui
Luego se puede pensar en lo anterior como una regresin para 2 usando las variables explicativas.
H0 implica que todos los coeficientes son iguales a 0, y esto equivale a hacer un test usual F sobre la
importancia de la regresin de 2 sobre las variables X (ver 3.5.1). Como no es conocido, se usan los
estimados durante la regresin original, .

3.7. Caso de modelo de rango incompleto.


Vimos que en el caso de una matriz X de rango r menor que p + 1, la solucin de las ecuaciones nor-
males no es nica, se habla en este caso de modelo de rango incompleto. Construyendo una solucin de
las ecuaciones normales a partir de una inversa generalizada A = (X t X) no se obtiene necesariamente un
estimador insesgado de . En efecto, si es una solucin de las ecuaciones normales, ie (X t X) = X t Y ,
entonces = AX t Y y sique que E()
= AX t E(Y ) = AX t X.

Sin embargo, Y = X = (XAX t )Y es nico, dado que XAX t no depende de la inversa generalizada
= (XAX t )X = X. Los vectores Y de las predicciones y de los residuos son
A. Luego E(Y ) = E(X )
invariantes e insesgados y 2 = (Y t (1 XAX t )Y )/(n r), el estimador de 2 , lo es tambin.

Se presentan tres enfoques para estudiar estos modelos de rango incompleto

mediante un modelo reducido;

a partir de funciones estimables;

mediante restricciones identificables sobre los coeficientes del modelo.

Tambin se vern las relaciones que existen entre estos mtodos.

75
3.7.1. El modelo reducido.
Sea X de rango r (r < p + 1) y U Mr,p+1r tal que si X = (X1 |X2 ) con X1 de rango completo r,
X2 = X1U. Entonces, si = (1 2 )t :

X = X1 1 + X2 2 = X1 (1 +U2 ) = X1 +

El modelo se escribe entonces: Y = X + = X1 + + , que es un modelo de rango completo sobre X1


equivalente al modelo de rango incompleto:

+ = 1 +U 2 = (X1t X1 )1 X1t Y


E( + ) = +
V(+ ) = 2 (X1t X1 )1

3.7.2. Funciones vectoriales estimables


Definicin 3.3 Sea R p+1 el espacio vectorial de los parmetros y G = Rk . Una aplicacin lineal H :
R p+1 Rk es estimable si existe una aplicacin lineal L : Rn G tal que E(LY ) = H.

Veamos a continuacin algunas condiciones para que H sea estimable.

Teorema 3.2 Una condicin necesaria y suficiente para que H : E G sea estimable es que existe L
l(Rn , Rk ) (ie L Mk,n ) tal que LX = H.

Dem:

H es estimable L l(Rn , Rk ) tq E(LY ) = H


E(L(X + )) = H
LX = H

Figura 3.5: Definicin de funcin estimable

Teorema 3.3 Una condicin necesaria y suficiente para que H sea estimable es que Ker(X)Ker(H).

Dem:
() Si H es estimable, L l(Rn , Rk ) tq LX = H; luego si X = 0 H = 0, ie Ker(X)Ker(H).

() Si Ker(X)Ker(H), se tiene que si X = 0 Hb = 0 L Mk,n : LX = H = 0.


Tomar F R p+1 de manera que R p+1 = Ker(X) F, as X es un isomorfismo sobre W := Im(X) =
X(R p+1 ) = X(F) Rn . Entonces a todo Y W corresponde un solo F tal que Y = X.
Con lo anterior podemos definir L para Y = YX +Y2 Rn , con YX W (nico), como LY = H, donde el
nico elemento asociado a YX del cual se habl, luego, LX = H. Se deduce entonces que H es estimable.

76


Corolario 3.1 Del teorema anterior siguen los siguientes resultados.

1. Sea una solucin de las ecuaciones normales. Si H es estimable, entonces H no depende de la


solucin particular elegida. Se tiene adems H es insesgado para H.

2. Si se busca un estimador insesgado de , el modelo tiene que ser de rango completo.

3. En un modelo de rango completo, toda funcin vectorial de X es estimable.

Dem:

1. En efecto, = 0 + 1 en que 0 Ker(X), y 1 F. Luego 0 Ker(H), con lo que H = H 0 +


H 1 = H 1 que es invariante ya que la descomposicin es nica. Adems LX = H no depende de
L.

2. En este caso H es la identidad en R p+1 , luego Ker(H) = {0} Ker(X) = {0}, ie X debe tener rango
completo.

3. Directo del punto anterior.

Aplicacin al modelo de rango incompleto.


Sea X de rango r y X = (X1 |X2 ) en que X1 es de rango completo, r, y X2 = X1U. Sea = (1 2 )t
la descomposicin de tal que X = X1 1 + X2 2 . Sea 1 L1 de dimensin r y 2 L2 de dimensin
p + 1 r, entonces + = 1 +U2 L1 .

Figura 3.6: Definicin de U, X1 , X2 , 1 , 2 .

Teorema 3.4 Una condicin necesaria y suficiente para que H l(R p+1 , Rk ) sea estimable es que H2 =
H1U, en donde H1 y H2 son las restricciones de H a L1 y L2 .

Dem:

Figura 3.7: Demostracin teorema 3.4

77
Si H es estimable, existe L tal que LX = H y adems LX1 = H1 y LX2 = H2 . Sigue que

LX = L(X1 1 + X2 2 ) = LX1 1 + LX2 2 = H1 1 + H2 2

Pero LX2 = LX1U, por lo tanto H2 = H1U.


Recprocamente, si H2 = H1U, mostramos que se puede construir L tal que LX = H. Observemos que
basta construir L sobre Im(X).

X1 es de rango completo, luego Y Im(X) ! 1 L1 tq Y = X1 1 . Definimos L tal que LY =


LX1 b1 := H1 1 , con lo que, con notaciones obvias:

R p+1 : LX = L(X1 1 + X2 2 ) = L(X1 1 + X1U2 ) = H1 (1 +U2 ) = H

Luego H es estimable.

El siguiente teorema nos muestra la optimalidad del estimador para el caso en que se tienen funciones
estimables, tal como se hizo en el modelo de rango completo donde estudiamos el Teorema de Gauss-
Markov

Teorema 3.5 Si H es una funcin vectorial estimable, el nico estimador lineal insesgado de mnima
varianza de H es H en donde es cualquier solucin de las ecuaciones normales.

Dem:

H = H1 1 + H2 2 = H1 +
H = H1 +
= V(H1 + ) = 2 H1 (X t X1 )1 H t
V(H ) 1 1

Y esto no depende de la particin X en X1 y X2 .

Estudio imponiendo restricciones.



Si el rango de X es igual a r < p + 1, se tiene p + 1 r grados de indeterminacin en la eleccin de .
Se puede levantar esta indeterminacin imponiendo p + 1 r restricciones lineales independientes sobre
de manera que conociendo Y , se obtenga un nico estimador de tal que Y = X .
,

Las restricciones son de la forma K = 0 con K M p+1r,p+1 , K es de rango s = p + 1 r.


Se tiene entonces que estimar con tal que

Y = X con la restriccin K = 0. (1)

Veamos que esta condicin nos asegura de obtener la unicidad con cualquier K de rango s (seguimos
usando la misma notacin que el punto anterior).

Teorema 3.6 Considerando K1 y K2 las restricciones de K a L1 y L2 , la condicin necesaria y suficiente


para que (1) tenga una solucin nica es que K2 K1U sea invertible.

78
Dem:
La solucin de (1) puede escribirse usando la particin X = (X1 , X2 ), = X1t X1 )1 X1t Y :
( (
+ = 1 +U 2 1 = + U 2

0 = K1 1 + K2 2 (K2 K1U) 2 = K1 +
Este ltimo sistema de ecuaciones tiene una solucin nica si y solo si K2 K1U es invertible.

Obs:
K no puede ser estimable en este caso. Si lo fuera K2 = K1U y 2 no es nico.

Si H es estimable, H no depende del estimador solucin de las ecuaciones normales por lo tanto
de las restricciones elegidas.
Dos maneras de encontrar la solucin de (2):
1. Como Kb = 0, se puede escribir las ecuaciones normales de la forma:

(X t X + MK) K = X t Y

en donde M es una matriz tal que X t X + MK invertible. El problema es el de encontrar esta matriz
M.

2. La otra manera , ms operativa, consiste en construir el modelo aumentado:


 t
X X Kt
   t 
XY
= .
K 0 0 0
 t
X X Kt C Pt
  
Si la matriz aumentada A = 1
es invertible, al escribir su inversa como A = ,
K 0 P Q
entonces = CX t Y .

3.8. Prediccin.
Si se tiene una nueva observacin para la cual se conocen los valores de las variables explicativas, sean
x0,1 , x0,2 , . . . , x0,p , pero se desconoce el valor Y0 de la variables respuesta, se puede entonces usar el modelo
para inferir un valor para Y0 a travs de su modelo esperado:

0 = E(y0 ) = xt0

en que xt0 = (x0,1 x0,2 . . . x0,p ).


Si es el estimador de obtenido sobre las antiguas observaciones, se estima 0 dados los valores
tomados por las variables explicativas por:

0 = E(y0 ) = xt0 .

Se puede calcular un intervalo de confianza para 0 : la distribucin de y0 es N(0 , 2 xt0 (X t X)1 x0 ),


y0 0
luego p t tnp1 . Se usa este estadstico para construir un intervalo de confianza de nivel
x0 (X t X)1 x0
1 para 0 :
 q q 
/2 t t 1 /2 t t 1
P y0 tnp1 x0 (X X) x0 0 y0 + tnp1 x0 (X x) x0 = 1

79
Un problema distinto es estimar un intervalo para y0 . Hablamos de un intervalo para la prediccin. En este
caso hay que tomar en cuenta la varianza de la variable aleatoria y0 :

y0 = y0 + 0 .

La varianza de 0 es igual a: 2 + 2 xt0 (X t X)1 x0 . Un intervalo de prediccin para y0 se obtiene entonces


y0 y0
a partir de p tnp1
1 + (xt0 (X t X)1 x0 )
El intervalo es entonces definido por:
 q q 
/2 t t 1 /2 t t 1
P y0 tnp1 1 + x0 (X X) x0 yo y0 + tnp1 1 + x0 (X X) x0 = 1 .

3.9. Intervalos simultanos y regiones de confianza.


Vimos que los test de hiptesis sobre los parmetros individualmente no son adecuados en general. Por
la misma razn, no se construye en general intervalo de confianza para cada parmetro por separado. Se
propone construir regiones de confianza o intervalos simultneos de confianza.

3.9.1. Regiones de confianza.


Vemos aqu intervalos o regiones de confianza para parmetros individualmente o para funciones de
los parmetros.

Para cada parmetro j del modelo lineal, se puede construir un intervalos de confianza utilizado:

j j
tnr
j

en donde 2j es la estimacin de V( j ) = 2 (X t X)1 2 t 1


j j ; es decir j (X X) j j . El intervalo de confianza de
nivel de confianza igual a 1 es: h i
j tnr j , j + tnr j
/2 /2

at at
Para una combinacin lineal del vector : q tnr , el intervalo de confianza queda:
at (X t X)1 a
 q q 
t /2 t t 1 t /2 t t 1
a tnr a (X X) a, a + tnr a (X X) a


1 0 0 0
Ejemplo 3.7 Sean p = 3, n = 18, (X t X)1 = 1n 0 2 1 , 22 = n y = 2 .
0 1 2 1
Las varianzas de 1 y 2 son: 21 = 0,5 y 22 = 1. Los intervalos de confianza individuales con 1 =
0, 95 para 1 y 2 son: 1 [0, 13; 4, 13] y 2 [1, 13; 3, 13].
Calculamos el intervalo para 1 2 : at = ( 0 1 1 ), as V(at ) = 3 1 2 [2, 691; 4, 691].
Ahora para 1 + 2 : at = ( 0 1 1 ); V(at ) = 1 1 + 2 [0, 891; 5, 131].
En la figura 3.8a se represent los dos intervalos de confianza individuales para 1 y 2 y en la figura
3.8b, las regiones de confianza para 1 2 y 1 + 2 .

80
Figura 3.8: (a) Intervalo para 1 y 2 (b) Intervalo para 1 2 y 1 + 2

3.10. Ejercicios.
1. Cuatro mdicos estudian los factores que explican porque hacen esperar a sus pacientes en la con-
sulta. Toman una muestra de 200 pacientes y consideran el tiempo de espera de cada uno el da de la
consulta, la suma de los atrasos de los mdicos a la consulta este mismo da, el atraso del paciente
a la consulta este da (todos estos tiempos en minutos) y el nmeros de mdicos que estn al mismo
tiempo es la consulta este da. Se encuentra un tiempo promedio de espera de 32 minutos con una
desviacin tpica de 15 minutos. Se estudia el tiempo de espera en funcin de las otras variables
mediante un modelo lineal cuyos resultados estn dados a continuacin:

Variable Coeficiente Desv. tpica t-Student P(|X| > t)


Constante 22,00 4,42 4,98 0,00
Atraso mdico 0,09 0,01 9,00 0,00
Atraso paciente -0,02 0,05 0,40 0,66
Nmero de mdicos -1,61 0,82 1,96 0,05
Coef. determinacin=0,72 F de Fisher=168 P(X > F) = 0, 000

Cuadro 3.1: Resultados de la regresin

a) Interprete los resultados del modelo lineal. Comente su validez global y la influencia de cada
variable sobre el tiempo de espera. Especifique los grados de libertad de las t de Student y la F
de Fisher.
b) Muestre que se puede calcular la F de Fisher a partir del coeficiente de determinacin. Si se
introduce una variable explicativa suplementaria en el modelo, el coeficiente de determinacin
sar ms elevado?
c) D un intervalo de confianza a 95
d) Predecir el tiempo de espera, con un intervalo de confianza a 95que llega a la hora un da que el
consultorio funciona con 4 mdicos que tienen respectivamente 10, 30, 0, 60 minutos de atraso.

81
2. Suponga que tenemos un modelo lineal Y = X + con Nn (0, 2 In ), R p+1 , X Mn,p+1 (R).

a) Escribamos X como: X = (X1 , X2 ), con X1 y X2 submatrices de X tales que X1tX2 = 0(la matriz
1
nula). El modelo inicial Y = X + se escribe Y = X1 1 + X2 2 + con = . Si 1 es
2
el estimador de mxima verosimilitud de1 enel modelo Y = X1 1 + y 2 es el estimador
1
de mxima verosimilitud de es igual a .
2
(Indicacin:  se1
usar el siguiente
 resultado: si A Mn,n (R) es una matriz diagonal por bloque,
A1 0
i.e. A1 = , con las submatrices A1 y A2 invertibles , entonces A es invertible, y
0 A1 2
 
A1 0
A1 = ).
0 A2
 
1
b) Si X1t X2 6= 0 y si se toma = como estimador de , que propiedad pierde bajjo el
2
supuesto usual E() = 0.

3. Consideremos tres variables Y , X, Z observadas sobre una muestra de tamao n = 40, Muestra =
{(yi , xi , zi ) tq i = 1, . . . , 40}. Se busca explicar Y linealmente a partir de X y Z.

a) Se representan los resultados de modelo lineal: yi = + xi + i , i = 1, . . . , 40: Interprete estos

Variable Medias Desv. tpica


Y 11,68 3,46
X 5,854 2,74
Constante Estimacin Dev. tpica estimacin t-Student P(|X| > t)
7,06 1,03 6,84 0,00
0,79 0,16 4,94 0,00
Coef. determinacin=0,39 F de Fisher=24,44 P(X > F) = 0, 000

Cuadro 3.2: Resultados de la regresin

resultados y efecte el test de hiptesis H0 : = 0.


b) D una estimacin insesgada para 2 la varianza de los errores de este modelo.
c) Comente el grfico de los residuos en funcin de los yi .
d) Se tiene una nueva observacin que toma sobre la variable X el valor x0 = 6, 50. D una esti-
macin y0 del valor y0 que toma sobre la variable Y .
e) Se presentan los resultados del modelo lineal: yi = + zi + i :
Se tiene xi zi = 0 y zi = 0.
i i
Muestre que si X1 = (1n |X) es una matriz formada del vector de unos y del vector de los xi
y X2 Z el vector formado de los zi , se tiene X1t X2 = 0. Usando los resultados del ejercicio 2
deduzca las estimaciones de los parmetros del modelo yi = 0 + 1 X + 2 Z + .

4. Se requiere ajustar una funcin escaln y = f (t) con f constante en los intervalos en que j = 0, . . . , K
y a0 < a1 < . . . < aK . Para ello se observan datos {(ti , yi ) i = 1, . . . , n}. Se asume que los yi son
mutuamente independientes y que la distribucin de los yi es N( f (ti ), 2 ).

a) Formule el problema anterior como modelo lineal.

82
Variable Medias Desv. tpica
Y 11,68 3,46
Z 0,00 2,65
Constante Estimacin Dev. tpica estimacin t-Student P(|X| > t)
11,68 0,36 32,54 0,00
1,00 0,14 7,27 0,00
Coef. determinacin=0,58 F de Fisher=52,78 P(X > F) = 0, 000

Cuadro 3.3: Resultados de la regresin

b) Obtenga la funcin ajustada por mnimos cuadrados.


Z aK
c) Concluya un intervalo de confianza para f (t)dt.
a0

5. Sea Y Rn un vector aleatorio con E(Y ) = y V(Y ) = 2 In . Se considera el modelo lineal Y =


X + , en que X Mn,p es de rango completo. Llamaremos W al subespacio de Rn conjunto imagen
de X e Y al estimador de mnimos cuadrados de = E(Y ).

a) Sea a W y a la recta generada por a. Se define H0 = {z W tq at z = 0} el suplemento


ortogonal de a en W . Se tiene entonces la descomposicin en suma directa ortogonal de W :
W = Ha a . Muestre
 que el estimador de mnimos cuadrados Y de en Ha se escribe como:
t
Y = Y a tY a.
aa
(bt b)2
b) Si b Rn , muestre que Var(bt Y ) = Var(bt Y ) 2 .
at a
2
i
c) Suponiendo que los errores son normales, d la distribucin de i
, en que i = Yi Yi .
2
Yi2 /p
i
d) Se considera el caso particular a = In . D la distribbucin de . Muestre que si
2
i /(n p)
i
las variables son centradas, Y = Y .

6. Teorema de Gauss-Markov generalizado

83
Si V(Y ) = , invertible, entonces el estimador insesgado de mnima varianza entre los estima-
dores lineales insesgados de es aquel que minimiza kY Xk21 .

a) Encuentre el estimador de mxima verosimilitud de y .


b) Demuestre el teorema.
c) Si el rango de X es igual a r, muestre que la norma del vector de residuos de un modelo lineal

kY Y k21 2nr

en donde Y la proyeccin 1 -ortogonal de Y sobre Im(X).

7. Sea el modelo lineal: yi = 0 + 1 xi,1 + + p xi,p + i , i = 1, 2, . . . , n. Matricialmente Y = X + ,


con rng(X) = p + 1, E() = 0, V() = 2 In .

n at
 
t
a) Se escribe X X = . D las expresiones de a y V . Muestre que V es definida positiva.
a V
!
n
Muestre que a es un vector nulo cuando las variables explicativas estn centradas j : xi, j = 0 .
i=1
Relacione los valores propios de V con los de V 1 .
n n
b) Muestre que V( j ) sujeto a j : xi, j = 0 y j : xi,2 j = c (c es una constante positiva)
j i=1 i=1
alcanza su mnimo cuando X t X es diagonal.
c) En qu difieren de las propiedades optimales obtenidas en el teorema de Gauss-Markov?
n n
d) Se supone que X t X es diagonal con j : xi, j = 0 y j : xi,2 j = c. Deducir las expresiones
i=1 i=1
V(),
de , Y . Exprese el coeficiente de correlacin mltiple R2 en funcin de los coeficientes
de correlacin lineal de Y con las variables explicativas X.

8. Sea el modelo lineal Y = X + , con X de rango completo pero X t X no diagonal.

a) D la expresin de una prediccin de la variable respuesta Y y un intervalo de confianza aso-


ciado.
b) Se hace un cambio de base de las columnas de X, sea Z la matriz de las nuevas columnas,
de manera que Im(X) = Im(Z) y que Z t Z sea diagonal. Muestre que el cambio de variables
explicativas no cambia las predicciones de Y . Deduzca la expresin del intervalo de confianza
en funcin de Z.

9. Concluye el test de razn de verosimilitudes para la hiptesis nula H0 : A = c para los supuestos
usuales. Muestre que es equivalente al test F de Fisher dado en 2.5.5.

10. Sea el modelo lineal Y = X + con Nn (0, 2 In ), X Mnp de rango incompleto. Sea A una
funcin vectorial estimable de , con A Msp de rango completo s. Muestre que A(X t X) At es
invertible.

84