You are on page 1of 21

12.

Regresion lineal
Estadstica
Ingeniera Informatica
Curso 2009-2010
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 1 / 21
Contenidos
1
Introduccion
2
Modelo de Regresion Lineal Simple
Estimacion de los parametros del modelo
Propiedades de los estimadores
Intervalos de conanza
Contrastes de hipotesis
3
Analisis de la varianza
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 2 / 21
Introducci on
Modelos de Regresi on:
Estudian la relacion estocastica (cuantitativa) entre
una variable de interes Y (respuesta o dependiente), y
un conjunto de variables explicativas (X
1
, ..., X
n
) (regresoras o
independientes)
Posibles situaciones:
Existe una relacion funcional entre ellas: el conocimiento de las
variables regresoras determina completamente el valor que toma la
variable respuesta.
No existe ninguna relacion entre la variable respuesta y las variables
regresoras: el conocimiento de estas no proporciona ninguna
informacion sobre el compartamiento de la otra, son independientes.
Caso intermedio: existe una relacion estadstica entre la variable
respuesta y las variables regresoras: el conocimiento de estas permiten
predecir con mayor o menor exactitud el valor de la variable respuesta.
Es el caso mas habitual. Su estudio corresponde a los Modelos de
Regresion.
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 3 / 21
Introducci on
Modelo:
Y = g(X
1
, ..., X
n
) +
donde la funcion g es desconocida, y es el error de observacion, una
variable aleatoria de media cero.
Objetivo basico: estimar la funcion de regresion, g, y el modelo
probabilstico que sigue el error aleatorio (f , F, P...) a partir del
conocimiento de una muestra aleatoria de las variables en estudio.
Una vez estimadas se puede:
tener una idea general del comportamiento de la variable respuesta en
funcion de las regresoras,
estimar y predecir el valor de la variable respuesta de un individuo del
que se conocen los valores de las variables regresoras,
calcular un intervalo de prediccion del mismo...
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 4 / 21
Modelo de Regresi on Lineal Simple
Modelo de Regresi on Lineal Simple
Modelo mas sencillo: estudia la relacion lineal entre la variable respuesta Y
y una variable regresora X, a partir de una muestra (X
1
, Y
1
, ..., X
n
, Y
n
)
que sigue el siguiente modelo lineal:
Y
i
= X
i
+ +
i
i = 1, ..., n
donde se supone que se verican las hipotesis del modelo:
los errores tienen media cero: E[
i
] = 0 i = 1, ..., n.
Consecuentemente, E[Y
i
] = X
i
+ i = 1, ..., n
la varianza del error es constante: V(
i
) =
2
, i = 1, ..., n
(homocedasticidad). Consecuentemente, V(Y
i
) =
2
, i = 1, ..., n
la distribucion del error es normal, N(0, ). Consecuentemente,
Y
i
N(X
i
+, )
los errores son independientes: cov(
i
,
j
) = 0. Consecuentemente, las
observaciones Y
i
tambien lo son.
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 5 / 21
Modelo de Regresi on Lineal Simple
Ejemplo
X: dosis de un analgesico (en mg); Y: n umero de horas de alivio del dolor.
Se estudia la posible relacion lineal entre X e Y en 50 pacientes:
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0
1
2
3
X
Y
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0
1
2
3
X
Y
Residuos
2 1 0 1 2
0
.
0
0
.
1
0
.
2
0
.
3
1.1 1.2 1.3 1.4 1.5 1.6 1.7

1
0
1
2
Valores predichos
R
e
s
i
d
u
o
s
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 6 / 21
Modelo de Regresi on Lineal Simple Estimacion de los parametros del modelo
Estimacion de los parametros del modelo
En el modelo de regresion lineal simple hay tres parametros que se deben
estimar: los coecientes de la recta de regresion, y , y la varianza de la
distribucion normal
2
.
Metodos:
metodo de maxima verosimilitud
metodo de mnimos cuadrados
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 7 / 21
Modelo de Regresi on Lineal Simple Estimacion de los parametros del modelo
Metodo de maxima verosimilitud
Funcion de densidad:
f (Y
i
) =
1

2
exp
_

(Y
i
X
i
)
2
2
2
_
Funcion de verosimilitud:
l (, ,
2
) =
_
1

2
_
n
exp
_

1
2
2
n

i =1
(Y
i
X
i
)
2
_
Para maximizar esta funcion en funcion de , y
2
, tomamos logaritmos,
lo cual lleva a:
L(, ,
2
) =
n
2
log
2

n
2
log 2
1
2
2

i
(Y
i
X
i
)
2
derivamos respecto a los tres parametros e igualamos a cero.
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 8 / 21
Modelo de Regresi on Lineal Simple Estimacion de los parametros del modelo
Obtenemos el sistema de ecuaciones siguiente:
L

(, ,
2
) =
1
2
2

i
2(Y
i
X
i
) = 0
L

(, ,
2
) =
1
2
2

i
2X
i
(Y
i
X
i
) = 0
L

2
(, ,
2
) =
n
2
1

2
+
1
2(
2
)
2

i
(Y
i
X
i
)
2
= 0
Al resolverlo obtenemos:

MV
=
cov(X, Y)
var (X)
,

MV
=

Y

X,

2
MV
=

n
i =1
(Y
i
X
i


)
2
i
n
=

n
i =1
e
2
i
n
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 9 / 21
Modelo de Regresi on Lineal Simple Estimacion de los parametros del modelo
Metodo de mnimos cuadrados
Tecnica alternativa de estimacion de , y .
Minimizamos la suma de cuadrados
n

i =1
(Y
i
X
i


)
2
=
n

i =1

2
i
,
que representan las distancias en vertical de
los datos a la recta de regresion (residuos).
Observando la funcion de verosimilitud:
l (, ,
2
) =
_
1

2
_
n
exp
_

1
2
2
n

i =1
(y
i
x
i
)
2
_
los parametros y aparecen unicamente en el exponente (suma de
cuadrados de los residuos) en este caso (normalidad) los estimadores de
y son los mismos seg un el MVM y el MMC
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 10 / 21
Modelo de Regresi on Lineal Simple Estimacion de los parametros del modelo
Esta tecnica no proporciona una estimacion de
2
, pero se suele utilizar la
varianza residual:

2
MC
=
n

i =1
e
2
i
n 2
_
=
n
n 2

2
MV
_
donde perdemos dos grados de libertad, porque reescribiendo
L

(, ,
2
) =
1
2
2

i
2(Y
i
X
i
) = 0
L

(, ,
2
) =
1
2
2

i
2X
i
(Y
i
X
i
) = 0
en terminos de los residuos y eliminando las constantes, resulta:

i
e
i
= 0,

i
e
i
X
i
= 0
es decir, existen dos ecuaciones de restriccion entre los n residuos (n 2
valores independientes).
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 11 / 21
Modelo de Regresi on Lineal Simple Propiedades de los estimadores
Propiedades de los estimadores:
Estimadores de
2
n
2
MV

2
=
(n 2)
2
MC

2

2
n2

2
MV
no es insesgado para
2
: E[
2
MV
] =

2
n
(n 2)

2
MC
es insesgado para
2
: E[
2
MC
] =

2
n2
(n 2) =
2
Nota: la varianza residual tambien se denota como s
2
R
.
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 12 / 21
Modelo de Regresi on Lineal Simple Propiedades de los estimadores
Propiedades de los estimadores:
Estimador de
N
_
,

2
n s
2
n;X
_
es centrado para
se suele denominar coeciente de regresion e indica el
crecimiento (o decrecimiento) de la variable respuesta Y asociado a
un incremento unitario en la variable regresora X.
Como no es conocida:


MC
s
n;X
_
1
n
t
n2
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 13 / 21
Modelo de Regresi on Lineal Simple Propiedades de los estimadores
Propiedades de los estimadores:
Estimador de

N
_
,

2
n
_
1 +
x
2
s
2
n;X
__

es centrado para
indica el valor de la ordenada en la recta de regresion estimada para
X = 0 (no siempre tiene una interpretacion practica).
Como no es conocida:



MC

n
_
1 +
x
s
2
n;X
t
n2
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 14 / 21
Modelo de Regresi on Lineal Simple Intervalos de conanza
Intervalos de conanza:
A partir de estos estadsticos se pueden obtener intervalos de conanza de
la varianza poblacional, , y de los coecientes y :
IC
95 %
() =
_
t
n2:0,025

MC
s
n;X
_
1
n
, + t
n2:0,025

MC
s
n;X
_
1
n
_
IC
95 %
() =
_

t
n2:0,025

MC

1 +
x
s
2
n;X
,

+ t
n2:0,025

MC

1 +
x
s
2
n;X
_
IC
95 %
() =
_
(n 2)
2
MC

2
n2;0,025
,
(n 2)
2
MC

2
n2;0,975
_
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 15 / 21
Modelo de Regresi on Lineal Simple Contrastes de hipotesis
Contrastes de hip otesis:
Contraste de regresion: contrastar si el modelo es signicativo o no, i.e.,
si existe una relacion lineal entre X e Y.
H
0
: = 0
H
1
: = 0
_
R =
_
| | t
n2;0,025

MC
s
n;X
_
1
n
_
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 16 / 21
Modelo de Regresi on Lineal Simple Contrastes de hipotesis
Ejemplo:
X: dosis de un analgesico (en mg); Y: n umero de horas de alivio del dolor.
Se estudia la posible relacion lineal entre X e Y en 50 pacientes:
0.0 0.2 0.4 0.6 0.8 1.0 1.2
0
1
2
3
X
Y
Se estiman los parametros del
modelo
Se deben comprobar las
hipotesis del modelo (media
cero, normalidad,
homocedasticidad,
independencia)
Se contrasta el coeciente de
regresion
Datos
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 17 / 21
Modelo de Regresi on Lineal Simple Contrastes de hipotesis
Estimaciones:
x = 2,572, y = 3,410, s
2
n;X
= 0,107, cov(X, Y) = 0,050
= 0,467;

= 2,21, s
2
R
= 1,168
Modelo:
Y = 0,467X + 2,21
Estadstico del contraste:
t =

n s
n;X
s
R
= 0,999
Como t
n2;0,025
= t
48;0,025
= 2,01, no podemos rechazar que no exista una
relacion lineal entre las variables.
El p-valor sera
P(|t
48
| > 0,999) = 0,3228
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 18 / 21
Analisis de la varianza
Analisis de la varianza (ANOVA)
Estudio de modelos mas generales, del que el modelo de regresion
lineal simple se puede considerar un caso particular.
Consiste en dividir la variabilidad de la respuesta Y en la variabilidad
explicada por el modelo mas la variabilidad no explicada o residual.
SC
T
=
variabilidad de Y
n

i =1
(Y
i
y)
2
=
variabilidad del modelo
n

i =1
(X
i
+ y)
2
+
variabilidad residuos
n

i =1
e
2
i
=
= SC
X
+ SC
R
Contraste:
H
0
: E[Y|X = x] = ( = 0)
H
1
: E[Y|X = x] = X + ( = 0)
_
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 19 / 21
Analisis de la varianza
Tabla ANOVA
Fuente de Suma de Grados de Cuadrados
variacion Cuadrados libertad medios F
(Varianzas)
Modelo SC
X
1 CM
X
= SC
X
/1
CM
X
s
2
R
Residuos SC
R
n 2 CM
R
=
SC
R
n2
= s
2
R
Total SC
T
n 1 CM
T
=
SC
T
n1
= s
n;Y
donde F =
CM
X
s
2
R
sigue, bajo H
0
una distribucion F
1;n2
.
El contraste de la F es un contraste unilateral (rechazamos si
F > F
1;n2;0,05
).
En este modelo proporciona exactamente el mismo resultado que se
obtiene por el contraste de la t relativo al coeciente de regresion .
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 20 / 21
Analisis de la varianza
ANOVA:
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 1.147 1.1467 0.9814 0.3268
Residuals 48 56.083 1.1684
Estadstica (Aurora Torrente) 12. Regresion lineal Curso 2009-2010 21 / 21