You are on page 1of 45

Regresin Lineal

Objetivos
Identificar ...
...el modelo que relaciona la esperanza de una variable
llamada dependiente o respuesta con una o varias
variables llamas independientes o regresoras
Estimar...
...los parmetros modelo
Probar hiptesis ...
...sobre los parmetros del modelo
Predecir ...
... el nivel medio de la respuesta para valores
determinados de las regresoras

Ejemplo 1
Estudio de la concentracin de CO2 en
la atmsfera terrestre en funcin del
tiempo transcurrido desde el ao 1850
Variable dependiente: concentracin CO2

Variable independiente: tiempo desde 1850.


En este ejemplo interesa identificar el modelo,

estimar sus parmetros y predecir la concentracin


de CO2 para los aos venideros.

Ejemplo 2
La ecuacin de Lineweaver-Burk describe la cintica
enzimtica como una relacin lineal entre el recproco
de la concentracin del sustrato y el recproco de la
velocidad de la reaccin.
El objetivo del anlisis de regresin para este ejemplo

no es identificar el modelo sino estimar sus parmetros,


ya que Vmax=1/ordenada y Km=pendiente/ordenada.
En este ejemplo, puede interesar la comparacin de si
los parmetros de la recta ajustada con los
correspondientes a otra enzima.

Modelo de regresin lineal simple


Y=0 + 1 x +

Y: variable dependiente o respuesta,


X: variable independiente,
0 y 1: parmetros desconocidos que representan

ordenada al origen y pendiente respectivamente,


: error aleatorio que se supone N(0,2)

Regresin lineal simple ...


Dados {(x1,y1), (x2,y2) ,..., (xn,yn)}
Se estiman 0 y 1 minimizando la suma de los

cuadrados de ( yi yi ) donde y i es el valor


predicho de y i , dados 0 , 1

La diferencia

ei ( yi yi ) se conoce como

el residuo de la i-sima observacin.


La suma de los cuadrados de los residuos

dividido n-p es el estimador de la varianza de


los errores.

Cmo se decide si un
modelo explica una
parte significativa de la
variacin de la variable
respuesta?

Contabilidad de las fuentes de


variacin en regresin: Sumas
de cuadrados

SC Explicada SC Total SC Residual

SC Explicada ( yi y ) ( yi yi )
2

R 2 SC Explicada/SC Total
n 1
R 1 (1 R )
; p # parametros
n p
2
aj

Un ejemplo trabajado de
regresin lineal simple
Y=0+1X+

Sea 0=50
Sea 1=2

Sea ~N(0,2)

Generar
Visualizar
Estimar
Interpretar
Chequear supuesto

Predicciones

Yi 0 1xi
Esperanza estimada de Y
dado un valor especificado de x

Bandas de confianza y prediccin


BC

Y0 t( n 2);(1 / 2)

x
(
)
1
0

2
2
n ( x x )
i

BP

Y0 t( n 2);(1 / 2)

x
(
)
1
0
2

1
2
n ( x x )
i

Como proceder con


varias observaciones de
Y para distintos valores
de x.

Error puro
Existe algn criterio formal para establecer

la bondad de ajuste del modelo de regresin


propuesto?
Si existen varias observaciones de Y para
al menos algunos valores de X, es posible
calcular lo que se llama error puro y
construir una prueba formal para la falta de
ajuste.
Ver ejemplo....

Ejemplo para error puro ...


Los siguientes datos corresponden al peso seco total de
ndulos inducidos por Rhizobium sp. en races de una
leguminosa, cultivada a diferentes temperaturas.

T10
62
56
64

T15
68
58
56
55

Trabajar ejemplo....

T20
101
100

T25
152
132
133
145

T30
186
164
179

Plasticidad del modelo lineal:


Ejemplo 1. Una regresora
11

7 00

6 00
10

1 00
5 00

78
4 00

9
3 00

56

2 00

34
8
-1.0

1 00
-0.5

0 .0

0 .5

Y=B0+B1 .01*X +B2*X^2+B3 *X^3


12

0
0

10

E(y)=B 1* si n ((2 *3 .14 15 )/2 * x)+B2 *c os ((2 * 3.14 15 )/2* x)+B3 x+B4 x* x
-10
0

6
X

10

Modelo de regresin mltiple


En este modelo la variable de respuesta se

quiere modelar en funcin de dos o mas


variables regresoras.
El caso polinmico es un caso especial del

modelo de regresin multiple

Plasticidad del modelo lineal:


Ejemplo 2: Dos regresoras
1 00

3 00

50

2 00

z=B0+B1*X+B2 *L^ 2

1 00

2
0

-50

Z
-10 0
20

0
Z

-20 0

10

10
0

10

-10

-10
-20

-20

20

-1

20

-2
20

10

1 .0

-10
z=1 0*SIN(X)+2
*cos(L )+3*L
0 .5
-20

-20

0
-10

1 .0

0 .0

0 .5
0 .0

-0.5
-0.5
-1.0

-1.0

Modelo de regresin
lineal mltiple

Sea x un vector de valores conocidos,


qj(.), j=0,..,p, funciones reales conocidas,
j, j=0,..,p, parmetros desconocidos y
un error aleatorio normal N(0,2)
Y=0 + 1 q1(x)+ 2 q2(x)++p qp(x)+

Un ejemplo simple de
regresin mltiple
Y: tensin arterial sistlica
x = [consumo diario de sodio, peso]
q1(x)=Consumo diario de sodio (Na)
q2(x)=Peso (P)

Y=0 + 1 Na+ 2 P+

Modelo Polinmico
Y=0+1X1+ 2X2 +
Sea 0=50

Sea 1=2 {x1:U(0-20)}


Sea 2=-3 {x2:U(0-10)}
Sea ~N(0,20)

Generar
Visualizar
Estimar
Interpretar

Validacin de supuestos
Los supuestos son sobre las

propiedades estadsticas de los errores


Slo tenemos acceso a los residuos
Prueba formales vs informales

Supuestos
Normalidad
Q-Q plot
Shapiro-Wilks
Homocedasticidad
Residuos vs predichos
Muchas pruebas formales, todas muy poco
potentes.
Independencia
Diagramas de dispersin
Prueba de Durbin-Watson, Rachas

Diagnstico
Medidas de influencia

Influencia de Y
Residuos

estudentizados y
Residuos externamente estudentizados

Influencia de X
Leverage

Influencia conjunta
Distancia

de Cook

Identificacin

Grficos de residuos parciales

Como decidir entre


modelos?

Criterios de seleccin
Pocas variable en relacin a N

Considerar todos los modelos posibles


R cuadrado ?
R cuadrado ajustado
Cuadrado medio residual
Error cuadrtico medio de prediccin
Eliminar variables a partir de un modelo completo
Eliminacin de variables una a una utilizando prueba de
hiptesis (backward selection)

Muchas variables en relacin a N

Incluir secuencialmente variables (forward selection)


Incluir-excluir variables secuencialmente (stepwise)

Ejemplo
Se cuenta con los resultados de la calibracin de un

instrumento de reflectancia infrarroja para la medicin


del contenido de protenas en 24 muestras de trigo.
Se conoce el contenido de protenas en cad muestra

(Y)
L1-L6: reflectancias de radiacin infrarroja en 6

longitudes de onda (entre 1680 y 2310).


La medicin infrarroja es ms econmica que la

medicin estndar
El objetivo es hallar un mtodo para determinar el

contenido de protenas usando slo L1,....,L6

Variables Dummy
En el contexto del anlisis de la varianza del

modelo de clasificacin las covariables son


intromisiones de un modelo de regresin.
Las variables dummy son intromisiones del
modelo de clasificacin en el modelo de
regresin
Aparecen cuando queremos introducin uno o
mas criterios de clasificacin en el modelo
general de regresin.

Variables dummy ejemplo


Y
292
329
352
378
392
410
198
227
277
297
364
375
167
225
247
268
288
342

pH Polmero
6.5
6.9
7.8
8.4
8.8
9.2
6.7
6.9
7.5
7.9
8.7
9.2
6.5
7
7.2
7.6
8.7
9.2

A
A
A
A
A
A
B
B
B
B
B
B
C
C
C
C
C
C

Dummy: Diagrama de dispersin


423

356

289

222

155
6.50

7.17

7.84
pH

8.51

9.18

Estimacin
Variable
Y

N
18

R^2
0.64

R^2ajust
0.62

Matriz de coeficientes de regresin


Coef. Est.
E.E.
T
p
const -153.23
85.27 -1.80
0.09
pH
58.18
10.83
5.37
0.00

CpMallows
4.10
28.23

Predichos
423

356

289

222

155
6.50

7.17

7.84
pH

8.51

9.18

...revisando los
datos...

292
329
352
378
392
410
198
227
277
297
364
375
167
225
247
268
288
342

pH Polmero
6.5
6.9
7.8
8.4
8.8
9.2
6.7
6.9
7.5
7.9
8.7
9.2
6.5
7
7.2
7.6
8.7
9.2

A
A
A
A
A
A
B
B
B
B
B
B
C
C
C
C
C
C

Residuos
Residuo estudentizado

2.0

1.0

0.0

-1.0

-2.0
225

264

303
Predicho

342

381

Agregando
variables
dummy

292
329
352
378
392
410
198
227
277
297
364
375
167
225
247
268
288
342

pH Polmero
6.5
6.9
7.8
8.4
8.8
9.2
6.7
6.9
7.5
7.9
8.7
9.2
6.5
7
7.2
7.6
8.7
9.2

A
A
A
A
A
A
B
B
B
B
B
B
C
C
C
C
C
C

D1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0

D2 D1*pH D2*pH
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
0
0

6.5
6.9
7.8
8.4
8.8
9.2
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
6.7
6.9
7.5
7.9
8.7
9.2
0
0
0
0
0
0

El nuevo modelo
Y=0+

1pH+
2D1+
3D2+
4D1*pH+
5D2*pH +

Estimacin del Modelo


Anlisis de regresin lineal
Variable
Y

N
18

R
0.97

RAj
0.96

Coeficientes de regresin y estadsticos asociados

Coef.
const
pH
D1
D2
D1*pH
D2*pH

Est.
-158.27
53.82
197.69
-108.74
-13.56
17.39

E.E.
48.52
6.25
68.79
71.05
8.74
9.09

LI(95%)
-263.98
40.20
47.80
-263.55
-32.60
-2.41

LS(95%)
-52.57
67.45
347.58
46.07
5.48
37.20

T
-3.26
8.61
2.87
-1.53
-1.55
1.91

Valor p
0.0068
<0.0001
0.0140
0.1518
0.1466
0.0798

Grafico predichos
418

353

418

353

288

288

223

158
6.50

7.17

7.84

8.51

9.18

pH

223

158
6.50

7.17

7.84
pH

8.51

9.18

Residuos vs predichos
1.75

REST_Y

0.73
-0.28
-1.30
-2.32
174.89 234.98 295.08 355.17 415.27

PRED_Y

Regresin no lineal

Yi f (xi ; )+i

Yi e

xi

+ i

Modelo no lineales

Estimacin por mnimos cuadrados


El problema de los valores iniciales
El problema del algoritmo de bsqueda
Criterios de seleccin de modelo

Algunos modelos no lineales


clsicos
Logstico
Gompertz

Hiperblico
Monomolecular
Richard

/(1+ exp(- X))


exp(- exp(- X))
X/(+X)
(1- exp(- X))
(1+ exp(- X))

Un ejemplo
Existe una funcin que vincula el consumo (c) con

el ingreso (i) que tiene la siguiente expresin:


c= +i+
Cuando es 1 el modelo es un modelo lineal pero
es importante establecer si es 1 ya cuando esto
ocurre la propensin al consumo marginal es
constante.
Los siguientes son datos de insumo-consumo de
estados unidos en el perodo 1950-1985.

Algunos comentarios sobre R2


Depende del rango de variacin de X
Muy sensible a valores extremos de X
Depende de si los valores de Y son los

valores originales o promediados


Aumenta si los valores de X estn
agrupados.

Ejemplo de regresin mltiple


Un aserradero compra camiones con troncos para fabricar

tablones.
Las compras se realizan por tonelada y los tablones se venden
por pie cuadrado.
Se desea obtener un modelo para predecir el rendimiento en

pies cuadrados de tablones por camin.


Se cuenta con datos de:

peso neto total en toneladas por camin (PT),


nmero de troncos por camin (N),
relacin entre peso total y nmero (PN) y
rendimiento en pies cuadrados por camin (Y).

El modelos de regresin multiple


Y=0+1PT+
Y=0+1N+
Y=0+1PN+
Y=0+1PT+2N+
Y=0+1PT+2PN+
Y=0+1N+2PN+
Y=0+1PT+2N+3PN+