You are on page 1of 34

1

TEORA DE LA REGRESION
Dr. Salvador Martn Medina Torres Profesor - Investigador Postgrado en Desarrollo Sustentable de Recursos naturales REA DE GESTIN DE VIDA SILVESTRE
Universidad Autnoma Indgena de Mxico -Unidad Mochicahui Jurez 39, Mochicahui, El Fuerte, Sinaloa. C.P. 81890. Tel. y Fax: (698) 892-06-54 y 892-00-42

EL MODELO DE REGRESIN LINEAL SIMPLE UNIVARIANTE

ESTIMACIN POR MNIMOS CUADRADOS


2

Qu productos buscamos en la regresin?


Parmetros o, 1

Prediccin Crear una funcin lineal que permita describir el comportamiento de una variable dependiente Y en funcin de una o mas variables independientes X

Procedimientos para estimar los parmetros


Estimacin por mnimos cuadrados Estimacin por mxima verosimilitud Mtodo del estimador insesgado de varianza

mnima

Estimacin por mnimos cuadrados


Es el mas utilizado Fue desarrollado por Karl Gauss

(1777-1855) La idea es producir estimadores de los parmetros ( o, 1) que hagan mnima la suma de cuadrados de las distancias entre los valores observados Yi, y los valores estimados i
5

Supuestos del mtodo de mnimos cuadrados


El modelo de regresin es lineal en los parmetros y . Los valores de X son fijos en muestreo repetido. El valor medio de la perturbacin i es igual a cero. Homocedasticidad o igual variancia de i. No autocorrelacin entre las perturbaciones i. La covariancia entre i y Xi es cero. El nmero de observaciones n debe ser mayor que el nmero de parmetros a estimar. 8. Variabilidad en los valores de X. 9. El modelo de regresin est correctamente especificado. 10. No hay relaciones lineales perfectas entre las variables explicativas Xi.
1. 2. 3. 4. 5. 6. 7.

Mtodo de los Mnimos Cuadrados


n

(Xi
i 1 1 n

X i )(Yi Y i ) (Xi X i )2
1

i 1

Error = Y observada o real estimada El mtodo minimiza la suma de estos errores elevada al cuadrado, para evitar el valor cero que ocurre cuando se suman los errores.
7

Para simplificar lo anterior


n
n

(Xi
i 1 1 n

X i )(Yi Y i ) (Xi X i )2

(Xi
i 1 n

X i )(Yi Y i ) SPXY

Covarianza XY

i 1
i 1

(Xi

X i )2

SPXX

Varianza X

SPXY SPXX

(Yi Y i ) 2
i 1

SPYY

Varianza Y Se guarda para despus

Ejemplo prctico:
Suponer que se toma una muestra aleatoria de 10

personas de una poblacin cualquiera, y se registran sus pesos y medidas.


Se busca crear una funcin matemtica que permita

predecir el peso (kg), en funcin de la estatura (cm).


Peso = f(Estatura)

Por tanto, la variable dependiente ser el peso, y la

variable independiente ser la estatura.


Y = peso (kg); X = estatura (cm)

Elaborar una memoria de calculo


observaciones 1 2 3 4 5 6 7 8 9 10 Elementos que necesitamos Medias estatura (cm) Xi 162.00 158.00 167.00 151.00 162.00 168.00 167.00 153.00 152.00 173.00 peso (kg) Yi 63.00 52.00 78.00 49.00 71.00 62.00 68.00 48.00 56.00 67.00 X2i 26,244 24,964 27,889 22,801 26,244 28,224 27,889 23,409 23,104 29,929 Y2 i 3,969 2,704 6,084 2,401 5,041 3,844 4,624 2,304 3,136 4,489 XiYi 10,206 8,216 13,026 7,399 11,502 10,416 11,356 7,344 8,512 11,591

1,613.00

614.00

260,697

38,596

99,568

Xi
161.30

Yi
61.40

X i2

Yi 2

X iYi

Datos de Infante, S. y G. Zrate. 1991. Mtodos estadsticos, un enfoque interdisciplinario. Ejemplo 12.1. 465 p.

10

Para simplificar la estimacin de


n

(Xi
i 1

X i )(Yi Y i ) SPXY

SPXY

X iYi

Xi n

Yi

Covarianza XY

(Xi
i 1

X i )2

SPXX

Varianza X

(Yi Y i ) 2
i 1

SPYY Varianza Y

SPXY SPXX

Se guarda para despus


11

Estimando parmetros
SPXY X iYi Xi n Yi 99,568 (1,613)(614 ) 529 .8 10

SPXY SPXX
Y
1

529 .8 1.0187 520 .1


61.4 (1.0187 )161.3 102.91

12

Obteniendo la ecuacin de regresin

Yi

Xi

102.91 1.0187 X i

13

Obteniendo los valores estimados de Yi


En cada fila (observacin), se calculan los

valores estimados para Yi (denotados por i), mediante la ecuacin de regresin obtenida, sustituyendo los valores de Xi :
Y1 Y2 Y10
0 10 0 0 1

X1 X2 X 10

102 .91 1.0187 162 102 .91 1.0187 158 102 .91 1.0187 173

62.11 58.04 73.32


14

En la memoria de clculo
Se calcula con la ecuacin de regresin obtenida para cada valor de X
observaciones
1 2

estatura (cm) Xi
162.00 158.00

peso (kg) Yi
63.00 52.00

X2i
26,244 24,964

Y2i
3,969 2,704

XiYi
10,206 8,216

Yi estimada
62.11 58.04

3
4 5 6 7 8 9 10

167.00
151.00 162.00 168.00 167.00 153.00 152.00 173.00 1,613.00

78.00
49.00 71.00 62.00 68.00 48.00 56.00 67.00 614.00

27,889
22,801 26,244 28,224 27,889 23,409 23,104 29,929 260,697

6,084
2,401 5,041 3,844 4,624 2,304 3,136 4,489 38,596

13,026
7,399 11,502 10,416 11,356 7,344 8,512 11,591 99,568

67.21
50.91 62.11 68.22 67.21 52.95 51.93 73.32

Elementos que necesitamos Medias

Xi
161.30

Yi
61.40

X i2

Yi 2

X iYi

15

El grfico muestra as los valores reales y los estimados


90.00 80.00 70.00 60.00 Y = Peso (kg) 50.00 40.00 30.00 20.00 10.00 145.00 150.00 155.00 160.00 165.00 170.00 175.00 16 X = Estatura (cm) valores reales peso (kg) Yi valores estimados Lineal (peso (kg) Yi)

y = -102.91+1.0187x

Qu logramos con este mtodo?


Del nmero infinito de rectas de regresin

que se pueden generar, hemos generado aquella cuya suma de cuadrados de las distancias entre los valores reales y estimados (Yi - i), sea la menor de todas

17

observaciones estatura (cm) Xi peso (kg) Yi


1 2 3 4 5 6 7 8 9 10 162.00 158.00 167.00 151.00 162.00 168.00 167.00 153.00 152.00 173.00 1,613.00 63.00 52.00 78.00 49.00 71.00 62.00 68.00 48.00 56.00 67.00 614.00

X2i
26,244 24,964 27,889 22,801 26,244 28,224 27,889 23,409 23,104 29,929 260,697

Y2i
3,969 2,704 6,084 2,401 5,041 3,844 4,624 2,304 3,136 4,489 38,596

XiYi
10,206 8,216 13,026 7,399 11,502 10,416 11,356 7,344 8,512 11,591 99,568

Yi estimada
62.11

ei e2i (residuales) (residuales)


0.89 6.04 10.79 1.91 8.89 6.22 0.79 4.95 4.07 6.32 0.00 0.79 36.46 116.50 3.64 78.98 38.75 0.63 24.46 16.59 39.92 356.72

58.04 67.21 50.91 62.11 68.22 67.21 52.95 51.93 73.32 -

Hemos conseguido hacer mnima esta suma


18

EL MODELO DE REGRESIN LINEAL SIMPLE UNIVARIANTE

INTERPRETACION DE LA ECUACION DE REGRESION


19

Interpretacin de la ecuacin de regresin estimada


Una vez obtenida la recta estimada el

investigador puede necesitar interpretar los componentes de la ecuacin.


Es frecuente cometer algunos errores.
Estos son los mas comunes

20

Interpretacin de la estimacin de la ordenada al origen 0

se interpreta matemticamente como el valor que tomar una i cuando X = 0 muchos problemas.
En nuestro ejemplo: una persona de 0 cm, no puede pesar -102.91 kg de estatura.
Sin embargo, este valor es necesario para representar la tendencia que muestran los datos en el espacio de valores observados para la variable independiente.
21

0:

Este parmetro no tiene interpretacin prctica en

Bajo que condiciones es posible una interpretacin prctica de 0?


Debe ser fsicamente posible que X tome el

valor de 0. Deben tenerse suficientes datos alrededor del valor X = 0.


Podemos concluir que es poco razonable tratar de predecir el comportamiento de Y para valores imposibles de X.

22

Interpretacin del estimador de la pendiente 1

tambin llamado Coeficiente de Regresin, es de mayor importancia que 0 , ya que ya que nos indica la forma en que estn relacionadas X y Y. Mide cuanto y en que direccin (positiva o negativa) se modifican los valores de Y cuando cambia X.
Ejemplo: en el caso anterior, se dice que por cada 1.0187 kg de incremento en el peso, se incrementar 1.0 cm de estatura. Precaucin: una vez mas, esta afirmacin solo opera para un cierto intervalo de valores.
Suponer que el valor mnimo de estatura sea de 1 metro: le correspondera un peso estimado de -1.04 kg, situacin naturalmente imposible. Para una mejor interpretacin de 1, debemos estimar su varianza
23

1,

Conclusiones
Recordar: un supuesto bsico del modelo de

regresin, es que para cada valor posible de X, Y es una variable aleatoria con distribucin normal cuya media es Y/X
Lo correcto es decir que las medias poblacionales de

Y se incrementan (o disminuyen) al aumentar X


Recordar que en realidad trabajamos con

estimadores de parmetros desconocidos, y son por tanto, variables aleatorias sobre las que deben hacerse afirmaciones probabilsticas.
24

EL MODELO DE REGRESIN LINEAL SIMPLE UNIVARIANTE

PROPIEDADES DE LOS ESTIMADORES DE MINIMOS CUADRADOS


25

Propiedades de los estimadores de mnimos cuadrados


Los estimadores de la ordenada al origen

pendiente 1 y la recta de regresin ( tienen las siguientes distribuciones:


0

Y/X)

0,

la

~N

X 0; n( SPXX )
Y / X0

2 i

2 1

~N

SPXX
2 )
YX 0

X0

~ N(

Y / X0

X 0;

Donde

2
YX 0

1 n

( X 0 X )2 SPXX
26

Como estimador de

2,

expresa:

se utiliza S2e, que se

2 e

S .C.ERROR n 2

SPYY

SPXY n 2
1

El estimador S2e es insesgado, siempre y cuando el

modelo de lnea recta adoptado sea correcto; es decir, que en esas condiciones:

E (S )

2 e

27

Sustituyendo

S2e, obtenemos estimadores para las varianzas de 0,


0

2 por

y Xo:

~N

X i2 0; n( SPXX )
2 1;

2
0

S e2 X i2 n( SPXX )
S e2 SPXX
S
2 e

1 ~ N

SPXX
( X 0 X )2 SPXX

S 21

2
YX 0

1 n

S2

YX 0

1 n

( X 0 X )2 SPXX
28

Ejemplo: estimar varianzas de los datos analizados


Del caso de las estaturas y pesos: Se tenan: SPXY=529.8; SPXX=520.1; SPYY=896.4; X2i=260,697; X= 161.30
0

~N

X i2 0; n( SPXX )

2
0

X i2 n( SPXX )

260697 10(520 .1)

50.124 (

2 1

2 2
1

~N

SPXX

SPXX

520 .1

0.0019 (

29

Para obtener estimadores de estas varianzas

requerimos estimar a travs de S2e:


Recordar que
1

= 1.0187

2 e

SPYY

SPXY n 2
1

896 .4 (1.0187 )529 .8 10 2

44.587

30

Ya con el valor de

Se2

44.587

Se procede a calcular las varianzas

estimadas de
2
0

y 1:
2

S X n( SPXX )
S SPXX
2 e

2 e

2 i

50.124(

) 50.124(44.587 ) 2234 .879

2
1

0.0019 (

) 0.0019 (44.587 ) 0.0847


31

Finalmente, si se desea estimar la recta para un valor

X0 de un valor arbitrario elegido por nosotros (digamos, 100 cm o 1 metro- ):


Recordar que
0

= -102.91

YX 0

120

( X 0 ) ( 102 .91) 1.0187 (100 )

1.04 kg

la varianza asociada con la estimacin anterior

es:
2
YX 0
120

1 n

( X 0 X )2 SPXX

1 10

(100 161 .3) 2 520 .1

7.325

32

En tanto que su varianza estimada es:

2
YX 0

2 1 Se n

( X 0 X )2 SPXX

7.325 (44.587 ) 326 .62 kg 2

Donde:

Se2

44.587

33

Conclusin:
Para un valor hipottico X0 = 100 cm de estatura, el valor

estimado de xo deber ser de -1.04 kg, con una varianza estimada de 326.62 kg2, o una desviacin estndar de 18.07 kg (-19.12 a 17.03 kg).
Es decir, el peso estimado a 100 cm de estatura, deber estar entre ese intervalo de valores.

De acuerdo a actuales estndares en pediatra, a estaturas

aproximadas a 100 cm, se corresponden pesos aproximados a los 17 Kg.


Para comprobarlo, ver enlace en: http://www.guiainfantil.com/salud/embarazo/tabla_pesos.htm

34