You are on page 1of 36

Introduccin a la Inferencia Estadstica

Dept. of Marine Science and Applied Biology Jose Jacobo Zubcoff

Modelos de Regresin Simple


Que tipo de relacin existe entre 2 variables Prediccin de valores a partir de una de ellas
Variable Explicativa, Predictor o Independiente Variable Dependiente

Estudio conjunto de dos variables


Datos de dos variables de una muestra.
En cada fila tenemos los datos de un individuo Cada columna representa los valores que toma una variable sobre los mismos. Las individuos no se muestran en ningn orden particular.
Altura en cm.
162 154 180 158

Peso en Kg.
61 60 78 62 66 60 54 84 68 ...

Las observaciones pueden ser representadas en un diagrama de dispersin Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la otra.

171 169 166

176 163 ...

Diagramas de dispersin o nube de puntos


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.

100 90 80 70 60 50 40 30 140 150 160 170 180 190 200


Pesa 50 kg. Mide 161 cm. Mide 187 cm. Pesa 76 kg.

Relacin entre variables


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.

100 90 80 70 60 50 40 30 140 150 160 170

e c e r P a ra a l tu

e e qu

es p l

um a o

a t n e

la n co

180

190

200

Prediccin de una variable en funcin de la otra


Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el peso aumenta en una unidad por cada unidad de altura.

100 90 80 70 60 50 40 30 140 150 160


10 cm. 10 kg.

170

180

190

200

Relacin directa e inversa


330 280 230 180 130 80 30 140

100

Incorrelacin

90 80 70 60 50 40 30

Fuerte relacin directa.

150

160

170

180

190

200

140

150

160

170

180

190

200

Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Incorrelacin.
80 70 60 50 40 30 20 10 0 140 150 160 170 180 190 200

Cierta relacin inversa

Para los valores de X mayores que la media le corresponden valores de Y mayores tambin. Para los valores de X menores que la media le corresponden valores de Y menores tambin. Esto se llama relacin directa.

Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relacin inversa o decreciente.

Cundo es bueno un modelo de regresin?


400

r= 0.415 r^2 = 0.172

Lo adecuado del modelo depende de la relacin entre:


la dispersin marginal de Y La dispersin de Y condicionada a X

y 360

380

420

320

340

Es decir, fijando valores de X, vemos cmo se distribuye Y


La distribucin de Y, para valores fijados de X, se denomina distribucin condicionada. La distribucin de Y, independientemente del valor de X, se denomina distribucin marginal.

390

150

160

170

180

190

370

380

r= 0.984 r^2 = 0.969

350

360

Si la dispersin se reduce notablemente, el modelo de regresin ser adecuado.

150

160

170

180

190

Ejemplos de correlaciones positivas


330 280 230 180 130 80 30 140 130 120 110 100 90 80 70 60 50 40 30 140

r=0,1
150 160 170 180 190 200

r=0,4
150 160 170 180 190 200

100 90 80 70 60 50 40 30 140 150 160 170 180

100 90 80 70 60 50

r=0,8
190 200

40 30 140 150 160 170 180

r=0,99
190 200

Ejemplos de correlaciones negativas


90 80 70 60 50 40 30 20 10 0 140

80 70 60 50 40 30 20 10
160 170 180 190 200

r=-0,5
150

r=-0,7
150 160 170 180 190 200

0 140 80 70 60 50 40 30 20

80 70 60 50 40 30 20 10 0 140

r=-0,95
150 160 170 180 190 200

10

r=-0,999
150 160 170 180 190 200

0 140

Modelo de regresin lineal simple


En el modelo de regresin lineal simple, dado dos variables
Y (dependiente) X (independiente, explicativa, predictora)

buscamos encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante
! = b0 + b1X
b0 (ordenada en el origen, constante) b1 (pendiente de la recta)

Y e ! rara vez coincidirn por muy bueno que sea el modelo de regresin. A la cantidad
e = (Y-!) se le denomina residuo o error residual.

Regresion lineal: ejemplo de las alturas (padres e hijos):


! = b0 + b1X
b0=85 cm b1=0,5

180 150 120 90 60 30 0


70 80 100 110 130 150 160 170 180 190 200 210 220 90 120 140 0 20 30 50 60 10 40

b1=0,5

b0=85 cm

Regresion lineal
La relacin entre las variables no es exacta => Cul es la mejor recta que sirve para predecir los valores de Y en funcin de los de X Qu error cometemos con dicha aproximacin (residual).
180 150 120 90 60 30 0
70 90 100 120 150 160 170 180 200 210 220 80 110 130 140 190 0 40 10 20 30 50 60

b1=0,5

b0=85 cm

Regresin lineal
El modelo lineal de regresin se construye utilizando la tcnica de estimacin mnimo cuadrtica:
Buscar b0, b1 de tal manera que se minimice la cantidad

Se comprueba que para lograr dicho resultado basta con elegir:

" i e i2

Se obtiene adems otras ventajas


El error residual medio es nulo La varianza del error residual es mnima para dicha estimacin. Traducido: En trmino medio no nos equivocamos. Cualquier otra estimacin que no cometa error en trmino medio, si es de tipo lineal, ser peor por presentar mayor variabilidad con respecto al error medio (que es cero).

Interpretacin de la variabilidad en Y
En primer lugar olvidemos que existe la variable X. Veamos cul es la variabilidad en el eje Y. Y

La franja sombreada indica la zona donde varan los valores de Y. Proyeccin sobre el eje Y = olvidar X

Interpretacin del residuo


Miremos ahora los errores de prediccin (lneas verticales). Los proyectamos sobre el eje Y. Se observa que los errores de prediccin, residuos, estn menos dispersos que la variable Y original. Cuanto menos dispersos sean los residuos, mejor ser la bondad del ajuste. Y

Modelos de Regresin Simple


Modelo Lineal o Recta de Regresin

Y = " + !X
E (Y X ) = " + !X
Mtodo de Mnimos Cuadrados
2 # = ( Y $ ( " + ! X )) % % i i =1 i =1 n 2 i n

Modelos de Regresin Simple


Frmula para la estimacin por Mnimos Cuadrados
' n % ( X iYi ! nXY 1 b = % i =n 2 2 % X ! n X ( i % & i =1 $ " "= " " #

((X
i =1 n i =1

! X )(Yi ! Y ) =

2 ( X ! X ) ( i

S XY 2 SX

a = Y !bX
Varianza Residual de Y para cada valor de X

2 Y .. X

1 n n !1 2 2 2 2 = ( Y ! ( a + bX )) = S ! b SX " i i Y n ! 2 i =1 n!2

Modelos de Regresin Simple


Intervalo de confianza para el coeficiente

1'( )

& = $b ' & $ t n ' 2,( 2 % %

SY .. X SX

# # !, b + (...)! n '1 " "

Contraste de Hiptesis

H 0 : % = %0 # " H1 : % $ % 0 !

(b # " 0 ) S X n # 1 < t n # 2,! 2 SY .. X

Modelos de Regresin Simple


Intervalo de prediccin para un nuevo valor de Y dado X0

1'( y0

& # ( x0 ' X ) 2 # & 1 = $ a + bx0 ' $ t n ' 2,( SY .. X (1 + n + ( n '1) S 2 ) !, a + bx0 + (...)! X 2 % " % "

Contraste de Hiptesis

H 0 : & + %X = 0 # " H1 : & + %X $ 0 !

(a + bx0 " 0 ) SY .. X ( +
1 n ( x0 " X )
2 2 ( n "1) S X

< t n " 2,! 2

Modelos de Regresin Simple


Medidas de Bondad de Ajuste

S XY b= 2 SX
Estiman Por tanto

S XY r= S X SY
y

!
SY b= r SX

!
"Y #= ! "X

Regresion Lineal
Problema

Regresion Lineal
Se desea saber si existe relacin lineal entre el peso del recin nacido y el nivel de estriol en su madre.
7 9 14 16 16 17 21 15 17 27 15 16 18 18 22 24 2500 2500 2700 2400 3000 3000 3000 3200 3200 3400 3400 3500 3500 3700 4000 4300 9 12 16 14 16 19 24 16 25 15 15 19 17 20 25 2500 2700 2700 3000 3100 3100 2800 3200 3200 3400 3500 3400 3600 3800 3900

Regresin Simple
Con las expresiones de b y a calculamos los coeficientes y cte.
' n % ( X iYi ! nXY 1 b = % i =n 2 2 % X ! n X ( i % & i =1 $ " "= " " #

((X
i =1 n i =1

! X )(Yi ! Y ) =

2 ( X ! X ) ( i

S XY 2 SX

a = Y !bX
Varianza Residual de Y (Error tipico de estimacion) para cada valor de X

2 Y .. X

1 n n !1 2 2 2 2 = ( Y ! ( a + bX )) = S ! b SX " i i Y n ! 2 i =1 n!2

Regresion Lineal

Covarianza / Varianza(X)

Regresion Lineal

Asociacin entre variables continuas

Regresion Lineal

Regresion Lineal

Regresion Lineal

Regresion Lineal

Regresion Lineal

Regresion Lineal

Regresion Lineal

Regresion Lineal

Regresion Lineal