You are on page 1of 6

REGRESION LINEAL SIMPLE

Modelo De Regresin Lineal Simple

Este captulo explica el modelo de regresin lineal simple, un modelo con un solo regresor x que tiene una
relacin con una respuesta y, donde la relacin es una lnea recta.
Este modelo de regresin lineal simple es

y= 0 + 1 x +

Donde la ordenada al origen 0 y la pendiente 1 son constantes desconocidas, y es un componente


aleatorio de error. Se supone que los errores tienen promedio cero y varianza 2 desconocida. Adems, se
suele suponer que los errores no estn correlacionados. Esto quiere decir que el valor de un error no depende del
valor de cualquier otro error.
Conviene considerar que el regresor x est controlado por el anlisis de datos, y se puede medir con error
despreciable, mientras que la respuesta y es una variable aleatoria.
Con lo que hay una distribucin de probabilidades de y para cada valor posible de x.
La media de esta distribucin es

E ( y , x )= 0 + 1 x (1)
Y la varianza es


2
Var ( 0+ 1 x + )=
Var ( y , x )=

As, la media de y es una funcin lineal de x, aunque la varianza de y no depende del valor de x.
Adems, ya que los errores no estn correlacionados, las respuestas tampoco lo estn.
A los parmetros 0 y 1 se les suele llamar coeficientes de regresin. Estos tienen una
interpretacin simple y, frecuentemente, til.
La pendiente 1 es el cambio de media de la distirbucion de y producido por un cambio unitario en
x. Si el intervalo de los datos incluye a x=0 , entonces la ordenada al origen 0 , es la media de la
distribucin de la respuesta y cuando x=0 . Si no incluye al cero 0 no tiene interpretacin
prctica.

Estimacin De Los Parmetros Por Mnimos Cuadrados

Los parmetros y son desconocidos y se deben estimar con los datos de la muestra.
Supongamos que hay n pares de datos: ( y 1 , x 1 ) , ( y 2 , x 2 ) , , ( y n , x n ) .
Como se indic en el captulo 1 , esos datos pueden obtenerse en un experimento controlado, diseado
en forma especfica para recolectarlos, o en un estudio observacional, o a partir de registros histricos
existentes (lo que se llama un estudio retrospectivo).

Revisar la siguiente hoja

Estimacin de 0 y 1
Para estimar 0 y 1 se usa el mtodo de minimos cuadrados. Esto es, se estiman 0 y 1 tales que
la suma de los cuadrados de las diferencias entre las observaciones y i y la lnea recta sea minima. Segn la
ecuacin (1) se puede escribir

y i= 0 + 1 x i + 1 i=1,2, ,n (2)

Se puede considerar que la ecuacin (1) es un modelo poblacional de regresin, mientras que la ecuacin (2) es
un modelo muestral de regresin, escritos en trminos de los n pares de datos ( y i , x i ) (i=1,2, , n) .
As, el criterio de mnimos cuadraros es
n
S ( 0 , 1 )= ( y i 0 1 x i )2
i=1

Los estimadores, por mnimos cuadrados, de 0 y 1 , que se designaran por ^ 0 y ^ 1 , deben


satisfacer
n
S
=2 ( y i ^ 0 ^ 1 x i ) =0
0( , )
0 i=1
1

Y
n
S
=2 ( y i ^0 ^ 1 x i ) xi =0
1 ( 0 , 1) i=1

Se implica estas dos ecuaciones y se obtiene


n
x i= y i
i=1
n
n ^ 0+ ^1
i=1

n
x i2 = y i x i (3)
i=1
n n
^ 0 x i + ^ 1
i=1 i=1

Las ecuaciones (3) son llamadas ecuaciones normales de mnimos cuadrados. Su solucin es la siguiente:

^ 0= y ^ 1 x (4)
Y

n n

y i x i
( )( )
yi
i=1 i=1
xi

^ 1= i=1 n
n 2 (5)
n

xi 2
( )i=1
xi

i=1 n
En donde
n n
1
y = y y x = 1n x i
n i =1 i i=1

Son los promedios de y i y x i , respectivamente. Por consiguiente, ^ 0 y ^ 1 en las ecuaciones (4) y


(5) son los estimadores por mnimos cuadrados de la ordenada al origen y la pendiente,
respectivamente. El modelo ajustado de regresin lineal simple es, entonces,

y = ^ 0 + ^ 1 x (6)

La ecuacin (6) produce un estimado puntual de la media de y para una determinada x.


Como el denominador de la ecuacin (5) es la suma corregida de cuadrados de las x i y el numerador es la
suma corregida de los productos cruzados de x i y y i , estas ecuaciones se pueden escribir en una forma
ms compacta como sigue:

n 2

n
S xx = x i
2
( )
xi
i=1
n
= ( x ix )
2

i=1 n i=1

n n

n
S xy = y i x i
( )( )
i=1
yi
i=1
xi n
= y i (x ix )
i=1 n i=1

Entonces, una forma cmoda de escribir la ecuacin (6) es:

^ 1= S xy (7)
S xx

La diferencia entre el valor observado y i y el valor ajustado correspondiente ^y i se llama residual.


Matemticamente, el i-simo residual es

e i= y i ^y i= y i( ^ 0 + ^ 1 x i ) i=1,2, , n

Los residuales tienen un papel importante para investigar la adecuacin del modelo de regresin
ajustado y para detectar diferencias respecto a las hiptesis bsicas. Este tema se describir en captulos
posteriores.

Ejemplo 1

Un moto cohete se forma pegando entre si un propelente de ignicin y un propelente de sostenimiento dentro de
una caja metlica. La resistencia al corte de pegadura entre los dos propelentes es una caracterstica importante
de la calidad. Se cree que la resistencia al corte se relaciona con la edad en semanas del lote del propelente de
sostenimiento. Se hicieron 20 observaciones de resistencia al corte y la edad del lote correspondiente de
propelente, y se ven en la tabla 1. El diagrama de dispersin que se ve en la figura (1) parece indicar que hay una
fuerte relacin estadstica entre la resistencia al cortante y la edad del propelente, y que parece razonable la
hiptesis tentativa del modelo de lnea recta y= 0 + 1 x + .

Tabla 1. Datos para el ejemplo 1

Observacin Resistencia al corte (psi) Edad del propelente (semanas)


i yi xi
1 2158.70 15.50
2 1678.15 23.75
3 2316.00 8.00
4 2061.30 17.00
5 2207.50 5.50
6 1708.30 19.00
7 1784.70 2 4.00
8 2575.00 2.50
9 2357.90 7.50
10 2256.70 11.00
11 2165.20 13.00
12 2399.55 3.75
13 1779.80 25.00
14 2336.75 9.75
15 1765.30 22.00
16 2053.50 18.00
17 2414.40 6.00
18 2200.50 12.50
19 2654.20 2.00
20 1753.70 21.50

Para estimar los parmetros del modelo se calcula primero:

n 2

n
S xx = x i
2
( )
i=1
xi
=4677.69
71422.56
=1106.56
i=1 n 20

y
n n

n
S xy = x i y i
( )( )
i=1
xi
i =1
yi
=528492.64
( 267.25 )( 42627.15 )
=41112.65
i=1 n 20

Por consiguiente, segn la ecuaciones (4) y (7) se ve que

^ 1= S xy = 41112.65 =37.15
S xx 1106.56

^ 0= y ^ 1 x =2131.3575(37.15 ) 13.3625=2627.82

El ajuste de mnimos cuadrados es

y =2627.8237.15 x

Se puede interpretar que la pendiente de -37.15 es la disminucin semanal promedio de resistencia del
propelente al corte, debido a su edad. Como el lmite inferior de las x est cerca del origen, la ordenada
al origen de 26727.82 representa la resistencia al corte de un lote de propelente inmediatamente
despus de ser fabricado. La tabla 2. Muestra los valores observados y i , los valores calculados o
ajustados ^y i y los residuales.

Tabla 2. Datos, valores ajustados y residuales para el ejemplo 1

Valor observado, y i Valor ajustado, ^y i Residual, e i


2158.70 2051.94 106.76
1678.15 1745.42 -67.27
2316.00 2330.59 -14.59
2061.30 1996.21 65.09
2207.50 2423.48 -215.98
1708.30 1921.90 -213.98
1784.70 1736.14 48.56
2575.00 2534.94 40.06
2357.90 2349.17 8.73
2256.70 2219.13 37.57
2165.20 2144.83 20.37
2399.55 2488.50 -88.95
1779.80 1698.98 80.82
2336.75 2265.58 71.17
1765.30 1810.44 -45.14
2053.50 1959.06 94.44
2414.40 2404.90 9.50
2200.70 2613.40 37.10
2654.20 2553.52 100.68
1753.70 1829.02 -75.32

y i=42627.15 ^y i=42627.15
x i=0.00
Despus de obtener el ajuste por mnimos cuadrados, surgen varias preguntas interesantes:
1. Qu tan bien se ajusta esta ecuacin a los datos?
2. Es probable que el modelo sea til?
3. Se viola alguna de las hiptesis bsicas (como la de varianza constante y la de errores no
correlacionados)? y en caso afirmativo, Qu tan grave es eso?

Se deben investigar todos estos asuntos antes de adoptar al modelo en forma definitiva y usarlo. Como
se dijo anteriormente, los residuales juegan un papel clave para evaluar la adecuacin del modelo. Se
puede considerar que los residuales son realizaciones de los errores 1 del modelo. As para
comprobar la constancia de la varianza y la hiptesis de errores no correlacionados, uno se debe
preguntar si los residuales parecen ser realmente una muestra aleatoria de una distribucin con esas
propiedades.

Propiedades de los estimadores por mnimos cuadrados y el modelo ajustados de regresin.

Los estimadores por cuadrados mnimos