You are on page 1of 15

UNIDAD V

REGRESION LINEAL SIMPLE

5.1 Regresin lineal simple.


5.1.1 Prueba de hiptesis en la regresin lineal simple.
5.2 Estimacin y prediccin por intervalo en regresin lineal simple.
5.3 Calidad del ajuste en regresin lineal simple.

Competencias
Competencia especfica:
Utiliza el diagrama de dispersin de datos bivariados de un experimento para hacer una
estimacin en procesos de la industria y la logstica aplicando los conceptos de regresin
lineal simple.
Competencias genricas:
Capacidad de abstraccin, anlisis y sntesis.
Capacidad de aplicar los conocimientos en la prctica.
Capacidad para identificar, plantear y resolver problemas.
REGRESION LINEAL SIMPLE

5.1 Regresin lineal simple


Modelos de regresin
En muchos problemas existe una relacin inherente entre dos o ms variables, y resulta
necesario explorar la naturaleza de esta relacin. El anlisis de regresin es una tcnica
estadstica para el modelado y la investigacin de la relacin entre dos o ms variables.
Por ejemplo, supngase que las calificaciones de un grupo de quince estudiantes
dependen del examen parcial a mitad del semestre y del examen final. El anlisis de
regresin puede emplearse para construir un modelo que permita predecir la calificacin
final a partir de una calificacin de un examen parcial dada.
Como ilustracin considrese los datos de la tabla 5-1 en ella, es la calificacin del
examen final, y es la calificacin parcial de mitad del semestre

Tabla 5-1 Calificaciones de examen parcial y de examen final


Examen parcial Examen final

1 83 86
2 70 66
3 81 85
4 75 80
5 81 69
6 94 86
7 87 90
8 90 92
9 80 92
10 75 73
11 75 82
12 65 76
13 87 92
14 80 83
15 70 76

La Fig. 5.1 presenta el diagrama de dispersin de los contenidos de la tabla 5.1 el


diagrama es solo una grfica en el que cada par ( x i , y i ) est representado como un punto
en un sistema de coordenadas bidimensional.

1
REGRESION LINEAL SIMPLE

100

90
Examen final

80

70

60

50
60 70 80 90 100
Examen parcial
Fig. 5-1 Diagrama de dispersin de examen parcial contra examen final.

El anlisis de este diagrama de dispersin indica que, si bien una curva no pasa
exactamente por todos los puntos, existe una evidencia fuerte de que los puntos estn
dispersos de manera aleatoria alrededor de una lnea recta. Por consiguiente es razonable
suponer que la media de la variable aleatoria esta relacionada con por la siguiente
relacin lineal:

E(Y x) Y x 0 1 x

donde la pendiente y la ordenada al origen de la recta reciben el nombre del coeficiente


de regresin. Si bien la media de Y es una funcin lineal de , el valor real observado de
no cae de manera exacta sobre la recta. La manera apropiada para generalizar este hecho
con un modelo probabilstico lineal es suponer que el valor de est determinado por el
valor medio de la funcin (el modelo lineal) mas un trmino que representa un error
aleatorio, por ejemplo,

Y 0 1x 5-1

donde es el error aleatorio. Este modelo recibe el nombre de modelo de regresin


lineal simple, ya que solo tiene una variable o regresor. En ocasiones, los modelos de este
tipo surgen de una relacin terica. En otras, no hay ningn conocimiento terico de la
relacin existente entre y , y la seleccin del modelo se basa en el anlisis del
diagrama de dispersin, tal como se hizo con los datos de las calificaciones. En estos casos,
el modelo de regresin se considera como un modelo emprico.

2
REGRESION LINEAL SIMPLE

El anlisis de regresin es una coleccin de herramientas estadsticas para encontrar


estimaciones de los parmetros del modelo de regresin. Comnmente esta ecuacin de
regresin ajustada o modelo se utiliza en la prediccin de observaciones futuras de , o
para estimar la respuesta promedio para un nivel particular

Estimacin de parmetros
El caso de la regresin lineal simple considera un solo predictor, y una variable
dependiente o de respuesta . Supngase que la verdaderas relacin entre y es una
lnea recta, y que la observacin en cada nivel x es una variable aleatoria. Tal como ya
se indic, el valor esperado de para cada valor es

E(Y x) 0 1 x

donde la ordenada al origen 0 y la pendiente 1 son los coeficientes desconocidos de la


regresin. Se supone que cada observacin, , puede describirse por el modelo

Y 0 1x 5-2

donde es un error aleatorio con media cero y varianza 2 . Tambin se supone que los
errores aleatorios que corresponden a observaciones diferentes son variables no
correlacionadas.
Supngase que se tienen pares de observaciones ( x1 , y1 ) , ( x2 , y2 ),, ( xn , yn ) . La Fig. 5-2
contiene una representativa grfica de dispersin de los datos observados y un candidato
para la recta de regresin. Las estimaciones de 0 y de 1 deben dar como resultado una
lnea (en algn sentido) se "ajuste mejor" a los datos. El cientfico alemn Karl Gauss
(1777-1785) propuso estimar los parmetros 0 y 1 de la ecuacin 5-2 de modo que se
minimice la suma de cuadrados de las desviaciones verticales de la Fig. 5-2.

3
REGRESION LINEAL SIMPLE


Valor
observado ()

Recta de regresin
estimada


Fig. 5-2 Desviaciones de los datos del modelo de regresin estimado

Este criterio para estimar los coeficientes de regresin se conoce como mtodos de
mnimos cuadrados. Al utilizar la ecuacin 5-2, es posible expresar las n observaciones de
la muestra como

y i 0 1 xi j i 1, 2,, n 5-3

y la suma de los cuadrados de las desviaciones de las observaciones con respecto a la


recta de regresin es

n n
L i2 ( yi 0 1 xi )2 5-4
i 1 i 1

los estimadores de mnimos cuadrados de 0 y 1 (por ejemplo, 0 y 1 , deben


satisfacer las ecuaciones siguientes:

L n
2 ( yi 0 1 xi ) 0
0 0 , 1 i 1

L n
2 ( yi 0 1 xi )xi 0 5-5
1 0 , 1 i 1

4
REGRESION LINEAL SIMPLE

despus de simplificar las expresiones anteriores, se tiene


0 + 1 1 =
=1 =1
5-6

0 1 12 =
=1 =1 =1

las ecuaciones 5-6 reciben el nombre de ecuaciones normales de mnimos cuadrados. La


solucin de estas ecuaciones dan como resultado los estimadores de mnimos cuadrados
0 y 1 .

Estimacin de mnimos cuadrados


Definicin
Las estimaciones de mnimos cuadrados de la ordenada al origen y la pendiente del
modelo de regresin lineal simple son

0 y 1 x 5-7

n n
yi xi
yi xi i 1 i 1
n

n
1 i 1
2
5-8
n
xi
xi i 1
n


i 1
2

donde y (1/ n)i 1 yi y x (1 / n)i 1 xi .


n n

Por tanto, la lnea de regresin estimada o ajustada es

y 0 1x 5-9

ntese que cada par de observaciones satisface la relacin

yi 0 1xi ei , i 1, 2, . . . , n

5
REGRESION LINEAL SIMPLE

donde ei yi yi recibe el nombre de residuo. El residuo describe el error en el ajuste


del modelo en la i-sima observacin yi
Desde el punto de vista de la notacin, en ocasiones es conveniente dar smbolos
especiales al numerador y al denominador de la ecuacin 5-8. Dados los datos ( xi , yi ) ,
( x2 , y2 ) , . . . , ( xn , yn ) , sean

2
n
xi
S xx ( xi x) xi i 1
n n
2 2
5-10
i 1 i 1 n

n n
xi yi
S xy yi ( xi x) xi yi i 1 i 1
n n
2
5-11
i 1 i 1 n

5.1.1 Prueba de hiptesis en la regresin lineal simple


Estimacin de la varianza 2
Para obtener inferencias con respecto a los coeficientes de regresin 0 y 1 , es
necesario estimar la varianza 2 . El parmetro 2 , que es la varianza del trmino de
error en el modelo de regresin, refleja la variacin aleatoria alrededor de la verdadera
recta de regresin.
Los residuos, ei yi yi , se emplean en el clculo de 2 . La suma de los cuadrados de los
residuos, o suma de los cuadrados de los errores, es

n
SS E ei2
i 1
n
5-12
( yi y i ) 2

i 1

puede demostrarse que el valor esperado de la suma de los cuadrados de los errores SS E
es

E (SS E ) (n 2) 2

Por tanto,

6
REGRESION LINEAL SIMPLE

SS E
2 5-13
n2

es un estimador no sesgado de 2 .
Puede utilizarse una frmula ms conveniente para el clculo de SS E si se sustituye el
modelo ajustado yi 0 1xi en la ecuacin 5-12 y se hacen las simplificaciones
necesarias. El resultado es

n
SS E yi2 n y 1S xy
2

i 1

n n
y si S yy yi2 n y ( yi y ) 2 , entonces SS E puede escribirse como
2

i 1 i 1

SS E S yy 1S xy 5-14

SS E
2
n2

Prueba de hiptesis en la RLS


Una parte importante al evaluar la adecuacin de un modelo de regresin lineal es la
prueba de hiptesis estadsticas sobre los parmetros del modelo y la construccin de
ciertos intervalos de confianza. Para probar hiptesis sobre la pendiente y la ordenada al
origen del modelo de regresin, debe hacerse la hiptesis adicional de que el componente
de error en el modelo, , tiene una distribucin normal. Es as como la hiptesis
completas son que los errores estn distribuidos de manera normal e independiente con
media cero y varianza 2 , lo que se abrevia como NID (0, 2 ).

Uso de pruebas t
Supngase que se desea probar la hiptesis de que la pendiente es igual a una constante
por ejemplo, 1, 0 . Las hiptesis apropiadas son

H0 : 1 1,0
H1 : 1 1,0 5-15

7
REGRESION LINEAL SIMPLE

donde se ha supuesto que la hiptesis alternativa es bilateral, puesto que los errores i
son NID (0, 2 ), se sigue de manera directa que las observaciones Yi son NID
( 0 1 xi , ) . La estadstica de prueba apropiada para probar estas hiptesis ser:
2

1 1,0
T0 5-16
2 / S xx

sigue la distribucin t con n 2 grados de libertad bajo H 0 : 1 1,0 . Puede rechazarse


H 0 : 1 1,0 si

t0 t / 2, n 2 5-17

donde t0 se calcula con la ecuacin 5-16. El denominador de la ecuacin 5-16 es el error


estndar de la pendiente, de modo que el estadstico de prueba pueda escribirse como

1 1,0
T0
se( 1 )

Puede emplearse un procedimiento similar para probar hiptesis con respecto a la


ordenada al origen. Para probar

H0 : 0 0, 0
H1 : 0 0, 0 5-18

se utiliza el estadstico

0 0, 0 0 0,0
T0 5-19
1 x2 se( 0 )

2

n S xx

8
REGRESION LINEAL SIMPLE

y la hiptesis nula se rechaza si el valor calculado de este estadstico de prueba, t 0 , es tal


que t0 t / 2, n 2 . Ntese que el denominador del estadstico de prueba de la ecuacin 5-
19 es precisamente el error estndar de la ordenada al origen.
Un caso especial muy importante de las hiptesis de la ecuacin 5-15 es

H0 : 1 0
H1 : 1 0 5-20

Estas hiptesis estn relacionadas con la significancia de la regresin. La falla al rechazar


H 0 : 1 0 es equivalente a concluir que no hay ninguna relacin lineal entre y .

Enfoque del anlisis de varianza para la prueba de significancia de la regresin


Para probar la significancia de una regresin puede utilizarse un mtodo conocido como
anlisis de varianza. Como base para la prueba, el procedimiento particiona la variabilidad
total en la variable de respuesta en componentes ms manejables. La identidad del
anlisis de varianza es el siguiente:

n n n
( yi y) 2 ( y y) 2 ( yi y ) 2 5-21
i 1 i 1 i 1

Los dos componentes del miembro derecho de la ecuacin 5-21 miden, respectivamente,
la cantidad de variabilidad en y i tomando en cuenta la regresin y la variacin residual
n
que queda sin explicar por la recta. Lo usual es llamar a SS E ( y i y i ) 2 suma de los
i 1
n
cuadrados de los errores, y a SS R ( y i y ) 2 , suma de los cuadrados de la regresin.
i 1
De manera simblica, la ecuacin 1-21 puede escribirse como:

S yy SS R SS E 5-22

9
REGRESION LINEAL SIMPLE

n
donde S yy ( y i y ) 2 es la suma total de cuadrados corregida de y.
i 1

La suma de los cuadrados de la regresin en la ecuacin 5-22 es

SS R 1 S xy 5-23

La suma total de cuadrados S yy tiene n 1 grados de libertad, y SS R y SS E tienen 1 y


n 2 grados de libertad, respectivamente.

Tabla 5-2 Anlisis de la varianza para la prueba de significancia de la regresin


Fuente de Suma de cuadrados Grados de Media de 0
variacin libertad cuadrados
Regresin 1 /
Error 2
Total 1

SS R / 1 MS R
F0 5-24
SS E /( n 2) MS E

Sigue a la distribucin F1, n 2 con lo que H 0 debe rechazarse si f 0 f , 1, n2 . Las


cantidades = y = reciben el nombre de medias de
cuadrados.

5.2 Estimacin y prediccin intervalo en la regresin lineal simple


Una aplicacin importante de un modelo de regresin es la prediccin de observaciones
nuevas o futuras de , correspondientes a un nivel especificado de la variable de
regresin . Si x 0 es el valor del regresor de inters, entonces

Y0 0 1 x0

es el estimador puntual del valor nuevo o futuro de la respuesta 0 .


10
REGRESION LINEAL SIMPLE

Ahora considrese la obtencin de una estimacin del intervalo para esta observacin
futura Y0 . Esta nueva observacin es independiente de las observaciones utilizadas para
desarrollar el modelo de regresin. Por consiguiente, el intervalo de confianza para Y X 0
se define a continuacin.

Definicin

Un intervalo de prediccin para una observacin futura del 100(1 ) por ciento y 0 en el
valor de x 0 est dado por

1 ( x 0 x) 2 1 ( x 0 x) 2
y 0 t / 2, n 2 1
2
y 0 y 0 t / 2, n 2 1
2
5-25
n S xx n S xx

el valor de y 0 se calcula a partir del modelo de regresin y 0 0 1 x 0

Ntese que el ancho del intervalo de prediccin es mnimo cuando x 0 x , y crece a


medida que x 0 x aumenta.

5.3 Calidad en el ajuste regresin lineal


En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una relacin
significativa entre y ; sin embargo, no hemos visto si tal relacin permite hacer
estimaciones con una precisin aceptable. Por ejemplo, es de inters saber qu tanta de la
variabilidad presente en Y fue explicada por el modelo, adems si se cumplen los
supuestos de los residuos.

Coeficiente de determinacin
Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el modelo
se ajust a los datos. En el caso de la regresin lineal simple esto se distingue al observar
si los puntos tienden ajustarse razonablemente bien a una lnea recta. Pero otro criterio
ms cuantitativo es el que proporciona el coeficiente de determinacin, el cual est
definido por:

SS R SS
R2 1 E 5-26
S yy S yy

11
REGRESION LINEAL SIMPLE

y se utiliza con mucha frecuencia para juzgar la adecuacin del modelo de regresin. R 2
toma valores en el intervalo 0 R 2 1 . A menudo se hace referencia de manera vaga a
R 2 como la cantidad de variabilidad en los datos que es explicada o tomada en cuenta por
el modelo de regresin..
La estadstica R 2 debe emplearse con precaucin, ya que siempre es posible hacer R 2
igual con uno mediante la adicin al modelo de un nmero suficiente de trminos. Por
ejemplo, puede obtenerse un ajuste perfecto a puntos con un polinomio de grado n 1 .
Adems, R 2 siempre aumenta si se aade una variable al modelo, lo que no
necesariamente implica que el nuevo modelo sea mejor que el anterior.
Existen varias ideas errneas en cuanto a R 2 . En general, R 2 no mide la magnitud de la
pendiente de la recta de regresin. Un valor grande de R 2 no implica una pendiente
grande. Por otra parte, R 2 no mide cun apropiado resulta ser el modelo, ya que esto
puede inflarse de manera artificial con la adicin al modelo de trminos polinomiales en
x de grado superior. Incluso R 2 puede ser grande si x y y estn relacionadas de
manera no lineal.

Coeficiente de correlacin
Es bien conocido que el coeficiente de correlacin, R, mide la intensidad de la relacin
entre dos variables X y y. si se tienen n pares de datos de la forma ( , ), entonces este
coeficiente se obtiene de la siguiente manera:

Se puede ver que 1 1; si R est prxima a -1, entonces tendremos una relacin
lineal negativa fuete, y si R es prximo a cero, entonces decimos que no hay correlacin, y
finalmente si R es prximo a 1, entonces tendremos una relacin lineal positiva fuerte.

Error estndar de estimacin


Una medicin sobre la calidad del ajuste de un modelo lo da el error estndar de la
estimacin, que es una estimacin de la desviacin estndar del error . En el caso de la
regresin lineal simple est dado por:


=
2

Es claro que a medida que el modelo se ajuste mejor, la ser menor y en


consecuencia el error estndar de estimacin tambin ser menor

12
REGRESION LINEAL SIMPLE

Anlisis residual
Los residuos de un modelo de regresin son ei yi y i , i 1, 2,, n, donde y i es una
observacin real y y i es el correspondiente valor ajustado a partir del modelo de
regresin. A menudo el anlisis de los residuos es til para verificar la hiptesis de que los
errores tienen una distribucin aproximadamente normal con varianza constante, as
como para determinar la adicin de ms trminos al modelo.
Como comprobacin aproximada de la normalidad, el experimentador puede construir un
histograma de frecuencias de los residuos o una grfica de probabilidad normal de los
residuos.
Tambin es posible estandarizar los residuos mediante el clculo de d i ei / 2 ,
i 1, 2, , n . Si los errores tienen una distribucin normal, entonces aproximadamente
el 95% de los residuos estandarizados deben caer en el intervalo (-2, 2). Los residuos que
se alejan mucho de ese intervalo puede indicar la presencia de un valor atpico; esto es,
una observacin que no es comn con respecto a los dems datos. Se han propuesto
varias reglas para descartar valores atpicos. Sin embargo, en ocasiones los valores atpicos
proporcionan informacin importante sobre circunstancias poco usuales que son de
inters para los experimentadores y que no deben descartarse.
A menudo es til hacer una grfica de los residuos 1) como una secuencia del tiempo (si es
que sta se conoce), 2) contra las y i y 3) contra la variable independiente x .
Usualmente, estas grficas tienen un aspecto similar a los cuatro patrones generales que
aparecen en la Fig. 5-5. El patrn a) de esta figura representa una situacin ideal,
mientras que los patrones b), c) y d) representan anomalas.

ei ei



0

0





a) y i b) y i

13
REGRESION LINEAL SIMPLE

ei ei





0 0







c) y i d) y i
Fig. 5-5 Patrones para grficas de residuos: a) Satisfactorio, b) en embudo, c) doble arco, d) no lineal. (Adaptado de
Montgomery y Peck (1992)). Pureza del oxgeno (%)

y i

14

You might also like