Professional Documents
Culture Documents
Competencias
Competencia especfica:
Utiliza el diagrama de dispersin de datos bivariados de un experimento para hacer una
estimacin en procesos de la industria y la logstica aplicando los conceptos de regresin
lineal simple.
Competencias genricas:
Capacidad de abstraccin, anlisis y sntesis.
Capacidad de aplicar los conocimientos en la prctica.
Capacidad para identificar, plantear y resolver problemas.
REGRESION LINEAL SIMPLE
1
REGRESION LINEAL SIMPLE
100
90
Examen final
80
70
60
50
60 70 80 90 100
Examen parcial
Fig. 5-1 Diagrama de dispersin de examen parcial contra examen final.
El anlisis de este diagrama de dispersin indica que, si bien una curva no pasa
exactamente por todos los puntos, existe una evidencia fuerte de que los puntos estn
dispersos de manera aleatoria alrededor de una lnea recta. Por consiguiente es razonable
suponer que la media de la variable aleatoria esta relacionada con por la siguiente
relacin lineal:
E(Y x) Y x 0 1 x
Y 0 1x 5-1
2
REGRESION LINEAL SIMPLE
Estimacin de parmetros
El caso de la regresin lineal simple considera un solo predictor, y una variable
dependiente o de respuesta . Supngase que la verdaderas relacin entre y es una
lnea recta, y que la observacin en cada nivel x es una variable aleatoria. Tal como ya
se indic, el valor esperado de para cada valor es
E(Y x) 0 1 x
Y 0 1x 5-2
donde es un error aleatorio con media cero y varianza 2 . Tambin se supone que los
errores aleatorios que corresponden a observaciones diferentes son variables no
correlacionadas.
Supngase que se tienen pares de observaciones ( x1 , y1 ) , ( x2 , y2 ),, ( xn , yn ) . La Fig. 5-2
contiene una representativa grfica de dispersin de los datos observados y un candidato
para la recta de regresin. Las estimaciones de 0 y de 1 deben dar como resultado una
lnea (en algn sentido) se "ajuste mejor" a los datos. El cientfico alemn Karl Gauss
(1777-1785) propuso estimar los parmetros 0 y 1 de la ecuacin 5-2 de modo que se
minimice la suma de cuadrados de las desviaciones verticales de la Fig. 5-2.
3
REGRESION LINEAL SIMPLE
Valor
observado ()
Recta de regresin
estimada
Fig. 5-2 Desviaciones de los datos del modelo de regresin estimado
Este criterio para estimar los coeficientes de regresin se conoce como mtodos de
mnimos cuadrados. Al utilizar la ecuacin 5-2, es posible expresar las n observaciones de
la muestra como
y i 0 1 xi j i 1, 2,, n 5-3
n n
L i2 ( yi 0 1 xi )2 5-4
i 1 i 1
L n
2 ( yi 0 1 xi ) 0
0 0 , 1 i 1
L n
2 ( yi 0 1 xi )xi 0 5-5
1 0 , 1 i 1
4
REGRESION LINEAL SIMPLE
0 + 1 1 =
=1 =1
5-6
0 1 12 =
=1 =1 =1
0 y 1 x 5-7
n n
yi xi
yi xi i 1 i 1
n
n
1 i 1
2
5-8
n
xi
xi i 1
n
i 1
2
y 0 1x 5-9
yi 0 1xi ei , i 1, 2, . . . , n
5
REGRESION LINEAL SIMPLE
2
n
xi
S xx ( xi x) xi i 1
n n
2 2
5-10
i 1 i 1 n
n n
xi yi
S xy yi ( xi x) xi yi i 1 i 1
n n
2
5-11
i 1 i 1 n
n
SS E ei2
i 1
n
5-12
( yi y i ) 2
i 1
puede demostrarse que el valor esperado de la suma de los cuadrados de los errores SS E
es
E (SS E ) (n 2) 2
Por tanto,
6
REGRESION LINEAL SIMPLE
SS E
2 5-13
n2
es un estimador no sesgado de 2 .
Puede utilizarse una frmula ms conveniente para el clculo de SS E si se sustituye el
modelo ajustado yi 0 1xi en la ecuacin 5-12 y se hacen las simplificaciones
necesarias. El resultado es
n
SS E yi2 n y 1S xy
2
i 1
n n
y si S yy yi2 n y ( yi y ) 2 , entonces SS E puede escribirse como
2
i 1 i 1
SS E S yy 1S xy 5-14
SS E
2
n2
Uso de pruebas t
Supngase que se desea probar la hiptesis de que la pendiente es igual a una constante
por ejemplo, 1, 0 . Las hiptesis apropiadas son
H0 : 1 1,0
H1 : 1 1,0 5-15
7
REGRESION LINEAL SIMPLE
donde se ha supuesto que la hiptesis alternativa es bilateral, puesto que los errores i
son NID (0, 2 ), se sigue de manera directa que las observaciones Yi son NID
( 0 1 xi , ) . La estadstica de prueba apropiada para probar estas hiptesis ser:
2
1 1,0
T0 5-16
2 / S xx
t0 t / 2, n 2 5-17
1 1,0
T0
se( 1 )
H0 : 0 0, 0
H1 : 0 0, 0 5-18
se utiliza el estadstico
0 0, 0 0 0,0
T0 5-19
1 x2 se( 0 )
2
n S xx
8
REGRESION LINEAL SIMPLE
H0 : 1 0
H1 : 1 0 5-20
n n n
( yi y) 2 ( y y) 2 ( yi y ) 2 5-21
i 1 i 1 i 1
Los dos componentes del miembro derecho de la ecuacin 5-21 miden, respectivamente,
la cantidad de variabilidad en y i tomando en cuenta la regresin y la variacin residual
n
que queda sin explicar por la recta. Lo usual es llamar a SS E ( y i y i ) 2 suma de los
i 1
n
cuadrados de los errores, y a SS R ( y i y ) 2 , suma de los cuadrados de la regresin.
i 1
De manera simblica, la ecuacin 1-21 puede escribirse como:
S yy SS R SS E 5-22
9
REGRESION LINEAL SIMPLE
n
donde S yy ( y i y ) 2 es la suma total de cuadrados corregida de y.
i 1
SS R 1 S xy 5-23
SS R / 1 MS R
F0 5-24
SS E /( n 2) MS E
Y0 0 1 x0
Ahora considrese la obtencin de una estimacin del intervalo para esta observacin
futura Y0 . Esta nueva observacin es independiente de las observaciones utilizadas para
desarrollar el modelo de regresin. Por consiguiente, el intervalo de confianza para Y X 0
se define a continuacin.
Definicin
Un intervalo de prediccin para una observacin futura del 100(1 ) por ciento y 0 en el
valor de x 0 est dado por
1 ( x 0 x) 2 1 ( x 0 x) 2
y 0 t / 2, n 2 1
2
y 0 y 0 t / 2, n 2 1
2
5-25
n S xx n S xx
Coeficiente de determinacin
Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el modelo
se ajust a los datos. En el caso de la regresin lineal simple esto se distingue al observar
si los puntos tienden ajustarse razonablemente bien a una lnea recta. Pero otro criterio
ms cuantitativo es el que proporciona el coeficiente de determinacin, el cual est
definido por:
SS R SS
R2 1 E 5-26
S yy S yy
11
REGRESION LINEAL SIMPLE
y se utiliza con mucha frecuencia para juzgar la adecuacin del modelo de regresin. R 2
toma valores en el intervalo 0 R 2 1 . A menudo se hace referencia de manera vaga a
R 2 como la cantidad de variabilidad en los datos que es explicada o tomada en cuenta por
el modelo de regresin..
La estadstica R 2 debe emplearse con precaucin, ya que siempre es posible hacer R 2
igual con uno mediante la adicin al modelo de un nmero suficiente de trminos. Por
ejemplo, puede obtenerse un ajuste perfecto a puntos con un polinomio de grado n 1 .
Adems, R 2 siempre aumenta si se aade una variable al modelo, lo que no
necesariamente implica que el nuevo modelo sea mejor que el anterior.
Existen varias ideas errneas en cuanto a R 2 . En general, R 2 no mide la magnitud de la
pendiente de la recta de regresin. Un valor grande de R 2 no implica una pendiente
grande. Por otra parte, R 2 no mide cun apropiado resulta ser el modelo, ya que esto
puede inflarse de manera artificial con la adicin al modelo de trminos polinomiales en
x de grado superior. Incluso R 2 puede ser grande si x y y estn relacionadas de
manera no lineal.
Coeficiente de correlacin
Es bien conocido que el coeficiente de correlacin, R, mide la intensidad de la relacin
entre dos variables X y y. si se tienen n pares de datos de la forma ( , ), entonces este
coeficiente se obtiene de la siguiente manera:
Se puede ver que 1 1; si R est prxima a -1, entonces tendremos una relacin
lineal negativa fuete, y si R es prximo a cero, entonces decimos que no hay correlacin, y
finalmente si R es prximo a 1, entonces tendremos una relacin lineal positiva fuerte.
=
2
12
REGRESION LINEAL SIMPLE
Anlisis residual
Los residuos de un modelo de regresin son ei yi y i , i 1, 2,, n, donde y i es una
observacin real y y i es el correspondiente valor ajustado a partir del modelo de
regresin. A menudo el anlisis de los residuos es til para verificar la hiptesis de que los
errores tienen una distribucin aproximadamente normal con varianza constante, as
como para determinar la adicin de ms trminos al modelo.
Como comprobacin aproximada de la normalidad, el experimentador puede construir un
histograma de frecuencias de los residuos o una grfica de probabilidad normal de los
residuos.
Tambin es posible estandarizar los residuos mediante el clculo de d i ei / 2 ,
i 1, 2, , n . Si los errores tienen una distribucin normal, entonces aproximadamente
el 95% de los residuos estandarizados deben caer en el intervalo (-2, 2). Los residuos que
se alejan mucho de ese intervalo puede indicar la presencia de un valor atpico; esto es,
una observacin que no es comn con respecto a los dems datos. Se han propuesto
varias reglas para descartar valores atpicos. Sin embargo, en ocasiones los valores atpicos
proporcionan informacin importante sobre circunstancias poco usuales que son de
inters para los experimentadores y que no deben descartarse.
A menudo es til hacer una grfica de los residuos 1) como una secuencia del tiempo (si es
que sta se conoce), 2) contra las y i y 3) contra la variable independiente x .
Usualmente, estas grficas tienen un aspecto similar a los cuatro patrones generales que
aparecen en la Fig. 5-5. El patrn a) de esta figura representa una situacin ideal,
mientras que los patrones b), c) y d) representan anomalas.
ei ei
0
0
a) y i b) y i
13
REGRESION LINEAL SIMPLE
ei ei
0 0
c) y i d) y i
Fig. 5-5 Patrones para grficas de residuos: a) Satisfactorio, b) en embudo, c) doble arco, d) no lineal. (Adaptado de
Montgomery y Peck (1992)). Pureza del oxgeno (%)
y i
14