You are on page 1of 13

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

ANALISIS DE REGRESION.
INTRODUCCION.
Muchos problemas se dan con dos o más variables que están relacionadas y será interesante
modelar estas relaciones para predecir, optimizar y/o controlar el proceso.
Para una variable dependiente o de respuesta de k variables independientes o de regresión
( x1, x2, ..., xk ), la relación se caracteriza para un modelo matemático llamado regresión, el cual
se ajusta a un conjunto de datos muéstrales.
Donde en la mayoría de los casos la relación funcional se desconoce y el investigador debe elegir
una función apropiada para aproximar.
y = φ ( x1, x2, ... , xk ).
Mediante polinomios se analiza el ajuste de datos.
El ANDEVA ( ANálisis DE VArianza ) ayuda a determinar que factores son importantes con
respecto a la respuesta en el experimento.
REGRESION LINEAL SIMPLE.
Determina la relación entre una sola variable de regresión ( x ) y la respuesta ( y ).
Usualmente la variable de regresión es continua y controlable por el experimentador, entonces,
se eligen los valores de x y se observan los valores correspondientes de y.
Se supone que la relación real entre x e y es una línea recta y que la observación y a cada
nivel de x es una variable aleatoria.
El valor esperado de y para cada valor de x es :
Donde los parámetros

ßo

y

ß1

E ( y / x ) = ßo +

son constantes desconocidas.

Cada observación y se describe mediante y = ßo +
donde e : es un error aleatorio con
no correlacionadas.

ß1 x

µ=0

y

ß1 x

+

e

σ² = 1, constituye un conjunto de variables aleatorias

El modelo que contiene una sola variable de regresión se conoce como:
MODELO DE REGRESIÓN LINEAL SIMPLE.
Los parámetros del modelo ßo y ß1 pueden estimarse mediante mínimos cuadrados si se tienen
n pares de datos :
( y1, x1 ), ( y2, x2 ), ... , ( yn, xn )
por lo tanto
1

ß1 xi )² i=1 ßo Después de simplificar los estimadores de mínimos cuadrados de ecuaciones normales de mínimos cuadrados.Σ yi = y ß1 = ------------------n i=1 n _ Σ ( xi .x ) 1 n _ i=1 ß'o = ---. 2.x )² = n i=1 n Σ xi )² i=1 Σ x²i i=1 . n: n Donde la función de mínimos cuadrados es: L = n Σ e²i Σ = i=1 ( yi . ..------------n n n Σ xi ) ( Σ yi ) n Sxy = Σ i=1 _ yi ( xi .ßo .= Sxx ß1 x Suma de cuadrados corregida de los productos x e y ------------------------------------------------------------------Suma de cuadrados corregida de x n ( _ Sxx = Σ ( xi . n _ Σ yi ( xi .ß1 x es el modelo ajustado en la ordenada Y = ßo + El modelo ajustado es ß1 Sxy = --------.Este puede obtenerse usando los residuos ei = yi .x )² y ß1 se obtienen las i=1 Donde ßo y ß1 son los estimadores de mínimos cuadrados de la ordenada en el origen y la pendiente de la recta respectivamente. .x ) _ ßo = ß'o .TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE yi = ßo + ß1 xi + ei i = 1.Yi 2 . El modelo ajustado de regresión lineal simple Y = ß'o donde _ + ß1 (x ..x ) = n Σ xi yi i=1 i=1 i=1 ---------------------n Estimadores de σ² .

Si Ho : ß1 = H1 : ß1 ╪ ß1.Yi )² = SSt .o ß1 Ho : ß1 = ß1.l. PRUEBA DE HIPOTESIS DE LA PENDIENTE. n n Las relaciones de regresión tienen validez solo para valores de la variable de regresión dentro del intervalo de los datos originales.o to = --------------------------------------√ MSe tiene una distribución - (1/n _ + x² / Sxx ) con n . n-2) PRUEBA DE HIPOTESIS DE LA ORDENADA EN EL ORIGEN Si Ho : ßo = H1 : ßo.o si │ to │ > t (α/2. 3 .TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE La suma de cuadrados de los residuos o suma de cuadrados del error es SSe SSe = Σ e²i = Σ ( yi .2 g.o ßo el estadístico Se rechaza t ßo.o si │ to │ > t (α/2.2 ).o to = -----------------√ MSe / Sxx el estadístico tiene una distribución t con Se rechaza - n .2 g.≡ MSe i=1 i=1 n .ß1 Sxy σ² = -----. Las hipótesis Ho : ß1 = 0 Aceptar H1 : ß1 ╪ 0 se relacionan con la significancia de la regresión. ß1.l. n . Ho. Ho : ßo = ßo. σ² ).2 Donde MSe ( media de cuadrados del error ó residual ) es un estimador insesgado de σ². εi Se supone que el error esta normalmente distribuido εi NID ( 0. Para la pendiente ( ß1 ) y la ordenada en el origen ( ßo ) del modelo de regresión.o ß1.o ßo ╪ ßo. equivale a concluir que no existe una relación lineal entre x e y. Los modelos de regresión nunca deben utilizarse para extrapolación. PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE.

b1 ) / √ MSe / Sxx ( ßo .2 g.Yi )² _________________ SSt = SSe + SSr De se conoce como la suma de cuadrados de regresión se conoce como la suma de cuadrados totales SSt = SSe + SSr SSe = SSt .SSt + SSr = SSt .Yi )² i=1 i=1 Los dos componentes miden respectivamente la variabilidad de Yi explicada por la recta de regresión y la variación residual no explicada por la recta de regresión. Además de los estimadores puntuales de la pendiente y la ordenada en el origen.α sobre ß1 es sobre ßo es 4 . es posible obtener estimaciones por intervalo de estos parámetros.α El intervalo de confianza de 1 . _ ( ß1 . SSe = Σ ( yi .l.Y )² = n Σ SSt ≡ i=1 n _ Σ ( Yi . n .Y )² + n Σ ( yi .bo ) / √ MSe ( 1 / n + x² / Sxx ) tiene una distribución t con n . 1. El intervalo de confianza de 1 . _ ( Yi .TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE Para probar Ho : ß1 = 0 se usan dos enfoques: Descomponer la suma total de cuadrados corregida de y.Yi )² se conoce como la suma de cuadrados del error _ SSr = Σ ( Yi .ß1 Sxy SSr = SSt .SSe SSr = ß1 Sxy ß1 Sxy ANDEVA FUENTE DE VARIACION SUMA DE CUADRADOS (1) REGRESION SSr = ERROR SSe = SSt .ß1 Sxy n-2 TOTAL SSt n-1 ß1 Sxy GRADOS DE LIBERTAD (2) MEDIA DE CUADRADOS (1/2) 1 MSr MSe = R Ho  Fo MSr / Mse σ² Fo > f ( α. Si las εi son independientes y normalmente distribuidas.2 ) ESTIMACION POR INTERVALO.

2) √ MSe / Sxx ANALISIS DE REGRESION LINEAL SIMPLE _ ßo ± t (α / 2.2) √ MSe ( 1 / k + 1 / n + (xo . n . Al ajustar cualquier modelo lineal. k observaciones futuras a un valor particular de Es inadecuado usar un intervalo de confianza porque hace referencia a la media real y no a futuras observaciones de la variable aleatoria. INTERVALO DE PREDICCION. ( 1 .2 ) √ MSe ( 1 / n + (xo . ya que el intervalo de predicción depende tanto del error del modelo ajustado como del error asociado con las futuras observaciones.x ) ² / Sxx ) El intervalo de predicción _ _ tiene una amplitud mínima en xo = x y aumenta a medida que │ xo .x ) puede obtenerse un estimador puntual de E ( y / xo ) del modelo ajustado mediante _ E ( y / xo ) ≡ Yo = ß'o + ß1 (xo .x). n .α ) para la media de k observaciones futuras en xo.α ) para E ( y / xo ) esta en función de xo . conocido como I. n . El intervalo de predicción en xo es siempre más ancho que el intervalo de confianza en xo .2) √ MSe ( 1 / n + x² / Sxx ) Se puede construir un intervalo de confianza para la respuesta media a un valor especifico x = xo. _ Como E ( y / xo ) = ß'o + ß1 ( xo . 5 . de C. es _ Yo ± t (α / 2.α ) para la recta de regresión real x = xo _ Yo ± t (α / 2.x ) ² / Sxx ) es NOTA La amplitud del I de C.x│ se incrementa. _ _ La amplitud es mínima en xo = x y se hace más grande a medida que │ xo . COMPROBACION DE LA IDONEIDAD. Intervalo de confianza ( 1 . n . Para la recta de regresión. ( Análisis de residuos ). el análisis de residuos del modelo de regresión es necesario para determinar la idoneidad del ajuste. Es una estimación por intervalo de promedio de x = xo.x │.TEMA 6 ß1 ± t (α / 2. El intervalo de predicción del ( 1 .

.7573 10.4 16.9761 18.2365 16.5 Yi 8.3899 -1. la gráfica de los residuos vs los valores ajustados y la gráfica de los residuos vs cada variable de regresión.1233 -0. Y22.Y1 )² 6 . Ym2. 12 PRUEBA DE FALTA DE AJUSTE..5 11. De SSe Este se descompone en sus dos componentes: Donde SSe = SSep + SSlof SSep Suma de cuadrados del error puro ó del experimento. 2.Yi i = 1.9239 -0.8893 ei -0.0629 17.1295 -1.8 13. y para al menos un nivel de x y se tengan .2503 -0.. .5365 0. Para calcular SSep se necesitan varias observaciones de n observaciones tal que: Y11. ..6705 11.7 16... .8441 9.3 14.5629 0.TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE Es útil examinar la gráfica de probabilidad normal.Y2n2 = “ “ “ X2 .4441 -0.2573 1.0.2879 + 0.3893 donde: Yi = ßo + ß1 x Yi = .2 14.4 13..4 9.5837 12. H1 : El modelo no se ajusta a los datos.4969 13. si hace falta ajuste al modelo de regresión. Es importante saber si el orden del modelo tentativamente supuesto es correcto a través de una prueba para validar esta suposición por medio de conocer. xi 20 22 24 26 28 30 32 34 36 38 40 42 yi 8. A menudo los modelos de regresión se adecuan a los datos cuando no se conoce la relación funcional.1837 0..3233 15.Y1n1 = observaciones repetidas en X1 . Y12.4566 x ei = yi . Ym1..8 10. .Ymnm = “ “ “ Xm Se observa m niveles distintos de x La contribución a la suma de cuadrados del error puro en Xi es n _ Σ ( Y1u .5 18. SSlof Suma de cuadrados a la falta de ajuste del experimento. Y12.1497 17. Hipótesis a probar Ho : El modelo se ajusta adecuadamente a los datos.4101 14.9 18.8031 1.

Y ) ²R² Debe usarse con cuidado porque siempre es posible R² = ---.= SSep -------n .m Se rechaza la hipótesis de idoneidad del modelo Ho si Fo > f ( α. MS lof ---------MSep Esta prueba se introduce fácilmente en el Andeva dirigida a la significancia de la regresión.2 Fo = -------. Σ ( Yi .m ).Y ) ² hacerla igual a 1. MSep y MSlof se combinan para estimar σ².2 .Yi )² de cuadrados del error puro. R. R² Siempre aumenta si se agrega una variable al modelo.constituye la correlación simple entre x e y. Si la hipótesis nula de la adecuación del modelo se rechaza.m g.= ----------------_ SSt Σ ( yi .l. El estudio arrojo los siguientes datos. asociados a la suma SSep = Σ Σ ( Yiu .SSep con n . Rapidez de agitación ( x ) 20 22 24 26 Impurezas % 28 30 32 34 36 38 40 42 (y) 7 . m ni _ Hay n ..m ) = m . Se usa para juzgar la adecuación del modelo de regresión. no existe razón para dudar de la adecuación del modelo. el modelo debe ser abandonado y buscarse otro que resulte más apropiado. COEFICIENTE DE DETERMINACION.TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE u=1 La suma total de cuadrados del error puro se obtiene sumando la ecuación anterior sobre todos los niveles de x.( n . agregando un número de términos al al modelo.2 g.2. EJEMC2P1 Se realizo un estudio para determinar el efecto que tiene la rapidez de mezclado sobre la cantidad de impurezas en una pintura producida mediante un proceso químico. A menudo.. SSr R² Es la proporción de variabilidad de los datos _ explicada por el modelo de regresión. i=1 u=1 La suma de cuadrados de la falta de ajuste es: SSlof = SSe . n .l. m . Si Ho no se rechaza. El estadístico para probar la falta de ajuste es: SSlof -------m .

x e y.8 10. así como el modelo de regresión.8 10.Obtenga los valores ajustados ( Yi ) y los residuos (ei = yi .4 9.5 a).89 219.04 174.4 13.5 18. así como el modelo de regresión. f). De C.16 176. c).4 13.2 400 484 576 676 784 900 1024 70.Construya el Andeva y pruebe la hipótesis de regresión.TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE 8.Presentar el diagrama de dispersión.24 168 209 283.25 139.4 9. RESPUESTAS.5 11. El diagrama de dispersión es útil para identificar la relación entre las dos variables.Presentar el diagrama de dispersión. a).Calcular los parámetros.3 14.24 108.Obtenga la estimación por intervalo de la pendiente y la ordenada en el origen. d).2 14. e).7 16.Determinar R² y R.4 8 . g).Construir el intervalo de predicción al 95% de las impurezas promedio de los siguientes 2 lotes producidos en xo = 34.9 18. n x y x² y² xy 1 2 3 4 5 6 7 20 22 24 26 28 30 32 8. Para la recta de regresión. Este diagrama de dispersión sugiere que la relación es apropiada b). h).4 16.4 444 422.5 11. b).8 13.56 90.3 14.- Calcular los parámetros.8 13.Estimar el I.2 270.Yi ).4 372.

TEMA 6 8 9 10 11 12 n = 12 ANALISIS DE REGRESION LINEAL SIMPLE 34 36 38 40 42 _ Σ xi = 372 x = 31 14.87 + 0.4 627 756 777 12104 Σ y²i = 2435.Yi ) xi yi 20 22 24 26 28 30 8.= 572 n 12 ( Σ xi ) ( Σ yi ) Sxy = ß1 Σ xi yi ( 372 ) ² ( 372 ) ( 166.= 261.0.4566 Sxx 572 _ ß'o = Y = 13.21 342.5 18.4 y = 13.8031 1.6 Obtenga los valores ajustados ( Yi ) y los residuos (ei = yi .6705 11.2 = ----.4101 ei = yi .09 268.5 1156 1296 1444 1600 1764 216.4 13.= 0.= 5419.25 _ Σ yi = 166.7 16.4 ) .288 + 0. c).5 11.2879 El modelo en términos de la intersección Y = ßo + ß1 x = .3899 9 .4 16.ß1 x = 13.8441 9.4969 13.87 Σ x²i 499.14 Σ xi yi = 5419.3 14.4566 x Los valores ajustados ( Yi ) y los residuos ( ei = yi .288 + 0.x ) = 13.2573 1.Yi -0.( 0.---------.4566 x 8.Yi ).x )² = Σ x²i .4566 ) ( 31 ) = .= --------.8 10.25 357.4566 ( x .4 9.9 18.2 n 12 Sxy 261.8 590.-------------------.1837 0.4441 -0.1295 -1.87 _ ( x .31 ) El modelo ajustado es : Y = ß'o + ß1 _ ßo = ß'o .96 272.= 12104 .- ( Σ xi ) ² _ Sxx = Σ ( xi .8 Yi = ßo + ß1 x = -0.0.6 .5837 12.7573 10.-------------------.87 .---------.

n . n . 10) = 10. e). G.α = 1 .3233 15.5423 10 .9 18.L . 12 .4 16.( Σ ( yi )² / n ) = 2435.01.847 / 572 0.73 10 11 0.26 = 8.847 Para ß1 Sxx = 572 0.2 ) √ MSe/Sxx ß1 = 0.025.( ( 166.2 14.8 0.05 = 95%.2503 -05629 0.2) = t (0.2365 16.9761 18.847 Error total 8.04 ? Si por lo tanto se rechaza Ho dado que la variación de la regresión tiene significancia.1497 17.26 SSt = Σ ( yi )² . 10) x² = ( 31 )² n = 12 0.4 )² / 12 ) = 127.26 119.14 .0629 17.- Obtenga la estimación por intervalo de la pendiente y la ordenada en el origen.4566 ( 261.0.2 ) = 119.8 > 10. ß1 y ßo De: ß1 ± t ( α/2.5 14.TEMA 6 32 34 36 38 40 42 d).5365 0.- ANALISIS DE REGRESION LINEAL SIMPLE 13. respectivamente para 1 .5 18.119.228 0.7 16.47 ANDEVA F.4566 ± 0.73 . 1.228 √ _ ßo ± t ( α/2. De: SSr = ß1 Sxy = 0. De V.05 / 2.3709 ≤ = 2.8893 1.04 Ho : no hay significancia en la variación de la regresión.4566 ± 2.26 -------. S.= 140. R Ho si Fo > fα Fo > fα ? 140.3893 Construya el Andeva y pruebe la hipótesis de regresión.S.S.288 MSe = 0.2 ) √ MSe (1 /n+ x² / Sxx) t (0.SSr = 127.4566 ßo = -0.9239 -0.847 ANALISIS: fα f( 0. Fo Regresión 119.1233 0. H1 : si hay significancia en la variación de la regresión.47 127.26 1 119.0857 ß1 ≤ 0.73 SSe = SSt .M.

.0 1.69 6.84 0.89 10. De C.2365 ± 2.2 ) √ MSe ( 1 / k + 1 / n + (xo .6 5.76 2. De: Yo ± t ( α / 2.37% de los datos R = √ R² = √ 0.84 0.0109 ≤ f).3 1.94 12.31 ) ² / 572 ) 15.228 h).0 2.2) √ _ √ MSe ( 1 / n + (xo .- ßo ≤ 2.288 + 0..TEMA 6 Para ANALISIS DE REGRESION LINEAL SIMPLE ßo -0.0 4.24 7.26 / 127.- De: 22 24 28 30 32 34 36 38 40 42 Construir el intervalo de predicción al 95% de las impurezas promedio de los siguientes k = 2 lotes producidos en Xo = 34. _ Yo ± t ( α / 2.65 0.31 )² / 532 ) Donde:xo = xi i = 1.6 5.0 10.73 0.0 2.41 14.73 = 0.97 1.06 17.24 13.3 1.0.24 16.2365 ± 1.98 18.11 0.8 5.847 ( 1 / 12 + (xo . R² = SSr / SSt = 119.723 -3.60 0.4351 Estimar el I.x )² / Sxx ) 0. ± 1.de C.97 0.9337 El modelo explica al 93. n .4566 xo.29 3.9337 = 0.58 12.x )² / Sxx ) 15.11 g).73 0.2879 ± 2.0 3.05 ) de Yo = -0.2879 ± 2.5 13.8 3. 2.84 9.8 2.76 10.847 ) ( 1 / 2 + 1 / 12 + ( 34 .15 17.32 15.0 1.60 0.228 n .8 1.89 I. Para ( 1 .0 1.8235 Determinar R² y R.3 3.7 2. Para la recta de regresión.847 ( 1 / 12 + ( 31 )² / 572 ) -0.. 12 Xo 20 Yo 8. Yo = 2.89 16.4 11 .228 √ 0.9663 EJMC2P2 n x x² y y² xy 1 2 3 4 5 6 1.- 26 √ ( 0.84 3.587 _ 13.21 10.6495 ≤ Y ≤ 16.3 4.65 0..67 11.

73 Σ x² = 379.8 .0 19.382 ) = 1.36 31.30 )² 1 _____ 7 = 0.6 / 52.6 ) = 3.3 .2.6 2.5 ) ( 48.0.2 2.21 _ y = 2.6 2.2.0 5.80 )² + ( 2.05 ( 2.75 )² + ( 3.24 11.4 _ x = 4.7 .05 )² + ( 1.2 .96 .25 7.382 Σ y² = 148.1 .5 .7 .847 _ ßo = ß'o .0 6.56 25.8 .980 2 6.3.6 .2.2 3.6 5.( 74.36 36.0 4.258 x SSr = ß1 Sxy SSt = Σ y² .0 22.3.76 20.5 )² / 17 = 52.6 5.0 2.47 )² + ( 2.36 31.5 = 148.4 .1 34.0 10.2 .yi )² g.4 19.4 ) ) / 17 = 13.2.716 + 0.30 ( 3.258 ( 13.76 4.2.61 6.56 10.4 8. 1.258 ( 4.21 .6 .0 12.80 )² = 0.847 .ß1 x = 2.0366 Error por falta de ajuste 12 .( ( Σ x ) ( Σ y ) ) / n = 225.7 5.80 )² + ( 2.24 4.(Σ x )² / n = 379.0 2.4 )² / 17 = 10.2.0 31.0 4.6 15.76 .75 )² = 1.2.04 10.TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE 7 8 9 10 11 12 13 14 15 16 17 4.0 6.3.7 = 0.2 22.0 36.47 )² = 0.5 6.47 ( 2.76 Sxx = 16.716 Sxy = Y = ßo + ß1 ( x ) = 1.( Σ y )² / n = 0.84 4.805 1 4.0 3.46 La suma del error puro se calcula como sigue: _ _ Nivel de x yi Σ ( y .5 Σ x y = 225.2.75 ( 1.05 )² = 0.2.2 3.02 ______________ SSep = 3.96 SSe = SSt .6 _ ß1 = Sxy / Sxx = 13.84 10.4 5.SSr = 10.73 .0 3.125 1 3.( ( 74.3 2.l.8 2.5 n = 17 Σ x² Σxy 2.0 Σ y = 48.30 )² + ( 3.1 3.41 11.( 48.6 6.1066 2 5.8 .68 11.2.258 ß'o = y = 2.9 Σ x = 74.8 15.5 2.0 42.847 .5 = 7.0 16.2 47.4 3.80 ( 3.0 25.47 )² + ( 2.

Fo Regresión S.S.96 = 0. = 8 Andeva F.32 = 0. f( α ) 3. 1.423 8 0.434 f( 0.01. 8.= 1. es decir.497 f( 0.27 0.84 Falta de A 4.497 total 10. 3.5 3.434 0.01.042 0.68 0.= 7.l.459 7 15 0. 1) = 8.5 g.655 13 .l. no hay evidencia que el modelo sea conveniente. De V. R² = SSr / SSt = 3.553 -------. 7) = 6.5 / 10.3.S.423 g.036 7.TEMA 6 ANALISIS DE REGRESION LINEAL SIMPLE SSlof = SSe SSep = 7.5 ------.32 R = √ R² = √ 0.959 Como fα > Fo se acepta Ho. 1 M.46 .0366 = 4.553 Error puro Error 3.