You are on page 1of 20
11.1 Introducci6n a la regresién lineal En la préictica a menudo se requiere resolver problemas que implican conjuntos de vatia- bles de las cuales se sabe que tienen alguna relacién inherente entre sf, Por ejemplo, en tuna situacisn industrial quizé se sepa que el contenido de alquitrén en el flujo de salida de un proceso quimico esté relacionado con la temperatura en Ta entrada. Podria ser de interés desarrollar un método de prondstico, es decir, un procedimiento que permita es- timar el contenido de alquitrén para varios niveles de temperatura de entrada a partir de informacién experimental. Desde luego, es muy probable que para muchos ejemplos concretos en los que la temperatura de entrada sea la misma, por ejemplo 130°C, cl con- tenido de alquitrén de salida no sca cl mismo, Esto es muy similar a lo que ocurre cuando se estudian varios automéviles con un motor del mismo volumen; no todos tienen el mismo rendimiento de combustible, No todas las casas ubicadas en la misma zona del pais, con la misma superficie de construccién, se venden al mismo precio. El conte- nido de alquitrin, el rendimiento del combustible (en millas por gal6n) y el precio de las casas (en miles de délares) son variables dependientes naturales o respuestas en los tres escenarios. La temperatura en la entrada, el volumen del motor (pies etibicos) y los me- ros cuadrados de superficie de construccién son, respectivamente, variables indepen- dientes naturales 0 regresores. Una forma razonable de relacién entre la respuesta ¥ y el regresor x es la relacisn lineal, Y =f + Bix cn la que, por supuesto, es ln interseecién y Bes la pendiente, Esta relacién se ius- tran la igure 11.1 Si larelacim es exacta y no contieneningtin component aletorio o probabilistico, entonces se trata de una relacin deterministaentce dos variables cientfcas. Sin embargo, en Jos ejemplos que se mencionaron, asi como en muchos otros fenémenos cientifices y de ingenieri, la relacin no es determinista, es decir, una x dada no siempre produce el mist valor de ¥. Como resultado, los problemas importantes en este caso son de nat- raleza probablstica, toda vez que la relacién anterior no puede considerarse exacta. El concepto de andlisis de regresién se refiere a encontrat la mejor relacign entre ¥ y x 389 390 Capftulo 11 Regresi6n lineal simple y correlaci6a Figura 11.1: Una relaci6n lineal; 6, intersecei6n; 8: pendiente. ccuantificando la fuerza de esa relacién, y empleando métodos que permitan predecit los valores de la respuesta dados los valores del regresor x En muchas aplicaciones habré més de un regresor, es decir, més de una variable independiente que ayude a explicar a Y. Por ejemplo, si se tratara de explicar las raz0- nes para el precio de una casa, se esperaria que una de ellas fuera su antigiledad, en cuyo caso la estructura miltiple de la regresiGn se podria escribir como Y= By + Bix + Boxe donde ¥ es el precio, x, son los metros cuadrados y x, es la antigledad de la casa en afos. En cl capitulo siguiente se estudiarin problemas con regresores miltples. El andlisis resultante se denomina regresién miltiple; en tanto que el andlisis del caso con un solo regresor recibe el nombre de regresién simple. En un segundo ejemplo de la regresién riltiple, un ingeniero quimico podria estar interesado en la cantidad de hidrgeno que se ha perdido en las muestras de un metal especifica que se tiene almacenado. En este caso habrfa dos entradas, x,, el tiempo de almacenamiento en horas, yx, la temperatura de almacenamiento en grados centigrados. De modo que la respuesta seria ¥, la pérdida de hidrégeno en partes por mill in este capitulo estudiaremos el tema de la regresién lineal simple, que trata el caso de una sola variable regresora, en el que la rlacién entre xy yes lineal. Para cl caso en el que hay més de una variable regresora el lector debe consuitar el capitulo 12. De- notemos una muestra aleatoria de tamaho n mediante el conjunto {(x,3):4= 1, 2s) Si se tomaran muestras adicionales uilizando exactamente los mismos valores de x, s€ esperaria que los valores de y variaran. Asi el valor y, en el par ordenado (x, y) 6 el valor de cierta variable aleatoria ¥, 11.2 El modelo de regresién lineal simple (RLS) Hemos limitado el uso del término andlisis de regresién a los casos en los que las rela ciones entre las variables no son deterministas, es decir, no son exactas, En otras pala- bras, debe existir un componente aleatorio en Ia ecuaciGn que relaciona las variables. Este componente aleatorio toma en cuenta consideraciones que no son medibles 0, de 11.2 El modelo de regresi6n lineal simple (RLS) 391 hecho, que los cientificos o Ios ingenieros no comprenden. En realidad, en la mayoria de aplicaciones de la regresi6n, la ecuacién lineal, digamos, ¥ =, + Bt es una aproxi- smacién que representa de manera simplificada algo desconocido y mucho més compli- cado, Por ejemplo, en el caso que implica la respuesta ¥ = contenido de alquitrén y x = temperatura de entrada es probable que ¥ = 3, + ,t sea una aproximacién razonable que podria funcionar dentro de un rango limitado de x. La mayoria de las veces los mo: delos que son simplifcaciones de estracturas mas complicadas y desconocidas son de naturaleza lineal, es decir, lineales en los parsimetros f, y 3, 0, en el caso del modelo que implica el precio, el tamafo y la antigiledad de la casa, lineal en los parmettros 6, 8, y B,, Estas estructuras lineales son sencillas y de naturaleza empitica, por lo que se denominan modelos empiricos. Un analisis de la relacién entre x y ¥ requiere el planteamiento de un modelo esta- distico. Con frecuencia un estadistico utiliza un modelo como representacién de un ideal que, en esencia, define cémo percibimos que el sistema en cuestién generé los datos. El modelo debe incluir al conjunto {(x, y);= 1, 2s. m) de datos que implica n pares de valores (x, ). No debemos olvidar que el valor dey, depende de x, por medio de tuna estructura lineal que también incluye el componente aleatorio. La base para el uso de un modelo estadistico se relaciona con la manera en que la variable aleatoria ¥ cambia con x y el componente aleatori, El modelo también incluye lo que se asume acerca de las propiedades estadisticas del componente aleatorio. A continuacién se presenta cl modelo estadistico para la regresién lineal simple. La respuesta ¥ se relaciona con la variable independiente x a través de la ecuacién Modelo de regresién lineal simple Y= + Ax te en la cual f, y 8, son los parémetros desconocidos de Ia interseccién y la pendiente, respectivament, y € es una variable aleatoria que se supone esta distribuida con E(e) = 0 y Varte) = @°. Es frecuente que a la cantidad @° se le denomine varianza del error 0 varianza residual En el modelo anterior hay varias cuestiones evidentes. La cantidad ¥ es una variable aleatoria, ya que € es aleatoria, El valor x de la variable regresora no es aleatorio y, de hecho, se mide con un error despreciable. La cantidad €, que a menudo recibe el nombre de error aleatorio o alteracién aleatoria, tiene varianza constante. Es comiin que aesta parte se le denomine suposicién de varianza homogénea. La presencia de este error aleatorio € evita que el modelo se convierta tan s6lo en una ecuacién determinista, Aho- ra, el hecho de que (€) = 0 implica que para una x especitica, los valores de y se distri- buyen alrededor de la reeta verdadera o recta de regresién de la poblacién y = (3, + 8.x. Sisse elige bien el modelo, es decir, sino hay otros regresores de importancia ¥ la aproximaci6n lineal es buena dentro de fos rangos de los datos, entonces son razonables, los errores positivos y negativos que rodean a la regresién verdadera. Debe recordarse que en Ia préctica 8, y 8, se desconocen y que deben estimarse a partir de los datos. Ademés, el modelo que se acaba de describir es de naturaleza conceptual. Como resul- tado, en la préctica nunca se observan los valores € reales, por lo que nunca se puede trazar la verdadera recta de regresin, aunque suponemos que ahi esti. Sélo es posible dilbujar una reota estimada, En la figura 11.2 se ilustra la naturaleza de los datos (x, ) hipotéticos dispersos alrededor de la verdadera recta de regresién para un caso en que sélo se dispone de n = 5 observaciones. Debemos destacar que lo que observamos en la figura 11.2 no es la recta que utlizan el cientifico 0 ingeniero, En vex de esa recta, (lo 392 Capftulo 11 Regresi6n lineal simple y correlaci6n {que describe la ilustraci6n es el significado de las suposiciones! Ahora describiremos la regresiGn que el usuario tiene a su disposicién, "Verdadera” recta de regresiin Mate Figura 11.2: Datos (x, y) hipotéticos dispersos alrededor de la verdadera recta de regresi6n para n = 5, Un aspecto importante del andlisis de regresin es, en términos sencillos, estimar los parimetros fy 8, es decir, estimar los lamados eoeficientes de regesién. En la sec Cin siguiente se estudiar el método para estimarlos. Suponga que denotamos los esti- ‘mados b, para 8, y b, para, Entonces, la recta de regresién ajustada, o estimada, es dada pot by + box, donde 5 es el valor pronosticado o ajustado, Es evidente que la recta ajustada es un esti ‘mado de la verdadera recta de regresién. Se espera que la recta ajustada esté més cerca de la verdadera linea de regresién cuando se dispone de una gran cantidad de datos. En el ejemplo siguiente se ilustra la recta ajustada para un estudio sobre contaminacién cn la vida real Uno de los problemas més desafiantes que enfenta el campo del control de la con- taminacién del agua lo representa la industria de Ia peleteria, ya que sus desechos son quimicamente complejos; se caracterizan por valores elevados de la demanda de oxige- no quimico, sélidos volitiles y otras medidas de contaminacién, Considere los datos cexperimentales de la tabla 11.1, que se obtuvieron de 33 muestras de desechos tratados quimicamente en un estudio realizado en Virginia Tech. Se registraron los valores de x, la reduccién porcentual de los s6lidos totales, y de y, el porcentaje de disminucién de la demanda de oxigeno quimico. Los datos de la tabla 11.1 aparecen graficados en un diagrama de dispersién en la figura 11.3. Al inspeccionar dicho diagrama se observa que los puntos se acercan mucho ‘una linea recta, lo cual indica que la suposicidn de linealidad entre las dos variables parece ser razonable 11.2 El modelo de regresi6n lineal simple (RLS) 393 ‘Tabla 11,1: Medidas de la reduceién de los s6lidos y de la demanda de oxfgeno quimico TReduccién ReducciGm de la demanda 3 7 u 15 18 7 » 30 30 31 31 32 3 3 34 36 36 ° idos,x (Se) de oxigeno, y (Se) 3 1 2 16 16 28 2 25 35 30 40 32 4 32 34 37 38 Reduccién de sélidos, x (%) 36 7 38 39 39 39 40 41 2 2 a 4 45 46 a7 50 Reduccién dela demanda de oxigeno, y (%) 34 36 38 37 36 3 6 9 12 15 18 21 M4 27 30 G3 96 Go 4 as 4B SI SE Figura 11.3: Diagrama de dispersién con rectas de regresién, En el diagrama de dispersién de la figura 11.3 se ilustra la recta de regresién ajusta- day una recta hipotética de regresién verdadera, Mis adelante, en la seccién 11.3, en la cual estudiaremos el método de estimacién, revisaremos este ejemplo, 304 Capftulo 11 Regresi6n lineal simple y correlaci6n Otra mirada a las suposiciones del modelo Resulta aleccionador repasar el modelo de regresién lineal simple que se presents con anterioridad y analizar de forma gréfica la manera en que se elaciona con la denomina- da regresién verdadera. Daremos més detalles en la figura 11.2, cuando ilustremos no s6lo el lugar en que ls €, se localizan en la grfica, sino también To que implica la supe- sicién de normalidad para los €, Suponga que tenemos una regresi6n lineal simple con n = 6, valores de x equidis tantes y un valor tnico dey para cada x. Considere la gréfica dela figura 11.4, Ia cual deberia proporcionar al lecior una representacién clara del modelo y de las suposiciones implicadas. La recta que aparece en la gréfica es la recta de rogresién verdadera. Los puntos graficados (yx) son puntos reals dispersos alrededor de la recta. Cada punto se ubica en su propia distribucién normal, donde el centro de la distibueién, es deci Ia ‘media de y, cae sobre la recta, Ciertamente esto es lo esperado, ya que E(Y) = 2, + Bx Como resultado, la verdadera recta de regresiGn pasa a través de las medias de la res- puesta y las observaciones reales se encuentran sobre la distribuei6n, alrededor de las medias. Observe también que todas las distribuciones tienen la misma varianza, que se denota con a. Desde luego, Ia desviacién entre una y individual y el punto sobre la recta serd su valor individual €. Esto queda claro porque yi EY) = 91 — Go + Bix) = & ‘Asi, con una x dada, tanto ¥ como el ¢ correspondiente tienen varianza 0 Figura 114: Observaciones individuales alrededor de la verdadera recta de regresién, Note también que aquiescribimos la verdaderarecta de regresién como jty,= 8, +3, con cl fin de reafirmar que la recta pasa a través de la media de La variable aleatoria ¥, 11.3 Minimos cuadrados y el modelo ajustado En esta seccién se estudia el método para ajustar una recta de regresin estimada a los datos, lo cual equivale a determinar los estimados B, para 8, y b, para 8,. Por supuesto, 11.3 Minimos cuadrados y el modelo ajustado 395 esto permite el caleulo de los valores pronosticados a partir de Ta recta ajustada § = + b,x, y otros tipos de andlisis y de informacién diagnéstica que determinarén la fuerza de la relacién, asf como la adecuacién y el ajuste del modelo. Antes de analizar el mé: todo de estimacién de los minimos cuadrados es importante presentar el concepto de residual, En esencia, un residual es un error en el ajuste del modelo § = by + byt Residual: Error Dado un conjunto de datos de regresién ((&, y)i? = Ty 2m) y un modelo ajustado enl guste 5, =b, + by el -&simo residual e, es dado por =A Sy FEL 2m Es evidente que si un conjunto de m residuales es grande, entonces el ajuste del mo- delo no es bueno, Los residuales pequefios son indicadores de un ajuste adecuado. Ora relacidn interesante, y que a veces es dtl, es la siguiente: y= bo thts ber Fl uso de la ecuacién anterior deberfa aclarar Ia diferencia entre Ios residuales ¢,y los errores del modelo conceptual ¢,. No debemos olvidar que, mientras que los ¢, no se observan, los ¢, no sélo se observan sino que desempefian un papel importante en el aniliss otal La figura 115 ilustra el ajuste de la recta a este conjunto de datos: a saber 5 = b, + bx, la recta que reiieja el modelo iy,= 8, +8,x. Desde luego, 8, y 8, son parémettos ddesconocidos. La recta ajustada es un estimado de la recta que genera el modelo estadis- tico, Hay que tener presente que la reeta py, = 3, +8, es desconocida (wd J = dor bx Figura 11.5: Comparacién de €,con el residual ¢, Debemos calcularb, y b, Ios estimados de 8, 8, de manera que la suma de los cua- drados de los residuaies Sea minima, La suma residual de os cuadrados con frecuencia se denomina suma de los euadrados del error especto de la recta de regresién y se denota como SCE. Este procedimicnto de minimizacién para estimar los parsmetros 396 Capftulo 11 Regresi6n lineal simple y correlaci6a se denomina método de minimos cuadrados. Por lo tanto, debemos calcular a y b para SCE = Ye = 01-80? = D201 ~ bo ans Al diferenciar la SCE con respecto a by b, se obtiene a = 2201 -bo- bx), Yor - bo — bisa ‘Al igualara cero las derivadas parciales y reacomodar los términos, obtenemos las ecua- ciones siguientes (Ilamadas ecuaciones normales) que se resuelven simulténeamente para obtener férmulas de célculo para D, y b En el ejemplo siguiente se ilustra el edleulo de b, y b, usando los datos de Ta tabla 11.1 "mplo 11.1: Estime Ta recta de regresién para los datos de contaminacién de la tabla 11.1 Solu! a a 8 a Yom = 1105, Sy, = 1124, Ya = 41.855, S37 = 41,086 Por o tanto, (B3)(41,355) ~ (1104)(1124) 1 = GBI HON) 3 (33)(41,086)—(1104)2 0.903643 y 1124 = (0.903683)(110 by = = 3.829633. 33 Por consiguiente, la recta de regresién estimada es dada por 3 = 3.8296 + 0.9036x. a Si utilizéramos la recta de regresidn del ejemplo 11.1, podrfamos pronosticar una reduccién de 31% en la demanda de oxigeno quimico si los sélidos totales se redujeran 11.3 Minimos cuadrados y el modelo ajustado 397 ‘un 30%, La reduecin de 31% en la demanda de oxigeno quimico se puede interpretar como un estimado de la media de la poblacién jl, 0 como un estimado de una obser= vvacién nueva si la reduccién de s6lidos totales es de 30%. Sin embargo, dichas estima ciones estén sujetas a error, Incluso si el experimento estuviera controlado para que la reduecién de los sélidos totales fuera de 30%, es improbable que la redueci6n en Ia de- ‘manda de oxigeno quimico que se midiera fuera exactamente igual a 31%. De hecho, los datos originales registrados en la tabla 11.1 indican que se registraron medidas de 25% y de 35% en la reduccién de la demanda de oxfgeno, cuando la disminucién de los s6li- os totales se mantuvo en 30%. {Qué es lo bueno de los minimos cuadrados? Debemos sefalar que el eriteio de los minimos cuadrados est diseado para brindar tna recta sjustada que resulte en la “cercanfa" entre la recta y los puntos graficados Existen muchas formas de medir dicha cercanfa, Por ejemplo, quiza descariamos de terminar Ios valores de by b, para Tos que se minimiza S> ly ~ fil © para los que se ‘minimiza 3~ |y; ~J;|!*, Ambos métodos son viables y razonables, Observe que los dos, as{ como el procedimiento de minimos cuadrados, obligan a que los residuales sean “pe- quefios” en cierto sentido. Debemos recordar que los residuales son el equivalente empi- rico de los valores de ¢. La figura 11.6 ilustra un conjunto de residuales, Observe que la linea ajustada tiene valores predichos como puntos sobre la recta y, en consecuencia, los residuales son desviaciones verticales desde los puntos hasta Ia recta. Como resultado, el procedimiento de mfnimos cuadrados genera una recta que minimiza la suma de los cuadrados de las desviaciones verticales desde los puntos hasta la recta. Figura 11.6: Los residuales como desviaciones verticals, 398 Ejercicios 11 Se reali un estudio en Virginia Tech para de- terminar si ciertas medidas de la fuerza estitica del bra zo influyen en las caracteristicas de “levantamiento dinimico” de un individuo. Veinticineo individuos se sometieron a pruebas de fuerza y luego se les pidis que hieieran una prucba de levantamiento de peso, en el 4que el peso se elevaba en forma dinémica por encima dela eabera. A continuacién se presentan los datos a Fuerza Levantamiento Individual det brazo,x __dinémico, y a tr 2 193, 483 3 195 883 4 19.7 750 5 2.9 917 6 231 1000 7 26.4 73 8 268 650 9 216 750 10 28.1 883 u 282, 683 2 28.7 96.7 B 290 767 14 29.6 783 15 209) 60.0) 16 29.9 na 0 303) 85.0 18 313) 85.0 19 360 883 20 395 100.0 21 408 100.0 2 443 100.0 446 917 504 1000 559) NI 4@) Estime los valores de 3, y 8, para ta curva de re resid lineal fay, = 8, +3, 1) Caleule un estado puntual de ft, ‘) Grafique los residuales en compatacién con las x (fuerza del brazo). Comente los resultados. 11.2. Las siguientes son las calificaciones de un grupo de 9 estudiantes en un informe de medio semestre (x) y cen el examen final () x [77 50 Ti 72 81 94 96 99 67 4a) Estime la recta de regresin lineal +) Calcule la calificacisn final de un estudiante que ‘obtuvo 85 de calificacién en el informe de medio 11.3 _ Se registraron las cantidades de un compuesto 4quimica y que se disuelve en 100 gramos de agua a dlistintas temperaturas x Capftulo 11 Regresi6n lineal simple y correlaci6n ¥ (gramos) ms | 48 51 44 44) Caleule la ecuacién de la reeta de rogresin, ») Grafigue la recta en un diagrama de dispersign (©) Estime la cantidad de producto quimico que se di solverd en 100 gramos de agua a 50°C. 114 Para fines de calibracién se recabaron los sic guientes datos, los cuales permitirfan determinar la re- Jacién entre la presisn y la lectura correspondiente en la escala Presién,.x (Ib/pulg!) Lectura en la escala, y 10 3 10 18 10 16 10 15 10 20 50 86 50 90, 50 88 50 88 50 2 4) Caloule la ecuacién dela recta de regresion ») En esta aplicacién el propésito de la calibracién es estima la presin a partir de una lectura observada en la escala. Estime la presién para una lectura en Ia escala de 54, usando # = (54 —h,)/b, 115 Sorealiz6 un estudio sobre la cantidad de azticar ‘convertida en cierto proceso a distintas temperaturas. Los datos se codificaron y registraron como sigue: ‘Temperatura, x Aaicar convertida, y 1 78 12 85 3 98 14 9s 1s 89 16 86 7 102 18 93 19) 92 20 105 1a) Estime la recta de regresién lines ») Caleule 1a cantidad media de azicar convertida ‘que se produce cuando se registra una temperatura codificada de 1.75. (©) Grafique los residuales en comparacién con la temperatura. Comente sus resultados. Ejereicios 11.6 En cierto tipo de espécimen de prueba metdlico se sabe que la tensién normal sobre un espécimen se relaciona funcionalmente con la resistencia al corte. EL siguiente es un conjunto de datos experimentales cod ficados para las dos variables: ‘Tensi6n normal, x__ Resistencia al corte, y 268 65 254 273 289 242 23.6 24 277 26 239 259 247 263 281 22, 269 217 24 214 2.6 258 256 249 4) Bstime la recta de regresién ,, = 8, + 6 >) Estime la resistencia al corte para una tensién nor ‘mal de 245. 11.7 Los siguientes son algunos de los datos content: dos en un conjunto clisico denominado “datos piloto de graficacién” que aparecen en Fitting Equations to Data, de Daniel y Wood, publicado en 1971. La res- puesta y es el contenido de cido del material determi- nado por andlisis voluméttico; mientras que el regresor x es el contenido de deido orgénico determinado por extraccién y ponderacién. 399 4) Si la ealificaci6n aprobatoria minima fuera 60 puntos, ;qué calificacién en el examen de coloca- cig se deberia usar en el futuro como crterio para negar a los estudiantes el derecho de admisién a Calificacién ‘en el curso. 30 oe 6S 37 50 119 Un comerciante minorista realizé un estudio para determinar la relacién que hay entre los gastos se- ‘manales de publicidad y las ventas. @ » a yr oe 35 | 37 ag 66 100 | 82138 S875 | 88 16d ss 159 | 4328 Grafique los datos; cla regresién lineal simple pa- rece un modelo adecuado? Haga un ajuste de regresién lineal simple; calcule la pendiente y ls interseceisa, Grafique la recta de regresién en la gréfica del in- Costos de publicidad ($) Ventas ($) 40 BS 20 400 25 395 20 365 30 475 50 440 40 490 20 420 50 560 40 525 25 480 50 510 1L8 Se aplica un examen de colocacién de matemé ticas a todos los estudiantes de nuevo ingreso en una universidad pequetia, Se negurd la inscripeidn al curso regular de matemticas a los estudiantes que obtengan, ‘menos de 35 puntos y se les enviaré a clases de regula- rizacién, Se registraron los resultados del examen de colacacién y as calificaciones finales de 20 estudiantes. {que tomaron el curso regular ‘@) Elabore un diagrama de dispersisn, ») Calcule Ia ecuacién de la recta de regresién para predccir las calificaciones en el curso a partir de las del examen de colocacién. (©) Gralique la recta en el diagrama de dispersi¢n, 4) labore un diagrama de dispersin. 5) Caleule la ectteién de Ta recta de regreséin para pronostcar las ventas semanales «partir de los Eastos de publicidad, 6) Esme ls ventas semanales silos costos de publi- cia son de $35, 4) Gratque los resdusles en comparscién con los costs de publicidad, Comente sus resultados, 11.10 Los siguientes datos son los precios de ventaz de cierta marea y modelo de automdvil usado con aos de aatigicdad. AjUste una curva do be forma iu, = 78" mediante la couscién de reresiéa muestal nolineal ? = cd [Sugerenciae Eserib In Gn dw= by + bh Sines 400 w (ailos) _z (délares) [w (aiios) _z (délares) T 6350 3 5395 2 5695 5 4985 2 3750 5 4895 11.11. La fuerza de impulso de un motor (9) es una funcién de la temperatura de escape (x) en *F cuando ‘otras variables de importaneia se mantienen constantes Considere los siguientes datos, yoox ty x F300 1760 | 4010 To6s 4650 1652 | 38101550 3200 1485 | 4500 1700 3150 1390 | 3008 1270 4950 1820 4), Grafique los datos. +b) Ajuste una recta de regresién simple alos datos y ‘prafiquela a wavés de ellos 1112 Se realizé un estudio para analizar cl efecto de la temperatura ambiente x sobre la energia eléetsica cconsumida por una planta quiimica y. Otros factores se ‘mantuvieron constantes y se recabaron los datos de una Capftulo 11 Regresi6n lineal simple y correlaci6n 11.13 Un estudio sobre la cantidad de lluvia y la de ccontaminacién del aire eliminada produjo los siguien- tes datos: Cantidad de lluviaParticulas eliminadas, diaria,x(0.01.em)___y (ge/m!) a3 126 45 1 59 16 56 118 6 ld 32 118 38 132 2a 1a 15 108 4) Caloule la ecuacién de la recta de regresién para predecir las particulas eliminadas de la cantidad de precipitacién diaria ) Estime la cantidad de particulas eliminadas si la precipitacién diaria es x = 4.8 unidades, 11.14 Un profesor de la Escuela de Negocios de una universidad encuest6 a una dacena de colegas acerca del ndimero de reuniones profesionales a que acudieron en los titimos cinco afios (2) y el nimero de trabajos planta piloto experimental » @TU) 250 285 320 295 4) Grafique los datos. ) Estime la pendent de regresin li «) Pronostique el consumo de energia para una tem- peratura ambi ‘que cnviaron @ revistas especializadas (y) durante cl mismo periodo. A continuacién se presenta el resumen. de los datos: CR [6s 45 298 oO a=2 nm | mM on ~ 3 | 3m Yo 29, Ox Iinterseceién en un modelo lineal simple. Ajuste un modelo de regresin lineal simple entre x yy calculando los estimados de la intersecciéa y la pendien- te, Comente si la asistencia a més reuniones profesiona- les da como resultado més publicaciones de artculos. jente de 65°F. 11.4 Propiedades de los estimadores de minimos cuadrados ‘Ademés de los supuestos de que el término del error en el modelo Y= + Ain te ¢s una variable aleatoria con media igual a cero y varianza constante,suponga que ademas damos por hecho que , €,.. 6, son independientes de una corrida a otra del éexperimento, lo cual proporciona la base para calculr las medias y varianzas de los es- timadores de 8, y 3, Es importante recordar que nuestros valores de By b,, basados en una muestra dada de n observaciones, slo son estimaciones de los parmetros verdaderos 9, y 6, Si el experimento se repitiera una y ota Vez, usando en cada ocasién los mismos valores Bjos de x, los estimados resultantes de , y 8, muy probablemente difertfan de un exper ‘mento a oto, Estos estimadosdistintos podrfan ser considerados como valores adoptados por las variables aleatorias B, y B,; en tanto que By b, son ejecuciones especiticas ‘Como los valores de x permanecen fijos, los Valores de B, y B, dependen de las va- riaciones en los valores de yo, con mas precisin en los valores de las variables aleatorias 114 Propiedades de los estimadores de mfnimos cusdrados 401 Yj. Yovos Yq, Las suposiciones sobre la distribucién implican que las ¥, f= 1, 2oow también estan distribuidas de manera independiente, con media pty, = Ao + Bix; y varianzas 0° iguales, es decir, 2 Oye, =O par FA 12cm Media y varianza de los estimadores En la exposicién que sigue mostramos que cl estimador B, es insesgado para 8, y se ddemuestran tanto Tas varianzas de B, como las de B,. Esto inicia una serie de procedi- ‘mientos que conducen a la prueba de hipétesis y ala estimacisn de intervalos de confianza para la interseccién y la pendiente Como el estimador Sei-ov os dela forma 5° 6%, Sai -3xP ppodemos concluir a partir del teorema 7.11 que B, tiene una distribucién n(Jls,.dp) con Ser —H60 +4.m) Sea, 03, by, = = = fy 0, = =| ——_, de [Ee yy ‘También se puede demostrar (véase el ejercicio de repaso 11,60 de Ta pagina 438) que Ia variable aleatoria B, se distribuye normalmente con ia adeno media jin, = fo y varianaa 0, A parti de estos resultados es evidente que los estimadores de minimos cuadrados tanto para f, como para i, son insesgados. articién de la variabilidad total y estimacién de o? Para hacer inferencias sobre 8, y es necesario llegar a una estimacién del parémetro que aparece en las dos formulas anteriores de la varianza de B, y B,. El pardmetro a, el modelo de la varianza del error, refleja una variacién alcatoria o una variacién del 402 Teo El estimador de o? como error cuadrado medi Capftulo 11 Regresi6n lineal simple y correlaci6a crror experimental alrededor de la recta de regresién, En gran parte de lo que sigue se recomienda emplear la notacién Se =O, Sy =O -P*, Sy Yer 901-9. fai im De manera que la suma de los cuadrados del error se puede escribir como sigue: SCE = de = by — bx) = Sto. bur -F Yo ~3P ~ 2b Tei DOW +47 De =» i a a = Sy —2BSy +B}S wy Says Soy [Sux que es el paso final que surge del hecho de que b Un estimador insesgado de 7 es = SCE “Soa - Sy by) 2 La prueba del teorema 1.1 se deja como ejercicio (véase el ejercicio de repaso 11.59). Para darnos una idea del estimador de 0 deberiamos observar el resultado del teorema 11.1. El parémetro 0 mide la varianza o las desviaciones cuadradas entre los valores de yy su media, dada por jy es decir, las desviaciones cuadradas entre ¥ y 8, + 8x. Por supuest, + 3.x se estima por medio de 5 = b, + b,x. Por consiguiente,tendrfasen- tido que la Varianza o* se describa mejor como una desviacién cuadrada de la observa- cin tipica y, con respecto a la media estimada #), que es el punto correspondiente sobre la recta ajustada. Entonces, los valores (y, — $,)fevelan la varianza apropiada, de manc- +a muy similar a como los valores (), ~ j)° miden la varianza cuando se realiza un ruestreo en un escenario no relacionado con laregresién, En otras palabras, j estima la ‘media en la éltima situaci6n sencilla, mientras que $, estima la media de y,en una estruc- tura de regresién. Ahora, {qué significa el divisor n — 2? En las secciones que siguen observaremos que éstos son los grados de libertad asociados con el estimador s? de o°. En tanto que en el escenario i... (independiente c idénticamente distribuidas), la normal estindar se resta un grado de libertad de n en el denominador, para lo eval una explica- razonable es que Se estima un pardmetro, que es la media j por medio de, digamos, 5 pero en el problema de laregresién se estiman dos pardmetros, que son 8, y 8, por medio de 6, yb, Asf, el parimetro importante 4°, que se estima mediante Vor - 5 Aa -d, 7 se denomina error cuadrado medio, que describe un tipo de media (divisién entre n—2) de los residuales cuadrados, 115 Inferencias sobre los coeficientes de regresion, 403 11.5 Inferencias sobre los coeficientes de regresién Ademis de tan s6lo estimar la relacién lineal entre x y ¥ para fines de prediccién, el ex- perimentador podria estar interesado en hacer ciertas inferencias acerca de la pendiente y la interseccisn. Para dar ocasién a la prueba de hip6tesis y a la construccién de inter- valos de confianza para G, y 4, debemos estar dispuestos a hacer la suposicisn adicional de que cada €, i= 1, 2,...n, se distribuye de forma normal. Esta suposicién implica que ¥, Yoon Y, también estén distribuidas normalmente, cada una con una distribuci6n de probabilidad n0) 6, + 8.x, 0). A partir de la seccién 11.4 sabemos que B, tiene una distribucién normal, y supo. niendo normalidad, un resultado muy parecido al que se plantea en el teorema 8.4 nos permite concluir que (n — 2)S/o? es una variable chi cuadrada con n ~ 2 grados de libertad, independiente de la variable aleatoria B,. Entonces, el teorema 8.5 garantiza que cl estadistico p= Bie BMS) _ Bi =H Jo IB tenga una distribucién # con n = 2 grados de libertad, Pademos utilizar el estadstico T para construir un intervalo de confianza del 100(1 - )% para el coeficiente 8, Tniewalo de Un intewvalo de confianza de TOO(l — aie para el pardmeiro B, en la recta de repreniGn confianea pata 3, Jy, = By + 8.x 08 by tape WS EL método se ilustra con el ejemplo siguiente Ejemplo 11.3:1 Utilice el valor estimado b, = 0.903643 del ejemplo 11.1 y pruebe la hipétesis de que 8B, = 1.0 en comparacién con la alternativa de que , < 1.0. Solucin: Las hip6tesis son H,; 8, = LO y H,: 8, < 1.0. Por bo tanto, 0.903683-1.0 __ gy 3.2295 //a1S2.18 ’ con n~2.= 31 grados de libertad (P = 0.03). Decisién: El valor res significativo al nivel 0.03, lo cual sugiere evidencia sida de que 3, < 1.0. 4 Una prueba r importante sobre la pendiente es la prueba de a hip6tesis Ho: 6; =O encomparacién con Hy: 2 #0. Cuando no se rechaza a hipétesisnula la conclusin es que no hay relacién lineal signi- ficativa enue E()) y la variable independiente x. La gréfica de los datos del ejemplo 11.1 sugeriia que existe una rlacin lineal, Sin embargo, en cicras aplicaciones en las que oF es grande y, por ende, nay “ruido” considerable en los datos, una gies, aunque si, Aird no produzca informacisn clara para el investigador. El rechazo anterior de H,im- plica que hay una rlacién lineal signficativa Ta figora 11.7 muestra la sada de resultados de MINTTAB que present la prucba tpara Hy: 8, = 0 en comparacién con Hy: 1 #0, para los datos del ejemplo 11.1. Observe el cocficiente de regresisn (Coe), el error es- {indar (BE Coef), el valor f(T) y el valor P (P). Se rechaza la hipstesis nula. Es claro que cexiste una relacidn lineal significativa entre la reduceién de la demanda media del oxige- no quimico y la reduccién de los sélidos, Observe que el estadistico £ se calcula como coeticiente terror estandar El no rechazo de H,: 3, = 0 sugiere que no hay una relaciéa lineal entre ¥ y x. La figura 11.8 es una ilustracién de 1a implicaci6n de este resultado; podria significar que los cambios de x tienen poco efecto sobre los cambios de ¥, como se ve en el inciso a. ‘Sin embargo, también puede indicar que la relacién verdadera es no lincal, como se aprecia en b ‘Cuando se rechaza H,; 8, = Oexiste la implicacién de que el término lineal en x que reside en el modelo explica una parte significativa de la variabilidad de Y. Las dos griti- 115 Inferencias sobre los coeficientes de regresion, 405 3.22984 RSG 91.3% RSglad)} = 92.08 Analysis of Variance Regression 1 2390.6 2390.6 9.000 Residual Error 2323.2 10.4 Figura 11.7: Salida de resultados de MINITAB para la prueba ¢ de los datos del ejemplo 11.1 a » Figura 11.8: No se rechaza Ia hipstesis Hy 8, = 0. ‘eas que aparecen en Ia figura 11.9 ilustran los escenarios posibles. Como se muestra en el inciso a de la figura, el rechazo de H, sugiere que la relacién en efecto es lineal. En el caso del inciso b, lo que se observa sugiere que, aunque el modelo contenga un efecto lineal, se podria obtener una mejor representacién si se incluyera un término polinomial (Gal ver. cuadestico), es decir, términos que complementen el término lineal ia estadistica s Los intervalos de confianza y la prucba de hipstesis del coeficiente f se podrfan estable- cer a partir del hecho de que B, también se distribuye de forma normal. No es dificil demostrar que bre la interseccién Bo - As StlnSa) 406 Capftulo 11 Regresi6n lineal simple y correlaci6a (@) (0) Figura 11.9: Se rechaza la hipstesis de que H, ‘iene una distribucién 1 con m ~ 2 grados de libertad, de manera que podemos construir un intervalo de confianza de 1001 ~ a)% para a. Tniervalo de Un intervalo de confianza de 100(1 — a)% para el pardmetro (i, en la recta de regresion confianza para 8, Hy, = B+ B.xes bo ena Fehon 3 donde f,,, €8 un valor de la distribuci6n ¢ con n ~ 2 grados de libertad. Ejemplo 11.4:1 Calcule un intervalo de confianza de 95% para G, en la recta de egresin f,, = 8 + ccon base en Ios datos de la tabla 11.1 Solueién: En los ejemplos 11-1 y 11.2 se encontré que Sq =419218 ys = 3.2295, Del cjemplo 11.1 se tiene que bby = 3.829633. Si usamos la tabla A.4, encontramos que f,.,5 2.045 para 31 grados de libertad, Por lo tanto, un intervalo de confianza de 95% para , es (2.085)G.2295) VETTE — <5 goo5n3 4, (04518-2295) VITORG VGnaISzI VGHGISz IB 3.829633, que se simplifica a 0.2132 < ip < 7.4461 4 115 Inferencias sobre los coeficientes de regresion, 407 Para probar la hipétesis nula H7, de que 8, = 2,, en comparacién con una alternativa posible utilizamos la distribucién r'con n ~ 2 grados de libertad para establecer una re- gin erica y, luego, basar nuestra decisién en el valor de by = Boo te sf Ex7/0054) Ve Bjemplo 11.5] Utiiceel valor estimado de b, = 3.829633 del ejemplo L1.1 y, a un nivel de significancia de 0.05, pruebe la hipétesis Ue que 8, = 0 en comparacién con la alternativa de que 8, # 0. Entonces Soluci6n: Las hipstess son 8, = Oy HB, #0. Ast que, ; 3.829633-0 © 32295 /ATOS6/TGHGISZ IS 2.17, con 31 grados de libertad, Por lo tanto, P = valor P ~ 0.038 y concluimos que 8, # 0. Observe que esto tan sélo es Coef/desviacién estindar, como se aprecia en la salida de resultados de MINITAB en Ia figura 11.7. ELSE Coef sel error estindar de la intersec: cin estimada, 4 Observe en I figura 11.7 que aparece un clemento denotado con R-Sq, cuyo valor es 91.3%, Esta cantidad,R, se denomina coeficiente de determinaciGn y es una medida de la proporcién de la variabilidad explicada por el modelo ajustado. En la seccién 11.8 se presentaré cl concepto del método del andisis de varianza para la prueba de hip6tesis en la regresin, El enfoque del andlsis de varianca utiliza la suma de los cua- drados del eror SCE = 5° (91 ~$})* ylasuma total de los cuadrados corregida STCC sta dima representa la variacin en los valores de respuesta que ideatmente serfan explicados con el modelo. El valor de la SCE es la variacién debida al error, ola variacién no explicada, Resulta claro que si la SCE’ = 0, toda variaeién queda explcada, La cantidad que representa a variacin explicada es STCC~ SCE, Rs el Advierta que si el ajuste es perfecto, todas los residuales son cero, y ast R? = 1.0. Pero sila SCE es tan s6lo un poco menor que la STCC, R? = 0. Observe en la salida de resul- {ados de Ia figura 11.7 que el coeficiente de determinacisn sugiere que el modelo ajustada 4110s datos explica el 91,386 de la variabilidad observada en la respuesta, lareducei6n en Ja demanda de oxigen quimico, La figura 11.10 ofrece ejemplos de una gréfica con un buen ajuste (R? ~ 1.0) ena) Y una gratica con un ajuste deficiente (R® ~ 0) en 8). Los analistas citan con mucha frecuencia los valores de R°, quizé debido a su simplici- dad, Sin embargo, hay errores en su interpretacién. La confiabilidad de R* depende del Coeficiente de determinacién: R? = 408, Capftulo 11 Regresi6n lineal simple y correlaci6n a)R? = 1.0 pyRe~o Figura 11.10: Gréficas que ilustran un ajuste muy bueno y otro deticiente tamatio del conjunto de los datos de la regresin y del tipo de aplicacién, Resulta claro que 0 < R

You might also like