You are on page 1of 12

Instituto Tecnológico Superior P’urhépecha

5. Ingeniería Industrial Estadística Inferencial I ANÁLISIS DE REGRESIÓN Y CORRELACIÓN REGRESIÓN LINEAL

En el campo de la estadística, administración, educación, ingeniería, entre otras frecuentemente se trata de saber si existe relación entre dos variables, en caso de existir cual es esa relación. El objetivo del capitulo es contestar estas inquietudes y analizar si existe relación lineal entre dos variables, cuantificar la intensidad de la relación, realizar un ajuste por medio de las estimaciones matemáticas y posteriormente utilizar el modelo para predecir una variable (dependiente).

Al relacionar dos variables se tiene que definir una variable independiente y una dependiente. La variable independiente se representa con la letra x, que expresa la causa de un fenómeno en una relación entre las variables, esta se mide o se controla para predecir la variable dependiente representada por la letra y que expresa la consecuencia del fenómeno. Por ejemplo en la los gastos de publicidad (variable independiente) se puede medir o controlar con la finalidad de observar el incremento en ventas (variable dependiente). Por lo tanto los gastos por publicidad se denominan variable x y a la venta como variable y, en muchas ocasiones la definición de las variables puede ser x o y, dependerá de la formulación de la pregunta. Por ejemplo en el caso de la estatura y peso, si nosotros indicamos que la estatura esta en función del peso, en este caso la estatura es la variable dependiente y el peso es variable independiente, pero si nosotros formulamos que el peso esta en función de la estatura, en este caso las dos variables se cambian, es decir el peso será la variable dependiente y la estatura como la variable independiente. Sin embargo se obtendrán resultados distintos de los análisis de regresión de acuerdo a la decisión que se halla tomado.

A continuación se presentan algunos diagramas de dispersión que indican las relaciones entre las variables independientes (x) y las variables dependientes (y), si no existe un cambio definido en los valores de y, conforme aumentan los valores de x se dice que no existe relación entre las variables x y y. En cambio, si al aumentar x existe una modificación definida en los valores de y, entonces se dice que si existe relación entre las variables. En esta situación cuando y incrementa existe una relación positiva y cuando decrece existe una relación negativa.

41

7 Ventas de cajas en millones 1929.2 1384. Estos valores se pueden estimar con la siguiente formula: b1   xi yi  ( xi  yi) / n 2  xi2  ( xi) / n b0  y  b1 x ŷ Donde: xi = valor de la variable independiente para la i-ésima posición yi = valor de la variable dependiente para la i-ésima posición x = valor medio de la variable independiente y = valor medio de la variable dependiente n = cantidad total de observaciones Por ejemplo a continuación se presenta un cuadro que muestra las ventas en millones de cajas y los gastos de publicidad en millones de dólares para siete marcas principales de refresco: Marca Coca-Cola Classic Pepsi-Cola Diet –Coke Sprite Gastos de publicidad Millones de dólares 131.5 42 .4 541.6 811.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I Diagramas de dispersión y correlación Sin correlación Correlación positiva Correlación negativa Correlación positiva perfecta AJUSTE E INTERPRETACIÓN La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión y es posible estimar con la siguiente formula: ŷ  b0  b1 x En donde b0 es la ordenada al origen b1 es la pendiente y y es el valor estimado de y para determinado valor de x.4 60.4 55.3 92.

4 841 219.6 127937.2 Manzanita-Sol 29. Es decir en el caso de la inversión de los costos de publicidad y las ventas generadas por la publicidad.0 7-Up 11.56 3648.2 253303.275 de millones de cajas de refresco 5.6) / 7  xi2  ( xi) / n b0  y  b1 x ŷ = 851.9 21583.09 35119.424 2 2 35119.09  (420.04 8537.4 55.9 535. únicamente sustituimos los 70 millones de dólares en la ecuación de la siguiente forma: ŷ = -15.7 40.3 92.433 + 14.7) / 7 = =142040.7  (420 .69 1384.6 219.6 yi x i yi xi 2 1929. El coeficiente de determinación nos sirve para contestar la pregunta ¿Qué tan bien se ajustan dos variables?.6 Primero determinaremos algunos cálculos para poder estimar la ecuación método de mínimos cuadrados: Marca Coca-Cola Classic Pepsi-Cola Diet –Coke Sprite Mirinda Manzanita-Sol 7-Up 536.086) = -15.424(60.56 5958.2 29 11.96 17239.424x Ahora si queremos predecir las ventas para la marca de Manzanita-Sol si requiere invertir la cantidad de 70 millones de dólares en publicidad.4 49008.5 de regresión por el xi 131.7 500073.344/9847.04 535.16 541.243 –14.76 811. esta se obtiene al sustituir los valores de los costos de 43 .6 420.4 60. entonces lo que hacemos es calcular la suma de cuadrados del error.433 sustituimos los valores en el modelo de la ecuación de regresión lineal ŷ = -15.424x.38 1616.55 3102.7 Sustituimos los valores en la formula b1   xi yi  ( xi  yi) / n 500073.49 536.1 COEFICIENTE DE DETERMINACIÓN.2 134.5 2546.6 15532.433 + 14.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I Mirinda 40.6)(5958. se genero la ecuación de regresión ŷ = -15.433+14.649 = 14.424(70) = 994.5 30161.

843 44 .7 541.4 1929. A la suma de cuadrados se representa por SCT y su formula es la siguiente: SCT = ∑(yi – y )2 Esta formula es de gran utilidad ya que nos sirve para observar o conocer la forma en que se agrupan los valores en torno a la recta y .5 ŷ = -15.42225 1317.7777521 67.376046 -246.4 55.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I inversión en la ecuación de regresión y el resultado se eleva al cuadrado.895444 yi – ŷi 50.869265 151.6 219.4 yi – y . A continuación se presenta el valor de la suma de cuadrados del error para el caso de los costos de publicidad y las ventas: Cálculos de la suma de cuadrados del error para el caso de los costos de publicidad y las ventas de refrescos.415633 402.3371 855.2 1384. para el caso de los costos de inversión y la venta de refrescos.689 1587.424x 1878.9 29.37594 92771.46465 1077.484267 -27.515633 132.3801 4524. (yi – y )2 1161991. Marcas de refresco Coca-Cola Classic Pepsi-Cola Diet –Coke Sprite Mirinda Manzanita-Sol 7-Up Publicidad (miles Venta de cajas de dólares) (en millones) 131.110062 17617.6 811.23346 60754.3 92.984267 564.6045556 (yi – ŷi)2 2578.4 60.3394 Ahora calculamos la suma total de cuadrados y esto con la finalidad de conocer el valor del error que sé incurrido al usar y para estimar las ventas. posteriormente se suman todos los valores y a esto se le llama suma de cuadrados del error (SCE) SCE = ∑(yi – ŷi)2 El valor de la suma del error es una medida del error que se comete al usar la ecuación de regresión lineal para calcular los valores de la variable dependiente de la muestra.2 536.5 40.2629038 -44. en este caso las ventas de las cajas de refresco.730735 67.29822 1969. Marcas de refresco Publicidad (miles de dólares) Venta de cajas (en millones) Coca-Cola Classic Pepsi-Cola Diet –Coke 131.6 11.776046 787.357 -39.4479 4570.2 92.4938 757.4 1384.29 284469.957 533.0 535.6 60.433+14. A continuación se presentan los cálculos de la suma de cuadrados totales para el ejemplo de costos de publicidad y las ventas de refresco: Calculo de la Suma de Cuadrados Totales (SCT).4 811.3 1929.

7 40. Para nuestro caso el valor del coeficiente de determinación es el siguiente: 45 . que cuantifica la desviación de los valores calculados por la ecuación (ŷ) de los valores de y .2 29 11.726 98811.343 -315.5 536. La relación entre la Suma de Cuadrados de la Regresión y la Suma de Cuadrados Totales (SCT) se le llama coeficiente de determinación y se representa con la letra r2.9 535. se puede calcular la suma de cuadrados de la regresión (SCR).743 -314. Para esta situación yi .ŷi serían igual a cero para cada observación y esto provocaría una SCE = 0.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I Sprite Mirinda Manzanita-Sol 7-Up 55.5034 399099. Por lo tanto una vez que se calculan los valores de SCT. podemos calcular la bondad de ajuste para la ecuación de regresión. cuando se encuentra cercano al valor de uno se dice que el ajuste es bueno.643 -631.42 Ahora que ya tenemos calculado los valores de la suma de cuadrados totales (SCT) y la suma de cuadrados del error (SCE).6 219. ya que cualquier valor dividido por el mismo valor es igual uno.6 541. SCR y SCE. su formula es la siguiente: SCR = ∑( ŷi – y )2 En nuestro caso la suma de cuadrados de la regresión es la siguiente: SCR = SCT – SCE = 2141530.0806 Por lo tanto la relación de estos valores es la siguiente SCT = SCR + SCE. y como consecuencia la suma de cuadrados totales (SCT) sería igual a la suma de cuadrados de la regresión.5 -309.42 – 92771.5216 99630.218 2141530.743 95940. Esto indica que si la suma de cuadrados del error aumenta disminuye la bondad de ajuste entre las variables. Esta ecuación tendría un ajuste perfecto si cada valor de la variable dependiente yi se encontrará sobre la línea estimada de la regresión. su formula es la siguiente: r2 =SCR / SCT El valor del coeficiente de determinación asume los valores entre cero y uno. esto quiere decir que la relación entre las variables es perfecta.3394 = 2048759.

2500 Venta de refrescos en millones de cajas 2000 1500 y1 -ŷ 1 y1 . nos indica el porcentaje de la suma total de cuadrados que se pueden explicar aplicando la ecuación de regresión.424x para predecir las ventas. El valor del coeficiente 46 .433 + 14.0806 / 2141530. x y y.2 COEFICIENTE DE CORRELACIÓN El coeficiente de correlación se representa con la letra r y es una medida descriptiva de la intensidad de relación de la asociación lineal entre dos variables.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I r2 =SCR / SCT = 2048759.67% de la suma total de cuadrados con al ecuación de regresión ŷ = -15. Es decir la inversión de la publicidad afecta un 95.y ŷ1 . Para nuestro ejemplo podemos concluir que se puede aplicar el 95.67% en la venta de refrescos. Grafico de dispersión de datos.42 = 0.y 1000 500 0 0 -500 Gastos de publicidad en millones de dólares 20 40 60 80 100 120 140 5. recta de la regresión lineal y desviaciones respecto a la línea de regresión y a la línea promedio de la variable dependiente. para el caso de gastos de publicidad y ventas de refresco.9567 Sí el valor de coeficiente de determinación lo expresamos en porcentaje.

Esto es. 47 . El valor de –1 indica que las variables x y y.9567 =0.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I de correlación siempre está entre los valores de –1 y +1. todos los puntos de datos están en una línea recta con pendiente positiva. tienen una relación lineal perfecta. el coeficiente de correlación se puede calcular como a continuación se muestra: rxy = coeficiente de determinación = r 2 Para el caso de las variables de los costos de publicidad y la venta de refrescos. donde nos indica que existe una fuerte asociación lineal positiva entre los costos de inversión de publicidad y las ventas de refrescos. y que todos los puntos de datos están en una recta con pendiente negativa.9781. el valor de +1 indica una relación positiva perfecta entre las variables x y y. Las formulas para su cálculo son las siguientes: Formula del producto de Pearson r xy  sxy sx s y Donde: rxy = Coeficiente de correlación de la muestra sxy = Covarianza de la muestra =  (xi  x)( yi  y) / n  1 sx = Desviación estándar muestral de la variable x sy = Desviación estándar muestral de la variable y Formula alterna rxy = xi yi  ( xi  yi) / n 2 2 2  xi2  ( xi ) / n  yi  ( yi ) / n Pero si ya se ha hecho el análisis de regresión y se ha calculado el coeficiente de determinación r2. Mientras que los valores del coeficiente de correlación cercanos al valor del cero indican que no existe relación lineal entre las variables. Concluimos que el valor del coeficiente de correlación de la muestra rxy = + 0. el valor de coeficiente de correlación es el siguiente =  0.9781.

.. sin embargo... Ecuación estimada de regresión múltiple: ŷ = b0 + b1x1+ b2x2+ . por medio de ecuaciones normales cuando se trata de pocas variables independientes en esta ocasión tomaremos un ejemplo cuando se trate de dos variables independientes: Σyi = nb0 + (Σx1i)b1 + (Σx2)b2------------------------------(a) 2 Σx1i yi = (Σx1i)b0 + (Σ x1 i ) b1 + (Σx1i x2i)b2-------------------(b) Σx2i yi= (Σx2i)b0 + (Σx1i X2i) b1 + (Σ x 2 2 i )b2-------------------(c) 48 .Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I 5. xp. En donde la ecuación de regresión describe la forma en que el valor medio se relaciona con x1.. LA ECUACIÓN DE REGRESIÓN MÚLTIPLE El análisis de regresión múltiple es el estudio en donde una variable dependiente ( y). en donde nos permite considerar más factores en comparación con el análisis de regresión simple. + bpxp Donde: b0 = Es el valor del origen de la recta (ordenada del origen) bi = Pendientes xi = Variable independientes p = Número de variables independientes Para estimar los valores de la ecuación se requiere del empleo del álgebra de matrices. x2. Por lo que generalmente se utilizan programas de computo para hacer este tipo de cálculos. se relaciona con dos o más variable independientes.3 REGRESIÓN MÚLTIPLE En este capitulo analizaremos el estudio del análisis de regresión en una situación en el que intervienen dos o más variables independientes conocido como análisis de regresión múltiple.. x3. es posible su estimación.

posibilitando el uso de ecuación: ŷ = b0 + b1x1+ b2x2 Ahora veremos un ejercicio de aplicación. Por ejemplo se sabe que los despidos y el desempleo han afectado a muchos trabajadores actualmente.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I Estos valores se pueden determinar a partir de datos de una muestra y calcular los estadísticos. un estudio realizado en Estados Unidos de América en abril de 1988. A continuación se presentan los datos: Semanas que duro sin empleo(yi) Edad del empleado despedido(x1i) 94 73 57 56 50 44 27 25 14 8 62 44 42 36 35 28 27 27 24 21 Estudios realizados en años(x2i) 13 13 14 15 18 18 15 19 17 19 Posteriormente hacemos el caculo de los coeficientes para las ecuaciones normales: yi 94 73 57 56 50 44 27 25 14 8 x1i 62 44 42 36 35 28 27 27 24 21 x2i 13 13 14 15 18 18 15 19 17 19 x1i 3844 1936 1764 1296 1225 784 729 729 576 441 2 x 2i 169 169 196 225 324 324 225 361 289 361 2 x1i x2i 806 572 588 540 630 504 405 513 408 399 x1i yi 5828 3212 2394 2016 1750 1232 729 675 336 168 x2i yi 1222 949 798 840 900 792 405 475 238 152 ∑448 ∑346 ∑161 ∑13324 ∑2643 ∑5365 ∑18340 ∑6771 49 . La variable dependiente es la cantidad de semanas que un obrero a estado desempleado. En el estudio se emplearon las variables independientes: la edad del trabajador (x1) y su antigüedad en el empleo (x2). se encontraron datos de variables que pueden afectar la cantidad de semanas que un obrero de manufactura está desempleado.

.. (a) Finalmente obtenemos la ecuación de regresión múltiple para el caso del tiempo que tardan los obreros en manufactura para emplearse de nuevo.....6 b1 + 2643 b2 .................8 = +161 b0 ............ (a*34....205.....0. 2839.......6 b1 ....441. Esta operación origina una segunda ecuación donde sólo intervienen los coeficientes b1 y b2: 6771..1 y el resultado le restamos a la ecuación (c).45741 .8 = 2839.6 b2 ..9 b2 + 50..................... 56 = 1054.0 = -15500... 8 = ................. 448 = 448 = 448 = -167. (d) ... según su edad y los años de estudio: ŷ = -16.... (c) Si multiplicamos la ecuación (a) por 34.........0 b1 .... (a) ..2592...............415..... b1 = 1054.. Multiplicando la ecuación (e) por -205.....11971.....1 b2 + 50.441........1) .............8 ............9) ......6 b2 0 ..54 / 521..... (b) .5570.....0205) ................. (c) .83..........6) .... (e*-205........0205) + 699...2 = +346 b0 ....830.63559 + 161 b2 + 161(-0.......6/50...........5184x2 50 . (f) Despejamos a b1 de la ecuación (f) y obtenemos el valor del coeficiente b1.9 b2 .346 b0 0 + 13324....5570......161 b0 0 + 5365 b1 ..... (b) . y obtenemos una ecuación que solo contiene el coeficiente b1...6 b2 + 205. (e) Con las ecuaciones (d) y (e) podemos despejar b1 y b2 simultáneamente....................... (a*16...........093 + 615.....1 = -1784....518369 = = = = ......441...... (e) Ahora podemos sustituir los valores de b1 y b2 en la ecuación (a) para determinar b0 ........4 b1 + 5365........92 b1 -205....0205 Sustituimos a b1 en la ecuación (e) y despejamos b2: .........0 = -7212.92 = 2.......762559 = 10 b0 10 b0 10 b0 10 b0 b0 + 346 b1 + 346(2...415 50.......................... (d) Si multiplicamos la ecuación (a) por 16..........0 b2 ...........62559 = -16... 7625 + 2....9 b2 b2 + 50..Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I Sustituyendo los valores de las sumatorias de las tablas en las ecuaciones normales se obtienen las siguientes ecuaciones: 448 = 18340 = 6771 = 10 b0 346 b0 161 b0 + 346 b1 + 13324 b1 + 5365 b1 + 161 b2 + 5365 b2 + 2643 b2 .26............48 b1 521.................385 -0..........6 b2 -205.......6 b1 1352....0205x1 ......9 b2 ...........6/50...518369) .........6 y le restamos a la ecuación (b)........ podemos eliminar b0 y obtener una ecuación que contenga únicamente los coeficientes b1 y b2: 18340........54 = 0 0 0 1352...........4 b1 ...6 (2.....8 ..205.........................9 y el resultado obtenido se le resta a la ecuación (d)..

0205 semanas estimadas que dura el desempleo en manufactura por cada año que aumenta la edad del desempleado.0 (y) 1987 4.64 933 10 1.21 458 51 .4 1993 31.92 583 12 2. quedando la siguiente ecuación de regresión logarítmica: Log Ŷ=log b0 + logb1(X).35 025 8 1.49 136 9 1.47 712 2 0.06 07 6 1.9 Primero se establece el código para cada año. cuando la edad de los desempleados es igual.6 1995 60.77 887 11 1. 5.91 908 5 1.0 1994 44.75 587 4 0.07 408 13 2. tal como se muestra a continuación: Código(x) Log I (y) 1 0. con b2= -0.2 1988 5. De manera similar.1 1996 84. Por ejemplo a continuación se presentan datos de importación en miles de pesos de 1996 a 1998 Año (x) 1986 Importación 3. sin embrago cuando se presente un decremento o incremento e forma curvilínea tal como se muestra a continuación: Cuando se presente un diagrama de esta naturaleza se recomienda que la serie de datos se transformen en logaritmos base 10 y se utilice la regresión lineal simple.3 1990 11.0 1992 22. Una vez que se estima la variable dependiente se obtiene antilogaritmo del producto.Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I Interpretación: b1 = 2.20 412 7 1.5 1991 16.3 1997 118.5 Tendencias no lineales En las exposiciones anteriores se presentaron una serie de de tiempos cuyo crecimiento o decremento se aproximaba en una línea recta.518369 indica la cantidad de semanas sin empleo que se reduce al aumentar un año de estudio. cuando los estudios realizados de los desempleados sean iguales. posteriormente se transforma la variable dependiente en logaritmos en este caso la importación.62 325 3 0.7 1989 8.6 1998 163.

Instituto Tecnológico Superior P’urhépecha Ingeniería Industrial Estadística Inferencial I Posteriormente se hacen los cálculos normales para estimar la ecuación de regresión lineal con las variables transformadas.22472 9.7887 21.35025 1. $ 878 600.92583 2.45174 11.145069 y B0= (17.67631 5.222549 + 0.1841 24.6 miles de pesos.91908 1.074 B1 = XY-(∑Y(∑X)/n)/ ∑X2-((∑X)2/n) y B0= (∑Y/n) .77887 1. esto es 102.94379 y finalmente para estimar las importaciones se determina el antilogaritmo de 2.62325 0.844 17.5245 1 4 9 16 25 36 49 64 81 100 121 144 169 819 X Y 0.889 28.9309 14.64933 1. Para calcular las importaciones de 2003 se sustituye X en código para este caso es 18 en la ecuación y quedaría de la siguiente forma: Ŷ=0.2465 2.94379 el cual es de 878. es decir.07408 2.26762 3.5245/13) .21458 17. Para nuestro caso se tendrían los siguientes: X Y X2 1 2 3 4 5 6 7 8 9 10 11 12 13 91 0.145069(X).B1 (∑X/n)= 0.5245(91)/13)/ 819 -((91)2/13)=0.30349 7.074 -(∑17.47712 0.7895 149.332549 El modelo de la ecuación de regresión es Ŷ=0.47712 1.B1 (∑X/n) B1= 149.20412 1.94379.0607 1. 52 .145069 (18)= 2.75587 0.49136 1.222549 + 0.