You are on page 1of 6

Estadı́stica Inferencial

REGRESIÓN LINEAL Y CORRELACIÓN
Coordinadora de curso: Mg. Luz Ramos

Existen dos métodos distintos pero relacionadas para determinar si existe algún tipo de
relación entre dos variables.
El primer método consiste en determinar el grado o nivel de asociación entre las variables que
se estudian. Este método se denomina análisis de correlación.
El segundo método consiste en determinar una relación funcional de la variable dependiente Y
con respecto a una variable independiente X con el fin de predecir valores de Y . Este método,
es el análisis de regresión.
Los métodos de regresión y correlación entre variables se clasifican de acuerdo al numero de vari-
ables independientes, se denomina simple si hay una sola variable independiente y se denomina
múltiple si hay dos o más variables independientes.

1. Diagrama de dispersión
Sean (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) n valores de la variable bidimensional (X, Y ), observados
en una muestra, donde los xi son los valores de la variable X y los yi son los valores de la
variable Y .
Se denomina diagrama de dispersión o nube de puntos, a la representación gráfica de los
distintos valores (xi , yi ) de las variables X e Y en el mismo sistema cartesiano.

2. Covarianza
La covarianza mide el grado de dispersión o variabilidad conjunta de dos variables X e Y
con respecto a sus medias respectivas (x, y).
La covarianza de n valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) de una variable bidimensional (X, Y ) y
es dado por:
Pn Pn
i=1 (xi − x)(yi − y) xi y i
sXY = = i=1 −x y
n n

UTP sede Arequipa Guı́a N◦ 18

yn ) de la variable bidimensional (X. y1 ). Interpretación: Si r = 1. sXY es la covarianza de X e Y . (xn . se dice que no hay correlación entre las dos variables.. El valor yb denominado valor estimado o predecido. (x2 . yn ) una muestra de tamaño n de una variable bidimensional (X. Si r = −1.. Y ). (x2 .representa un valor de Y calculado de la ecuación Y = a + bX cuando X = xi . Y ). . Método de mı́nimos cuadrados Cuando se considera la ecuación de regresión lineal muestral. sX es la desviación estándar de X y sY es la desviación estándar de Y El coeficiente de correlación r es número comprendido entre -1 y 1. yi ) de la muestra. y2 ). es denotado por r y es dado por: n ni=1 xi yi − ni=1 xi ni=1 yi P P P sXY r= = p Pn 2 n i=1 xi − ( ni=1 xi )2 n ni=1 yi2 − ( ni=1 yi )2 p P sX sY P P donde. cada dato (xi . y2 ). −1 ≤ r ≤ 1. (xn .. satisface la ecuación: yi = a + bxi + ei UTP sede Arequipa Guı́a N◦ 18 . Estadı́stica Inferencial 3. y1 ). Coeficiente o ı́ndice de correlación El coeficiente de correlación lineal de Pearson de n pares de valores (x1 . . 4. Para determinar dicha ecuación de regresión utilizaremos el método de mı́nimos cuadrados. el modelo de regresión lineal simple de Y (variable dependiente) con respecto de X (variable independiente). se dice que hay una correlación perfecta positiva.1. con el fin de predecir o estimar Y a partir de X. esto es. se dice que hay una correlación perfecta negativa... consiste en determinar la ecuación de la recta: Y = a + bX que mejor se ajuste a los datos de la muestra.. Estimación del modelo de regresión lineal Dado (x1 . 4. Si r = 0.

5. Consideremos la suma P de cuadrados P de errores: SCE = ni=1 e2i = ni=1 (yi − ybi )2 = ni=1 (yi − a − bxi )2 P Determinar una recta de regresión de mı́nimos cuadrados consiste en hallar los valores de a y b de tal manera que SCE sea mı́nimo. entonces. es decir. se dice que no hay regresión muestral. es decir. Si b = 0. Coeficiente de determinación El coeficiente de determinación mide el porcentaje de variación en la variable respuesta. Estadı́stica Inferencial en donde ei = yi − ybi se denomina error o residuo y describe el error en el ajuste del modelo de regresión muestral en el punto i de los datos. explicada por la variable independiente. la tendencia lineal es decreciente. es denotada por r2 y se define por: s2X r 2 = b2 s2Y UTP sede Arequipa Guı́a N◦ 18 . la tendencia lineal es creciente. Derivando SCE con respecto a a y con respecto a b y luego igualando a cero se obtiene las siguientes ecuaciones: n X n X yi = na + b xi i=1 i=1 n X n X n X xi y i = a xi + b x2i i=1 i=1 i=1 Resolviendo el sistema de ecuaciones se obtiene: n ni=1 xi yi − ni=1 xi ni=1 yi P P P b= n ni=1 x2i − ( ni=1 xi )2 P P sXY es equivalente a: b = s2X a = y − bx Interpretación: Si b > 0. a mayores valores de X se tiene mayores valores de Y . entonces. Si b < 0. a mayores valores de X se tiene menores valores de Y .

Solución: b) Calcular la recta de regresión con el fin de predecir las ventas e interprete la pendiente de la regresión. Un comerciante mayorista encargó un estudio para determinar la relación entre los gastos de publicidad semanal por radio y las ventas de sus productos. las sumas de cuadrados: SCT = SCE + SCR son respectivamente n X n X n X 2 2 (yi − y) = (yi − yb) + y − y)2 (b i=1 i=1 i=1 SCT : Suma de cuadrados total SCE: Suma de cuadrados de los errores SCR: Suma de cuadrados debido a la regresión Cuanto mayor es el valor de r2 menor es la dispersión y mayor el ajuste de la recta de regresión a los datos. e indicar la tendencia de los datos. Ejercicios explicativos 1. Estadı́stica Inferencial es equivalente a: SCR SCE r2 = =1− SCT SCT Donde. Solución: c) Estime la venta si en una semana el gasto de publicidad es de $90. En el estudio se obtuvieron los siguientes resultados: Gastos de publicidad ($) 30 20 40 50 70 60 80 70 80 Ventas ($) 300 250 400 550 750 630 930 700 840 a) Realice el diagrama de dispersión. Solución: UTP sede Arequipa Guı́a N◦ 18 .

Una compañı́a de alimentos maneja una cadena de tiendas al menudeo.90.25 Además se sabe que el coeficiente de correlación de ambas variables es r = 0. s2Y = 2. ¿cuánto es el gasto de publicidad? Solución: e) Determine e interprete el coeficiente de correlación. Solución: f ) Determine e interprete el coeficiente de determinación. Se tiene la siguiente información: UTP sede Arequipa Guı́a N◦ 18 . Para medir la eficiencia de las tiendas se estudió la relación del número de empleados (X) y el promedio del volumen de ventas mensuales (Y ) expresadas en cientos de dólares para todas las tiendas durante el año pasado. para un alumno que ha obtenido 14 en Matemática? Solución: Ejercicios propuestos 1. Se han estudiado las calificaciones de 20 alumnos en dos asignaturas: Matemática (X) y Estadı́stica (Y). La gráfica de los datos sugiere una relación lineal entre las variables. Estadı́stica Inferencial d ) Si la venta es de $800. y = 15. obteniéndose los siguientes resultados: x = 13. s2X = 4. Solución: 2. ¿Qué nota se puede predecir en la asignatura de Estadı́stica.

4 6. Estadı́stica Inferencial Pn Pn Pn Pn Pn n = 100. 4. b) Predecir la presión sanguı́nea para una mujer de 45 años. sY = 10. i=1 x2i = 5200. c) Determine la ecuación de regresión que estime el total de puntos obtenidos en el curso y comente sobre la pendiente. UTP sede Arequipa Guı́a N◦ 18 . e indicar la tendencia. b) Determine la ecuación de regresión que relacione la fuerza aplicada y el alargamiento. Horas de estudio 45 30 90 60 105 65 90 80 55 Total de puntos obtenidos 40 35 75 65 90 50 90 80 45 a) Determine e interprete el coeficiente de correlación. i=1 yi = 1600. Al estudiar la relación entre la edad (X) y la presión sanguı́nea (Y ) a partir de una muestra de mujeres. b) ¿En cuánto se estiman las ventas para una tienda de 8 empleados? c) ¿Qué porcentaje de la varianza de las ventas es explicada por la variabilidad del número de empleados? d ) ¿Cuántos empleados tiene la tienda cuya venta se estima en $1100? 2. se obtuvo la siguiente información: sX = 7.5. 3.5 5. i=1 yi2 = 37700 a) Hallar la recta de mı́nimos cuadrados para estimar las ventas a partir del número de empleados. y = 120. A continuación vemos los datos reunidos de 9 alumnos que acaban de tomar el curso.4 a) Determine e interprete el coeficiente de correlación. Cinco especı́menes idénticos de cable dieron los resulta- dos siguientes: Fuerza (X) 1 1. c) Calcule e interprete el coeficiente de determinación. i=1 xi yi = 13600. x = 50.90 a) Hallar la relación lineal de la presión con respecto a la edad.5 3 Alargamiento (Y) 3 3. d ) Estime el total de puntos obtenidos por un alumno que estudio 95 horas.9 8. r = 0.5 2 2. b) Realice el diagrama de dispersión. e) Determine e interprete el coeficiente de determinación. Un profesor de estadı́stica se interesa en la relación entre las horas de estudio y los puntos obtenidos en el curso. i=1 xi = 600. Se supone que el alargamiento de un cable de acero está relacionado linealmente con la intensidad de la fuerza aplicada.