You are on page 1of 8

UNIDAD III: CORRELACION Y REGRESION LINEAL SIMPLE

El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”:
“Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un
grado menor.”

Regresión a la media

Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares
observando una relación del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura,
aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres
muy bajos.
Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el
conocimiento de otra.

COVARIANZA Y CORRELACION LINEAL
La covarianza es una medida de la variabilidad conjunta de X y de Y. Es una medida de asociación
entre los valores de X y de Y y de sus respectivas dispersiones.

∑  X
n

COV ( X , Y ) =

i =1

i





− X   Yi − Y 


n

La covarianza entre dos variables, COV(X,Y), nos indica si la posible relación entre dos variables
es directa o inversa.


Directa: COV(X,Y) >0
Inversa: COV(X,Y) <0
No correlacionada: COV(X,Y) =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos
dice nada sobre el grado de relación entre las variables.

CORRELACIONES POSITIVAS 330 130 280 110 230 90 180 70 130 50 80 r=0. logarítmica.4 30 110 30 140 150 160 170 180 190 200 100 140 150 160 170 180 190 200 90 90 80 70 70 60 50 50 40 r=0. pero no servirá para otro tipo de relaciones (cuadrática. • r es útil para determinar si hay relación lineal entre dos variables.. el resultado es una cantidad sin dimensión llamado Coeficiente de Correlación y se denota por r ( X .Y) por tanto de su signo obtenemos el que la posible relación sea directa o inversa. Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.1] Las variables son no correlacionadas r=0 Relación lineal perfecta entre dos variables r = +1 o r = -1 Excluimos los casos de puntos alineados horizontal o verticalmente.. • tiene el mismo signo que COV(X. Y ) S X SY • El coeficiente de correlación lineal de Pearson de dos variables. Siempre que no existan observaciones anómalas.Y ) = Cov( X . r.) PROPIEDADES DEL COEFICIENTE DE CORRELACION • • • • • Es adimensional Sólo toma valores en [-1.Y ) : r ( X .1 r=0. nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales)..8 30 140 150 160 170 180 190 200 140 150 160 170 180 190 200 ________________________________________________________________________________________________ 2 . .ESTADISTICAS II: CPA ________________________________________________________________________________________________ Si la covarianza de X y de Y se divide por el producto de las desviaciones estándar de X y de Y.6 30 r=0.

95 140 150 160 170 180 190 140 200 150 160 190 200 EJEMPLO La siguiente información muestra el puntaje obtenido (de un total de 10) en dos pruebas de matemáticas.7 0 160 170 180 190 200 140 80 80 60 60 40 40 160 170 180 170 180 190 200 20 20 0 150 0 r=-0.5 0 140 150 r=-0.999 r=-0. ________________________________________________________________________________________________ 3 . . 1ª prueba 2ª prueba 6 8 5 7 8 7 8 10 7 5 6 8 10 10 4 6 9 8 7 6 a) Graficar b) Calcule e interprete el coeficiente de correlación.ESTADISTICAS II: CPA ________________________________________________________________________________________________ 110 110 90 90 70 70 50 50 r=0.9 30 140 150 160 170 180 190 r=1 30 200 140 150 160 170 180 190 200 CORRELACIONES NEGATIVAS 80 80 60 60 40 40 20 20 r=-0.

predicha. explicativa o ¿Es posible descubrir una relación? • • Y = f ( x ) + error f es una función de un tipo determinado el error es aleatorio. Al realizar un diagrama de dispersión se observa un conjunto de puntos que están más o menos sobre una recta. predictora. explicada o X = Variable independiente. Un modelo de regresión es un modelo que permite describir cómo influye una variable X sobre otra variable Y. En la etapa inicial del análisis de datos es importante graficarlos para darnos una idea de la relación que tienen. A la cantidad ________________________________________________________________________________________________ 4 . constante) b (pendiente de la recta) Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. o Y = Variable dependiente. pequeño. 16 14 12 10 8 6 4 2 0 0 5 10 15 Buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante: Ŷ = a + bX a (ordenada en el origen. y no depende de X La regresión lineal simple determina una línea recta o ecuación matemática lineal que describe la relación entre dos variables. .ESTADISTICAS II: CPA ________________________________________________________________________________________________ REGRESION LINEAL SIMPLE El análisis de regresión sirve para predecir una medida en función de otra medida (o varias).

ESTADISTICAS II: CPA ________________________________________________________________________________________________ e = Y − Yˆ se le denomina residuo o error residual.5 (En media el hijo gana 0. han sido en miles de euros los siguientes: Gastos de 7 consumo Ingreso anual 8 disponible 12 18 30 20 24 8 11 8 6 10 18 15 20 35 28 25 8 13 7 6 12 15 ________________________________________________________________________________________________ 5 . nos indica el número de unidades que cambia Y por cada unidad de cambio de X. “b” es la pendiente de la recta.5 cm por cada cm del padre. En el ejemplo de Pearson y las alturas. . en cierta ciudad. seleccionadas aleatoriamente. EJEMPLO El ingreso anual disponible (X) y los gastos de consumo (Y) de 12 familias.) Interpretación de la ecuación de regresión ∧ Y = a + bX ∧ A un valor X = 0 corresponde Y = a . “ a ” es la predicción de Y cuando la variable independiente toma el valor 0. él encontró: Yˆ = a + bX • • a =85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm) b = 0.

Interprete los coeficientes del modelo. ei ∼ N ( 0 . 1] • Cuando un ajuste es bueno.. HIPÓTESIS DEL MODELO DE REGRESIÓN LINEAL SIMPLE 1..Independencia: Las observaciones son independientes. . Var ( ei ) = σ2 4.σ 2 ) BONDAD DE AJUSTE • La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2 • R2 es una cantidad adimensional que sólo puede tomar valores en [0. R2 será cercano a uno.Homogeneidad: El valor promedio del error es cero.. E ei  = 0 3. • R2 puede ser pesado de calcular en modelos de regresión general. la expresión es de lo más sencilla: R2= r2 ________________________________________________________________________________________________ 6 . • Cuando un ajuste es malo R2 será cercano a cero.ESTADISTICAS II: CPA ________________________________________________________________________________________________ a) b) c) d) Ajuste una recta de regresión en la que el consumo sea función de los ingresos. E  ei e j  = 0 5. • A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.Normalidad: Los errores siguen una distribución normal. f (x) = a + bx 2. ¿Cuál es el consumo esperado para una familia con un ingreso de 15 mil euros? Encuentre e interprete el coeficiente de correlación...Homocedasticidad: La varianza de los errores es constante.Linealidad: La relación existente entre X e Y es lineal. pero en el modelo lineal simple.

después de un periodo específico sin dormir. e) Calcule e interprete el coeficiente de correlación. Programa Grado de Violencia Porcentaje de telespectadores 1 10 15 2 20 16 3 30 20 4 40 24 5 40 25 6 50 30 7 55 30 8 65 35 9 70 35 10 70 35 a) Encuentre la recta de regresión lineal referente al porcentaje de teleespectadores potencial. Se obtuvieron los siguientes resultados: Nº horas sin dormir 8 Nº de errores 8 8 6 12 7 12 10 16 8 16 13 20 15 20 14 24 16 24 14 a) Graficar b) Calcule e interprete el coeficiente de correlación. para lo cual se calificó 10 programas y recopilaron datos sobre el porcentaje de tele espectadores de cada uno de ellos. Diez personas participaron en el estudio.. 3. c) Si un programa es calificado con grado de violencia de 45 ¿Qué porcentaje de teleespectadores esperaría? d) Calcule e interprete el coeficiente de determinación. Tienda A Ingreso 45 Mensual Metros 55 Cuadrados B C D E F G H I J K L M N O 115 120 95 75 170 110 140 130 75 80 105 200 95 60 200 180 110 90 260 140 215 200 85 90 180 300 130 80 a) Encontrar la recta de regresión lineal simple b) ¿Cuál es el valor estimado del ingreso mensual si la tienda tiene 100 metros cuadrado? c) Calcule e interprete el coeficiente de correlación. 2.Se realizó un estudio para determinar los efectos de no dormir en la capacidad de las personas para resolver problemas sencillos.En un grupo de investigación se estableció una escala del grado de violencia en programas de TV. La cantidad variaba de 8. dos para cada nivel de horas sin dormir. 20 ó 24 horas sin dormir..Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de áreas de ventas respecto de los ingresos mensuales. Se dieron a cada persona. 12..ESTADISTICAS II: CPA ________________________________________________________________________________________________ GUIA DE EJERCICIOS Nº3: REGRESION LINEAL SIMPLE Y CORRELACION LINEAL 1. ________________________________________________________________________________________________ 7 . b) Interprete la pendiente de la recta. 16. en términos del coeficiente de violencia. . un conjunto de problemas sencillos de sumar y se registró el número de errores.

V a) b) c) d) e) f) Ene 14 23 Feb 6 10 Mar 16 22 Abr 18 25 May 24 32 Jun 22 31 Jul 37 39 Ago 32 42 Sep 30 41 Oct 33 47 Nov 37 54 Dic 34 47 Identifique variables Calcule la covarianza e interprete su signo.1 0 Ajuste una función de regresión lineal a los datos.2 1 5 0. desea proyectar sus ventas mensuales para el próximo año..5.5 3 3 1.Para analizar la concentración de una solución (Y) a lo largo del tiempo (X).0 7 9 0. obteniéndose las siguientes concentraciones.ESTADISTICAS II: CPA ________________________________________________________________________________________________ 4. Interprete los resultados. respectivamente. Interpretar los parámetros estimados.1 6 7 0.5 8 5 0. Las 15 soluciones fueron divididas aleatoriamente en 5 grupos de 3 cada uno. Interprete los parámetros de la recta de regresión.. Año 90 Ventas 50 Gastos 10 91 100 15 92 150 18 93 200 20 94 200 25 95 300 35 96 400 50 97 500 60 98 650 65 99 700 70 a) Especifique y estime el modelo lineal que explique las ventas de la empresa en función de la inversión publicitaria. un químico preparo 15 soluciones idénticas. Para ello ha recogido datos del volumen de ventas y del gasto en publicidad referidos a los años noventa y expresados en millones de pesos..El representante de una conocida marca de equipos de servidores de redes computacionales. d) Calcule e interprete el coeficiente de correlación. Una relación importante que se ha observado es entre el número de presupuestos que le solicitan y el número de unidades vendidas cada mes.0 9 9 0. e) Calcule e interprete el coeficiente de determinación 5. 6.1 5 3 1. .8 4 1 2. y los 5 grupos fueron comprobados después de 1. Obtenga la ecuación de la recta de regresión.3. Calcule e interprete R2 Estime las unidades vendidas en un mes si le solicitan 50 presupuestos.5 7 1 3. X 9 Y 0.0 7 1 2. b) En el año 2003 la empresa a invertir 120 millones en publicidad. El comportamiento de estas variables ha sido el siguiente: Mes Nº P U.9 horas.La dirección de una empresa quiere estudiar la rentabilidad de su inversión en publicidad. ________________________________________________________________________________________________ 8 .1 7 7 0.7.4 9 5 0.0 8 7 0. Calcular el volumen de ventas esperado.2 2 3 1.