You are on page 1of 28

REGRESIÓN LINEAL Y

CORRELACIÓN

Mgr. Gladys Gertrudis Benítez Palacios

REGRESIÓN LINEAL SIMPLE

El análisis de regresión es una técnica estadística
para investigar la relación funcional entre dos
variables cuantitativas, ajustando a algún modelo
matemático.
Cuando se estudian dos características
simultáneamente sobre una muestra, se puede
considerar que una de ellas influye sobre la otra de
alguna manera
Por ejemplo la altura y el peso o las horas de estudio y la
calificación en un examen.

estudiar la fuerza de la relación y el sentido de la relación. . Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el valor de una variable dependiente (Y) a partir de la variable independiente (X). REGRESIÓN LINEAL SIMPLE Interesa:  Investigar de que modo se relacionan las dos variables  Si existe relación. a través de una medida denominada coeficiente de correlación  Estudiar la forma de la relación.

Si la nube de observaciones es estrecha y alargada. . Se pueden emplear dos tipos de líneas: una línea recta. disminuye Y. REGRESIÓN LINEAL SIMPLE • LA FUERZA mide el grado en que los pares de observaciones (x. Si al crecer los valores de la variable X lo hacen los de Y. • LA FORMA establece el tipo de línea a emplear para definir el mejor ajuste. una curva. Y) quedan representados en una línea. una línea recta representará adecuadamente a la nube de puntos y a la relación y por tanto ésta será fuerte. será una relación negativa o inversa. • EL SENTIDO de la relación se refiere a cómo varían los valores de Y con respecto a X. Si al aumentar X. será una relación positiva o directa.

con el objeto de predecir el valor de la variable dependiente (Y) a partir del conocimiento de una o más variables independientes (X). X). X). ෡ =𝒂+𝒃𝑿 𝒀 . • Análisis de Regresión: Técnica estadística que estudia la relación entre variables (Y. Conceptos básicos • Análisis de Correlación: Técnica estadística usadas para medir la intensidad de la relación entre dos variables (Y. • Regresión simple: cuando interviene una sola variable independiente • Regresión lineal simple: la función es una combinación lineal de los parámetros.

Son las variables que proveen las bases para estimar. ෡ = 𝒂𝟎 + 𝒂𝟏 𝑿𝟏 + 𝒂𝟐 𝑿𝟐 + 𝒂𝟑 𝑿𝟑 𝒀 • Variable dependiente (Y): es la variable que se desea predecir o estimar • Variables independientes (Xi ). • Diagrama de dispersión: Gráfico que indica el patrón de comportamiento de los datos de (X. Conceptos básicos • Regresión lineal múltiple: intervienen dos o más variables independientes. . Y). A partir de los datos se puede tener una idea de la relación o asociación entre las variables.

. Dos variables pueden considerarse:  Variables independientes No tienen relación (Una de ellas no sirve para explicar los cambios de la otra). los cuales pueden ser observacionales o experimentales.  Dependencia funcional Y = f(x)  Dependencia estadística. REGRESIÓN LINEAL SIMPLE El análisis de regresión se fundamenta en la búsqueda de la relación causal propio de los estudios de nivel investigativo explicativo.

• Beneficios de una empresa y número de empleados de la misma. . REGRESIÓN LINEAL SIMPLE Por ejemplo: Imaginemos que nos interesa es relacionar las siguientes variables: • Número de horas de estudio y calificación en los exámenes. • Ingresos y gastos • Estatura de una persona y peso. • Importe de la factura de la luz y potencia consumida.

de Hs. REGRESIÓN LINEAL SIMPLE  En el primer ejemplo. de Hs. 8 CALIFICACIONES de estudio (X) aumenta las 7 6 calificaciones (Y)  La 5 correlación es DIRECTA. 2 de estudios (X) disminuye 1 las Calificaciones (Y)  La 0 0 1 2 3 4 5 6 7 8 correlación es INVERSA NÚMERO DE HORAS DE ESTUDIO . 4 3  Si al aumentar el Nro. si se toma una muestra de 10 estudiantes y se desea estudiar si existe relación entre el número de horas de estudio y la calificación. X = número de horas semanales de estudio Y = calificación obtenida. 10 9  Si al aumentar el Nro. decimos que están correlacionadas o que hay CORRELACIÓN entre ellas.  Si los cambios en la variable X (número de horas semanales de estudio) influyen en Y (los cambios de las calificaciones obtenidas).

REGRESIÓN SIMPLE • Una de las formas de establecer la relación entre dos variables es mediante el gráfico de dispersión o nube de puntos. Diferentes diagramas de dispersión . Y Y X X Y X X Figura 2.

o por el contrario si al aumentar los valores de X disminuyen los de Y. 1  r  0 r 0 0  r 1 Correlación negativa Correlación Correlación o inversa Nula positiva o directa Pendiente Figura 1. ANÁLISIS DE REGRESIÓN SIMPLE Dos variables cuantitativas X y Y están relacionadas o existe relación lineal entre ellas si al aumentar los valores de X también lo hacen los de Y. Gráfico de dispersión o nube de puntos .

Determinar la ecuación de regresión. ANÁLISIS DE REGRESIÓN SIMPLE Objetivo: • La regresión simple nos permite determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a los valores de la variable independiente (X). determinar la fuerza de la relación a través del coeficiente de correlación. .  Si existe relación.  Dibujar un diagrama de puntos para dar una imagen visual de la relación. Listar pares de datos para cada observación. Procedimiento: Seleccionar una muestra a partir de la población.

. Y = α + x +  . . xn yn Ecuación de regresión Permite E(Y) = α +  X determinar MUESTRA Parámetros desconocidos Ecuación estimada de regresión α. . . b . ANÁLISIS DE REGRESIÓN SIMPLE MUESTRA Datos POBLACIÓN X Y x1 y1 x2 y2 Modelo de regresión .  𝑌෠ = a + b X b es la pendiente de la recta a.

Regresión lineal simple Se trata de predecir el comportamiento de Y usando X. el cual se supone que tiene media 0 y varianza σ2 . predictora o v. entonces. 𝛂 : Constante de regresión  : Coeficiente de regresión 𝛂 y  se denominan parâmetros de la población  : Error aleatório. dependiente X es la variable explicativa. independiente. el modelo de regresión lineal simple es de la forma: Y = 𝛂 + x +  Modelo de regresión de la población Donde: Y es la variable respuesta o v.

LINEA DE REGRESIÓN ESTIMADA El modelo de regresión lineal es estimado por la ecuación: ෡=a+bX 𝒀 EL estimado de α es a y el estimado de  es b y son hallado usando el método de mínimos cuadrados ŷi es el valor estimado de y para distintos valores de x. mide el cambio estimado de Y por cada unidad de cambio de x . b0 y b1 se denominan coeficientes de regresión b0 : es la intersección o el valor estimado de Y cuando X=0 b1 : es la pendiente de la recta.

El principio de mínimos cuadrados es usado para obtener a y b : 𝒏 σ 𝑿 𝒊 𝒀𝒊 − σ 𝑿 𝒊 σ 𝒀𝒊 𝑺𝒙𝒚 𝒃= = 𝒏 σ 𝑿𝟐𝒊 − σ 𝑿𝒊 𝟐 𝑺𝟐𝒙 σ 𝑌𝑖 σ 𝑋𝑖 𝑎= − 𝑏1 𝑛 𝑛 ഥ − 𝒃𝟏 𝑿 𝒂= 𝒀 ഥ . La estimación de la ecuación de regresión poblacional: Y = 𝛂 + 1 x +  es la ecuación de regresión muestral estimada ŷi  𝑎 + b xi.

es decir: -1 ≤ r ≤ 1  Si r = 1.00. COEFICIENTE DE CORRELACIÓN LINEAL • Coeficiente de Correlación (r) requiere variables CUANTITATIVAS.00 hay una correlación perfecta positiva  Si r = -1. n (X Y )  (X )(Y ) r n (X 2  )  ( X ) 2 n ( Y 2 )  ( Y ) 2  Sx : Desviación estándar de X 𝑆𝑋𝑌 𝑟= Sy : Desviación estándar de Y 𝑆𝑋 𝑆𝑌 Sxy : Covarianza de X e Y  R varía entre -1.00 no hay correlación  Si r > 0 hay una correlación positiva  Si r < 0 hay una correlación negativa .00 hay una correlación perfecta negativa  Si r = 0.00 y 1.

01 ≤ r ≤ 0.99 directa .59 Moderada correlación directa 0.60 ≤ r ≤ 0.CORRELACIÓN LINEAL DIRECTA O POSITIVA Interpretación del coeficiente de correlación directa r Interpretación 0.40 ≤ r ≤ 0.20 ≤ r ≤ 0.19 Muy baja correlación directa 0.80 ≤ r ≤ 0.39 Baja correlación directa 0.79 Alta o buena correlación directa Muy alta o muy buena correlación 0.

20 Baja correlación inversa -0. CORRELACIÓN LINEAL NEGATIVA Interpretación del coeficiente de correlación negativa o inversa r Interpretación Muy alta o muy buena correlación -0.40 Moderada correlación negativa -0.80 inversa -0.99 ≤ r ≤ -0.19 ≤ r ≤ -0.60 ≤ r ≤ -0.60 Alta o buena correlación inversa -0.01 Muy baja correlación negativa .79 ≤ r ≤ -0.39 ≤ r ≤ -0.

COEFICIENTE DE DETERMINACIÓN Coeficiente de Determinación (R2) mide la proporción de la variación total de la variable dependiente Y. que se explica por la variación de la variable independiente X.  El coeficiente de determinación es el cuadrado de la correlación. y varia entre 0 y 1 (0 ≤ 𝑹𝟐 ≤ 1)  El cálculo del R2 se determina con la siguiente fórmula: 2 σ 𝑌෠𝑖 − 𝑌ത 2 𝑅 = Si R2 indica qué porcentaje de la σ 𝑌𝑖 − 𝑌ത 2 variación de la variable dependiente Y es explicada por su relación lineal con X 𝑅2 = 𝑟 2 𝑅2 =1 significa que todos los puntos están en la recta de regresión 𝑅2 = 0 significa que la recta de regresión es paralela al eje X .

Para tal efecto se consideró una muestra de los trabajadores obteniéndose los siguientes resultados: TRABAJADOR 1 2 3 4 5 6 7 8 9 10 SALARIOS 28 25 35 40 45 50 50 35 77 80 GASTOS 25 20 32 37 40 40 45 30 55 60 .EJEMPLO DE REGRESIÓN SIMPLE Analizar la relación entre los salarios y los gastos de los trabajadores de la FECH.

33 50 25 20 500 625 400 23.35 40 35 32 1120 1225 1024 29.8279 28 25 700 784 625 25.85 50 45 2250 2500 2025 39.05 0 10 20 30 40 50 60 70 80 90 SALARIOS 80 60 4800 6400 3600 59. Y 70 GASTOS RIOS ESTIMADO XY X2 Y2 y = 0.95 GASTOS 40 37 1480 1600 1369 33.85 10 55 30 1650 3025 900 43.25 30 45 40 1800 2025 1600 36.6561x + 7.55 20 50 40 2000 2500 1600 39.65 478 384 20150 25584 16168 . Ejemplo SALA.0389 X Y y 60 R² = 0.15 0 70 55 3850 4900 3025 53.

𝟔𝟓𝟔𝟏 𝟏𝟎 𝟏𝟎 𝟏𝟎 𝟐𝟓𝟓𝟖𝟒 − 𝟒𝟕𝟖 𝟐 La ecuación de regresión estimada es: ŷi  𝑎 + b xi yˆ i  7. SALARIOS GASTOS ŷi  𝑎 + b xi. X Y XY X2 Y2 478 384 20150 25584 16168 𝒏 σ 𝑿𝒊 𝒀𝒊 − σ 𝑿𝒊 σ 𝒀𝒊 σ 𝒀𝒊 σ 𝑿𝒊 𝒃= 𝒂= − 𝒃𝟏 𝒏 σ 𝑿𝟐𝒊 − σ 𝑿𝒊 𝟐 𝒏 𝒏 𝟑𝟖𝟒 𝟒𝟕𝟖 𝟏𝟎 𝟐𝟎𝟏𝟓𝟎 − (𝟒𝟕𝟖)(𝟑𝟖𝟒) 𝒂= − (𝟎. 𝟔𝟓𝟔𝟏 = 𝟕.6561 X . 𝟎𝟑𝟖𝟒 𝒃= = 𝟎.0384  0.

Inferencia en Regresión Lineal • Inferencia acerca del coeficiente de regresión 1º Formular las hipótesis estadística: Lo que interesa es determinar si los Ho:  = 0 datos de la muestra proporciona evidencia suficiente para indicar la Ha:   0. 2º Estadístico de prueba viene dada por: La cual se distribuye como una t 𝑏−𝛽 𝑡𝑐𝑎𝑙 = 𝐶𝑀𝐸 ~ 𝑡(1−𝛼. existencia de una relación lineal entre X e Y en la población. 𝑛−2) con n-2 grados de libertad 2 2 σ 𝑋𝑖 σ 𝑋2 𝑖 − 𝑛 σ 𝑋𝑖 σ 𝑌 𝑖 𝑆𝐶𝑅 𝑏 σ 𝑋𝑖 𝑌𝑖 − 𝑛 𝐶𝑀𝐸 = = 𝑛−2 𝑛−2 .

8279 .9099 2 = 0. CORRELACIÓN LINEAL n (X Y )  (X )(Y ) SALARIOS GASTOS r XY X2 Y2 n (X   X Y 2 )  ( X ) 2 n ( Y 2 )  ( Y ) 2 478 384 20150 25584 16168 10 20150 −(478)(384) r= 10 25584 −(478)2 10 16168 − (384)2 17948 r= = 0.9099 27356 14224 𝑟 2 = 0.

ANÁLISIS DE REGRESIÓN SIMPLE Analizar la relación entre la edad y el tiempo de servicios de los estudiantes de la maestría en Gestión Pública de la UCV. Para tal efecto se consideró una muestra de 15 maestrantes obteniéndose los siguientes resultados: Edad 48 40 30 39 46 42 27 36 34 46 32 42 40 32 27 Tiempo de servicios 24 18 9 14 22 22 4 13 10 20 12 18 16 8 6 .

Diagrama de dispersión de la edad y el tiempo de servicios de los maestrantes de la maestría en gestión Pública de la UCV . Solución 30 TIEMPO DE SERVICIOS 25 20 15 10 5 0 0 10 20 30 40 50 60 EDAD Figura 4.

ANÁLISIS DE REGRESIÓN SIMPLE 𝑆𝐶𝑇 = ෍ 𝑌𝑖2 − 𝑁 𝑌ത 2 𝑆𝐶𝑅 = 𝑏 ෍ 𝑋𝑖 𝑌𝑖 − 𝑛 𝑋ത 𝑌ത 𝑆𝐶𝐸 = SCT − SCR .