You are on page 1of 29

ANÁLISIS DE REGRESIÓN

Y CORRELACIÓN
Análisis de regresión
Comprende un análisis de datos muestrales para saber si y como se relacionan entre sí dos o
más variables de una población (Díaz Mata, 2013)
Comienza representando gráfica el conjunto de valores XY sobre un diagrama de dispersión y
determinando si puede existir una relación lineal aproximada (Salvatore, 2007)
Facilita la comprensión de la situación a estudiar y permite la experimentación con
combinaciones diferentes de variables para estudiar sus efectos en los pronósticos.
Origen del análisis de regresión
•Surge a partir de los estudios hechos por Sir Francis Galton, primo de Charles Darwin en 1805
•Se aplicó en un estudio relacionado con la descripción de los rasgos físicos de los descendientes
(variable dependiente) a partir de los rasgos de sus padres (variable independiente)
•Analizó la altura de 205 padres y 930 hijos adultos a partir de sus registros familiares y llegó a la
conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte
de esta altura, pero que se revelaba también una tendencia a regresar a la estatura media.
•A partir de estas observaciones, Galton señaló esta tendencia bajo la “ley de la regresión
universal”.
Objetivo del análisis de regresión
Investigar la relación estadística que existe entre dos o más variables, con la intención de poder
postular una relación funcional entre las variables estudiadas.
Tipos de regresión
Regresión simple Regresión múltiple

Mide la relación entre


Mide la relación entre una una variable
variable dependiente (Y) y
una variable independiente
dependiente (y) y 2 o
(x) más variables
independentes (x)
variable dependiente (y) y una
independiente (x)
Variable independiente (x): Es la variable que se encarga de pronosticar o explicar. Se denota
con la letra x en la ecuación de regresión
Variable Dependiente (y): Generalmente es el factor que busca ser pronosticado para
determinar el efecto de la variable independiente
Diagrama de dispersión
Es una gráfica de los datos disponibles en la cual, la variable independiente aparece en el eje
horizontal (X) y la variable dependiente aparece en el eje vertical. (Anderson, 2010)
Tipos de relación entre variables
Aplicaciones Principales
Se usa para determinar de manera matemática las estimaciones futuras de una serie de cifras
históricas como pueden ser las ventas, los costos, los gastos, las utilidades, las cuentas por
cobrar, inventarios, saldo en caja y bancos, etc.
También puede aplicarse para alcance de productos existentes, estrategias de marketing,
contratación de personal e incluso planeación de instalaciones.
Método de mínimos cuadrados
Es una técnica que permite ajustar la linea recta óptima a la muestra de las observaciones XY
(Freund, 1990).
Ayuda a seleccionar una línea de tendencia recta del tipo y=a+bx, y asi poder determinar de
mejor manera la tendencia de las relaciones observadas en el pasado, con el fin de utilizarlas
como base en la proyección de la tendencia futura. (Sapag, 2007)
Modelo de regresión
Para el análisis de regresión se utiliza como referencia la ecuación de la pendiente de la recta que
cuenta con las siguientes características y se expresa de la siguiente manera:

𝑦 = 𝑎 + 𝑏𝑥

a=ordenada b=pendiente
Para obtener la ecuación de la recta y=a+bx, se deben utilizar las siguientes ecuaciones, donde y
testada y x testada son el valor promedio de las variables y n es el número de observaciones.

𝑁(σ 𝑋𝑌)−(σ 𝑋)(σ 𝑌)


b= ത 𝑋ത
a=𝑦-b
𝑁 σ 𝑋 2 −(σ 𝑋)2
Ejemplo
Una empresa de base tecnológica requiere conocer la relación
entre el dinero invertido en investigación y desarrollo (I+D) y las
ganancias anuales estimadas en miles de dólares.
Para este fin, se presentará la información de los gastos y
ganancias de los seis años anteriores con el propósito de
determinar la ecuación de regresión que permitirá describir la
relación entre gastos y ganancias.
Y (Variable Dependiente)= Ganancias anuales
X (Variable Independiente)= Inversión en I+D
Procedimiento
1. Identificar variables dependiente (y) e independiente(x)
2. Elaborar diagrama de dispersión
3. Determinación de la ecuación de regresión lineal
4. Pronosticar tendencias sobre la variable dependiente
1. Elaborar gráfica de dispersión
Gráfica de dispersión
45

40

35 y = 2x + 20
Ganancias Anuales

30 R² = 0.8264
25

20

15

10

0
0 2 4 6 8 10 12
Inversión en I+D
Obtener la ecuación de regresión por
Mínimos Cuadrados.
Año (N=6) (1) Inversión en I+D (x) Ganancias anuales(I+D) (Y) XY X2 Y2
1990 2 20 40 4 400
1991 3 25 75 9 625
1992 5 34 170 25 1156
1993 4 30 120 16 900
1994 11 40 440 121 1600
1995 5 31 155 25 961
30 180 1000 200 5642
Elaboración de la ecuación de regresión
Cálculo de la pendiente y la ordenada
6(1000) − (30)(180) 𝑎 = 𝑦ത − 𝑏𝑥ҧ
𝑏= 𝑎 = 30 − 2 5
6 200 − 30 2
6000 − 5400 a=20
𝑏=
1200 − 900
600
𝑏=
300
𝑏=2

y=20+2x
Pronosticar tendencias de la variable
dependiente
Año Valores para X (Inversión en I+D) Valor estimado para las ganancias
1996 8 Y=20+2(8)= 36
1997 11 Y=20+2(11)= 42
1998 9 Y=20+2(9)=38
1999 12 Y=20+2(12) =44
2000 10 Y=20+2(10)=40
2001 13 Y=20+2(13)=46
Uso del análisis de regresión y
Correlación: Limitaciones y errores
Para utilizarse de forma exitosa, se recomienda disponer de múltiples
observaciones (Wheelwright, 2004)
Debe haber poca o nula fluctuación entre las variables dependiente e
independiente.
Los datos utilizados en cada variable deben ser actualizados constantemente
para tener una mayor precisión sobre los resultados.
Las variables elegidas deben tener una relación lineal directa
Esta técnica no replica a la perfección los fenómenos de la vida real.
Las variables elegidas para el análisis pueden no tener una relación de causalidad, solamente
pueden ser muy cercanas entre sí.
Tarea
Coeficiente de determinación
Coeficiente de correlación
Interpretación del coeficiente de correlación
ANÁLISIS DE
CORRELACIÓN
ANALISIS DE CORRELACIÓN
Permite determinar la consistencia de una relación entre 2 variables (Lind, 2008)
Significa “relación mutua” ya que indica el grado en que los valores de una variable se
relacionan con los valores de la otra
Son números que varían entre los limites +1 y -1.
Los coeficientes de correlación son medidas que indican la situación relativa de los mismos
sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado
de relación existente entre las 2 variables y en qué medida se relacionan.
Interpretación del coeficiente de
correlación.
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
Coeficiente de determinación
Coeficiente de determinación: Mide la variación total de la variable dependiente Y que se
explica u origina por la variación o cambio de la variable independiente X. Se representa con R2
(Levin et al, 2004) Donde:
r 2 = Coeficiente de determinación
a=Valor de la Ordenada

𝑎 σ 𝑌 − 𝑏 σ 𝑥𝑦 − 𝑛 ത2
𝑌
b=Valor de la pendiente

𝑟2 = n=Número de elementos
σ 𝑌 2 − 𝑛 𝑌ത 2 X=Valores de la variable independiente
Y=Valores de la variable dependiente
ഥ=Media de los valores observados de la
Y
variable dependiente
Obtener la ecuación de regresión por
Mínimos Cuadrados.
Año (N=6) (1) Inversión en I+D (x) Ganancias anuales(I+D) (Y) XY X2 Y2
1990 2 20 40 4 400
1991 3 25 75 9 625
1992 5 34 170 25 1156
1993 4 30 120 16 900
1994 11 40 440 121 1600
1995 5 31 155 25 961
Sumas de X y Y 30 180 1000 200 5642
Media de X y Y 30/6=5 180/6=30
Cálculo del coeficiente de determinación
𝑎 σ 𝑌 + 𝑏 σ 𝑥𝑦 − 𝑛 ത
𝑌 2
𝑟2 =
σ 𝑌 2 − 𝑛 𝑌ത 2
Intepretación de 𝑟 2 : Se concluye que la variación en los
20 180 + 2 1000 − (6) 30 2 gastos de I+D (Variable independiente) genera el 82.6%
2
𝑟 = de variación en las ganancias anuales (Variable
(5642) − 6 30 2
dependiente).
3600 + 2000 − 5400 Puede concluirse también que el 17.4% de la variación
𝑟2 = permanece sin explicación o puede deberse a otros
5642 − 5400
factores que influyen tales como como la demanda,
200 avances tecnológicos, variables macroeconómicas, etc.
𝑟2 = = 0.8264
242
Cálculo del Coeficiente de Correlación
Se obtiene calculando la raíz cuadrada del
coeficiente de determinación y muestra con
mayor exactitud la relación lineal entre dos
variables (Anderson, 2010)
El signo del coeficiente de correlación dependerá
𝑟= 𝑟2 de la tendencia que sigan los datos en el
diagrama de dispersión, además del signo de la
pendiente (Kazmier, 2004)
Cálculo e Interpretación del Coeficiente
de Correlación
El resultado de r es de 0.909, lo cual
quiere decir que las variables
estudiadas (Ganancias Anuales e
𝑟= 𝑟2
Inversión en I+D) tienen una
correlación positiva muy alta e indica
una relación de predicción muy
cercana.
𝑟 = 0.826=0.909
Asimismo, es posible señalar que
r=0.9, lo cual significa que el 90% de
los datos se relacionan entre sí.

You might also like