Professional Documents
Culture Documents
Y CORRELACIÓN
Análisis de regresión
Comprende un análisis de datos muestrales para saber si y como se relacionan entre sí dos o
más variables de una población (Díaz Mata, 2013)
Comienza representando gráfica el conjunto de valores XY sobre un diagrama de dispersión y
determinando si puede existir una relación lineal aproximada (Salvatore, 2007)
Facilita la comprensión de la situación a estudiar y permite la experimentación con
combinaciones diferentes de variables para estudiar sus efectos en los pronósticos.
Origen del análisis de regresión
•Surge a partir de los estudios hechos por Sir Francis Galton, primo de Charles Darwin en 1805
•Se aplicó en un estudio relacionado con la descripción de los rasgos físicos de los descendientes
(variable dependiente) a partir de los rasgos de sus padres (variable independiente)
•Analizó la altura de 205 padres y 930 hijos adultos a partir de sus registros familiares y llegó a la
conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte
de esta altura, pero que se revelaba también una tendencia a regresar a la estatura media.
•A partir de estas observaciones, Galton señaló esta tendencia bajo la “ley de la regresión
universal”.
Objetivo del análisis de regresión
Investigar la relación estadística que existe entre dos o más variables, con la intención de poder
postular una relación funcional entre las variables estudiadas.
Tipos de regresión
Regresión simple Regresión múltiple
𝑦 = 𝑎 + 𝑏𝑥
a=ordenada b=pendiente
Para obtener la ecuación de la recta y=a+bx, se deben utilizar las siguientes ecuaciones, donde y
testada y x testada son el valor promedio de las variables y n es el número de observaciones.
40
35 y = 2x + 20
Ganancias Anuales
30 R² = 0.8264
25
20
15
10
0
0 2 4 6 8 10 12
Inversión en I+D
Obtener la ecuación de regresión por
Mínimos Cuadrados.
Año (N=6) (1) Inversión en I+D (x) Ganancias anuales(I+D) (Y) XY X2 Y2
1990 2 20 40 4 400
1991 3 25 75 9 625
1992 5 34 170 25 1156
1993 4 30 120 16 900
1994 11 40 440 121 1600
1995 5 31 155 25 961
30 180 1000 200 5642
Elaboración de la ecuación de regresión
Cálculo de la pendiente y la ordenada
6(1000) − (30)(180) 𝑎 = 𝑦ത − 𝑏𝑥ҧ
𝑏= 𝑎 = 30 − 2 5
6 200 − 30 2
6000 − 5400 a=20
𝑏=
1200 − 900
600
𝑏=
300
𝑏=2
y=20+2x
Pronosticar tendencias de la variable
dependiente
Año Valores para X (Inversión en I+D) Valor estimado para las ganancias
1996 8 Y=20+2(8)= 36
1997 11 Y=20+2(11)= 42
1998 9 Y=20+2(9)=38
1999 12 Y=20+2(12) =44
2000 10 Y=20+2(10)=40
2001 13 Y=20+2(13)=46
Uso del análisis de regresión y
Correlación: Limitaciones y errores
Para utilizarse de forma exitosa, se recomienda disponer de múltiples
observaciones (Wheelwright, 2004)
Debe haber poca o nula fluctuación entre las variables dependiente e
independiente.
Los datos utilizados en cada variable deben ser actualizados constantemente
para tener una mayor precisión sobre los resultados.
Las variables elegidas deben tener una relación lineal directa
Esta técnica no replica a la perfección los fenómenos de la vida real.
Las variables elegidas para el análisis pueden no tener una relación de causalidad, solamente
pueden ser muy cercanas entre sí.
Tarea
Coeficiente de determinación
Coeficiente de correlación
Interpretación del coeficiente de correlación
ANÁLISIS DE
CORRELACIÓN
ANALISIS DE CORRELACIÓN
Permite determinar la consistencia de una relación entre 2 variables (Lind, 2008)
Significa “relación mutua” ya que indica el grado en que los valores de una variable se
relacionan con los valores de la otra
Son números que varían entre los limites +1 y -1.
Los coeficientes de correlación son medidas que indican la situación relativa de los mismos
sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado
de relación existente entre las 2 variables y en qué medida se relacionan.
Interpretación del coeficiente de
correlación.
Valor Significado
-1 Correlación negativa grande y perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta
1 Correlación positiva grande y perfecta
Coeficiente de determinación
Coeficiente de determinación: Mide la variación total de la variable dependiente Y que se
explica u origina por la variación o cambio de la variable independiente X. Se representa con R2
(Levin et al, 2004) Donde:
r 2 = Coeficiente de determinación
a=Valor de la Ordenada
𝑎 σ 𝑌 − 𝑏 σ 𝑥𝑦 − 𝑛 ത2
𝑌
b=Valor de la pendiente
𝑟2 = n=Número de elementos
σ 𝑌 2 − 𝑛 𝑌ത 2 X=Valores de la variable independiente
Y=Valores de la variable dependiente
ഥ=Media de los valores observados de la
Y
variable dependiente
Obtener la ecuación de regresión por
Mínimos Cuadrados.
Año (N=6) (1) Inversión en I+D (x) Ganancias anuales(I+D) (Y) XY X2 Y2
1990 2 20 40 4 400
1991 3 25 75 9 625
1992 5 34 170 25 1156
1993 4 30 120 16 900
1994 11 40 440 121 1600
1995 5 31 155 25 961
Sumas de X y Y 30 180 1000 200 5642
Media de X y Y 30/6=5 180/6=30
Cálculo del coeficiente de determinación
𝑎 σ 𝑌 + 𝑏 σ 𝑥𝑦 − 𝑛 ത
𝑌 2
𝑟2 =
σ 𝑌 2 − 𝑛 𝑌ത 2
Intepretación de 𝑟 2 : Se concluye que la variación en los
20 180 + 2 1000 − (6) 30 2 gastos de I+D (Variable independiente) genera el 82.6%
2
𝑟 = de variación en las ganancias anuales (Variable
(5642) − 6 30 2
dependiente).
3600 + 2000 − 5400 Puede concluirse también que el 17.4% de la variación
𝑟2 = permanece sin explicación o puede deberse a otros
5642 − 5400
factores que influyen tales como como la demanda,
200 avances tecnológicos, variables macroeconómicas, etc.
𝑟2 = = 0.8264
242
Cálculo del Coeficiente de Correlación
Se obtiene calculando la raíz cuadrada del
coeficiente de determinación y muestra con
mayor exactitud la relación lineal entre dos
variables (Anderson, 2010)
El signo del coeficiente de correlación dependerá
𝑟= 𝑟2 de la tendencia que sigan los datos en el
diagrama de dispersión, además del signo de la
pendiente (Kazmier, 2004)
Cálculo e Interpretación del Coeficiente
de Correlación
El resultado de r es de 0.909, lo cual
quiere decir que las variables
estudiadas (Ganancias Anuales e
𝑟= 𝑟2
Inversión en I+D) tienen una
correlación positiva muy alta e indica
una relación de predicción muy
cercana.
𝑟 = 0.826=0.909
Asimismo, es posible señalar que
r=0.9, lo cual significa que el 90% de
los datos se relacionan entre sí.