Professional Documents
Culture Documents
3. Correlación
Introducción
En los negocios, no todo es el producto, pueden existir factores relacionados o externos que
modifiquen cómo se distribuye un producto.
De igual manera, la estadística no todo está supeditado al uso de una variable, también existen
técnicas para analizar más de una variable de forma simultánea e interrelacionada.
Existen varias técnicas para hacer análisis de la relación entre dos variables, algunas de ellas pueden
ser tan simples como el diagrama de dispersión; universalmente aceptada en todo tipo de empresas,
hasta la regresión lineal simple o múltiple.
Diagrama de dispersión
Es la presentación gráfica que muestra la relación de dos variables. Al estar involucradas dos variables,
una de ellas se considera la independiente y la otra la dependiente. Al igual que en Matemáticas, la
independiente corresponde a la variable X y la dependiente corresponde a la variable Y.
Ver la tendencia que muestra el diagrama puede dar una idea al usuario de cuál es la correlación que
se puede esperar en la muestra y dependiendo del caso proyectarlo hacia la población.
Ejemplo 3.1
1. La Empresa MOTORSI se da mantenimiento preventivo a vehículos turismo. Se tomó u na
muestra para evaluar si el valor del pago tiene alguna relación con la antigüedad de los
clientes. Se tomó una muestra de 9 clientes que visitaron MOTORSI la semana pasada y a
través de un diagrama de dispersión evaluar su comportamiento. El resultado de la
muestra es el siguiente:
AÑOS FACTURACIÓN
1 3,000
2 4,000
5 8,000
4 8,000
2 5,000
3 5,500
4 7,000
2 6,000
5 10,000
Desarrollo
En un plano cartesiano se grafica en el eje X la antigüedad del cliente y en el eje Y el
valor facturado en la última visita. Utilizando Excel, se muestra la siguiente gráfica.
2
Lo más usado para el trazo de las gráficas son los paquetes estadístico; el más común es Microsoft
Excel.
COMANDO EN EXCEL
Para para elaborar un Diagrama de dispersión en Excel:
Análisis de correlación
El análisis de correlación es el estudio de la relación entre variables numéricas. Es lo mismo que se
observó en el diagrama de dispersión con base numérica.
El primer paso para hacer el análisis de correlación es el cálculo del coeficiente de correlación, técnica
descubierta por Carl Pearson, que estandariza la medida de las variables hasta crear un intervalo que
oscila entre -1 y 1.
Coeficiente de correlación
Es la técnica para probar la fuerza de la relación entre dos variables continuas, en la cual una es
independiente y la otra es dependiente.
Al generar un diagrama de dispersión, con variables continuas, se puede visualizar la tendencia que
tendría una recta que haya sido creada a través del análisis de todos los puntos del diagrama. Si la
correlación es positiva, la tendencia orienta el diagrama con una recta positiva y creciente y en la
relación negativa, la tendencia la orienta hacia una recta negativa o decreciente.
La fórmula del coeficiente de correlación es una combinación de Media aritmética, desviación estándar
y el tamaño de la muestra.
∑(𝑋𝑖 − 𝑋̅ )2
𝑠𝑋 = √
(𝑛 − 1)
Ejemplo 3.2
1. En la empresa Sara se venden unidades de aire acondicionado; se ha observado que a
mayor cantidad de llamadas de los vendedores durante el mes, mayor cantidad de
compra de unidades de aire acondicionado.
Se tomó una muestra de las ventas realizadas por 6 de los vendedores de planta y se
quiere comparar la cantidad de llamadas realizadas durante el mes y las ventas
facturadas.
Los resultados de la muestra fueron los siguientes:
UNIDADES
AGENTE LLAMADAS VENDIDAS
Tomás García 20 30
José Girón 40 60
Gregorio Figueroa 30 60
Carlos Ramírez 10 40
Miguel Godoy 20 50
Marcos Reyes 20 30
a. Diagrama de dispersión:
El diagrama de dispersión en Excel se visualiza de la siguiente manera:
𝟑𝟎 + 𝟔𝟎 + 𝟔𝟎 + 𝟒𝟎 + 𝟓𝟎 + 𝟑𝟎 𝟐𝟕𝟎
̅=
𝒀 = = 𝟒𝟓. 𝟎
𝟔 𝟔
UNIDADES 𝑋𝑖 − 𝑋̅
𝑋𝑖 − 𝑋̅ 𝑌𝑖 − 𝑌̅ 𝑋𝑖 − 𝑋̅ 2 𝑌𝑖 − 𝑌̅ 2
AGENTE LLAMADAS VENDIDAS 𝑌𝑖 − 𝑌̅
Tomás García 20 30 (20 - 23) 2 = -3 (20 - 45) 2 = -15 45 9 225
2
José Girón 40 60 (40 - 23) = 17 (60 - 45) 2 = 15 255 289 225
Gregorio Figueroa 30 60 (30 - 23) 2 = 7 (60 - 45) 2 = 15 105 49 225
2 2
Carlos Ramírez 10 40 (10 - 23) = -13 (40 - 45) = -5 65 169 25
Miguel Godoy 20 50 (20 - 23) 2 = -3 (50 - 45) 2 = 5 -15 9 25
Marcos Reyes 20 30 (20 - 23) 2 = -3 (30 - 45) 2 = -15 45 9 225
∑ 140 270 500 534 950
534
𝑠𝑋 = √ = √106.7 = 10.3
6−1
950
𝑠𝑌 = √ = √190.0 = 13.8
6−1
d. Coeficiente de correlación
∑(𝑋 − 𝑋̅)(𝑌 − 𝑌̅)
𝑟=
(𝑛 − 1)𝑠𝑋 𝑠𝑌
500
𝑟=
(6 − 1)(10.3)(13.8)
500
𝑟= = 0.702
712.25
Coeficiente de determinación
El obtener una respuesta como moderada, fuerte o perfecta no dice mucho en términos numéricos, ya
que se puede interpretar con una respuesta ambigua. Para apoyar la respuesta, se utiliza el Coeficiente
de determinación que proporciona un resultado en porcentaje, el cual es más fácil de interpretar. Se
calcula elevando al cuadrado el coeficiente de correlación.
6
Ejemplo 3.3
1. Calcular el coeficiente de determinación de una muestra de dos variables, cuyos
coeficiente de correlación es 0.702
Desarrollo
𝒓𝟐 = (𝟎. 𝟕𝟎𝟐)𝟐
𝒓𝟐 = 𝟎. 𝟒𝟗𝟐𝟖
Existe una correlación de 49% entre ambas variables.
2. En una muestra de 5 elementos, los datos de la variable independiente y la
dependiente se obtuvieron de la siguiente forma:
X 6 5 3 6 10
Y 4 6 6 7 7
Calcular el coeficiente de determinación.
Desarrollo
a) Diagrama de dispersión
b) Media aritmética de X y de Y
𝟔 + 𝟓 + 𝟑 + 𝟔 + 𝟏𝟎 𝟑𝟎
̅=
𝑿 = =𝟔
𝟓 𝟓
𝟒 + 𝟔 + 𝟔 + 𝟕 + 𝟕 𝟑𝟎
̅=
𝒀 = =𝟔
𝟓 𝟓
c) Variación y varianza de X y Y
7
𝑋𝑖 − 𝑋̅
X Y 𝑋𝑖 − 𝑋̅ 𝑌𝑖 − 𝑌̅ 𝑋𝑖 − 𝑋̅ 2 𝑌𝑖 − 𝑌̅ 2
𝑌𝑖 − 𝑌̅
6 4 ( 6 - 7 )2 = -1 ( 4 - 6 ) 2 = -2 2 1 4
2 2
8 5 ( - 7) = 1 ( 5- 6) = -1 -1 1 1
2 2
3 7 ( 3- 7) = -4 ( 7 - 6 ) = 1 -4 16 1
2 2
7 7 ( 7- 7) = - ( 7- 6) = 1 - - 1
2 2
11 7 ( 11 - 7 ) = 4 ( 7- 6) = 1 4 16 1
35 30 1 34 8
𝟑𝟒
𝒔𝑿 = √ = √𝟖. 𝟓 = 𝟐. 𝟗𝟐
𝟓−𝟏
𝟖
𝒔𝒀 = √ = √𝟐 = 𝟏. 𝟒
𝟓−𝟏
d) Coeficiente de correlación
𝟏 𝟏
𝒓= = = 𝟎. 𝟎𝟔
(𝟓 − 𝟏)(𝟐. 𝟗𝟐)(𝟏. 𝟒) 𝟏𝟔
e) Coeficiente de determinación
𝒓𝟐 = (𝟎. 𝟎𝟔)𝟐 = 𝟎. 𝟎𝟎𝟒
Solo se puede suponer un 0.4% de correlación, lo que indica que la variable X no influye
en el resultado de la variable Y.
Es de hacer notar que la hipótesis nula es una igualdad, por lo tanto, la prueba se debe realizar para 2
colas. La fórmula del estadístico de prueba es:
𝑟(𝑛 − 2)
𝑡= 𝑐𝑜𝑛 𝑛 − 2 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑
√1 − 𝑟 2
Ejemplo 3.4
1. En la empresa Sara se venden unidades de aire acondicionado; se ha observado que a mayor
cantidad de llamadas de los vendedores durante el mes, mayor cantidad de compra de
unidades de aire acondicionado.
Se tomó una muestra de las ventas realizadas por 6 de los vendedores de planta y se quiere
comparar la cantidad de llamadas realizadas durante el mes y las ventas facturadas; el
coeficiente de correlación obtenido fue de 0.702. Se va a probar si existe relación entre las
variables con un nivel de confianza del 95%.
UNIDADES
AGENTE LLAMADAS VENDIDAS
Tomás García 20 30
José Girón 40 60
Gregorio Figueroa 30 60
Carlos Ramírez 10 40
Miguel Godoy 20 50
Marcos Reyes 20 30
Desarrollo
PASO 1: Hipótesis nula y alternativa
𝑯𝟎 : 𝝆 = 𝟎
𝑯𝒂 : 𝝆 ≠ 𝟎
𝑡 = 2.776
𝒓(𝒏 − 𝟐)
𝒕=
√𝟏 − 𝒓𝟐
𝟎. 𝟕𝟎𝟐(𝟔 − 𝟐)
𝒕=
√𝟏 − (𝟎. 𝟕𝟎𝟐)𝟐
𝟐. 𝟖𝟏
𝒕=
𝟎. 𝟕𝟏
𝒕 = 𝟑. 𝟗𝟔
Producción
a) Trace un diagrama de dispersión. Número de
en una hora
b) Con base en el diagrama de dispersión, ¿parece ensambladores
haber alguna relación entre el número de (unidades)
ensambladores y la producción? 2 15
c) Calcular el coeficiente de correlación 4 25
d) Calcular el coeficiente determinación 1 10
e) Probar la importancia del coeficiente de 5 40
correlación con un nivel de confianza del 95%. 3 30
Desarrollo
a) Diagrama de dispersión
10
𝑠𝑋 = √ = √2.5 = 1.58
5−1
11
𝟕𝟎 𝟕𝟎
𝒓= = = 𝟎. 𝟗𝟑
(𝟓 − 𝟏)(𝟏. 𝟓𝟖)(𝟏𝟏. 𝟗𝟒) 𝟕𝟓. 𝟒𝟔
Correlación negativa No hay relación Correlación positiva
Perfecta entre las variables Perfecta
Correlación negativa Correlación positiva
Moderada Moderada
d) Coeficiente de determinación
𝒓𝟐 = (𝟎. 𝟗𝟑)𝟐 = 𝟎. 𝟖𝟔
Se puede suponer que hay una correlación del 86% entre ambas variables; lo que indica
que la variable X influye en la variable Y.
𝑡 = 2.776
12
𝒓(𝒏 − 𝟐)
𝒕=
√𝟏 − 𝒓𝟐
𝟎. 𝟗𝟑(𝟓 − 𝟐)
𝒕=
√𝟏 − (𝟎. 𝟗𝟑)𝟐
𝟐. 𝟕𝟗
𝒕=
𝟎. 𝟑𝟕
𝒕 = 𝟕. 𝟓𝟒𝟏
Ejercicio
1. Se dan las siguientes hipótesis
𝐻0 : 𝜌 ≤ 0
𝐻𝑎 : 𝜌 > 0
Una muestra aleatoria de 12 observaciones pareadas indicó una correlación de 0.32. ¿Se puede
concluir que la correlación en la población es mayor que cero? Utilice 0.05 como nivel de
significancia.
2. Se dan las siguientes hipótesis
𝐻0 : 𝜌 ≤ 0
𝐻𝑎 : 𝜌 > 0
Una muestra aleatoria de 15 observaciones pareadas tiene una correlación de -0.46. ¿Se puede
concluir que la correlación en la población es menor que cero? Con un nivel de significancia de
0.05.
13
Contenido
Estudiante Cervezas de alcohol
en la sangre
1 6 0.10
2 7 0.09
3 7 0.09
4 4 0.10
5 5 0.10
6 3 0.07
7 3 0.10
8 6 0.12
9 6 0.09
a. Elaborar el diagrama de dispersión
b. Determinar el coeficiente de correlación
c. Establecer el coeficiente de determinación
d. Con un nivel de significancia de 0.01, ¿Es razonable concluir que hay una relación positiva en la
población entre el número de cervezas consumidas y el contenido de alcohol en la sangre?
BIBLIOGRAFÍA
o Lind, D.A., Marchal, W.G., Wathen, S.A. (15). (2012). Estadística Aplicada a los Negocios y la
Economía. México: McGraw-Hill
o David M. Levine, Timothy C. Krehbiel, Mark L. Berenson. 2006. Estadística para Administración. (4°
edición). Naucalpan de Juárez, México.: Pearson Prentice Hall