You are on page 1of 13

UNIVERSIDAD SANTIAGO DE CALI

FACULTAD DE CIENCIAS BÁSICAS


Pág.1/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

UNIDAD 4: CORRELACIÓN Y REGRESIÓN


ANÁLISIS DE CORRELACIÓN Y REGRESIÓN SIMPLE

2. ¿QUÉ ES EL ANÁLISIS DE REGRESIÓN?


El análisis de regresión es la búsqueda de una expresión que
permita predecir los valores de una variable a través del
conocimiento de los valores de otra. La relación entre las dos
variables puede ser representada mediante la línea recta de
mejor ajuste a los datos. Esta linea se denomina recta de
regresión o modelo de regresión. Para este análisis se dispone
de una muestra de 𝒏 pares de observaciones de una variable 𝑌, que se llamara
variable dependiente la cual debe estar correlacionada con otra variable 𝑋, que se
llamara variable independiente:

(𝑥1 , 𝑦1 )
¿Cómo
¿Hacerse relacionan?
predicciones
(𝑥2 , 𝑦2 )
X con una recta? Y
(𝑥3 , 𝑦3 )

(𝑥𝑛 , 𝑦𝑛 )

Ejemplos:
• Si una empresa gasta 10 millones al año en publicidad, ¿Cuánto podrían ser sus
ingresos anuales por ventas?
• Si una persona tiene una estatura de 170 centímetros, ¿Cuánto podría ser su
peso?
• Si una estudiante le dedica 30 horas al estudio del próximo examen de
estadística, ¿Cuánto podría ser la calificación obtenida en dicha prueba?
• Para un futuro empresario que quiere vender 500 unidades de un producto,
¿Cuánto podría ser el precio esperado de cada unidad?
• ¿Cuántas computadoras se venderian al mes?, si un vendedor realiza 50
llamadas a diferentes empresas.

El establecimiento de una correlación entre dos variables es importante, pero esto


se considera un primer paso para predecir una variable a partir de la otra. Claro
está, si sabe que la variable 𝑋 está muy relacionada con 𝑌, ello quiere decir que
se puede predecir 𝑌 a partir de 𝑋. Se esta ya en el terreno de la predicción.
(Evidentemente si, 𝑋 no está relacionada con 𝑌, 𝑋 no sirve como predictor de 𝑌).
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.2/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

2.1. LA ECUACIÓN DE LA RECTA DE REGRESIÓN:


Es la recta que mejor se ajusta a la nube de puntos en un diagrama de dispersión
y cuya expresión está dada por:

𝒀 = 𝒂 + 𝒃𝑿

Donde:
𝒂, se conoce como intercepto de la recta con el eje vertical. En el análisis de
regresión, indica el valor que asumiría 𝒀 en la eventual ausencia de 𝑿.
𝒃, se conoce como pendiente y determina la inclinación de la recta. En el análisis
de regresión, indica cuanto es el cambio en 𝒀 por un cambio unitario de 𝑿.
En términos generales a 𝒂 como a 𝒃 se les conoce como coeficientes o parámetros
de la recta de regresión.

La recta de regresión se traza sobre el diagrama de dispersión, donde la variable


independiente se representa a lo largo del eje horizontal (eje 𝑋) y la variable
dependiente se representa a lo largo del eje vertical (eje 𝑌). Para graficar la recta
se puede proceder mediante la técnica tabular, a partir de dos parejas de valores
donde primero se asigna un valor a 𝑋 y luego se observa cuánto vale 𝑌, este mismo
procedimiento se hace asignando otro valor a 𝑋 y observando cuánto vale 𝑌.
Finalmente, estos dos pares de valores se ubican en el gráfico de dispersión y sobre
ellos se traza una línea recta.

y y y
a
a
a>0 a>0 a>0
a
b>0 b<0 b=0
x x x

y y y
a

x a<0 x a>0 a=0


-a
b>0 b<0 b>0
x
Figura 1: Tipos de rectas de regresión, para diferentes valores de los coeficientes.
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.3/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

Basándose en la información de una muestra aleatoria, los coeficientes 𝒂 y 𝒃 de la


recta de regresión su pueden obtener de la siguiente forma:

 n   n  n   n   n 
n   xi yi     xi   yi    yi   b   xi 
b   i 1   i 1  i 1  ; a   i 1   i 1 
2
 n 2  n  n
n   xi     xi 
 i 1   i 1 

Como se puede observar de las formulas anteriores para calcular el valor del
coeficiente 𝑎 primero es necesario calcular el valor del coeficiente 𝑏. En ambos
casos las formulas dependen de las sumatorias de las variables 𝑋 y 𝑌, las cuales
se pueden obtener por medio de una tabla similar a la empleada en el cálculo del
coeficiente de correlación.

2.2. COEFICIENTE DE DETERMINACIÓN:


Es una medida de bondad de ajuste del modelo (recta de regresión) que mide la
proporción de la variabilidad de 𝑌 que es posible explicar a través del modelo
planteado. En otras palabras, el coeficiente de determinación indica si finalmente
las estimaciones (predicciones) que se logran con la recta de regresión reflejan la
realidad. El coeficiente de determinación presenta las siguientes características:
• Sólo toma valores entre 0 y 1.
• Cuanto más cerca esté de 1 mejor será el ajuste de la recta de regresión a los
datos y entre más cerca esté de 0 peor será el ajuste de la recta de regresión a
los datos.

Falta de ajuste de Ajuste perfecto de


la recta la recta

0 1
• Se denota con la letra 𝑟 2 y se calcula elevando el coeficiente de correlación 𝑟 al
cuadrado.
• Los valores obtenidos del coeficiente de determinación permiten clasificar el
ajuste de la recta de regresión a los datos de la siguiente forma:
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.4/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

Coeficiente de determinación Ajuste a los datos


0.9 ≤ 𝒓𝟐 ≤ 1.0 Excelente
0.7 ≤ 𝒓𝟐 < 0.9 Bueno
0.5 ≤ 𝒓𝟐 < 0.7 Regular
0.0 ≤ 𝒓𝟐 < 0.5 Malo
Tabla 1: Clasificación del ajuste de la recta de regresión a los datos por medio
del coeficiente de determinación.

2.3. PREDICCIONES O VALORES ESPERADOS:


El objetivo del análisis de regresión es obtener predicciones de una variable a través
de la ecuación de regresión, por medio de los valores de la otra variable:
• Predicciones de la variable 𝑌: 𝑌̂ = 𝑎 + 𝑏𝑋
𝑌−𝑎
• Predicciones de la variable 𝑋: 𝑋̂ = 𝑏
Donde:
𝑌̂ es la predicción de la variable 𝑌, cuando se conocen 𝑋, 𝑎 y 𝑏.
𝑋̂ es la predicción de la variable 𝑋, cuando se conocen 𝑌, 𝑎 y 𝑏.

En el momento de hacer predicciones hay que tener ciertas precauciones, pues es


posible que se obtengan resultados absurdos. Por lo tanto, las predicciones de una
variable solo se pueden obtener a partir de valores de la otra variable los cuales
deben estar dentro del mínimo y el máximo. Cuando se hace predicciones, es
natural cometer errores en las estimaciones, sin embargo, esta metodología
estadística trata de que en general esos errores sean lo más pequeños posibles.

Ejemplo: El propietario de una empresa está interesado en conocer acerca del tipo
de relación que existe entre sus inversiones mensuales en publicidad y el nivel de
ventas que obtiene su empresa, para ello ha tomado los datos en millones de pesos
en los últimos seis meses:

Gastos en publicidad 2 1 3 6 5 4
Ingresos por ventas 7 5 8 15 12 10

Para esta situación se requiere:


1) Evaluar el nivel de asociación entre este par de variables.

Lo primero es identificar cuál es la variable dependiente, de acuerdo al contexto


del problema en este caso se tiene que los ingresos por ventas dependen de
las inversiones en o gastos en publicidad por lo cual:

𝑋: Gastos en publicidad.
𝑌: Ingresos por ventas.
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.5/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

Ahora para calcular el coeficiente de correlación se construye una tabla como


la siguiente:

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖2 𝑦𝑖2 𝑥𝑖 𝑦𝑖
1 2 7 4 49 14
2 1 5 1 25 5
3 3 8 9 64 24
4 6 15 36 225 90
5 5 12 25 144 60
6 4 10 16 100 40
Suma 21 57 91 607 233

Tabla 2: Calculo del coeficiente de correlación para las variables gastos en


publicidad e ingresos por ventas.

Con 𝑛 = 6 y reemplazando los valores en la formula del coeficiente de


correlación se obtiene:
 n   n  n 
n   xi yi     xi   yi 
r  i 1   i 1  i 1 
2 2
 n 2  n   n 2  n 
n   xi     xi  n   yi     yi 
 i 1   i 1   i 1   i 1 
6  233   21 57 

6  91   21 6  607    57 
2 2

1398  1197

546  441 3642  3249
201 201 201
  
105 393 10.247 19.824  203.14
 0.9895
Por lo tanto, el resultado obtenido del coeficiente de correlación 𝑟 = 0.9895, se
busca en la tabla 1 del documento referente al análisis de correlación,
encontrando que la relación entre los gastos en publicidad y los ingresos por
ventas, es directa y fuerte, es decir que a mayor gasto en publicidad mayor es
el ingreso por ventas.

2) Estimar los coeficientes de la recta de regresión.

Los coeficientes 𝑎 y 𝑏 de la recta de regresión se pueden obtener a partir de la


información de la tabla 2 y reemplazando en sus respectivas ecuaciones de la
siguiente forma:
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.6/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

Primero se calcula el valor del coeficiente 𝑏:


 n   n  n 
n   xi yi     xi   yi 
b   i 1   i 1  i 1   6  233   21 57   201  1.91
6  91   21
2 2
 n 2  n  105
n   xi     xi 
 i 1   i 1 
Con esta información se puede calcular el valor del coeficiente 𝑎:
 n   n 
  yi   b   xi  57  1.91 21 16.8
a   i 1   i 1     2.80
n 6 6

3) Realizar el diagrama de dispersión junto con la recta de regresión.

16
Ingresos por ventas ($ millones)

14

12

10

0
0 1 2 3 4 5 6 7
Gastos en publicidad ($ millones)
Figura 2: Diagrama de dispersión entre los gastos en publicidad y los ingresos
por ventas.

Una vez se tiene el diagrama de dispersión, la recta de regresión se puede


dibujar de la siguiente forma:

La ecuación de la recta de regresión es: 𝑌 = 2.80 + 1.91𝑋

Entonces el procedimiento tabular consiste en asignar dos valores diferentes a


𝑋 (por ejemplo, el mínimo y el máximo de 𝑋) y ver cuánto vale 𝑌, es decir:

Si 𝑋 = 1 Entonces 𝑌 = 2.80 + 1.91 ∗ (1) = 4.71


Si 𝑋 = 6 Entonces 𝑌 = 2.80 + 1.91 ∗ (6) = 14.26
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.7/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

Ahora con estas dos parejas de datos (𝑥 = 1, 𝑦 = 4.71) y (𝑥 = 6, 𝑦 = 14.26) se


realizan dos nuevos puntos en el diagrama de dispersión (ver puntos en color
rojo en la figura 3).

Ingresos por ventas ($ millones) 16

14

12

10

0
0 1 2 3 4 5 6 7
Gastos en publicidad ($ millones)
Figura 3: Diagrama de dispersión y puntos de la recta de regresión entre los
gastos en publicidad y los ingresos por ventas.

Finalmente, se traza una línea recta que una los dos nuevos puntos (puntos en
color rojo de la figura 3) del diagrama de dispersión.

16
Ingresos por ventas ($ millones)

14

12

10

0
0 1 2 3 4 5 6 7
Gastos en publicidad ($ millones)
Figura 4: Diagrama de dispersión y recta de regresión entre los gastos en
publicidad y los ingresos por ventas.
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.8/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

4) ¿Qué opina de la recta obtenida?

Para responder esta pregunta se debe calcular el coeficiente de determinación


para identificar que también se ajusta la recta de regresión obtenida a los datos
observados.

Se tiene que el coeficiente de correlación fue 𝑟 = 0.9895. Por lo tanto, el


coeficiente de determinación es:

𝑟 2 = (0.9895)2 = 0.9791

El resultado obtenido se busca en la tabla 1, donde se encuentra que la recta


de regresión propuesta presenta un excelente ajuste en la explicación de los
ingresos por ventas.

5) Interpretar los coeficientes obtenidos de la recta de regresión.

Se tiene que 𝑎 = 2.80. Este resultado indica que:


• Si no se invierte en publicidad el ingreso esperado por ventas seria de 2.80
millones.
Se tiene que 𝑏 = 1.91. Este resultado indica que:
• Por cada millón invertido en publicidad se espera un aumento en 1.91
millones en los ingresos por ventas.

6) ¿Cuánto es el valor de los ingresos por ventas si los gastos en publicidad son
3.5 millones?:

La recta de regresión obtenida está dada por:


𝑌 = 2.80 + 1.91𝑋
En este caso se está dando un valor de los gastos en publicidad (variable 𝑋) y
se quiere predecir un valor de los ingresos por ventas (variable 𝑌), entonces se
tiene que emplear la fórmula:
𝑌̂ = 2.80 + 1.91𝑋
Cuando 𝑋 = 3.5, el ingreso por ventas esperado es:
𝑌̂ = 2.80 + 1.91 ∗ (3.5) = 9.5
Es decir, 9.5 millones.

Por lo tanto, cuando se gastan 3.5 millones en publicidad los ingresos


esperados por ventas son de 9.5 millones.
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.9/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

Ejemplo: A continuación, se presenta la información muestral sobre el número de


horas que dedican los estudiantes fuera de clases, para prepararse para el último
examen de estadística y sus calificaciones obtenidas:

Horas de estudio 6 3 8 17 14 19 10
Nota obtenida 1.8 4.1 2.6 4.2 3.5 4.8 3.1
Repitente No Si No No No No No

1) Realizar el diagrama de dispersión, ¿Existe algún tipo de relación lineal entre


estas dos variables?, ¿Qué solución recomienda hacer?

Identificar primero los dos tipos de variables:


Variable dependiente (𝑋): Horas de estudio.
Variable independiente (𝑌): Nota obtenida.

5.0
4.5
4.0
Nota obtenida

3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
0 2 4 6 8 10 12 14 16 18 20
Horas de estudio
Nuevos Repitentes

Figura 5: Diagrama de dispersión entre las horas de estudio y la nota


obtenida.

La nube de puntos del diagrama de dispersión de la figura 5 muestra una


relación lineal positiva entre estas dos variables, sin embargo, se aprecia la
influencia de un punto atípico (punto en color naranja), este valor corresponde
a un estudiante repitente, es decir que vio el curso previamente, pero lo perdió.
Es importante definir un tratamiento para este tipo de datos pues pueden influir
significativamente en los análisis, por ejemplo, si se consideran todos los
valores de la muestra el valor del coeficiente de correlación es:
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.10/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖2 𝑦𝑖2 𝑥𝑖 𝑦𝑖
1 6 1.8 36 3.24 10.8
2 3 4.1 9 16.81 12.3
3 8 2.6 64 6.76 20.8
4 17 4.2 289 17.64 71.4
5 14 3.5 196 12.25 49.0
6 19 4.8 361 23.04 91.2
7 10 3.1 100 9.61 31.0
Suma 77 24.1 1055 89.35 286.5

Tabla 3: Calculo del coeficiente de correlación para las variables horas de


estudio y nota obtenida.

Con 𝑛 = 7 y reemplazando los valores en la formula del coeficiente de


correlación se obtiene:
 n   n  n 
n   xi yi     xi   yi 
r  i 1   i 1  i 1 
2 2
 n 2  n   n 2  n 
n   xi     xi  n   yi     yi 
 i 1   i 1   i 1   i 1 
7  286.5    77  24.1

7 1055    77 2  7  89.35    24.12 
   
2005.5  1855.7

7385  5929 625.45  580.81
149.8 149.8 149.8
  
1456 44.64  38.158  6.681 254.93
 0.5876
Por lo tanto, el resultado obtenido del coeficiente de correlación 𝑟 = 0.5876, se
busca en la tabla 1 del documento referente al análisis de correlación,
encontrando que la relación lineal positiva que existe entre estas dos variables
es débil. Este resultado muestra cómo se puede ver afectado el coeficiente de
correlación cuando se tienen observaciones atípicas, dado que, en este caso
puntual solo se cuenta con estudiante que es repitente, lo recomendable es
excluir esta observación de la muestra. Sin embargo, es tarea del investigador
revisar porque causas se pueden estar presentando en los datos observaciones
anómalas y que tratamiento se les pueden dar para posteriores análisis.

Ahora se calculará nuevamente el coeficiente de correlación, sin esta


observación anómala.
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.11/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖2 𝑦𝑖2 𝑥𝑖 𝑦𝑖
1 6 1.8 36 3.24 10.8
2 8 2.6 64 6.76 20.8
3 17 4.2 289 17.64 71.4
4 14 3.5 196 12.25 49.0
5 19 4.8 361 23.04 91.2
6 10 3.1 100 9.61 31.0
Suma 74 20 1046 72.54 274.2

Tabla 4: Calculo del coeficiente de correlación para las variables horas de


estudio y nota obtenida.

Con 𝑛 = 6 y reemplazando los valores en la formula del coeficiente de


correlación se obtiene:
 n   n  n 
n   xi yi     xi   yi 
r  i 1   i 1  i 1 
2 2
 n 2  n   n 2  n 
n   xi     xi  n   yi     yi 
 i 1   i 1   i 1   i 1 
6  274.2    74  20 

6 1046    74 2  6  72.54    20 2 
   
1645.2  1480

6276  5476 435.24  400
165.2 165.2 165.2
  
800 35.24  28.284  5.936  167.89
 0.9840
Por lo tanto, el resultado obtenido del coeficiente de correlación 𝑟 = 0.9840, se
busca en la tabla 1 del documento referente al análisis de correlación,
encontrando que la relación entre las horas de estudio y la nota obtenida es
directa y fuerte, es decir que entre más horas se estudie para el examen mayor
es la posibilidad de obtener una nota alta. Este resultado es acorde con lo
observado en la nube de puntos (puntos en color azul) del diagrama de
dispersión de la figura 5.

2) Estimar la ecuación de la recta de regresión y graficarla.

Los coeficientes 𝑎 y 𝑏 de la recta de regresión se pueden obtener a partir de la


información de la tabla 3 y reemplazando en sus respectivas ecuaciones de la
siguiente forma:
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.12/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

Primero se calcula el valor del coeficiente 𝑏:


 n   n  n 
n   xi yi     xi   yi 
b   i 1   i 1  i 1   6  274.2    74  20   165.2  0.2065
6 1046    74 
2 2
 n 2  n  800
n   xi     xi 
 i 1   i 1 
Con esta información se puede calcular el valor del coeficiente 𝑎:
 n   n 
  yi   b   xi  20   0.2065 74  4.719
a   i 1   i 1     0.7865
n 6 6

Por lo tanto, la ecuación de la recta de regresión es: 𝑌 = 0.7865 + 0.2065𝑋

Ahora se procede a realizar el gráfico de dispersión y la recta de regresión:


Si 𝑋 = 6a Entonces 𝑌 = 0.7865 + 0.2065 ∗ (6) = 2.03
Si 𝑋 = 19 Entonces 𝑌 = 0.7865 + 0.2065 ∗ (19) = 4.71

5.0
4.5
4.0
3.5
Nota obtenida

3.0
2.5
2.0
1.5
1.0
0.5
0.0
0 2 4 6 8 10 12 14 16 18 20
Horas de estudio
Figura 6: Diagrama de dispersión y recta de regresión entre las horas de
estudio y la nota obtenida.

3) Interprete los coeficientes de la recta de regresión obtenidos.

• 𝑎 = 0.7865. Indica que si no se estudia para el examen de estadística la nota


esperada del examen seria aproximadamente 0.8.
• 𝑏 = 0.2065. Indica que por cada hora de estudio para el examen de
estadística se espera que la nota aumente en 0.2.
UNIVERSIDAD SANTIAGO DE CALI
FACULTAD DE CIENCIAS BÁSICAS
Pág.13/13
DEPARTAMENTO DE CIENCIAS NATURALES, EXACTAS Y ESTADÍSTICA
ÁREA DE ESTADÍSTICA – ESTADÍSTICA BÁSICA I

4) ¿Qué opina del ajuste de esta recta de regresión al conjunto de datos?

Se tiene que el coeficiente de correlación fue 𝑟 = 0.9840. Por lo tanto, el


coeficiente de determinación es:

𝑟 2 = (0.9840)2 = 0.9683

El resultado obtenido se busca en la tabla 1, donde se encuentra que la recta


de regresión propuesta presenta un excelente ajuste en la explicación de las
notas obtenidas en el segundo examen de estadística.

5) ¿Cuál sería la calificación de un estudiante que dedique 10 horas de estudio al


examen?

En este caso se está dando un valor de las horas de estudio (variable 𝑋) y se


quiere predecir un valor de las notas obtenidas (variable 𝑌), entonces se tiene
que emplear la fórmula:
𝑌̂ = 0.7865 + 0.2065𝑋
Cuando 𝑋 = 10, la calificación esperada es:
𝑌̂ = 0.7865 + 0.2065 ∗ (10) = 2.85
Es decir, aproximadamente 2.9.

Por lo tanto, de acuerdo con los resultados de la muestra, cuando se estudian


10 horas para el examen se espera obtener una calificación de 2.9.

6) Si un estudiante desea sacar 4.0 ¿Cuántas horas deberá estudiar?

En este caso se está dando un valor de las calificaciones obtenidas (variable 𝑌)


y se quiere predecir un valor de las horas de estudio (variable 𝑋), entonces se
tiene que emplear la fórmula:
𝑌 − 0.7865
𝑋̂ =
0.2065
Cuando 𝑌 = 4.0, las horas de estudio deberían ser:
4.0 − 0.7865
𝑋̂ = = 15.56
0.2065
Es decir, aproximadamente 15.6.

Por lo tanto, de acuerdo con los resultados de la muestra, si se desea obtener


una nota de 4.0 en el examen se debería estudiar un poco más de 15 horas y
media.