You are on page 1of 23

Laboratorio 6:

Correlación y regresión lineal simple

D. Ayma, M. Carmona y R. Guerrero


Facultad de Ciencias
Departamento de Matemáticas

Estadı́stica DAMA 00312/00336


Ingenierı́as de Base Cientı́fica y Geologı́a
UCN Sede Antofagasta
Contenidos

D. Ayma, M. Carmona y R. Guerrero UCN 2/1


Introducción

En este laboratorio se introducirán algunos elementos básicos del


llamado modelo de regresión lineal simple.
Esta herramienta estadı́stica es empleada frecuentemente en diferen-
tes aplicaciones de Ingenierı́a y Ciencias, por lo que es fundamental
su entendimiento para un uso apropiado de la misma.
Antes de introducir el modelo de regresión lineal simple, veremos los
siguientes elementos:
• Diagrama de dispersión (o scatterplot)

• Covarianza muestral

• Coeficiente de correlación muestral

D. Ayma, M. Carmona y R. Guerrero UCN 3/1


Diagrama de dispersión o scatterplot

Un diagrama de dispersión o scatterplot se utiliza para visualizar


la relación entre dos variables cuantitativas denominadas x e y .
Este diagrama consiste de dos ejes coordenados (una para cada
variable cuantitativa) en el que se representan los pares de datos
(x1 , y1 ), (x2 , y2 ),...,(xn , yn ), usualmente por medio de puntos.
A continuación, se presentan algunos ejemplos de diagramas de dis-
persión.

D. Ayma, M. Carmona y R. Guerrero UCN 4/1


Diagrama de dispersión o scatterplot
Se piensa que la pureza del oxı́geno producido con un proceso de
fraccionamiento está relacionada con el porcentaje de hidrocarburos
en el condensador principal de la unidad de procesamiento. A con-
tinuación, se muestran gráficamente los datos de 20 muestras:


98

● ●
96




Pureza del oxígeno (%)

94


92



90

● ●
88

● ●


86

0.9 1.0 1.1 1.2 1.3 1.4 1.5

Porcentaje de hidrocarburos

D. Ayma, M. Carmona y R. Guerrero UCN 5/1


Diagrama de dispersión o scatterplot
A continuación, se presentan los resultados de 11 muestras analiza-
das quı́micamente por plomo, cobre y arsénico correspondientes a
una flotación de un mineral polimetálico:
5 10 15 20

● ●●

70
● ●

● ●

60
● ●

50
Plomo ●



● ●
● ●

40
● ●

30
● ●

● ●
20
15


Cobre ●
10

● ● ●
● ●●
5

● ● ●●
● ●
● ●
● ●●●

6
● ●

5
4
● ●
Arsenico

3
2
● ●
● ● ●●
● ●
● ●
● ● ● ●

1

● ●

30 40 50 60 70 1 2 3 4 5 6

D. Ayma, M. Carmona y R. Guerrero UCN 6/1


Covarianza muestral

La covarianza muestral entre dos variables cuantitativas x e y


viene dado por:
n
1 X
sx,y = (xi − x̄) (yi − ȳ ) ,
n−1
i=1

y mide el sentido de la relación lineal entre x e y .


La interpretación de la covarianza muestral es la misma que la de la
covarianza vista en clases.
La covarianza muestral sx,y tiene un gran inconveniente y es que
depende de las unidades de medición de x e y .

D. Ayma, M. Carmona y R. Guerrero UCN 7/1


Coeficiente de correlación muestral

Hay una medida alternativa a sx,y , la cual es libre de escala, lla-


mado coeficiente de correlación (de Pearson) muestral. Este
coeficiente viene dado por:
sx,y
rx,y =
sx sy

y mide el sentido y la fuerza de la relación lineal entre x e y (aquı́ sx


denota la desviación estándar muestral de x y sy denota la desviación
estándar muestral de y ). Una propiedad importante de rx,y es la
siguiente:
−1 ≤ rx,y ≤ 1
La interpretación del coeficiente de correlación muestral es la misma
que la de la correlación vista en clases.

D. Ayma, M. Carmona y R. Guerrero UCN 8/1


Coeficiente de correlación muestral
A continuación, se muestran varios diagramas de dispersión ejem-
plificando distintos valores de rx,y :

Fuente: Daniel Garavito (https://rpubs.com/bogotan)

D. Ayma, M. Carmona y R. Guerrero UCN 9/1


Trabajando en R/RStudio
Los elementos anteriores se pueden obtener en R/RStudio utilizando
los siguientes comandos:
• Diagrama de dispersión (o scatterplot):
plot(x, y, pch=19, xlab="Titulo eje x",
ylab="Titulo eje y", main="Titulo grafico")
• Covarianza muestral sx,y :
cov(x,y)
• Coeficiente de correlación muestral rx,y :
cor(x,y)

Aquı́, x e y son dos vectores numéricos creados previamente, los


cuales corresponden a mediciones de las variables cuantitativas x e
y . A continuación, se ilustrará el uso de estos comandos mediante
un ejemplo.
D. Ayma, M. Carmona y R. Guerrero UCN 10/1
Ejemplo 1
En algunos lugares, existe una fuerte asociación entre las concen-
traciones de dos contaminantes diferentes. Cierto artı́culo cientı́fico
reporta los datos adjuntos sobre concentración de ozono x (en ppm)
y concentración de carbono secundaria y (en µg/m3 ).

a) Obtener el diagrama de dispersión para x e y .

b) Obtener la covarianza y el coeficiente de correlación


muestrales para x e y .

c) Interpretar el coeficiente de correlación muestral obtenido en


el apartado b).

D. Ayma, M. Carmona y R. Guerrero UCN 11/1


Solución Ejemplo 1
Primero, crearemos los siguientes vectores numéricos:

x <- c(0.066,0.008,0.120,0.05,0.162,0.186,0.057,0.1)
y <- c(4.6,11.6,9.5,6.3,13.8,15.4,2.5,11.8)
Luego, obtenemos el diagrama de dispersión utilizando la siguiente
lı́nea de código:

plot(x, y, pch=19, xlab="Concentración de ozono",


ylab="Concentración de carbono secundaria")
La covarianza y el coeficiente de correlación muestrales son:

cov(x,y) # 0.1721732
cor(x,y) # 0.6268163

D. Ayma, M. Carmona y R. Guerrero UCN 12/1


Regresión lineal simple
Un modelo de regresión lineal simple es una herramienta es-
tadı́stica que permite describir la relación entre las variables X e Y ,
el cual queda expresado como sigue:

Y = β0 + β1 X + .

Aquı́:

X Y es llamada variable respuesta o variable dependiente;

X X es llamada variable predictora o variable independiente;

X β0 y β1 son llamados coeficientes de regresión o parámetros


del modelo (β0 suele llamarse intercepto);

X  es un término de error, el cual es aleatorio (no observado) y


absorbe toda la variación en y que no es explicada por la
parte determinista del modelo β0 + β1 X .
D. Ayma, M. Carmona y R. Guerrero UCN 13/1
Regresión lineal simple

Para estimar los coeficientes de regresión β0 y β1 del modelo anterior


se debe considerar una muestra aleatoria de tamaño n para las varia-
bles X e Y , conformada por los pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
Dada la muestra anterior, y por medio del llamado método de
mı́nimos cuadrados (ver anexo para más detalles), se obtienen las
siguientes estimaciones de los coeficientes de regresión:
n n
1X 1X
β̂0 = yi − β̂1 xi = ȳ − β̂1 x̄
n n
i=1 i=1
Pn
(xi − x̄) (yi − ȳ ) (n − 1)sxy sxy
β̂1 = i=1Pn 2
= 2
= 2
i=1 (xi − x̄)
(n − 1)s x sx

D. Ayma, M. Carmona y R. Guerrero UCN 14/1


Regresión lineal simple

Una vez obtenidos β̂0 y β̂1 , podemos construir el llamado modelo


ajustado:
yb = β̂0 + β̂1 x,
donde yb es la variable respuesta predicha (o ajustada).
La ecuación anterior nos permitirá predecir/estimar el valor de la
variable respuesta en cualquier punto en el rango de los datos.
Gráficamente, esta ecuación representa una recta de regresión que
se puede sobreponer a un diagrama de dispersión para explicar la
relación subyacente entre X e Y .

D. Ayma, M. Carmona y R. Guerrero UCN 15/1


Trabajando en R/RStudio

El comando que permite realizar regresión simple en R/RStudio es


lm(). A continuación, se muestran algunos códigos de interés:
• ajuste <- lm(y ∼ x) # permite el ajuste del modelo lineal
junto al cómputo de otros elementos de interés.
• ajuste$coefficients # entrega los coeficientes estimados.
• lines(x, ajuste$fitted.values, col="red", lwd=2)
# permite añadir la recta de regresión al diagrama de
dispersión (col y lwd indican el color y grosor de la recta).
A continuación, veremos el uso de estos comandos mediante un
ejemplo.

D. Ayma, M. Carmona y R. Guerrero UCN 16/1


Ejemplo 2
El concreto sin finos, hecho de un agregado grueso uniformemente
graduado y una pasta de cemento y agua, es benéfico en áreas
propensas a lluvias intensas debido a sus excelentes propiedades de
drenaje. En el artı́culo “Pavement Thickness Design for No-Fines
Concrete Parking Lots” (J. of Transportation Engr., 1995: 476-
484) se estudió cómo la y = porosidad (%) está relacionada con
el x = peso unitario (pcf) en especı́menes de concreto. Los datos
analizados en el estudio fueron los siguientes:
Peso (x) Porosidad (y ) Peso (x) Porosidad (y ) Peso (x) Porosidad (y )
99,0 28,8 107,0 21,5 113,6 16,0
101,1 27,9 108,7 20,9 113,8 16,7
102,7 27,0 110,8 19,6 115,1 13,0
103,0 25,2 112,1 17,1 115,4 13,6
105,4 22,8 112,4 18,9 120,0 10,8

Estos datos están en el archivo Excel “concreto.xlsx” en Campus


Virtual.
D. Ayma, M. Carmona y R. Guerrero UCN 17/1
Ejemplo 2
Considerando el modelo y = β0 + β1 x +  para los datos anteriores,
se pide realizar lo siguiente:

a) Obtener los coeficientes de regresión estimados mediante las


fórmulas dadas en la diapositiva 14.

b) Utilizar la función lm() de R/RStudio para obtener los


coeficientes de regresión estimados y verificar que son iguales
a los obtenidos en el apartado a).

c) Obtener el diagrama de dispersión para x e y y sobreponer la


recta de regresión.

d) Escribir la ecuación del modelo ajustado correspondiente.


Luego, con esta ecuación predecir la porosidad para
especı́menes de concreto con un peso unitario de 112.

D. Ayma, M. Carmona y R. Guerrero UCN 18/1


Solución Ejemplo 2
a) Leemos los datos y calculamos los coeficientes estimados
como sigue:

library(readxl)
datos <- read excel("concreto.xlsx")
x <- datos$peso
y <- datos$porosidad
beta1 <- cov(x,y)/var(x)
beta1 # -0.9047307
beta0 <- mean(y)-beta1*mean(x)
beta0 # 118.9099

b) Realizamos el ajuste en R/Rstudio como sigue:

ajuste <- lm(y ∼ x)


ajuste$coefficients

D. Ayma, M. Carmona y R. Guerrero UCN 19/1


Solución Ejemplo 2

c) Los códigos que generan lo pedido son los siguientes:

plot(x, y, pch=19, xlab="Peso unitario",


ylab="Porosidad")
lines(x, ajuste$fitted.values, col="red", lwd=2)

d) La ecuación del modelo ajustado es:

ŷ = 118, 9099 − 0, 9047x,

donde ŷ es la porosidad predicha en el rango de los datos.


Ası́, para especı́menes de concreto con un peso unitario de
112 se pronostica una porosidad aproximada de 17,6%. Esto
se obtiene al reemplazar x por 112 en la ecuación anterior.

D. Ayma, M. Carmona y R. Guerrero UCN 20/1


Estimación por el método de mı́nimos cuadrados
Los coeficientes de mı́nimos cuadrados β̂0 y β̂1 son las cantidades
que minimizan la suma:
n 
X 2
S= yi − (β̂0 + β̂1 xi )
i=1

Se calculan estos valores mediante derivadas parciales de S con res-


pecto a β̂0 y β̂1 e igualándolas a 0. Por lo tanto, β̂0 y β̂1 son las
cantidades que resuelven las ecuaciones simultáneas:
n
∂S X
=− 2(yi − β̂0 − β̂1 xi ) = 0
∂ β̂0 i=1
n
∂S X
=− 2xi (yi − β̂0 − β̂1 xi ) = 0
∂ β̂1 i=1

D. Ayma, M. Carmona y R. Guerrero UCN 21/1


Estimación por el método de mı́nimos cuadrados
Estas cantidades se pueden escribir como un sistema de ecuaciones
lineales con dos incógnitas:
n n
!
X X
nβ̂0 + xi β̂1 = yi (1)
i=1 i=1
n n n
! !
X X X
xi β̂0 + xi2 β̂1 = xi yi (2)
i=1 i=1 i=1

Despejando β̂0 de la ecuación (??), se obtiene:


n n
1X 1X
β̂0 = yi − β̂1 xi = ȳ − β̂1 x̄
n n
i=1 i=1

D. Ayma, M. Carmona y R. Guerrero UCN 22/1


Estimación por el método de mı́nimos cuadrados

Por otro lado, sustituyendo ȳ − β̂1 x̄ en lugar de β̂0 en la ecuación


(??), se tiene que:
n n n
! !
X X X
xi (ȳ − β̂1 x̄) + xi2 β̂1 = xi yi (3)
i=1 i=1 i=1

Despejando β̂1 de la ecuación (??), obtenemos:

( ni=1 xi yi ) − nx̄ ȳ
P
β̂1 = Pn 2

2
.
i=1 xi − nx̄
Pn
x̄)(yi − ȳ ) = ( ni=1 xi yi ) − nx̄ ȳ y
P
Se puede
Pn probar que i=1 (xi −
n
que i=1 (xi − x̄)2 = 2 2
P 
i=1 xi − nx̄ , mostrando ası́ la validez de
las expresiones dadas en la diapositiva 14.

D. Ayma, M. Carmona y R. Guerrero UCN 23/1

You might also like