Slides 06 Lab R

Laboratorio 6:
Correlación y regresión lineal simple
D. Ayma, M. Carmona y R. Guerrero

Facultad de Ciencias
Departamento de Matemáticas
Estadı́stica DAMA 00312/00336

Ingenierı́as de Base Cientı́fica y Geologı́a
UCN Sede Antofagasta
Contenidos
D. Ayma, M. Carmona y R. Guerrero UCN 2/1

Introducción
En este laboratorio se introducirán algunos elementos básicos del

llamado modelo de regresión lineal simple.
Esta herramienta estadı́stica es empleada frecuentemente en diferen-
tes aplicaciones de Ingenierı́a y Ciencias, por lo que es fundamental
su entendimiento para un uso apropiado de la misma.
Antes de introducir el modelo de regresión lineal simple, veremos los
siguientes elementos:
• Diagrama de dispersión (o scatterplot)
• Covarianza muestral
• Coeficiente de correlación muestral

Diagrama de dispersión o scatterplot
Un diagrama de dispersión o scatterplot se utiliza para visualizar

la relación entre dos variables cuantitativas denominadas x e y .
Este diagrama consiste de dos ejes coordenados (una para cada
variable cuantitativa) en el que se representan los pares de datos
(x1 , y1 ), (x2 , y2 ),...,(xn , yn ), usualmente por medio de puntos.
A continuación, se presentan algunos ejemplos de diagramas de dis-
persión.

Se piensa que la pureza del oxı́geno producido con un proceso de
fraccionamiento está relacionada con el porcentaje de hidrocarburos
en el condensador principal de la unidad de procesamiento. A con-
tinuación, se muestran gráficamente los datos de 20 muestras:
●
98
● ●
96
●
●
●
Pureza del oxígeno (%)
94
●
92
●
●
90
● ●
88
● ●
●
●
86
0.9 1.0 1.1 1.2 1.3 1.4 1.5
Porcentaje de hidrocarburos

A continuación, se presentan los resultados de 11 muestras analiza-
das quı́micamente por plomo, cobre y arsénico correspondientes a
una flotación de un mineral polimetálico:
5 10 15 20
● ●●
70
● ●
● ●
60
● ●
50
Plomo ●
●
●
●
● ●
● ●
40
● ●
30
● ●
● ●
20
15
●
Cobre ●
10
● ● ●
● ●●
5
● ● ●●
● ●
● ●
● ●●●
6
● ●
5
4
● ●
Arsenico
3
2
● ●
● ● ●●
● ●
● ●
● ● ● ●
1
●
● ●
●
30 40 50 60 70 1 2 3 4 5 6

Covarianza muestral
La covarianza muestral entre dos variables cuantitativas x e y

viene dado por:
n
1 X
sx,y = (xi − x̄) (yi − ȳ ) ,
n−1
i=1
y mide el sentido de la relación lineal entre x e y .

La interpretación de la covarianza muestral es la misma que la de la
covarianza vista en clases.
La covarianza muestral sx,y tiene un gran inconveniente y es que
depende de las unidades de medición de x e y .

Coeficiente de correlación muestral
Hay una medida alternativa a sx,y , la cual es libre de escala, lla-

mado coeficiente de correlación (de Pearson) muestral. Este
coeficiente viene dado por:
sx,y
rx,y =
sx sy
y mide el sentido y la fuerza de la relación lineal entre x e y (aquı́ sx

denota la desviación estándar muestral de x y sy denota la desviación
estándar muestral de y ). Una propiedad importante de rx,y es la
siguiente:
−1 ≤ rx,y ≤ 1
La interpretación del coeficiente de correlación muestral es la misma
que la de la correlación vista en clases.

Coeficiente de correlación muestral
A continuación, se muestran varios diagramas de dispersión ejem-
plificando distintos valores de rx,y :
Fuente: Daniel Garavito (https://rpubs.com/bogotan)

Trabajando en R/RStudio
Los elementos anteriores se pueden obtener en R/RStudio utilizando
los siguientes comandos:
• Diagrama de dispersión (o scatterplot):
plot(x, y, pch=19, xlab="Titulo eje x",
ylab="Titulo eje y", main="Titulo grafico")
• Covarianza muestral sx,y :
cov(x,y)
• Coeficiente de correlación muestral rx,y :
cor(x,y)
Aquı́, x e y son dos vectores numéricos creados previamente, los

cuales corresponden a mediciones de las variables cuantitativas x e
y . A continuación, se ilustrará el uso de estos comandos mediante
un ejemplo.
Ejemplo 1
En algunos lugares, existe una fuerte asociación entre las concen-
traciones de dos contaminantes diferentes. Cierto artı́culo cientı́fico
reporta los datos adjuntos sobre concentración de ozono x (en ppm)
y concentración de carbono secundaria y (en µg/m3 ).
a) Obtener el diagrama de dispersión para x e y .
b) Obtener la covarianza y el coeficiente de correlación

muestrales para x e y .
c) Interpretar el coeficiente de correlación muestral obtenido en

el apartado b).

Solución Ejemplo 1
Primero, crearemos los siguientes vectores numéricos:
x <- c(0.066,0.008,0.120,0.05,0.162,0.186,0.057,0.1)
y <- c(4.6,11.6,9.5,6.3,13.8,15.4,2.5,11.8)
Luego, obtenemos el diagrama de dispersión utilizando la siguiente
lı́nea de código:
plot(x, y, pch=19, xlab="Concentración de ozono",

ylab="Concentración de carbono secundaria")
La covarianza y el coeficiente de correlación muestrales son:
cov(x,y) # 0.1721732
cor(x,y) # 0.6268163

Regresión lineal simple
Un modelo de regresión lineal simple es una herramienta es-
tadı́stica que permite describir la relación entre las variables X e Y ,
el cual queda expresado como sigue:
Y = β0 + β1 X + .
Aquı́:
X Y es llamada variable respuesta o variable dependiente;
X X es llamada variable predictora o variable independiente;
X β0 y β1 son llamados coeficientes de regresión o parámetros

del modelo (β0 suele llamarse intercepto);
X es un término de error, el cual es aleatorio (no observado) y

absorbe toda la variación en y que no es explicada por la
parte determinista del modelo β0 + β1 X .
Para estimar los coeficientes de regresión β0 y β1 del modelo anterior

se debe considerar una muestra aleatoria de tamaño n para las varia-
bles X e Y , conformada por los pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
Dada la muestra anterior, y por medio del llamado método de
mı́nimos cuadrados (ver anexo para más detalles), se obtienen las
siguientes estimaciones de los coeficientes de regresión:
n n
1X 1X
β̂0 = yi − β̂1 xi = ȳ − β̂1 x̄
n n
i=1 i=1
Pn
(xi − x̄) (yi − ȳ ) (n − 1)sxy sxy
β̂1 = i=1Pn 2
= 2
= 2
i=1 (xi − x̄)
(n − 1)s x sx

Una vez obtenidos β̂0 y β̂1 , podemos construir el llamado modelo

ajustado:
yb = β̂0 + β̂1 x,
donde yb es la variable respuesta predicha (o ajustada).
La ecuación anterior nos permitirá predecir/estimar el valor de la
variable respuesta en cualquier punto en el rango de los datos.
Gráficamente, esta ecuación representa una recta de regresión que
se puede sobreponer a un diagrama de dispersión para explicar la
relación subyacente entre X e Y .

Trabajando en R/RStudio
El comando que permite realizar regresión simple en R/RStudio es

lm(). A continuación, se muestran algunos códigos de interés:
• ajuste <- lm(y ∼ x) # permite el ajuste del modelo lineal
junto al cómputo de otros elementos de interés.
• ajuste$coefficients # entrega los coeficientes estimados.
• lines(x, ajuste$fitted.values, col="red", lwd=2)
# permite añadir la recta de regresión al diagrama de
dispersión (col y lwd indican el color y grosor de la recta).
A continuación, veremos el uso de estos comandos mediante un
ejemplo.

Ejemplo 2
El concreto sin finos, hecho de un agregado grueso uniformemente
graduado y una pasta de cemento y agua, es benéfico en áreas
propensas a lluvias intensas debido a sus excelentes propiedades de
drenaje. En el artı́culo “Pavement Thickness Design for No-Fines
Concrete Parking Lots” (J. of Transportation Engr., 1995: 476-
484) se estudió cómo la y = porosidad (%) está relacionada con
el x = peso unitario (pcf) en especı́menes de concreto. Los datos
analizados en el estudio fueron los siguientes:
Peso (x) Porosidad (y ) Peso (x) Porosidad (y ) Peso (x) Porosidad (y )
99,0 28,8 107,0 21,5 113,6 16,0
101,1 27,9 108,7 20,9 113,8 16,7
102,7 27,0 110,8 19,6 115,1 13,0
103,0 25,2 112,1 17,1 115,4 13,6
105,4 22,8 112,4 18,9 120,0 10,8
Estos datos están en el archivo Excel “concreto.xlsx” en Campus

Virtual.
Ejemplo 2
Considerando el modelo y = β0 + β1 x + para los datos anteriores,
se pide realizar lo siguiente:
a) Obtener los coeficientes de regresión estimados mediante las

fórmulas dadas en la diapositiva 14.
b) Utilizar la función lm() de R/RStudio para obtener los

coeficientes de regresión estimados y verificar que son iguales
a los obtenidos en el apartado a).
c) Obtener el diagrama de dispersión para x e y y sobreponer la

recta de regresión.
d) Escribir la ecuación del modelo ajustado correspondiente.

Luego, con esta ecuación predecir la porosidad para
especı́menes de concreto con un peso unitario de 112.

a) Leemos los datos y calculamos los coeficientes estimados
como sigue:
library(readxl)
datos <- read excel("concreto.xlsx")
x <- datos$peso
y <- datos$porosidad
beta1 <- cov(x,y)/var(x)
beta1 # -0.9047307
beta0 <- mean(y)-beta1*mean(x)
beta0 # 118.9099
b) Realizamos el ajuste en R/Rstudio como sigue:
ajuste <- lm(y ∼ x)

ajuste$coefficients

c) Los códigos que generan lo pedido son los siguientes:
plot(x, y, pch=19, xlab="Peso unitario",

ylab="Porosidad")
lines(x, ajuste$fitted.values, col="red", lwd=2)
d) La ecuación del modelo ajustado es:
ŷ = 118, 9099 − 0, 9047x,
donde ŷ es la porosidad predicha en el rango de los datos.

Ası́, para especı́menes de concreto con un peso unitario de
112 se pronostica una porosidad aproximada de 17,6%. Esto
se obtiene al reemplazar x por 112 en la ecuación anterior.

Estimación por el método de mı́nimos cuadrados
Los coeficientes de mı́nimos cuadrados β̂0 y β̂1 son las cantidades
que minimizan la suma:
n
X 2
S= yi − (β̂0 + β̂1 xi )
i=1
Se calculan estos valores mediante derivadas parciales de S con res-

pecto a β̂0 y β̂1 e igualándolas a 0. Por lo tanto, β̂0 y β̂1 son las
cantidades que resuelven las ecuaciones simultáneas:
n
∂S X
=− 2(yi − β̂0 − β̂1 xi ) = 0
∂ β̂0 i=1
n
∂S X
=− 2xi (yi − β̂0 − β̂1 xi ) = 0
∂ β̂1 i=1

Estas cantidades se pueden escribir como un sistema de ecuaciones
lineales con dos incógnitas:
n n
!
X X
nβ̂0 + xi β̂1 = yi (1)
i=1 i=1
n n n
! !
X X X
xi β̂0 + xi2 β̂1 = xi yi (2)
i=1 i=1 i=1
Despejando β̂0 de la ecuación (??), se obtiene:

n n
1X 1X
β̂0 = yi − β̂1 xi = ȳ − β̂1 x̄
n n
i=1 i=1

Por otro lado, sustituyendo ȳ − β̂1 x̄ en lugar de β̂0 en la ecuación

(??), se tiene que:
n n n
! !
X X X
xi (ȳ − β̂1 x̄) + xi2 β̂1 = xi yi (3)
i=1 i=1 i=1
Despejando β̂1 de la ecuación (??), obtenemos:
( ni=1 xi yi ) − nx̄ ȳ
P
β̂1 = Pn 2

2
.
i=1 xi − nx̄
Pn
x̄)(yi − ȳ ) = ( ni=1 xi yi ) − nx̄ ȳ y
P
Se puede
Pn probar que i=1 (xi −
n
que i=1 (xi − x̄)2 = 2 2
P
i=1 xi − nx̄ , mostrando ası́ la validez de
las expresiones dadas en la diapositiva 14.

Slides 06 Lab R

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Slides 06 Lab R

Uploaded by

Copyright:

Available Formats

Laboratorio 6:

Correlación y regresión lineal simple

D. Ayma, M. Carmona y R. Guerrero

Estadı́stica DAMA 00312/00336

D. Ayma, M. Carmona y R. Guerrero UCN 2/1

En este laboratorio se introducirán algunos elementos básicos del

• Coeficiente de correlación muestral

D. Ayma, M. Carmona y R. Guerrero UCN 3/1

Un diagrama de dispersión o scatterplot se utiliza para visualizar

D. Ayma, M. Carmona y R. Guerrero UCN 4/1

0.9 1.0 1.1 1.2 1.3 1.4 1.5

D. Ayma, M. Carmona y R. Guerrero UCN 5/1

D. Ayma, M. Carmona y R. Guerrero UCN 6/1

La covarianza muestral entre dos variables cuantitativas x e y

y mide el sentido de la relación lineal entre x e y .

D. Ayma, M. Carmona y R. Guerrero UCN 7/1

Hay una medida alternativa a sx,y , la cual es libre de escala, lla-

y mide el sentido y la fuerza de la relación lineal entre x e y (aquı́ sx

D. Ayma, M. Carmona y R. Guerrero UCN 8/1

Fuente: Daniel Garavito (https://rpubs.com/bogotan)

D. Ayma, M. Carmona y R. Guerrero UCN 9/1

Aquı́, x e y son dos vectores numéricos creados previamente, los

a) Obtener el diagrama de dispersión para x e y .

b) Obtener la covarianza y el coeficiente de correlación

c) Interpretar el coeficiente de correlación muestral obtenido en

D. Ayma, M. Carmona y R. Guerrero UCN 11/1

plot(x, y, pch=19, xlab="Concentración de ozono",

D. Ayma, M. Carmona y R. Guerrero UCN 12/1

X Y es llamada variable respuesta o variable dependiente;

X X es llamada variable predictora o variable independiente;

X β0 y β1 son llamados coeficientes de regresión o parámetros

X  es un término de error, el cual es aleatorio (no observado) y

Para estimar los coeficientes de regresión β0 y β1 del modelo anterior

D. Ayma, M. Carmona y R. Guerrero UCN 14/1

Una vez obtenidos β̂0 y β̂1 , podemos construir el llamado modelo

D. Ayma, M. Carmona y R. Guerrero UCN 15/1

El comando que permite realizar regresión simple en R/RStudio es

D. Ayma, M. Carmona y R. Guerrero UCN 16/1

Estos datos están en el archivo Excel “concreto.xlsx” en Campus

a) Obtener los coeficientes de regresión estimados mediante las

b) Utilizar la función lm() de R/RStudio para obtener los

c) Obtener el diagrama de dispersión para x e y y sobreponer la

d) Escribir la ecuación del modelo ajustado correspondiente.

D. Ayma, M. Carmona y R. Guerrero UCN 18/1

b) Realizamos el ajuste en R/Rstudio como sigue:

ajuste <- lm(y ∼ x)

D. Ayma, M. Carmona y R. Guerrero UCN 19/1

c) Los códigos que generan lo pedido son los siguientes:

plot(x, y, pch=19, xlab="Peso unitario",

d) La ecuación del modelo ajustado es:

ŷ = 118, 9099 − 0, 9047x,

donde ŷ es la porosidad predicha en el rango de los datos.

D. Ayma, M. Carmona y R. Guerrero UCN 20/1

Se calculan estos valores mediante derivadas parciales de S con res-

D. Ayma, M. Carmona y R. Guerrero UCN 21/1

Despejando β̂0 de la ecuación (??), se obtiene:

D. Ayma, M. Carmona y R. Guerrero UCN 22/1

Por otro lado, sustituyendo ȳ − β̂1 x̄ en lugar de β̂0 en la ecuación

Despejando β̂1 de la ecuación (??), obtenemos:

D. Ayma, M. Carmona y R. Guerrero UCN 23/1

You might also like

X es un término de error, el cual es aleatorio (no observado) y