You are on page 1of 22

Estadistica ADE/ECO/ADE-DRET 2017

Guia 7 – Tema 7: Inferència per la regressió Lineal Simple

Continguts

Material
1. Aquest document
2. De la bibliografia:
Newbold: Capı́tol 12.
Moore: Capı́tols 2 i 10.

Contingut d’aquest document

Índex
1 Introducció històrica 2

2 Correlació 3
2.1 Test d’hipòtesis de la correlació . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Regressió descriptiva 5
3.1 Ajustar una recta a les dades: Mètodes dels mı́nims quadrats . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Regressió descriptiva amb R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4 Inferència per la regressió 6


4.1 Hipòtesis estàndards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2 Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3 Distribució de b: intervals de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.4 Contrast d’hipòtesis pel pendent b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5 ANàlisi de la VAriància per la regressió. 10


2
5.1 Coeficient de determinació R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

6 Predicció 11

7 Exercicis de correlació 12

8 Exercicis de regressió 15

All models are wrong, but some are useful.


George Box.
1 Introducció històrica
Fins a aquest punt, hem tractat quasi exclusivament amb problemes d’inferència per una sola variable. En apli-
cacions a l’economia estarem interessats en la relació entre dos o més variables. Ja hem après eines d’estadı́stica
descriptiva per regressions lineals simples: diagrames de dispersió, la regressió per mı́nims quadrats i la corre-
lació. Aquests són preliminars essencials per fer inferència de la regressió lineal simple. L’anàlisi de la regressió
és molt utilitzat per la predicció i la previsió.

La primera forma de regressió1 va ser el mètode de mı́nims quadrats publicat per Legendre al 1805 i per Gauss al
1809. El terme ”regressió”va ser posat per Francis Galton al segle XIX per descriure fenòmens biològics. Va ser el
treball pioner de Sir Francis Galton al 1880 que va donar lloc a la tècnica. L’idea original va ser un resultat directe
d’un experiment amb pèsols d’olor. Galton havia observat que les llavors de progènies amb pares amb llavors
més pesants que la mitjana també eren més pesants que la mitjana, però la diferència no era tan pronunciada. I
hi havia el mateix efecte per llavors més lleugeres que la mitjana. Galton va anomenar aquest fenomen reversió
i va escriure que el pes mitjà ”revertia o retrocedeix a la mediocritat”.

L’anàlisi de la regressió va ser estès posteriorment per Udny Yule i Karl Pearson a un context més estadı́stic.
L’assumpció es va afeblir amb els treball de R.A Fisher (1922, 1925). Els mètodes de regressió continuen sent una
àrea de recerca activa: Clive W.J. Granger, (Premi Nobel en Economia al 2003)2 és famós pel seu estudi sobre una
extensió de la regressió: causalitat (Granger-causalitat) i cointegració.
Exemple 1. Estadı́stics de casaments i divorcis.
A la Taula 1 trobem les dades del número de divorcis per any des de 1975 a 1980. I podem veure a la gràfica 1
una representació de les mateixes dades.

Estadı́stics de casaments i divorcis.

Anys 1975 1976 1977 1978 1979 1980


Divorcis(1000) 120.5 126.7 129.1 143.7 138.7 148.3

Taula 1: Office of Population Censuses and Surveys, HMSO

Veiem que hi ha una relació lineal positiva, el gràfic mostra una tendència creixent.


145


140


divorcis

135
130


125
120

1975 1976 1977 1978 1979 1980

anys

Figura 1: Office of Population Censuses and Surveys, HMSO

1 Veieu, per exemple, Stigler, Stephen M. (1999) Statistics on the Table: The History of Statistical Concepts and Methods. Harvard University

Press.
2 Més detalls a http://nobelprice.org

2
Exemple 2. En la Gràfica 2 veiem les dades de les temperatures i la humitat diàries des de 1/5/2000 al 30/11/2000.
Estem interessats en la relació entre la temperatura i la humitat. La gràfica evidencia una associació lineal
negativa entre les dues variables.

90
● ● ●
● ● ●
● ●
● ●
● ● ●
● ● ● ● ●

● ●● ● ●
● ● ● ●●
● ● ● ●●
● ●●

●●

80
● ● ● ● ● ●
● ● ●
● ● ●
● ●● ●

● ● ● ● ●
● ●● ●●
● ● ● ● ●
● ●● ● ●
●● ● ●

h.rel

70

● ● ● ● ●
●● ●


● ● ●●
●● ●●● ● ●
● ● ● ● ● ●●
● ● ● ● ● ●
● ●● ● ●● ●
● ● ●● ● ● ●
● ● ●● ● ●
● ●● ● ● ● ●
60

● ● ●●●● ●●
● ●
● ● ●● ●
● ● ● ●●● ●
● ●● ● ●● ● ●
● ● ●
● ● ●
● ●●
● ● ●

●●
50

5 10 15 20 25

temp

Figura 2: Relació de les temperatures i la humitat.

2 Correlació
Exemple 3. Calculem la correlació de les dades de l’exemple anterior, Exemple 2.

thr<-read.table(’http://pascal.upf.edu/estad/dades/thr.txt’)
round(cor(thr),4) arrodonir resultats a 4 decimals
temp h.rel
temp 1.0000 -0.8248
h.rel -0.8248 1.0000

En aquesta matriu, -0.82 és la correlació entre les dues variables. La correlació mesura la direcció i la força de
l’associació lineal entre dos variables quantitatives. El coeficient de correlació, ρ entre X i Y es defineix com
cov(X, Y )
ρ= p = cov(X ∗ , Y ∗ ),
V (X)V (Y )
on cov(X, Y ) = E((X − EX)(Y − EY )) = E(XY ) − E(X)E(Y ) és la covariància (amb R: cov(thr)) i X ∗ , Y ∗
són les versions estandarditzades de les variables inicials. Recordem que la correlació −1 ≤ ρ ≤ 1. Com que la
correlació utilitza els valors de les observacions estandarditzats, aquesta no canvia quan es canvien les unitats
de mesurament. La correlació és només un número, i no té unitats de mesurament. Comproveu els gràfics de la
Figura 3.

A inferència per anar de la mostra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) a la població, considerem el coeficient de corre-
lació mostral: Pn
cov(X,
dY) (xi − x̄)(yi − ȳ)
ρb = r = = pPn i=1 Pn ,
sx sy i=1 (xi − x̄)
2
i=1 (yi − ȳ)
2

on Pn
2 (xi − x̄)2
sx = i=1 .
n−1

3
r = 0 no vol dir que no hagi relació sino que no hi ha relació lineal

Figura 3: Mostres d’onservacions de distribucions conjuntes amb diferents correlacions.

2.1 Test d’hipòtesis de la correlació


En aquest cas, la nostra hipòtesi nul·la habitual és:

H0 : ρ = 0

per contrastar la no relació (lineal) entre un parell de variables. Contrastem H0 contra l’alternativa:

H1 : ρ 6= 0.

Assumim que X i Y són variables Normal, i que H0 és certa. Llavors el coeficient de correlació mostral r satisfà:
r
n−2
EC = r · ∼ tn−2 .
1 − r2
I per tant, el p-valor per un r
n−2
ECobs = r ·
1 − r2
és 2 · P (ECobs < tn−2 ). I la regla de decisió és:
r
n − 2
Reject H0 si r · > tn−2, α2 .

1 − r2

Exemple 4. Utilitzant les dades de l’Exemple 2, tenim

4
cor.test(thr$temp,thr$h.rel)

Pearson’s product-moment correlation

data: thr$temp and thr$h.rel


t = -20.263, df = 193, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8650292 -0.7739445
sample estimates:
cor
-0.8247647

Clarament, amb un p-valor més petit que 2.2 · 10−16 rebutgem H0 . Hi ha evidències estadı́stiques per dir que les
dues variables tenen alguna relació lineal.

3 Regressió descriptiva
Parlem ara de la regressió descriptiva. En primer lloc ens fixem en com trobar la regressió: estimació per mı́nims
quadrats. En segon lloc, parlarem d’algunes instruccions de R molt útils en aquest context.

3.1 Ajustar una recta a les dades: Mètodes dels mı́nims quadrats
Ajustar una recta a les dades vol dir dibuixar una recta que sigui el més propera possible als punts. Hi ha
diverses maneres per aconseguir una recta ”el més propera possible”. El mètode més comú és la regressió per
mı́nims quadrats3 . Aquesta recta fa que la suma dels quadrats de les distàncies verticals de les dades a la recta
sigui el més petita possible.

Definim l’error ei = yi − (a + b · xi ), llavors


n
X n
X
min e2i = min (yi − (a + b · xi ))2 .
a,b a,b
i=1 i=1

De les condicions de primer ordre obtenim


Pn n n
∂ i=1 e2i X X
0 = = −2 yi + 2na + 2b xi
∂a i=1 i=1
Pn n n n
∂ i=1 e2i X X X
0 = = −2 xi yi + 2a xi + 2b x2i
∂b i=1 i=1 i=1

i podem arribar fàcilment a la solució


Pn Pn Pn
n xi yi − i=1 xi i=1 yi
i=1 sy
b= Pn Pn 2 =r· ,
2
n i=1 xi − ( i=1 xi ) sx

on r és la correlació i sx , sy les desviacions estàndards de x i y respectivament. Llavors tenim que el terme
independent és:
a = ȳ − b · x̄.
sy sx
Observeu que byx = r · sx 6= r · sy = bxy . Per tal de no complicar la notació utilitzem només b.
3 Developed by Laplace (1812) Théorie analytique des probabilités. Carl Friedrich Gauss is credited with developing the fundamentals of the

basis for least-squares analysis in his Theory of Celestial Movement.

5
L’estimació de σ 2 , variància residual o Error de Mitjana Quadràtica (MSE)
Pn 2
Pn 2
i=1 (yi − (a + b · xi )) e
2
se = σ 2
b = M SE = = i=1 i .
n−2 n−2
A inferència podem fer servir MSE, s2e o σ
b2 . En parlarem més endavant.

3.2 Regressió descriptiva amb R


Exemple 5. Anem a repassar la regressió descriptiva amb R amb l’exemple 1.

anys<-1975:1980
divorcis<-c(120.5,126.7,129.1,143.7,138.7,148.3)
div.lm=lm(divorcis˜anys) # lm s’utilitza per ajustar al model lineal

names(div.lm) # tot el que tenim al nostre output


[1] "coefficients" "residuals" "effects" "rank" "fitted.values" "assign" "qr"
"df.residual" "xlevels" "call" "terms" "model"

div.lm
Call:
lm(formula = divorcis ˜ anys)

Coefficients:
(Intercept) anys
-10577.900 5.417

4 Inferència per la regressió


En aquest apartat presentarem alguns mètodes per fer inferència per la regressió. Comencem presentant les
hipòtesis i el teorema de Gauss-Markov. Després, aplicarem tota la inferència que ja sabem (intervals de confiança
i test d’hipòtesis) a la regressió. Ens centrarem en l’estimació del pendent b, molt usat pels economistes. Si voleu
aprofundir en l’estimació de l’intercepte a, repasseu la bibliografia, per exemple Moore o Newbold.

4.1 Hipòtesis estàndards


Denotem la recta de regressió de la població per:

Yi = α + β · xi + εi ,

noteu que utilitzem les lletres gregues per referir-nos a la població. Les següents hipòtesis són les que s’utilitzen
més habitualment:

1. Les xi són un número fixat o independent del terme d’error ε.


2. E(εi ) = 0.
3. E(ε2i ) = σ 2 .
4. E(εi εj ) = 0 per tot i 6= j.

Si la mida mostral és petita, demanarem també que els errors estiguin normalment distribuı̈ts.

6
4.2 Teorema de Gauss-Markov
El teorema de Gauss-Markov ens dóna una motivació molt potent per estimar els paràmetres del model de
regressió pel mètode de mı́nims quadrats.

Teorema de Gauss-Markov: Denotem la recta de regressió de la població per:

Yi = α + β · xi + εi ,

Suposem que les hipòtesis de l’apartat anterior 1-4 s’assoleixen. Llavors, de tots els possibles estimadors de α i
β, els estimadors mı́nims quadràtics són els que tenen una variància més petita.

4.3 Distribució de b: intervals de confiança


Com que estem interessats en β, i podem utilitzar b com un estimador de β, un dels nostres interessos és conèixer
la distribució de b.

No és difı́cil veure que:

1. E(b) = β, per tant, és un bn estimador de β.


Pn
s2e e2
2. L’error estàndard és sb , on s2b = Pn 2 = Pi=1 i
(n−2) n 2.
i=1 (xi −x̄) i=1 (xi −x̄)

3. Sota les hipòtesis que hem donat a abans, incloent la hipòtesi de normalitat quan la mostra és petita, tenim

b−β
∼ tn−2 .
sb

Utilitzant això, l’interval de confiança utilitzant el mètode habitual:

CI(β) = b ± t1− α2 sb .

Amb R, podem utilitzant la funció confint.


Exemple 6. Utilitzem les dades de l’exemple 2.

# heu d’anar exectuant lı́nia per lı́nia i observant els resultats.


# llegim les dades
thr<-read.table(’http://pascal.upf.edu/estad/dades/thr.txt’)
# fem un gràfic
plot(thr, pch=19)

#per comoditat, posem x i y a les variables


x<-thr$temp
y<-thr$h.rel
n<-length(x)

# calculem les desviacions i sumes de quadrats


desv.x<-x-mean(x)
desv.y<-y-mean(y)
SSxx<-sum(desv.x*desv.x)
SSyy<-sum(desv.y*desv.y)
SSxy<-sum(desv.x*desv.y)
r<-cor(x,y)

# coeficients de la recta de regressió y=a+bx

7
b<-SSxy/SSxx
a<-mean(y)-b*mean(x)
#ho comprovem
lm(y˜x)
#afegim la recta de regressió al gràfic anterior
abline(lm(y˜x)$coefficients)

# els errors, la seva suma de quadrats i la mitjana


y.hat<-a+b*x #valors ajustats
errs<-y-y.hat
SSE<-sum(errs*errs)
MSE<-SSE/n-2
s.e<-sqrt(MSE)

#interval de confiança i la comprovació


IC.beta<-b+qt(c(0.025,0.975),n-2)*s.e/sqrt(SSxx)
confint(lm(y˜x))

4.4 Contrast d’hipòtesis pel pendent b


Exemple 7. Si continuem amb l’exemple anterior

d<-lm(y˜x)
summary(d)

Call: lm(formula = y ˜ x)

Residuals:
Min 1Q Median 3Q Max
-12.6224 -4.9318 -0.7571 5.0788 13.5925

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 93.91921 1.28496 73.09 <2e-16
x -1.60539 0.07923 -20.26 <2e-16
---

Residual standard error: 5.916 on 193 degrees of freedom


Multiple R-squared: 0.6802, Adjusted R-squared: 0.6786
F-statistic: 410.6 on 1 and 193 DF, p-value: < 2.2e-16

En aquest cas, el p-valor per la hipòtesi nul·la H0 : β = 0 vs H1 : β 6= 0 és quasi zero, per tant, clarament
rebutgem H0 , la recta no és horitzontal i tenim una relació lineal. De fet, el pendent és negatiu. També podem
calcular:

# error estàndard de la b
s.b=sqrt(MSE/SSxx)
# EC_obs sota H_0
t.b<-b/s.b

Ara, introduı̈m la teoria. Seguim el mateix esquema que en els altres test d’hipòtesis:

1. Escriure les hipòtesis


H0 : β = β0
H1 : β 6 = β0

8
on, β0 és una constant, habitualment 0.
2. Decidir l’estadı́stic de contrast a utilitzar i la seva distribució sota H0
b − β0
EC = ∼ tn−2 .
sb

3. Calculem el valor de l’estadı́stic de contrast observat i el comparem amb el punt crı́tic o calculem el p-valor.
Rebutgem H0 si
α α
ECobs > qt(1 − , n − 2) or ECobs < −qt(1 − , n − 2).
2 2
Exemple 8. Continuem amb les dades de l’exemple 1, i la regressió descriptiva que hem fet a l’exemple 5.

summary(div.lm)

Call: lm(formula = divorcis ˜ anys)

Residuals:
1 2 3 4 5 6
-0.4571 0.3257 -2.6914 6.4914 -3.9257 0.2571

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.058e+04 1.908e+03 -5.544 0.00518
anys 5.417e+00 9.649e-01 5.614 0.00495
---

Residual standard error: 4.037 on 4 degrees of freedom


Multiple R-squared: 0.8874, Adjusted R-squared: 0.8592
F-statistic: 31.52 on 1 and 4 DF, p-value: 0.004947

En aquest cas, el p-valor per la hipòtesi nul·la és 0.00495, per tant, clarament rebutgem H0 , la recta no és horit-
zontal i tenim una relació lineal.


145


140


divorcis

135
130


125
120

1975 1976 1977 1978 1979 1980

anys

Figura 4: Gràfic de punts de les dades de divorcis amb la recta de regressió.

9
5 ANàlisi de la VAriància per la regressió.
El concepte bàsic de la recta de regressió , DADES=AJUSTAMENT+RESIDUS, es pot reescriure de la manera
següent:
yi − ȳ = ybi − ȳ + yi − ybi .
El primer terme és la variació total de la resposta (regressió) (SST), el segon terme, és la variació mitjana de la
resposta (SSR) i el tercer terme és el valor residual, error (SSE). Elevant al quadrat cada un d’aquests termes i
sumant per totes les n observacions, tenim l’equació SST = SSR + SSE
n
X n
X n
X
SST = (yi − ȳ)2 = yi − ȳ)2 +
(b (yi − ybi )2 .
i=1 i=1 i=1

Una altra vegada tenim:


Pn
• La variació total: SST = − ȳ)2 amb n − 1 graus de llibertat.
i=1 (yi
Pn
yi − ȳ)2 amb un grau de llibertat.
• La variació deguda a la part lineal del model, la regressió: SSR = i=1 (b
Pn
• Finalment, la variació deguda a les desviacions de la regressió: SSE = i=1 (yi − ybi )2 amb n − 2 graus de
llibertat.

Llavors considerem la mitjana quadràtica, MST, MSR i MSE.


Pn 2
Pn Pn
i=1 (yi − ȳ) yi − ȳ)2
i=1 (b (yi − ybi )2
M ST = , M SR = , M SE = i=1 .
n−1 1 n−2
M SR
Igual que vam fer amb l’ANOVA per comparar les mitjanes, considerem el F -ràtio M SE . Valors petits d’aquest
ràtio volen dir que la part lineal del model no recull la variació de la resposta. Mentre que valors grans d’aquest
ràtio signifique que gran part de la variació total és explicada per la part lineal del model.

F-test pel model de regressió. Tenim les següents hipòtesis

H0 : No hi ha dependència lineal entre x i y


H1 : hi ha alguna dependència lineal

o equivalentment,

H0 : β=0
H1 : β 6= 0
M SR
Sota H0 , l’estadı́stic F = M SE segueix una distribució F1,n−2 . Com que valors grans del ràtio estan a favor de
l’alternativa, tenim que
p − valor = P (F1,n−2 > Fobs ),
i per tant el punt crı́tic serà F1,n−2,α .

Podem resumir la taula ANOVA de la següent manera

Font de variabilitat Suma de quadrats g.ll Mitjana de quadrats F-ràtio


REGRESSIÓ SSR 1 M SR = SSR1
M SR
M SE
ERROR SSE n-2 M SE = SSE
n−2
TOTAL SST n-1

Exemple 9. Utilitzem altra vegada les dades de l’exemple 2.

10
thr<-read.table(’http://pascal.upf.edu/estad/dades/thr.txt’)
lmt<-lm(h.rel˜temp,data=thr)
anova(lmt)
Analysis of Variance Table

Response: h.rel
Df Sum Sq Mean Sq F value Pr(>F)
temp 1 14369.1 14369 410.57 < 2.2e-16 ***
Residuals 193 6754.6 35
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

5.1 Coeficient de determinació R2


És de particular importància la quantitat R2 = SSR SST que ens dóna la fracció de variació total de y que està
capturada per la part lineal del model. Es pot demostrar que (en el cas de regressió simple, amb una sola
variable independent), R2 = r2 , on r és el coeficient de correlació lineal de Pearson.
Exemple 10. Amb les dades de l’exemple 2. De la taula de l’exemple 7, veiem que R2 = 0.6786 però també el
14369.1
podem calcular amb la taula de l’exemple 9, amb el quocient 14369.1+6754.6 = 0.6802359.

6 Predicció
Donat el model y = α + β · x + ε i la seva versió ajustada y = a + b · y + e, hi ha dues qüestions interessat sobre
el nou valor de x:

1. Donat x0 , quina seria la resposta mitjana de y?


2. Donat x0 , quin seria el valor de y d’un individu que tingui aquest valor x0 ?

Utilitzant l’estimació puntual podem respondre a les dues preguntes amb a+b·x0 . Però, si pensem amb intervals
de confiança la resposta és diferent segons la pregunta (és més difı́cil d’estimar (2) que (1), per tant l’interval de
confiança de (2) serà més gran que el de (1)).

A R, preguntem per çonfiança”per respondre la primera pregunta i per ”predicció”per respondre la segona.

Podem veure en el següent gràfic els intervals de confiança i els intervals de predicció.

Figura 5: Gràfic de punts de les dades de divorcis amb la recta de regressiói els intervals.

11
Exemple 11. Utilitzant les dades de l’exemple 2, volem l’interval de confiança per la mitjana d’humitat donades
les temperatures de 5, 10, 15 i 20 graus centı́grads.

lmt<-lm(h.rel˜temp,data=thr)
#noves dades
new.temp<-data.frame(temp=c(5,10,15,20))
#interval de confiança per la mitjana
predict(lmt, newdata=new.temp, interval=’confidence’)
fit lwr upr
1 85.89226 84.07717 87.70734
2 77.86531 76.68757 79.04304
3 69.83836 69.00137 70.67534
4 61.81141 60.70011 62.92271

Obtenim per exemple, que per una temperatura de 5, l’interval és (84.08, 87.71). El valor ajustat és el valor
central, el valor predit.

Si ara busquem els intervals de confiança per un individu per la seva mesura d’humitat, sabent la seva tempe-
ratura.

#interval de confiança per la predicció de valors individuals


predict(lmt, newdata=new.temp, interval=’prediction’)
fit lwr upr
1 85.89226 74.08382 97.70069
2 77.86531 66.13792 89.59269
3 69.83836 58.14028 81.53643
4 61.81141 50.09050 73.53231

Com abans, la primera columna és l’estimació puntual (coincideixen), i les altres dues columnes formen els
intervals, que observem són més grans que els primers.

7 Exercicis de correlació
1. Les dades següents relacionen la temperatura d’ebullició de l’aigua (en graus centı́grads), amb la pressió
baromètrica (en mm de mercuri), i van ser preses pel fı́sic escocès Forbes l’any 1957 als Alps i a Escòcia

Pressió (mm): 768 769 770 773 774 775


Temperatura (C): 93.8 94.1 95.3 98.1 99.3 99.9
(a) Feu una gràfica de les dades, posant ”Pressió”a l’eix horitzontal i ”Temperatura”a l’eix vertical. (L’-
experimentador tria diverses localitzacions geogràfiques amb diferents pressions atmosfèriques i me-
sura, com a resposta, la temperatura d’ebullició de l’aigua).
Solució:
pres=c(768,769,770,773,774,775)
temp=c(93.8,94.1,95.3,98.1,99.3,99.9)
plot(pres,temo,main=’Forbes Data’, xlab=’Pressió’, ylab=’Temperatura’)
(b) Calculeu la variància de cadascuna d’aquestes variables i la seva covariància. Calculeu a partir d’a-
questes quantitats la correlació entre elles. Comproveu si la funció cor de R us dóna el mateix.
Solució: Calculem per una banda cor(pres,temp) i per l’altra
cov(pres,temp)/sqrt(var(pres)*var(temp)) i comprovem que surt el mateix.
(c) Si heu anomenat pres a les pressions i temp a les temperatures, calculeu ara les dades estandaritza-
des pres.est i temp.est. Podeu fer-ho amb la funció scale o bé directament restant la mitjana i
dividint per la desviació estàndard. Podeu comprovar que dóna el mateix.
Solució:

12
scale(temp)
scale(pres)
(temp-mean(temp))/sd(temp)
(pres-mean(pres))/sd(pres)
(d) Calculeu la covariància entre les variables estandarditzades i la seva correlació. Què observeu?
Solució: La covariància entre les dades estandarditzades és igual a la correlació de les variables,
originals o estandarditzades.
(e) La pressió està expressada en mil·lı́metres de mercuri. Actualment utilitzem més la unitat hectopascal
(1mmHg=1.3332 hPa). Si posem pres.hPa<-pres*1.3332, quina serà la nova covariància entre la
pressió i la temperatura? I la correlació?
Solució: Si multipliquem la pressió per 1.3332, la seva variància queda multiplicada per 1.33322 i la
covariància entre pres i temp queda multiplicada per 1.3332. La correlació no varia.
(f) La temperatura està expressada en graus centı́grads, però Forbes probablement les va prendre en
graus Fahrenheit. Recorda que la conversió de Celsius a Fahrenheit es pot fer amb F = 59 · C + 32.
Si expressem la temperatura en graus Fahrenheit, quina és la covariància entre la temperatura i la
pressió? I la correlació?
Solució: En multiplicar per 95 , la covariància també quedarà multiplicada per 95 , però la correlació no
canvia. Encara que sumem 32, ni la covariància ni la correlació canvien.
(g) El coeficient de correlació obtingut entre les dues variables, és significatiu? (α = 0.05). Digues, quina
és la prova de significació que fas, quines són les hipòtesis nul·la i alternativa, quins són els supòsits
que assumim sobre les variables i quin resultat obtens. Fes-ho primer amb càlculs i després comprova
si cor.test dóna el mateix.
Solució: Planegem
H0 : ρ = 0 vs H1 : ρ 6= 0.
Suposant que les variables incials són normals, sota H0
r
n−2
EC = r · ∼ tn−2 .
1 − r2
r=cor(pres,temp)
ec.obs=r*sqrt((length(pres)-2)/(1-rˆ2))
ec.obs
23.23597
p.val<-2*(1-pt(ec.obs,length(pres)-2))
p.val
2.033128e-05
cor.test(pres,temp)

Pearson’s product-moment correlation

data: pres and temp


t = 23.236, df = 4, p-value = 2.033e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9651382 0.9996162
sample estimates:
cor
0.9963161
Com que obtenim un p-valor molt petit, podem dir que tenim evidències estadı́stiques per dir que les
variables temperatura i pressió estan correlacionades.

2. D’una mostra de dos variables aleatòries normals, de mida n, obtenim que el coeficient de correlació és
r = 0.5. com de gran ha de ser n per tal que aquest coeficient sigui significatiu? Pots utilitzar α = 0.05.

13
(Com que no coneixem n, no podem utilitzar la distribució tn−2 , utilitza primer la distribució normal per
una primera aproximació, i llavors ajusta la teva resposta utilitzant una t).
Estem contrastant
H0 : ρ = 0 vs H1 : ρ 6= 0.
llavors

r
n−2
ECobs = r · 2
= 0.5774 · n − 2.
1−r
Aquest valor hauria de ser superior a 1.96 (utilitzant l’aproximació normal). Per tant n hauria de ser
1.96 2

superior a 2 + 0.5774 = 13.5248. Comprovem si per n = 14 obtenim el resultat que buscàvem, o hem
d’ajustar el resultat.

r=0.5
n=14
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.06865501
n=15
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.05769884
n=16
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.04858029

Observem que n = 16, és el valor que buscàvem.


3. Utilitzem les dades women que hi ha a R.
(a) Utilitzant que 1 inch són 2.54 cm, i que 1 lbs són 0.4536 kg, crea dues noves variables amb el pes i
l’alçada en unitats internacionals.
Solució:
weight.kg<-women$weigth *0.4536
height.cm<-women$height*2.54
(b) Compara el gràfic de punts de les dades originals i el gràfic de punts de les variables transformades.
Solució: Observem que són molt similars, només hem re-escalat els eixos, però R els torna a re-escalar
quan fa el gràfic.
(c) Compara les variàncies, covariàncies i correlacions de les variables originals amb les variables trans-
formades.
Solució: Observem que les variàncies queden multiplicades pel coeficient que hem utilitzat al qua-
drat, les covariàncies pels dos coeficients i que les correlacions no canvien.
(d) Utilitza la instrucció lm(women$weight∼women$height)$coefficients i comenta els resultats
obtinguts.
Solució: Obtenim els coeficients de la recta de regressió W = a + b · H.
lm(women$weight˜women$height)$coefficients
(Intercept) women$height
-87.51667 3.45000
(e) Després de fer el gràfic de punts amb les variables originals, afegeix la següent instrucció
abline(lm(women$weight∼women$height)$coefficients) i comenta els resultats.
Solució: Obtenim en el gràfic de punts també la recta de regressió.
4. En aquest exercici volem explorar mostres aleatòries simples del model Y = 0.5 · X + e, on X ∼ N (0, 1) i
e ∼ N (0, 1), suposem també que X i e són independents.

14
(a) Utilitzant les propietats de la variància i la covariància, demostra que cor(X, Y ) = 0.447.
Solució: Per l’enunciat tenim que V (X) = V (e) = 1, llavors V (Y ) = 0.25V (X) + V (e) = 1.25. També,
Cov(X, Y ) = Cov(X, 0.5 · X) + Cov(X, e) = 0.5. Per tant,
0.5
cor(X, Y ) = √ = 0.447.
1.25

(b) Obre un script a R, i escriu-hi les següents instruccions:


x<-rnorm(20)
y<-0.5*x+rnorm(20)
plot(x,y)
abline(lm(y˜x)$coefficients)
cor(x,y)
Ara, executa totes les comandes i mira el gràfic obtingut. Què observes?
(c) Repeteix vàries vegades el procés i descriu el que veus en els gràfics, i en les correlacions que vas
calculant. Repeteix tantes vegades com faci falta fins a obtenir un coeficient de correlació negatiu. Per
què et sembla que passa?
(d) Compta quantes vegades obtenim una correlació negativa entre X i Y , quan la seva correlació real és
0.45. Fes-ho amb les següents instruccions
cors<-c()
for(i in 1:10000){
x<-rnorm(20)
y<-0.5*x+rnorm(20)
cors[i]<-cor(x,y)}
summary(cors)
length(cors[cors<0])

8 Exercicis de regressió
1. A continuació tenim les puntuacions obtingudes per un grup d’estudiants en l’examen parcial i l’examen
final d’Estadı́stica

Parcial 81 75 71 61 96 56 85 70 77 71 91 88 79 77
Final 80 82 83 57 100 30 68 40 87 65 86 82 57 75

(a) Dibuixa el diagrama de dispersió de les dades i comenta’l.


Solució:
parcial<-c(81,75,71,61,96,56,85,70,77,71,91,88,79,77)
final<-c(80,82,83,57,100,30,68,40,87,65,86,82,57,75)
plot(parcial˜final)
Veiem que les dades semblen tenir una relació lineal positiva.
(b) Calcula el coeficient de correlació lineal entre unes i altres notes i interpreta el valor.
Solució:
cor(parcial,final)
[1] 0.7586295
El coeficient de correlació és força alt, per tant, sembla que hi ha una relació lineal positiva bastant
forta.
(c) Si té sentit, localitza a ull la recta que millor ajusta els punts del gràfic.

15
(d) Determina la recta d’ajust pel mètode de mı́nims quadrats.
Solució:
summary(lm(final˜parcial))

Call: lm(formula = final ˜ parcial)

Residuals:
Min 1Q Median 3Q Max
-21.533 -10.540 2.975 6.628 20.135

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -31.7123 25.6703 -1.235 0.24033
parcial 1.3321 0.3302 4.034 0.00166 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.14 on 12 degrees of freedom


Multiple R-squared: 0.5755, Adjusted R-squared: 0.5401
F-statistic: 16.27 on 1 and 12 DF, p-value: 0.001658
La recta és: F inal = −31.7123 + 1.3321 · P arcial.
(e) Un estudiant del mateix grup va obtenir una puntuació de 80 en el primer examen. No es va poder
presentar a l’examen final. A la vista del comportament del grup, quina nota creieu que podia esperar
en l’examen final? Com s’interpreta aquest valor?
Solució: L’estimació de la nota de l’estudiant serà: F inal = −31.7123 + 1.3321 · 80 = 74.85557.
(f) Estudia els residus i comenta l’adequació de les dades al model.
Solució:
anova(lm(final˜parcial))
Analysis of Variance Table

Response: final
Df Sum Sq Mean Sq F value Pr(>F)
parcial 1 2810.7 2810.67 16.27 0.001658 **
Residuals 12 2073.1 172.75
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
El coeficient de determinació és R2 = 57.55% per tan l’ajustament és bastant bo.

2. Dades: http://pascal.upf.edu/estad/dades/manatis.dat.
Els manatis són criatures marines grans i afable que viuen a la costa de Florida. Les llanxes motores maten
o fereixen molts manatis. Tenim les dades sobre les llanxes mototes registrades (en milers) i el número de
manatı́s morts per les llanxes a Florida en els anys 1977 al 1990.
(a) Dibuixa un diagrama de dispersió que mostra la relació entre el nombre de llanxes motores registrades
i els nombre de manatis morts. (quina és la variable explicativa?)
Solució:
man<-read.table(’http://pascal.upf.edu/estad/dades/manatis.dat’)
plot(man$V2˜man$V3)
La variable explicativa són els número de llanxes motores registrades.
(b) L’aspecte general de la relació entre les variables és aproximadament lineal? Existeixen observacions
atı́piques clares o observacions influents fortes?
Solució: Sembla que la relació és aproximadament lineal sense dades especialment atı́piques.

16
(c) Calcula el model de regressió smb lm. Què indica el valor R2 = 0.886 pel que fa a la relació entre les
llanxes i els manatis morts?
Solució:
summary(lm(man$V3˜man$V2))

Call: lm(formula = man$V3 ˜ man$V2)


Residuals:
Min 1Q Median 3Q Max
-9.2468 -2.0217 0.0217 2.3369 5.6328

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -41.4304 7.4122 -5.589 0.000118 ***
man$V2 0.1249 0.0129 9.675 5.11e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.276 on 12 degrees of freedom


Multiple R-squared: 0.8864, Adjusted R-squared: 0.8769
F-statistic: 93.61 on 1 and 12 DF, p-value: 5.109e-07
Aquest R2 tan gran ens indica que la variació del número de manatis morts és capturada en un 86%
per la relació lineal amb variable llanxes registrades.
(d) Dóna un interval de confiança al 90% per β.
Solució:
> confint(lm(man$V3˜man$V2), level=0.9)
5 % 95 %
(Intercept) -54.6411415 -28.2197364
man$V2 0.1018613 0.1478621
L’interval de confiança és (0.1018613, 0.1478621).
(e) Si Florida decidı́s congelar el nombre de llanxes motores en 70000, quants manatis prediries que ma-
tarien les llanxes cada any?
Solució: Com que la recta de regressió és M an = −41.4304 + 0.1249 · Llanxes, tindrı́em que per
llanxes=700, M an = −41.4304 + 0.1249 ∗ ·700 = 45.9996 ∼ 46.
(f) Dóna un interval de predicció al 95% per la mitjana de manatis que moririen cada any si Florida
congelés el número de llicències a 70000.
a<-data.frame(V=c(700))
lmt<-lm(V3˜V2,data=man)
new=data.frame(V2=c(700))
predict(lmt, new, interval=’confidence’, level=0.95)
fit lwr upr
1 45.97275 41.49157 50.45392
L’interval de predicció és (41.49157, 50.45392).
3. La següent taula presenta algunes dades del nombre de lı́nies telefòniques per cada 1000 individus (Y) i el
producte interior brut per càpita (X) de Singapur durant el perı́ode de 1966 a 1981 (16 anys).

17
Any Y X
1966 48 1589
1967 54 1757
1968 59 1974
.. .. ..
. . .
1979 262 4628
1980 291 5038
1981 317 5472

Amb aquestes dades tenim les següents estimacions:

mitjana de X =3334.6 mitjana de Y=145.6


variància de X= 1.380 × 106 variància de Y= 7697.4
covariància entre X i Y= 1.003 × 105

(a) Si suposem una relació lineal entre X i Y (Y = β0 + β1 X + ε), estimeu β0 i β1 per mı́nims quadrats i
analitzeu la bondat d’ajustament.
Solució:
ybar<-145.7
varx<-1.38e06
vary<-7679.4
covxy<-1.003e05
corxy<-covxy/sqrt(varx*vary)
corxy
[1] 0.9743113
corxyˆ2 # és igual a Rˆ2
[1] 0.9492825
bhat1<-corxy*sqrt(vary/varx)
bhat1
[1] 0.07268116
bhat0<-ybar-bhat1*xbar
bhat0
[1] -96.66259
Veiem que el coeficient de correlació lineal és r = 97.43%, i per tant el coeficient de determinació
R2 = 94.92%. Aquest coeficient ens mesura la bondat d’ajust, ens diu que el 95% de la variabilitat de
la Y queda explicada per la X. La recta de regressió és: Y = −96.66 + 0.07268 · X.
(b) Si els errors ε són normals amb mitjana 0 i variància σ 2 , doneu un interval de confiança al 90% per β1 .
Solució:
##var(y)=var(a+bx+e)=bˆ2var(x)+var(e)
vare<-vary-bhat1ˆ2*varx
vare
[1] 389.4797
s.e<-sqrt(vare)
s.e
[1] 19.73524
n<-16
s.b<-s.e/sqrt((n-1)*varx)
s.b
[1] 0.004337677
IC<-bhat1+qt(c(0.05,0.95),n-2)*s.b
IC
[1] 0.06504116 0.08032115

18
Per calcular l’interval de confiança cal l’error estàndard de βb1 . resulta que sβb1 = 0.004338, aleshores
l’interval de confiança és (0.06504116, 0.08032115).
(c) Tenim suficient evidència per rebutjar la hipòtesi d’independència lineal entre X i Y ?
Solució:
t.b<-bhat1/s.b
t.b
[1] 16.75578
2*(1-pt(t.b,n-2))
[1] 1.166827e-10
El contrast de H0 : β1 = 0, té un p-valor molt petit per tant, hi ha una relació lineal entre X i Y .

4. El fitxer PNG.txt (dades: http://pascal.upf.edu/estad/dades/PNG.txt) conté les observacions


del pes magre corporal (PesMagre), el nivell metabòlic (NivellMetabolic) i el gènere (Genere) de 19 per-
sones triades a l’atzar per participar en un estudi. El pes magre corporal (en kg) correspon al pes total
d’un individu descomptant el seu contingut en greix i es sospita que té una forta influència sobre el nivell
metabòlic, mesurat com la despesa de calories.
Respon a les següents qüestions i indica clarament quines instruccions de R utilitzes-
(a) Amb la següent instrucció carrega les dades R
dades<-read.table(’http://pascal.upf.edu/estad/dades/PNG.txt’,header=T)
(b) Fes un diagrama de dispersió amb les observacions del pes magre i el nivell metabòlic, estableix si
pot existir relació entre les dues variables i de quin tipus.
Solució:
plot(dades$PesMagre˜dades$NivellMetabolic)
Sembla que hi pot haver una relació lineal entre aquestes variables
(c) Determina la recta de regressió per mı́nims quadrats ordinaris per a explicar el nivell metabòlic segons
el pes magre.
Solució:
summary(lm(dades$NivellMetabolic˜dades$PesMagre))

Call: lm(formula = dades$NivellMetabolic ˜ dades$PesMagre)

Residuals:
Min 1Q Median 3Q Max
-155.00 -86.68 -19.51 22.81 359.81

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 107.667 180.972 0.595 0.56
dades$PesMagre 26.966 3.812 7.075 1.87e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 133.4 on 17 degrees of freedom


Multiple R-squared: 0.7465, Adjusted R-squared: 0.7315
F-statistic: 50.05 on 1 and 17 DF, p-value: 1.865e-06
La recta de regressió es pot estimar amb N M = 107.7 + 26.97 · P M + e
(d) Determina un interval de confiança pel pendent de la recta de regressió i explica de forma clara el que
indica el seu interval sobre la relació entre el pes corporal i el nivell metabòlic.
Solució:

19
confint(lm(dades$NivellMetabolic˜dades$PesMagre))
2.5 % 97.5 %
(Intercept) -274.15207 489.48511
dades$PesMagre 18.92397 35.00773
Segons l’interval de confiança calculat, podem assegurar que el pendent de la recta de regressió (de
la població) està entre 18.92 i 35.008, amb un nivell de confiança del 95%.
(e) Quin percentatge de variabilitat del nivell metabòlic queda explicat per la seva relació lineal amb la
variable pes magre? Com valores l’ajust del model?
Solució: Veiem que el coeficient de determinació és 0.7465. Això ens diu que el 74.65% de la variabili-
tat del nivell metabòlic s’explica pel pes magre, és a dir per la recta de regressió, mentre que el 25.35%
restant s’ha d’atribuir als residus. El model presenta un bon ajust.
(f) Quin és el signe del coeficient de correlació entre el pes magre i el nivell metabòlic? Pots indicar com
calcularies en base a algun dels resultats que ja has obtingut? Fes ara els càlculs amb R, és significatiu?
2 2
Solució: El signe
√ de r és el mateix que el del pendent, Podem calcular r si tenim present que r = R
i per tant r = 0.7465 = 0.8640. Per saber si és significatiu (és a dir si podem descartar la hipòtesi
nul·la H0 : ρ = 0) fem un test de correlació
cor.test(dades$PesMagre,dades$NivellMetabolic)

Pearson’s product-moment correlation

data: dades$PesMagre and dades$NivellMetabolic


t = 7.0746, df = 17, p-value = 1.865e-06
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.6744338 0.9466831
sample estimates:
cor
0.8639774
Com que el p-valor és molt petit, ens permet assegurar que r = 0.8640 és significatiu.
(g) Troba els residus i examina’ls. Es compleixen els supòsits en els que es basa la inferència per la
regressió?
Solució:
anova(lm(dades$NivellMetabolic˜dades$PesMagre))
Analysis of Variance Table

Response: dades$NivellMetabolic
Df Sum Sq Mean Sq F value Pr(>F)
dades$PesMagre 1 890934 890934 50.05 1.865e-06 ***
Residuals 17 302617 17801
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Veiem que el p-valor és petit per tant hi ha relació lineal entre les variables.
5. Les següents observacions corresponen al consum de cerveses (1 consumició = 33cl de cervesa) i nivell
d’alcohol en sang de diferents estudiants,

Estudiant 1 2 3 4 5 6 7 8 9 10
Nombre de consumicions 5 2 9 8 3 7 3 5 3 5
Alcohol en sang 0.1 0.0. 0.19 0.12 0.04 0.095 0.08 0.06 0.02 0.05

Respon a les següents qüestions i indica clarament quines instruccions de R utilitzes.

20
(a) Fes un gràfic de dispersió amb les observacions. Detectes alguna mena d’associació entre les dues
variables?
Solució:
cerv<-c(5,2,9,8,3,7,3,5,3,5)
al<-c(0.1,0.03,0.19,0.12,0.04,0.095,0.07,0.06,0.02,0.05)
plot(al˜cerv)
Sembla que hi pot haver alguna relació lineal entre les dues variables.
(b) Determina el coeficient de correlació lineal entre el nombre de cerveses ingerides i el nivell d’alcohol
en sang. Com l’interpretes? És significatiu? Què vol dir això?
Solució:
cor(al,cerv)
[1] 0.8882323
El coeficient de correlació és proper a 1, per tant, sembla que hi ha una relació lineal positiva forta
entre les dues variables.
(c) Determina la recta de regressió per mı́nims quadrats ordinaris per explicar el nivell d’alcohol en sang
segons el nombre de cerveses ingerides. Interpreta els coeficients obtinguts.
Solució:
summary(lm(al˜cerv))

Call: lm(formula = al ˜ cerv)

Residuals:
Min 1Q Median 3Q Max
-0.0275 -0.0187 -0.0071 0.0194 0.0357

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.018500 0.019230 -0.962 0.364200
cerv 0.019200 0.003511 5.469 0.000595 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.02483 on 8 degrees of freedom


Multiple R-squared: 0.789, Adjusted R-squared: 0.7626
F-statistic: 29.91 on 1 and 8 DF, p-value: 0.0005953
Recta de regressió: al = −0.0185 + 0.019 · cerv.
(d) Quin percentatge de variabilitat del nivell d’alcohol en sang queda explicat per la seva relació lineal
amb la variable nombre de cerveses ingerides? Com valores l’ajust del model?
Solució: Aquest percentatge ve donat pel coeficient de determinació per tant és del 78.9%. Com que
el percentatge és alt, l’ajustament és bo.
(e) Fes un contrast sobre la significativitat del pendent de la recta de regressió? Explica com l’interpretes.
Podries haver-ho resolt amb els resultats d’algun dels apartats anteriors? Justifica clarament per què?
Solució:
anova(lm(al˜cerv))
Analysis of Variance Table

Response: al
Df Sum Sq Mean Sq F value Pr(>F)
cerv 1 0.0184320 0.0184320 29.907 0.0005953 ***
Residuals 8 0.0049305 0.0006163
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

21
Com que el p-valor és molt petit, el pendent de la recta de regressió és siginifcatiu. Podrı́em haver
mirat el p-valor del pendent de la taula de la regressió.
(f) Fes una prova per decidir si prendre una cervesa més apuja el nivell d’alcohol en sang en 0.02 contra
l’alternativa que és inferior.
Solució:
ECobs<-(0.0192-0.02)/0.003511
ECobs
pval<-pt(ECobs,8)
pval
No rebutgem H0 , per tant podem dir que tenim evidències estadı́stiques per dir que prendre una
cervesa més apuja el nivell d’alcohol en sang en 0.02.
(g) Podem estimar el nivell d’alcohol en sang d’un estudiant que prengui 6 cerveses? Explica quins
intervals de confiança estan involucrats en aquesta estimació i com cal interpretar-los.
Solució: Podem estimar-ho al = −0.0185 + 0.019 · 6 = 0.0955.
lmt<-lm(al˜cerv)
new=data.frame(cerv=c(6))
predict(lmt, new, interval=’prediction’, level=0.95)
fit lwr upr
1 0.0967 0.03611438 0.1572856
(h) Suposem que volem presentar amb més precisió la informació de la taula anterior i expressem la
quantitat de cervesa ingerida no pas en el nombre de consumicions si no en cl. Quins dels resultats
anteriors canviarien i per què? Intenta respondre sense refer tots els càlculs.
6. Simulació d’un model de regressió.
Copia els següent codi de R en un script i executa’l. Comenta el que vas observant.

n=20
# valors aleatoris per a la x
xx<-rnorm(n)
# paràmetres de la recta real de regressió
a<-3
b<-2
# desviació estàndard dels errors
sr<-2
# valors de y segons el model
yy<-b*xx+a+rnorm(n,sd=sr)
# gràfic de dispersió
plot(xx,yy,xlim=c(-3,3), ylim=a+b*c(-3,3))
# ajustem el model sobre les dades
fit=lm(yy˜xx)
# pintem la recta ajustada
abline(fit$coefficients)
# pintem en vermell la recta real
abline(a,b,col=’red’)
# veiem el sumari de l’ajust
summary(fit)

22

You might also like