Professional Documents
Culture Documents
Continguts
Material
1. Aquest document
2. De la bibliografia:
Newbold: Capı́tol 12.
Moore: Capı́tols 2 i 10.
Índex
1 Introducció històrica 2
2 Correlació 3
2.1 Test d’hipòtesis de la correlació . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Regressió descriptiva 5
3.1 Ajustar una recta a les dades: Mètodes dels mı́nims quadrats . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Regressió descriptiva amb R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6 Predicció 11
7 Exercicis de correlació 12
8 Exercicis de regressió 15
La primera forma de regressió1 va ser el mètode de mı́nims quadrats publicat per Legendre al 1805 i per Gauss al
1809. El terme ”regressió”va ser posat per Francis Galton al segle XIX per descriure fenòmens biològics. Va ser el
treball pioner de Sir Francis Galton al 1880 que va donar lloc a la tècnica. L’idea original va ser un resultat directe
d’un experiment amb pèsols d’olor. Galton havia observat que les llavors de progènies amb pares amb llavors
més pesants que la mitjana també eren més pesants que la mitjana, però la diferència no era tan pronunciada. I
hi havia el mateix efecte per llavors més lleugeres que la mitjana. Galton va anomenar aquest fenomen reversió
i va escriure que el pes mitjà ”revertia o retrocedeix a la mediocritat”.
L’anàlisi de la regressió va ser estès posteriorment per Udny Yule i Karl Pearson a un context més estadı́stic.
L’assumpció es va afeblir amb els treball de R.A Fisher (1922, 1925). Els mètodes de regressió continuen sent una
àrea de recerca activa: Clive W.J. Granger, (Premi Nobel en Economia al 2003)2 és famós pel seu estudi sobre una
extensió de la regressió: causalitat (Granger-causalitat) i cointegració.
Exemple 1. Estadı́stics de casaments i divorcis.
A la Taula 1 trobem les dades del número de divorcis per any des de 1975 a 1980. I podem veure a la gràfica 1
una representació de les mateixes dades.
Veiem que hi ha una relació lineal positiva, el gràfic mostra una tendència creixent.
●
145
●
140
●
divorcis
135
130
●
125
120
anys
1 Veieu, per exemple, Stigler, Stephen M. (1999) Statistics on the Table: The History of Statistical Concepts and Methods. Harvard University
Press.
2 Més detalls a http://nobelprice.org
2
Exemple 2. En la Gràfica 2 veiem les dades de les temperatures i la humitat diàries des de 1/5/2000 al 30/11/2000.
Estem interessats en la relació entre la temperatura i la humitat. La gràfica evidencia una associació lineal
negativa entre les dues variables.
90
● ● ●
● ● ●
● ●
● ●
● ● ●
● ● ● ● ●
●
● ●● ● ●
● ● ● ●●
● ● ● ●●
● ●●
●
●●
80
● ● ● ● ● ●
● ● ●
● ● ●
● ●● ●
●
● ● ● ● ●
● ●● ●●
● ● ● ● ●
● ●● ● ●
●● ● ●
●
h.rel
70
● ● ● ● ●
●● ●
●
●
● ● ●●
●● ●●● ● ●
● ● ● ● ● ●●
● ● ● ● ● ●
● ●● ● ●● ●
● ● ●● ● ● ●
● ● ●● ● ●
● ●● ● ● ● ●
60
● ● ●●●● ●●
● ●
● ● ●● ●
● ● ● ●●● ●
● ●● ● ●● ● ●
● ● ●
● ● ●
● ●●
● ● ●
●
●●
50
5 10 15 20 25
temp
2 Correlació
Exemple 3. Calculem la correlació de les dades de l’exemple anterior, Exemple 2.
thr<-read.table(’http://pascal.upf.edu/estad/dades/thr.txt’)
round(cor(thr),4) arrodonir resultats a 4 decimals
temp h.rel
temp 1.0000 -0.8248
h.rel -0.8248 1.0000
En aquesta matriu, -0.82 és la correlació entre les dues variables. La correlació mesura la direcció i la força de
l’associació lineal entre dos variables quantitatives. El coeficient de correlació, ρ entre X i Y es defineix com
cov(X, Y )
ρ= p = cov(X ∗ , Y ∗ ),
V (X)V (Y )
on cov(X, Y ) = E((X − EX)(Y − EY )) = E(XY ) − E(X)E(Y ) és la covariància (amb R: cov(thr)) i X ∗ , Y ∗
són les versions estandarditzades de les variables inicials. Recordem que la correlació −1 ≤ ρ ≤ 1. Com que la
correlació utilitza els valors de les observacions estandarditzats, aquesta no canvia quan es canvien les unitats
de mesurament. La correlació és només un número, i no té unitats de mesurament. Comproveu els gràfics de la
Figura 3.
A inferència per anar de la mostra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) a la població, considerem el coeficient de corre-
lació mostral: Pn
cov(X,
dY) (xi − x̄)(yi − ȳ)
ρb = r = = pPn i=1 Pn ,
sx sy i=1 (xi − x̄)
2
i=1 (yi − ȳ)
2
on Pn
2 (xi − x̄)2
sx = i=1 .
n−1
3
r = 0 no vol dir que no hagi relació sino que no hi ha relació lineal
H0 : ρ = 0
per contrastar la no relació (lineal) entre un parell de variables. Contrastem H0 contra l’alternativa:
H1 : ρ 6= 0.
Assumim que X i Y són variables Normal, i que H0 és certa. Llavors el coeficient de correlació mostral r satisfà:
r
n−2
EC = r · ∼ tn−2 .
1 − r2
I per tant, el p-valor per un r
n−2
ECobs = r ·
1 − r2
és 2 · P (ECobs < tn−2 ). I la regla de decisió és:
r
n − 2
Reject H0 si r · > tn−2, α2 .
1 − r2
4
cor.test(thr$temp,thr$h.rel)
Clarament, amb un p-valor més petit que 2.2 · 10−16 rebutgem H0 . Hi ha evidències estadı́stiques per dir que les
dues variables tenen alguna relació lineal.
3 Regressió descriptiva
Parlem ara de la regressió descriptiva. En primer lloc ens fixem en com trobar la regressió: estimació per mı́nims
quadrats. En segon lloc, parlarem d’algunes instruccions de R molt útils en aquest context.
3.1 Ajustar una recta a les dades: Mètodes dels mı́nims quadrats
Ajustar una recta a les dades vol dir dibuixar una recta que sigui el més propera possible als punts. Hi ha
diverses maneres per aconseguir una recta ”el més propera possible”. El mètode més comú és la regressió per
mı́nims quadrats3 . Aquesta recta fa que la suma dels quadrats de les distàncies verticals de les dades a la recta
sigui el més petita possible.
on r és la correlació i sx , sy les desviacions estàndards de x i y respectivament. Llavors tenim que el terme
independent és:
a = ȳ − b · x̄.
sy sx
Observeu que byx = r · sx 6= r · sy = bxy . Per tal de no complicar la notació utilitzem només b.
3 Developed by Laplace (1812) Théorie analytique des probabilités. Carl Friedrich Gauss is credited with developing the fundamentals of the
5
L’estimació de σ 2 , variància residual o Error de Mitjana Quadràtica (MSE)
Pn 2
Pn 2
i=1 (yi − (a + b · xi )) e
2
se = σ 2
b = M SE = = i=1 i .
n−2 n−2
A inferència podem fer servir MSE, s2e o σ
b2 . En parlarem més endavant.
anys<-1975:1980
divorcis<-c(120.5,126.7,129.1,143.7,138.7,148.3)
div.lm=lm(divorcis˜anys) # lm s’utilitza per ajustar al model lineal
div.lm
Call:
lm(formula = divorcis ˜ anys)
Coefficients:
(Intercept) anys
-10577.900 5.417
Yi = α + β · xi + εi ,
noteu que utilitzem les lletres gregues per referir-nos a la població. Les següents hipòtesis són les que s’utilitzen
més habitualment:
Si la mida mostral és petita, demanarem també que els errors estiguin normalment distribuı̈ts.
6
4.2 Teorema de Gauss-Markov
El teorema de Gauss-Markov ens dóna una motivació molt potent per estimar els paràmetres del model de
regressió pel mètode de mı́nims quadrats.
Yi = α + β · xi + εi ,
Suposem que les hipòtesis de l’apartat anterior 1-4 s’assoleixen. Llavors, de tots els possibles estimadors de α i
β, els estimadors mı́nims quadràtics són els que tenen una variància més petita.
3. Sota les hipòtesis que hem donat a abans, incloent la hipòtesi de normalitat quan la mostra és petita, tenim
b−β
∼ tn−2 .
sb
CI(β) = b ± t1− α2 sb .
7
b<-SSxy/SSxx
a<-mean(y)-b*mean(x)
#ho comprovem
lm(y˜x)
#afegim la recta de regressió al gràfic anterior
abline(lm(y˜x)$coefficients)
d<-lm(y˜x)
summary(d)
Call: lm(formula = y ˜ x)
Residuals:
Min 1Q Median 3Q Max
-12.6224 -4.9318 -0.7571 5.0788 13.5925
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 93.91921 1.28496 73.09 <2e-16
x -1.60539 0.07923 -20.26 <2e-16
---
En aquest cas, el p-valor per la hipòtesi nul·la H0 : β = 0 vs H1 : β 6= 0 és quasi zero, per tant, clarament
rebutgem H0 , la recta no és horitzontal i tenim una relació lineal. De fet, el pendent és negatiu. També podem
calcular:
# error estàndard de la b
s.b=sqrt(MSE/SSxx)
# EC_obs sota H_0
t.b<-b/s.b
Ara, introduı̈m la teoria. Seguim el mateix esquema que en els altres test d’hipòtesis:
8
on, β0 és una constant, habitualment 0.
2. Decidir l’estadı́stic de contrast a utilitzar i la seva distribució sota H0
b − β0
EC = ∼ tn−2 .
sb
3. Calculem el valor de l’estadı́stic de contrast observat i el comparem amb el punt crı́tic o calculem el p-valor.
Rebutgem H0 si
α α
ECobs > qt(1 − , n − 2) or ECobs < −qt(1 − , n − 2).
2 2
Exemple 8. Continuem amb les dades de l’exemple 1, i la regressió descriptiva que hem fet a l’exemple 5.
summary(div.lm)
Residuals:
1 2 3 4 5 6
-0.4571 0.3257 -2.6914 6.4914 -3.9257 0.2571
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.058e+04 1.908e+03 -5.544 0.00518
anys 5.417e+00 9.649e-01 5.614 0.00495
---
En aquest cas, el p-valor per la hipòtesi nul·la és 0.00495, per tant, clarament rebutgem H0 , la recta no és horit-
zontal i tenim una relació lineal.
●
145
●
140
●
divorcis
135
130
●
125
120
anys
9
5 ANàlisi de la VAriància per la regressió.
El concepte bàsic de la recta de regressió , DADES=AJUSTAMENT+RESIDUS, es pot reescriure de la manera
següent:
yi − ȳ = ybi − ȳ + yi − ybi .
El primer terme és la variació total de la resposta (regressió) (SST), el segon terme, és la variació mitjana de la
resposta (SSR) i el tercer terme és el valor residual, error (SSE). Elevant al quadrat cada un d’aquests termes i
sumant per totes les n observacions, tenim l’equació SST = SSR + SSE
n
X n
X n
X
SST = (yi − ȳ)2 = yi − ȳ)2 +
(b (yi − ybi )2 .
i=1 i=1 i=1
o equivalentment,
H0 : β=0
H1 : β 6= 0
M SR
Sota H0 , l’estadı́stic F = M SE segueix una distribució F1,n−2 . Com que valors grans del ràtio estan a favor de
l’alternativa, tenim que
p − valor = P (F1,n−2 > Fobs ),
i per tant el punt crı́tic serà F1,n−2,α .
10
thr<-read.table(’http://pascal.upf.edu/estad/dades/thr.txt’)
lmt<-lm(h.rel˜temp,data=thr)
anova(lmt)
Analysis of Variance Table
Response: h.rel
Df Sum Sq Mean Sq F value Pr(>F)
temp 1 14369.1 14369 410.57 < 2.2e-16 ***
Residuals 193 6754.6 35
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
6 Predicció
Donat el model y = α + β · x + ε i la seva versió ajustada y = a + b · y + e, hi ha dues qüestions interessat sobre
el nou valor de x:
Utilitzant l’estimació puntual podem respondre a les dues preguntes amb a+b·x0 . Però, si pensem amb intervals
de confiança la resposta és diferent segons la pregunta (és més difı́cil d’estimar (2) que (1), per tant l’interval de
confiança de (2) serà més gran que el de (1)).
A R, preguntem per çonfiança”per respondre la primera pregunta i per ”predicció”per respondre la segona.
Podem veure en el següent gràfic els intervals de confiança i els intervals de predicció.
Figura 5: Gràfic de punts de les dades de divorcis amb la recta de regressiói els intervals.
11
Exemple 11. Utilitzant les dades de l’exemple 2, volem l’interval de confiança per la mitjana d’humitat donades
les temperatures de 5, 10, 15 i 20 graus centı́grads.
lmt<-lm(h.rel˜temp,data=thr)
#noves dades
new.temp<-data.frame(temp=c(5,10,15,20))
#interval de confiança per la mitjana
predict(lmt, newdata=new.temp, interval=’confidence’)
fit lwr upr
1 85.89226 84.07717 87.70734
2 77.86531 76.68757 79.04304
3 69.83836 69.00137 70.67534
4 61.81141 60.70011 62.92271
Obtenim per exemple, que per una temperatura de 5, l’interval és (84.08, 87.71). El valor ajustat és el valor
central, el valor predit.
Si ara busquem els intervals de confiança per un individu per la seva mesura d’humitat, sabent la seva tempe-
ratura.
Com abans, la primera columna és l’estimació puntual (coincideixen), i les altres dues columnes formen els
intervals, que observem són més grans que els primers.
7 Exercicis de correlació
1. Les dades següents relacionen la temperatura d’ebullició de l’aigua (en graus centı́grads), amb la pressió
baromètrica (en mm de mercuri), i van ser preses pel fı́sic escocès Forbes l’any 1957 als Alps i a Escòcia
12
scale(temp)
scale(pres)
(temp-mean(temp))/sd(temp)
(pres-mean(pres))/sd(pres)
(d) Calculeu la covariància entre les variables estandarditzades i la seva correlació. Què observeu?
Solució: La covariància entre les dades estandarditzades és igual a la correlació de les variables,
originals o estandarditzades.
(e) La pressió està expressada en mil·lı́metres de mercuri. Actualment utilitzem més la unitat hectopascal
(1mmHg=1.3332 hPa). Si posem pres.hPa<-pres*1.3332, quina serà la nova covariància entre la
pressió i la temperatura? I la correlació?
Solució: Si multipliquem la pressió per 1.3332, la seva variància queda multiplicada per 1.33322 i la
covariància entre pres i temp queda multiplicada per 1.3332. La correlació no varia.
(f) La temperatura està expressada en graus centı́grads, però Forbes probablement les va prendre en
graus Fahrenheit. Recorda que la conversió de Celsius a Fahrenheit es pot fer amb F = 59 · C + 32.
Si expressem la temperatura en graus Fahrenheit, quina és la covariància entre la temperatura i la
pressió? I la correlació?
Solució: En multiplicar per 95 , la covariància també quedarà multiplicada per 95 , però la correlació no
canvia. Encara que sumem 32, ni la covariància ni la correlació canvien.
(g) El coeficient de correlació obtingut entre les dues variables, és significatiu? (α = 0.05). Digues, quina
és la prova de significació que fas, quines són les hipòtesis nul·la i alternativa, quins són els supòsits
que assumim sobre les variables i quin resultat obtens. Fes-ho primer amb càlculs i després comprova
si cor.test dóna el mateix.
Solució: Planegem
H0 : ρ = 0 vs H1 : ρ 6= 0.
Suposant que les variables incials són normals, sota H0
r
n−2
EC = r · ∼ tn−2 .
1 − r2
r=cor(pres,temp)
ec.obs=r*sqrt((length(pres)-2)/(1-rˆ2))
ec.obs
23.23597
p.val<-2*(1-pt(ec.obs,length(pres)-2))
p.val
2.033128e-05
cor.test(pres,temp)
2. D’una mostra de dos variables aleatòries normals, de mida n, obtenim que el coeficient de correlació és
r = 0.5. com de gran ha de ser n per tal que aquest coeficient sigui significatiu? Pots utilitzar α = 0.05.
13
(Com que no coneixem n, no podem utilitzar la distribució tn−2 , utilitza primer la distribució normal per
una primera aproximació, i llavors ajusta la teva resposta utilitzant una t).
Estem contrastant
H0 : ρ = 0 vs H1 : ρ 6= 0.
llavors
√
r
n−2
ECobs = r · 2
= 0.5774 · n − 2.
1−r
Aquest valor hauria de ser superior a 1.96 (utilitzant l’aproximació normal). Per tant n hauria de ser
1.96 2
superior a 2 + 0.5774 = 13.5248. Comprovem si per n = 14 obtenim el resultat que buscàvem, o hem
d’ajustar el resultat.
r=0.5
n=14
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.06865501
n=15
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.05769884
n=16
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.04858029
14
(a) Utilitzant les propietats de la variància i la covariància, demostra que cor(X, Y ) = 0.447.
Solució: Per l’enunciat tenim que V (X) = V (e) = 1, llavors V (Y ) = 0.25V (X) + V (e) = 1.25. També,
Cov(X, Y ) = Cov(X, 0.5 · X) + Cov(X, e) = 0.5. Per tant,
0.5
cor(X, Y ) = √ = 0.447.
1.25
8 Exercicis de regressió
1. A continuació tenim les puntuacions obtingudes per un grup d’estudiants en l’examen parcial i l’examen
final d’Estadı́stica
Parcial 81 75 71 61 96 56 85 70 77 71 91 88 79 77
Final 80 82 83 57 100 30 68 40 87 65 86 82 57 75
15
(d) Determina la recta d’ajust pel mètode de mı́nims quadrats.
Solució:
summary(lm(final˜parcial))
Residuals:
Min 1Q Median 3Q Max
-21.533 -10.540 2.975 6.628 20.135
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -31.7123 25.6703 -1.235 0.24033
parcial 1.3321 0.3302 4.034 0.00166 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response: final
Df Sum Sq Mean Sq F value Pr(>F)
parcial 1 2810.7 2810.67 16.27 0.001658 **
Residuals 12 2073.1 172.75
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
El coeficient de determinació és R2 = 57.55% per tan l’ajustament és bastant bo.
2. Dades: http://pascal.upf.edu/estad/dades/manatis.dat.
Els manatis són criatures marines grans i afable que viuen a la costa de Florida. Les llanxes motores maten
o fereixen molts manatis. Tenim les dades sobre les llanxes mototes registrades (en milers) i el número de
manatı́s morts per les llanxes a Florida en els anys 1977 al 1990.
(a) Dibuixa un diagrama de dispersió que mostra la relació entre el nombre de llanxes motores registrades
i els nombre de manatis morts. (quina és la variable explicativa?)
Solució:
man<-read.table(’http://pascal.upf.edu/estad/dades/manatis.dat’)
plot(man$V2˜man$V3)
La variable explicativa són els número de llanxes motores registrades.
(b) L’aspecte general de la relació entre les variables és aproximadament lineal? Existeixen observacions
atı́piques clares o observacions influents fortes?
Solució: Sembla que la relació és aproximadament lineal sense dades especialment atı́piques.
16
(c) Calcula el model de regressió smb lm. Què indica el valor R2 = 0.886 pel que fa a la relació entre les
llanxes i els manatis morts?
Solució:
summary(lm(man$V3˜man$V2))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -41.4304 7.4122 -5.589 0.000118 ***
man$V2 0.1249 0.0129 9.675 5.11e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
17
Any Y X
1966 48 1589
1967 54 1757
1968 59 1974
.. .. ..
. . .
1979 262 4628
1980 291 5038
1981 317 5472
(a) Si suposem una relació lineal entre X i Y (Y = β0 + β1 X + ε), estimeu β0 i β1 per mı́nims quadrats i
analitzeu la bondat d’ajustament.
Solució:
ybar<-145.7
varx<-1.38e06
vary<-7679.4
covxy<-1.003e05
corxy<-covxy/sqrt(varx*vary)
corxy
[1] 0.9743113
corxyˆ2 # és igual a Rˆ2
[1] 0.9492825
bhat1<-corxy*sqrt(vary/varx)
bhat1
[1] 0.07268116
bhat0<-ybar-bhat1*xbar
bhat0
[1] -96.66259
Veiem que el coeficient de correlació lineal és r = 97.43%, i per tant el coeficient de determinació
R2 = 94.92%. Aquest coeficient ens mesura la bondat d’ajust, ens diu que el 95% de la variabilitat de
la Y queda explicada per la X. La recta de regressió és: Y = −96.66 + 0.07268 · X.
(b) Si els errors ε són normals amb mitjana 0 i variància σ 2 , doneu un interval de confiança al 90% per β1 .
Solució:
##var(y)=var(a+bx+e)=bˆ2var(x)+var(e)
vare<-vary-bhat1ˆ2*varx
vare
[1] 389.4797
s.e<-sqrt(vare)
s.e
[1] 19.73524
n<-16
s.b<-s.e/sqrt((n-1)*varx)
s.b
[1] 0.004337677
IC<-bhat1+qt(c(0.05,0.95),n-2)*s.b
IC
[1] 0.06504116 0.08032115
18
Per calcular l’interval de confiança cal l’error estàndard de βb1 . resulta que sβb1 = 0.004338, aleshores
l’interval de confiança és (0.06504116, 0.08032115).
(c) Tenim suficient evidència per rebutjar la hipòtesi d’independència lineal entre X i Y ?
Solució:
t.b<-bhat1/s.b
t.b
[1] 16.75578
2*(1-pt(t.b,n-2))
[1] 1.166827e-10
El contrast de H0 : β1 = 0, té un p-valor molt petit per tant, hi ha una relació lineal entre X i Y .
Residuals:
Min 1Q Median 3Q Max
-155.00 -86.68 -19.51 22.81 359.81
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 107.667 180.972 0.595 0.56
dades$PesMagre 26.966 3.812 7.075 1.87e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
19
confint(lm(dades$NivellMetabolic˜dades$PesMagre))
2.5 % 97.5 %
(Intercept) -274.15207 489.48511
dades$PesMagre 18.92397 35.00773
Segons l’interval de confiança calculat, podem assegurar que el pendent de la recta de regressió (de
la població) està entre 18.92 i 35.008, amb un nivell de confiança del 95%.
(e) Quin percentatge de variabilitat del nivell metabòlic queda explicat per la seva relació lineal amb la
variable pes magre? Com valores l’ajust del model?
Solució: Veiem que el coeficient de determinació és 0.7465. Això ens diu que el 74.65% de la variabili-
tat del nivell metabòlic s’explica pel pes magre, és a dir per la recta de regressió, mentre que el 25.35%
restant s’ha d’atribuir als residus. El model presenta un bon ajust.
(f) Quin és el signe del coeficient de correlació entre el pes magre i el nivell metabòlic? Pots indicar com
calcularies en base a algun dels resultats que ja has obtingut? Fes ara els càlculs amb R, és significatiu?
2 2
Solució: El signe
√ de r és el mateix que el del pendent, Podem calcular r si tenim present que r = R
i per tant r = 0.7465 = 0.8640. Per saber si és significatiu (és a dir si podem descartar la hipòtesi
nul·la H0 : ρ = 0) fem un test de correlació
cor.test(dades$PesMagre,dades$NivellMetabolic)
Response: dades$NivellMetabolic
Df Sum Sq Mean Sq F value Pr(>F)
dades$PesMagre 1 890934 890934 50.05 1.865e-06 ***
Residuals 17 302617 17801
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Veiem que el p-valor és petit per tant hi ha relació lineal entre les variables.
5. Les següents observacions corresponen al consum de cerveses (1 consumició = 33cl de cervesa) i nivell
d’alcohol en sang de diferents estudiants,
Estudiant 1 2 3 4 5 6 7 8 9 10
Nombre de consumicions 5 2 9 8 3 7 3 5 3 5
Alcohol en sang 0.1 0.0. 0.19 0.12 0.04 0.095 0.08 0.06 0.02 0.05
20
(a) Fes un gràfic de dispersió amb les observacions. Detectes alguna mena d’associació entre les dues
variables?
Solució:
cerv<-c(5,2,9,8,3,7,3,5,3,5)
al<-c(0.1,0.03,0.19,0.12,0.04,0.095,0.07,0.06,0.02,0.05)
plot(al˜cerv)
Sembla que hi pot haver alguna relació lineal entre les dues variables.
(b) Determina el coeficient de correlació lineal entre el nombre de cerveses ingerides i el nivell d’alcohol
en sang. Com l’interpretes? És significatiu? Què vol dir això?
Solució:
cor(al,cerv)
[1] 0.8882323
El coeficient de correlació és proper a 1, per tant, sembla que hi ha una relació lineal positiva forta
entre les dues variables.
(c) Determina la recta de regressió per mı́nims quadrats ordinaris per explicar el nivell d’alcohol en sang
segons el nombre de cerveses ingerides. Interpreta els coeficients obtinguts.
Solució:
summary(lm(al˜cerv))
Residuals:
Min 1Q Median 3Q Max
-0.0275 -0.0187 -0.0071 0.0194 0.0357
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.018500 0.019230 -0.962 0.364200
cerv 0.019200 0.003511 5.469 0.000595 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response: al
Df Sum Sq Mean Sq F value Pr(>F)
cerv 1 0.0184320 0.0184320 29.907 0.0005953 ***
Residuals 8 0.0049305 0.0006163
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
21
Com que el p-valor és molt petit, el pendent de la recta de regressió és siginifcatiu. Podrı́em haver
mirat el p-valor del pendent de la taula de la regressió.
(f) Fes una prova per decidir si prendre una cervesa més apuja el nivell d’alcohol en sang en 0.02 contra
l’alternativa que és inferior.
Solució:
ECobs<-(0.0192-0.02)/0.003511
ECobs
pval<-pt(ECobs,8)
pval
No rebutgem H0 , per tant podem dir que tenim evidències estadı́stiques per dir que prendre una
cervesa més apuja el nivell d’alcohol en sang en 0.02.
(g) Podem estimar el nivell d’alcohol en sang d’un estudiant que prengui 6 cerveses? Explica quins
intervals de confiança estan involucrats en aquesta estimació i com cal interpretar-los.
Solució: Podem estimar-ho al = −0.0185 + 0.019 · 6 = 0.0955.
lmt<-lm(al˜cerv)
new=data.frame(cerv=c(6))
predict(lmt, new, interval=’prediction’, level=0.95)
fit lwr upr
1 0.0967 0.03611438 0.1572856
(h) Suposem que volem presentar amb més precisió la informació de la taula anterior i expressem la
quantitat de cervesa ingerida no pas en el nombre de consumicions si no en cl. Quins dels resultats
anteriors canviarien i per què? Intenta respondre sense refer tots els càlculs.
6. Simulació d’un model de regressió.
Copia els següent codi de R en un script i executa’l. Comenta el que vas observant.
n=20
# valors aleatoris per a la x
xx<-rnorm(n)
# paràmetres de la recta real de regressió
a<-3
b<-2
# desviació estàndard dels errors
sr<-2
# valors de y segons el model
yy<-b*xx+a+rnorm(n,sd=sr)
# gràfic de dispersió
plot(xx,yy,xlim=c(-3,3), ylim=a+b*c(-3,3))
# ajustem el model sobre les dades
fit=lm(yy˜xx)
# pintem la recta ajustada
abline(fit$coefficients)
# pintem en vermell la recta real
abline(a,b,col=’red’)
# veiem el sumari de l’ajust
summary(fit)
22