T7-Inferència Per La Regressió Lineal Simple

Estadistica ADE/ECO/ADE-DRET 2017
Guia 7 – Tema 7: Inferència per la regressió Lineal Simple
Continguts
Material
1. Aquest document
2. De la bibliografia:
Newbold: Capı́tol 12.
Moore: Capı́tols 2 i 10.
Contingut d’aquest document
Índex
1 Introducció històrica 2
2 Correlació 3
2.1 Test d’hipòtesis de la correlació . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Regressió descriptiva 5
3.1 Ajustar una recta a les dades: Mètodes dels mı́nims quadrats . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Regressió descriptiva amb R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Inferència per la regressió 6

4.1 Hipòtesis estàndards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2 Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3 Distribució de b: intervals de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.4 Contrast d’hipòtesis pel pendent b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5 ANàlisi de la VAriància per la regressió. 10

2
5.1 Coeficient de determinació R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
6 Predicció 11
7 Exercicis de correlació 12
8 Exercicis de regressió 15
All models are wrong, but some are useful.

George Box.
1 Introducció històrica
Fins a aquest punt, hem tractat quasi exclusivament amb problemes d’inferència per una sola variable. En apli-
cacions a l’economia estarem interessats en la relació entre dos o més variables. Ja hem après eines d’estadı́stica
descriptiva per regressions lineals simples: diagrames de dispersió, la regressió per mı́nims quadrats i la corre-
lació. Aquests són preliminars essencials per fer inferència de la regressió lineal simple. L’anàlisi de la regressió
és molt utilitzat per la predicció i la previsió.
La primera forma de regressió1 va ser el mètode de mı́nims quadrats publicat per Legendre al 1805 i per Gauss al
1809. El terme ”regressió”va ser posat per Francis Galton al segle XIX per descriure fenòmens biològics. Va ser el
treball pioner de Sir Francis Galton al 1880 que va donar lloc a la tècnica. L’idea original va ser un resultat directe
d’un experiment amb pèsols d’olor. Galton havia observat que les llavors de progènies amb pares amb llavors
més pesants que la mitjana també eren més pesants que la mitjana, però la diferència no era tan pronunciada. I
hi havia el mateix efecte per llavors més lleugeres que la mitjana. Galton va anomenar aquest fenomen reversió
i va escriure que el pes mitjà ”revertia o retrocedeix a la mediocritat”.
L’anàlisi de la regressió va ser estès posteriorment per Udny Yule i Karl Pearson a un context més estadı́stic.
L’assumpció es va afeblir amb els treball de R.A Fisher (1922, 1925). Els mètodes de regressió continuen sent una
àrea de recerca activa: Clive W.J. Granger, (Premi Nobel en Economia al 2003)2 és famós pel seu estudi sobre una
extensió de la regressió: causalitat (Granger-causalitat) i cointegració.
Exemple 1. Estadı́stics de casaments i divorcis.
A la Taula 1 trobem les dades del número de divorcis per any des de 1975 a 1980. I podem veure a la gràfica 1
una representació de les mateixes dades.
Estadı́stics de casaments i divorcis.
Anys 1975 1976 1977 1978 1979 1980

Divorcis(1000) 120.5 126.7 129.1 143.7 138.7 148.3
Taula 1: Office of Population Censuses and Surveys, HMSO
Veiem que hi ha una relació lineal positiva, el gràfic mostra una tendència creixent.
●
145
●
140
●
divorcis
135
130
●
125
120
1975 1976 1977 1978 1979 1980
anys
Figura 1: Office of Population Censuses and Surveys, HMSO
1 Veieu, per exemple, Stigler, Stephen M. (1999) Statistics on the Table: The History of Statistical Concepts and Methods. Harvard University
Press.
2 Més detalls a http://nobelprice.org
2
Exemple 2. En la Gràfica 2 veiem les dades de les temperatures i la humitat diàries des de 1/5/2000 al 30/11/2000.
Estem interessats en la relació entre la temperatura i la humitat. La gràfica evidencia una associació lineal
negativa entre les dues variables.
90
● ● ●
● ● ●
● ●
● ●
● ● ●
● ● ● ● ●
●
● ●● ● ●
● ● ● ●●
● ● ● ●●
● ●●
●
●●
80
● ● ● ● ● ●
● ● ●
● ● ●
● ●● ●
●
● ● ● ● ●
● ●● ●●
● ● ● ● ●
● ●● ● ●
●● ● ●
●
h.rel
70
● ● ● ● ●
●● ●
●
●
● ● ●●
●● ●●● ● ●
● ● ● ● ● ●●
● ● ● ● ● ●
● ●● ● ●● ●
● ● ●● ● ● ●
● ● ●● ● ●
● ●● ● ● ● ●
60
● ● ●●●● ●●
● ●
● ● ●● ●
● ● ● ●●● ●
● ●● ● ●● ● ●
● ● ●
● ● ●
● ●●
● ● ●
●
●●
50
5 10 15 20 25
temp
Figura 2: Relació de les temperatures i la humitat.
2 Correlació
Exemple 3. Calculem la correlació de les dades de l’exemple anterior, Exemple 2.
thr<-read.table(’http://pascal.upf.edu/estad/dades/thr.txt’)
round(cor(thr),4) arrodonir resultats a 4 decimals
temp h.rel
temp 1.0000 -0.8248
h.rel -0.8248 1.0000
En aquesta matriu, -0.82 és la correlació entre les dues variables. La correlació mesura la direcció i la força de
l’associació lineal entre dos variables quantitatives. El coeficient de correlació, ρ entre X i Y es defineix com
cov(X, Y )
ρ= p = cov(X ∗ , Y ∗ ),
V (X)V (Y )
on cov(X, Y ) = E((X − EX)(Y − EY )) = E(XY ) − E(X)E(Y ) és la covariància (amb R: cov(thr)) i X ∗ , Y ∗
són les versions estandarditzades de les variables inicials. Recordem que la correlació −1 ≤ ρ ≤ 1. Com que la
correlació utilitza els valors de les observacions estandarditzats, aquesta no canvia quan es canvien les unitats
de mesurament. La correlació és només un número, i no té unitats de mesurament. Comproveu els gràfics de la
Figura 3.
A inferència per anar de la mostra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) a la població, considerem el coeficient de corre-
lació mostral: Pn
cov(X,
dY) (xi − x̄)(yi − ȳ)
ρb = r = = pPn i=1 Pn ,
sx sy i=1 (xi − x̄)
2
i=1 (yi − ȳ)
2
on Pn
2 (xi − x̄)2
sx = i=1 .
n−1
3
r = 0 no vol dir que no hagi relació sino que no hi ha relació lineal
Figura 3: Mostres d’onservacions de distribucions conjuntes amb diferents correlacions.
2.1 Test d’hipòtesis de la correlació

En aquest cas, la nostra hipòtesi nul·la habitual és:
H0 : ρ = 0
per contrastar la no relació (lineal) entre un parell de variables. Contrastem H0 contra l’alternativa:
H1 : ρ 6= 0.
Assumim que X i Y són variables Normal, i que H0 és certa. Llavors el coeficient de correlació mostral r satisfà:
r
n−2
EC = r · ∼ tn−2 .
1 − r2
I per tant, el p-valor per un r
n−2
ECobs = r ·
1 − r2
és 2 · P (ECobs < tn−2 ). I la regla de decisió és:
r
n − 2
Reject H0 si r · > tn−2, α2 .

1 − r2
Exemple 4. Utilitzant les dades de l’Exemple 2, tenim
4
cor.test(thr$temp,thr$h.rel)
Pearson’s product-moment correlation
data: thr$temp and thr$h.rel

t = -20.263, df = 193, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8650292 -0.7739445
sample estimates:
cor
-0.8247647
Clarament, amb un p-valor més petit que 2.2 · 10−16 rebutgem H0 . Hi ha evidències estadı́stiques per dir que les
dues variables tenen alguna relació lineal.
3 Regressió descriptiva
Parlem ara de la regressió descriptiva. En primer lloc ens fixem en com trobar la regressió: estimació per mı́nims
quadrats. En segon lloc, parlarem d’algunes instruccions de R molt útils en aquest context.
3.1 Ajustar una recta a les dades: Mètodes dels mı́nims quadrats
Ajustar una recta a les dades vol dir dibuixar una recta que sigui el més propera possible als punts. Hi ha
diverses maneres per aconseguir una recta ”el més propera possible”. El mètode més comú és la regressió per
mı́nims quadrats3 . Aquesta recta fa que la suma dels quadrats de les distàncies verticals de les dades a la recta
sigui el més petita possible.
Definim l’error ei = yi − (a + b · xi ), llavors

n
X n
X
min e2i = min (yi − (a + b · xi ))2 .
a,b a,b
i=1 i=1
De les condicions de primer ordre obtenim

Pn n n
∂ i=1 e2i X X
0 = = −2 yi + 2na + 2b xi
∂a i=1 i=1
Pn n n n
∂ i=1 e2i X X X
0 = = −2 xi yi + 2a xi + 2b x2i
∂b i=1 i=1 i=1
i podem arribar fàcilment a la solució

Pn Pn Pn
n xi yi − i=1 xi i=1 yi
i=1 sy
b= Pn Pn 2 =r· ,
2
n i=1 xi − ( i=1 xi ) sx
on r és la correlació i sx , sy les desviacions estàndards de x i y respectivament. Llavors tenim que el terme
independent és:
a = ȳ − b · x̄.
sy sx
Observeu que byx = r · sx 6= r · sy = bxy . Per tal de no complicar la notació utilitzem només b.
3 Developed by Laplace (1812) Théorie analytique des probabilités. Carl Friedrich Gauss is credited with developing the fundamentals of the
basis for least-squares analysis in his Theory of Celestial Movement.
5
L’estimació de σ 2 , variància residual o Error de Mitjana Quadràtica (MSE)
Pn 2
Pn 2
i=1 (yi − (a + b · xi )) e
2
se = σ 2
b = M SE = = i=1 i .
n−2 n−2
A inferència podem fer servir MSE, s2e o σ
b2 . En parlarem més endavant.
3.2 Regressió descriptiva amb R

Exemple 5. Anem a repassar la regressió descriptiva amb R amb l’exemple 1.
anys<-1975:1980
divorcis<-c(120.5,126.7,129.1,143.7,138.7,148.3)
div.lm=lm(divorcis˜anys) # lm s’utilitza per ajustar al model lineal
names(div.lm) # tot el que tenim al nostre output

[1] "coefficients" "residuals" "effects" "rank" "fitted.values" "assign" "qr"
"df.residual" "xlevels" "call" "terms" "model"
div.lm
Call:
lm(formula = divorcis ˜ anys)
Coefficients:
(Intercept) anys
-10577.900 5.417
4 Inferència per la regressió

En aquest apartat presentarem alguns mètodes per fer inferència per la regressió. Comencem presentant les
hipòtesis i el teorema de Gauss-Markov. Després, aplicarem tota la inferència que ja sabem (intervals de confiança
i test d’hipòtesis) a la regressió. Ens centrarem en l’estimació del pendent b, molt usat pels economistes. Si voleu
aprofundir en l’estimació de l’intercepte a, repasseu la bibliografia, per exemple Moore o Newbold.
4.1 Hipòtesis estàndards

Denotem la recta de regressió de la població per:
Yi = α + β · xi + εi ,
noteu que utilitzem les lletres gregues per referir-nos a la població. Les següents hipòtesis són les que s’utilitzen
més habitualment:
1. Les xi són un número fixat o independent del terme d’error ε.

2. E(εi ) = 0.
3. E(ε2i ) = σ 2 .
4. E(εi εj ) = 0 per tot i 6= j.
Si la mida mostral és petita, demanarem també que els errors estiguin normalment distribuı̈ts.
6
4.2 Teorema de Gauss-Markov
El teorema de Gauss-Markov ens dóna una motivació molt potent per estimar els paràmetres del model de
regressió pel mètode de mı́nims quadrats.
Teorema de Gauss-Markov: Denotem la recta de regressió de la població per:
Yi = α + β · xi + εi ,
Suposem que les hipòtesis de l’apartat anterior 1-4 s’assoleixen. Llavors, de tots els possibles estimadors de α i
β, els estimadors mı́nims quadràtics són els que tenen una variància més petita.
4.3 Distribució de b: intervals de confiança

Com que estem interessats en β, i podem utilitzar b com un estimador de β, un dels nostres interessos és conèixer
la distribució de b.
No és difı́cil veure que:
1. E(b) = β, per tant, és un bn estimador de β.

Pn
s2e e2
2. L’error estàndard és sb , on s2b = Pn 2 = Pi=1 i
(n−2) n 2.
i=1 (xi −x̄) i=1 (xi −x̄)
3. Sota les hipòtesis que hem donat a abans, incloent la hipòtesi de normalitat quan la mostra és petita, tenim
b−β
∼ tn−2 .
sb
Utilitzant això, l’interval de confiança utilitzant el mètode habitual:
CI(β) = b ± t1− α2 sb .
Amb R, podem utilitzant la funció confint.

Exemple 6. Utilitzem les dades de l’exemple 2.
# heu d’anar exectuant lı́nia per lı́nia i observant els resultats.

# llegim les dades
# fem un gràfic
plot(thr, pch=19)
#per comoditat, posem x i y a les variables

x<-thr$temp
y<-thr$h.rel
n<-length(x)
# calculem les desviacions i sumes de quadrats

desv.x<-x-mean(x)
desv.y<-y-mean(y)
SSxx<-sum(desv.x*desv.x)
SSyy<-sum(desv.y*desv.y)
SSxy<-sum(desv.x*desv.y)
r<-cor(x,y)
# coeficients de la recta de regressió y=a+bx
7
b<-SSxy/SSxx
a<-mean(y)-b*mean(x)
#ho comprovem
lm(y˜x)
#afegim la recta de regressió al gràfic anterior
abline(lm(y˜x)$coefficients)
# els errors, la seva suma de quadrats i la mitjana

y.hat<-a+b*x #valors ajustats
errs<-y-y.hat
SSE<-sum(errs*errs)
MSE<-SSE/n-2
s.e<-sqrt(MSE)
#interval de confiança i la comprovació

IC.beta<-b+qt(c(0.025,0.975),n-2)*s.e/sqrt(SSxx)
confint(lm(y˜x))
4.4 Contrast d’hipòtesis pel pendent b

Exemple 7. Si continuem amb l’exemple anterior
d<-lm(y˜x)
summary(d)
Call: lm(formula = y ˜ x)
Residuals:
Min 1Q Median 3Q Max
-12.6224 -4.9318 -0.7571 5.0788 13.5925
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 93.91921 1.28496 73.09 <2e-16
x -1.60539 0.07923 -20.26 <2e-16
---
Residual standard error: 5.916 on 193 degrees of freedom

Multiple R-squared: 0.6802, Adjusted R-squared: 0.6786
F-statistic: 410.6 on 1 and 193 DF, p-value: < 2.2e-16
En aquest cas, el p-valor per la hipòtesi nul·la H0 : β = 0 vs H1 : β 6= 0 és quasi zero, per tant, clarament
rebutgem H0 , la recta no és horitzontal i tenim una relació lineal. De fet, el pendent és negatiu. També podem
calcular:
# error estàndard de la b
s.b=sqrt(MSE/SSxx)
# EC_obs sota H_0
t.b<-b/s.b
Ara, introduı̈m la teoria. Seguim el mateix esquema que en els altres test d’hipòtesis:
1. Escriure les hipòtesis

H0 : β = β0
H1 : β 6 = β0
8
on, β0 és una constant, habitualment 0.
2. Decidir l’estadı́stic de contrast a utilitzar i la seva distribució sota H0
b − β0
EC = ∼ tn−2 .
sb
3. Calculem el valor de l’estadı́stic de contrast observat i el comparem amb el punt crı́tic o calculem el p-valor.
Rebutgem H0 si
α α
ECobs > qt(1 − , n − 2) or ECobs < −qt(1 − , n − 2).
2 2
Exemple 8. Continuem amb les dades de l’exemple 1, i la regressió descriptiva que hem fet a l’exemple 5.
summary(div.lm)
Call: lm(formula = divorcis ˜ anys)
Residuals:
1 2 3 4 5 6
-0.4571 0.3257 -2.6914 6.4914 -3.9257 0.2571
Coefficients:
(Intercept) -1.058e+04 1.908e+03 -5.544 0.00518
anys 5.417e+00 9.649e-01 5.614 0.00495
---

F-statistic: 31.52 on 1 and 4 DF, p-value: 0.004947
En aquest cas, el p-valor per la hipòtesi nul·la és 0.00495, per tant, clarament rebutgem H0 , la recta no és horit-
zontal i tenim una relació lineal.
●
145
●
140
●
divorcis
135
130
●
125
120
1975 1976 1977 1978 1979 1980
anys
Figura 4: Gràfic de punts de les dades de divorcis amb la recta de regressió.
9
5 ANàlisi de la VAriància per la regressió.
El concepte bàsic de la recta de regressió , DADES=AJUSTAMENT+RESIDUS, es pot reescriure de la manera
següent:
yi − ȳ = ybi − ȳ + yi − ybi .
El primer terme és la variació total de la resposta (regressió) (SST), el segon terme, és la variació mitjana de la
resposta (SSR) i el tercer terme és el valor residual, error (SSE). Elevant al quadrat cada un d’aquests termes i
sumant per totes les n observacions, tenim l’equació SST = SSR + SSE
n
X n
X n
X
SST = (yi − ȳ)2 = yi − ȳ)2 +
(b (yi − ybi )2 .
i=1 i=1 i=1
Una altra vegada tenim:

Pn
• La variació total: SST = − ȳ)2 amb n − 1 graus de llibertat.
i=1 (yi
Pn
yi − ȳ)2 amb un grau de llibertat.
• La variació deguda a la part lineal del model, la regressió: SSR = i=1 (b
Pn
• Finalment, la variació deguda a les desviacions de la regressió: SSE = i=1 (yi − ybi )2 amb n − 2 graus de
llibertat.
Llavors considerem la mitjana quadràtica, MST, MSR i MSE.

Pn 2
Pn Pn
i=1 (yi − ȳ) yi − ȳ)2
i=1 (b (yi − ybi )2
M ST = , M SR = , M SE = i=1 .
n−1 1 n−2
M SR
Igual que vam fer amb l’ANOVA per comparar les mitjanes, considerem el F -ràtio M SE . Valors petits d’aquest
ràtio volen dir que la part lineal del model no recull la variació de la resposta. Mentre que valors grans d’aquest
ràtio signifique que gran part de la variació total és explicada per la part lineal del model.
F-test pel model de regressió. Tenim les següents hipòtesis
H0 : No hi ha dependència lineal entre x i y

H1 : hi ha alguna dependència lineal
o equivalentment,
H0 : β=0
H1 : β 6= 0
M SR
Sota H0 , l’estadı́stic F = M SE segueix una distribució F1,n−2 . Com que valors grans del ràtio estan a favor de
l’alternativa, tenim que
p − valor = P (F1,n−2 > Fobs ),
i per tant el punt crı́tic serà F1,n−2,α .
Podem resumir la taula ANOVA de la següent manera
Font de variabilitat Suma de quadrats g.ll Mitjana de quadrats F-ràtio

REGRESSIÓ SSR 1 M SR = SSR1
M SR
M SE
ERROR SSE n-2 M SE = SSE
n−2
TOTAL SST n-1
Exemple 9. Utilitzem altra vegada les dades de l’exemple 2.
10
lmt<-lm(h.rel˜temp,data=thr)
anova(lmt)
Analysis of Variance Table
Response: h.rel
Df Sum Sq Mean Sq F value Pr(>F)
temp 1 14369.1 14369 410.57 < 2.2e-16 ***
Residuals 193 6754.6 35
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
5.1 Coeficient de determinació R2

És de particular importància la quantitat R2 = SSR SST que ens dóna la fracció de variació total de y que està
capturada per la part lineal del model. Es pot demostrar que (en el cas de regressió simple, amb una sola
variable independent), R2 = r2 , on r és el coeficient de correlació lineal de Pearson.
Exemple 10. Amb les dades de l’exemple 2. De la taula de l’exemple 7, veiem que R2 = 0.6786 però també el
14369.1
podem calcular amb la taula de l’exemple 9, amb el quocient 14369.1+6754.6 = 0.6802359.
6 Predicció
Donat el model y = α + β · x + ε i la seva versió ajustada y = a + b · y + e, hi ha dues qüestions interessat sobre
el nou valor de x:
1. Donat x0 , quina seria la resposta mitjana de y?

2. Donat x0 , quin seria el valor de y d’un individu que tingui aquest valor x0 ?
Utilitzant l’estimació puntual podem respondre a les dues preguntes amb a+b·x0 . Però, si pensem amb intervals
de confiança la resposta és diferent segons la pregunta (és més difı́cil d’estimar (2) que (1), per tant l’interval de
confiança de (2) serà més gran que el de (1)).
A R, preguntem per çonfiança”per respondre la primera pregunta i per ”predicció”per respondre la segona.
Podem veure en el següent gràfic els intervals de confiança i els intervals de predicció.
Figura 5: Gràfic de punts de les dades de divorcis amb la recta de regressiói els intervals.
11
Exemple 11. Utilitzant les dades de l’exemple 2, volem l’interval de confiança per la mitjana d’humitat donades
les temperatures de 5, 10, 15 i 20 graus centı́grads.
lmt<-lm(h.rel˜temp,data=thr)
#noves dades
new.temp<-data.frame(temp=c(5,10,15,20))
#interval de confiança per la mitjana
predict(lmt, newdata=new.temp, interval=’confidence’)
fit lwr upr
1 85.89226 84.07717 87.70734
2 77.86531 76.68757 79.04304
3 69.83836 69.00137 70.67534
4 61.81141 60.70011 62.92271
Obtenim per exemple, que per una temperatura de 5, l’interval és (84.08, 87.71). El valor ajustat és el valor
central, el valor predit.
Si ara busquem els intervals de confiança per un individu per la seva mesura d’humitat, sabent la seva tempe-
ratura.
#interval de confiança per la predicció de valors individuals

predict(lmt, newdata=new.temp, interval=’prediction’)
fit lwr upr
1 85.89226 74.08382 97.70069
2 77.86531 66.13792 89.59269
3 69.83836 58.14028 81.53643
4 61.81141 50.09050 73.53231
Com abans, la primera columna és l’estimació puntual (coincideixen), i les altres dues columnes formen els
intervals, que observem són més grans que els primers.
7 Exercicis de correlació
1. Les dades següents relacionen la temperatura d’ebullició de l’aigua (en graus centı́grads), amb la pressió
baromètrica (en mm de mercuri), i van ser preses pel fı́sic escocès Forbes l’any 1957 als Alps i a Escòcia
Pressió (mm): 768 769 770 773 774 775

Temperatura (C): 93.8 94.1 95.3 98.1 99.3 99.9
(a) Feu una gràfica de les dades, posant ”Pressió”a l’eix horitzontal i ”Temperatura”a l’eix vertical. (L’-
experimentador tria diverses localitzacions geogràfiques amb diferents pressions atmosfèriques i me-
sura, com a resposta, la temperatura d’ebullició de l’aigua).
Solució:
pres=c(768,769,770,773,774,775)
temp=c(93.8,94.1,95.3,98.1,99.3,99.9)
plot(pres,temo,main=’Forbes Data’, xlab=’Pressió’, ylab=’Temperatura’)
(b) Calculeu la variància de cadascuna d’aquestes variables i la seva covariància. Calculeu a partir d’a-
questes quantitats la correlació entre elles. Comproveu si la funció cor de R us dóna el mateix.
Solució: Calculem per una banda cor(pres,temp) i per l’altra
cov(pres,temp)/sqrt(var(pres)*var(temp)) i comprovem que surt el mateix.
(c) Si heu anomenat pres a les pressions i temp a les temperatures, calculeu ara les dades estandaritza-
des pres.est i temp.est. Podeu fer-ho amb la funció scale o bé directament restant la mitjana i
dividint per la desviació estàndard. Podeu comprovar que dóna el mateix.
Solució:
12
scale(temp)
scale(pres)
(temp-mean(temp))/sd(temp)
(pres-mean(pres))/sd(pres)
(d) Calculeu la covariància entre les variables estandarditzades i la seva correlació. Què observeu?
Solució: La covariància entre les dades estandarditzades és igual a la correlació de les variables,
originals o estandarditzades.
(e) La pressió està expressada en mil·lı́metres de mercuri. Actualment utilitzem més la unitat hectopascal
(1mmHg=1.3332 hPa). Si posem pres.hPa<-pres*1.3332, quina serà la nova covariància entre la
pressió i la temperatura? I la correlació?
Solució: Si multipliquem la pressió per 1.3332, la seva variància queda multiplicada per 1.33322 i la
covariància entre pres i temp queda multiplicada per 1.3332. La correlació no varia.
(f) La temperatura està expressada en graus centı́grads, però Forbes probablement les va prendre en
graus Fahrenheit. Recorda que la conversió de Celsius a Fahrenheit es pot fer amb F = 59 · C + 32.
Si expressem la temperatura en graus Fahrenheit, quina és la covariància entre la temperatura i la
pressió? I la correlació?
Solució: En multiplicar per 95 , la covariància també quedarà multiplicada per 95 , però la correlació no
canvia. Encara que sumem 32, ni la covariància ni la correlació canvien.
(g) El coeficient de correlació obtingut entre les dues variables, és significatiu? (α = 0.05). Digues, quina
és la prova de significació que fas, quines són les hipòtesis nul·la i alternativa, quins són els supòsits
que assumim sobre les variables i quin resultat obtens. Fes-ho primer amb càlculs i després comprova
si cor.test dóna el mateix.
Solució: Planegem
H0 : ρ = 0 vs H1 : ρ 6= 0.
Suposant que les variables incials són normals, sota H0
r
n−2
EC = r · ∼ tn−2 .
1 − r2
r=cor(pres,temp)
ec.obs=r*sqrt((length(pres)-2)/(1-rˆ2))
ec.obs
23.23597
p.val<-2*(1-pt(ec.obs,length(pres)-2))
p.val
2.033128e-05
cor.test(pres,temp)
data: pres and temp

t = 23.236, df = 4, p-value = 2.033e-05
0.9651382 0.9996162
sample estimates:
cor
0.9963161
Com que obtenim un p-valor molt petit, podem dir que tenim evidències estadı́stiques per dir que les
variables temperatura i pressió estan correlacionades.
2. D’una mostra de dos variables aleatòries normals, de mida n, obtenim que el coeficient de correlació és
r = 0.5. com de gran ha de ser n per tal que aquest coeficient sigui significatiu? Pots utilitzar α = 0.05.
13
(Com que no coneixem n, no podem utilitzar la distribució tn−2 , utilitza primer la distribució normal per
una primera aproximació, i llavors ajusta la teva resposta utilitzant una t).
Estem contrastant
H0 : ρ = 0 vs H1 : ρ 6= 0.
llavors
√
r
n−2
ECobs = r · 2
= 0.5774 · n − 2.
1−r
Aquest valor hauria de ser superior a 1.96 (utilitzant l’aproximació normal). Per tant n hauria de ser
1.96 2

superior a 2 + 0.5774 = 13.5248. Comprovem si per n = 14 obtenim el resultat que buscàvem, o hem
d’ajustar el resultat.
r=0.5
n=14
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.06865501
n=15
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.05769884
n=16
2*(1-pt(r*sqrt((n-2)/(1-rˆ2)),n-2))
0.04858029
Observem que n = 16, és el valor que buscàvem.

3. Utilitzem les dades women que hi ha a R.
(a) Utilitzant que 1 inch són 2.54 cm, i que 1 lbs són 0.4536 kg, crea dues noves variables amb el pes i
l’alçada en unitats internacionals.
Solució:
weight.kg<-women$weigth *0.4536
height.cm<-women$height*2.54
(b) Compara el gràfic de punts de les dades originals i el gràfic de punts de les variables transformades.
Solució: Observem que són molt similars, només hem re-escalat els eixos, però R els torna a re-escalar
quan fa el gràfic.
(c) Compara les variàncies, covariàncies i correlacions de les variables originals amb les variables trans-
formades.
Solució: Observem que les variàncies queden multiplicades pel coeficient que hem utilitzat al qua-
drat, les covariàncies pels dos coeficients i que les correlacions no canvien.
(d) Utilitza la instrucció lm(women$weight∼women$height)$coefficients i comenta els resultats
obtinguts.
Solució: Obtenim els coeficients de la recta de regressió W = a + b · H.
lm(women$weight˜women$height)$coefficients
(Intercept) women$height
-87.51667 3.45000
(e) Després de fer el gràfic de punts amb les variables originals, afegeix la següent instrucció
abline(lm(women$weight∼women$height)$coefficients) i comenta els resultats.
Solució: Obtenim en el gràfic de punts també la recta de regressió.
4. En aquest exercici volem explorar mostres aleatòries simples del model Y = 0.5 · X + e, on X ∼ N (0, 1) i
e ∼ N (0, 1), suposem també que X i e són independents.
14
(a) Utilitzant les propietats de la variància i la covariància, demostra que cor(X, Y ) = 0.447.
Solució: Per l’enunciat tenim que V (X) = V (e) = 1, llavors V (Y ) = 0.25V (X) + V (e) = 1.25. També,
Cov(X, Y ) = Cov(X, 0.5 · X) + Cov(X, e) = 0.5. Per tant,
0.5
cor(X, Y ) = √ = 0.447.
1.25
(b) Obre un script a R, i escriu-hi les següents instruccions:

x<-rnorm(20)
y<-0.5*x+rnorm(20)
plot(x,y)
abline(lm(y˜x)$coefficients)
cor(x,y)
Ara, executa totes les comandes i mira el gràfic obtingut. Què observes?
(c) Repeteix vàries vegades el procés i descriu el que veus en els gràfics, i en les correlacions que vas
calculant. Repeteix tantes vegades com faci falta fins a obtenir un coeficient de correlació negatiu. Per
què et sembla que passa?
(d) Compta quantes vegades obtenim una correlació negativa entre X i Y , quan la seva correlació real és
0.45. Fes-ho amb les següents instruccions
cors<-c()
for(i in 1:10000){
x<-rnorm(20)
y<-0.5*x+rnorm(20)
cors[i]<-cor(x,y)}
summary(cors)
length(cors[cors<0])
8 Exercicis de regressió
1. A continuació tenim les puntuacions obtingudes per un grup d’estudiants en l’examen parcial i l’examen
final d’Estadı́stica
Parcial 81 75 71 61 96 56 85 70 77 71 91 88 79 77
Final 80 82 83 57 100 30 68 40 87 65 86 82 57 75
(a) Dibuixa el diagrama de dispersió de les dades i comenta’l.

Solució:
parcial<-c(81,75,71,61,96,56,85,70,77,71,91,88,79,77)
final<-c(80,82,83,57,100,30,68,40,87,65,86,82,57,75)
plot(parcial˜final)
Veiem que les dades semblen tenir una relació lineal positiva.
(b) Calcula el coeficient de correlació lineal entre unes i altres notes i interpreta el valor.
Solució:
cor(parcial,final)
[1] 0.7586295
El coeficient de correlació és força alt, per tant, sembla que hi ha una relació lineal positiva bastant
forta.
(c) Si té sentit, localitza a ull la recta que millor ajusta els punts del gràfic.
15
(d) Determina la recta d’ajust pel mètode de mı́nims quadrats.
Solució:
summary(lm(final˜parcial))
Call: lm(formula = final ˜ parcial)
Residuals:
-21.533 -10.540 2.975 6.628 20.135
Coefficients:
(Intercept) -31.7123 25.6703 -1.235 0.24033
parcial 1.3321 0.3302 4.034 0.00166 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

La recta és: F inal = −31.7123 + 1.3321 · P arcial.
(e) Un estudiant del mateix grup va obtenir una puntuació de 80 en el primer examen. No es va poder
presentar a l’examen final. A la vista del comportament del grup, quina nota creieu que podia esperar
en l’examen final? Com s’interpreta aquest valor?
Solució: L’estimació de la nota de l’estudiant serà: F inal = −31.7123 + 1.3321 · 80 = 74.85557.
(f) Estudia els residus i comenta l’adequació de les dades al model.
Solució:
anova(lm(final˜parcial))
Response: final
parcial 1 2810.7 2810.67 16.27 0.001658 **
Residuals 12 2073.1 172.75
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
El coeficient de determinació és R2 = 57.55% per tan l’ajustament és bastant bo.
2. Dades: http://pascal.upf.edu/estad/dades/manatis.dat.
Els manatis són criatures marines grans i afable que viuen a la costa de Florida. Les llanxes motores maten
o fereixen molts manatis. Tenim les dades sobre les llanxes mototes registrades (en milers) i el número de
manatı́s morts per les llanxes a Florida en els anys 1977 al 1990.
(a) Dibuixa un diagrama de dispersió que mostra la relació entre el nombre de llanxes motores registrades
i els nombre de manatis morts. (quina és la variable explicativa?)
Solució:
man<-read.table(’http://pascal.upf.edu/estad/dades/manatis.dat’)
plot(man$V2˜man$V3)
La variable explicativa són els número de llanxes motores registrades.
(b) L’aspecte general de la relació entre les variables és aproximadament lineal? Existeixen observacions
atı́piques clares o observacions influents fortes?
Solució: Sembla que la relació és aproximadament lineal sense dades especialment atı́piques.
16
(c) Calcula el model de regressió smb lm. Què indica el valor R2 = 0.886 pel que fa a la relació entre les
llanxes i els manatis morts?
Solució:
summary(lm(man$V3˜man$V2))
Call: lm(formula = man$V3 ˜ man$V2)

Residuals:
-9.2468 -2.0217 0.0217 2.3369 5.6328
Coefficients:
(Intercept) -41.4304 7.4122 -5.589 0.000118 ***
man$V2 0.1249 0.0129 9.675 5.11e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 93.61 on 1 and 12 DF, p-value: 5.109e-07
Aquest R2 tan gran ens indica que la variació del número de manatis morts és capturada en un 86%
per la relació lineal amb variable llanxes registrades.
(d) Dóna un interval de confiança al 90% per β.
Solució:
> confint(lm(man$V3˜man$V2), level=0.9)
5 % 95 %
(Intercept) -54.6411415 -28.2197364
man$V2 0.1018613 0.1478621
L’interval de confiança és (0.1018613, 0.1478621).
(e) Si Florida decidı́s congelar el nombre de llanxes motores en 70000, quants manatis prediries que ma-
tarien les llanxes cada any?
Solució: Com que la recta de regressió és M an = −41.4304 + 0.1249 · Llanxes, tindrı́em que per
llanxes=700, M an = −41.4304 + 0.1249 ∗ ·700 = 45.9996 ∼ 46.
(f) Dóna un interval de predicció al 95% per la mitjana de manatis que moririen cada any si Florida
congelés el número de llicències a 70000.
a<-data.frame(V=c(700))
lmt<-lm(V3˜V2,data=man)
new=data.frame(V2=c(700))
predict(lmt, new, interval=’confidence’, level=0.95)
fit lwr upr
1 45.97275 41.49157 50.45392
L’interval de predicció és (41.49157, 50.45392).
3. La següent taula presenta algunes dades del nombre de lı́nies telefòniques per cada 1000 individus (Y) i el
producte interior brut per càpita (X) de Singapur durant el perı́ode de 1966 a 1981 (16 anys).
17
Any Y X
1966 48 1589
1967 54 1757
1968 59 1974
.. .. ..
. . .
1979 262 4628
1980 291 5038
1981 317 5472
Amb aquestes dades tenim les següents estimacions:
mitjana de X =3334.6 mitjana de Y=145.6

variància de X= 1.380 × 106 variància de Y= 7697.4
covariància entre X i Y= 1.003 × 105
(a) Si suposem una relació lineal entre X i Y (Y = β0 + β1 X + ε), estimeu β0 i β1 per mı́nims quadrats i
analitzeu la bondat d’ajustament.
Solució:
ybar<-145.7
varx<-1.38e06
vary<-7679.4
covxy<-1.003e05
corxy<-covxy/sqrt(varx*vary)
corxy
[1] 0.9743113
corxyˆ2 # és igual a Rˆ2
[1] 0.9492825
bhat1<-corxy*sqrt(vary/varx)
bhat1
[1] 0.07268116
bhat0<-ybar-bhat1*xbar
bhat0
[1] -96.66259
Veiem que el coeficient de correlació lineal és r = 97.43%, i per tant el coeficient de determinació
R2 = 94.92%. Aquest coeficient ens mesura la bondat d’ajust, ens diu que el 95% de la variabilitat de
la Y queda explicada per la X. La recta de regressió és: Y = −96.66 + 0.07268 · X.
(b) Si els errors ε són normals amb mitjana 0 i variància σ 2 , doneu un interval de confiança al 90% per β1 .
Solució:
##var(y)=var(a+bx+e)=bˆ2var(x)+var(e)
vare<-vary-bhat1ˆ2*varx
vare
[1] 389.4797
s.e<-sqrt(vare)
s.e
[1] 19.73524
n<-16
s.b<-s.e/sqrt((n-1)*varx)
s.b
[1] 0.004337677
IC<-bhat1+qt(c(0.05,0.95),n-2)*s.b
IC
[1] 0.06504116 0.08032115
18
Per calcular l’interval de confiança cal l’error estàndard de βb1 . resulta que sβb1 = 0.004338, aleshores
l’interval de confiança és (0.06504116, 0.08032115).
(c) Tenim suficient evidència per rebutjar la hipòtesi d’independència lineal entre X i Y ?
Solució:
t.b<-bhat1/s.b
t.b
[1] 16.75578
2*(1-pt(t.b,n-2))
[1] 1.166827e-10
El contrast de H0 : β1 = 0, té un p-valor molt petit per tant, hi ha una relació lineal entre X i Y .
4. El fitxer PNG.txt (dades: http://pascal.upf.edu/estad/dades/PNG.txt) conté les observacions

del pes magre corporal (PesMagre), el nivell metabòlic (NivellMetabolic) i el gènere (Genere) de 19 per-
sones triades a l’atzar per participar en un estudi. El pes magre corporal (en kg) correspon al pes total
d’un individu descomptant el seu contingut en greix i es sospita que té una forta influència sobre el nivell
metabòlic, mesurat com la despesa de calories.
Respon a les següents qüestions i indica clarament quines instruccions de R utilitzes-
(a) Amb la següent instrucció carrega les dades R
dades<-read.table(’http://pascal.upf.edu/estad/dades/PNG.txt’,header=T)
(b) Fes un diagrama de dispersió amb les observacions del pes magre i el nivell metabòlic, estableix si
pot existir relació entre les dues variables i de quin tipus.
Solució:
plot(dades$PesMagre˜dades$NivellMetabolic)
Sembla que hi pot haver una relació lineal entre aquestes variables
(c) Determina la recta de regressió per mı́nims quadrats ordinaris per a explicar el nivell metabòlic segons
el pes magre.
Solució:
summary(lm(dades$NivellMetabolic˜dades$PesMagre))
Call: lm(formula = dades$NivellMetabolic ˜ dades$PesMagre)
Residuals:
-155.00 -86.68 -19.51 22.81 359.81
Coefficients:
(Intercept) 107.667 180.972 0.595 0.56
dades$PesMagre 26.966 3.812 7.075 1.87e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 50.05 on 1 and 17 DF, p-value: 1.865e-06
La recta de regressió es pot estimar amb N M = 107.7 + 26.97 · P M + e
(d) Determina un interval de confiança pel pendent de la recta de regressió i explica de forma clara el que
indica el seu interval sobre la relació entre el pes corporal i el nivell metabòlic.
Solució:
19
confint(lm(dades$NivellMetabolic˜dades$PesMagre))
2.5 % 97.5 %
(Intercept) -274.15207 489.48511
dades$PesMagre 18.92397 35.00773
Segons l’interval de confiança calculat, podem assegurar que el pendent de la recta de regressió (de
la població) està entre 18.92 i 35.008, amb un nivell de confiança del 95%.
(e) Quin percentatge de variabilitat del nivell metabòlic queda explicat per la seva relació lineal amb la
variable pes magre? Com valores l’ajust del model?
Solució: Veiem que el coeficient de determinació és 0.7465. Això ens diu que el 74.65% de la variabili-
tat del nivell metabòlic s’explica pel pes magre, és a dir per la recta de regressió, mentre que el 25.35%
restant s’ha d’atribuir als residus. El model presenta un bon ajust.
(f) Quin és el signe del coeficient de correlació entre el pes magre i el nivell metabòlic? Pots indicar com
calcularies en base a algun dels resultats que ja has obtingut? Fes ara els càlculs amb R, és significatiu?
2 2
Solució: El signe
√ de r és el mateix que el del pendent, Podem calcular r si tenim present que r = R
i per tant r = 0.7465 = 0.8640. Per saber si és significatiu (és a dir si podem descartar la hipòtesi
nul·la H0 : ρ = 0) fem un test de correlació
cor.test(dades$PesMagre,dades$NivellMetabolic)
data: dades$PesMagre and dades$NivellMetabolic

t = 7.0746, df = 17, p-value = 1.865e-06
0.6744338 0.9466831
sample estimates:
cor
0.8639774
Com que el p-valor és molt petit, ens permet assegurar que r = 0.8640 és significatiu.
(g) Troba els residus i examina’ls. Es compleixen els supòsits en els que es basa la inferència per la
regressió?
Solució:
anova(lm(dades$NivellMetabolic˜dades$PesMagre))
Response: dades$NivellMetabolic
dades$PesMagre 1 890934 890934 50.05 1.865e-06 ***
Residuals 17 302617 17801
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Veiem que el p-valor és petit per tant hi ha relació lineal entre les variables.
5. Les següents observacions corresponen al consum de cerveses (1 consumició = 33cl de cervesa) i nivell
d’alcohol en sang de diferents estudiants,
Estudiant 1 2 3 4 5 6 7 8 9 10
Nombre de consumicions 5 2 9 8 3 7 3 5 3 5
Alcohol en sang 0.1 0.0. 0.19 0.12 0.04 0.095 0.08 0.06 0.02 0.05
Respon a les següents qüestions i indica clarament quines instruccions de R utilitzes.
20
(a) Fes un gràfic de dispersió amb les observacions. Detectes alguna mena d’associació entre les dues
variables?
Solució:
cerv<-c(5,2,9,8,3,7,3,5,3,5)
al<-c(0.1,0.03,0.19,0.12,0.04,0.095,0.07,0.06,0.02,0.05)
plot(al˜cerv)
Sembla que hi pot haver alguna relació lineal entre les dues variables.
(b) Determina el coeficient de correlació lineal entre el nombre de cerveses ingerides i el nivell d’alcohol
en sang. Com l’interpretes? És significatiu? Què vol dir això?
Solució:
cor(al,cerv)
[1] 0.8882323
El coeficient de correlació és proper a 1, per tant, sembla que hi ha una relació lineal positiva forta
entre les dues variables.
(c) Determina la recta de regressió per mı́nims quadrats ordinaris per explicar el nivell d’alcohol en sang
segons el nombre de cerveses ingerides. Interpreta els coeficients obtinguts.
Solució:
summary(lm(al˜cerv))
Call: lm(formula = al ˜ cerv)
Residuals:
-0.0275 -0.0187 -0.0071 0.0194 0.0357
Coefficients:
(Intercept) -0.018500 0.019230 -0.962 0.364200
cerv 0.019200 0.003511 5.469 0.000595 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Recta de regressió: al = −0.0185 + 0.019 · cerv.
(d) Quin percentatge de variabilitat del nivell d’alcohol en sang queda explicat per la seva relació lineal
amb la variable nombre de cerveses ingerides? Com valores l’ajust del model?
Solució: Aquest percentatge ve donat pel coeficient de determinació per tant és del 78.9%. Com que
el percentatge és alt, l’ajustament és bo.
(e) Fes un contrast sobre la significativitat del pendent de la recta de regressió? Explica com l’interpretes.
Podries haver-ho resolt amb els resultats d’algun dels apartats anteriors? Justifica clarament per què?
Solució:
anova(lm(al˜cerv))
Response: al
cerv 1 0.0184320 0.0184320 29.907 0.0005953 ***
Residuals 8 0.0049305 0.0006163
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
21
Com que el p-valor és molt petit, el pendent de la recta de regressió és siginifcatiu. Podrı́em haver
mirat el p-valor del pendent de la taula de la regressió.
(f) Fes una prova per decidir si prendre una cervesa més apuja el nivell d’alcohol en sang en 0.02 contra
l’alternativa que és inferior.
Solució:
ECobs<-(0.0192-0.02)/0.003511
ECobs
pval<-pt(ECobs,8)
pval
No rebutgem H0 , per tant podem dir que tenim evidències estadı́stiques per dir que prendre una
cervesa més apuja el nivell d’alcohol en sang en 0.02.
(g) Podem estimar el nivell d’alcohol en sang d’un estudiant que prengui 6 cerveses? Explica quins
intervals de confiança estan involucrats en aquesta estimació i com cal interpretar-los.
Solució: Podem estimar-ho al = −0.0185 + 0.019 · 6 = 0.0955.
lmt<-lm(al˜cerv)
new=data.frame(cerv=c(6))
predict(lmt, new, interval=’prediction’, level=0.95)
fit lwr upr
1 0.0967 0.03611438 0.1572856
(h) Suposem que volem presentar amb més precisió la informació de la taula anterior i expressem la
quantitat de cervesa ingerida no pas en el nombre de consumicions si no en cl. Quins dels resultats
anteriors canviarien i per què? Intenta respondre sense refer tots els càlculs.
6. Simulació d’un model de regressió.
Copia els següent codi de R en un script i executa’l. Comenta el que vas observant.
n=20
# valors aleatoris per a la x
xx<-rnorm(n)
# paràmetres de la recta real de regressió
a<-3
b<-2
# desviació estàndard dels errors
sr<-2
# valors de y segons el model
yy<-b*xx+a+rnorm(n,sd=sr)
# gràfic de dispersió
plot(xx,yy,xlim=c(-3,3), ylim=a+b*c(-3,3))
# ajustem el model sobre les dades
fit=lm(yy˜xx)
# pintem la recta ajustada
abline(fit$coefficients)
# pintem en vermell la recta real
abline(a,b,col=’red’)
# veiem el sumari de l’ajust
summary(fit)
22

T7-Inferència Per La Regressió Lineal Simple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

T7-Inferència Per La Regressió Lineal Simple

Uploaded by

Copyright:

Available Formats

Estadistica ADE/ECO/ADE-DRET 2017

Guia 7 – Tema 7: Inferència per la regressió Lineal Simple

Contingut d’aquest document

4 Inferència per la regressió 6

5 ANàlisi de la VAriància per la regressió. 10

All models are wrong, but some are useful.

Estadı́stics de casaments i divorcis.

Anys 1975 1976 1977 1978 1979 1980

Taula 1: Office of Population Censuses and Surveys, HMSO

1975 1976 1977 1978 1979 1980

Figura 1: Office of Population Censuses and Surveys, HMSO

Figura 2: Relació de les temperatures i la humitat.

Figura 3: Mostres d’onservacions de distribucions conjuntes amb diferents correlacions.

2.1 Test d’hipòtesis de la correlació

Exemple 4. Utilitzant les dades de l’Exemple 2, tenim

Pearson’s product-moment correlation

data: thr$temp and thr$h.rel

Definim l’error ei = yi − (a + b · xi ), llavors

De les condicions de primer ordre obtenim

i podem arribar fàcilment a la solució

basis for least-squares analysis in his Theory of Celestial Movement.

3.2 Regressió descriptiva amb R

names(div.lm) # tot el que tenim al nostre output

4 Inferència per la regressió

4.1 Hipòtesis estàndards

1. Les xi són un número fixat o independent del terme d’error ε.

Teorema de Gauss-Markov: Denotem la recta de regressió de la població per:

4.3 Distribució de b: intervals de confiança

No és difı́cil veure que:

1. E(b) = β, per tant, és un bn estimador de β.

Utilitzant això, l’interval de confiança utilitzant el mètode habitual:

Amb R, podem utilitzant la funció confint.

# heu d’anar exectuant lı́nia per lı́nia i observant els resultats.

#per comoditat, posem x i y a les variables

# calculem les desviacions i sumes de quadrats

# coeficients de la recta de regressió y=a+bx

# els errors, la seva suma de quadrats i la mitjana

#interval de confiança i la comprovació

4.4 Contrast d’hipòtesis pel pendent b

Residual standard error: 5.916 on 193 degrees of freedom

1. Escriure les hipòtesis

Call: lm(formula = divorcis ˜ anys)

Residual standard error: 4.037 on 4 degrees of freedom

1975 1976 1977 1978 1979 1980

Figura 4: Gràfic de punts de les dades de divorcis amb la recta de regressió.

Una altra vegada tenim:

Llavors considerem la mitjana quadràtica, MST, MSR i MSE.

F-test pel model de regressió. Tenim les següents hipòtesis

H0 : No hi ha dependència lineal entre x i y

Podem resumir la taula ANOVA de la següent manera

Font de variabilitat Suma de quadrats g.ll Mitjana de quadrats F-ràtio

Exemple 9. Utilitzem altra vegada les dades de l’exemple 2.

5.1 Coeficient de determinació R2

1. Donat x0 , quina seria la resposta mitjana de y?

#interval de confiança per la predicció de valors individuals

Pressió (mm): 768 769 770 773 774 775

Pearson’s product-moment correlation

data: pres and temp

Observem que n = 16, és el valor que buscàvem.

(b) Obre un script a R, i escriu-hi les següents instruccions:

(a) Dibuixa el diagrama de dispersió de les dades i comenta’l.

Call: lm(formula = final ˜ parcial)

Residual standard error: 13.14 on 12 degrees of freedom