05.lecture 5.hoi Quy Tuyen Tinh

1
Give a man three weapons – correlation, regression and a

pen – and he will use all three (Anon, 1978)
1
Ví dụ ID Age Chol (mg/ml)
1 46 3.5
2 20 1.9
Tuổi và hàm lượng 3 52 4.0
cholesterol 4 30 2.6
Trong 18 cá nhân 5 57 4.5
nghiên cứu 6 25 3.0
7 28 2.9
8 36 3.8
9 22 2.1
10 43 3.8
11 57 4.1
12 33 3.0
13 22 2.5
14 63 4.6
15 40 3.2
16 48 4.2
17 28 2.3
18 49 4.0
3
Nhập dữ liệu trong R

id <- seq(1:18)
age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,
43, 57, 33, 22, 63, 40, 48, 28, 49)
chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1,
3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
plot(chol ~ age, pch=16)
2
4.5
4.0
3.5
chol
3.0
2.5
2.0
20 30 40 50 60
age
Câu hỏi quan tâm

Mối liên hệ giữa tuổi và hàm lượng cholesterol
Độ mạnh của mối liên hệ
Tiên đoán về hàm lượng cholesterol dựa vào tuổi
Phân tích tương quan và hồi quy
3
Phương sai và đồng phương sai: đại số
Gọi x và y là 2 biến ngẫu nhiên lấy ra từ mẫu n quan sát.
Đo lường Measure sự sai khác của x và y: phương sai
( xi − x )2 ( yi − y )2
var( x ) = 
n
var( y ) = 
n
i =1 n −1 i =1 n −1
• Đo mức độ đồng phương sai giữa x và y?

• Quan điểm đại số:
var(x + y) = var(x) + var(y)
var(x + y) = var(x) + var(y) + 2cov(x,y)
Trong đó: cov( x, y ) = 1 n ( x − x )( y − y )
n − 1 i =1
i i
Phương sai và đồng phương sai: hình học

Sự độc lập hoặc phụ thuộc giữa x và y có thể biểu diễn như
sau:
h y
h
y
H
x x
h2 = x2 + y2 h2 = x2 + y2 – 2xycos(H)
4
Ý nghĩa của phương sai và đồng phương sai
Phương sai luôn luôn dương

Nếu đồng phương sai= 0, x và y độc lập.
Đồng phương sai là tổng của các sản phẩm: có thể
âm hoặc dương.
Đồng phương sai âm= độ lệch trong 2 phân phối

theo hai hướng ngược nhau, ví dụ sai khác về gen.
Đồng phương sai dương = độ lệch trong 2 phân
phối cùng hướng.
Đồng phương sai= đo độ mạnh của sự liên hệ
Đồng phương sai và tương quan

Đông phương sai là đơn vị độc lập.
Hệ số tương quan (r) giữa x và y là đồng phương sai chuẩn.
r được xác định như sau:
cov( x, y ) cov( x, y )
r= =
var( x ) × var( y ) SDx × SDy
Câu hỏi:
Có bao nhiêu hệ số tương quan? Sự khác nhau giữa các hệ số

này? Đọc chương 10
10
5
Hệ số tương quan dương và âm
r = 0.9 r = -0.9
-15
30
-20
25
y
y
-25
20
-30
15
8 10 12 14 16 8 10 12 14 16
x x
11
Kiểm định về giả thiết tương quan

Giả thiết: Ho: r = 0 đối giả thiết Ho: r không bằng 0.
Sai số chuẩn của r là:
Kiểm định t: 1− r2
SE (r ) =
n−2
n−2
t=r
1− r2
• Kiểm định này có phân phối t với bậc tự do, df=n-2.
1 1 + r 
• Chuyển sang số z: z = ln 
2 1− r 
SE ( z ) =
1 1
• Sai số chuẩn của z:
n−3 z±
• 95% mức độ tin cậy của z có thể được xây dựng
n−3
12
6
Ví dụ về phân tích hệ số tương quan
ID Age Cholesterol
(x) (y; mg/100ml)
1 46 3.5 Cov(x, y) = 10.68
cov( x, y )
2 20 1.9
10.68
3 52 4.0 r= = = 0.94
4 30 2.6 SDx × SD y 13.60 × 0.84
5 57 4.5
6 25 3.0 1  1 + 0.94 
7 28 2.9 z = ln   = 0.56
8 36 3.8
2  1 − 0.94 
9 22 2.1 1 1
10 43 3.8 SE ( z ) = = = 0.26
11 57 4.1 n−3 15
12 33 3.0
13 22 2.5
14 63 4.6
t-statistic = 0.56 / 0.26 = 2.17
15 40 3.2
Giá trị với n-2=16, alpha = 5% ta có 2.11
16 48 4.2
17 28 2.3 Kết luận: Có sự liên hệ có ý nghĩa giữa tuổi và
18 49 4.0
hàm lượng cholesterol.
Mean 38.83 3.33
SD 13.60 0.84
13
Phân tích hồi quy đơn giản

• Chỉ có 2 biến quan tâm: một biến trả lời, 2 là biến
dự đoán
• Không cần điều chỉnh những biến khó
Đánh giá:
Định tính mối quan hệ giữa 2 biến
Dự đoán
Dự đoán và đánh giá kiểm định
Kiểm soát
Điều chỉnh vì hiệu ứng phức tạp (trong trường hợp
nhiều biến)
14
7
Mối quan hệ giữa độ tuổi và hàm lượng cholesterol
15
Hồi quy tuyến tính: Mô hình

Y : biến ngẫu nhiên đại diện cho biến trả lời
X : biến ngẫu nhiên đại diện cho biến dự đoán (dự
đoán, yếu tố rủi ro)
Cả Y và X có thể là biến gián đoạn (ví dụ, có/không) hoặc biến
liên tục( trứng, tuổi).
Nếu Y là biến gián đoạn thì mô hình là hồi quy logistic; nếu Y
là biến liên tục thì mô hình hồi quy tuyến tính đơn giản
Mô hình
Y = α + βX + ε
α : intercept
β : slope / gradient
ε : random error (variation between subjects in y even if x is constant,
e.g., variation in cholesterol for patients of the same age.)
16
8
Hồi quy tuyến tính: giả thiết
Mối liên hệ là tuyến tính đối với những tham số khảo sát;
X được đo lường không có sai số;
Giá trị của Y độc lập với nhau (e.g., Y1 không tương quan với Y2) ;
Kí hiệu sai số ngẫu nhiên (ε) là phân bố chuẩn với giá trị TB là
không và phương sai là hằng số.
17
Giá trị kỳ vọng và phương sai

Nếu giả thiết là hợp lý:
Giá trị kỳ vọng của Y là: E(Y | x) = α + βx
Phương sai Y is: var(Y) = var(ε) = σ2
18
9
Ước lượng mô hình tham số
Cho 2 điểm A(x1, y1) và B(x2, y2) trong không gian 2 chiều, chúng
ta có thể đưa ra một phương trình nối các điểm.
dy y − y
y Gradient: m = dx = x2 − x1
2 1
B(x2,y2)
C(x3,y3) Equation: y = mx + a
dy
A(x1,y1)
a dx Điều gì xẩy ra nếu có

nhiều hơn 3 điểm
0
x
19
Ước lượng α and β

Cho n cặp số: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn)
Đặt a và b là ước lượng mẫu cho tham số α và
β,
Phương trình mẫu: Y* = a + bx
Mục tiêu: Tìm giá trị a và b sao cho (Y – Y*) là

nhỏ nhất.
Đặt SSE = Σ(Yi – a – bxi)2.

Giá trị a và b tìm được mà SSE nhỏ nhất gọi là
ước lượng bình phương cực tiểu.
20
10
Tiêu chuẩn ước lượng
yˆ i = a + bxi
d i = yi − yˆ i
yi
Chol
Mục tiêu của ước lượng bình phương cực tiểu là

tìm giá trị a và b để Σd2 là nhỏ nhất.
Age
21
Ước lượng giá trị của α và β

Sau một số công thức tính toán, kết quả thu được như
sau:
a = y − bx S xy
b=
S xx
S xx =  ( xi − x )
n 2
Trong đó: i =1
S xy =  ( xi − x )( yi − y )
n
i =1
• Khi phương trình hồi quy có nghĩa, ước lượng của α và β có những đặc điểm
sau:
– Tương đồng
– Phương sai đồng nhất
22
11
Mô tả sự sai khác: các khái niệm
SST = Sum of squared difference between yi and the mean
of y.
SSR = sum of squared difference between the predicted

value of y and the mean of y.
SSE = sum of squared difference between the observed

and predicted value of y.
SST = SSR + SSE
Hệ số xác định R2 là: R2 = SSR / SST
23
Mô tả sự sai khác: Hình học
SSE
SST
Chol (Y) SSR
mean
Age (X)
24
12
Goodness-of-fit
Bây giờ, ta có phương trình Y = a + bX + e
Câu hỏi:: Làm cách nào biết phương trình hồi quy
mô tả đúng số liệu?
Trả lời: Hệ số xác định (R2): tổng số sự khác biệt ở Y

được giải thích do sự khác biệt ở X.
25
Mô tả sự sai khác: Đại số
• Một số đại lương thống kê:

SST =  ( yi − y )
n 2
• Tổng bình phương phương sai:
i =1
=  ( yˆ i − y )
n 2
• Tổng bình phương phương sai: SSR
của mô hình i =1
SSE =  ( yi − yˆ i )
• Tổng bình phương sai số: n 2
• Trong đó i =1
• SST = SSR + SSE

• SSR = SST – SSE
26
13
Phân tích phương sai
SS tăng theo tỉ lệ đối với kích thước mẫu (n)
Bình phương trung bình (MS): chuẩn hóa theo bậc tự do (df)
MSR = SSR / p ( với p = số bậc tự do)
MSE = SSE / (n – p – 1)
MST = SST / (n – 1)
• Bảng phân tích phương sai (ANOVA) :

Nguồn gốc Bậc tụ Sum of Mean F-test
phương sai do squares squares
(d.f) (SS) (MS)
Hồi quy p SSR MSR MSR/MSE
Phần dư N–p –1 SSE MSE
Tổng n–1 SST
27
Lưu ý: Báo cáo kết quả
Các kết quả nên báo cáo đầy đủ các chi tiết: bản chất của
biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào,
kiểm tra giả thiết, etc.
Hệ số hồi quy (a, b), sai số chuẩn và R2 là những tóm tắt

hữu dụng.
28
14
Lưu ý
Các phương trình là nền tảng cho mối liên hệ về kết

quả trả lời
Phương trình giống như bài thơ, đôi khi là củ hành

Vì thế cẩn thận khi xây dựng phương trình!
29
Kiểm định giả thiết trong phân tích hồi quy

Ta có
Mẫu: Y = a + bX + e
Tập hợp: Y = α + βX + ε
Ho: β = 0. Không có sự liên hệ giữa biến kết quả X và

biến dự đoán (Y).
Nói theo ngôn ngữ bình dân: “what is the chance,

given the sample data that we observed, of observing a
sample of data that is less consistent with the null
hypothesis of no association?”
30
15
Suy diễn về độ dốc (tham số β)
Nhắc lại ε để khẳng định đó là phân phối chuẩn
với giá trị trung bình =0 và phương sai = σ2.
Ước lượng của σ2 là MSE ( hoặc s2)
Có thể cho thấy:
Kỳ vọng của giá trị b là β, ví dụ. E(b) = β,
Sai số chuẩn của b là:
SE (b ) = s / S xx
Sau đó giả sử β = 0 thì: t = b / SE(b) tuân theo
phân phối t với bậc tự do là n-1
31
Khoảng tin cậy quanh giá trị dự đoán

Giá trị quan sát là Yi.
Yî = a + bxi
Giá trị dự đoán là
Sai số chuẩn của giá trị tiên đoán là:

1 (x − x )
SE (Yî ) = s 1 + + i
2
n S xx
Khoảng ước lượng của giá trị Yi
Yî ± SE (Yî )× (t n − p −1,1−α / 2 )

32
16
Kiểm tra giả thiết
Kiểm tra sự ổn định phương sai
Kiểm tra phân phối chuẩn
Tính chính xác của hàm số
Sự ổn định của mô hình
Tất cả có thể tiến hành bởi phân tích đồ thị. Giá trị
phần dư từ mô hình hoặc đồ thị phần dư đóng vai
trò quan trọng trong tất cả các quy trình phân tích
33
Kiểm tra giả thiết

Kiểm tra về phương sai (constant)
Plot the studentized residuals versus their predicted values.
Examine whether the variability between residuals remains
relatively constant across the range of fitted values.
Assumption of normality
Plot the residuals versus their expected values under normality
(Normal probability plot). If the residuals are normally distributed,
it should fall along a 45o line.
Correct functional form?
Plot the residuals versus fitted values. Examine whether the
residual plot for evidence of a non-linear trend in the value of the
residual across the range of fitted values.
Model stability
Check whether one or more observations are influential. Use
Cook’s distance.
34
17
Kiểm tra phương trình
Cook’s distance (D) is a measure of the magnitude
by which the fitted values of the regression model
change if the ith observation is removed from the data
set.
Leverage is a measure of how extreme the value of xi
is relative to the remaining value of x.
The Studentized residual provides a measure of
how extreme the value of yi is relative to the
remaining value of y.
35
Đo lường sự chính xác

Phương sai không là hằng số (Non-constant variance)
Transform the response variable (y) to a new scale (e.g.
logarithm) is often helpful.
If no transformation can achieve the non-constant variance
problem, use a more robust estimator such as iterative weighted
least squares.
Không phân phối chuẩn (Non-normality)
Non-normality and non-constant variance go hand-in-hand.
Số liệu ngoại lai (Outliers)
Check for accuracy
Use robust estimator
36
18
Regression analysis using R
age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,
43, 57, 33, 22, 63, 40, 48, 28, 49)
chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1,
3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
#Fit linear regression model
reg <- lm(chol ~ age)

summary(reg)
37
ANOVA result
> anova(reg)
Analysis of Variance Table
Response: chol
Df Sum Sq Mean Sq F value Pr(>F)
age 1 10.4944 10.4944 114.57 1.058e-08 ***
Residuals 16 1.4656 0.0916
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
38
19
Results of R analysis
> summary(reg)
Chol=1.089*age+0.058
Call: Chol=1.089+0.058*age
lm(formula = chol ~ age)
Residuals:
Min 1Q Median 3Q Max
-0.40729 -0.24133 -0.04522 0.17939 0.63040
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.089218 0.221466 4.918 0.000154 ***
age 0.057788 0.005399 10.704 1.06e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3027 on 16 degrees of freedom

Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698
F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08
39
Diagnostics: influential data

par(mfrow=c(2,2)) Residuals vs Fitted Normal Q-Q
plot(reg)
0.6
8 8
2
Standardized residuals
6 6
0.4
1
Residuals
0.2
0.0
0
-1
-0.4
17
17
2.5 3.0 3.5 4.0 4.5 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

1.5
8 1
8
2
6
17 6 0.5
1.0
1
0
0.5
-1
2
Cook's distance
0.0
0.5
2.5 3.0 3.5 4.0 4.5 0.00 0.05 0.10 0.15 0.20 0.25
Fitted values Leverage 40
20
Frank Anscombe’ data
41
Frank Anscombe’ data
Mean, SD
Correlation
42
21
Regression analysis
43
Đồ thị phần dư
44
22
A non-linear illustration: BMI and sexual attractiveness
Study on 44 university students

Measure body mass index (BMI)
Sexual attractiveness (SA) score
id <- seq(1:44)
bmi <- c(11.00, 12.00, 12.50, 14.00, 14.00, 14.00, 14.00,
14.00, 14.00, 14.80, 15.00, 15.00, 15.50, 16.00,
16.50, 17.00, 17.00, 18.00, 18.00, 19.00, 19.00,
20.00, 20.00, 20.00, 20.50, 22.00, 23.00, 23.00,
24.00, 24.50, 25.00, 25.00, 26.00, 26.00, 26.50,
28.00, 29.00, 31.00, 32.00, 33.00, 34.00, 35.50,
36.00, 36.00)
sa <- c(2.0, 2.8, 1.8, 1.8, 2.0, 2.8, 3.2, 3.1, 4.0, 1.5,
3.2, 3.7, 5.5, 5.2, 5.1, 5.7, 5.6, 4.8, 5.4, 6.3,
6.5, 4.9, 5.0, 5.3, 5.0, 4.2, 4.1, 4.7, 3.5, 3.7,
3.5, 4.0, 3.7, 3.6, 3.4, 3.3, 2.9, 2.1, 2.0, 2.1,
2.1, 2.0, 1.8, 1.7)
45
Linear regression analysis of BMI and SA

reg <- lm (sa ~ bmi)
summary(reg)
Residuals:
Min 1Q Median 3Q Max
-2.54204 -0.97584 0.05082 1.16160 2.70856
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.92512 0.64489 7.637 1.81e-09 ***
bmi -0.05967 0.02862 -2.084 0.0432 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.354 on 42 degrees of freedom

Multiple R-Squared: 0.09376, Adjusted R-squared: 0.07218
F-statistic: 4.345 on 1 and 42 DF, p-value: 0.04323
46
23
BMI and SA: analysis of residuals
plot(reg) Residuals vs Fitted Normal Q-Q
2
21 21
20 20
2
1
1
Residuals
0
-1
-1
-2
10
-3
10
-2
3.0 3.5 4.0 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

21
20 10
2
1.2
1
0.8
0
0.4
-1
3 1
-2
10
Cook's distance
0.0
3.0 3.5 4.0 0.00 0.02 0.04 0.06 0.08 0.10 0.12
Fitted values Leverage 47
BMI and SA: a simple plot

par(mfrow=c(1,1))
reg <- lm(sa ~ bmi)
plot(sa ~ bmi, pch=16)
abline(reg)
6
5
sa
4
3
2
10 15 20 25 30 35
bmi
48
24
Re-analysis of sexual attractiveness data
# Fit 3 regression models
linear <- lm(sa ~ bmi)
quad <- lm(sa ~ poly(bmi, 2))
cubic <- lm(sa ~ poly(bmi, 3))
# Make new BMI axis

bmi.new <- 10:40
# Get predicted values

quad.pred <- predict(quad,data.frame(bmi=bmi.new))
cubic.pred <- predict(cubic,data.frame(bmi=bmi.new))
# Plot predicted values

abline(reg)
lines(bmi.new, quad.pred, col="blue",lwd=3)
lines(bmi.new, cubic.pred, col="red",lwd=3)
49
6
5
sa
4
3
2
10 15 20 25 30 35
bmi
50
25
Some comments: Interpretation of correlation
Correlation lies between –1 and +1. A very small correlation
does not mean that no linear association between the two
variables. The relationship may be non-linear.
For curlinearity, a rank correlation is better than the Pearson’s

correlation.
A small correlation (eg 0.1) may be statistically significant,

but clinically unimportant.
R2 is another measure of strength of association. An r = 0.7

may sound impressive, but R2 is 0.49!
Correlation does not mean causation.
51
Some comments:Interpretation of correlation

Be careful with multiple correlations. For p variables, there are
p(p – 1)/2 possible pairs of correlation, and false positive is a
problem.
Correlation can not be inferred directly from association.

r(age, weight) = 0.05; r(weight, fat) = 0.03; it does not mean that
r(age, fat) is near zero.
In fact, r(age, fat) = 0.79.
52
26
Some comments: Interpretation of regression
The fitted line (regression) is only an estimated of the

relation between these variables in the population.
Uncertainty associated with estimated parameters.
Regression line should not be used to make

prediction of x values outside the range of values in
the observed data.
A statistical model is an approximation; the “true”

relation may be nonlinear, but a linear is a reasonable
approximation.
53
Lưu ý: Báo cáo kết quả
Các kết quả nên báo cáo đầy đủ các chi tiết: bản chất của
biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào,
kiểm tra giả thiết, etc.
Hệ số hồi quy (a, b), sai số chuẩn và R2 là những tóm tắt

hữu dụng.
54
27
Lưu ý
Các phương trình là nền tảng cho mối liên hệ về kết
quả trả lời (Equations are the cornerstone on which
the edifice of science rests)
Phương trình giống như bài thơ, đôi khi là củ hành

Vì thế cẩn thận khi xây dựng phương trình!
55
28

05.lecture 5.hoi Quy Tuyen Tinh

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

05.lecture 5.hoi Quy Tuyen Tinh

Uploaded by

Copyright:

Available Formats

1

Give a man three weapons – correlation, regression and a

Nhập dữ liệu trong R

Câu hỏi quan tâm

Phân tích tương quan và hồi quy

• Đo mức độ đồng phương sai giữa x và y?

Phương sai và đồng phương sai: hình học

Phương sai luôn luôn dương

Đồng phương sai âm= độ lệch trong 2 phân phối

Đồng phương sai và tương quan

Có bao nhiêu hệ số tương quan? Sự khác nhau giữa các hệ số

Kiểm định về giả thiết tương quan

Phân tích hồi quy đơn giản

Hồi quy tuyến tính: Mô hình

X được đo lường không có sai số;

Giá trị kỳ vọng và phương sai

a dx Điều gì xẩy ra nếu có

Ước lượng α and β

Mục tiêu: Tìm giá trị a và b sao cho (Y – Y*) là

Đặt SSE = Σ(Yi – a – bxi)2.

Mục tiêu của ước lượng bình phương cực tiểu là

Ước lượng giá trị của α và β

SSR = sum of squared difference between the predicted

SSE = sum of squared difference between the observed

SST = SSR + SSE

Hệ số xác định R2 là: R2 = SSR / SST

Mô tả sự sai khác: Hình học

Trả lời: Hệ số xác định (R2): tổng số sự khác biệt ở Y

Mô tả sự sai khác: Đại số

• Một số đại lương thống kê:

• SST = SSR + SSE

• Bảng phân tích phương sai (ANOVA) :

Lưu ý: Báo cáo kết quả

Hệ số hồi quy (a, b), sai số chuẩn và R2 là những tóm tắt

Các phương trình là nền tảng cho mối liên hệ về kết

Phương trình giống như bài thơ, đôi khi là củ hành

Kiểm định giả thiết trong phân tích hồi quy

Ho: β = 0. Không có sự liên hệ giữa biến kết quả X và

Nói theo ngôn ngữ bình dân: “what is the chance,

Khoảng tin cậy quanh giá trị dự đoán

Sai số chuẩn của giá trị tiên đoán là:

Yˆi ± SE (Yˆi )× (t n − p −1,1−α / 2 )

Kiểm tra giả thiết

Đo lường sự chính xác

#Fit linear regression model

reg <- lm(chol ~ age)

Residual standard error: 0.3027 on 16 degrees of freedom

Diagnostics: influential data

2.5 3.0 3.5 4.0 4.5 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

Fitted values Leverage 40

Frank Anscombe’ data

Study on 44 university students

Linear regression analysis of BMI and SA

Residual standard error: 1.354 on 42 degrees of freedom

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

Fitted values Leverage 47

BMI and SA: a simple plot

# Make new BMI axis

# Get predicted values

# Plot predicted values