Professional Documents
Culture Documents
1
Ví dụ ID Age Chol (mg/ml)
1 46 3.5
2 20 1.9
Tuổi và hàm lượng 3 52 4.0
cholesterol 4 30 2.6
Trong 18 cá nhân 5 57 4.5
nghiên cứu 6 25 3.0
7 28 2.9
8 36 3.8
9 22 2.1
10 43 3.8
11 57 4.1
12 33 3.0
13 22 2.5
14 63 4.6
15 40 3.2
16 48 4.2
17 28 2.3
18 49 4.0
3
2
4.5
4.0
3.5
chol
3.0
2.5
2.0
20 30 40 50 60
age
3
Phương sai và đồng phương sai: đại số
Gọi x và y là 2 biến ngẫu nhiên lấy ra từ mẫu n quan sát.
Đo lường Measure sự sai khác của x và y: phương sai
( xi − x )2 ( yi − y )2
var( x ) =
n
var( y ) =
n
i =1 n −1 i =1 n −1
h y
h
y
H
x x
h2 = x2 + y2 h2 = x2 + y2 – 2xycos(H)
4
Ý nghĩa của phương sai và đồng phương sai
cov( x, y ) cov( x, y )
r= =
var( x ) × var( y ) SDx × SDy
Câu hỏi:
10
5
Hệ số tương quan dương và âm
r = 0.9 r = -0.9
-15
30
-20
25
y
y
-25
20
-30
15
8 10 12 14 16 8 10 12 14 16
x x
11
n−2
t=r
1− r2
• Kiểm định này có phân phối t với bậc tự do, df=n-2.
1 1 + r
• Chuyển sang số z: z = ln
2 1− r
SE ( z ) =
1 1
• Sai số chuẩn của z:
n−3 z±
• 95% mức độ tin cậy của z có thể được xây dựng
n−3
12
6
Ví dụ về phân tích hệ số tương quan
ID Age Cholesterol
(x) (y; mg/100ml)
1 46 3.5 Cov(x, y) = 10.68
cov( x, y )
2 20 1.9
10.68
3 52 4.0 r= = = 0.94
4 30 2.6 SDx × SD y 13.60 × 0.84
5 57 4.5
6 25 3.0 1 1 + 0.94
7 28 2.9 z = ln = 0.56
8 36 3.8
2 1 − 0.94
9 22 2.1 1 1
10 43 3.8 SE ( z ) = = = 0.26
11 57 4.1 n−3 15
12 33 3.0
13 22 2.5
14 63 4.6
t-statistic = 0.56 / 0.26 = 2.17
15 40 3.2
Giá trị với n-2=16, alpha = 5% ta có 2.11
16 48 4.2
17 28 2.3 Kết luận: Có sự liên hệ có ý nghĩa giữa tuổi và
18 49 4.0
hàm lượng cholesterol.
Mean 38.83 3.33
SD 13.60 0.84
13
Đánh giá:
Định tính mối quan hệ giữa 2 biến
Dự đoán
Dự đoán và đánh giá kiểm định
Kiểm soát
Điều chỉnh vì hiệu ứng phức tạp (trong trường hợp
nhiều biến)
14
7
Mối quan hệ giữa độ tuổi và hàm lượng cholesterol
15
Mô hình
Y = α + βX + ε
α : intercept
β : slope / gradient
ε : random error (variation between subjects in y even if x is constant,
e.g., variation in cholesterol for patients of the same age.)
16
8
Hồi quy tuyến tính: giả thiết
Mối liên hệ là tuyến tính đối với những tham số khảo sát;
Giá trị của Y độc lập với nhau (e.g., Y1 không tương quan với Y2) ;
Kí hiệu sai số ngẫu nhiên (ε) là phân bố chuẩn với giá trị TB là
không và phương sai là hằng số.
17
18
9
Ước lượng mô hình tham số
Cho 2 điểm A(x1, y1) và B(x2, y2) trong không gian 2 chiều, chúng
ta có thể đưa ra một phương trình nối các điểm.
dy y − y
y Gradient: m = dx = x2 − x1
2 1
B(x2,y2)
C(x3,y3) Equation: y = mx + a
dy
A(x1,y1)
19
20
10
Tiêu chuẩn ước lượng
yˆ i = a + bxi
d i = yi − yˆ i
yi
Chol
Age
21
S xx = ( xi − x )
n 2
Trong đó: i =1
S xy = ( xi − x )( yi − y )
n
i =1
• Khi phương trình hồi quy có nghĩa, ước lượng của α và β có những đặc điểm
sau:
– Tương đồng
– Phương sai đồng nhất
22
11
Mô tả sự sai khác: các khái niệm
SST = Sum of squared difference between yi and the mean
of y.
23
SSE
SST
Chol (Y) SSR
mean
Age (X)
24
12
Goodness-of-fit
Bây giờ, ta có phương trình Y = a + bX + e
Câu hỏi:: Làm cách nào biết phương trình hồi quy
mô tả đúng số liệu?
25
= ( yˆ i − y )
n 2
• Tổng bình phương phương sai: SSR
của mô hình i =1
SSE = ( yi − yˆ i )
• Tổng bình phương sai số: n 2
• Trong đó i =1
13
Phân tích phương sai
SS tăng theo tỉ lệ đối với kích thước mẫu (n)
Bình phương trung bình (MS): chuẩn hóa theo bậc tự do (df)
MSR = SSR / p ( với p = số bậc tự do)
MSE = SSE / (n – p – 1)
MST = SST / (n – 1)
Các kết quả nên báo cáo đầy đủ các chi tiết: bản chất của
biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào,
kiểm tra giả thiết, etc.
28
14
Lưu ý
29
30
15
Suy diễn về độ dốc (tham số β)
Nhắc lại ε để khẳng định đó là phân phối chuẩn
với giá trị trung bình =0 và phương sai = σ2.
Ước lượng của σ2 là MSE ( hoặc s2)
Có thể cho thấy:
Kỳ vọng của giá trị b là β, ví dụ. E(b) = β,
Sai số chuẩn của b là:
SE (b ) = s / S xx
Sau đó giả sử β = 0 thì: t = b / SE(b) tuân theo
phân phối t với bậc tự do là n-1
31
Yˆi = a + bxi
Giá trị dự đoán là
n S xx
Khoảng ước lượng của giá trị Yi
16
Kiểm tra giả thiết
Kiểm tra sự ổn định phương sai
Kiểm tra phân phối chuẩn
Tính chính xác của hàm số
Sự ổn định của mô hình
Tất cả có thể tiến hành bởi phân tích đồ thị. Giá trị
phần dư từ mô hình hoặc đồ thị phần dư đóng vai
trò quan trọng trong tất cả các quy trình phân tích
33
34
17
Kiểm tra phương trình
Cook’s distance (D) is a measure of the magnitude
by which the fitted values of the regression model
change if the ith observation is removed from the data
set.
Leverage is a measure of how extreme the value of xi
is relative to the remaining value of x.
The Studentized residual provides a measure of
how extreme the value of yi is relative to the
remaining value of y.
35
36
18
Regression analysis using R
age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,
43, 57, 33, 22, 63, 40, 48, 28, 49)
chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1,
3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
37
ANOVA result
> anova(reg)
Analysis of Variance Table
Response: chol
Df Sum Sq Mean Sq F value Pr(>F)
age 1 10.4944 10.4944 114.57 1.058e-08 ***
Residuals 16 1.4656 0.0916
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
38
19
Results of R analysis
> summary(reg)
Chol=1.089*age+0.058
Call: Chol=1.089+0.058*age
lm(formula = chol ~ age)
Residuals:
Min 1Q Median 3Q Max
-0.40729 -0.24133 -0.04522 0.17939 0.63040
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.089218 0.221466 4.918 0.000154 ***
age 0.057788 0.005399 10.704 1.06e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
8 8
2
Standardized residuals
6 6
0.4
1
Residuals
0.2
0.0
0
-1
-0.4
17
17
8 1
8
2
6
Standardized residuals
Standardized residuals
17 6 0.5
1.0
1
0
0.5
-1
2
Cook's distance
0.0
0.5
2.5 3.0 3.5 4.0 4.5 0.00 0.05 0.10 0.15 0.20 0.25
20
Frank Anscombe’ data
41
Mean, SD
Correlation
42
21
Regression analysis
43
Đồ thị phần dư
44
22
A non-linear illustration: BMI and sexual attractiveness
id <- seq(1:44)
bmi <- c(11.00, 12.00, 12.50, 14.00, 14.00, 14.00, 14.00,
14.00, 14.00, 14.80, 15.00, 15.00, 15.50, 16.00,
16.50, 17.00, 17.00, 18.00, 18.00, 19.00, 19.00,
20.00, 20.00, 20.00, 20.50, 22.00, 23.00, 23.00,
24.00, 24.50, 25.00, 25.00, 26.00, 26.00, 26.50,
28.00, 29.00, 31.00, 32.00, 33.00, 34.00, 35.50,
36.00, 36.00)
sa <- c(2.0, 2.8, 1.8, 1.8, 2.0, 2.8, 3.2, 3.1, 4.0, 1.5,
3.2, 3.7, 5.5, 5.2, 5.1, 5.7, 5.6, 4.8, 5.4, 6.3,
6.5, 4.9, 5.0, 5.3, 5.0, 4.2, 4.1, 4.7, 3.5, 3.7,
3.5, 4.0, 3.7, 3.6, 3.4, 3.3, 2.9, 2.1, 2.0, 2.1,
2.1, 2.0, 1.8, 1.7)
45
Residuals:
Min 1Q Median 3Q Max
-2.54204 -0.97584 0.05082 1.16160 2.70856
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.92512 0.64489 7.637 1.81e-09 ***
bmi -0.05967 0.02862 -2.084 0.0432 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
46
23
BMI and SA: analysis of residuals
plot(reg) Residuals vs Fitted Normal Q-Q
2
21 21
20 20
Standardized residuals
2
1
1
Residuals
0
-1
-1
-2
10
-3
10
-2
3.0 3.5 4.0 -2 -1 0 1 2
2
1.2
Standardized residuals
Standardized residuals
1
0.8
0
0.4
-1
3 1
-2
10
Cook's distance
0.0
3.0 3.5 4.0 0.00 0.02 0.04 0.06 0.08 0.10 0.12
4
3
2
10 15 20 25 30 35
bmi
48
24
Re-analysis of sexual attractiveness data
# Fit 3 regression models
linear <- lm(sa ~ bmi)
quad <- lm(sa ~ poly(bmi, 2))
cubic <- lm(sa ~ poly(bmi, 3))
49
6
5
sa
4
3
2
10 15 20 25 30 35
bmi
50
25
Some comments: Interpretation of correlation
Correlation lies between –1 and +1. A very small correlation
does not mean that no linear association between the two
variables. The relationship may be non-linear.
51
52
26
Some comments: Interpretation of regression
Các kết quả nên báo cáo đầy đủ các chi tiết: bản chất của
biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào,
kiểm tra giả thiết, etc.
54
27
Lưu ý
Các phương trình là nền tảng cho mối liên hệ về kết
quả trả lời (Equations are the cornerstone on which
the edifice of science rests)
55
28