Chương 7. Mô hình hồi quy tuyến tính bội

Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc
Mô hình hồi quy tuyến tính bội
Vũ Đinh Trường An Lê Nguyên Bách

Nguyễn Việt Dũng Chu Thị Ngân Phạm Nhật Quang
Viện Toán Ứng Dụng và Tin Học

Đại học Bách Khoa Hà Nội
MI CTTN K64 - Group 8 SAMI

Mô hình hồi quy tuyến tính bội 1 / 129
Đánh giá mức độ tích cực

1 Mở đầu về mô hình hồi quy
2 Mô hình hồi quy tuyến tính cổ điển
3 Ước lượng bình phương cực tiểu
4 Ước lượng khoảng của mô hình hồi quy
5 Ước lượng hàm hồi quy tuyến tính
6 Kiểm tra mô hình và các khía cạnh khác của hồi quy
7 Mô hình hồi quy tuyến tính đa bội
8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính
9 So sánh giữa hai cách tiếp cận
10 Mô hình hồi quy tuyến tính với chuỗi thời gian

Giới thiệu
Hồi quy tuyến tính (Linear regeression) là một phương pháp

thống kê biểu diễn mỗi quan hệ giữa một hoặc nhiều biến độc lập
(predictor variable(s)) với một hoặc nhiều biến phụ thuộc
(response variable(s))
Hồi quy tuyến tính thường được sử dụng trong các bài toán
phân tích, dự đoán. Ví dụ

Chiều Độ Giới Chế độ
= β0 + β1 + β2 + β3
cao tuổi tính dinh dưỡng

Phân loại
Mô hình hồi quy tuyến tính có 3 dạng

• Hồi quy đơn tuyến tính
Y = β0 + β1 z + ε
• Hồi quy đa tuyến tính
Y = β0 + β1 z1 + · · · + βn zn + ε
• Hồi quy tuyến tính đa bội

 
β01 β12
Y11 Y12 1 z11 z12  ε 11 ε 12
= β11 β12  +
Y21 Y22 1 z21 z22 ε21 ε22
β21 β22


Thiết lập mô hình
Mô hình hồi quy với duy nhất biến phản hồi có dạng
Y = β0 + β1 z1 + β2 z2 + · · · + βr zr + ε
trong đó
• zi : biến dự đoán
• Y : biến phản hồi
• βi : tham số chưa biết
• ε : nhiễu ngẫu nhiên
Ta giả thiết rằng E (ε) = 0 và Var(ε) = σ 2 (σ chưa biết)

Thiết lập mô hình
Với n quan sát độc lập Yi với các biến dự đoán tương ứng zij
(i = 1, n, j = 1, r ), mô hình hồi quy dưới dạng ma trận sẽ có dạng
      
Y1 1 z11 z12 . . . z1r β0 ε1
Y2  1 z21 z22 . . . z2r  β1  ε2 
 ..  =  .. ..   ..  +  .. 
      
.. ..
 .  . . . .  .   . 
Yn 1 zn1 zn2 . . . znr βr εn
Hay
Y = Z β + E
n×1 n×(r +1)(r +1)×1 n×1
Giả thiết rằng E (E) = 0 và Cov(E) = E (EE 0 ) = σ 2 I

n×n


Tiếp cận bằng hình học
Với Y và Z cho trước, ta cần tìm βb sao cho
kEk = kY − Z βk
đạt giá trị nhỏ nhất. Để cho thuận tiện thì ta sẽ chọn k · k = k · k2 .
Như vậy
βb = argmin kY − Z βk22 = argmin (Y − Z β)0 (Y − Z β)

β β
Vector βb được gọi là ước lượng bình phương cực tiểu của β

Đặt
Y
b := Z βb
E
b := Y − Z βb
Y E
b
(P) := span{colk (Z )}rk=1
+1
col2 (Z )
Khi đó
Y
b
(P)
kEk22 min = kEk
b 2⇔Y
2
b = Z βb = projY col1 (Z )
(P)
Nhưng làm sao để tìm được projY ?

(P)

Nhận thấy E
b = Y − Z βb ⊥ colk (Z )
nên
E
Z 0 (Y − Z β) Y
b
b =0
col2 (Z )
Nếu rank Z = r + 1 (full rank) thì
Y
βb = (Z 0 Z )−1 Z 0 Y
b
(P)
col1 (Z )

Ước lượng bình phương cực tiểu

Định lý 3.1
Xét mô hình hồi quy tuyến tính Y = Z β + E với E (E) = 0,

Cov(EE 0 ) = σ 2 I và ma trận Z có hạng đầy đủ. Khi đó ước lượng
bình phương cực tiểu của β là
βb = (Z 0 Z )−1 Z 0 Y
Một số phép đặt thông dụng
H := Z (Z 0 Z )−1 Z 0
Y
b := Z βb = HY
E
b := Y − Y b = (I − H)Y
Từ phép đặt này, ta được Z 0 E b 0E

b = 0 và Y b=0

Định lý 3.1∗
(Ước lượng bình phương cực tiểu chứa trọng số) Xét mô hình hồi
quy tuyến tính Y = Z β + E với E (E) = 0, Cov(EE 0 ) = σ 2 W ,
ma trận Z có hạng đầy đủ và ma trận W đối xứng nửa xác định
dương. Khi đó ước lượng bình phương cực tiểu chứa trọng số của
β là
βbW = (Z 0 W −1 Z )−1 Z 0 W −1 Y
Hơn nữa, ta còn có ước lượng của σ 2 trong trường hợp có ma trận
trọng số W là
1
b2 =
σ (Y − Z βbW )0 W −1 (Y − Z βbW )
n−r −1
b2 ước lượng không chệch của σ 2

Ta có thể chứng minh được σ

Định lý 3.1∗∗
(Mô hình hồi quy tuyến tính với ma trận suy biến) Xét mô hình
hồi quy tuyến tính Y = Z β + E với E (E) = 0, Cov(EE 0 ) = σ 2 I
(Ma trận Z không nhất thiết có hạng đầy đủ). Khi đó ước lượng
bình phương cực tiểu của β là
βb = (Z 0 Z )∗ Z 0 Y
trong đó (Z 0 Z )∗ là một nghịch đảo tổng quát của ma trận Z 0 Z
A∗ nghịch đảo tổng quát của ma trận A nếu
AA∗ A = A
Nghịch đảo tổng quát của ma trận suy biến có thể không duy nhất
Nhận thấy rằng ma trận Z 0 Z là ma trận đối xứng nửa xác định
dương. Do đó nó sẽ có các trị riêng λk ứng với vector riêng v k
thỏa mãn
λ1 ≥ λ2 ≥ · · · ≥ λr ∗ +1 > λr ∗ +2 = · · · = λr +1 = 0
trong đó rank Z = r ∗ + 1 < r + 1. Xét phân tách phổ
Z 0 Z = λ1 v 1 v 01 + λ2 v 2 v 02 + · · · + λr ∗ +1 v r ∗ +1 v 0r ∗ +1
Khi đó một nghịch đảo tổng quát của Z 0 Z được xác định bởi
(Z 0 Z )∗ = λ−1 0 −1 0 −1 0
1 v 1 v 1 + λ2 v 2 v 2 + · · · + λr ∗ +1 v r ∗ +1 v r ∗ +1

Định lý 3.2
Ước lượng βb = (Z 0 Z )−1 Z 0 Y của mô hình hồi quy tuyến tính cổ

điển thỏa mãn
E (β)
b =β và b = σ 2 (Z 0 Z )−1
Cov(β)
Kèm theo đó, sai số E

b = Y − Z βb thỏa mãn
E (E)
b = 0 và b = σ 2 (I − H)
Cov(E)
b E)
Hơn nữa, Cov(β, b =0

Định lý 3.3
(Định lý Gauss về bình phương cực tiểu) Với ước lượng βb =

(Z 0 Z )−1 Z 0 Y của mô hình hồi quy tuyến tính với ma trận không
suy biến thì c 0 βb là ước lượng không chệch của c 0 β và có phương
sai nhỏ nhất so với bất kỳ ước lượng tuyến tính không chệch nào
khác có dạng a 0 Y .
Hệ quả. Nếu thêm dữ kiện E ∼ Nn (0, σ 2 I ) thì c 0 βb là ước lượng

hiệu quả của c 0 β

Hệ số xác định R 2
Ta có
Y 0 Y = (Y b 0 (Y
b + E) b + E) b 0Y
b =Y b 0E
b +E b
n
1X
Đặt Y = Yk . Khi đó biểu thức trên tương đương với
n
k=1
n
X n
X n
X
(Yk − Y )2 = (Ybk − Y )2 + εb2k
k=1 k=1 k=1
Định nghĩa
b 0Y
b − nY 2
Pn Pn
2 Y k=1 (Yk − Y )
b 2 b2k
k=1 ε
R := 2
= Pn 2
= 1 − Pn 2
Y 0 Y − nY k=1 (Yk − Y ) k=1 (Yk − Y )

Hệ số xác định R 2
R 2 được gọi là hệ số xác định của mô hình hồi quy, phản ánh
mức độ phù hợp của mô hình.
Y
b Y
b
•
• •• • •• •
• •
• ••
•• • •
• • • •
• • • •
• • •
Y Y
R2 = 0 R 2 = 0.4
Y
b Y
b
• •
• ••
• • •• •
• • • ••
• •• ••
••
•
• • • ••
Y Y
R 2 = 0.8 R2 = 1
2
Hệ số hiệu chỉnh Radj
R 2 có tính chất tăng khi số điểm dữ liệu tăng, như vậy hệ số này
sẽ không phù hợp khi đánh giá bộ điểm dữ liệu có nhiều outlier.
Để khắc phục điều này, ta sẽ sử dụng giá trị R 2 hiệu chỉnh
2 (1 − R 2 )(n − 1)
Radj =1−
n−r −1
2 với một mẫu, chứ không sử dụng đối với một
Ta chỉ sử dụng Radj
tổng thể.


Phân phối của β
Định lý 4.1
Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z đầy

hạng và E ∼ Nn (0, σ 2 I ). Khi đó
βb ∼ Nr +1 (β, σ 2 (Z 0 Z )−1 )
nb b 0E
σ2 = E b ∼ σ 2 χ2
n−r −1
Hơn nữa, βb và E
b là hai biến độc lập
b 0E
E b
Giá trị s 2 := sẽ rất hữu dụng cho các nghiên cứu về sau
n−r −1
của mô hình hồi quy

Định lý 4.2
Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z

đầy hạng và E ∼ Nn (0, σ 2 I ). Khi đó miền tin cậy đồng thời mức
100(1 − α)% của β được xác định bởi ellipsoid
b 0 Z 0 Z (x − β)
(x − β) b = (r + 1)s 2 Fr +1,n−r −1 (α)
Hệ quả. Khoảng tin cậy đồng thời mức 100(1 − α)% của các giá
trị βi (i = 0, r ) được xác định bởi
q
βbi ± (s 2 (Z 0 Z )−1 )(i+1)(i+1) (r + 1)Fr +1,n−r −1 (α) (4.1)

Thực tế, người ta sẽ không dùng khoảng (4.1) để làm ước lượng
khoảng của βi . Thay vào đó, ta sẽ sử dụng khoảng
α q
βbi ± tn−r −1 (s 2 (Z 0 Z )−1 )(i+1)(i+1)
2

Ví dụ
Y z1 z2 Y z1 z2
Giá bán Tổng diện tích Giá ước tính Giá bán Tổng diện tích Giá ước tính
($1000) (100 ft2 ) ($1000) ($1000) (100 ft2 ) ($1000)
74.8 15.31 57.3 74.8 15.31 57.3
74.0 15.20 63.8 74.0 15.20 63.8
72.9 16.25 65.4 72.9 16.25 65.4
70.0 14.33 57.0 70.0 14.33 57.0
74.9 14.57 63.8 74.9 14.57 63.8
76.0 17.33 63.2 76.0 17.33 63.2
72.0 14.48 60.2 72.0 14.48 60.2
73.5 14.91 57.7 73.5 14.91 57.7
74.5 15.25 56.4 74.5 15.25 56.4
73.5 13.89 55.6 73.5 13.89 55.6
Bảng 4.1. Giá của 20 ngôi nhà tại Milwaukee và Wisconsin

Ví dụ
Mô hình hồi quy cho giá nhà tại Milwaukee và Wisconsin
Yb = βb0 + βb1 z1 + βb2 z2
trong đó
βb0 = 30.967 ± 16.630

βb1 = 2.634 ± 1.657
βb2 = 0.045 ± 0.602

Kiểm định giả thuyết về các hệ số hồi quy
Đối với bộ dữ liệu có quá nhiều biến dự đoán, ta chỉ cần trích ra
một số biến có ảnh hưởng đáng kể đối với biến phản hồi, các biến
còn lại có thể lược bỏ.
Xét mô hình hồi quy tuyến tính cổ điển với ma trận đầy hạng,
viết lại mô hình dưới dạng
 
β(1)
Z (1) Z (2) (q+1)×1
Y = Zβ + E = +E
 
n×(r −q) β(2)

n×(q+1)
(r −q)×1
= Z (1) β(1) + Z (2) β(2) +E

n×(q+1)(q+1)×1 n×(r −q)(r −q)×1

Xét giả thuyết

H0 : β(2) = 0
Ta có định lý sau
Định lý 4.3

hạng và E ∼ Nn (0, σ 2 I ). Khi đó giả thuyết H0 : β(2) = 0 bị bác
bỏ với mức ý nghĩa 100(1 − α)% nếu
RSS(Z (1) ) − RSS(Z ) > s 2 (r − q) Fr −q,n−r −1 (α)

Tổng quát hơn, với ma trận C kích thước (r − q) × (r + 1) đầy

hạng, xét giả thuyết
H0 : C β = 0
Ta có định lý sau
Định lý 4.3∗

hạng và E ∼ Nn (0, σ 2 I ). Khi đó với ma trận C đầy hạng, giả
thuyết H0 : C β = 0 bị bác bỏ với mức ý nghĩa 100(1 − α)% nếu
b 0 (C (Z 0 Z )−1 C 0 )−1 (C β)
(C β) b > s 2 (r − q) Fr −q,n−r −1 (α)
h i
Định lý 4.3∗ sẽ trở về Định lý 4.3 nếu C = 0 I
(r −q)×(r −q)

Ví dụ
Y z1 z2 z3 z4 z5
log-Chu kỳ Cường độ Cường độ Độ sâu Nhiệt Điện thế
tới hạn sạc (A) xả (A) của xả (%) độ (◦ C) tối đa (V)
4.615 0.375 3.13 60.0 40 2.00
4.949 1.000 3.13 76.8 30 1.99
4.564 1.000 3.13 60.0 20 2.00
4.828 1.000 3.13 60.0 20 1.98
3.761 1.625 3.13 43.2 10 2.01
2.773 1.625 3.13 60.0 20 2.00
5.236 1.625 3.13 60.0 20 2.02
2.303 0.375 5.00 76.8 10 2.01
1.099 1.000 5.00 43.2 10 1.99
5.956 1.000 5.00 43.2 30 2.01
Bảng 4.2a. log-số chu kỳ tới hạn của 20 viên pin

Ví dụ
Y z1 z2 z3 z4 z5
log-Chu kỳ Cường độ Cường độ Độ sâu Nhiệt Điện thế
tới hạn sạc (A) xả (A) của xả (%) độ (◦ C) tối đa (V)
3.807 1.000 5.00 100.0 20 2.00
0.693 1.625 5.00 76.8 10 1.99
4.331 0.375 1.25 76.8 10 2.01
4.356 1.000 1.25 43.2 10 1.99
5.075 1.000 1.25 76.8 30 2.00
1.099 1.000 1.25 60.0 0 2.00
5.375 1.625 1.25 43.2 30 1.99
4.290 1.625 1.25 60.0 20 2.00
5.749 0.375 3.13 76.8 30 1.99
5.136 0.375 3.13 60.6 20 2.00
Bảng 4.2b. log-số chu kỳ tới hạn của 20 viên pin

Ví dụ
Sử dụng công thức ở Định lý 4.3∗ để kiểm định giả thuyết

0
H0 : β4 β5 = 0
h i
Chọn C = 0 I và α = 0.05. Ta có
2×6 2×2
b 0 (C (Z 0 Z )−1 C 0 )−1 (C β)
(C β) b = 25.304
s 2 (r − q)Fr −q,n−r −1 (α) = 8.566
Do 25.304 > 8.566, ta bác bỏ giả thuyết H0 với mức ý nghĩa 95%


Ước lượng hàm hồi quy tuyến tính tại Z0
Giả sử Y0 là giá trị phản hồi của mô hình hồi quy khi biến dự đoán
0
là Z 0 = 1 z01 z02 . . . z0r Khi đó
E (Y0 |Z 0 ) = β0 + β1 z01 + · · · + βr z0r = Z 00 β
Theo Định lý 3.3, ước lượng bình phương cực tiểu của E (Y0 |Z 0 )
là Z 00 β.
b Hơn nữa, còn là ước lượng hiệu quả của E (Y0 |Z 0 ), với
phương sai
Var(Z 00 β)
b = Z 0 (Z 0 Z )−1 Z 0 σ 2
0

Ước lượng hàm hồi quy tuyến tính tại Z0
Định lý 5.1

hạng và E ∼ Nn (0, σ 2 I ). Khi đó khoảng tin cậy mức 100(1−α)%
của Z 00 β là
α q
Z 00 βb ± tn−r −1 Z 00 (Z 0 Z )−1 Z 0 s 2
2

Dự đoán quan sát mới tại Z0
Với Z 0 là vector cho trước, thay vào mô hình hồi quy ta được
Y0 = Z 00 β + ε0
trong đó ε0 ∼ N (0, σ 2 ) và độc lập với εi . Ta có định lý sau

Định lý 5.2

hạng và E ∼ Nn (0, σ 2 I ). Một quan sát mới Y0 sẽ có ước lượng
không chệch
Z 00 βb = βb0 + βb1 z01 + · · · + βbr z0r
trong đó Var(Y0 − Z 00 β)
b = σ 2 (1 + Z 0 (Z 0 Z )−1 Z 0 )
0

Dự đoán quan sát mới tại Z0
Hệ quả. Khoảng dự đoán mức 100(1 − α)% của Y0 được cho bởi
α q
Z 00 βb ± tn−r −1 s 2 (1 + Z 00 (Z 0 Z )−1 Z 0 )
2

Ví dụ
Y z1 z2
Tuổi thọ CPU Số đơn đặt Lượng đơn vị vào-ra
(Giờ) (Nghìn) (Nghìn)
141.5 123.5 2.108
168.9 146.1 9.213
154.8 133.9 1.905
146.5 128.5 0.815
172.8 151.5 1.061
160.1 136.2 8.603
108.5 92.0 1.125
Bảng 5.1. Tuổi thọ của một số loại CPU

Ví dụ
Ta sử dụng phương trình hồi quy tuyến tính mẫu
Yb = 7.86 + 1.08z1 + 0.45z2

0
để dự đoán hàm hồi quy E (Y |Z 0 ) tại Z 0 = 1 130 7.5
Khoảng tin cậy mức 95% của Z 00 β là 151.687 ± 3.057

Khoảng tin cậy mức 95% của Y0 là 151.687 ± 5.875


Chuẩn hoá tập mẫu
Ta đặt
z −µ
z∗ =
σ
trong đó z là giá trị quan sát, z là giá trị trung bình mẫu và s là
độ lệch chuẩn mẫu
Tác dụng
• Đo lường xem z cách xa z bao nhiêu.
• Áp dụng công thức này với toàn bộ dữ liệu Z , ta sẽ nhận
được mẫu Z ∗ mới có trung bình là 0 và độ lệch chuẩn là 1

Outlier
Outlier là điểm dữ liệu bất thường, khác biệt so với phần còn lại
của dữ liệu.
•
•
Outlier •••
••
• •••
••
•• • •
• •
•
•
• ••
•• • •
••••• •••
•• • •• •••
• •• ••
• •

Leverage
Leverage là độ đo khoảng cách giữa 1 điểm dữ liệu và phần còn

lại của bộ dữ liệu dựa trên miền giá trị của bộ dữ liệu. Leverage
được xác định bởi
1 (zj − z)2
hjj = + Pn 2
n j=1 (zj − z)
Nhận xét.
• Càng có nhiều điểm dữ liệu nằm gần nhau thì sức ảnh hưởng
hay độ lớn của điểm high leverage càng giảm.
• Các điểm outlier có tác động rất lớn đến mô hình, điểm nào
có giá trị của biến dự đoán nằm càng xa khỏi bộ dữ liệu thì
tác động càng lớn.
• Ngưỡng chọn Outlier thường là 2p/n hoặc 3p/n

Quy tắc 1.5IQR
Xét các tứ phân vị

• Tứ phân vị thứ nhất Q1 : Phân vị mức 25%
• Tứ phân vị thứ hai Q2 : Phân vị mức 50% (chính là trung vị)
• Tứ phân vị thứ ba Q3 : Phân vị mức 75%
Định nghĩa khoảng cách tứ phân vị (Interquartile range) là giá trị
IQR = Q3 − Q1
Khi đó nếu x ∈
/ [Q1 − 1.5IQR; Q3 + 1.5IQR] thì x được coi là một
điểm outlier

Kiểm tra tính phụ thuộc vào biến của mô hình
Ta sử dụng tiêu chuẩn F để kiểm tra tính phụ thuộc vào biến zi
của mô hình, hay là mô hình chỉ phụ thuộc vào mỗi giá trị tự do là
hằng số β0
(n − k − 1)R 2
F =
k(1 − R 2 )
trong đó
b 0Y
b − nY 2
Pn Pn
2 Y k=1 (Yk − Y )
b 2 b2k
k=1 ε
R := 2
= Pn 2
= 1 − Pn 2
Y 0 Y − nY k=1 (Yk − Y ) k=1 (Yk − Y )

Kiểm tra tính phụ thuộc vào biến của mô hình
Các giả thiết được đặt ra:

• Giả thuyết H0 : β1 = β2 = · · · = βk = 0
• Đối thuyết H1 : ∃βj 6= 0 với j = 1, k
Kiểm tra:
1 Tính đại lượng F = [(n − k − 1)R 2 ]/[k(1 − R 2 )]
2 Tra bảng phân phối Fisher với bậc tự do k và n − k − 1, mức
ý nghĩa α.
3 Nếu F > Fk,n−k−1 (α) thì bác bỏ H0

Kiểm tra tính đa cộng tuyến của các biến dự đoán
Các biến Zi có thể có tương quan, hiện tượng này dẫn tới việc
det(Z 0 Z ) → 0, hay các hệ số βbi trở nên rất lớn, khó kiểm soát sai
số.
Cách nhận biết hiện tượng này:

• Một số phần tử trên đường chéo chính của ma trận (Z 0 Z )−1
rất lớn.
s
• Các hệ số tương quan tuyến tính mẫu rij = √ ij > 0.7,
sjj sii
trong đó
n
1X
sij = zki zkj − Z i Z j
n
k=1

Kiểm tra tính đa cộng tuyến của các biến dự đoán
Để khắc phục thì ta thực hiện các bước sau

1 Tính các hệ số tương quan tuyến tính mẫu rij
2 Đặt r0i là các hệ số tương quan giữa Y và Zi , với
s0i
r0i = √
sii s00
1
trong đó s00 = sy2 và s0i = Yj zji − Y z i
( n
loại Zi ra khỏi mô hình nếu |r0i | < |r0j |
Nếu |rij | > 0.7 thì
loại Zj ra khỏi mô hình nếu |r0i | > |r0j |
3 Thực hiện hồi quy sau khi ma trận Z đã loại bỏ biến Zi hay Zj

Giá trị t-statistic và p-value

Giá trị t-statistic được định nghĩa là
βbi
t-statistic = q
D(
b βbi )
trong đó βi là ước lượng hệ số hồi quy và

n
1 X
D b2 =
b=σ εbj 2
n−r −1
j=1
Gía trị p-value là xác suất quan sát được một số có giá trị tuyệt
đối bằng t-statistic hoặc lớn hơn
p-value = 2(1 − CDF(n, |t-statistic|))
trong đó CDF là hàm phân phối tích luỹ của phân phối Student.
Giá trị t-statistic và p-value
Hệ quả
• Nếu có mối liên hệ giữa Zi và Y , ta kì vọng t-statistic có
phân phối Student với n − 2 bậc tự do
• Giả thuyết bị bác bỏ khi p-value < 5% hoặc p-value < 1%
• Khi n ≥ 30, chúng lần lượt tương ứng với t-statistic ≥ 2 hoặc
t-statistic ≥ 2.75

Khảo sát phần dư
Ta đưa ra tiêu chuẩn Student để chấp nhận hay bác bỏ giả thuyết
H0 : E ∼ Nn (0, σ 2 I )
hay
b ∼ Nn (0, σ 2 (I − H))
H0 : E
Ta có bổ đề sau
Bổ đề 6.1
Nếu ma trận A là ma trận lũy đẳng (A2 = A) thì nó sẽ chỉ có trị
riêng là 0 hoặc 1

Ma trận I − H là ma trận lũy đẳng nên theo Bổ đề 6.1 thì I − H

chỉ có các trị riêng là 0 hoặc 1. Xét dãy
v 1 , v 2 , . . . , v n−r −1
là n − r − 1 vector riêng ứng với giá trị riêng bằng 1 của I − H,

còn lại là dãy
v n−r , v n−r +1 , . . . , v n
là r + 1 vector riêng ứng với giá trị riêng bằng 0 của I − H. Khi đó
I − H = PΛP 0

trong đó P = v 1 v 2 . . . v n là hệ các vector riêng trực
chuẩn, Λ = diag{1, . . . , 1, 0, . . . , 0}

Đặt 0
e = P 0E

b = e1 e2 . . . en
Khi đó với E ∼ Nn (0, σ 2 I ) thì
E (e) = P 0 E (E)
b =0
Cov(e) = P 0 Cov(σ 2 (I − H))P = σ 2 P 0 PΛP 0 P = σ 2 Λ
Nếu H0 đúng thì e 1 , e 2 , . . . , e n−r −1 là các biến ngẫu nhiên có

phân phối chuẩn và e n−r = e n−r +1 = · · · = e n = 0 hầu chắc
chắn. Khi đó
n
X n−r
X −1 n
X n−r
X −1
ej = ej ; ej2 = ej2
j=1 j=1 j=1 j=1

Đặt
n n−r −1
1X 1 X
e= ej ; ee = ej
n n−r −1
j=1 j=1
Khi đó ne = (n − r − 1)e
e khi H0 đúng. Hơn nữa,
n−r
X −1 n−r
X −1
ej2 − (n − r − 1)e
e2 = (ej − ee)2
j=1 j=1
Xét thống kê
s
n−r −2
T = ne
(n − r − 1) nj=1 ej2 − n2 e 2
P


Nếu giả thiết H0 đúng thì
s
n−r −1
T = ee Pn−r −1
j=1 (ej − ee)2 /(n − r − 2)
có phân phối Student với n − r − 2 bậc tự do.

Định lý 6.2

hạng. Ta bác bỏ giả thuyết H0 : E ∼ Nn (0, σ 2 I ) với mức ý nghĩa
100(1 − α)% nếu
√ α q
ne n − r − 2 > tn−k−2 (n − r − 1)e 0 e − n2 e
2

Khi tiêu chuẩn Student đưa đến bác bỏ giả thuyết E không tuân
theo phân phối chuẩn Nn (0, σ 2 In ), đồ thị phần dư thể biểu diễn
được những lỗi sau của model:
• Phần dư εbj phụ thuộc vào biến Ybj
• Phương sai không phải là hằng số
• Mô hình dự đoán bỏ sót biến dự đoán zj
• Phần dư εbj không có phân phối chuẩn

(1) (Hình 6.1) Đồ thị phần dư phụ thuộc vào biến Ybj
(2) (Hình 6.2) Đồ thị phần dư với phương sai biến thiên
εb εb
•• •• •
•••• • •
•• •• •••• •• •
••• •• • •••••• •••• •• •• •••
•
••••• •• •• •• • • •
•••• • •• •• •••
•• •
• ••••••••••• •••• ••••• •• •
•• ••• ••••• •••• • •• •• •• •
•••• ••• ••••••
•• ••• • ••
•••• • •• ••• • • • •
• •
•• ••• • ••• •• •• •• •••••••••••• ••• •
• ••••• •• •• •
• • •• • •
• ••• • •••• ••••• Y
••• •
••••• •••••• •
•••
••••••
••••• •••
• ••• • • •••• • •••• • Y
• •• •• • • •• •
•• •• ••• • • • ••••
b b
• • •••• • ••
•
•
• • • • • •• • •••••••••••• • •
••• ••• •
• •••••••••••••• • • • •• •
• • •• • ••
•• ••• • ••• • •• •
••
• • •• • • • •• •••• •
••••• •• • • • • ••• ••
•
•
• • • •• •
••• •••
•• •
•
Hình 6.1 Hình 6.2

(3) (Hình 6.3) Đồ thị phần dư với một biến dự báo hoặc với tích
các biến dự đoán
(4) (Hình 6.4) Đồ thị phần dư lý tưởng, phương sai bằng nhau và
không phụ thuộc vào biến dự đoán
εb εb
•••• • • •• • •• ••••• • • ••••••••••••
•• •
•• • • • ••
• • •• •• •
•••••••• ••••• ••••••• ••• • •••••••••••••••••••••• z1 Y
••
•••••• •••••••••••••••••••••••••••• •••••••
b
•••• •• •• •• ••••••••••• •
• • •••••• ••• •••
• • ••• • ••• •• ••• ••••• ••••••• • • • ••••••• ••
Hình 6.3 Hình 6.4

(5) Đồ thị Q − Q kiếm định tính phân phối chuẩn của εbj
•
εb •••
•
••
••
••
•••
•• •
•• •
•••••
•••
•
••
• ••
••
•
•
••
•••
••
• Y
b
••
••
Hình 6.5

Kiểm tra tính không tương quan của các phần dư theo thời gian
Giả sử Yj được theo dõi theo thời gian j = 1, 2, .. Khi đó, thường
xảy ra các trường hợp εj có tương quan với nhau.
Giải pháp. Sử dụng tiêu chuẩn Durbin-Watson để kiểm tra tính
tương quan này. Đại lượng
Pn
εj − εbj−1 )2
j=2 (b
DW = Pn
b2j
j=1 ε
sẽ tuân theo phân phối Dublin-Watson.

Kiểm tra tính không tương quan của các phần dư theo thời gian
Tra bảng Durbin-Watson với mức ý nghĩa α, ta tìm được hai hệ số

d1 (n, p, α) < d2 (n, p, α) với n là số điểm của bộ dữ liệu, p là số
biến, α là mức chính xác. So sánh với DW, ta có kết luận sau:
• Nếu 0 ≤ DW < d1 thì các εbj có tự tương quan dương.
• Nếu d1 ≤ DW ≤ d2 thì không thể kết luận được.
• Nếu d2 ≤ DW < 4 − d2 thì các εbj không có tự tương quan
bậc nhất
• Nếu 4 − d2 ≤ DW ≤ 4 − d1 thì không thể kết luận được.
• Nếu 4 − d1 ≤ DW < 4 thì các εbj có tự tương quan âm.

Xác định các biến quan trọng
Chọn tiến dần:

1 Gọi M0 là mô hình null (Mô hình không chứa biến dự đoán)
2 Với k = 0, 1, . . . , p − 1
• Xét tất cả p − k mô hình được tạo bằng cách lấy các biến
phản hồi của Mk và thêm vào một biến không có trong Mk
• Chọn mô hình tốt nhất trong p − k mô hình vừa tạo và gọi
mô hình đó là Mk+1 . Tốt nhất ở đây là có giá trị RSS cao
nhất hoặc R 2 cao nhất.
3 Chọn mô hình tốt nhất trong các mô hình M0 , M1 , ..., Mp
2 .
bằng một trong các hệ số Mallow’s Cp , AIC, BIC hoặc Radj

Chọn lùi dần:

1 Gọi Mp là mô hình full (Mô hình chứa tất cả các biến dự
đoán)
2 Với k = p, p − 1, . . . , 1
• Xét tất cả k mô hình được tạo bằng cách loại đi một biến
trong mô hình Mk
• Chọn mô hình tốt nhất trong k mô hình vừa tạo và gọi mô
hình đó là Mk−1 . Tốt nhất ở đây là có giá trị RSS cao nhất
hoặc R 2 cao nhất.
3 Chọn mô hình tốt nhất trong các mô hình M0 , M1 , ..., Mp
2 .
bằng một trong các hệ số Mallow’s Cp , AIC, BIC hoặc Radj


Chọn hỗn hợp: Kết hợp giữa chọn tiến dần và chọn lùi dần.
Một số hệ số quan trọng. Với p ≤ n là số biến dự đoán ta dùng

trong mô hình hồi quy, ta có các hệ số sau
• (Mallow’s Cp ) Chọn β(2) sao cho Cp ≈ p
RSS(Z (1) )
Cp = + 2p − n
RSS(Z )
• (Akaike information criterion) Chọn β(2) để AIC nhỏ nhất
2πRSS(Z (1) )

AIC = 2p + n 1 + ln
n
• (Bayesian information criterion) Chọn β(2) để BIC nhỏ nhất
RSS(Z (1) )
BIC = n ln + p ln n
n
Tổng kết
Để dựng một mô hình hồi quy hoàn chỉnh, ta làm theo các bước
sau
1 Tiền xử lí dữ liệu
• Chuẩn hóa tập mẫu
z −z
z∗ =
s
• Khảo sát tính đơn - đa cộng tuyến tính của các biến dự đoán
• Sử dụng tứ phân vị để lọc outliers
2 Xác định các biến quan trọng
• Ước lượng các hệ số hồi quy: βb = (Z 0 Z )−1 Z 0 Y
• Sử dụng tiêu chuẩn F , kiểm tra mối liên hệ giữa Z và Y
• Xác định hệ số R, t-statistic, p-value của từng biến Zi
• Lựa chọn các biến quan trọng, loại bỏ biến không cần thiết
• Lặp lại tới khi nào thoả mãn điều kiện mà ta đặt ra

Tổng kết
3 Khảo sát phần dư

• Sử dụng tiêu chuẩn Student, kiểm tra các sai số ε
• Khảo sát phần dư, xác định các outlier
• Xác định các giá trị Leverage
• Loại bỏ các outlier dựa vào các giá trị Leverage vừa tìm được
4 Xây dựng mô hình
• Ước lượng lại hệ số hồi quy và khoảng tin cậy
• Xác định hệ số R
• Ước lượng hàm hồi quy tuyến tính


Giới thiệu mô hình
Ở mô hình hồi quy tuyến tính đa bội, biến phản hồi Y có m thành
phần Y1 , Y2 , Y3 , . . . , Ym
Y1 = β01 + β11 Z1 + · · · + βr 1 Zr + ε1
Y2 = β02 + β12 Z1 + · · · + βr 2 Zr + ε2
...
Ym = β0m + β1m Z1 + · · · + βrm Zr + εm
Trong đó, E = [ε1 , ε2 , . . . , εm ]0 có E (E) = 0 và Var (E) = Σ

Ma trận của các biến phản hồi

 
y11 y12 . . . y1m
y21 y22 . . . y2m 
[Y ] =  . ..  = Y (1) Y (2) . . . Y (m)
 
.. ..
 .. . . . 
yn1 yn2 . . . ynm
trong đó,  
y1j
y2j 
Y (j) = . 
 
 .. 
ynj

Ma trận của các tham số

 
β01 β02 . . . β0m
β11 β12 . . . β1m 

[β] =  . ..  = β(1) β(2) . . . β(m)

.. ..
 .. . . . 
βr 1 βr 2 . . . βrm
trong đó,  
β1j
β2j 
β(j) = . 
 
 .. 
βrj

Ma trận của các sai số

 
ε11 ε12 . . . ε1m
ε21 ε22 . . . ε2m 

[E] =  . ..  = E (1) E (2) . . . E (m)

.. ..
 .. . . . 
εn1 εn2 . . . εnm
trong đó,  
ε1j
ε2j 
E (j) = . 
 
 .. 
εnj


Ma trận các giá trị của biến dự đoán
 
1 z11 z12 . . . z1r
1 z21 z22 . . . z2r 
Z = .
 
.. .. .. .. 
 .. . . . . 
1 zn1 zn2 . . . znr
Từ các ma trận trên ta viết gọn mô hình trở thành
[Y ] = Z [β] + [E]
n×m n×(r +1) (r +1)×m n×m
Ở đây,
E (E (j) ) = 0 và Cov(E (i) , E (j) ) = σij I i, j = 1, n
và
Var (E j ) = Σ = {σij } i, j = 1, m
Ước lượng [β]
Với mỗi thành phần thứ j của biến phản hồi, RSS(j) được cực tiểu
hóa bởi βb(j) = (Z 0 Z )−1 Z 0 Y (j) . Lại có RSS của cả bài toán là
n
X
RSS(Z ) = RSS(j)
j=1
Do đó ma trận
h i
[β]
b = βb(1) βb(2) . . . βb(m)
= (Z 0 Z )−1 Z 0 Y (1) Y (2) . . .

Y (m)
= (Z 0 Z )−1 Z 0 [Y ]
sẽ cực tiểu hóa RSS(Z )

Ước lượng [Y ]
Với [β]
b vừa tìm được, ta ước lượng [Y ] bằng
[Y
b ] = Z [β]
b
Sai số của ước lượng này là
[E] b ] = (I − Z (Z 0 Z )−1 Z 0 )[Y ]

b = [Y ] − [Y
Ngoài ra,
Z 0Eb = Z 0 (I − Z (Z 0 Z )−1 Z 0 )[Y ] = 0

b ]0 E
[Y b 0 Z 0 (I − Z (Z 0 Z )−1 Z 0 )[Y ] = 0
b = [β]
b (j) ⊥ E
Hay nói cách khác, Y b (k) . Hơn nữa,
[Y ]0 [Y ] = [Y
b ]0 [Y b 0 [E]
b ] + [E] b

Ước lượng Σ
Định lý 7.1
Xét mô hình hồi quy tuyến tính bội [Y ] = Z [β] + [E] với
rank(Z ) = r + 1 ≤ n − m và nhiễu [E] có phân phối chuẩn.
Khi đó
b = 1 [E]
Σ b = 1 ([Y ] − Z [β])
b 0 [E] b 0 ([Y ] − Z [β])
b
n n
là ước lượng hợp lý cực đại của Σ
Hệ quả. Với ước lượng Σ b như trên thì nΣ

b sẽ tuân theo phân phối
W p,n−r −1 (Σ). Hơn nữa ta có hàm hợp lý cực đại
mn n
L(µ, b = (2πe)−
b Σ) b −2
2 |Σ|

Một số tính chất quan trọng
Tính chất 7.1

b là ước lượng không chệch của [β]
[β]
Thật vậy, ta có biến đổi

b = E ((Z 0 Z )−1 Z 0 [Y ])
E ([β])
= E ((Z 0 Z )−1 Z 0 (Z [β] + [E]))
= [β] + (Z 0 Z )−1 Z 0 E ([E])
= [β]


Tính chất 7.2
b = (Z 0 Z )−1 Z 0 [Y ] là ước lượng hợp lý cực đại của [β]
[β]
Thật vậy, ta có hàm hợp lý cho n quan sát
L([β], Σ, [Y ])
n
!
1 1X 0 −1
= mn n exp − (Y i − Z i [β]) Σ (Y i − Z i [β])
(2π) 2 det(Σ) 2 2
i=1
Khi đó [β]
b là nghiệm của hệ phương trình
∂
log L([β], Σ, [Y ]) = 0
∂βij

Tính chất 7.3

b = 0 và Cov(βb(j) , βb(k) ) = σjk (Z 0 Z )−1
E ([E])
Ta có
E (E
b (j) ) = E (Y (j) − Z βb(j) ) = E (Z β(j) ) − Z β(j) = 0
Điều này kéo theo E ([E])

b = 0. Hơn nữa
Cov(βb(j) , βb(k) ) = E (βb(j) − β(j) )(βb(k) − β(k) )0

= (Z 0 Z )−1 Z 0 E (E (j) E 0(k) )Z (Z 0 Z )−1
= σjk (Z 0 Z )−1

Tính chất 7.4

b có phân phối chuẩn
[β]
Với giả thiết E (i) ∼ Nn (0, σii I ) ta được Y (i) ∼ Nn (Z β, σii I ). Do

đó
βb(i) = (Z 0 Z )−1 Z Y (i) ∼ Nr +1 (β(i) , σii (Z 0 Z )−1 )
b có phân phối chuẩn với Cov(βb(j) , βb(k) ) = σjk (Z 0 Z )−1
Như vậy [β]


Tính chất 7.5
b là ước lượng chệch của Σ
Σ
Biến đổi
b0 E
E (E 0 0 −1 0
(j) (k) ) = E (E (j) (I − Z (Z Z ) Z )E (k) )
b
= tr((I − Z (Z 0 Z )−1 Z 0 )σjk I )
= σjk (n − r − 1)
Từ đây ta có,
b 0 [E])
E ([E] b = (n − r − 1)Σ hay b = n − r − 1Σ
E (Σ)
n
n b 0 [E]
Ta còn có ước lượng không chệch [E] b của Σ
n−r −1
Kiểm định tỷ số hợp lý cho tham số hồi quy

Xét giả thuyết
 
[β(1) ]
(q+1)×m
H0 : [β(2) ] = 0 trong đó β = 
 
[β(2) ]

(r −q)×m
Đặt
Z (1) Z (2)
Z=
(q+1)×m (r −q)×m
Như vậy
 
[β(1) ]
Z (1) Z (2) (q+1)×m
E ([Y ]) = Z [β] =
 
(r −q)×m [β(2) ]
 
(q+1)×m
(r −q)×m
= Z (1) [β(1) ] + Z (2) [β(2) ]


Dưới tác động của giả thuyết H0 ,
[β(2) ] = 0 , [Y ] = Z 1 [β(1) ] + [E]
Các tham số ước lượng
[β(1) ] = (Z 01 Z 1 )−1 Z 01 [Y ]
b 1 = 1 ([Y ] − Z [βb(1) ])0 ([Y ] − Z [βb(1) ])
Σ
n
Ta có tỷ số hợp lý (Wilk’s Lambda)
max L([β(1) ], Σ) !n
2
[β(1) ],Σ |Σ|
b
Λ= =
max L([β], Σ) |Σb 1|
[β],Σ


Định lý 7.2
Khi đó ta bác bỏ giả thuyết H0 nếu
!
|Σ|
b
−2 ln(Λ) = −n ln
|Σb 1|
nhận giá trị lớn
Khi n lớn, ta sử dụng thống kê hiệu chỉnh sau

!
1 |Σ|
b
n − r − 1 − (m − r + q − 1) ln ∼ χ2m(r −q)
2 |Σb 1|

Ngoài phương pháp kiểm định Wilk’s Lambda như trên ta còn một
số phương pháp kiểm định khác. Đặt
E = nΣ̂ và H = n(Σ̂1 − Σ̂)
η1 ≥ η2 ≥ · · · ≥ ηs là các trị riêng của HE −1 và s = min{p, r − q}

s
X ηi
Pillai’s trace = = tr[H(H + E )−1 ]
1 + ηi
i=1
Xs
Hotelling - Lawley’s trace = ηi = tr[(HE )−1 ]
i=1
η1
Roy’s greatest root =
1 + η1

Miền ellipsoid tin cậy của β 0 z 0
Khi xuất hiện thêm quan sát z 0 , ta có

b 0 z 0 ∼ Nm ([β]0 z 0 , z 0 (Z 0 Z )−1 z 0 Σ)
[β] 0
và
nE
b ∼ W p,n−r −1 (Σ)
Khi đó ta có thống kê T 2
!0 −1 !
b 0 z 0 − [β]0 z 0
[β] n b 0 z − [β]0 z 0
[β]
2
T = p 0 0 Σ
b p 0 0
z 0 (Z Z )−1 z 0 n−r −1 z 00 (Z Z )−1 z 0

Định lý 7.3
Khi đó miền tin cậy đồng thời mức 100(1 − α)% của β 0 z 0 là
!0 −1 !
b 0 z − [β]0 z 0
[β] n [ b 0 z 0 − [β]0 z 0
β]
p 0 0 Σ
b ≤
z 00 (Z 0 Z )−1 z 0
p
z 00 (Z Z )−1 z 0 n−r −1

0 0 −1 m(n − r − 1)
≤ z 0 (Z Z ) z 0 Fm,n−r −m (α)
n−r −m

Hệ quả. Khoảng tin cậy đồng thời mức 100(1 − α)% của E (Y i )
= z 00 β(i) là
z 0 β(i) ±
r s
m(n − r − 1) 0 0 −1
n
Fm,n−r −m (α) z 0 (Z Z ) z 0 σ
bii
n−r −m n−r −1
Từ khoảng tin cậy của β 0 z 0 đã nêu ở Định lý 7.3, kèm theo
Y 0 − βb0 z 0 ∼ Nm (0, (1 + z 00 (Z 0 Z )−1 z 0 )Σ)
ta có được miền dự đoán cho Y 0 được nêu ở định lý sau đây

Miền dự đoán cho Y 0
Định lý 7.4
Khi đó miền dự đoán mức 100(1 − α)% của Y 0 là
−1
n
(Y 0 − [β]0 z 0 )0 Σ
b (Y 0 − [β]0 z 0 ) ≤
n−r −1

0 0 −1 m(n − r − 1)
≤ (1 + z 0 (Z Z ) z 0 ) Fm,n−r −m (α)
n−r −m

Miền dự đoán cho Y 0
Hệ quả. Miền dự đoán đồng thời mức 100(1 − α)% của Y0i là
z 0 β(i) ±
r s
m(n − r − 1) 0 0 −1
n
Fm,n−r −m (α) (1 + z 0 (Z Z ) z 0 ) σ
bii
n−r −m n−r −1

Ví dụ
Y1 Y2 z1 z2 z3 z4 z5
TOT AMI GEN AMT PR DIAP QRS
3389 3149 1 7500 220 0 140
1101 653 1 1975 200 0 100
1131 810 0 3600 205 60 111
596 448 1 675 160 60 120
896 844 1 750 185 70 83
1767 1450 1 2500 180 60 80
807 493 1 350 154 80 98
1111 941 0 1500 200 70 93
1412 963 1 2250 175 45 125
Bảng 7.1a. Thông tin điều trị của 18 bệnh nhân

Ví dụ
Y1 Y2 z1 z2 z3 z4 z5
TOT AMI GEN AMT PR DIAP QRS
645 547 1 375 137 60 105
628 392 1 1050 167 60 74
1360 1283 1 3000 180 60 80
652 458 1 450 160 64 60
860 722 1 1750 135 90 79
500 384 0 2000 160 60 80
781 501 0 4500 180 0 100
1070 405 0 1500 170 90 120
1754 1520 1 3000 180 0 129
Bảng 7.1b. Thông tin điều trị của 18 bệnh nhân


Cách tiếp cận

Xét mô hình hồi quy tuyến tính
Y = β0 + β1 Z1 + . . . βr Zr + ε = β0 + β 0 Z + ε
Ta coi Y , Z1 , Z2 , . . . , Zr là các biến ngẫu nhiên có hàm phân phối

đồng thời không nhất thiết là phân phối chuẩn, có kỳ vọng và
phương sai là
σYY σZ0 Y
   
µY
1×r 
µ=  , Σ=
µZ 
σZ Y ΣZ Z

r ×1 1×r r ×r
trong đó ma trận ΣZ Z đầy hạng và

0
σZ Y = σZ1 Y σZ2 Y ... σ Zr Y

Cách tiếp cận
Xét một biến dự đoán tuyến tính Yb của Y
Yb = β0 + β 0 Z
Sai số của dự đoán sẽ là
εb = Y − Yb = Y − β0 − β 0 Z
Ta cần tìm β0 và β để giá trị trung bình bình phương của sai số là
nhỏ nhất, hay
b = argmin E (Y − β0 − β 0 Z )2
(βb0 , β)
(β0 ,β)

Cách tiếp cận

Định lý 8.1
Biểu thức E (Y − β0 − β 0 Z )2 sẽ đạt giá trị nhỏ nhất tại
βb0 = µY − β 0 µZ , βb = Σ−1
Z Z ΣZ Y
Giá trị nhỏ nhất đó sẽ là

E (Y − β0 − β 0 Z )2 = σYY − σZ0 Y Σ−1
Z Z σZ Y
Hệ quả. Trong các biến ngẫu nhiên có dạng β0 + β 0 Z thì

βb0 + βb0 Z có tương quan chặt nhất với Y ,
s
σZ0 Y Σ−1
Z Z σZ Y
Corr(Y , βb0 + βb0 Z ) =
σYY

Hệ số tương quan bội tổng thể
Định nghĩa
σZ0 Y Σ−1
Z Z σZ Y
ρ2Y (Z ) :=
σYY
ρ2Y (Z ) được gọi là hệ số tương quan bội tổng thể, là tương quan
của biến Y so với biến dự đoán tuyến tính tốt nhất (Chính là biến
βb0 + βb0 Z ). Với cách đặt trên,
1
E (Y − β0 − β 0 Z )2 = σYY (1 − ρ2Y (Z ) ) =
(Σ−1 )11
• ρ2Y (Z ) = 0: Biến Z không ảnh hưởng tới dự đoán

• ρ2Y (Z ) = 1: Y có thể được dự đoán mà không có sai số

Giả thiết phân phối chuẩn?
Giả thiết biến Y có quan hệ tuyến tính với biến Z khá "gần" với
giả thiết các biến Y , Z tuân theo phân phối chuẩn. Thật vậy, giả
sử rằng  
Y
  ∼ Nr +1 (µ, Σ)
Z
r ×1
Khi đó
∼ N µY + σZ0 Y Σ−1 0 −1

Y Z =[z
1 z2 ... zr ]0 ZZ (Z − µZ ), σYY − σZ Y ΣZZ σZ Y
Như vậy
E (Y |Z = z) = µY + σZ0 Y Σ−1 0
ZZ (z − µZ ) = β0 + β z
hay E (Y |Z = z) chính là dự đoán tốt nhất của Y

Định lý 8.2
0
Giả sử Y Z 0 ∼ Nr +1 (µ, Σ). Đặt

s 0Z Y
" # " #
Y sYY
µ
b= và S =
Z sZY SZZ
thứ tự là trung bình mẫu và ma trận hiệp phương sai mẫu của
một mẫu kích thước n từ tổng thể có phân phối chuẩn như trên.
Khi đó ước lượng hợp lý cực đại cho các hệ số trong mô hình hồi
quy là
βb = S −1
ZZ sZY và βb0 = Y − s 0Z Y S −1
ZZ Z

Hệ quả 1. Ước lượng hợp lý cực đại của giá trị E (Y − β0 − βb0 Z )2
là
n
n−1 1X
σ
bYY ·Z = (sYY − s 0Z Y S −1
Z Z sZY ) = (Y − βb0 − βb0 Z i )2
n n
i=1
bYY ·Z là ước lượng chệch. Ta có thể hiệu chỉnh ước lượng trên
σ
thành
n
∗ nb
σYY ·Z 1 X
σ
bYY ·Z = = (Y − βb0 − βb0 Z i )2
n−r −1 n−r −1
i=1

Hệ quả 2. Ước lượng hợp lý cực đại cho các biến
σYY σZ0 Y
" # " #
µY
µ= và Σ =
µZ σZ Y ΣZ Z
lần lượt là
b Z0 Y
" # " #
Y σ
bYY σ n−1
µ
b= và Σ
b = = S
Z σ
bZ Y Σ
b ZZ n

Dự đoán nhiều biến cùng lúc
Xét m biến phản hồi Y1 , Y2 , . . . , Ym , mỗi biến phản hồi có quy

luật tuyến tính với r biến dự đoán Z1 , Z2 , . . . , Zr . Giả sử rằng
 
Y
m×1
  ∼ Nm+r (µ, Σ)
Z
r ×1
trong đó
   
µY ΣY Y ΣY Z
m×1 m×m m×r
µ= và Σ = 
   
 
µZ ΣZ Y ΣZ Z
r ×1 r ×m r ×r

Với giả thiết tổng thể có phân phối chuẩn, ta có kết quả sau
E (Y |Z = z) = µY + ΣY Z Σ−1
Z Z (z − µZ )
Cụ thể hơn
µY1 + ΣY1 Z Σ−1

   
E (Y1 |Z = z) Z Z (z − µZ )
 E (Y2 |Z = z)   µY + ΣY Z Σ−1 (z − µZ ) 
 = 2 2 ZZ 
 ...   ... 
−1
E (Ym |Z = z) µYm + ΣYm Z ΣZ Z (z − µZ )
Ma trận [β] := ΣY Z Σ−1

Z Z được gọi là ma trận hệ số hồi quy

Sai số của dự đoán là

b = Y − µY − ΣY Z Σ−1 (Z − µZ )
E ZZ
Ma trận hiệp phương sai của sai số này là

0
ΣY Y ·Z := E (E
bEb ) = ΣY Y − ΣY Z Σ−1 ΣZ Y
ZZ

Định lý 8.3
0
Giả sử Y 0 Z 0

∼ Nm+r (µ, Σ). Khi đó hàm hồi quy của
vector Y với các biến phản hồi Z là
Y = β0 + [β]z = µY − ΣY Z Σ−1
Z Z (z − µZ )
Ma trận hiệp phương sai của sai số khi đó sẽ là
ΣY Y ·Z = ΣY Y − [β]ΣZ Z [β]0 = ΣY Y − ΣY Z Σ−1

Z Z ΣZ Y

Ước lượng tham số

Do các biến µ và Σ chưa biết, cho nên ta phải ước lượng chúng
thông qua một mẫu ngẫu nhiên. Ta có định lý sau
Định lý 8.4
0
Giả sử Y 0 Z 0 ∼ Nm+r (µ, Σ). Với một mẫu ngẫu nhiên có

kích thước n được lấy ra từ tổng thể này, ước lượng hợp lý cực
đại của hàm hồi quy tuyến tính là
Y b = Y + S Y Z S −1 (z − Z )
b = βb0 + [β]z
ZZ
Hơn nữa, ước lượng hợp lý cực đại của ma trận hiệp phương sai
ΣY Y ·Z là
b Y Y ·Z = n − 1 (S Y Y − S Y Z S −1 S Z Y )
Σ
n ZZ

Hệ số tương quan riêng phần
Hệ số tương quan riêng phần giữa hai biến Yi và Yj được cho

bởi biến dự đoán Z là tương quan của hai phần thặng dư
εbi = Yi − µYi − ΣYi Z Σ−1

Z Z (Z − µZ )
εbj = Yj − µYj − ΣYj Z Σ−1
Z Z (Z − µZ )
Công thức của hệ số tương quan riêng phần:

σYi Yj ·Z
ρYi Yj ·Z = √ √
σYi Yi ·Z σYj Yj ·Z
trong đó σYp Yq là phần tử ở hàng p, cột q của ma trận ΣY Y ·Z

Hệ số tương quan riêng phần
Tương ứng với ρYi Yj ·Z , ta còn có rYi Yj ·Z là hệ số tương quan

riêng phần mẫu, được xác định bởi
S Yi Yj ·Z
rYi Yj ·Z = p p
S Yi Yi ·Z S Yj Yj ·Z
trong đó S Yp Yq là phần tử ở hàng p, cột q của ma trận S Y Y ·Z
Với giả thiết  

Y
m×1
  ∼ Nm+r (µ, Σ)
Z
r ×1
thì rYi Yj ·Z chính là ước lượng hợp lý cực đại của ρYi Yj ·Z


Biến đổi lại mô hình Y = Z β + E
Phương trình hồi quy tuyến tính của mỗi biến phải hồi Yj là
Yj = β0 + β1 z1j + β2 z2j + · · · + βr zrj + εj
Thực hiện bước trung tâm hóa các biến dự đoán,
βi zij = βi (zij − z i ) + βi z i
Khi đó
Yj = (β0 + β1 z 1j + · · · + βr z rj ) + β1 (z1j − z1 ) + · · · + βr (zrj − zr ) + εj

| {z }
βe
0
:= βe + β (z − z) + εj
c

Viết dưới dạng ma trận, ta được

 
βe
    
Y1 1 z11 − z 1 . . . z1r − z r ε1
Y2  1 z21 − z 1 . . . z2r − z r 
   
ε
 β1   .2 
 ..  =  .. ..  + 
  
.. .. ..  .
 .  . . . .  .  .
Yn 1 zn1 − z 1 . . . znr − z r βr εn
Hay
Y = Zc βc + E
n×1 n×(r +1)(r +1)×1 n×1
thì ta được Z 0c∗ 1 = 0

Nếu viết Z c = 1 Z c∗

Theo công thức của ước lượng bình phương cực tiểu,
βbc = (Z 0c Z c )−1 Z 0c Y
Hay  
βe
b
  " #

βb1
 Y
=
 
.. (Z 0c∗ Z c∗ )−1 Z c∗ Y

.
 
 
βbr
Như vậy
Yb = βe + βbc0 (z − z) = Y + Y 0 Z c (Z 0c Z c )−1 (z − z)
b

(Mở rộng) Chuẩn hóa các biến dự đoán
Khi nghiên cứu sâu về các phương pháp số, để đảm bảo tính ổn
định cho mô hình hồi quy, người ta sử dụng biến chuẩn hóa
zij − z i zij − z i
Pn 2
=p
i=1 (zij − z i ) (n − 1)szi zi
thay cho biến zij − z i . Các hệ số hồi quy mới sẽ là

q
βi∗ = βi (n − 1)szi zi
q
βbi∗ = βbi (n − 1)szi zi

So sánh các công thức
Chú ý rằng
Y 0 Z c∗ = (Y − Y 1)0 Z c∗ + Y 10 Z c∗ = (Y − Y 1)0 Z c∗
Khi đó
Y 0 Z c∗ (Z 0c∗ Z c∗ )−1 = (Y − Y 1)0 Z c∗ (Z 0c∗ Z c∗ )−1

= (n − 1)s 0Z Y ((n − 1)S Z Z )−1
= s 0Z Y S −1
ZZ

So sánh các công thức
Như vậy
• Đối với cách tiếp cận gán Zi = zi cố định,
b = Y + Y 0 Z c (Z 0 Z c )−1 (z − z)
Y c
= Y + s 0Z Y S −1
Z Z (z − z) (9.1)
• Đối với cách tiếp cận coi Y , Zi là các biến ngẫu nhiên,
Y b Y + σZ0 Y Σ−1
b =µ
Z Z (z − µ
bZ ) (9.2)
Mặc dù hai cách tiếp cận cùng cho ra một kết quả, nhưng về mặt
bản chất thì khác nhau hoàn toàn. Các giả thiết của cách tiếp cận
thứ hai có phần minh bạch hơn.


Giới thiệu mô hình chuỗi thời gian
Mô hình chuỗi thời gian là mô hình áp dụng trên các chuỗi đặc
thù có yếu tố thay đổi theo thời gian
Hình 10.1. Doanh số bán lẻ của Mỹ trong những năm 1990 - 2020

Giới thiệu mô hình chuỗi thời gian
Mô hình chuỗi thời gian có dạng
Xt = β0 + β1 Xt−1 + · · · + βr Xt−r + εt
trong đó
• Xt là giá trị tại thời điểm hiện tại
• Xt−k là giá trị tại thời điểm về trước đó k đơn vị thời gian so
với hiện tại (Thường được gọi là giá trị LAG chỉ số k)

Hệ số tự tương quan riêng phần (PACF) - Mô hình tự hồi quy (ARp)
Đặt vấn đề. Ta sẽ biểu diễn Xt thông qua các giá trị Xt−k nào để
mô hình là tốt nhất?
Giải pháp. Định nghĩa hệ số tự tương quan riêng phần (Partial

Autocorrelation Function) của biến Xt so với biến Xt−k là hệ số
φkk trong phương trình hồi quy
Xt = φk0 + φk1 Xt−1 + · · · + φkk Xt−k + εt
PACF phản ánh mức độ tương quan của biến Xt so với biến Xt−k ,
sau khi lược bỏ đi các tương quan gián tiếp của 2 biến này


Một cách khác để tìm hệ số tự tương quan riêng phần đó là sử
dụng công thức

Corr(Xt , Xt−1 ) với k = 1
φkk =
Corr(Xt − projXt , Xt−k − projXt−k ) với k ≥ 1
H H
trong đó H là không gian Hilbert con của

span{Xt−k+1 , Xt−k+2 , . . . , Xt−1 }
NOTE
Thường ta chỉ lấy chỉ số LAG tới
lnm
min 10dlog10 ne, −1
2


Ta sẽ chọn các biến Xt−k có hệ số tự tương quan riêng phần đủ
tốt với Xt
PACF
1
3 6 7
LAG
5
Từ đồ thị trên, ta được mô hình tự hồi quy (Autoregression) là

Xt = β0 + φ1 Xt−1 + φ2 Xt−2 + φ4 Xt−4 + εt
Mô hình trung bình động (MAq)

Mô hình trung bình động với bậc q có dạng
Xt = µ + εt + θ1 εt−1 + · · · + θq εt−q (10.1)
trong đó
• µ : trung bình của chuỗi dữ liệu
• θi : tham số chưa biết
• εi : nhiễu trắng (E (εi ) = 0, Var(εi ) = α và Cov(εi , εj ) = 0)
Công thức (10.1) còn có thể biểu diễn dưới dạng
Xt = µ + (1 + θ1 L + · · · + θq Lq )εt (10.2)
trong đó L là toán tử LAG, xác định bởi
Xt = LXt+1

Mô hình trung bình động (MAq)
Hình 10.2. Mô hình MA bậc 1 (bên trái) và MA bậc 2 (bên phải)

Kiểm tra chuỗi dừng

Để biết một chuỗi dữ liệu có là chuỗi dừng hay không, ta sử dụng
kiểm định Argument Dickey Fuller (ADF). Giả sử ta có quá trình
tự hồi quy AR1
Xt = φXt−1 + εt
Viết lại thành
t−1
X
Xt = φt X0 + φk1 εt−k
k=0
Do đó E (Xt ) = φt1 E (X0 ). Nhận thấy rằng

|φ| > 1 thì lim E (Xt ) = ∞
t→+∞
φ = 1 thì lim E (Xt ) = E (X0 )
t→+∞
|φ| < 1 thì lim E (Xt ) = 0
t→+∞

Kiểm tra chuỗi dừng
Xét giả thuyết
H0 : φ = 1 (Chuỗi không dừng)
và đối thuyết
H1 : |φ| < 1 (Chuỗi dừng)
Với giá trị ngưỡng kiểm định DF = (φ̂1 − 1)/RSS(φ̂1 ), ta sẽ so
sánh giá trị ngưỡng kiểm định này với giá trị tới hạn của phân phối
Dickey - Fuller để đưa ra kết luận về chấp nhận hoặc bác bỏ giả
thuyết H0

Mô hình tự hồi quy tích hợp trung bình động (ARIMA)

Đối với chuỗi không dừng (Hình 10.3), ta sử dụng mô hình tự hồi
quy tích hợp trung bình động (Autoregressive Integrated Moving
Average)
Hình 10.3. Đồ thị minh họa cho sự thay đổi của phương sai

Thay vì dự đoán biến Xt , ta xét
∆Xt = Xt+1 − Xt
Khi đó nếu chuỗi Xt có xu hướng tăng "tuyến tính" như hình 10.3
thì chuỗi ∆Xt sẽ là chuỗi dừng. Tổng quát hơn, ta có thể sử dụng
sai phân cấp n
∆n Xt = ∆n−1 Xt+1 − ∆n−1 Xt
Nếu như đã dự đoán được ∆Xt , làm sao để ta khôi phục lại Xt ?

Giả sử ta có bộ dữ liệu X0 , X1 , . . . , X` . Khi đó
Xt = Xt−1 + ∆Xt−1
= Xt−2 + ∆Xt−2 + ∆Xt−1
= ...
t−`
X
= X` + ∆Xt−k
k=1
Các giá trị ∆Xt−k (k = 1, t − `) được dự đoán sử dụng mô hình

AR kết hợp với mô hình MA (Gọi tắt là ARMA) do chuỗi dữ liệu
sau khi sử dụng phương pháp sai phân là chuỗi dừng



Chương 7. Mô hình hồi quy tuyến tính bội

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chương 7. Mô hình hồi quy tuyến tính bội

Uploaded by

Copyright:

Available Formats

Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Mô hình hồi quy tuyến tính bội

Vũ Đinh Trường An Lê Nguyên Bách

Viện Toán Ứng Dụng và Tin Học

MI CTTN K64 - Group 8 SAMI

Đánh giá mức độ tích cực

MI CTTN K64 - Group 8 SAMI

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

7 Mô hình hồi quy tuyến tính đa bội

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI

Hồi quy tuyến tính (Linear regeression) là một phương pháp

MI CTTN K64 - Group 8 SAMI

Mô hình hồi quy tuyến tính có 3 dạng

• Hồi quy đa tuyến tính

• Hồi quy tuyến tính đa bội

MI CTTN K64 - Group 8 SAMI

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

7 Mô hình hồi quy tuyến tính đa bội

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI

Thiết lập mô hình

MI CTTN K64 - Group 8 SAMI

Thiết lập mô hình

Giả thiết rằng E (E) = 0 và Cov(E) = E (EE 0 ) = σ 2 I

MI CTTN K64 - Group 8 SAMI

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

7 Mô hình hồi quy tuyến tính đa bội

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI

Tiếp cận bằng hình học

Với Y và Z cho trước, ta cần tìm βb sao cho

βb = argmin kY − Z βk22 = argmin (Y − Z β)0 (Y − Z β)

MI CTTN K64 - Group 8 SAMI

Tiếp cận bằng hình học

Nhưng làm sao để tìm được projY ?

MI CTTN K64 - Group 8 SAMI

Tiếp cận bằng hình học

MI CTTN K64 - Group 8 SAMI

Ước lượng bình phương cực tiểu

Xét mô hình hồi quy tuyến tính Y = Z β + E với E (E) = 0,

Một số phép đặt thông dụng

Từ phép đặt này, ta được Z 0 E b 0E

Ước lượng bình phương cực tiểu

b2 ước lượng không chệch của σ 2

Ước lượng bình phương cực tiểu

trong đó (Z 0 Z )∗ là một nghịch đảo tổng quát của ma trận Z 0 Z

A∗ nghịch đảo tổng quát của ma trận A nếu

Ước lượng bình phương cực tiểu