You are on page 1of 129

Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Mô hình hồi quy tuyến tính bội

Vũ Đinh Trường An Lê Nguyên Bách


Nguyễn Việt Dũng Chu Thị Ngân Phạm Nhật Quang

Viện Toán Ứng Dụng và Tin Học


Đại học Bách Khoa Hà Nội

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 1 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Đánh giá mức độ tích cực

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 2 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 3 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu

Hồi quy tuyến tính (Linear regeression) là một phương pháp


thống kê biểu diễn mỗi quan hệ giữa một hoặc nhiều biến độc lập
(predictor variable(s)) với một hoặc nhiều biến phụ thuộc
(response variable(s))

Hồi quy tuyến tính thường được sử dụng trong các bài toán
phân tích, dự đoán. Ví dụ
       
Chiều Độ Giới Chế độ
= β0 + β1 + β2 + β3
cao tuổi tính dinh dưỡng

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 4 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Phân loại

Mô hình hồi quy tuyến tính có 3 dạng


• Hồi quy đơn tuyến tính

Y = β0 + β1 z + ε

• Hồi quy đa tuyến tính

Y = β0 + β1 z1 + · · · + βn zn + ε

• Hồi quy tuyến tính đa bội


 
    β01 β12  
Y11 Y12 1 z11 z12  ε 11 ε 12
= β11 β12  +
Y21 Y22 1 z21 z22 ε21 ε22
β21 β22

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 5 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 6 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Thiết lập mô hình

Mô hình hồi quy với duy nhất biến phản hồi có dạng

Y = β0 + β1 z1 + β2 z2 + · · · + βr zr + ε

trong đó
• zi : biến dự đoán
• Y : biến phản hồi
• βi : tham số chưa biết
• ε : nhiễu ngẫu nhiên
Ta giả thiết rằng E (ε) = 0 và Var(ε) = σ 2 (σ chưa biết)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 7 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Thiết lập mô hình

Với n quan sát độc lập Yi với các biến dự đoán tương ứng zij
(i = 1, n, j = 1, r ), mô hình hồi quy dưới dạng ma trận sẽ có dạng
      
Y1 1 z11 z12 . . . z1r β0 ε1
Y2  1 z21 z22 . . . z2r  β1  ε2 
 ..  =  .. ..   ..  +  .. 
      
.. ..
 .  . . . .  .   . 
Yn 1 zn1 zn2 . . . znr βr εn

Hay
Y = Z β + E
n×1 n×(r +1)(r +1)×1 n×1

Giả thiết rằng E (E) = 0 và Cov(E) = E (EE 0 ) = σ 2 I


n×n

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 8 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 9 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Tiếp cận bằng hình học

Với Y và Z cho trước, ta cần tìm βb sao cho

kEk = kY − Z βk

đạt giá trị nhỏ nhất. Để cho thuận tiện thì ta sẽ chọn k · k = k · k2 .
Như vậy

βb = argmin kY − Z βk22 = argmin (Y − Z β)0 (Y − Z β)


β β

Vector βb được gọi là ước lượng bình phương cực tiểu của β

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 10 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Tiếp cận bằng hình học

Đặt

Y
b := Z βb
E
b := Y − Z βb
Y E
b
(P) := span{colk (Z )}rk=1
+1
col2 (Z )

Khi đó
Y
b
(P)
kEk22 min = kEk
b 2⇔Y
2
b = Z βb = projY col1 (Z )
(P)

Nhưng làm sao để tìm được projY ?


(P)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 11 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Tiếp cận bằng hình học

Nhận thấy E
b = Y − Z βb ⊥ colk (Z )
nên
E
Z 0 (Y − Z β) Y
b
b =0
col2 (Z )
Nếu rank Z = r + 1 (full rank) thì
Y
βb = (Z 0 Z )−1 Z 0 Y
b
(P)
col1 (Z )

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 12 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng bình phương cực tiểu


Định lý 3.1

Xét mô hình hồi quy tuyến tính Y = Z β + E với E (E) = 0,


Cov(EE 0 ) = σ 2 I và ma trận Z có hạng đầy đủ. Khi đó ước lượng
bình phương cực tiểu của β là

βb = (Z 0 Z )−1 Z 0 Y

Một số phép đặt thông dụng

H := Z (Z 0 Z )−1 Z 0
Y
b := Z βb = HY
E
b := Y − Y b = (I − H)Y

Từ phép đặt này, ta được Z 0 E b 0E


b = 0 và Y b=0
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 13 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng bình phương cực tiểu


Định lý 3.1∗

(Ước lượng bình phương cực tiểu chứa trọng số) Xét mô hình hồi
quy tuyến tính Y = Z β + E với E (E) = 0, Cov(EE 0 ) = σ 2 W ,
ma trận Z có hạng đầy đủ và ma trận W đối xứng nửa xác định
dương. Khi đó ước lượng bình phương cực tiểu chứa trọng số của
β là
βbW = (Z 0 W −1 Z )−1 Z 0 W −1 Y

Hơn nữa, ta còn có ước lượng của σ 2 trong trường hợp có ma trận
trọng số W là
1
b2 =
σ (Y − Z βbW )0 W −1 (Y − Z βbW )
n−r −1

b2 ước lượng không chệch của σ 2


Ta có thể chứng minh được σ
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 14 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng bình phương cực tiểu


Định lý 3.1∗∗

(Mô hình hồi quy tuyến tính với ma trận suy biến) Xét mô hình
hồi quy tuyến tính Y = Z β + E với E (E) = 0, Cov(EE 0 ) = σ 2 I
(Ma trận Z không nhất thiết có hạng đầy đủ). Khi đó ước lượng
bình phương cực tiểu của β là

βb = (Z 0 Z )∗ Z 0 Y

trong đó (Z 0 Z )∗ là một nghịch đảo tổng quát của ma trận Z 0 Z

A∗ nghịch đảo tổng quát của ma trận A nếu

AA∗ A = A

Nghịch đảo tổng quát của ma trận suy biến có thể không duy nhất
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 15 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng bình phương cực tiểu

Nhận thấy rằng ma trận Z 0 Z là ma trận đối xứng nửa xác định
dương. Do đó nó sẽ có các trị riêng λk ứng với vector riêng v k
thỏa mãn

λ1 ≥ λ2 ≥ · · · ≥ λr ∗ +1 > λr ∗ +2 = · · · = λr +1 = 0

trong đó rank Z = r ∗ + 1 < r + 1. Xét phân tách phổ

Z 0 Z = λ1 v 1 v 01 + λ2 v 2 v 02 + · · · + λr ∗ +1 v r ∗ +1 v 0r ∗ +1

Khi đó một nghịch đảo tổng quát của Z 0 Z được xác định bởi

(Z 0 Z )∗ = λ−1 0 −1 0 −1 0
1 v 1 v 1 + λ2 v 2 v 2 + · · · + λr ∗ +1 v r ∗ +1 v r ∗ +1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 16 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng bình phương cực tiểu

Định lý 3.2

Ước lượng βb = (Z 0 Z )−1 Z 0 Y của mô hình hồi quy tuyến tính cổ


điển thỏa mãn

E (β)
b =β và b = σ 2 (Z 0 Z )−1
Cov(β)

Kèm theo đó, sai số E


b = Y − Z βb thỏa mãn

E (E)
b = 0 và b = σ 2 (I − H)
Cov(E)
b E)
Hơn nữa, Cov(β, b =0

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 17 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng bình phương cực tiểu

Định lý 3.3

(Định lý Gauss về bình phương cực tiểu) Với ước lượng βb =


(Z 0 Z )−1 Z 0 Y của mô hình hồi quy tuyến tính với ma trận không
suy biến thì c 0 βb là ước lượng không chệch của c 0 β và có phương
sai nhỏ nhất so với bất kỳ ước lượng tuyến tính không chệch nào
khác có dạng a 0 Y .

Hệ quả. Nếu thêm dữ kiện E ∼ Nn (0, σ 2 I ) thì c 0 βb là ước lượng


hiệu quả của c 0 β

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 18 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số xác định R 2

Ta có
Y 0 Y = (Y b 0 (Y
b + E) b + E) b 0Y
b =Y b 0E
b +E b
n
1X
Đặt Y = Yk . Khi đó biểu thức trên tương đương với
n
k=1

n
X n
X n
X
(Yk − Y )2 = (Ybk − Y )2 + εb2k
k=1 k=1 k=1

Định nghĩa

b 0Y
b − nY 2
Pn Pn
2 Y k=1 (Yk − Y )
b 2 b2k
k=1 ε
R := 2
= Pn 2
= 1 − Pn 2
Y 0 Y − nY k=1 (Yk − Y ) k=1 (Yk − Y )

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 19 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số xác định R 2
R 2 được gọi là hệ số xác định của mô hình hồi quy, phản ánh
mức độ phù hợp của mô hình.
Y
b Y
b

• •• • •• •
• •
• ••
•• • •
• • • •
• • • •
• • •
Y Y
R2 = 0 R 2 = 0.4
Y
b Y
b

• •
• ••
• • •• •
• • • ••
• •• ••
••

• • • ••
Y Y
R 2 = 0.8 R2 = 1
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 20 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

2
Hệ số hiệu chỉnh Radj

R 2 có tính chất tăng khi số điểm dữ liệu tăng, như vậy hệ số này
sẽ không phù hợp khi đánh giá bộ điểm dữ liệu có nhiều outlier.
Để khắc phục điều này, ta sẽ sử dụng giá trị R 2 hiệu chỉnh

2 (1 − R 2 )(n − 1)
Radj =1−
n−r −1
2 với một mẫu, chứ không sử dụng đối với một
Ta chỉ sử dụng Radj
tổng thể.

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 21 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 22 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Phân phối của β

Định lý 4.1

Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z đầy


hạng và E ∼ Nn (0, σ 2 I ). Khi đó

βb ∼ Nr +1 (β, σ 2 (Z 0 Z )−1 )
nb b 0E
σ2 = E b ∼ σ 2 χ2
n−r −1

Hơn nữa, βb và E
b là hai biến độc lập

b 0E
E b
Giá trị s 2 := sẽ rất hữu dụng cho các nghiên cứu về sau
n−r −1
của mô hình hồi quy

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 23 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Phân phối của β

Định lý 4.2

Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z


đầy hạng và E ∼ Nn (0, σ 2 I ). Khi đó miền tin cậy đồng thời mức
100(1 − α)% của β được xác định bởi ellipsoid
b 0 Z 0 Z (x − β)
(x − β) b = (r + 1)s 2 Fr +1,n−r −1 (α)

Hệ quả. Khoảng tin cậy đồng thời mức 100(1 − α)% của các giá
trị βi (i = 0, r ) được xác định bởi
q
βbi ± (s 2 (Z 0 Z )−1 )(i+1)(i+1) (r + 1)Fr +1,n−r −1 (α) (4.1)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 24 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Phân phối của β

Thực tế, người ta sẽ không dùng khoảng (4.1) để làm ước lượng
khoảng của βi . Thay vào đó, ta sẽ sử dụng khoảng
α q
βbi ± tn−r −1 (s 2 (Z 0 Z )−1 )(i+1)(i+1)
2

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 25 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Y z1 z2 Y z1 z2
Giá bán Tổng diện tích Giá ước tính Giá bán Tổng diện tích Giá ước tính
($1000) (100 ft2 ) ($1000) ($1000) (100 ft2 ) ($1000)
74.8 15.31 57.3 74.8 15.31 57.3
74.0 15.20 63.8 74.0 15.20 63.8
72.9 16.25 65.4 72.9 16.25 65.4
70.0 14.33 57.0 70.0 14.33 57.0
74.9 14.57 63.8 74.9 14.57 63.8
76.0 17.33 63.2 76.0 17.33 63.2
72.0 14.48 60.2 72.0 14.48 60.2
73.5 14.91 57.7 73.5 14.91 57.7
74.5 15.25 56.4 74.5 15.25 56.4
73.5 13.89 55.6 73.5 13.89 55.6

Bảng 4.1. Giá của 20 ngôi nhà tại Milwaukee và Wisconsin

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 26 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Mô hình hồi quy cho giá nhà tại Milwaukee và Wisconsin

Yb = βb0 + βb1 z1 + βb2 z2

trong đó

βb0 = 30.967 ± 16.630


βb1 = 2.634 ± 1.657
βb2 = 0.045 ± 0.602

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 27 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm định giả thuyết về các hệ số hồi quy

Đối với bộ dữ liệu có quá nhiều biến dự đoán, ta chỉ cần trích ra
một số biến có ảnh hưởng đáng kể đối với biến phản hồi, các biến
còn lại có thể lược bỏ.

Xét mô hình hồi quy tuyến tính cổ điển với ma trận đầy hạng,
viết lại mô hình dưới dạng
 
  β(1)
Z (1) Z (2) (q+1)×1
Y = Zβ + E = +E
 
n×(r −q) β(2)

n×(q+1)
(r −q)×1

= Z (1) β(1) + Z (2) β(2) +E


n×(q+1)(q+1)×1 n×(r −q)(r −q)×1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 28 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm định giả thuyết về các hệ số hồi quy

Xét giả thuyết


H0 : β(2) = 0
Ta có định lý sau
Định lý 4.3

Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z đầy


hạng và E ∼ Nn (0, σ 2 I ). Khi đó giả thuyết H0 : β(2) = 0 bị bác
bỏ với mức ý nghĩa 100(1 − α)% nếu

RSS(Z (1) ) − RSS(Z ) > s 2 (r − q) Fr −q,n−r −1 (α)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 29 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm định giả thuyết về các hệ số hồi quy

Tổng quát hơn, với ma trận C kích thước (r − q) × (r + 1) đầy


hạng, xét giả thuyết
H0 : C β = 0
Ta có định lý sau
Định lý 4.3∗

Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z đầy


hạng và E ∼ Nn (0, σ 2 I ). Khi đó với ma trận C đầy hạng, giả
thuyết H0 : C β = 0 bị bác bỏ với mức ý nghĩa 100(1 − α)% nếu
b 0 (C (Z 0 Z )−1 C 0 )−1 (C β)
(C β) b > s 2 (r − q) Fr −q,n−r −1 (α)

h i
Định lý 4.3∗ sẽ trở về Định lý 4.3 nếu C = 0 I
(r −q)×(r −q)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 30 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Y z1 z2 z3 z4 z5
log-Chu kỳ Cường độ Cường độ Độ sâu Nhiệt Điện thế
tới hạn sạc (A) xả (A) của xả (%) độ (◦ C) tối đa (V)
4.615 0.375 3.13 60.0 40 2.00
4.949 1.000 3.13 76.8 30 1.99
4.564 1.000 3.13 60.0 20 2.00
4.828 1.000 3.13 60.0 20 1.98
3.761 1.625 3.13 43.2 10 2.01
2.773 1.625 3.13 60.0 20 2.00
5.236 1.625 3.13 60.0 20 2.02
2.303 0.375 5.00 76.8 10 2.01
1.099 1.000 5.00 43.2 10 1.99
5.956 1.000 5.00 43.2 30 2.01

Bảng 4.2a. log-số chu kỳ tới hạn của 20 viên pin

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 31 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Y z1 z2 z3 z4 z5
log-Chu kỳ Cường độ Cường độ Độ sâu Nhiệt Điện thế
tới hạn sạc (A) xả (A) của xả (%) độ (◦ C) tối đa (V)
3.807 1.000 5.00 100.0 20 2.00
0.693 1.625 5.00 76.8 10 1.99
4.331 0.375 1.25 76.8 10 2.01
4.356 1.000 1.25 43.2 10 1.99
5.075 1.000 1.25 76.8 30 2.00
1.099 1.000 1.25 60.0 0 2.00
5.375 1.625 1.25 43.2 30 1.99
4.290 1.625 1.25 60.0 20 2.00
5.749 0.375 3.13 76.8 30 1.99
5.136 0.375 3.13 60.6 20 2.00

Bảng 4.2b. log-số chu kỳ tới hạn của 20 viên pin

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 32 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Sử dụng công thức ở Định lý 4.3∗ để kiểm định giả thuyết


 0
H0 : β4 β5 = 0
h i
Chọn C = 0 I và α = 0.05. Ta có
2×6 2×2

b 0 (C (Z 0 Z )−1 C 0 )−1 (C β)
(C β) b = 25.304
s 2 (r − q)Fr −q,n−r −1 (α) = 8.566

Do 25.304 > 8.566, ta bác bỏ giả thuyết H0 với mức ý nghĩa 95%

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 33 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 34 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng hàm hồi quy tuyến tính tại Z0

Giả sử Y0 là giá trị phản hồi của mô hình hồi quy khi biến dự đoán
0
là Z 0 = 1 z01 z02 . . . z0r Khi đó

E (Y0 |Z 0 ) = β0 + β1 z01 + · · · + βr z0r = Z 00 β

Theo Định lý 3.3, ước lượng bình phương cực tiểu của E (Y0 |Z 0 )
là Z 00 β.
b Hơn nữa, còn là ước lượng hiệu quả của E (Y0 |Z 0 ), với
phương sai
Var(Z 00 β)
b = Z 0 (Z 0 Z )−1 Z 0 σ 2
0

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 35 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng hàm hồi quy tuyến tính tại Z0

Định lý 5.1

Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z đầy


hạng và E ∼ Nn (0, σ 2 I ). Khi đó khoảng tin cậy mức 100(1−α)%
của Z 00 β là
α q
Z 00 βb ± tn−r −1 Z 00 (Z 0 Z )−1 Z 0 s 2
2

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 36 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Dự đoán quan sát mới tại Z0

Với Z 0 là vector cho trước, thay vào mô hình hồi quy ta được

Y0 = Z 00 β + ε0

trong đó ε0 ∼ N (0, σ 2 ) và độc lập với εi . Ta có định lý sau


Định lý 5.2

Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z đầy


hạng và E ∼ Nn (0, σ 2 I ). Một quan sát mới Y0 sẽ có ước lượng
không chệch

Z 00 βb = βb0 + βb1 z01 + · · · + βbr z0r

trong đó Var(Y0 − Z 00 β)
b = σ 2 (1 + Z 0 (Z 0 Z )−1 Z 0 )
0

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 37 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Dự đoán quan sát mới tại Z0

Hệ quả. Khoảng dự đoán mức 100(1 − α)% của Y0 được cho bởi
α q
Z 00 βb ± tn−r −1 s 2 (1 + Z 00 (Z 0 Z )−1 Z 0 )
2

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 38 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Y z1 z2
Tuổi thọ CPU Số đơn đặt Lượng đơn vị vào-ra
(Giờ) (Nghìn) (Nghìn)
141.5 123.5 2.108
168.9 146.1 9.213
154.8 133.9 1.905
146.5 128.5 0.815
172.8 151.5 1.061
160.1 136.2 8.603
108.5 92.0 1.125

Bảng 5.1. Tuổi thọ của một số loại CPU

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 39 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Ta sử dụng phương trình hồi quy tuyến tính mẫu

Yb = 7.86 + 1.08z1 + 0.45z2


 0
để dự đoán hàm hồi quy E (Y |Z 0 ) tại Z 0 = 1 130 7.5

Khoảng tin cậy mức 95% của Z 00 β là 151.687 ± 3.057


Khoảng tin cậy mức 95% của Y0 là 151.687 ± 5.875

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 40 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 41 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Chuẩn hoá tập mẫu

Ta đặt
z −µ
z∗ =
σ
trong đó z là giá trị quan sát, z là giá trị trung bình mẫu và s là
độ lệch chuẩn mẫu

Tác dụng
• Đo lường xem z cách xa z bao nhiêu.
• Áp dụng công thức này với toàn bộ dữ liệu Z , ta sẽ nhận
được mẫu Z ∗ mới có trung bình là 0 và độ lệch chuẩn là 1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 42 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Outlier

Outlier là điểm dữ liệu bất thường, khác biệt so với phần còn lại
của dữ liệu.


Outlier •••
••
• •••
••
•• • •
• •


• ••
•• • •
••••• •••
•• • •• •••
• •• ••
• •

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 43 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Leverage

Leverage là độ đo khoảng cách giữa 1 điểm dữ liệu và phần còn


lại của bộ dữ liệu dựa trên miền giá trị của bộ dữ liệu. Leverage
được xác định bởi

1 (zj − z)2
hjj = + Pn 2
n j=1 (zj − z)

Nhận xét.
• Càng có nhiều điểm dữ liệu nằm gần nhau thì sức ảnh hưởng
hay độ lớn của điểm high leverage càng giảm.
• Các điểm outlier có tác động rất lớn đến mô hình, điểm nào
có giá trị của biến dự đoán nằm càng xa khỏi bộ dữ liệu thì
tác động càng lớn.
• Ngưỡng chọn Outlier thường là 2p/n hoặc 3p/n

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 44 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Quy tắc 1.5IQR

Xét các tứ phân vị


• Tứ phân vị thứ nhất Q1 : Phân vị mức 25%
• Tứ phân vị thứ hai Q2 : Phân vị mức 50% (chính là trung vị)
• Tứ phân vị thứ ba Q3 : Phân vị mức 75%
Định nghĩa khoảng cách tứ phân vị (Interquartile range) là giá trị

IQR = Q3 − Q1

Khi đó nếu x ∈
/ [Q1 − 1.5IQR; Q3 + 1.5IQR] thì x được coi là một
điểm outlier

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 45 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra tính phụ thuộc vào biến của mô hình

Ta sử dụng tiêu chuẩn F để kiểm tra tính phụ thuộc vào biến zi
của mô hình, hay là mô hình chỉ phụ thuộc vào mỗi giá trị tự do là
hằng số β0
(n − k − 1)R 2
F =
k(1 − R 2 )
trong đó

b 0Y
b − nY 2
Pn Pn
2 Y k=1 (Yk − Y )
b 2 b2k
k=1 ε
R := 2
= Pn 2
= 1 − Pn 2
Y 0 Y − nY k=1 (Yk − Y ) k=1 (Yk − Y )

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 46 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra tính phụ thuộc vào biến của mô hình

Các giả thiết được đặt ra:


• Giả thuyết H0 : β1 = β2 = · · · = βk = 0
• Đối thuyết H1 : ∃βj 6= 0 với j = 1, k
Kiểm tra:
1 Tính đại lượng F = [(n − k − 1)R 2 ]/[k(1 − R 2 )]
2 Tra bảng phân phối Fisher với bậc tự do k và n − k − 1, mức
ý nghĩa α.
3 Nếu F > Fk,n−k−1 (α) thì bác bỏ H0

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 47 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra tính đa cộng tuyến của các biến dự đoán

Các biến Zi có thể có tương quan, hiện tượng này dẫn tới việc
det(Z 0 Z ) → 0, hay các hệ số βbi trở nên rất lớn, khó kiểm soát sai
số.

Cách nhận biết hiện tượng này:


• Một số phần tử trên đường chéo chính của ma trận (Z 0 Z )−1
rất lớn.
s
• Các hệ số tương quan tuyến tính mẫu rij = √ ij > 0.7,
sjj sii
trong đó
n
1X
sij = zki zkj − Z i Z j
n
k=1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 48 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra tính đa cộng tuyến của các biến dự đoán

Để khắc phục thì ta thực hiện các bước sau


1 Tính các hệ số tương quan tuyến tính mẫu rij
2 Đặt r0i là các hệ số tương quan giữa Y và Zi , với
s0i
r0i = √
sii s00

1
trong đó s00 = sy2 và s0i = Yj zji − Y z i
( n
loại Zi ra khỏi mô hình nếu |r0i | < |r0j |
Nếu |rij | > 0.7 thì
loại Zj ra khỏi mô hình nếu |r0i | > |r0j |
3 Thực hiện hồi quy sau khi ma trận Z đã loại bỏ biến Zi hay Zj

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 49 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giá trị t-statistic và p-value


Giá trị t-statistic được định nghĩa là

βbi
t-statistic = q
D(
b βbi )

trong đó βi là ước lượng hệ số hồi quy và


n
1 X
D b2 =
b=σ εbj 2
n−r −1
j=1

Gía trị p-value là xác suất quan sát được một số có giá trị tuyệt
đối bằng t-statistic hoặc lớn hơn

p-value = 2(1 − CDF(n, |t-statistic|))

trong đó CDF là hàm phân phối tích luỹ của phân phối Student.
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 50 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giá trị t-statistic và p-value

Hệ quả
• Nếu có mối liên hệ giữa Zi và Y , ta kì vọng t-statistic có
phân phối Student với n − 2 bậc tự do
• Giả thuyết bị bác bỏ khi p-value < 5% hoặc p-value < 1%
• Khi n ≥ 30, chúng lần lượt tương ứng với t-statistic ≥ 2 hoặc
t-statistic ≥ 2.75

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 51 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

Ta đưa ra tiêu chuẩn Student để chấp nhận hay bác bỏ giả thuyết

H0 : E ∼ Nn (0, σ 2 I )

hay
b ∼ Nn (0, σ 2 (I − H))
H0 : E
Ta có bổ đề sau
Bổ đề 6.1
Nếu ma trận A là ma trận lũy đẳng (A2 = A) thì nó sẽ chỉ có trị
riêng là 0 hoặc 1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 52 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

Ma trận I − H là ma trận lũy đẳng nên theo Bổ đề 6.1 thì I − H


chỉ có các trị riêng là 0 hoặc 1. Xét dãy

v 1 , v 2 , . . . , v n−r −1

là n − r − 1 vector riêng ứng với giá trị riêng bằng 1 của I − H,


còn lại là dãy
v n−r , v n−r +1 , . . . , v n
là r + 1 vector riêng ứng với giá trị riêng bằng 0 của I − H. Khi đó

I − H = PΛP 0
 
trong đó P = v 1 v 2 . . . v n là hệ các vector riêng trực
chuẩn, Λ = diag{1, . . . , 1, 0, . . . , 0}

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 53 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

Đặt 0
e = P 0E

b = e1 e2 . . . en
Khi đó với E ∼ Nn (0, σ 2 I ) thì

E (e) = P 0 E (E)
b =0
Cov(e) = P 0 Cov(σ 2 (I − H))P = σ 2 P 0 PΛP 0 P = σ 2 Λ

Nếu H0 đúng thì e 1 , e 2 , . . . , e n−r −1 là các biến ngẫu nhiên có


phân phối chuẩn và e n−r = e n−r +1 = · · · = e n = 0 hầu chắc
chắn. Khi đó
n
X n−r
X −1 n
X n−r
X −1
ej = ej ; ej2 = ej2
j=1 j=1 j=1 j=1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 54 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

Đặt
n n−r −1
1X 1 X
e= ej ; ee = ej
n n−r −1
j=1 j=1

Khi đó ne = (n − r − 1)e
e khi H0 đúng. Hơn nữa,
n−r
X −1 n−r
X −1
ej2 − (n − r − 1)e
e2 = (ej − ee)2
j=1 j=1

Xét thống kê
s
n−r −2
T = ne
(n − r − 1) nj=1 ej2 − n2 e 2
P

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 55 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư


Nếu giả thiết H0 đúng thì
s
n−r −1
T = ee Pn−r −1
j=1 (ej − ee)2 /(n − r − 2)

có phân phối Student với n − r − 2 bậc tự do.


Định lý 6.2

Xét mô hình hồi quy tuyến tính Y = Z β + E với ma trận Z đầy


hạng. Ta bác bỏ giả thuyết H0 : E ∼ Nn (0, σ 2 I ) với mức ý nghĩa
100(1 − α)% nếu
√ α q
ne n − r − 2 > tn−k−2 (n − r − 1)e 0 e − n2 e
2

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 56 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

Khi tiêu chuẩn Student đưa đến bác bỏ giả thuyết E không tuân
theo phân phối chuẩn Nn (0, σ 2 In ), đồ thị phần dư thể biểu diễn
được những lỗi sau của model:
• Phần dư εbj phụ thuộc vào biến Ybj
• Phương sai không phải là hằng số
• Mô hình dự đoán bỏ sót biến dự đoán zj
• Phần dư εbj không có phân phối chuẩn

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 57 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

(1) (Hình 6.1) Đồ thị phần dư phụ thuộc vào biến Ybj
(2) (Hình 6.2) Đồ thị phần dư với phương sai biến thiên

εb εb
•• •• •
•••• • •
•• •• •••• •• •
••• •• • •••••• •••• •• •• •••

••••• •• •• •• • • •
•••• • •• •• •••
•• •
• ••••••••••• •••• ••••• •• •
•• ••• ••••• •••• • •• •• •• •
•••• ••• ••••••
•• ••• • ••
•••• • •• ••• • • • •
• •
•• ••• • ••• •• •• •• •••••••••••• ••• •
• ••••• •• •• •
• • •• • •
• ••• • •••• ••••• Y
••• •
••••• •••••• •
•••
••••••
••••• •••
• ••• • • •••• • •••• • Y
• •• •• • • •• •
•• •• ••• • • • ••••
b b
• • •••• • ••


• • • • • •• • •••••••••••• • •
••• ••• •
• •••••••••••••• • • • •• •
• • •• • ••
•• ••• • ••• • •• •
••
• • •• • • • •• •••• •
••••• •• • • • • ••• ••


• • • •• •
••• •••
•• •

Hình 6.1 Hình 6.2

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 58 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

(3) (Hình 6.3) Đồ thị phần dư với một biến dự báo hoặc với tích
các biến dự đoán
(4) (Hình 6.4) Đồ thị phần dư lý tưởng, phương sai bằng nhau và
không phụ thuộc vào biến dự đoán
εb εb

•••• • • •• • •• ••••• • • ••••••••••••

•• •
•• • • • ••
• • •• •• •
•••••••• ••••• ••••••• ••• • •••••••••••••••••••••• z1 Y
••
•••••• •••••••••••••••••••••••••••• •••••••
b
•••• •• •• •• ••••••••••• •
• • •••••• ••• •••
• • ••• • ••• •• ••• ••••• ••••••• • • • ••••••• ••

Hình 6.3 Hình 6.4

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 59 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Khảo sát phần dư

(5) Đồ thị Q − Q kiếm định tính phân phối chuẩn của εbj

εb •••

••
••
••
•••
•• •
•• •
•••••
•••

••
• ••
••


••
•••
••
• Y
b
••
••

Hình 6.5

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 60 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra tính không tương quan của các phần dư theo thời gian

Giả sử Yj được theo dõi theo thời gian j = 1, 2, .. Khi đó, thường
xảy ra các trường hợp εj có tương quan với nhau.
Giải pháp. Sử dụng tiêu chuẩn Durbin-Watson để kiểm tra tính
tương quan này. Đại lượng
Pn
εj − εbj−1 )2
j=2 (b
DW = Pn
b2j
j=1 ε

sẽ tuân theo phân phối Dublin-Watson.

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 61 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra tính không tương quan của các phần dư theo thời gian

Tra bảng Durbin-Watson với mức ý nghĩa α, ta tìm được hai hệ số


d1 (n, p, α) < d2 (n, p, α) với n là số điểm của bộ dữ liệu, p là số
biến, α là mức chính xác. So sánh với DW, ta có kết luận sau:
• Nếu 0 ≤ DW < d1 thì các εbj có tự tương quan dương.
• Nếu d1 ≤ DW ≤ d2 thì không thể kết luận được.
• Nếu d2 ≤ DW < 4 − d2 thì các εbj không có tự tương quan
bậc nhất
• Nếu 4 − d2 ≤ DW ≤ 4 − d1 thì không thể kết luận được.
• Nếu 4 − d1 ≤ DW < 4 thì các εbj có tự tương quan âm.

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 62 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Xác định các biến quan trọng

Chọn tiến dần:


1 Gọi M0 là mô hình null (Mô hình không chứa biến dự đoán)
2 Với k = 0, 1, . . . , p − 1
• Xét tất cả p − k mô hình được tạo bằng cách lấy các biến
phản hồi của Mk và thêm vào một biến không có trong Mk
• Chọn mô hình tốt nhất trong p − k mô hình vừa tạo và gọi
mô hình đó là Mk+1 . Tốt nhất ở đây là có giá trị RSS cao
nhất hoặc R 2 cao nhất.
3 Chọn mô hình tốt nhất trong các mô hình M0 , M1 , ..., Mp
2 .
bằng một trong các hệ số Mallow’s Cp , AIC, BIC hoặc Radj

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 63 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Xác định các biến quan trọng

Chọn lùi dần:


1 Gọi Mp là mô hình full (Mô hình chứa tất cả các biến dự
đoán)
2 Với k = p, p − 1, . . . , 1
• Xét tất cả k mô hình được tạo bằng cách loại đi một biến
trong mô hình Mk
• Chọn mô hình tốt nhất trong k mô hình vừa tạo và gọi mô
hình đó là Mk−1 . Tốt nhất ở đây là có giá trị RSS cao nhất
hoặc R 2 cao nhất.
3 Chọn mô hình tốt nhất trong các mô hình M0 , M1 , ..., Mp
2 .
bằng một trong các hệ số Mallow’s Cp , AIC, BIC hoặc Radj

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 64 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Xác định các biến quan trọng


Chọn hỗn hợp: Kết hợp giữa chọn tiến dần và chọn lùi dần.

Một số hệ số quan trọng. Với p ≤ n là số biến dự đoán ta dùng


trong mô hình hồi quy, ta có các hệ số sau
• (Mallow’s Cp ) Chọn β(2) sao cho Cp ≈ p
RSS(Z (1) )
Cp = + 2p − n
RSS(Z )
• (Akaike information criterion) Chọn β(2) để AIC nhỏ nhất
2πRSS(Z (1) )
 
AIC = 2p + n 1 + ln
n
• (Bayesian information criterion) Chọn β(2) để BIC nhỏ nhất
RSS(Z (1) )
BIC = n ln + p ln n
n
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 65 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Tổng kết

Để dựng một mô hình hồi quy hoàn chỉnh, ta làm theo các bước
sau
1 Tiền xử lí dữ liệu
• Chuẩn hóa tập mẫu
z −z
z∗ =
s
• Khảo sát tính đơn - đa cộng tuyến tính của các biến dự đoán
• Sử dụng tứ phân vị để lọc outliers
2 Xác định các biến quan trọng
• Ước lượng các hệ số hồi quy: βb = (Z 0 Z )−1 Z 0 Y
• Sử dụng tiêu chuẩn F , kiểm tra mối liên hệ giữa Z và Y
• Xác định hệ số R, t-statistic, p-value của từng biến Zi
• Lựa chọn các biến quan trọng, loại bỏ biến không cần thiết
• Lặp lại tới khi nào thoả mãn điều kiện mà ta đặt ra

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 66 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Tổng kết

3 Khảo sát phần dư


• Sử dụng tiêu chuẩn Student, kiểm tra các sai số ε
• Khảo sát phần dư, xác định các outlier
• Xác định các giá trị Leverage
• Loại bỏ các outlier dựa vào các giá trị Leverage vừa tìm được
4 Xây dựng mô hình
• Ước lượng lại hệ số hồi quy và khoảng tin cậy
• Xác định hệ số R
• Ước lượng hàm hồi quy tuyến tính

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 67 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 68 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu mô hình

Ở mô hình hồi quy tuyến tính đa bội, biến phản hồi Y có m thành
phần Y1 , Y2 , Y3 , . . . , Ym

Y1 = β01 + β11 Z1 + · · · + βr 1 Zr + ε1
Y2 = β02 + β12 Z1 + · · · + βr 2 Zr + ε2
...
Ym = β0m + β1m Z1 + · · · + βrm Zr + εm

Trong đó, E = [ε1 , ε2 , . . . , εm ]0 có E (E) = 0 và Var (E) = Σ

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 69 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu mô hình

Ma trận của các biến phản hồi


 
y11 y12 . . . y1m
y21 y22 . . . y2m   
[Y ] =  . ..  = Y (1) Y (2) . . . Y (m)
 
.. ..
 .. . . . 
yn1 yn2 . . . ynm

trong đó,  
y1j
y2j 
Y (j) = . 
 
 .. 
ynj

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 70 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu mô hình

Ma trận của các tham số


 
β01 β02 . . . β0m
β11 β12 . . . β1m 
  
[β] =  . ..  = β(1) β(2) . . . β(m)

.. ..
 .. . . . 
βr 1 βr 2 . . . βrm

trong đó,  
β1j
β2j 
β(j) = . 
 
 .. 
βrj

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 71 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu mô hình

Ma trận của các sai số


 
ε11 ε12 . . . ε1m
ε21 ε22 . . . ε2m 
  
[E] =  . ..  = E (1) E (2) . . . E (m)

.. ..
 .. . . . 
εn1 εn2 . . . εnm

trong đó,  
ε1j
ε2j 
E (j) = . 
 
 .. 
εnj

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 72 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu mô hình


Ma trận các giá trị của biến dự đoán
 
1 z11 z12 . . . z1r
1 z21 z22 . . . z2r 
Z = .
 
.. .. .. .. 
 .. . . . . 
1 zn1 zn2 . . . znr
Từ các ma trận trên ta viết gọn mô hình trở thành
[Y ] = Z [β] + [E]
n×m n×(r +1) (r +1)×m n×m

Ở đây,
E (E (j) ) = 0 và Cov(E (i) , E (j) ) = σij I i, j = 1, n

Var (E j ) = Σ = {σij } i, j = 1, m
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 73 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng [β]

Với mỗi thành phần thứ j của biến phản hồi, RSS(j) được cực tiểu
hóa bởi βb(j) = (Z 0 Z )−1 Z 0 Y (j) . Lại có RSS của cả bài toán là
n
X
RSS(Z ) = RSS(j)
j=1

Do đó ma trận
h i
[β]
b = βb(1) βb(2) . . . βb(m)
= (Z 0 Z )−1 Z 0 Y (1) Y (2) . . .
 
Y (m)
= (Z 0 Z )−1 Z 0 [Y ]

sẽ cực tiểu hóa RSS(Z )


MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 74 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng [Y ]
Với [β]
b vừa tìm được, ta ước lượng [Y ] bằng

[Y
b ] = Z [β]
b

Sai số của ước lượng này là

[E] b ] = (I − Z (Z 0 Z )−1 Z 0 )[Y ]


b = [Y ] − [Y

Ngoài ra,

Z 0Eb = Z 0 (I − Z (Z 0 Z )−1 Z 0 )[Y ] = 0


b ]0 E
[Y b 0 Z 0 (I − Z (Z 0 Z )−1 Z 0 )[Y ] = 0
b = [β]

b (j) ⊥ E
Hay nói cách khác, Y b (k) . Hơn nữa,

[Y ]0 [Y ] = [Y
b ]0 [Y b 0 [E]
b ] + [E] b

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 75 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng Σ
Định lý 7.1

Xét mô hình hồi quy tuyến tính bội [Y ] = Z [β] + [E] với
rank(Z ) = r + 1 ≤ n − m và nhiễu [E] có phân phối chuẩn.
Khi đó

b = 1 [E]
Σ b = 1 ([Y ] − Z [β])
b 0 [E] b 0 ([Y ] − Z [β])
b
n n
là ước lượng hợp lý cực đại của Σ

Hệ quả. Với ước lượng Σ b như trên thì nΣ


b sẽ tuân theo phân phối
W p,n−r −1 (Σ). Hơn nữa ta có hàm hợp lý cực đại
mn n
L(µ, b = (2πe)−
b Σ) b −2
2 |Σ|

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 76 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Một số tính chất quan trọng

Tính chất 7.1


b là ước lượng không chệch của [β]
[β]

Thật vậy, ta có biến đổi


b = E ((Z 0 Z )−1 Z 0 [Y ])
E ([β])
= E ((Z 0 Z )−1 Z 0 (Z [β] + [E]))
= [β] + (Z 0 Z )−1 Z 0 E ([E])
= [β]

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 77 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Một số tính chất quan trọng


Tính chất 7.2
b = (Z 0 Z )−1 Z 0 [Y ] là ước lượng hợp lý cực đại của [β]
[β]

Thật vậy, ta có hàm hợp lý cho n quan sát

L([β], Σ, [Y ])
n
!
1 1X 0 −1
= mn n exp − (Y i − Z i [β]) Σ (Y i − Z i [β])
(2π) 2 det(Σ) 2 2
i=1

Khi đó [β]
b là nghiệm của hệ phương trình


log L([β], Σ, [Y ]) = 0
∂βij

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 78 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Một số tính chất quan trọng

Tính chất 7.3


b = 0 và Cov(βb(j) , βb(k) ) = σjk (Z 0 Z )−1
E ([E])

Ta có

E (E
b (j) ) = E (Y (j) − Z βb(j) ) = E (Z β(j) ) − Z β(j) = 0

Điều này kéo theo E ([E])


b = 0. Hơn nữa

Cov(βb(j) , βb(k) ) = E (βb(j) − β(j) )(βb(k) − β(k) )0


= (Z 0 Z )−1 Z 0 E (E (j) E 0(k) )Z (Z 0 Z )−1
= σjk (Z 0 Z )−1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 79 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Một số tính chất quan trọng

Tính chất 7.4


b có phân phối chuẩn
[β]

Với giả thiết E (i) ∼ Nn (0, σii I ) ta được Y (i) ∼ Nn (Z β, σii I ). Do


đó
βb(i) = (Z 0 Z )−1 Z Y (i) ∼ Nr +1 (β(i) , σii (Z 0 Z )−1 )
b có phân phối chuẩn với Cov(βb(j) , βb(k) ) = σjk (Z 0 Z )−1
Như vậy [β]

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 80 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Một số tính chất quan trọng


Tính chất 7.5
b là ước lượng chệch của Σ
Σ

Biến đổi
b0 E
E (E 0 0 −1 0
(j) (k) ) = E (E (j) (I − Z (Z Z ) Z )E (k) )
b
= tr((I − Z (Z 0 Z )−1 Z 0 )σjk I )
= σjk (n − r − 1)

Từ đây ta có,

b 0 [E])
E ([E] b = (n − r − 1)Σ hay b = n − r − 1Σ
E (Σ)
n
n b 0 [E]
Ta còn có ước lượng không chệch [E] b của Σ
n−r −1
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 81 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm định tỷ số hợp lý cho tham số hồi quy


Xét giả thuyết
 
[β(1) ]
(q+1)×m
H0 : [β(2) ] = 0 trong đó β = 
 
[β(2) ]

(r −q)×m

Đặt  
Z (1) Z (2)
Z=
(q+1)×m (r −q)×m

Như vậy
 
  [β(1) ]
Z (1) Z (2) (q+1)×m
E ([Y ]) = Z [β] =
 
(r −q)×m [β(2) ]
 
(q+1)×m
(r −q)×m

= Z (1) [β(1) ] + Z (2) [β(2) ]


MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 82 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm định tỷ số hợp lý cho tham số hồi quy


Dưới tác động của giả thuyết H0 ,

[β(2) ] = 0 , [Y ] = Z 1 [β(1) ] + [E]

Các tham số ước lượng

[β(1) ] = (Z 01 Z 1 )−1 Z 01 [Y ]
b 1 = 1 ([Y ] − Z [βb(1) ])0 ([Y ] − Z [βb(1) ])
Σ
n

Ta có tỷ số hợp lý (Wilk’s Lambda)

max L([β(1) ], Σ) !n
2
[β(1) ],Σ |Σ|
b
Λ= =
max L([β], Σ) |Σb 1|
[β],Σ

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 83 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm định tỷ số hợp lý cho tham số hồi quy


Định lý 7.2

Xét mô hình hồi quy tuyến tính bội [Y ] = Z [β] + [E] với
rank(Z ) = r + 1 ≤ n − m và nhiễu [E] có phân phối chuẩn.
Khi đó ta bác bỏ giả thuyết H0 nếu
!
|Σ|
b
−2 ln(Λ) = −n ln
|Σb 1|
nhận giá trị lớn

Khi n lớn, ta sử dụng thống kê hiệu chỉnh sau


  !
1 |Σ|
b
n − r − 1 − (m − r + q − 1) ln ∼ χ2m(r −q)
2 |Σb 1|

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 84 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm định tỷ số hợp lý cho tham số hồi quy

Ngoài phương pháp kiểm định Wilk’s Lambda như trên ta còn một
số phương pháp kiểm định khác. Đặt

E = nΣ̂ và H = n(Σ̂1 − Σ̂)

η1 ≥ η2 ≥ · · · ≥ ηs là các trị riêng của HE −1 và s = min{p, r − q}


s
X ηi
Pillai’s trace = = tr[H(H + E )−1 ]
1 + ηi
i=1
Xs
Hotelling - Lawley’s trace = ηi = tr[(HE )−1 ]
i=1
η1
Roy’s greatest root =
1 + η1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 85 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Miền ellipsoid tin cậy của β 0 z 0

Khi xuất hiện thêm quan sát z 0 , ta có


b 0 z 0 ∼ Nm ([β]0 z 0 , z 0 (Z 0 Z )−1 z 0 Σ)
[β] 0


nE
b ∼ W p,n−r −1 (Σ)

Khi đó ta có thống kê T 2
!0  −1 !
b 0 z 0 − [β]0 z 0
[β] n b 0 z − [β]0 z 0
[β]
2
T = p 0 0 Σ
b p 0 0
z 0 (Z Z )−1 z 0 n−r −1 z 00 (Z Z )−1 z 0

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 86 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Miền ellipsoid tin cậy của β 0 z 0

Định lý 7.3

Xét mô hình hồi quy tuyến tính bội [Y ] = Z [β] + [E] với
rank(Z ) = r + 1 ≤ n − m và nhiễu [E] có phân phối chuẩn.
Khi đó miền tin cậy đồng thời mức 100(1 − α)% của β 0 z 0 là
!0  −1 !
b 0 z − [β]0 z 0
[β] n [ b 0 z 0 − [β]0 z 0
β]
p 0 0 Σ
b ≤
z 00 (Z 0 Z )−1 z 0
p
z 00 (Z Z )−1 z 0 n−r −1
 
0 0 −1 m(n − r − 1)
≤ z 0 (Z Z ) z 0 Fm,n−r −m (α)
n−r −m

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 87 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Miền ellipsoid tin cậy của β 0 z 0

Hệ quả. Khoảng tin cậy đồng thời mức 100(1 − α)% của E (Y i )
= z 00 β(i) là

z 0 β(i) ±
r s  
m(n − r − 1) 0 0 −1
n
Fm,n−r −m (α) z 0 (Z Z ) z 0 σ
bii
n−r −m n−r −1

Từ khoảng tin cậy của β 0 z 0 đã nêu ở Định lý 7.3, kèm theo

Y 0 − βb0 z 0 ∼ Nm (0, (1 + z 00 (Z 0 Z )−1 z 0 )Σ)

ta có được miền dự đoán cho Y 0 được nêu ở định lý sau đây

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 88 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Miền dự đoán cho Y 0

Định lý 7.4

Xét mô hình hồi quy tuyến tính bội [Y ] = Z [β] + [E] với
rank(Z ) = r + 1 ≤ n − m và nhiễu [E] có phân phối chuẩn.
Khi đó miền dự đoán mức 100(1 − α)% của Y 0 là
 −1
n
(Y 0 − [β]0 z 0 )0 Σ
b (Y 0 − [β]0 z 0 ) ≤
n−r −1
 
0 0 −1 m(n − r − 1)
≤ (1 + z 0 (Z Z ) z 0 ) Fm,n−r −m (α)
n−r −m

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 89 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Miền dự đoán cho Y 0

Hệ quả. Miền dự đoán đồng thời mức 100(1 − α)% của Y0i là

z 0 β(i) ±
r s  
m(n − r − 1) 0 0 −1
n
Fm,n−r −m (α) (1 + z 0 (Z Z ) z 0 ) σ
bii
n−r −m n−r −1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 90 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Y1 Y2 z1 z2 z3 z4 z5
TOT AMI GEN AMT PR DIAP QRS
3389 3149 1 7500 220 0 140
1101 653 1 1975 200 0 100
1131 810 0 3600 205 60 111
596 448 1 675 160 60 120
896 844 1 750 185 70 83
1767 1450 1 2500 180 60 80
807 493 1 350 154 80 98
1111 941 0 1500 200 70 93
1412 963 1 2250 175 45 125

Bảng 7.1a. Thông tin điều trị của 18 bệnh nhân

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 91 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ví dụ

Y1 Y2 z1 z2 z3 z4 z5
TOT AMI GEN AMT PR DIAP QRS
645 547 1 375 137 60 105
628 392 1 1050 167 60 74
1360 1283 1 3000 180 60 80
652 458 1 450 160 64 60
860 722 1 1750 135 90 79
500 384 0 2000 160 60 80
781 501 0 4500 180 0 100
1070 405 0 1500 170 90 120
1754 1520 1 3000 180 0 129

Bảng 7.1b. Thông tin điều trị của 18 bệnh nhân

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 92 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 93 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Cách tiếp cận


Xét mô hình hồi quy tuyến tính

Y = β0 + β1 Z1 + . . . βr Zr + ε = β0 + β 0 Z + ε

Ta coi Y , Z1 , Z2 , . . . , Zr là các biến ngẫu nhiên có hàm phân phối


đồng thời không nhất thiết là phân phối chuẩn, có kỳ vọng và
phương sai là

σYY σZ0 Y
   
µY
1×r 
µ=  , Σ=
µZ 
σZ Y ΣZ Z

r ×1 1×r r ×r

trong đó ma trận ΣZ Z đầy hạng và


 0
σZ Y = σZ1 Y σZ2 Y ... σ Zr Y

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 94 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Cách tiếp cận

Xét một biến dự đoán tuyến tính Yb của Y

Yb = β0 + β 0 Z

Sai số của dự đoán sẽ là

εb = Y − Yb = Y − β0 − β 0 Z

Ta cần tìm β0 và β để giá trị trung bình bình phương của sai số là
nhỏ nhất, hay
b = argmin E (Y − β0 − β 0 Z )2
(βb0 , β)
(β0 ,β)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 95 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Cách tiếp cận


Định lý 8.1

Biểu thức E (Y − β0 − β 0 Z )2 sẽ đạt giá trị nhỏ nhất tại

βb0 = µY − β 0 µZ , βb = Σ−1
Z Z ΣZ Y

Giá trị nhỏ nhất đó sẽ là


E (Y − β0 − β 0 Z )2 = σYY − σZ0 Y Σ−1
Z Z σZ Y

Hệ quả. Trong các biến ngẫu nhiên có dạng β0 + β 0 Z thì


βb0 + βb0 Z có tương quan chặt nhất với Y ,
s
σZ0 Y Σ−1
Z Z σZ Y
Corr(Y , βb0 + βb0 Z ) =
σYY

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 96 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số tương quan bội tổng thể

Định nghĩa
σZ0 Y Σ−1
Z Z σZ Y
ρ2Y (Z ) :=
σYY
ρ2Y (Z ) được gọi là hệ số tương quan bội tổng thể, là tương quan
của biến Y so với biến dự đoán tuyến tính tốt nhất (Chính là biến
βb0 + βb0 Z ). Với cách đặt trên,
1
E (Y − β0 − β 0 Z )2 = σYY (1 − ρ2Y (Z ) ) =
(Σ−1 )11

• ρ2Y (Z ) = 0: Biến Z không ảnh hưởng tới dự đoán


• ρ2Y (Z ) = 1: Y có thể được dự đoán mà không có sai số

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 97 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giả thiết phân phối chuẩn?

Giả thiết biến Y có quan hệ tuyến tính với biến Z khá "gần" với
giả thiết các biến Y , Z tuân theo phân phối chuẩn. Thật vậy, giả
sử rằng  
Y
  ∼ Nr +1 (µ, Σ)
Z
r ×1

Khi đó

∼ N µY + σZ0 Y Σ−1 0 −1

Y Z =[z
1 z2 ... zr ]0 ZZ (Z − µZ ), σYY − σZ Y ΣZZ σZ Y

Như vậy

E (Y |Z = z) = µY + σZ0 Y Σ−1 0
ZZ (z − µZ ) = β0 + β z

hay E (Y |Z = z) chính là dự đoán tốt nhất của Y


MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 98 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giả thiết phân phối chuẩn?

Định lý 8.2
0
Giả sử Y Z 0 ∼ Nr +1 (µ, Σ). Đặt


s 0Z Y
" # " #
Y sYY
µ
b= và S =
Z sZY SZZ

thứ tự là trung bình mẫu và ma trận hiệp phương sai mẫu của
một mẫu kích thước n từ tổng thể có phân phối chuẩn như trên.
Khi đó ước lượng hợp lý cực đại cho các hệ số trong mô hình hồi
quy là
βb = S −1
ZZ sZY và βb0 = Y − s 0Z Y S −1
ZZ Z

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 99 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giả thiết phân phối chuẩn?

Hệ quả 1. Ước lượng hợp lý cực đại của giá trị E (Y − β0 − βb0 Z )2

n
n−1 1X
σ
bYY ·Z = (sYY − s 0Z Y S −1
Z Z sZY ) = (Y − βb0 − βb0 Z i )2
n n
i=1

bYY ·Z là ước lượng chệch. Ta có thể hiệu chỉnh ước lượng trên
σ
thành
n
∗ nb
σYY ·Z 1 X
σ
bYY ·Z = = (Y − βb0 − βb0 Z i )2
n−r −1 n−r −1
i=1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 100 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giả thiết phân phối chuẩn?

Hệ quả 2. Ước lượng hợp lý cực đại cho các biến

σYY σZ0 Y
" # " #
µY
µ= và Σ =
µZ σZ Y ΣZ Z

lần lượt là

b Z0 Y
" # " #
Y σ
bYY σ n−1
µ
b= và Σ
b = = S
Z σ
bZ Y Σ
b ZZ n

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 101 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Dự đoán nhiều biến cùng lúc

Xét m biến phản hồi Y1 , Y2 , . . . , Ym , mỗi biến phản hồi có quy


luật tuyến tính với r biến dự đoán Z1 , Z2 , . . . , Zr . Giả sử rằng
 
Y
m×1
  ∼ Nm+r (µ, Σ)
Z
r ×1

trong đó
   
µY ΣY Y ΣY Z
m×1 m×m m×r
µ= và Σ = 
   
 
µZ ΣZ Y ΣZ Z
r ×1 r ×m r ×r

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 102 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Dự đoán nhiều biến cùng lúc

Với giả thiết tổng thể có phân phối chuẩn, ta có kết quả sau

E (Y |Z = z) = µY + ΣY Z Σ−1
Z Z (z − µZ )

Cụ thể hơn

µY1 + ΣY1 Z Σ−1


   
E (Y1 |Z = z) Z Z (z − µZ )
 E (Y2 |Z = z)   µY + ΣY Z Σ−1 (z − µZ ) 
 = 2 2 ZZ 
 ...   ... 
−1
E (Ym |Z = z) µYm + ΣYm Z ΣZ Z (z − µZ )

Ma trận [β] := ΣY Z Σ−1


Z Z được gọi là ma trận hệ số hồi quy

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 103 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Dự đoán nhiều biến cùng lúc

Sai số của dự đoán là


b = Y − µY − ΣY Z Σ−1 (Z − µZ )
E ZZ

Ma trận hiệp phương sai của sai số này là


0
ΣY Y ·Z := E (E
bEb ) = ΣY Y − ΣY Z Σ−1 ΣZ Y
ZZ

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 104 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Dự đoán nhiều biến cùng lúc

Định lý 8.3
0
Giả sử Y 0 Z 0

∼ Nm+r (µ, Σ). Khi đó hàm hồi quy của
vector Y với các biến phản hồi Z là

Y = β0 + [β]z = µY − ΣY Z Σ−1
Z Z (z − µZ )

Ma trận hiệp phương sai của sai số khi đó sẽ là

ΣY Y ·Z = ΣY Y − [β]ΣZ Z [β]0 = ΣY Y − ΣY Z Σ−1


Z Z ΣZ Y

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 105 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Ước lượng tham số


Do các biến µ và Σ chưa biết, cho nên ta phải ước lượng chúng
thông qua một mẫu ngẫu nhiên. Ta có định lý sau
Định lý 8.4
0
Giả sử Y 0 Z 0 ∼ Nm+r (µ, Σ). Với một mẫu ngẫu nhiên có


kích thước n được lấy ra từ tổng thể này, ước lượng hợp lý cực
đại của hàm hồi quy tuyến tính là

Y b = Y + S Y Z S −1 (z − Z )
b = βb0 + [β]z
ZZ

Hơn nữa, ước lượng hợp lý cực đại của ma trận hiệp phương sai
ΣY Y ·Z là

b Y Y ·Z = n − 1 (S Y Y − S Y Z S −1 S Z Y )
Σ
n ZZ

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 106 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số tương quan riêng phần

Hệ số tương quan riêng phần giữa hai biến Yi và Yj được cho


bởi biến dự đoán Z là tương quan của hai phần thặng dư

εbi = Yi − µYi − ΣYi Z Σ−1


Z Z (Z − µZ )
εbj = Yj − µYj − ΣYj Z Σ−1
Z Z (Z − µZ )

Công thức của hệ số tương quan riêng phần:


σYi Yj ·Z
ρYi Yj ·Z = √ √
σYi Yi ·Z σYj Yj ·Z

trong đó σYp Yq là phần tử ở hàng p, cột q của ma trận ΣY Y ·Z

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 107 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số tương quan riêng phần

Tương ứng với ρYi Yj ·Z , ta còn có rYi Yj ·Z là hệ số tương quan


riêng phần mẫu, được xác định bởi
S Yi Yj ·Z
rYi Yj ·Z = p p
S Yi Yi ·Z S Yj Yj ·Z

trong đó S Yp Yq là phần tử ở hàng p, cột q của ma trận S Y Y ·Z

Với giả thiết  


Y
m×1
  ∼ Nm+r (µ, Σ)
Z
r ×1

thì rYi Yj ·Z chính là ước lượng hợp lý cực đại của ρYi Yj ·Z

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 108 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 109 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Biến đổi lại mô hình Y = Z β + E

Phương trình hồi quy tuyến tính của mỗi biến phải hồi Yj là

Yj = β0 + β1 z1j + β2 z2j + · · · + βr zrj + εj

Thực hiện bước trung tâm hóa các biến dự đoán,

βi zij = βi (zij − z i ) + βi z i

Khi đó

Yj = (β0 + β1 z 1j + · · · + βr z rj ) + β1 (z1j − z1 ) + · · · + βr (zrj − zr ) + εj


| {z }
βe
0
:= βe + β (z − z) + εj
c

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 110 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Biến đổi lại mô hình Y = Z β + E

Viết dưới dạng ma trận, ta được


 
βe
    
Y1 1 z11 − z 1 . . . z1r − z r ε1
Y2  1 z21 − z 1 . . . z2r − z r 
   
ε
 β1   .2 
 ..  =  .. ..  + 
  
.. .. ..  .
 .  . . . .  .  .
Yn 1 zn1 − z 1 . . . znr − z r βr εn

Hay
Y = Zc βc + E
n×1 n×(r +1)(r +1)×1 n×1

thì ta được Z 0c∗ 1 = 0


 
Nếu viết Z c = 1 Z c∗

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 111 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Biến đổi lại mô hình Y = Z β + E

Theo công thức của ước lượng bình phương cực tiểu,

βbc = (Z 0c Z c )−1 Z 0c Y

Hay  
βe
b
  " #

βb1
 Y
=
 
.. (Z 0c∗ Z c∗ )−1 Z c∗ Y

.
 
 
βbr
Như vậy

Yb = βe + βbc0 (z − z) = Y + Y 0 Z c (Z 0c Z c )−1 (z − z)
b

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 112 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

(Mở rộng) Chuẩn hóa các biến dự đoán

Khi nghiên cứu sâu về các phương pháp số, để đảm bảo tính ổn
định cho mô hình hồi quy, người ta sử dụng biến chuẩn hóa
zij − z i zij − z i
Pn 2
=p
i=1 (zij − z i ) (n − 1)szi zi

thay cho biến zij − z i . Các hệ số hồi quy mới sẽ là


q
βi∗ = βi (n − 1)szi zi
q
βbi∗ = βbi (n − 1)szi zi

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 113 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

So sánh các công thức

Chú ý rằng

Y 0 Z c∗ = (Y − Y 1)0 Z c∗ + Y 10 Z c∗ = (Y − Y 1)0 Z c∗

Khi đó

Y 0 Z c∗ (Z 0c∗ Z c∗ )−1 = (Y − Y 1)0 Z c∗ (Z 0c∗ Z c∗ )−1


= (n − 1)s 0Z Y ((n − 1)S Z Z )−1
= s 0Z Y S −1
ZZ

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 114 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

So sánh các công thức

Như vậy
• Đối với cách tiếp cận gán Zi = zi cố định,

b = Y + Y 0 Z c (Z 0 Z c )−1 (z − z)
Y c
= Y + s 0Z Y S −1
Z Z (z − z) (9.1)

• Đối với cách tiếp cận coi Y , Zi là các biến ngẫu nhiên,

Y b Y + σZ0 Y Σ−1
b =µ
Z Z (z − µ
bZ ) (9.2)

Mặc dù hai cách tiếp cận cùng cho ra một kết quả, nhưng về mặt
bản chất thì khác nhau hoàn toàn. Các giả thiết của cách tiếp cận
thứ hai có phần minh bạch hơn.

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 115 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

1 Mở đầu về mô hình hồi quy

2 Mô hình hồi quy tuyến tính cổ điển

3 Ước lượng bình phương cực tiểu

4 Ước lượng khoảng của mô hình hồi quy

5 Ước lượng hàm hồi quy tuyến tính

6 Kiểm tra mô hình và các khía cạnh khác của hồi quy

7 Mô hình hồi quy tuyến tính đa bội

8 Một cách tiếp cận khác của mô hình hồi quy tuyến tính

9 So sánh giữa hai cách tiếp cận

10 Mô hình hồi quy tuyến tính với chuỗi thời gian

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 116 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu mô hình chuỗi thời gian

Mô hình chuỗi thời gian là mô hình áp dụng trên các chuỗi đặc
thù có yếu tố thay đổi theo thời gian

Hình 10.1. Doanh số bán lẻ của Mỹ trong những năm 1990 - 2020

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 117 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Giới thiệu mô hình chuỗi thời gian

Mô hình chuỗi thời gian có dạng

Xt = β0 + β1 Xt−1 + · · · + βr Xt−r + εt

trong đó
• Xt là giá trị tại thời điểm hiện tại
• Xt−k là giá trị tại thời điểm về trước đó k đơn vị thời gian so
với hiện tại (Thường được gọi là giá trị LAG chỉ số k)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 118 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số tự tương quan riêng phần (PACF) - Mô hình tự hồi quy (ARp)

Đặt vấn đề. Ta sẽ biểu diễn Xt thông qua các giá trị Xt−k nào để
mô hình là tốt nhất?

Giải pháp. Định nghĩa hệ số tự tương quan riêng phần (Partial


Autocorrelation Function) của biến Xt so với biến Xt−k là hệ số
φkk trong phương trình hồi quy

Xt = φk0 + φk1 Xt−1 + · · · + φkk Xt−k + εt

PACF phản ánh mức độ tương quan của biến Xt so với biến Xt−k ,
sau khi lược bỏ đi các tương quan gián tiếp của 2 biến này

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 119 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số tự tương quan riêng phần (PACF) - Mô hình tự hồi quy (ARp)


Một cách khác để tìm hệ số tự tương quan riêng phần đó là sử
dụng công thức

Corr(Xt , Xt−1 ) với k = 1
φkk =
Corr(Xt − projXt , Xt−k − projXt−k ) với k ≥ 1
H H

trong đó H là không gian Hilbert con của


span{Xt−k+1 , Xt−k+2 , . . . , Xt−1 }

NOTE
Thường ta chỉ lấy chỉ số LAG tới
 lnm 
min 10dlog10 ne, −1
2

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 120 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Hệ số tự tương quan riêng phần (PACF) - Mô hình tự hồi quy (ARp)


Ta sẽ chọn các biến Xt−k có hệ số tự tương quan riêng phần đủ
tốt với Xt
PACF
1

3 6 7
LAG
5

Từ đồ thị trên, ta được mô hình tự hồi quy (Autoregression) là


Xt = β0 + φ1 Xt−1 + φ2 Xt−2 + φ4 Xt−4 + εt
MI CTTN K64 - Group 8 SAMI
Mô hình hồi quy tuyến tính bội 121 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Mô hình trung bình động (MAq)


Mô hình trung bình động với bậc q có dạng

Xt = µ + εt + θ1 εt−1 + · · · + θq εt−q (10.1)

trong đó
• µ : trung bình của chuỗi dữ liệu
• θi : tham số chưa biết
• εi : nhiễu trắng (E (εi ) = 0, Var(εi ) = α và Cov(εi , εj ) = 0)
Công thức (10.1) còn có thể biểu diễn dưới dạng

Xt = µ + (1 + θ1 L + · · · + θq Lq )εt (10.2)

trong đó L là toán tử LAG, xác định bởi

Xt = LXt+1

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 122 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Mô hình trung bình động (MAq)

Hình 10.2. Mô hình MA bậc 1 (bên trái) và MA bậc 2 (bên phải)

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 123 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra chuỗi dừng


Để biết một chuỗi dữ liệu có là chuỗi dừng hay không, ta sử dụng
kiểm định Argument Dickey Fuller (ADF). Giả sử ta có quá trình
tự hồi quy AR1
Xt = φXt−1 + εt
Viết lại thành
t−1
X
Xt = φt X0 + φk1 εt−k
k=0

Do đó E (Xt ) = φt1 E (X0 ). Nhận thấy rằng


|φ| > 1 thì lim E (Xt ) = ∞
t→+∞
φ = 1 thì lim E (Xt ) = E (X0 )
t→+∞
|φ| < 1 thì lim E (Xt ) = 0
t→+∞

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 124 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Kiểm tra chuỗi dừng

Xét giả thuyết

H0 : φ = 1 (Chuỗi không dừng)

và đối thuyết
H1 : |φ| < 1 (Chuỗi dừng)
Với giá trị ngưỡng kiểm định DF = (φ̂1 − 1)/RSS(φ̂1 ), ta sẽ so
sánh giá trị ngưỡng kiểm định này với giá trị tới hạn của phân phối
Dickey - Fuller để đưa ra kết luận về chấp nhận hoặc bác bỏ giả
thuyết H0

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 125 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Mô hình tự hồi quy tích hợp trung bình động (ARIMA)


Đối với chuỗi không dừng (Hình 10.3), ta sử dụng mô hình tự hồi
quy tích hợp trung bình động (Autoregressive Integrated Moving
Average)

Hình 10.3. Đồ thị minh họa cho sự thay đổi của phương sai

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 126 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Mô hình tự hồi quy tích hợp trung bình động (ARIMA)

Thay vì dự đoán biến Xt , ta xét

∆Xt = Xt+1 − Xt

Khi đó nếu chuỗi Xt có xu hướng tăng "tuyến tính" như hình 10.3
thì chuỗi ∆Xt sẽ là chuỗi dừng. Tổng quát hơn, ta có thể sử dụng
sai phân cấp n

∆n Xt = ∆n−1 Xt+1 − ∆n−1 Xt

Nếu như đã dự đoán được ∆Xt , làm sao để ta khôi phục lại Xt ?

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 127 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

Mô hình tự hồi quy tích hợp trung bình động (ARIMA)

Giả sử ta có bộ dữ liệu X0 , X1 , . . . , X` . Khi đó

Xt = Xt−1 + ∆Xt−1
= Xt−2 + ∆Xt−2 + ∆Xt−1
= ...
t−`
X
= X` + ∆Xt−k
k=1

Các giá trị ∆Xt−k (k = 1, t − `) được dự đoán sử dụng mô hình


AR kết hợp với mô hình MA (Gọi tắt là ARMA) do chuỗi dữ liệu
sau khi sử dụng phương pháp sai phân là chuỗi dừng

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 128 / 129
Phần 1 Phần 2 Phần 3 Phần 4 Phần 5 Phần 6 Phần 7 Phần 8 Phần 9 Phần 10 Kết thúc

MI CTTN K64 - Group 8 SAMI


Mô hình hồi quy tuyến tính bội 129 / 129

You might also like