You are on page 1of 77

Chủ đề: Mô hình hồi quy tuyến tính

Design by Team 4

Hà Nội, tháng 10 năm 2020

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 1 / 75


Giới thiệu về mô hình hồi quy tuyến tính cổ điển

Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 2 / 75
Giới thiệu về mô hình hồi quy tuyến tính cổ điển Bài toán thực tế

Bài toán thực tế: Dự đoán giá nhà đất

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 3 / 75


Giới thiệu về mô hình hồi quy tuyến tính cổ điển Bài toán thực tế

Giả sử X1 , ..., Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự báo.
Ví dụ Y là giá nhà hiện hành, khi đó Y phụ thuộc vào:
ˆ X1 là diện tích sử dụng
ˆ X2 là vị trí vùng (thành phố)
ˆ X3 là giá của năm qua
ˆ X4 là chất lượng xây dựng (giá xây dựng trên 1 mét vuông)
Sự phụ thuộc của Y theo X1 , ..., Xk thường phức tạp. Tuy nhiên có một số trường hợp
sự phụ thuộc đó khá đơn giản.
Mô hình hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các
Xi , nghĩa là:
Y = β0 + β1 X1 + ... + βk Xk + ε (1.1)
trong đó βi , i = 1 ÷ k là các hệ số chưa biết
còn ε là sai số ngẫu nhiên.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 4 / 75


Giới thiệu về mô hình hồi quy tuyến tính cổ điển Bài toán thực tế

Các ví dụ khác

♦ Dự đoán mật độ xương dựa vào độ tuổi, trọng lượng cơ thể


♦ Bài toán Grab: Dự đoán được chi phí
♦ Dự đoán giá xe hơi .v.v..

Câu hỏi: Bạn hãy xác định biến X và Y tương ứng ???

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 5 / 75


Giới thiệu về mô hình hồi quy tuyến tính cổ điển Mô hình hồi quy tuyến tính cổ điển

Mô hình hồi quy tuyến tính cổ điển

Ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , ..., Xk , Y . Giả sử số liệu
quan sát tuân theo mô hình sau:

y1 = β0 + β1 x11 + · · · + βk x1k + ε1
y2 = β0 + β1 x21 + · · · + βk x2k + ε2
... (1.2)
yn = β0 + β1 xn1 + · · · + βk xnk + εn

trong đó các sai số ε1 , ..., εn thỏa mãn 3 điều kiện:


E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống)
D(εj ) = σ 2 (phương sai không đổi hay là độ chuẩn xác đo đạc như nhau)
cov(εi , εj ) = 0 với mọi i 6= j = 1 ÷ n (các sai lệch từng bước không ảnh hưởng
đến nhau)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 6 / 75


Giới thiệu về mô hình hồi quy tuyến tính cổ điển Mô hình hồi quy tuyến tính cổ điển

Mô hình hồi quy tuyến tính cổ điển

Mô hình (1.2) có thể viết dưới dạng ma trận như sau:

x11 x12 · · · x1k


      
y1 1 β0 ε1
 y2  1 x21 x22 · · · x2k   β1   ε2 
 .  = . .. .. ..  .  +  . 
      
 ..   .. ..   . .   .. 
.. . .
yn 1 xn1 xn2 · · · xnk βk εn

hoặc đơn giản hơn:


Y =
|{z} X . β
|{z} + |{z}
ε (1.3)
|{z}
n×1 n×(k+1) (k+1)×1 n×1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 7 / 75


Giới thiệu về mô hình hồi quy tuyến tính cổ điển Mô hình hồi quy tuyến tính cổ điển

x12 · · · x1k
 
1 x11
1 x21 x22 · · · x2k 
với X =  . .. .. ..  được gọi là ma trận thiết kế
 
 .. ..
.. . . 
1 xn1 xn2 · · · xnk
Y = [y1 , ..., yn ]T ; β = [β0 , ..., βk ]T ; [ε1 , ..., εn ]T

E(ε) = 0 (1.4)
T 2
cov(ε) = E(εε ) = σ In

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 8 / 75


Ước lượng bình phương cực tiểu

Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 9 / 75
Ước lượng bình phương cực tiểu

Ước lượng bình phương cực tiểu

Bài toán đầu tiên đặt ra là dựa vào bộ số liệu quan sát được X, Y hãy ước lượng
tham số β, σ 2 .
Nếu ta sử dụng giá trị b là giá trị thử cho β thì giữa các quan sát yj và
b0 + b1 xj1 + ... + bk xjk sẽ có độ lệch (sai số):

yj − b0 − (b1 xj1 + ... + bk xjk )

Phương pháp bình phương tối thiểu là cách chọn giá trị véctơ b sao cho:
n
(yj − b0 − b1 xj1 − · · · − bk xjk )2
P
S(b) =
j=1

= (Y − Xb)T (Y − Xb) → min (2.1)


Đại lượng β̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương
cực tiểu của β,

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 10 / 75


Ước lượng bình phương cực tiểu

Ước lượng bình phương cực tiểu

Ta có:

εbj = yj − (β c1 xj1 + · · · + β
c0 + β ck xjk ), j = 1 ÷ n (2.2)
gọi là các phần dư của phép hồi quy.
Vì biểu thức theo X1 , ..., Xk là tuyến tính nên phương trình:

Yb = β c1 X1 + · · · + β
c0 + β ck Xk (2.3)
được gọi là phương trình hồi quy tuyến tính mẫu
Đặt:

ybj = β c1 xj1 + · · · + β
c0 + β ck xjk (2.4)
T
Y
b = (yb1 , ..., yc
n)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 11 / 75


Ước lượng bình phương cực tiểu Mệnh đề 2.1

Mệnh đề 2.1

Nếu ma trận thiết kế X không ngẫu nhiên có hạng k + 1 ≤ n thì ước lượng bình phương
cực tiểu có dạng:

βb = (XT X)−1 XT Y (2.5)


Khi đó
Yb = Xβb = X(XT X)−1 Y = HY (2.6)
trong đó:

H = X(XT X)−1 XT cấp (n × n) (2.7)


εb = Y − Yb = (In − H)Y (2.8)

thỏa mãn:
XT εb = 0 và Yb T εb = 0, (βbT XT εb = 0) (2.9)
Tổng các phần dư:
n
X
εb2j = εbT εb = YT Y − YT Xβb (2.10)
j=1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 12 / 75


Ước lượng bình phương cực tiểu Mệnh đề 2.1

Chứng minh mệnh đề 2.1


n
(yj − b0 − b1 xj1 − · · · − bk xjk )2 là hàm bậc hai theo b nên dễ
P
Vì phiếm hàm S(b) =
j=1

thấy βb có thể tìm được từ hệ phương trình sau:


∂S
= 0, i = 0 ÷ k
∂bi

ta có kết quả:
n
X n
X
(b0 + b1 xj1 + · · · + bk xjk ) = yi
j=1 j=1
n
X n
X n
X n
X
b0 xj1 + b1 x2j1 + · · · + bk xjk xj1 = yi xj1
j=1 j=1 j=1 j=1
n
X n
X n
X n
X
b0 xj1 + b1 xj1 xjk + · · · + bk x2jk = yi xjk
j=1 j=1 j=1 j=1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 13 / 75


Ước lượng bình phương cực tiểu Mệnh đề 2.1

Chứng minh mệnh đề 2.1

Nếu đặt xj0 = 1, j = 1 ÷ n ta có phương trình sau:


Pn 
 P n n n 
x2 xj0 xjk   j=1 yj xj0 
P P
xj0 xj1 ···
 j=1 j0 j=1 j=1  b
 n n n
 0 Pn 
 b   yj xj1 

x2j1
P P P
j=1 xj1 xj0
 ··· xj1 xjk  1 
  .  = j=1
   
j=1 j=1  .   .

.

 n ··· ··· ··· ··· .

.
   
n n

P P P 2  b k

n

xjk xj0 xjk xj1 ··· xjk  P
yj xjk

j=1 j=1 j=1
j=1

hoặc dưới dạng ma trận:


XT Xb = XT Y (2.11)
Phương trình (2.11) gọi là phương trình chuẩn.
Do rank(X) = k + 1 nên XT X có nghịch đảo, ta suy ra nghiệm:

b = βb = (XT X)−1 XT Y

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 14 / 75


Ước lượng bình phương cực tiểu Mệnh đề 2.1

Chứng minh mệnh đề 2.1

Ta thấy βb là biểu thức tuyến tính theo Y.


Để chứng minh βb cực tiểu hóa S(b) và thỏa mãn (2.9), (2.10) ta chú ý rằng ma trận H
có tính chất sau:

(I − H) là ma trận đối xứng: (I − H)T = (I − H)


(I − H)2 = (I − H) tức là I − H là ma trận lũy đẳng (2.12)
T T −1 T T T
X(I − H) = X (I − X(X X) X )=X −X =0 (2.13)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 15 / 75


Ước lượng bình phương cực tiểu Mệnh đề 2.1

Chứng minh mệnh đề 2.1


Dễ dàng thấy rằng:
S(b) = (Y − Xb)T (Y − Xb) = (Y − Xβb + Xβb − Xb)T (Y − Xβb + Xβb − Xb)
= b T (Y − Xβ)
(Y − Xβ) b + (βb − b)T XT X(βb − b)
+(βb − b)T XT (I − H)Y + YT (I − H)T X(βb − b)
= b T (Y − Xβb + (βb − b)T XT X(βb − b)
(Y − Xβ)
≥ b T (YXβ)
(YXβ) b = S(β)
b

Dấu "=" xảy ra khi βb = b. Hơn nữa:


n
εbj 2 = S(β) b T (Y − Xβ)
b = YT (I − H)(I − H)Y
P b = (Y − Xβ)
j=1

= YT (I − H)Y(tính chất 2) = YT Y − YT HY = YT Y − (YT X)βb


Đây chính là công thức (2.10).
n
Từ (2.8),(2.9),(2.10) ta nhận được: YT Y = yj2 = Y
bT Y
b + εbT εb
P
j=1
hoặc:
n
X n
X n
X
yj2 = ybj2 + εb2j (2.14)
j=1 j=1 j=1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 16 / 75


Ước lượng bình phương cực tiểu Tính chất ước lương bằng phương pháp bình phương cực tiểu

Tính chất ước lượng bằng phương pháp bình


phương cực tiểu

Ước lượng βb là ước lượng không chệch với:

E(β) b = σ 2 (XT X)−1


b = β; cov(β) (2.15)

Phần dư εb có tính chất:

E(b ε) = σ 2 (I − H)
ε) = 0; cov(b (2.16)

εbT εb n εb2j
b2 = là ước lượng không chệch của σ 2 , tức là
P
σ =
n−k−1 j=1 n − k − 1
σ2 ) = σ2
E(b
b εb là không tương quan, tức là:
β,

cov(β,
b εb) = 0; cov(β,
b σb2 ) = 0 (2.17)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 17 / 75


Ước lượng bình phương cực tiểu Tính chất ước lương bằng phương pháp bình phương cực tiểu

Chứng minh

1)

E βb = E(XT X)−1 XT Y = (XT X)−1 XT E(Y)


= (XT X)−1 XT Xβ = β
cov(β)
b = (XT X)−1 XT cov(Y)X(XT X)−1
= σ 2 (XT X)−1 XT IX(XT X)−1
= σ 2 (XT X)−1

2) Do εb = (I − H)Y (theo (2.8)) nên:

E(b
ε) = (I − H)E(Y) = (I − H)Xβ = 0,
cov(b
ε) = (I − H)I(I − H)σ 2 = σ 2 (I − H).

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 18 / 75


Ước lượng bình phương cực tiểu Tính chất ước lương bằng phương pháp bình phương cực tiểu

Chứng minh

3) Từ (2) ta suy ra:


n
X
εT εb)
E(b = ε)) = σ 2 tr(In − H)
E εb2j = tr(cov(b
1

= σ 2 (n − tr(H))

Mặt khác,

tr(H) = tr(X(XT X)−1 XT ) = tr((XT X)−1 XT X) = tr(Ik+1 ) = k + 1


εT εb) = σ 2 (n − k − 1).
⇒ E(b

4) Ta có:
b εb) = cov((XT X)−1 XT Y(In − H)Y)
cov(β,
= (XT X)−1 XT cov(Y)(In − H)
= σ 2 (XT X)−1 XT (In − H) = 0

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 19 / 75


Ước lượng bình phương cực tiểu Định lý Gauss về ước lượng bình phương cực tiểu

Định lý Gauss

Trong mô hình tuyến tính cổ điển (1.3),(1.4) với hạng đầy đủ k + 1 ≤ n thì ước
lượng:
cT βb = c0 β c1 + · · · + ck β
c0 + c1 β ck (2.18)
của cT β = c0 β0 + c1 β1 + · · · + c0 β0 là ước lượng không chệch với phương sai bé
nhất so với bất kỳ ước lượng tuyến tính không chệch nào dạng
aT Y = a1 y1 + · · · + an yn
Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT βb là một ước
lượng không chệch với phương sai cực tiểu của cT β so với bất kỳ ước lượng không
chệch nào khác.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 20 / 75


Ước lượng bình phương cực tiểu Định lý Gauss về ước lượng bình phương cực tiểu

Chứng minh Định lý Gauss

1) Do tính chất tuyến tính của kỳ vọng nên rõ ràng cT βb là ước lương không chệch
của cT β. Hơn nữa giả sử aT Y là một ước lượng không chệch của cT β thì:

E(aT Y) = aT E(Y) = aT Xβ ≡ cT β ⇔ (aT X − cT )β ≡ 0


với mọi β, đặc biệt khi β T = aT X − cT ta có:

β T β = 0 ⇔ aT X − cT = 0 ⇔ aT X = cT (2.19)

Chú ý rằng
cT βb = cT (XT X)−1 XT Y = a∗T Y (2.20)
∗T T T −1 T ∗ T −1
với a = c (X X) X Y ⇔ a = X(X X) c.
T T 2 T
D(a Y) = a cov(Y)a = σ a a
= σ 2 (a − a∗ + a∗ )T (a − a∗ + a∗ )
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 (a∗T a∗ ) + 2(a − a∗ )T a∗ σ 2
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 a∗T a∗ ≥ D(a∗ Y) (2.21)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 21 / 75


Ước lượng bình phương cực tiểu Định lý Gauss về ước lượng bình phương cực tiểu

Chứng minh định lý Gauss

(a − a∗ )T a∗ = aT a∗ − a∗T a∗
= aT X(XT X)−1 c − cT (XT X)−1 XT X(XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c = 0

Trong (2.21) dấu"=" xảy ra khi và chỉ khi a = a∗ .


2) Xem Thống kê toán - Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 22 / 75


Ước lượng bình phương cực tiểu Hệ số xác định R

Hệ số xác định R

Đại lượng
Yb T Yb − n(y)2 Σn
1ybj2 − n(y)2
R2 := = n 2 (2.22)
Y Y − n(y)
T 2 Σ1 yj − n(y)2
gọi là bình phương của hệ số xác định, đó là tỷ lệ biến thiên của các biến yj được giải
thích bởi các biến xj1 , ..., xjk .
Từ (2.14) ta có:
n
" n #
X X 2
εb2j = yj − n(y)2 (1 − R2 ) = ns2y (1 − R2 ) (2.23)
j=1 j=1

ta nhận được phương trình để tính sai số bình phương trung bình.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 23 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Khoảng tin cậy của các hệ số hồi quy βj

Trong phần này ta xét mô hình hồi quy cổ điển (1.3),(1.4), với giả thiết thêm rằng: các
εj có cùng phân phối chuẩn N (0, σ 2 ) và độc lập, tức là ε = (ε1 , ..., εn )T có phân bố
chuẩn Nn (0, σ 2 In )

Mệnh đề 2.2

1 βb có phân bố chuẩn Nk+1 (β, σ 2 (XT X)−1 )


(n − k − 1)bσ2 Σn b2j
j=1 ε
2 = có phân bố χ2 với (n-k-1) bậc tự do.
σ2 σ2
3 β,
b σb2 là độc lập.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 24 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Chứng minh mệnh đề 2.2


Theo (2.7), (2.10) thì βb = (XT X)−1 XT Y; εb = (I − H)Y là các tổ hợp tuyến tính của
vecto Y có phân bố chuẩn Nn (Xβ, σ 2 In ).
−1
Vì vậy, βb có phân bố chuẩn Nk+1 (β, σ 2 (XT X )), εb có phân bố chuẩn
N (0, σ 2 (I − H)), cov(β, b εb)T có phân bố chuẩn đồng thời chuẩn.
b εb) = 0 và (β,
Nên theo tính chất của phân bố chuẩn, ta có :
n
εbT εb X εc j
2
=
σ2 j=1
σ 2

có phân bố χ2 với n − k − 1 bậc tự do. Thật vậy,


(i) Vì (I − H) là ma trận lũy đẳng nên nếu ta ký hiệu λ và ε là cặp giá trị
riêng và vecto riêng của (I − H), ta sẽ có:

(I − H)e = λe ⇒ (I − H)2 e = λ(I − H)e = λ2 e

hoặc (I − H)e = λ2 e = λe. Do đó λ = λ2 . Vậy λ = 0 hoặc 1.


Vì tr(I − H) = n − k − 1 = λ1 + ... + λn nên n − k − 1 giá trị riêng đầu
tiên của I − H là 1 cònk + 1 giá trị riêng còn lại bằng 0.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 25 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Chứng minh mệnh đề 2.2 (tiếp)

(ii) Giả sử e1 , ...en−k−1 là n − k − 1 vecto riêng ứng với giá trị riêng là 1
còn k + 1 vecto riêng ứng với giá trị riêng 0 của ma trận I − H. Theo
công thức khai triển phổ của ma trận ta có:

I − H = e1 eT1 + ... + en−k−1 eTn−k−1

Đặt
eT1 ε
   
V1
 V2   eT2 ε 
V = .. = ..
   

 .   . 
Vn−k−1 eTn−k−1 ε
Khi đó V có phân bố chuẩn với E(V ) = 0, còn
 2
σ (i = j)
cov(Vi , Vj ) = eTi (σ 2 I)ei =
0 (i 6= j)
nên V1 , ..., Vn−k−1 có phân bố chuẩn độc lập N (0, 1) và V có
N (0, σ 2 In−k−1 ).

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 26 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Chứng minh mênh đề 2.2(tiếp)

Do đó

σ 2 = εbT εb = εT (I − H)ε = V T V = V12 + ... + Vn−k−1


(n − k − 1)b 2

σ2
(n − k − 1)b
, và 2
có phân bố χ2 với n − k − 1 bậc tự do. Mệnh đề
σ
được chứng minh.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 27 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Mệnh đề 2.3
Xét mô hình hồi quy tuyến tính cổ điển Y = Xβ + ε với X có hạng là k + 1 ≤ n và
ε ∼ N (0, σ 2 In ). Khi đó miền tin cậy đồng thời mức (1 − α) của β xác định bởi:
b T XT X(β − β)
(β − β) σ 2 Fk+1,n−k−1 (α)
b ≤ (k + 1)b (2.24)

trong đó Fk+1,n−k−1 (α) là phân vị trên mức α của phân bố F với bậc tự do là
k + 1, n − k − 1. Nói cách khác, với độ tin cậy (1 − α), giá trị chân thực β phải nằm
trong Ellipsoid:
b T XT X(x − β)
(x − β) σ 2 Fk+1,n−k−1 (α)
b = (k + 1)b

Hơn nữa khoảng tin cậy đồng thời mức (1 − α) của các βi , i = 0 ÷ k được xác định bởi
các mút: q
βbi ± D(b βbi )(k + 1)Fk+1,n−k−1 (α) (2.25)
trong đó D( b2 (XT X)−1
b βbi ) ký hiệu phần tử thứ i trên đường chéo chính của ma trận σ
và là ước lượng không chệch của D(β) b

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 28 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Chứng minh mệnh đề 2.3

Xét ma trận căn bậc hai đối xứng (X T X)1/2 và đặt

U = (X T X)1/2 (βb − β).

Ta có:

E(U ) = 0
cov(U ) = (X T X)1/2 cov(β)(X
b T
X)1/2
= σ 2 (X T X)1/2 (X T X)−1 (X T X)1/2 = σ 2 Ik+1

1 T 1
Vậy U có phân bố chuẩn N (0, σ 2 Ik+1 ). Do đó U U = 2 (βb − β)T (X T X)(βb − β)
σ2 σ
có phân phối χ2 với k + 1 bậc tự do.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 29 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

b2
σ
Hơn nữa, theo mệnh đề 2.1, (n − k − 1) có phân bố χ2 với n − k − 1bậc tự do và
σ2
b tức là độc lập với U T U . Vì vậy đại lương
độc lập với β,

(βb − β)T XT X(βb − β)/(k + 1) U T U/(k + 1)σ 2


F = 2
=
σ
b (n − k − 1)b
σ 2 /(n − k − 1)σ 2

có phân bố F với k + 1 và n − k − 1 bậc tự do. Từ đó

P {F ≤ Fk+1,n−k−1 (α)} = 1 − α

hoặc
P (βb − β)T XT X(βb − β) ≤ (k + 1)b
σ 2 Fk+1,n−k−1 (α) = 1 − α

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 30 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Mệnh đề 2.4
 
α α
Giả sử tn−k−1 là phân vị trên mức của phân bố Student với
2(k + 1) 2(k + 1)
n − k − 1 bậc tự do. Khi đó đồng thời ta có các khoảng tin cậy của βi , với mức tin cậy
(1 − α) cho bởi các đầu mút:
 q
α
βi ± tn−k−1
b D(
b βbi ) (2.26)
2(k + 1)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 31 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Ví dụ 2.1

Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí tiếp thị
X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12 thời kỳ, kết quả ta
có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138
Giả sử các chi phí này tuân theo mô hình tuyến tính cổ điển, khi đó:

yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 12

Ta sẽ ước lượng các hệ số hồi quy bằng phương pháp bình phương cực tiểu.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 32 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Ví dụ 2.1

n nx1 nx2
   
12 245 146
XT X =  . nx21 nx1 x2  =  . 5195 3055
. . nx22 . . 1900
 
2, 439963 −0, 883875 −0, 045374
(XT X)−1 =  . 0, 006765 −0, 004040
. . 0, 010509
   
ny 1696
XT Y = nx1 .y  = 3546
nx .y 2140
  2  
β
c0 32, 2777
T −1 T
β = β1  = (X X) X Y =  2, 5057 
b c

β
c2 4, 7587
Vậy phương trình hồi quy tuyến tính mẫu là:

yb = 32, 2777 + 2, 5057x1 + 4, 7587x2

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 33 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Ví dụ 2.1

Tổng bình phương các phần dư là:


n n
εbj 2 = yj2 − YT Xβb = 144, 3734
P P
1 1
1 n 144, 3734
b2 = εbj 2 =
P
σ = 16, 0415
n−k−1 1 9
Ta thấy mô hình khá phù hợp vì sai số bình phương trung bình là
1
Σn εb 2 = 144,3734
12 i j 12
≈ 12 khá nhỏ (so với các giá trị y nhận từ 102 đến 180).
Sau đây là bảng tính các giá trị ybj , εbj
STT yj ybj εbj STT yj ybj εbj
1 127 124,9666 2,033 7 161 161,5420 -0,542
2 149 147,2659 1,734 8 128 129,4733 -1,473
3 106 108,4382 -2,438 9 139 131,979 7,021
4 163 168,5537 -5,554 10 144 147,0132 -3,013
5 102 103,1741 -1,174 11 159 154,0249 4,975
6 180 178,3238 1,676 12 138 141,2437 -3,244
Tổng phần dư bằng 0,002.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 34 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Ví dụ 2.1
12
εbj 2 = 144, 2298
P
Từ đó tính trực tiếp ta được
1
Ta có:
q
D(
b βc0 ) = 16, 0415 × 2, 439963 = 39, 1407 ⇒ D(
b β
c0 ) = 6, 2562
q
b β
D( c1 ) = 16, 0415 × 0, 006765 = 0, 10830 ⇒ D(
b β
c1 ) = 0, 3287
q
D(
b βc2 ) = 16, 0415 × 0, 010509 = 0, 16860 ⇒ D(
b β
c3 ) = 0, 4106

Khoảng tin cậy của β0 , β1 , β2 mức 0,95: (theo (2.4))


 q
0, 05
β0 ± t9
c D(
b β c0 ) = 32, 2777 ± 2, 933 × 6, 2562 = 32, 2777 ± 18, 3494
2×3
 q
c1 ± t9 0, 05
β b β
D( c1 ) = 2, 5057 ± 2, 933 × 0, 3287 = 2, 5057 ± 0, 9641
2×3
 q
c2 ± t9 0, 05
β D(
b βc2 ) = 4, 7587 ± 2, 933 × 0, 3287 = 4, 7578 ± 1, 2043
2×3

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 35 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Ví dụ 2.1

Do đó ta có kết quả:

β0 ∈ (13, 9283; 50, 6271)


β1 ∈ (1, 5416; 3, 4698)
β2 ∈ (3, 5544; 5, 963)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 36 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Bài tập 1

Cho dãy số liệu thống kê:


x1 10 5 7 19 11 8
y 15 9 3 25 7 13
1 Hãy xác định các ước lượng β c1 của các hệ số hồi quy tuyến tính trong mô hình
c0 , β
dưới đây:
yj = β0 + β1 xj1 + εj , j = 1 ÷ 6
n
εbj 2
P
2 Tính giá trị ybj , εbj , từ đó tính
j=1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 37 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

   
6 60 1 −0, 08333333
XT X = → (XT X)−1 =
60 720 −0, 08333333 0, 08333333
 
T 72
X Y=
872
   −2 
−0.66666667
→ βb = (XT X)−1 XT Y = = 193
1.26666667 15
Vậy phương trình hồi quy tuyến tính mẫu là: yb = −2
3
+ 1915
x
n
P b2 T T
Tổng bình phương các phần dư: ε = Y Y − Y Xβb = 101, 46666667
j
j=1
1 n 101, 46666667
b2 = εbj 2 =
P
σ = 25, 36666667
n−k−1 1 4
Bảng tính các giá trị ybj , εbj
STT yj ybj εbj STT yj ybj εbj
1 15 12 3 4 25 23,4 1,6
2 9 5,6666667 3,333333 5 7 13,266667 -6,26666667
3 3 8,2 -5.2 6 13 9,4666667 3,5333333
Tổng phần dư bằng 0,00000037.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 38 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Bài tập 1
12
εbj 2 = 101, 4666643
P
Từ đó tính trực tiếp ta được
1
Ta có:
q
D(
b βc0 ) = 25, 36666667 × 1 = 25, 36666667 ⇒ D(
b βc0 ) = 5, 036533
q
D(
b βc1 ) = 25, 36666667 × 0, 08333333 = 2, 11388 ⇒ b β
D( c1 ) = 1, 453921

Khoảng tin cậy của β0 , β1 mức 0,95:


 q
c0 ± t4 0, 05
β D(
b βc0 ) = −0, 6666667 ± 3, 56 × 5, 036533 = −0, 6666667 ± 17, 93005
2×2
 q
c1 ± t4 0, 05
β D(
b β c1 ) = 1, 26666667 ± 3, 56 × 1, 453921 = 1, 26666667 ± 5, 175965
2×2

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 39 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Bài tập 2

Cho dãy số liệu thống kê:


x1 10 5 7 19 11 8
x2 2 3 3 6 7 9
y 15 9 3 25 7 13
1 Hãy xác định các ước lượng bằng phương pháp bình phương cực tiểu các hệ số hồi
quy tuyến tính trong mô hình dưới đây:

yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 6
n
εbj 2
P
2 Tính giá trị ybj , εbj , từ đó tính
j=1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 40 / 75


Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Bài tập 2
   
6 60 30 72
XT X = 60 720 319 , XT Y = 872
30 319188 382
 
1, 33361118 −0, 0678733 −0, 0976423
T −1
→ (X X) = −0, 0678733 0, 00904977 −0, 00452489
−0, 0976423 −0, 00452489 0, 02857823
 
−0, 46487259
→ βb = (XT X)−1 XT Y =  1, 2760181 
−0, 05906168
Vậy phương trình hồi quy tuyến tính mẫu là: yb = −0, 46487 + 1, 276018x1 − 0, 05906x2
n
εb2 = YT Y − YT Xβb = 101, 3444605
P
Tổng bình phương các phần dư: j
j=1
1 n 101, 3444605
b2 = εbj 2 =
P
σ = 38, 781486
n−k−1 1 3
Bảng tính các giá trị ybj , εbj
STT yj ybj εbj STT yj ybj εbj
1 15 12,17718504 2,822815 4 25 23.42510121 1,57489879
2 9 5,73803286 3,26196714 5 7 13.15789474 -6,15789474
3 3 8.29006906 -5,290069 6 13 9.21171708 3,78828292
Tổng phần dư bằng 0,000000011.
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 41 / 75
Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj

Bài tập 2

12
εbj 2 = 101, 3446055
P
Từ đó tính trực tiếp ta được
1
Ta có:
q
b β
D( c0 ) = 38, 781486 × 1, 33361118 = 51, 719423 ⇒ D(
b βc0 ) = 7, 1916217
q
D(
b βc1 ) = 38, 781486 × 0, 0090497 = 0, 3509635 ⇒ b β
D( c1 ) = 0, 5924217
q
D(
b βc1 ) = 38, 781486 × 0, 0285782 = 1, 108305 ⇒ D(b βc1 ) = 1.05276

Khoảngtin cậycủa
q β0 , β1 mức 0,95:
0, 05
β0 ±t3
c D( c0 ) = −0, 46487259±5, 061×7, 1916217 = −0, 464873±36, 39679
b β
2 × 3  q
c1 ± t3 0, 05
β D( c1 ) = 1, 2760181 ± 5, 061 × 0, 5924217 = 1, 276018 ± 2, 998246
b β
 2 × 3 q
c2 ±t3 0, 05
β D( c2 ) = −0, 059061681±5, 061×1.05276 = −0, 05906168±5, 32801
b β
2×3

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 42 / 75


Ước lượng bình phương cực tiểu Kiểm định giả thiết về các hệ số hồi quy

Kiểm định các giả thiết về các hệ số hồi quy

Xét mô hình HQTT cổ điển

Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ε (2.27)

Khi thiết lập phương trình, ta giả sử rằng mọi biến độc lập X1 , ..., Xk đều tham gia
phương trình hồi quy. Tuy nhiên, trên thực tế, có một vài biến sẽ không tham gia vào
phương trình hồi quy, tức là hệ số βi của nó bằng 0. Tuy vậy, các hệ số ước lượng có thể
khác 0.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 43 / 75


Ước lượng bình phương cực tiểu Kiểm định giả thiết về các hệ số hồi quy

Kiểm định các giả thiết về các hệ số hồi quy

Bài toán đặt ra là kiểm định xem khi nào hệ số ước lượng được xem là bằng 0 thực sự.
Ta có bài toán kiểm định giả thiết

H0 : βp+1 = ... = βk = 0(0 < p < k) (2.28)

với đối thiết K : ∃i ∈ {p + 1, ..., k} sao cho βi 6= 0


Giả thiết H0 có nghĩa là các biến độc lập không tham gia vào biểu thức tuyến tính,
ngược lại đối thiết K nói rằng có ít nhất một trong các biến này có liên quan đên mô
hình.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 44 / 75


Ước lượng bình phương cực tiểu Kiểm định giả thiết về các hệ số hồi quy

Kiểm định các giả thiết về các hệ số hồi quy


Tổng quát hơn ta xét bài toán kiểm định giả thiết dạng:


 c10 β0 + c11 β1 + · · · + c1k βk = a1
c20 β0 + c21 β1 + · · · + c2k βk = a2

H0 : ⇔ Cβ = a (2.29)

 ···
ck−p,0 β0 + ck−p,1 β1 + · · · + ck−p,k βk = ak−p

trong đóC = [cij ]k−p,k+1 ; a = [a1 , ..., ak−p ]T


Bài toánđang xét ((2.28)) là trường hợp riêng của ((2.29)) với:
.
 
0 0 · · · 0 .. 1 0 · · · 0
 . 
0 0 · · · 0 .. 0 1 · · · 0 .
 
C= = [0..Ik−p ]
 .. .. . . .. .. .. .. . . .. 
. . . . . . .

. .
.
 
0 0 · · · 0 .. 0 0 · · · 1
Quy tắc kiểm định:

Bác bỏ giả thiết H0 : Cβ = 0 nếu:

(C β)(C(X
b T
X)−1 C T )−1 C β/b
b σ 2 > (k − p)Fk−p,n−k−1 (α) (2.30)
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 45 / 75
Ước lượng bình phương cực tiểu Kiểm định giả thiết về các hệ số hồi quy

Kiểm định các giả thiết về các hệ số hồi quy

Nhận xét
Ta có thể sửdụng mệnh đề (2.4) về khoảng tin cậy của βp+1 , ..., βk với các đầu mút
α
q
βbi ± tn−k−1 b βbi ) để kiểm định giả thiết (2.24). Điều đó có nghĩa là nếu
D(
2(k + 1)
tồn tại chỉ số i ∈ {p + 1, ..., k} thỏa mãn:
 q
α
|βbi | > tn−k−1 D(
b βbi )
2(k − p)

thì ta coi βi 6= 0

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 46 / 75


Ước lượng bình phương cực tiểu Ước lượng hàm hồi quy tuyến tính

Ước lượng hàm hồi quy tuyến tính


Bài toán đặt ra là ước lượng hàm hồi quy tuyến tính:

E(Y |X) = β0 + β1 X1 + ... + βk Xk


0
tại điểm X = (1, X10 , ..., Xk0 ) tức là ước lượng tổ hợp tuyến tính sau:
T
E(Y |X) = β0 + β1 X10 + ... + βk Xk0 = X 0 β (2.31)
0T
Theo định lý Gauss, X βb là ước lượng tuyến tính với phương sai cực tiểu
T T T
Nếu ε ∼ N (0, In σ 2 ) thì X 0 βb ∼ N (X 0 β, σ 2 X 0 (XT X)−1 X 0 ) và do đó khoảng tin
T
cậy mức (1 − α) của X 0 β chính là:
α
q
T
X 0 βb ± tn−k−1 ( ) σb X 0 T (XT X)−1 X 0 (2.32)
2 |

{z }
T D(X
b 0 β)
b

hoặc q
T α
X 0 βb ± tn−k−1 ( ) b 0 T β)
D(X b (2.33)
2

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 47 / 75


Ước lượng bình phương cực tiểu Ước lượng hàm hồi quy tuyến tính

Ước lượng hàm Hồi quy tuyến tính

Ta xét lại ví dụ sau:


Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí tiếp thị
X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12 thời kỳ, kết quả ta
có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 48 / 75


Ước lượng bình phương cực tiểu Ước lượng hàm hồi quy tuyến tính

Ước lượng hàm Hồi quy tuyến tính

Giả sử:

yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ n, n = 12

với {εj } là dãy độc lập có phân bố chuẩn N (0, σ 2 ). Khi đó ta có thể dùng phương trình
hồi quy tuyến tính mẫu:

yb = 32, 777 + 2, 5057x1 + 4, 7587x2


T
để dự đoán hàm hồi quy E(Y |X1 = 20, X2 = 13) = β0 + 20β1 + 13β2 = X 0 β, tại
T
X 0 = (1, 20, 13). Ta có:   
2, 439963 −0, 883875 −0, 045374 1
T
X 0 (XT X)−1 X 0 = [1, 20, 13] −0, 883875 0, 006765 −0, 004040 20
−0, 045374 −0, 004040 0, 010509 13
= 0,0946

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 49 / 75


Ước lượng bình phương cực tiểu Ước lượng hàm hồi quy tuyến tính

Ước lượng hàm Hồi quy tuyến tính

Ta có:
T
b2 X 0 (XT X)−1 X 0 = 16, 0415 × 0, 0946 = 1, 5175259
σ
Mặt khác:
yb0 = 32, 777 + 2, 5057 × 20 + 4, 7587 × 13 = 144, 2548
T
Vì vậy khoảng tin cậy mức 0,95 của X 0 β là:
q p
yb0 ± t9 (0, 05/2) σb2 X 0 T (XT X)−1 X 0 = 144, 2548 ± 2, 262 1, 5175259
= 144, 2548 ± 2, 7865

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 50 / 75


Kiểm tra sự phù hợp của mô hình

Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 51 / 75
Kiểm tra sự phù hợp của mô hình Tiêu chuẩn F

Kiểm tra sự phù hợp của mô hình

Xét mô hình HQTT (1.2). Mô hình QHTT sẽ phụ hợp với dãy số liệu đang quan sát nếu
các sai số εi quả thật chỉ do các yếu tố ngẫu nhiên tạo nên, tức chúng là dãy biến ngẫu
nhiên độc lập và có cùng phân phối. Vì mô hình đang xét có phân phối chuẩn nên ta
cần phải kiểm tra xem các sai số có phân phối chuẩn N (0, σ 2 In ) hay không? Để kiểm
tra ta xét các tiêu chuẩn sau:

Tiêu chuẩn F
Xét đại lượng:
(n − k − 1)R2
F = (3.34)
k(1 − R2 )
Mệnh đề 3.1. Nếu sai số ε có phân bố chuẩn N (0, σ 2 In ) và nếu βi = 0, i = 1 ÷ k thì F
cho bởi (3.1) có phân bố F với k, n − k − 1 bậc tự do.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 52 / 75


Kiểm tra sự phù hợp của mô hình Tiêu chuẩn F

Tiêu chuẩn F

Từ mệnh đề trên ta đưa ra quy tắc:

Nếu F quá lớn hoặc quá gần 0 ta cần bác bỏ giả thiết ε có phân bố chuẩn N (0, σ 2 In )
hay bác bỏ giả thiết β1 = · · · = βk = 0.

Cấu trúc của tiêu chuẩn F mức ý nghĩa α = 0, 02


Tra bảng phân phối F với bậc tự do là k và n − k − 1 ta được giá trị
Fk,n−k−1 (α/2) = Fk,n−k−1 (0, 01)
1
Nếu F > Fk,n−k−1 (0, 01) hoặc F < ta cần bác bỏ giả thiết
Fk,n−k−1 (0, 01)
β1 = β2 = · · · = βk = 0

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 53 / 75


Kiểm tra sự phù hợp của mô hình Tiêu chuẩn F

Ví dụ 3.1(Xét ví dụ 2.1)

Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí tiếp thị
X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12 thời kỳ, kết quả ta
có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138
Giả sử các chi phí này tuân theo mô hình tuyến tính cổ điển, khi đó:

yb = 32, 2777 + 2, 5057x1 + 4, 7587x2


n
εbj T εbj = εbj 2 = 144, 3734
P
1
 2
245626 1696
s2y = y 2 − (y)2 = − = 493, 7222
12 12

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 54 / 75


Kiểm tra sự phù hợp của mô hình Tiêu chuẩn F

Ví dụ 3.1(Xét ví dụ 2.1)

Vậy 144, 3734 = 12 ∗ 493, 7222(1 − R2 ) → (1 − R2 ) = 0, 0224 → R = 0, 9756

0, 9756 × (12 − 2 − 1)
F = = 179, 6292
2 ∗ 0, 0244

Tra bảng F ta được:


F2,9 (0, 01) = 8, 02
Ta thấy F > F2,9 (0, 01), do đó ta cần bác bỏ giả thiết rằng β1 = · · · = βk = 0, tức là
có sự phụ thuộc tuyến tính vào các biến độc lập.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 55 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Tiêu chuẩn Student

Ta đã biết rằng phần dư của phép hồi quy được thể hiện qua công thức

εb = Y − Yb = (I − H)ε

Nếu giả thiết H0 nói rằng ε có phân phối chuẩn N (0, σ 2 In ) là đúng thì εb cũng có phân
phối chuẩn N (0, σ 2 (I − H))
Tuy nhiên, ta nhận thấy ma trận (I − H) là ma trận suy biến có hạng là n − k − 1 và
n − k − 1 giá trị riêng bằng 1; k + 1 giá trị riêng còn lại bằng 0
⇒ Do đó, không thể biểu diễn ε qua εb

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 56 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Tiêu chuẩn Student

Ta ký hiệu như sau:


- e1 , ..., en−k−1 là (n − k − 1) véctơ riêng ứng với giá trị riêng là 1
- en−k , ..., en là k + 1 véctơ riêng ứng với giá trị riêng bằng 0
{e1 , ..., en } tạo thành một cơ sở trực chuẩn của Rn .
Khi đó ta có: I − H = P ΛP T trong đó Λ = diag{1, 1, ..., 1, 0, ..., 0} là ma trận chéo có
đường chéo gồm n − k − 1 số 1 và k + 1 số 0, P = [e1 , ..., en ] = [eij ]n×n .

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 57 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Tiêu chuẩn Student

Xét véctơ ngẫu nhiên:


ε∗ = P T εb = (ε∗1 , ..., ε∗n ) (3.35)
Khi đó với ε có phân bố chuẩn N (0, σ 2 In ) ta có:
E(ε∗ ) = P T E(b ε) = 0
cov(ε∗ ) = P T cov(σ 2 [In − H])P = σ 2 P T P ΛP T P = σ 2 Λ
Do đó nếu H0 đúng thì ε∗1 , ..., ε∗n−k−1 là các biến ngẫu nhiên độc lập có phân bố chuẩn
N (0, σ 2 ) còn ε∗n−k = · · · = ε∗n = 0 hầu chắc chắn. Vì vậy
n n−k−1 n n−k−1
ε∗j =
P ∗ P
ε∗j 2 =
P P ∗2
εj , εj hầu chắc chắn.
j=1 j=1 j=1 j=1
n n−k−1
ε∗j /n; εe∗
P P ∗
Đặt ε∗ = = εj /(n − k − 1).
j=1 j=1
Ta có nε∗ = (n −k − 1)εe∗ khi H0 đúng.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 58 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Tiêu chuẩn Student

Xét thống kê:

n(n − k − 2)1/2 ε∗
T =  1/2 (3.36)
∗2
(n − k − 1)1/2 Σn 2 ∗ 2
j=1 εj − n (ε ) /(n − k − 1)

Tổng hợp lại: nếu giả thiết H0 đúng thì:

(n − k − 1)(n − k − 2)1/2 εe∗


T = 1/2
(n − k − 1)1/2 Σn−k−1 ε∗j 2 − n − k − 12 (εe∗ )2 /(n − k − 1)

j=1

(n − k − 1)1/2 εe∗
=  n−k−1 ∗ 1/2
Σj=1 (εj − εe∗ )2 /(n − k − 2)

có phân bố Student với n − k − 2 bậc tự do. Vậy tiêu chuẩn với mức ý nghĩa α là:
α
bác bỏ H0 nếu |T | > tn−k−2 .
2

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 59 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Khảo sát đồ thị của các phần dư

Khi sử dụng tiêu chuẩn dẫn đến việc bác bỏ giả thiết ε không có phân bố chuẩn
N (0, σ 2 In ) thì có thể xảy ra các khả năng sau:
Các sai số εj không có phương sai là hằng số
Các sai số εj có thể tương quan với nhau
các sai số εj có thể không có phân bố chuẩn.
Để đánh giá xem mô hình có khả năng rơi vào dạng nào, người ta tiến hành khảo sát đồ
thị của các điểm (εbj , ybj )

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 60 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Khảo sát đồ thị của các phần dư

Để kiểm tra xem εj có độc lập và có cùng phân bố chuẩn N (0, σ 2 ), ta có thể kiểm tra
tính chuẩn của εj dựa vào hệ số tương quan:

Σn
1 (qj − q)(ε(j) − ε) Σn
1 (qj − q)b
ε
r=  = n
2 1/2
o1/2
Σn 2 n
1 (qj − q) Σ1 (ε(j) − ε Σn 2 n b2
1 (qj − q) Σ1 εj

trong đó qj là nghiệm của phương trình Φ(qj ) = (j − 1/2)/n

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 61 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Kiểm định tính không tương quan của εj theo thời


gian

Giả sử yj được theo dõi theo thời gian j = 1, 2, ... Trường hợp này thường xảy ra khi
khảo sát các đại lượng kinh tế. Khi đó rất thường xảy ra trường hợp các εj có tương
quan với nhau. (Auto correlation)
Để phát hiện tính tự tương quan của các sai số ε ta sử dụng tiêu chuẩn Durbin-Watson
như sau:
Đặt:
Σnj=2 εd
j−1 εbj
r1 = 2 (3.37)
Σnj=1 εbj

Khi đó đại lượng:


n
X n
X
2
DW = (εbj − εd
j−1 ) / εbj 2 = 2(1 − r1 ) (3.38)
j=2 j=2

sẽ tuân theo phân phối Durbin-Watson

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 62 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Kiểm định tính không tương quan của εj theo thời


gian

Tra bảng Durbin- Watson ứng với mức ý nghĩa α ta tìm được hai số
d1 (k, n, α) < d2 (k, n, α), khi đó so sánh DW với d1 , d2 ta rút ra các kết luận sau:
Nếu 0 ≤ DW < d1 thì các εj có tự tương quan dương
Nếu d1 ≤ DW ≤ d2 thì không thể nói gì được
Nếu d2 < DW < 4 − d2 thì các εj không có tự tương quan
Nếu 4 − d2 ≤ DW ≤ 4 − d1 thì không thể kết luận được
Nếu 4 − d1 < DW ≤ 4 thì các εj có tự tương quan âm.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 63 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Kiểm định tính không tương quan của εj theo thời


gian

Ta xét lại ví dụ sau:


Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí tiếp thị
X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12 thời kỳ, kết quả ta
có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 64 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Kiểm định tính không tương quan của εj theo thời


gian

Ta đã tính được:
n
εbj 2 = 144, 2298
P
Tổng bình phương các phần dư
1
Σnj=2 εd
j−1 εbj
⇒ r1 = 2 = −45,3437
144,2298
= −0, 3144
Σnj=1 εbj
⇒ DW = 2(1 − r1 ) = 2, 6288
Với α = 0, 05; n = 12; k = 2, tra bảng phân phối Durbin-Watson ta tìm được:

d1 = 0, 81; d2 = 1, 58
4 − d1 = 3, 19; 4 − d2 = 2, 42

Vậy 4 − d2 = 2, 42 < DW = 2, 6288 < 4 − d1 = 3, 19 nên ta không thể kết luận gì được.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 65 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk

Các biến X1 , ..., Xk được gọi là đa cộng tuyến nếu tồn tại các hằng số c0 , c1 , ..., ck
Pk Pk
không đồng thời bằng 0 thỏa mãn c0 + ci Xi = 0 và do đó c0 + ci Xji = 0 với
i=1 i=1
j = 1, 2, ..., n.
Trong trường hợp này X có hạng ≤ k và không tồn tại ma trận nghịch đảo (XT X)−1 .
Trên thực tế, khi |XT X| ≈ 0, người ta có thể coi X1 , ..., Xk có hiện tượng đa cộng tuyến
tính. Khi đó ước lượng βb = (XT X)−1 XT Y thường không ổn định và có phương sai rất
lớn hay các khoảng tin cậy sẽ rất rộng.
Hiện tượng đa cộng tuyến thường được thể hiện qua các dấu hiệu sau:
+) Một số phần tử trên đường chéo chính của ma trận V = (XT X)−1 tỏ ra rất lớn.

+) Các hệ số tương quan tuyến tính mẫu của các cặp Xi , Xj là rij = sij / sii sjj tỏ ra
lớn (|rij ≥ 0, 7|.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 66 / 75


Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư

Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk

Để khắc phục hiện tượng đa cộng tuyến người ta làm như sau:
1 Đặt r0i là hệ số tương quan tuyến tính mẫu giữa Y và Xi , cụ thể là:

r0i = s0i / sii s00
1 Pn
trong đó s0 = s2y ; s0i = yj xji − y × xi
n j=1
Khi đó nếu thấy |rij | ≥ 0, 7 thì:
sẽ loại biến Xi ra khỏi mô hình nếu |r0i | < |r0j |,
sẽ loại biến Xj ra khỏi mô hình nếu |r0i | > |r0j |.
2 Thực hiện hồi quy theo các thành phần chính của véctơ (X1 , ..., Xk )
3 Thực hiện hồi quy từng bước

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 67 / 75


Mô hình hồi quy tuyến tính với sai số có tương quan

Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 68 / 75
Mô hình hồi quy tuyến tính với sai số có tương quan

Mô hình hồi quy tuyến tính với sai số có tương quan

Xét mô hình (3.1.3): Y = βX + ε với giả thiết các sai số có tương quan khác không. Ta
giả thiết rằng hiệp phương sai của sai số có dạng:

cov(ε) = σ 2 Σ (4.1)

trong đó Σ = [σij ]n×n là ma trận xác định dương đã biết. Nhân cả 2 vế với Σ−1/2 ta
được:
Σ−1/2 Y = Σ−1/2 Xβ + Σ−1/2 ε (4.2)
hay là:
e = Xβ
Y e + εe (4.3)
e = Σ−1/2 Y, X
với Y e = Σ−1/2 X, εe = Σ−1/2 ε. Khi đó ta có:
−1/2
cov(eε) = Σ εΣ−1/2 = σ 2 Σ−1/2 ΣΣ−1/2 = σ 2 In
(3.4.3) là mô hình hồi quy tuyến tính cổ điển và ta có thể áp dụng các kết quả của mục
3.2 và 3.3.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 69 / 75


Mô hình hồi quy tuyến tính với sai số có tương quan

Mô hình hồi quy tuyến tính với sai số có tương quan

Hơn nữa nếu X có hạng k + 1 thì Xe cũng có hạng k + 1 và ta có ước lượng bằng
phương pháp bình phương cực tiểu của mô hình (3.4.3) là:
e −1 X
e T X)
βb = (X e = (XT Σ−1/2 Σ−1/2 X)−1 XT Σ−1/2 Σ−1/2 Y
eT Y
tức là:
βb = (XT Σ−1 X)−1 (XT Σ−1 Y) (4.4)
Từ biểu thức này dễ dàng tính được:
b = σ 2 (XT Σ−1 X)−1
D(β) (4.5)

Thông thường các mô hình thực tế hay gặp là ma trận Σ đường chéo

Σ = diag(σ11 , ..., σnn ) (4.6)

tức là các εj vẫn không tương quan nhưng vì lý do độ chính xác của kỹ thuật nên
phương sai thay đổi.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 70 / 75


Các bước tiến hành trong phân tích hồi quy

Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 71 / 75
Các bước tiến hành trong phân tích hồi quy

Các bước tiến hành trong phân tích hồi quy

Việc phân tích hồi quy tiến thành theo các bước sau:

Bước 1
Xác định ước lượng βb bằng phương pháp bình phương cực tiểu, tức là giải phương trình
chuẩn sau:
XT Xβ = XT Y

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 72 / 75


Các bước tiến hành trong phân tích hồi quy

Các bước tiến hành trong phân tích hồi quy

Việc phân tích hồi quy tiến thành theo các bước sau:

Bước 1
Xác định ước lượng βb bằng phương pháp bình phương cực tiểu, tức là giải phương trình
chuẩn sau:
XT Xβ = XT Y

Bước 2

Tính các phần dư ε = Y − Y


b = Y − Xβ
n
P 2 n
P 2
Tính εbj = yj − (XT Y)T βb
j=1 j=1
n
εbj 2 = ns2y (1 − R2 )
P
Tính hệ số xác định R từ phương trình:
j=1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 72 / 75


Các bước tiến hành trong phân tích hồi quy

Các bước tiến hành trong phân tích hồi quy

Bước 3. Kiểm định sự phù hợp của mô hình

Sử dụng tiêu chuẩn F để kiểm tra giả thiết β1 = · · · = βk = 0


khảo sát các phần dư:
ε, ybj ), j = 1 ÷ n,
1. Vẽ đồ thị của (b
2. Dùng tiêu chuẩn Durbin Watson để kiểm tra xem các sai số có tự tương quan
cấp 1 hay không,
3. Dùng tiêu chuẩn T để kiểm tra giả thiết ε ∼ N (0, σ 2 In ) hay không?
Kiểm tra tính đa cộng tuyến của mô hình. Nếu mô hình đã xây dựng tỏ ra là mô
hình HQTT cổ điển thì có thể chuyển sang bước 4.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 73 / 75


Các bước tiến hành trong phân tích hồi quy

Các bước tiến hành trong phân tích hồi quy

Bước 3. Kiểm định sự phù hợp của mô hình

Sử dụng tiêu chuẩn F để kiểm tra giả thiết β1 = · · · = βk = 0


khảo sát các phần dư:
ε, ybj ), j = 1 ÷ n,
1. Vẽ đồ thị của (b
2. Dùng tiêu chuẩn Durbin Watson để kiểm tra xem các sai số có tự tương quan
cấp 1 hay không,
3. Dùng tiêu chuẩn T để kiểm tra giả thiết ε ∼ N (0, σ 2 In ) hay không?
Kiểm tra tính đa cộng tuyến của mô hình. Nếu mô hình đã xây dựng tỏ ra là mô
hình HQTT cổ điển thì có thể chuyển sang bước 4.

Bước 4
Xác định khoảng tin cậy của các hệ số hồi quy.

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 73 / 75


Các bước tiến hành trong phân tích hồi quy

Các bước tiến hành trong phân tích hồi quy

Bước 5
Kiểm định xem các βi có khác 0 hay không với i = 1, ..., k

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 74 / 75


Các bước tiến hành trong phân tích hồi quy

Các bước tiến hành trong phân tích hồi quy

Bước 5
Kiểm định xem các βi có khác 0 hay không với i = 1, ..., k

Bước 6
Dùng phương trình hồi quy tuyến tính mẫu:

Yb = β
c0 + β
c1 X1 + β
ck Xk

để xác định giá trị dự đoán của E(Y |X = X 0 ) = β0 + β1 X01 + · · · + βk X0k và giá trị
Y (X 0 ).

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 74 / 75

You might also like