Mô Hình Hồi Quy Tuyến Tính

Chủ đề: Mô hình hồi quy tuyến tính
Design by Team 4
Hà Nội, tháng 10 năm 2020
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 1 / 75

Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Giới thiệu về mô hình hồi quy tuyến tính cổ điển Bài toán thực tế
Bài toán thực tế: Dự đoán giá nhà đất

Giả sử X1 , ..., Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự báo.
Ví dụ Y là giá nhà hiện hành, khi đó Y phụ thuộc vào:
X1 là diện tích sử dụng
X2 là vị trí vùng (thành phố)
X3 là giá của năm qua
X4 là chất lượng xây dựng (giá xây dựng trên 1 mét vuông)
Sự phụ thuộc của Y theo X1 , ..., Xk thường phức tạp. Tuy nhiên có một số trường hợp
sự phụ thuộc đó khá đơn giản.
Mô hình hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các
Xi , nghĩa là:
Y = β0 + β1 X1 + ... + βk Xk + ε (1.1)
trong đó βi , i = 1 ÷ k là các hệ số chưa biết
còn ε là sai số ngẫu nhiên.

Các ví dụ khác
♦ Dự đoán mật độ xương dựa vào độ tuổi, trọng lượng cơ thể

♦ Bài toán Grab: Dự đoán được chi phí
♦ Dự đoán giá xe hơi .v.v..
Câu hỏi: Bạn hãy xác định biến X và Y tương ứng ???

Giới thiệu về mô hình hồi quy tuyến tính cổ điển Mô hình hồi quy tuyến tính cổ điển
Ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , ..., Xk , Y . Giả sử số liệu
quan sát tuân theo mô hình sau:
y1 = β0 + β1 x11 + · · · + βk x1k + ε1
y2 = β0 + β1 x21 + · · · + βk x2k + ε2
... (1.2)
yn = β0 + β1 xn1 + · · · + βk xnk + εn
trong đó các sai số ε1 , ..., εn thỏa mãn 3 điều kiện:

E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống)
D(εj ) = σ 2 (phương sai không đổi hay là độ chuẩn xác đo đạc như nhau)
cov(εi , εj ) = 0 với mọi i 6= j = 1 ÷ n (các sai lệch từng bước không ảnh hưởng
đến nhau)

Mô hình (1.2) có thể viết dưới dạng ma trận như sau:
x11 x12 · · · x1k

      
y1 1 β0 ε1
 y2  1 x21 x22 · · · x2k   β1   ε2 
 .  = . .. .. ..  .  +  . 
      
 ..   .. ..   . .   .. 
.. . .
yn 1 xn1 xn2 · · · xnk βk εn
hoặc đơn giản hơn:

Y =
|{z} X . β
|{z} + |{z}
ε (1.3)
|{z}
n×1 n×(k+1) (k+1)×1 n×1

x12 · · · x1k
 
1 x11
1 x21 x22 · · · x2k 
với X =  . .. .. ..  được gọi là ma trận thiết kế
 
 .. ..
.. . . 
1 xn1 xn2 · · · xnk
Y = [y1 , ..., yn ]T ; β = [β0 , ..., βk ]T ; [ε1 , ..., εn ]T
và
E(ε) = 0 (1.4)
T 2
cov(ε) = E(εε ) = σ In

Ước lượng bình phương cực tiểu
Nội dung
Mệnh đề 2.1
Tiêu chuẩn F
Bài toán đầu tiên đặt ra là dựa vào bộ số liệu quan sát được X, Y hãy ước lượng
tham số β, σ 2 .
Nếu ta sử dụng giá trị b là giá trị thử cho β thì giữa các quan sát yj và
b0 + b1 xj1 + ... + bk xjk sẽ có độ lệch (sai số):
yj − b0 − (b1 xj1 + ... + bk xjk )
Phương pháp bình phương tối thiểu là cách chọn giá trị véctơ b sao cho:
n
(yj − b0 − b1 xj1 − · · · − bk xjk )2
P
S(b) =
j=1
= (Y − Xb)T (Y − Xb) → min (2.1)

Đại lượng β̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương
cực tiểu của β,

Ta có:
εbj = yj − (β c1 xj1 + · · · + β
c0 + β ck xjk ), j = 1 ÷ n (2.2)
gọi là các phần dư của phép hồi quy.
Vì biểu thức theo X1 , ..., Xk là tuyến tính nên phương trình:
Yb = β c1 X1 + · · · + β
c0 + β ck Xk (2.3)
được gọi là phương trình hồi quy tuyến tính mẫu
Đặt:
ybj = β c1 xj1 + · · · + β
c0 + β ck xjk (2.4)
T
Y
b = (yb1 , ..., yc
n)

Ước lượng bình phương cực tiểu Mệnh đề 2.1
Mệnh đề 2.1
Nếu ma trận thiết kế X không ngẫu nhiên có hạng k + 1 ≤ n thì ước lượng bình phương
cực tiểu có dạng:
βb = (XT X)−1 XT Y (2.5)

Khi đó
Yb = Xβb = X(XT X)−1 Y = HY (2.6)
trong đó:
H = X(XT X)−1 XT cấp (n × n) (2.7)

εb = Y − Yb = (In − H)Y (2.8)
thỏa mãn:
XT εb = 0 và Yb T εb = 0, (βbT XT εb = 0) (2.9)
Tổng các phần dư:
n
X
εb2j = εbT εb = YT Y − YT Xβb (2.10)
j=1

Chứng minh mệnh đề 2.1

n
(yj − b0 − b1 xj1 − · · · − bk xjk )2 là hàm bậc hai theo b nên dễ
P
Vì phiếm hàm S(b) =
j=1
thấy βb có thể tìm được từ hệ phương trình sau:

∂S
= 0, i = 0 ÷ k
∂bi
ta có kết quả:
n
X n
X
(b0 + b1 xj1 + · · · + bk xjk ) = yi
j=1 j=1
n
X n
X n
X n
X
b0 xj1 + b1 x2j1 + · · · + bk xjk xj1 = yi xj1
j=1 j=1 j=1 j=1
n
X n
X n
X n
X
b0 xj1 + b1 xj1 xjk + · · · + bk x2jk = yi xjk
j=1 j=1 j=1 j=1

Nếu đặt xj0 = 1, j = 1 ÷ n ta có phương trình sau:

Pn 
 P n n n 
x2 xj0 xjk   j=1 yj xj0 
P P
xj0 xj1 ···
 j=1 j0 j=1 j=1  b
 n n n
 0 Pn 
 b   yj xj1 

x2j1
P P P
j=1 xj1 xj0
 ··· xj1 xjk  1 
  .  = j=1
   
j=1 j=1  .   .

.

 n ··· ··· ··· ··· .

.
   
n n

P P P 2  b k

n

xjk xj0 xjk xj1 ··· xjk  P
yj xjk

j=1 j=1 j=1
j=1
hoặc dưới dạng ma trận:

XT Xb = XT Y (2.11)
Phương trình (2.11) gọi là phương trình chuẩn.
Do rank(X) = k + 1 nên XT X có nghịch đảo, ta suy ra nghiệm:
b = βb = (XT X)−1 XT Y

Ta thấy βb là biểu thức tuyến tính theo Y.

Để chứng minh βb cực tiểu hóa S(b) và thỏa mãn (2.9), (2.10) ta chú ý rằng ma trận H
có tính chất sau:
(I − H) là ma trận đối xứng: (I − H)T = (I − H)

(I − H)2 = (I − H) tức là I − H là ma trận lũy đẳng (2.12)
T T −1 T T T
X(I − H) = X (I − X(X X) X )=X −X =0 (2.13)


Dễ dàng thấy rằng:
S(b) = (Y − Xb)T (Y − Xb) = (Y − Xβb + Xβb − Xb)T (Y − Xβb + Xβb − Xb)
= b T (Y − Xβ)
(Y − Xβ) b + (βb − b)T XT X(βb − b)
+(βb − b)T XT (I − H)Y + YT (I − H)T X(βb − b)
= b T (Y − Xβb + (βb − b)T XT X(βb − b)
(Y − Xβ)
≥ b T (YXβ)
(YXβ) b = S(β)
b
Dấu "=" xảy ra khi βb = b. Hơn nữa:

n
εbj 2 = S(β) b T (Y − Xβ)
b = YT (I − H)(I − H)Y
P b = (Y − Xβ)
j=1
= YT (I − H)Y(tính chất 2) = YT Y − YT HY = YT Y − (YT X)βb

Đây chính là công thức (2.10).
n
Từ (2.8),(2.9),(2.10) ta nhận được: YT Y = yj2 = Y
bT Y
b + εbT εb
P
j=1
hoặc:
n
X n
X n
X
yj2 = ybj2 + εb2j (2.14)
j=1 j=1 j=1

Ước lượng bình phương cực tiểu Tính chất ước lương bằng phương pháp bình phương cực tiểu
Tính chất ước lượng bằng phương pháp bình

phương cực tiểu
Ước lượng βb là ước lượng không chệch với:
E(β) b = σ 2 (XT X)−1

b = β; cov(β) (2.15)
Phần dư εb có tính chất:
E(b ε) = σ 2 (I − H)
ε) = 0; cov(b (2.16)
εbT εb n εb2j
b2 = là ước lượng không chệch của σ 2 , tức là
P
σ =
n−k−1 j=1 n − k − 1
σ2 ) = σ2
E(b
b εb là không tương quan, tức là:
β,
cov(β,
b εb) = 0; cov(β,
b σb2 ) = 0 (2.17)

Chứng minh
1)
E βb = E(XT X)−1 XT Y = (XT X)−1 XT E(Y)

= (XT X)−1 XT Xβ = β
cov(β)
b = (XT X)−1 XT cov(Y)X(XT X)−1
= σ 2 (XT X)−1 XT IX(XT X)−1
= σ 2 (XT X)−1
2) Do εb = (I − H)Y (theo (2.8)) nên:
E(b
ε) = (I − H)E(Y) = (I − H)Xβ = 0,
cov(b
ε) = (I − H)I(I − H)σ 2 = σ 2 (I − H).

Chứng minh
3) Từ (2) ta suy ra:

n
X
εT εb)
E(b = ε)) = σ 2 tr(In − H)
E εb2j = tr(cov(b
1
= σ 2 (n − tr(H))
Mặt khác,
tr(H) = tr(X(XT X)−1 XT ) = tr((XT X)−1 XT X) = tr(Ik+1 ) = k + 1

εT εb) = σ 2 (n − k − 1).
⇒ E(b
4) Ta có:
b εb) = cov((XT X)−1 XT Y(In − H)Y)
cov(β,
= (XT X)−1 XT cov(Y)(In − H)
= σ 2 (XT X)−1 XT (In − H) = 0

Ước lượng bình phương cực tiểu Định lý Gauss về ước lượng bình phương cực tiểu
Định lý Gauss
Trong mô hình tuyến tính cổ điển (1.3),(1.4) với hạng đầy đủ k + 1 ≤ n thì ước
lượng:
cT βb = c0 β c1 + · · · + ck β
c0 + c1 β ck (2.18)
của cT β = c0 β0 + c1 β1 + · · · + c0 β0 là ước lượng không chệch với phương sai bé
nhất so với bất kỳ ước lượng tuyến tính không chệch nào dạng
aT Y = a1 y1 + · · · + an yn
Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT βb là một ước
lượng không chệch với phương sai cực tiểu của cT β so với bất kỳ ước lượng không
chệch nào khác.

Chứng minh Định lý Gauss
1) Do tính chất tuyến tính của kỳ vọng nên rõ ràng cT βb là ước lương không chệch
của cT β. Hơn nữa giả sử aT Y là một ước lượng không chệch của cT β thì:
E(aT Y) = aT E(Y) = aT Xβ ≡ cT β ⇔ (aT X − cT )β ≡ 0

với mọi β, đặc biệt khi β T = aT X − cT ta có:
β T β = 0 ⇔ aT X − cT = 0 ⇔ aT X = cT (2.19)
Chú ý rằng
cT βb = cT (XT X)−1 XT Y = a∗T Y (2.20)
∗T T T −1 T ∗ T −1
với a = c (X X) X Y ⇔ a = X(X X) c.
T T 2 T
D(a Y) = a cov(Y)a = σ a a
= σ 2 (a − a∗ + a∗ )T (a − a∗ + a∗ )
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 (a∗T a∗ ) + 2(a − a∗ )T a∗ σ 2
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 a∗T a∗ ≥ D(a∗ Y) (2.21)

Chứng minh định lý Gauss
Vì
(a − a∗ )T a∗ = aT a∗ − a∗T a∗
= aT X(XT X)−1 c − cT (XT X)−1 XT X(XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c = 0
Trong (2.21) dấu"=" xảy ra khi và chỉ khi a = a∗ .

2) Xem Thống kê toán - Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như

Ước lượng bình phương cực tiểu Hệ số xác định R
Đại lượng
Yb T Yb − n(y)2 Σn
1ybj2 − n(y)2
R2 := = n 2 (2.22)
Y Y − n(y)
T 2 Σ1 yj − n(y)2
gọi là bình phương của hệ số xác định, đó là tỷ lệ biến thiên của các biến yj được giải
thích bởi các biến xj1 , ..., xjk .
Từ (2.14) ta có:
n
" n #
X X 2
εb2j = yj − n(y)2 (1 − R2 ) = ns2y (1 − R2 ) (2.23)
j=1 j=1
ta nhận được phương trình để tính sai số bình phương trung bình.

Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj
Trong phần này ta xét mô hình hồi quy cổ điển (1.3),(1.4), với giả thiết thêm rằng: các
εj có cùng phân phối chuẩn N (0, σ 2 ) và độc lập, tức là ε = (ε1 , ..., εn )T có phân bố
chuẩn Nn (0, σ 2 In )
Mệnh đề 2.2
1 βb có phân bố chuẩn Nk+1 (β, σ 2 (XT X)−1 )

(n − k − 1)bσ2 Σn b2j
j=1 ε
2 = có phân bố χ2 với (n-k-1) bậc tự do.
σ2 σ2
3 β,
b σb2 là độc lập.


Theo (2.7), (2.10) thì βb = (XT X)−1 XT Y; εb = (I − H)Y là các tổ hợp tuyến tính của
vecto Y có phân bố chuẩn Nn (Xβ, σ 2 In ).
−1
Vì vậy, βb có phân bố chuẩn Nk+1 (β, σ 2 (XT X )), εb có phân bố chuẩn
N (0, σ 2 (I − H)), cov(β, b εb)T có phân bố chuẩn đồng thời chuẩn.
b εb) = 0 và (β,
Nên theo tính chất của phân bố chuẩn, ta có :
n
εbT εb X εc j
2
=
σ2 j=1
σ 2
có phân bố χ2 với n − k − 1 bậc tự do. Thật vậy,

(i) Vì (I − H) là ma trận lũy đẳng nên nếu ta ký hiệu λ và ε là cặp giá trị
riêng và vecto riêng của (I − H), ta sẽ có:
(I − H)e = λe ⇒ (I − H)2 e = λ(I − H)e = λ2 e
hoặc (I − H)e = λ2 e = λe. Do đó λ = λ2 . Vậy λ = 0 hoặc 1.

Vì tr(I − H) = n − k − 1 = λ1 + ... + λn nên n − k − 1 giá trị riêng đầu
tiên của I − H là 1 cònk + 1 giá trị riêng còn lại bằng 0.

Chứng minh mệnh đề 2.2 (tiếp)
(ii) Giả sử e1 , ...en−k−1 là n − k − 1 vecto riêng ứng với giá trị riêng là 1
còn k + 1 vecto riêng ứng với giá trị riêng 0 của ma trận I − H. Theo
công thức khai triển phổ của ma trận ta có:
I − H = e1 eT1 + ... + en−k−1 eTn−k−1
Đặt
eT1 ε
   
V1
 V2   eT2 ε 
V = .. = ..
   

 .   . 
Vn−k−1 eTn−k−1 ε
Khi đó V có phân bố chuẩn với E(V ) = 0, còn
2
σ (i = j)
cov(Vi , Vj ) = eTi (σ 2 I)ei =
0 (i 6= j)
nên V1 , ..., Vn−k−1 có phân bố chuẩn độc lập N (0, 1) và V có
N (0, σ 2 In−k−1 ).

Chứng minh mênh đề 2.2(tiếp)
Do đó
σ 2 = εbT εb = εT (I − H)ε = V T V = V12 + ... + Vn−k−1

(n − k − 1)b 2
σ2
(n − k − 1)b
, và 2
có phân bố χ2 với n − k − 1 bậc tự do. Mệnh đề
σ
được chứng minh.

Mệnh đề 2.3
Xét mô hình hồi quy tuyến tính cổ điển Y = Xβ + ε với X có hạng là k + 1 ≤ n và
ε ∼ N (0, σ 2 In ). Khi đó miền tin cậy đồng thời mức (1 − α) của β xác định bởi:
b T XT X(β − β)
(β − β) σ 2 Fk+1,n−k−1 (α)
b ≤ (k + 1)b (2.24)
trong đó Fk+1,n−k−1 (α) là phân vị trên mức α của phân bố F với bậc tự do là
k + 1, n − k − 1. Nói cách khác, với độ tin cậy (1 − α), giá trị chân thực β phải nằm
trong Ellipsoid:
b T XT X(x − β)
(x − β) σ 2 Fk+1,n−k−1 (α)
b = (k + 1)b
Hơn nữa khoảng tin cậy đồng thời mức (1 − α) của các βi , i = 0 ÷ k được xác định bởi
các mút: q
βbi ± D(b βbi )(k + 1)Fk+1,n−k−1 (α) (2.25)
trong đó D( b2 (XT X)−1
b βbi ) ký hiệu phần tử thứ i trên đường chéo chính của ma trận σ
và là ước lượng không chệch của D(β) b

Xét ma trận căn bậc hai đối xứng (X T X)1/2 và đặt
U = (X T X)1/2 (βb − β).
Ta có:
E(U ) = 0
cov(U ) = (X T X)1/2 cov(β)(X
b T
X)1/2
= σ 2 (X T X)1/2 (X T X)−1 (X T X)1/2 = σ 2 Ik+1
1 T 1
Vậy U có phân bố chuẩn N (0, σ 2 Ik+1 ). Do đó U U = 2 (βb − β)T (X T X)(βb − β)
σ2 σ
có phân phối χ2 với k + 1 bậc tự do.

b2
σ
Hơn nữa, theo mệnh đề 2.1, (n − k − 1) có phân bố χ2 với n − k − 1bậc tự do và
σ2
b tức là độc lập với U T U . Vì vậy đại lương
độc lập với β,
(βb − β)T XT X(βb − β)/(k + 1) U T U/(k + 1)σ 2

F = 2
=
σ
b (n − k − 1)b
σ 2 /(n − k − 1)σ 2
có phân bố F với k + 1 và n − k − 1 bậc tự do. Từ đó
P {F ≤ Fk+1,n−k−1 (α)} = 1 − α
hoặc
P (βb − β)T XT X(βb − β) ≤ (k + 1)b
σ 2 Fk+1,n−k−1 (α) = 1 − α

Mệnh đề 2.4

α α
Giả sử tn−k−1 là phân vị trên mức của phân bố Student với
2(k + 1) 2(k + 1)
n − k − 1 bậc tự do. Khi đó đồng thời ta có các khoảng tin cậy của βi , với mức tin cậy
(1 − α) cho bởi các đầu mút:
q
α
βi ± tn−k−1
b D(
b βbi ) (2.26)
2(k + 1)

Ví dụ 2.1
Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí tiếp thị
X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12 thời kỳ, kết quả ta
có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138
Giả sử các chi phí này tuân theo mô hình tuyến tính cổ điển, khi đó:
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 12
Ta sẽ ước lượng các hệ số hồi quy bằng phương pháp bình phương cực tiểu.

Ví dụ 2.1
n nx1 nx2
   
12 245 146
XT X =  . nx21 nx1 x2  =  . 5195 3055
. . nx22 . . 1900
 
2, 439963 −0, 883875 −0, 045374
(XT X)−1 =  . 0, 006765 −0, 004040
. . 0, 010509
   
ny 1696
XT Y = nx1 .y  = 3546
nx .y 2140
  2  
β
c0 32, 2777
T −1 T
β = β1  = (X X) X Y =  2, 5057 
b c
β
c2 4, 7587
Vậy phương trình hồi quy tuyến tính mẫu là:
yb = 32, 2777 + 2, 5057x1 + 4, 7587x2

Ví dụ 2.1
Tổng bình phương các phần dư là:

n n
εbj 2 = yj2 − YT Xβb = 144, 3734
P P
1 1
1 n 144, 3734
b2 = εbj 2 =
P
σ = 16, 0415
n−k−1 1 9
Ta thấy mô hình khá phù hợp vì sai số bình phương trung bình là
1
Σn εb 2 = 144,3734
12 i j 12
≈ 12 khá nhỏ (so với các giá trị y nhận từ 102 đến 180).
Sau đây là bảng tính các giá trị ybj , εbj
STT yj ybj εbj STT yj ybj εbj
1 127 124,9666 2,033 7 161 161,5420 -0,542
2 149 147,2659 1,734 8 128 129,4733 -1,473
3 106 108,4382 -2,438 9 139 131,979 7,021
4 163 168,5537 -5,554 10 144 147,0132 -3,013
5 102 103,1741 -1,174 11 159 154,0249 4,975
6 180 178,3238 1,676 12 138 141,2437 -3,244
Tổng phần dư bằng 0,002.

Ví dụ 2.1
12
εbj 2 = 144, 2298
P
Từ đó tính trực tiếp ta được
1
Ta có:
q
D(
b βc0 ) = 16, 0415 × 2, 439963 = 39, 1407 ⇒ D(
b β
c0 ) = 6, 2562
q
b β
D( c1 ) = 16, 0415 × 0, 006765 = 0, 10830 ⇒ D(
b β
c1 ) = 0, 3287
q
D(
b βc2 ) = 16, 0415 × 0, 010509 = 0, 16860 ⇒ D(
b β
c3 ) = 0, 4106
Khoảng tin cậy của β0 , β1 , β2 mức 0,95: (theo (2.4))

q
0, 05
β0 ± t9
c D(
b β c0 ) = 32, 2777 ± 2, 933 × 6, 2562 = 32, 2777 ± 18, 3494
2×3
q
c1 ± t9 0, 05
β b β
D( c1 ) = 2, 5057 ± 2, 933 × 0, 3287 = 2, 5057 ± 0, 9641
2×3
q
c2 ± t9 0, 05
β D(
b βc2 ) = 4, 7587 ± 2, 933 × 0, 3287 = 4, 7578 ± 1, 2043
2×3

Ví dụ 2.1
Do đó ta có kết quả:
β0 ∈ (13, 9283; 50, 6271)

β1 ∈ (1, 5416; 3, 4698)
β2 ∈ (3, 5544; 5, 963)

Bài tập 1
Cho dãy số liệu thống kê:

x1 10 5 7 19 11 8
y 15 9 3 25 7 13
1 Hãy xác định các ước lượng β c1 của các hệ số hồi quy tuyến tính trong mô hình
c0 , β
dưới đây:
yj = β0 + β1 xj1 + εj , j = 1 ÷ 6
n
εbj 2
P
2 Tính giá trị ybj , εbj , từ đó tính
j=1


6 60 1 −0, 08333333
XT X = → (XT X)−1 =
60 720 −0, 08333333 0, 08333333

T 72
X Y=
872
−2
−0.66666667
→ βb = (XT X)−1 XT Y = = 193
1.26666667 15
Vậy phương trình hồi quy tuyến tính mẫu là: yb = −2
3
+ 1915
x
n
P b2 T T
Tổng bình phương các phần dư: ε = Y Y − Y Xβb = 101, 46666667
j
j=1
1 n 101, 46666667
b2 = εbj 2 =
P
σ = 25, 36666667
n−k−1 1 4
Bảng tính các giá trị ybj , εbj
1 15 12 3 4 25 23,4 1,6
2 9 5,6666667 3,333333 5 7 13,266667 -6,26666667
3 3 8,2 -5.2 6 13 9,4666667 3,5333333

Bài tập 1
12
εbj 2 = 101, 4666643
P
1
Ta có:
q
D(
b βc0 ) = 25, 36666667 × 1 = 25, 36666667 ⇒ D(
b βc0 ) = 5, 036533
q
D(
b βc1 ) = 25, 36666667 × 0, 08333333 = 2, 11388 ⇒ b β
D( c1 ) = 1, 453921
Khoảng tin cậy của β0 , β1 mức 0,95:

q
c0 ± t4 0, 05
β D(
b βc0 ) = −0, 6666667 ± 3, 56 × 5, 036533 = −0, 6666667 ± 17, 93005
2×2
q
c1 ± t4 0, 05
β D(
b β c1 ) = 1, 26666667 ± 3, 56 × 1, 453921 = 1, 26666667 ± 5, 175965
2×2

Bài tập 2
Cho dãy số liệu thống kê:

x1 10 5 7 19 11 8
x2 2 3 3 6 7 9
y 15 9 3 25 7 13
1 Hãy xác định các ước lượng bằng phương pháp bình phương cực tiểu các hệ số hồi
quy tuyến tính trong mô hình dưới đây:
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 6
n
εbj 2
P
2 Tính giá trị ybj , εbj , từ đó tính
j=1

Bài tập 2
   
6 60 30 72
XT X = 60 720 319 , XT Y = 872
30 319188 382
 
1, 33361118 −0, 0678733 −0, 0976423
T −1
→ (X X) = −0, 0678733 0, 00904977 −0, 00452489
−0, 0976423 −0, 00452489 0, 02857823
 
−0, 46487259
→ βb = (XT X)−1 XT Y =  1, 2760181 
−0, 05906168
Vậy phương trình hồi quy tuyến tính mẫu là: yb = −0, 46487 + 1, 276018x1 − 0, 05906x2
n
εb2 = YT Y − YT Xβb = 101, 3444605
P
Tổng bình phương các phần dư: j
j=1
1 n 101, 3444605
b2 = εbj 2 =
P
σ = 38, 781486
n−k−1 1 3
Bảng tính các giá trị ybj , εbj
1 15 12,17718504 2,822815 4 25 23.42510121 1,57489879
2 9 5,73803286 3,26196714 5 7 13.15789474 -6,15789474
3 3 8.29006906 -5,290069 6 13 9.21171708 3,78828292
Bài tập 2
12
εbj 2 = 101, 3446055
P
1
Ta có:
q
b β
D( c0 ) = 38, 781486 × 1, 33361118 = 51, 719423 ⇒ D(
b βc0 ) = 7, 1916217
q
D(
b βc1 ) = 38, 781486 × 0, 0090497 = 0, 3509635 ⇒ b β
D( c1 ) = 0, 5924217
q
D(
b βc1 ) = 38, 781486 × 0, 0285782 = 1, 108305 ⇒ D(b βc1 ) = 1.05276
Khoảngtin cậycủa
q β0 , β1 mức 0,95:
0, 05
β0 ±t3
c D( c0 ) = −0, 46487259±5, 061×7, 1916217 = −0, 464873±36, 39679
b β
2 × 3 q
c1 ± t3 0, 05
β D( c1 ) = 1, 2760181 ± 5, 061 × 0, 5924217 = 1, 276018 ± 2, 998246
b β
2 × 3 q
c2 ±t3 0, 05
β D( c2 ) = −0, 059061681±5, 061×1.05276 = −0, 05906168±5, 32801
b β
2×3

Ước lượng bình phương cực tiểu Kiểm định giả thiết về các hệ số hồi quy
Kiểm định các giả thiết về các hệ số hồi quy
Xét mô hình HQTT cổ điển
Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ε (2.27)
Khi thiết lập phương trình, ta giả sử rằng mọi biến độc lập X1 , ..., Xk đều tham gia
phương trình hồi quy. Tuy nhiên, trên thực tế, có một vài biến sẽ không tham gia vào
phương trình hồi quy, tức là hệ số βi của nó bằng 0. Tuy vậy, các hệ số ước lượng có thể
khác 0.

Bài toán đặt ra là kiểm định xem khi nào hệ số ước lượng được xem là bằng 0 thực sự.
Ta có bài toán kiểm định giả thiết
H0 : βp+1 = ... = βk = 0(0 < p < k) (2.28)
với đối thiết K : ∃i ∈ {p + 1, ..., k} sao cho βi 6= 0

Giả thiết H0 có nghĩa là các biến độc lập không tham gia vào biểu thức tuyến tính,
ngược lại đối thiết K nói rằng có ít nhất một trong các biến này có liên quan đên mô
hình.


Tổng quát hơn ta xét bài toán kiểm định giả thiết dạng:


 c10 β0 + c11 β1 + · · · + c1k βk = a1
c20 β0 + c21 β1 + · · · + c2k βk = a2

H0 : ⇔ Cβ = a (2.29)

 ···
ck−p,0 β0 + ck−p,1 β1 + · · · + ck−p,k βk = ak−p

trong đóC = [cij ]k−p,k+1 ; a = [a1 , ..., ak−p ]T

Bài toánđang xét ((2.28)) là trường hợp riêng của ((2.29)) với:
.
 
0 0 · · · 0 .. 1 0 · · · 0
 . 
0 0 · · · 0 .. 0 1 · · · 0 .
 
C= = [0..Ik−p ]
 .. .. . . .. .. .. .. . . .. 
. . . . . . .

. .
.
 
0 0 · · · 0 .. 0 0 · · · 1
Quy tắc kiểm định:
Bác bỏ giả thiết H0 : Cβ = 0 nếu:
(C β)(C(X
b T
X)−1 C T )−1 C β/b
b σ 2 > (k − p)Fk−p,n−k−1 (α) (2.30)
Nhận xét
Ta có thể sửdụng mệnh đề (2.4) về khoảng tin cậy của βp+1 , ..., βk với các đầu mút
α
q
βbi ± tn−k−1 b βbi ) để kiểm định giả thiết (2.24). Điều đó có nghĩa là nếu
D(
2(k + 1)
tồn tại chỉ số i ∈ {p + 1, ..., k} thỏa mãn:
q
α
|βbi | > tn−k−1 D(
b βbi )
2(k − p)
thì ta coi βi 6= 0

Ước lượng bình phương cực tiểu Ước lượng hàm hồi quy tuyến tính

Bài toán đặt ra là ước lượng hàm hồi quy tuyến tính:
E(Y |X) = β0 + β1 X1 + ... + βk Xk

0
tại điểm X = (1, X10 , ..., Xk0 ) tức là ước lượng tổ hợp tuyến tính sau:
T
E(Y |X) = β0 + β1 X10 + ... + βk Xk0 = X 0 β (2.31)
0T
Theo định lý Gauss, X βb là ước lượng tuyến tính với phương sai cực tiểu
T T T
Nếu ε ∼ N (0, In σ 2 ) thì X 0 βb ∼ N (X 0 β, σ 2 X 0 (XT X)−1 X 0 ) và do đó khoảng tin
T
cậy mức (1 − α) của X 0 β chính là:
α
q
T
X 0 βb ± tn−k−1 ( ) σb X 0 T (XT X)−1 X 0 (2.32)
2 |
√
{z }
T D(X
b 0 β)
b
hoặc q
T α
X 0 βb ± tn−k−1 ( ) b 0 T β)
D(X b (2.33)
2

Ước lượng hàm Hồi quy tuyến tính
Ta xét lại ví dụ sau:

có bảng sau:
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138

Giả sử:
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ n, n = 12
với {εj } là dãy độc lập có phân bố chuẩn N (0, σ 2 ). Khi đó ta có thể dùng phương trình
hồi quy tuyến tính mẫu:
yb = 32, 777 + 2, 5057x1 + 4, 7587x2

T
để dự đoán hàm hồi quy E(Y |X1 = 20, X2 = 13) = β0 + 20β1 + 13β2 = X 0 β, tại
T
X 0 = (1, 20, 13). Ta có:   
2, 439963 −0, 883875 −0, 045374 1
T
X 0 (XT X)−1 X 0 = [1, 20, 13] −0, 883875 0, 006765 −0, 004040 20
−0, 045374 −0, 004040 0, 010509 13
= 0,0946

Ta có:
T
b2 X 0 (XT X)−1 X 0 = 16, 0415 × 0, 0946 = 1, 5175259
σ
Mặt khác:
yb0 = 32, 777 + 2, 5057 × 20 + 4, 7587 × 13 = 144, 2548
T
Vì vậy khoảng tin cậy mức 0,95 của X 0 β là:
q p
yb0 ± t9 (0, 05/2) σb2 X 0 T (XT X)−1 X 0 = 144, 2548 ± 2, 262 1, 5175259
= 144, 2548 ± 2, 7865

Kiểm tra sự phù hợp của mô hình
Nội dung
Mệnh đề 2.1
Tiêu chuẩn F
Kiểm tra sự phù hợp của mô hình Tiêu chuẩn F
Kiểm tra sự phù hợp của mô hình
Xét mô hình HQTT (1.2). Mô hình QHTT sẽ phụ hợp với dãy số liệu đang quan sát nếu
các sai số εi quả thật chỉ do các yếu tố ngẫu nhiên tạo nên, tức chúng là dãy biến ngẫu
nhiên độc lập và có cùng phân phối. Vì mô hình đang xét có phân phối chuẩn nên ta
cần phải kiểm tra xem các sai số có phân phối chuẩn N (0, σ 2 In ) hay không? Để kiểm
tra ta xét các tiêu chuẩn sau:
Tiêu chuẩn F
Xét đại lượng:
(n − k − 1)R2
F = (3.34)
k(1 − R2 )
Mệnh đề 3.1. Nếu sai số ε có phân bố chuẩn N (0, σ 2 In ) và nếu βi = 0, i = 1 ÷ k thì F
cho bởi (3.1) có phân bố F với k, n − k − 1 bậc tự do.

Tiêu chuẩn F
Từ mệnh đề trên ta đưa ra quy tắc:
Nếu F quá lớn hoặc quá gần 0 ta cần bác bỏ giả thiết ε có phân bố chuẩn N (0, σ 2 In )
hay bác bỏ giả thiết β1 = · · · = βk = 0.
Cấu trúc của tiêu chuẩn F mức ý nghĩa α = 0, 02

Tra bảng phân phối F với bậc tự do là k và n − k − 1 ta được giá trị
Fk,n−k−1 (α/2) = Fk,n−k−1 (0, 01)
1
Nếu F > Fk,n−k−1 (0, 01) hoặc F < ta cần bác bỏ giả thiết
Fk,n−k−1 (0, 01)
β1 = β2 = · · · = βk = 0

Ví dụ 3.1(Xét ví dụ 2.1)
có bảng sau:
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138
Giả sử các chi phí này tuân theo mô hình tuyến tính cổ điển, khi đó:
yb = 32, 2777 + 2, 5057x1 + 4, 7587x2

n
εbj T εbj = εbj 2 = 144, 3734
P
1
2
245626 1696
s2y = y 2 − (y)2 = − = 493, 7222
12 12

Ví dụ 3.1(Xét ví dụ 2.1)
Vậy 144, 3734 = 12 ∗ 493, 7222(1 − R2 ) → (1 − R2 ) = 0, 0224 → R = 0, 9756
0, 9756 × (12 − 2 − 1)
F = = 179, 6292
2 ∗ 0, 0244
Tra bảng F ta được:

F2,9 (0, 01) = 8, 02
Ta thấy F > F2,9 (0, 01), do đó ta cần bác bỏ giả thiết rằng β1 = · · · = βk = 0, tức là
có sự phụ thuộc tuyến tính vào các biến độc lập.

Kiểm tra sự phù hợp của mô hình Khảo sát các phần dư
Ta đã biết rằng phần dư của phép hồi quy được thể hiện qua công thức
εb = Y − Yb = (I − H)ε
Nếu giả thiết H0 nói rằng ε có phân phối chuẩn N (0, σ 2 In ) là đúng thì εb cũng có phân
phối chuẩn N (0, σ 2 (I − H))
Tuy nhiên, ta nhận thấy ma trận (I − H) là ma trận suy biến có hạng là n − k − 1 và
n − k − 1 giá trị riêng bằng 1; k + 1 giá trị riêng còn lại bằng 0
⇒ Do đó, không thể biểu diễn ε qua εb

Ta ký hiệu như sau:

- e1 , ..., en−k−1 là (n − k − 1) véctơ riêng ứng với giá trị riêng là 1
- en−k , ..., en là k + 1 véctơ riêng ứng với giá trị riêng bằng 0
{e1 , ..., en } tạo thành một cơ sở trực chuẩn của Rn .
Khi đó ta có: I − H = P ΛP T trong đó Λ = diag{1, 1, ..., 1, 0, ..., 0} là ma trận chéo có
đường chéo gồm n − k − 1 số 1 và k + 1 số 0, P = [e1 , ..., en ] = [eij ]n×n .

Xét véctơ ngẫu nhiên:

ε∗ = P T εb = (ε∗1 , ..., ε∗n ) (3.35)
Khi đó với ε có phân bố chuẩn N (0, σ 2 In ) ta có:
E(ε∗ ) = P T E(b ε) = 0
cov(ε∗ ) = P T cov(σ 2 [In − H])P = σ 2 P T P ΛP T P = σ 2 Λ
Do đó nếu H0 đúng thì ε∗1 , ..., ε∗n−k−1 là các biến ngẫu nhiên độc lập có phân bố chuẩn
N (0, σ 2 ) còn ε∗n−k = · · · = ε∗n = 0 hầu chắc chắn. Vì vậy
n n−k−1 n n−k−1
ε∗j =
P ∗ P
ε∗j 2 =
P P ∗2
εj , εj hầu chắc chắn.
j=1 j=1 j=1 j=1
n n−k−1
ε∗j /n; εe∗
P P ∗
Đặt ε∗ = = εj /(n − k − 1).
j=1 j=1
Ta có nε∗ = (n −k − 1)εe∗ khi H0 đúng.

Xét thống kê:
n(n − k − 2)1/2 ε∗
T = 1/2 (3.36)
∗2
(n − k − 1)1/2 Σn 2 ∗ 2
j=1 εj − n (ε ) /(n − k − 1)
Tổng hợp lại: nếu giả thiết H0 đúng thì:
(n − k − 1)(n − k − 2)1/2 εe∗

T = 1/2
(n − k − 1)1/2 Σn−k−1 ε∗j 2 − n − k − 12 (εe∗ )2 /(n − k − 1)

j=1
(n − k − 1)1/2 εe∗
= n−k−1 ∗ 1/2
Σj=1 (εj − εe∗ )2 /(n − k − 2)
có phân bố Student với n − k − 2 bậc tự do. Vậy tiêu chuẩn với mức ý nghĩa α là:
α
bác bỏ H0 nếu |T | > tn−k−2 .
2

Khi sử dụng tiêu chuẩn dẫn đến việc bác bỏ giả thiết ε không có phân bố chuẩn
N (0, σ 2 In ) thì có thể xảy ra các khả năng sau:
Các sai số εj không có phương sai là hằng số
Các sai số εj có thể tương quan với nhau
các sai số εj có thể không có phân bố chuẩn.
Để đánh giá xem mô hình có khả năng rơi vào dạng nào, người ta tiến hành khảo sát đồ
thị của các điểm (εbj , ybj )

Để kiểm tra xem εj có độc lập và có cùng phân bố chuẩn N (0, σ 2 ), ta có thể kiểm tra
tính chuẩn của εj dựa vào hệ số tương quan:
Σn
1 (qj − q)(ε(j) − ε) Σn
1 (qj − q)b
ε
r= = n
2 1/2
o1/2
Σn 2 n
1 (qj − q) Σ1 (ε(j) − ε Σn 2 n b2
1 (qj − q) Σ1 εj
trong đó qj là nghiệm của phương trình Φ(qj ) = (j − 1/2)/n

Kiểm định tính không tương quan của εj theo thời

gian
Giả sử yj được theo dõi theo thời gian j = 1, 2, ... Trường hợp này thường xảy ra khi
khảo sát các đại lượng kinh tế. Khi đó rất thường xảy ra trường hợp các εj có tương
quan với nhau. (Auto correlation)
Để phát hiện tính tự tương quan của các sai số ε ta sử dụng tiêu chuẩn Durbin-Watson
như sau:
Đặt:
Σnj=2 εd
j−1 εbj
r1 = 2 (3.37)
Σnj=1 εbj
Khi đó đại lượng:

n
X n
X
2
DW = (εbj − εd
j−1 ) / εbj 2 = 2(1 − r1 ) (3.38)
j=2 j=2
sẽ tuân theo phân phối Durbin-Watson


gian
Tra bảng Durbin- Watson ứng với mức ý nghĩa α ta tìm được hai số
d1 (k, n, α) < d2 (k, n, α), khi đó so sánh DW với d1 , d2 ta rút ra các kết luận sau:
Nếu 0 ≤ DW < d1 thì các εj có tự tương quan dương
Nếu d1 ≤ DW ≤ d2 thì không thể nói gì được
Nếu d2 < DW < 4 − d2 thì các εj không có tự tương quan
Nếu 4 − d2 ≤ DW ≤ 4 − d1 thì không thể kết luận được
Nếu 4 − d1 < DW ≤ 4 thì các εj có tự tương quan âm.


gian
Ta xét lại ví dụ sau:

có bảng sau:
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138


gian
Ta đã tính được:
n
εbj 2 = 144, 2298
P
Tổng bình phương các phần dư
1
Σnj=2 εd
j−1 εbj
⇒ r1 = 2 = −45,3437
144,2298
= −0, 3144
Σnj=1 εbj
⇒ DW = 2(1 − r1 ) = 2, 6288
Với α = 0, 05; n = 12; k = 2, tra bảng phân phối Durbin-Watson ta tìm được:
d1 = 0, 81; d2 = 1, 58
4 − d1 = 3, 19; 4 − d2 = 2, 42
Vậy 4 − d2 = 2, 42 < DW = 2, 6288 < 4 − d1 = 3, 19 nên ta không thể kết luận gì được.

Các biến X1 , ..., Xk được gọi là đa cộng tuyến nếu tồn tại các hằng số c0 , c1 , ..., ck
Pk Pk
không đồng thời bằng 0 thỏa mãn c0 + ci Xi = 0 và do đó c0 + ci Xji = 0 với
i=1 i=1
j = 1, 2, ..., n.
Trong trường hợp này X có hạng ≤ k và không tồn tại ma trận nghịch đảo (XT X)−1 .
Trên thực tế, khi |XT X| ≈ 0, người ta có thể coi X1 , ..., Xk có hiện tượng đa cộng tuyến
tính. Khi đó ước lượng βb = (XT X)−1 XT Y thường không ổn định và có phương sai rất
lớn hay các khoảng tin cậy sẽ rất rộng.
Hiện tượng đa cộng tuyến thường được thể hiện qua các dấu hiệu sau:
+) Một số phần tử trên đường chéo chính của ma trận V = (XT X)−1 tỏ ra rất lớn.
√
+) Các hệ số tương quan tuyến tính mẫu của các cặp Xi , Xj là rij = sij / sii sjj tỏ ra
lớn (|rij ≥ 0, 7|.

Để khắc phục hiện tượng đa cộng tuyến người ta làm như sau:
1 Đặt r0i là hệ số tương quan tuyến tính mẫu giữa Y và Xi , cụ thể là:
√
r0i = s0i / sii s00
1 Pn
trong đó s0 = s2y ; s0i = yj xji − y × xi
n j=1
Khi đó nếu thấy |rij | ≥ 0, 7 thì:
sẽ loại biến Xi ra khỏi mô hình nếu |r0i | < |r0j |,
sẽ loại biến Xj ra khỏi mô hình nếu |r0i | > |r0j |.
2 Thực hiện hồi quy theo các thành phần chính của véctơ (X1 , ..., Xk )
3 Thực hiện hồi quy từng bước

Mô hình hồi quy tuyến tính với sai số có tương quan
Nội dung
Mệnh đề 2.1
Tiêu chuẩn F
Xét mô hình (3.1.3): Y = βX + ε với giả thiết các sai số có tương quan khác không. Ta
giả thiết rằng hiệp phương sai của sai số có dạng:
cov(ε) = σ 2 Σ (4.1)
trong đó Σ = [σij ]n×n là ma trận xác định dương đã biết. Nhân cả 2 vế với Σ−1/2 ta
được:
Σ−1/2 Y = Σ−1/2 Xβ + Σ−1/2 ε (4.2)
hay là:
e = Xβ
Y e + εe (4.3)
e = Σ−1/2 Y, X
với Y e = Σ−1/2 X, εe = Σ−1/2 ε. Khi đó ta có:
−1/2
cov(eε) = Σ εΣ−1/2 = σ 2 Σ−1/2 ΣΣ−1/2 = σ 2 In
(3.4.3) là mô hình hồi quy tuyến tính cổ điển và ta có thể áp dụng các kết quả của mục
3.2 và 3.3.

Hơn nữa nếu X có hạng k + 1 thì Xe cũng có hạng k + 1 và ta có ước lượng bằng
phương pháp bình phương cực tiểu của mô hình (3.4.3) là:
e −1 X
e T X)
βb = (X e = (XT Σ−1/2 Σ−1/2 X)−1 XT Σ−1/2 Σ−1/2 Y
eT Y
tức là:
βb = (XT Σ−1 X)−1 (XT Σ−1 Y) (4.4)
Từ biểu thức này dễ dàng tính được:
b = σ 2 (XT Σ−1 X)−1
D(β) (4.5)
Thông thường các mô hình thực tế hay gặp là ma trận Σ đường chéo
Σ = diag(σ11 , ..., σnn ) (4.6)
tức là các εj vẫn không tương quan nhưng vì lý do độ chính xác của kỹ thuật nên
phương sai thay đổi.

Các bước tiến hành trong phân tích hồi quy
Nội dung
Mệnh đề 2.1
Tiêu chuẩn F
Việc phân tích hồi quy tiến thành theo các bước sau:
Bước 1
Xác định ước lượng βb bằng phương pháp bình phương cực tiểu, tức là giải phương trình
chuẩn sau:
XT Xβ = XT Y

Việc phân tích hồi quy tiến thành theo các bước sau:
Bước 1
Xác định ước lượng βb bằng phương pháp bình phương cực tiểu, tức là giải phương trình
chuẩn sau:
XT Xβ = XT Y
Bước 2
Tính các phần dư ε = Y − Y

b = Y − Xβ
n
P 2 n
P 2
Tính εbj = yj − (XT Y)T βb
j=1 j=1
n
εbj 2 = ns2y (1 − R2 )
P
Tính hệ số xác định R từ phương trình:
j=1

Bước 3. Kiểm định sự phù hợp của mô hình
Sử dụng tiêu chuẩn F để kiểm tra giả thiết β1 = · · · = βk = 0

khảo sát các phần dư:
ε, ybj ), j = 1 ÷ n,
1. Vẽ đồ thị của (b
2. Dùng tiêu chuẩn Durbin Watson để kiểm tra xem các sai số có tự tương quan
cấp 1 hay không,
3. Dùng tiêu chuẩn T để kiểm tra giả thiết ε ∼ N (0, σ 2 In ) hay không?
Kiểm tra tính đa cộng tuyến của mô hình. Nếu mô hình đã xây dựng tỏ ra là mô
hình HQTT cổ điển thì có thể chuyển sang bước 4.

Bước 3. Kiểm định sự phù hợp của mô hình
Sử dụng tiêu chuẩn F để kiểm tra giả thiết β1 = · · · = βk = 0

khảo sát các phần dư:
ε, ybj ), j = 1 ÷ n,
1. Vẽ đồ thị của (b
2. Dùng tiêu chuẩn Durbin Watson để kiểm tra xem các sai số có tự tương quan
cấp 1 hay không,
3. Dùng tiêu chuẩn T để kiểm tra giả thiết ε ∼ N (0, σ 2 In ) hay không?
Kiểm tra tính đa cộng tuyến của mô hình. Nếu mô hình đã xây dựng tỏ ra là mô
hình HQTT cổ điển thì có thể chuyển sang bước 4.
Bước 4
Xác định khoảng tin cậy của các hệ số hồi quy.

Bước 5
Kiểm định xem các βi có khác 0 hay không với i = 1, ..., k

Bước 5
Kiểm định xem các βi có khác 0 hay không với i = 1, ..., k
Bước 6
Dùng phương trình hồi quy tuyến tính mẫu:
Yb = β
c0 + β
c1 X1 + β
ck Xk
để xác định giá trị dự đoán của E(Y |X = X 0 ) = β0 + β1 X01 + · · · + βk X0k và giá trị
Y (X 0 ).

Mô Hình Hồi Quy Tuyến Tính

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mô Hình Hồi Quy Tuyến Tính

Uploaded by

Copyright:

Available Formats

Chủ đề: Mô hình hồi quy tuyến tính

Hà Nội, tháng 10 năm 2020

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 1 / 75

Bài toán thực tế: Dự đoán giá nhà đất

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 3 / 75

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 4 / 75

♦ Dự đoán mật độ xương dựa vào độ tuổi, trọng lượng cơ thể

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 5 / 75

Mô hình hồi quy tuyến tính cổ điển

trong đó các sai số ε1 , ..., εn thỏa mãn 3 điều kiện:

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 6 / 75

Mô hình hồi quy tuyến tính cổ điển

Mô hình (1.2) có thể viết dưới dạng ma trận như sau:

x11 x12 · · · x1k

hoặc đơn giản hơn:

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 7 / 75

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 8 / 75

Ước lượng bình phương cực tiểu

yj − b0 − (b1 xj1 + ... + bk xjk )

= (Y − Xb)T (Y − Xb) → min (2.1)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 10 / 75

Ước lượng bình phương cực tiểu

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 11 / 75

βb = (XT X)−1 XT Y (2.5)

H = X(XT X)−1 XT cấp (n × n) (2.7)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 12 / 75

Chứng minh mệnh đề 2.1

thấy βb có thể tìm được từ hệ phương trình sau:

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 13 / 75

Chứng minh mệnh đề 2.1

Nếu đặt xj0 = 1, j = 1 ÷ n ta có phương trình sau:

hoặc dưới dạng ma trận:

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 14 / 75

Chứng minh mệnh đề 2.1

Ta thấy βb là biểu thức tuyến tính theo Y.

(I − H) là ma trận đối xứng: (I − H)T = (I − H)

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 15 / 75

Chứng minh mệnh đề 2.1

Dấu "=" xảy ra khi βb = b. Hơn nữa:

= YT (I − H)Y(tính chất 2) = YT Y − YT HY = YT Y − (YT X)βb

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 16 / 75

Tính chất ước lượng bằng phương pháp bình

Ước lượng βb là ước lượng không chệch với:

E(β) b = σ 2 (XT X)−1

Phần dư εb có tính chất:

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 17 / 75

E βb = E(XT X)−1 XT Y = (XT X)−1 XT E(Y)

2) Do εb = (I − H)Y (theo (2.8)) nên:

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 18 / 75

3) Từ (2) ta suy ra:

tr(H) = tr(X(XT X)−1 XT ) = tr((XT X)−1 XT X) = tr(Ik+1 ) = k + 1

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 19 / 75

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 20 / 75

Chứng minh Định lý Gauss

E(aT Y) = aT E(Y) = aT Xβ ≡ cT β ⇔ (aT X − cT )β ≡ 0

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 21 / 75

Chứng minh định lý Gauss

Trong (2.21) dấu"=" xảy ra khi và chỉ khi a = a∗ .

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 22 / 75

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 23 / 75

Khoảng tin cậy của các hệ số hồi quy βj

1 βb có phân bố chuẩn Nk+1 (β, σ 2 (XT X)−1 )

Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 24 / 75

Chứng minh mệnh đề 2.2