Professional Documents
Culture Documents
Design by Team 4
Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 2 / 75
Giới thiệu về mô hình hồi quy tuyến tính cổ điển Bài toán thực tế
Giả sử X1 , ..., Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự báo.
Ví dụ Y là giá nhà hiện hành, khi đó Y phụ thuộc vào:
X1 là diện tích sử dụng
X2 là vị trí vùng (thành phố)
X3 là giá của năm qua
X4 là chất lượng xây dựng (giá xây dựng trên 1 mét vuông)
Sự phụ thuộc của Y theo X1 , ..., Xk thường phức tạp. Tuy nhiên có một số trường hợp
sự phụ thuộc đó khá đơn giản.
Mô hình hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các
Xi , nghĩa là:
Y = β0 + β1 X1 + ... + βk Xk + ε (1.1)
trong đó βi , i = 1 ÷ k là các hệ số chưa biết
còn ε là sai số ngẫu nhiên.
Các ví dụ khác
Câu hỏi: Bạn hãy xác định biến X và Y tương ứng ???
Ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , ..., Xk , Y . Giả sử số liệu
quan sát tuân theo mô hình sau:
y1 = β0 + β1 x11 + · · · + βk x1k + ε1
y2 = β0 + β1 x21 + · · · + βk x2k + ε2
... (1.2)
yn = β0 + β1 xn1 + · · · + βk xnk + εn
x12 · · · x1k
1 x11
1 x21 x22 · · · x2k
với X = . .. .. .. được gọi là ma trận thiết kế
.. ..
.. . .
1 xn1 xn2 · · · xnk
Y = [y1 , ..., yn ]T ; β = [β0 , ..., βk ]T ; [ε1 , ..., εn ]T
và
E(ε) = 0 (1.4)
T 2
cov(ε) = E(εε ) = σ In
Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 9 / 75
Ước lượng bình phương cực tiểu
Bài toán đầu tiên đặt ra là dựa vào bộ số liệu quan sát được X, Y hãy ước lượng
tham số β, σ 2 .
Nếu ta sử dụng giá trị b là giá trị thử cho β thì giữa các quan sát yj và
b0 + b1 xj1 + ... + bk xjk sẽ có độ lệch (sai số):
Phương pháp bình phương tối thiểu là cách chọn giá trị véctơ b sao cho:
n
(yj − b0 − b1 xj1 − · · · − bk xjk )2
P
S(b) =
j=1
Ta có:
εbj = yj − (β c1 xj1 + · · · + β
c0 + β ck xjk ), j = 1 ÷ n (2.2)
gọi là các phần dư của phép hồi quy.
Vì biểu thức theo X1 , ..., Xk là tuyến tính nên phương trình:
Yb = β c1 X1 + · · · + β
c0 + β ck Xk (2.3)
được gọi là phương trình hồi quy tuyến tính mẫu
Đặt:
ybj = β c1 xj1 + · · · + β
c0 + β ck xjk (2.4)
T
Y
b = (yb1 , ..., yc
n)
Mệnh đề 2.1
Nếu ma trận thiết kế X không ngẫu nhiên có hạng k + 1 ≤ n thì ước lượng bình phương
cực tiểu có dạng:
thỏa mãn:
XT εb = 0 và Yb T εb = 0, (βbT XT εb = 0) (2.9)
Tổng các phần dư:
n
X
εb2j = εbT εb = YT Y − YT Xβb (2.10)
j=1
ta có kết quả:
n
X n
X
(b0 + b1 xj1 + · · · + bk xjk ) = yi
j=1 j=1
n
X n
X n
X n
X
b0 xj1 + b1 x2j1 + · · · + bk xjk xj1 = yi xj1
j=1 j=1 j=1 j=1
n
X n
X n
X n
X
b0 xj1 + b1 xj1 xjk + · · · + bk x2jk = yi xjk
j=1 j=1 j=1 j=1
b = βb = (XT X)−1 XT Y
E(b ε) = σ 2 (I − H)
ε) = 0; cov(b (2.16)
εbT εb n εb2j
b2 = là ước lượng không chệch của σ 2 , tức là
P
σ =
n−k−1 j=1 n − k − 1
σ2 ) = σ2
E(b
b εb là không tương quan, tức là:
β,
cov(β,
b εb) = 0; cov(β,
b σb2 ) = 0 (2.17)
Chứng minh
1)
E(b
ε) = (I − H)E(Y) = (I − H)Xβ = 0,
cov(b
ε) = (I − H)I(I − H)σ 2 = σ 2 (I − H).
Chứng minh
= σ 2 (n − tr(H))
Mặt khác,
4) Ta có:
b εb) = cov((XT X)−1 XT Y(In − H)Y)
cov(β,
= (XT X)−1 XT cov(Y)(In − H)
= σ 2 (XT X)−1 XT (In − H) = 0
Định lý Gauss
Trong mô hình tuyến tính cổ điển (1.3),(1.4) với hạng đầy đủ k + 1 ≤ n thì ước
lượng:
cT βb = c0 β c1 + · · · + ck β
c0 + c1 β ck (2.18)
của cT β = c0 β0 + c1 β1 + · · · + c0 β0 là ước lượng không chệch với phương sai bé
nhất so với bất kỳ ước lượng tuyến tính không chệch nào dạng
aT Y = a1 y1 + · · · + an yn
Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT βb là một ước
lượng không chệch với phương sai cực tiểu của cT β so với bất kỳ ước lượng không
chệch nào khác.
1) Do tính chất tuyến tính của kỳ vọng nên rõ ràng cT βb là ước lương không chệch
của cT β. Hơn nữa giả sử aT Y là một ước lượng không chệch của cT β thì:
β T β = 0 ⇔ aT X − cT = 0 ⇔ aT X = cT (2.19)
Chú ý rằng
cT βb = cT (XT X)−1 XT Y = a∗T Y (2.20)
∗T T T −1 T ∗ T −1
với a = c (X X) X Y ⇔ a = X(X X) c.
T T 2 T
D(a Y) = a cov(Y)a = σ a a
= σ 2 (a − a∗ + a∗ )T (a − a∗ + a∗ )
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 (a∗T a∗ ) + 2(a − a∗ )T a∗ σ 2
= σ 2 (a − a∗ )T (a − a∗ ) + σ 2 a∗T a∗ ≥ D(a∗ Y) (2.21)
Vì
(a − a∗ )T a∗ = aT a∗ − a∗T a∗
= aT X(XT X)−1 c − cT (XT X)−1 XT X(XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c
= cT (XT X)−1 c − cT (XT X)−1 c = 0
Hệ số xác định R
Đại lượng
Yb T Yb − n(y)2 Σn
1ybj2 − n(y)2
R2 := = n 2 (2.22)
Y Y − n(y)
T 2 Σ1 yj − n(y)2
gọi là bình phương của hệ số xác định, đó là tỷ lệ biến thiên của các biến yj được giải
thích bởi các biến xj1 , ..., xjk .
Từ (2.14) ta có:
n
" n #
X X 2
εb2j = yj − n(y)2 (1 − R2 ) = ns2y (1 − R2 ) (2.23)
j=1 j=1
ta nhận được phương trình để tính sai số bình phương trung bình.
Trong phần này ta xét mô hình hồi quy cổ điển (1.3),(1.4), với giả thiết thêm rằng: các
εj có cùng phân phối chuẩn N (0, σ 2 ) và độc lập, tức là ε = (ε1 , ..., εn )T có phân bố
chuẩn Nn (0, σ 2 In )
Mệnh đề 2.2
(ii) Giả sử e1 , ...en−k−1 là n − k − 1 vecto riêng ứng với giá trị riêng là 1
còn k + 1 vecto riêng ứng với giá trị riêng 0 của ma trận I − H. Theo
công thức khai triển phổ của ma trận ta có:
Đặt
eT1 ε
V1
V2 eT2 ε
V = .. = ..
. .
Vn−k−1 eTn−k−1 ε
Khi đó V có phân bố chuẩn với E(V ) = 0, còn
2
σ (i = j)
cov(Vi , Vj ) = eTi (σ 2 I)ei =
0 (i 6= j)
nên V1 , ..., Vn−k−1 có phân bố chuẩn độc lập N (0, 1) và V có
N (0, σ 2 In−k−1 ).
Do đó
σ2
(n − k − 1)b
, và 2
có phân bố χ2 với n − k − 1 bậc tự do. Mệnh đề
σ
được chứng minh.
Mệnh đề 2.3
Xét mô hình hồi quy tuyến tính cổ điển Y = Xβ + ε với X có hạng là k + 1 ≤ n và
ε ∼ N (0, σ 2 In ). Khi đó miền tin cậy đồng thời mức (1 − α) của β xác định bởi:
b T XT X(β − β)
(β − β) σ 2 Fk+1,n−k−1 (α)
b ≤ (k + 1)b (2.24)
trong đó Fk+1,n−k−1 (α) là phân vị trên mức α của phân bố F với bậc tự do là
k + 1, n − k − 1. Nói cách khác, với độ tin cậy (1 − α), giá trị chân thực β phải nằm
trong Ellipsoid:
b T XT X(x − β)
(x − β) σ 2 Fk+1,n−k−1 (α)
b = (k + 1)b
Hơn nữa khoảng tin cậy đồng thời mức (1 − α) của các βi , i = 0 ÷ k được xác định bởi
các mút: q
βbi ± D(b βbi )(k + 1)Fk+1,n−k−1 (α) (2.25)
trong đó D( b2 (XT X)−1
b βbi ) ký hiệu phần tử thứ i trên đường chéo chính của ma trận σ
và là ước lượng không chệch của D(β) b
Ta có:
E(U ) = 0
cov(U ) = (X T X)1/2 cov(β)(X
b T
X)1/2
= σ 2 (X T X)1/2 (X T X)−1 (X T X)1/2 = σ 2 Ik+1
1 T 1
Vậy U có phân bố chuẩn N (0, σ 2 Ik+1 ). Do đó U U = 2 (βb − β)T (X T X)(βb − β)
σ2 σ
có phân phối χ2 với k + 1 bậc tự do.
b2
σ
Hơn nữa, theo mệnh đề 2.1, (n − k − 1) có phân bố χ2 với n − k − 1bậc tự do và
σ2
b tức là độc lập với U T U . Vì vậy đại lương
độc lập với β,
P {F ≤ Fk+1,n−k−1 (α)} = 1 − α
hoặc
P (βb − β)T XT X(βb − β) ≤ (k + 1)b
σ 2 Fk+1,n−k−1 (α) = 1 − α
Mệnh đề 2.4
α α
Giả sử tn−k−1 là phân vị trên mức của phân bố Student với
2(k + 1) 2(k + 1)
n − k − 1 bậc tự do. Khi đó đồng thời ta có các khoảng tin cậy của βi , với mức tin cậy
(1 − α) cho bởi các đầu mút:
q
α
βi ± tn−k−1
b D(
b βbi ) (2.26)
2(k + 1)
Ví dụ 2.1
Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí tiếp thị
X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12 thời kỳ, kết quả ta
có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138
Giả sử các chi phí này tuân theo mô hình tuyến tính cổ điển, khi đó:
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 12
Ta sẽ ước lượng các hệ số hồi quy bằng phương pháp bình phương cực tiểu.
Ví dụ 2.1
n nx1 nx2
12 245 146
XT X = . nx21 nx1 x2 = . 5195 3055
. . nx22 . . 1900
2, 439963 −0, 883875 −0, 045374
(XT X)−1 = . 0, 006765 −0, 004040
. . 0, 010509
ny 1696
XT Y = nx1 .y = 3546
nx .y 2140
2
β
c0 32, 2777
T −1 T
β = β1 = (X X) X Y = 2, 5057
b c
β
c2 4, 7587
Vậy phương trình hồi quy tuyến tính mẫu là:
Ví dụ 2.1
Ví dụ 2.1
12
εbj 2 = 144, 2298
P
Từ đó tính trực tiếp ta được
1
Ta có:
q
D(
b βc0 ) = 16, 0415 × 2, 439963 = 39, 1407 ⇒ D(
b β
c0 ) = 6, 2562
q
b β
D( c1 ) = 16, 0415 × 0, 006765 = 0, 10830 ⇒ D(
b β
c1 ) = 0, 3287
q
D(
b βc2 ) = 16, 0415 × 0, 010509 = 0, 16860 ⇒ D(
b β
c3 ) = 0, 4106
Ví dụ 2.1
Do đó ta có kết quả:
Bài tập 1
6 60 1 −0, 08333333
XT X = → (XT X)−1 =
60 720 −0, 08333333 0, 08333333
T 72
X Y=
872
−2
−0.66666667
→ βb = (XT X)−1 XT Y = = 193
1.26666667 15
Vậy phương trình hồi quy tuyến tính mẫu là: yb = −2
3
+ 1915
x
n
P b2 T T
Tổng bình phương các phần dư: ε = Y Y − Y Xβb = 101, 46666667
j
j=1
1 n 101, 46666667
b2 = εbj 2 =
P
σ = 25, 36666667
n−k−1 1 4
Bảng tính các giá trị ybj , εbj
STT yj ybj εbj STT yj ybj εbj
1 15 12 3 4 25 23,4 1,6
2 9 5,6666667 3,333333 5 7 13,266667 -6,26666667
3 3 8,2 -5.2 6 13 9,4666667 3,5333333
Tổng phần dư bằng 0,00000037.
Bài tập 1
12
εbj 2 = 101, 4666643
P
Từ đó tính trực tiếp ta được
1
Ta có:
q
D(
b βc0 ) = 25, 36666667 × 1 = 25, 36666667 ⇒ D(
b βc0 ) = 5, 036533
q
D(
b βc1 ) = 25, 36666667 × 0, 08333333 = 2, 11388 ⇒ b β
D( c1 ) = 1, 453921
Bài tập 2
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ 6
n
εbj 2
P
2 Tính giá trị ybj , εbj , từ đó tính
j=1
Bài tập 2
6 60 30 72
XT X = 60 720 319 , XT Y = 872
30 319188 382
1, 33361118 −0, 0678733 −0, 0976423
T −1
→ (X X) = −0, 0678733 0, 00904977 −0, 00452489
−0, 0976423 −0, 00452489 0, 02857823
−0, 46487259
→ βb = (XT X)−1 XT Y = 1, 2760181
−0, 05906168
Vậy phương trình hồi quy tuyến tính mẫu là: yb = −0, 46487 + 1, 276018x1 − 0, 05906x2
n
εb2 = YT Y − YT Xβb = 101, 3444605
P
Tổng bình phương các phần dư: j
j=1
1 n 101, 3444605
b2 = εbj 2 =
P
σ = 38, 781486
n−k−1 1 3
Bảng tính các giá trị ybj , εbj
STT yj ybj εbj STT yj ybj εbj
1 15 12,17718504 2,822815 4 25 23.42510121 1,57489879
2 9 5,73803286 3,26196714 5 7 13.15789474 -6,15789474
3 3 8.29006906 -5,290069 6 13 9.21171708 3,78828292
Tổng phần dư bằng 0,000000011.
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 41 / 75
Ước lượng bình phương cực tiểu Khoảng tin cậy của các hệ số hồi quy βj
Bài tập 2
12
εbj 2 = 101, 3446055
P
Từ đó tính trực tiếp ta được
1
Ta có:
q
b β
D( c0 ) = 38, 781486 × 1, 33361118 = 51, 719423 ⇒ D(
b βc0 ) = 7, 1916217
q
D(
b βc1 ) = 38, 781486 × 0, 0090497 = 0, 3509635 ⇒ b β
D( c1 ) = 0, 5924217
q
D(
b βc1 ) = 38, 781486 × 0, 0285782 = 1, 108305 ⇒ D(b βc1 ) = 1.05276
Khoảngtin cậycủa
q β0 , β1 mức 0,95:
0, 05
β0 ±t3
c D( c0 ) = −0, 46487259±5, 061×7, 1916217 = −0, 464873±36, 39679
b β
2 × 3 q
c1 ± t3 0, 05
β D( c1 ) = 1, 2760181 ± 5, 061 × 0, 5924217 = 1, 276018 ± 2, 998246
b β
2 × 3 q
c2 ±t3 0, 05
β D( c2 ) = −0, 059061681±5, 061×1.05276 = −0, 05906168±5, 32801
b β
2×3
Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ε (2.27)
Khi thiết lập phương trình, ta giả sử rằng mọi biến độc lập X1 , ..., Xk đều tham gia
phương trình hồi quy. Tuy nhiên, trên thực tế, có một vài biến sẽ không tham gia vào
phương trình hồi quy, tức là hệ số βi của nó bằng 0. Tuy vậy, các hệ số ước lượng có thể
khác 0.
Bài toán đặt ra là kiểm định xem khi nào hệ số ước lượng được xem là bằng 0 thực sự.
Ta có bài toán kiểm định giả thiết
(C β)(C(X
b T
X)−1 C T )−1 C β/b
b σ 2 > (k − p)Fk−p,n−k−1 (α) (2.30)
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 45 / 75
Ước lượng bình phương cực tiểu Kiểm định giả thiết về các hệ số hồi quy
Nhận xét
Ta có thể sửdụng mệnh đề (2.4) về khoảng tin cậy của βp+1 , ..., βk với các đầu mút
α
q
βbi ± tn−k−1 b βbi ) để kiểm định giả thiết (2.24). Điều đó có nghĩa là nếu
D(
2(k + 1)
tồn tại chỉ số i ∈ {p + 1, ..., k} thỏa mãn:
q
α
|βbi | > tn−k−1 D(
b βbi )
2(k − p)
thì ta coi βi 6= 0
hoặc q
T α
X 0 βb ± tn−k−1 ( ) b 0 T β)
D(X b (2.33)
2
Giả sử:
yj = β0 + β1 xj1 + β2 xj2 + εj , j = 1 ÷ n, n = 12
với {εj } là dãy độc lập có phân bố chuẩn N (0, σ 2 ). Khi đó ta có thể dùng phương trình
hồi quy tuyến tính mẫu:
Ta có:
T
b2 X 0 (XT X)−1 X 0 = 16, 0415 × 0, 0946 = 1, 5175259
σ
Mặt khác:
yb0 = 32, 777 + 2, 5057 × 20 + 4, 7587 × 13 = 144, 2548
T
Vì vậy khoảng tin cậy mức 0,95 của X 0 β là:
q p
yb0 ± t9 (0, 05/2) σb2 X 0 T (XT X)−1 X 0 = 144, 2548 ± 2, 262 1, 5175259
= 144, 2548 ± 2, 7865
Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 51 / 75
Kiểm tra sự phù hợp của mô hình Tiêu chuẩn F
Xét mô hình HQTT (1.2). Mô hình QHTT sẽ phụ hợp với dãy số liệu đang quan sát nếu
các sai số εi quả thật chỉ do các yếu tố ngẫu nhiên tạo nên, tức chúng là dãy biến ngẫu
nhiên độc lập và có cùng phân phối. Vì mô hình đang xét có phân phối chuẩn nên ta
cần phải kiểm tra xem các sai số có phân phối chuẩn N (0, σ 2 In ) hay không? Để kiểm
tra ta xét các tiêu chuẩn sau:
Tiêu chuẩn F
Xét đại lượng:
(n − k − 1)R2
F = (3.34)
k(1 − R2 )
Mệnh đề 3.1. Nếu sai số ε có phân bố chuẩn N (0, σ 2 In ) và nếu βi = 0, i = 1 ÷ k thì F
cho bởi (3.1) có phân bố F với k, n − k − 1 bậc tự do.
Tiêu chuẩn F
Nếu F quá lớn hoặc quá gần 0 ta cần bác bỏ giả thiết ε có phân bố chuẩn N (0, σ 2 In )
hay bác bỏ giả thiết β1 = · · · = βk = 0.
Ví dụ 3.1(Xét ví dụ 2.1)
Để nghiên cứu sự phụ thuộc giữa doanh thu Y và chi phí sản xuất X1 , chi phí tiếp thị
X2 người ta điều tra ngẫu nhiên doanh thu của 12 công ty trong 12 thời kỳ, kết quả ta
có bảng sau:
STT x0 x1 x2 y STT x0 x1 x2 y
1 1 18 10 127 7 1 25 14 161
2 1 25 11 149 8 1 16 12 128
3 1 19 6 106 9 1 17 12 139
4 1 24 16 163 10 1 23 12 144
5 1 15 7 102 11 1 22 14 159
6 1 26 17 180 12 1 15 15 138
Giả sử các chi phí này tuân theo mô hình tuyến tính cổ điển, khi đó:
Ví dụ 3.1(Xét ví dụ 2.1)
0, 9756 × (12 − 2 − 1)
F = = 179, 6292
2 ∗ 0, 0244
Ta đã biết rằng phần dư của phép hồi quy được thể hiện qua công thức
εb = Y − Yb = (I − H)ε
Nếu giả thiết H0 nói rằng ε có phân phối chuẩn N (0, σ 2 In ) là đúng thì εb cũng có phân
phối chuẩn N (0, σ 2 (I − H))
Tuy nhiên, ta nhận thấy ma trận (I − H) là ma trận suy biến có hạng là n − k − 1 và
n − k − 1 giá trị riêng bằng 1; k + 1 giá trị riêng còn lại bằng 0
⇒ Do đó, không thể biểu diễn ε qua εb
n(n − k − 2)1/2 ε∗
T = 1/2 (3.36)
∗2
(n − k − 1)1/2 Σn 2 ∗ 2
j=1 εj − n (ε ) /(n − k − 1)
(n − k − 1)1/2 εe∗
= n−k−1 ∗ 1/2
Σj=1 (εj − εe∗ )2 /(n − k − 2)
có phân bố Student với n − k − 2 bậc tự do. Vậy tiêu chuẩn với mức ý nghĩa α là:
α
bác bỏ H0 nếu |T | > tn−k−2 .
2
Khi sử dụng tiêu chuẩn dẫn đến việc bác bỏ giả thiết ε không có phân bố chuẩn
N (0, σ 2 In ) thì có thể xảy ra các khả năng sau:
Các sai số εj không có phương sai là hằng số
Các sai số εj có thể tương quan với nhau
các sai số εj có thể không có phân bố chuẩn.
Để đánh giá xem mô hình có khả năng rơi vào dạng nào, người ta tiến hành khảo sát đồ
thị của các điểm (εbj , ybj )
Để kiểm tra xem εj có độc lập và có cùng phân bố chuẩn N (0, σ 2 ), ta có thể kiểm tra
tính chuẩn của εj dựa vào hệ số tương quan:
Σn
1 (qj − q)(ε(j) − ε) Σn
1 (qj − q)b
ε
r= = n
2 1/2
o1/2
Σn 2 n
1 (qj − q) Σ1 (ε(j) − ε Σn 2 n b2
1 (qj − q) Σ1 εj
Giả sử yj được theo dõi theo thời gian j = 1, 2, ... Trường hợp này thường xảy ra khi
khảo sát các đại lượng kinh tế. Khi đó rất thường xảy ra trường hợp các εj có tương
quan với nhau. (Auto correlation)
Để phát hiện tính tự tương quan của các sai số ε ta sử dụng tiêu chuẩn Durbin-Watson
như sau:
Đặt:
Σnj=2 εd
j−1 εbj
r1 = 2 (3.37)
Σnj=1 εbj
Tra bảng Durbin- Watson ứng với mức ý nghĩa α ta tìm được hai số
d1 (k, n, α) < d2 (k, n, α), khi đó so sánh DW với d1 , d2 ta rút ra các kết luận sau:
Nếu 0 ≤ DW < d1 thì các εj có tự tương quan dương
Nếu d1 ≤ DW ≤ d2 thì không thể nói gì được
Nếu d2 < DW < 4 − d2 thì các εj không có tự tương quan
Nếu 4 − d2 ≤ DW ≤ 4 − d1 thì không thể kết luận được
Nếu 4 − d1 < DW ≤ 4 thì các εj có tự tương quan âm.
Ta đã tính được:
n
εbj 2 = 144, 2298
P
Tổng bình phương các phần dư
1
Σnj=2 εd
j−1 εbj
⇒ r1 = 2 = −45,3437
144,2298
= −0, 3144
Σnj=1 εbj
⇒ DW = 2(1 − r1 ) = 2, 6288
Với α = 0, 05; n = 12; k = 2, tra bảng phân phối Durbin-Watson ta tìm được:
d1 = 0, 81; d2 = 1, 58
4 − d1 = 3, 19; 4 − d2 = 2, 42
Vậy 4 − d2 = 2, 42 < DW = 2, 6288 < 4 − d1 = 3, 19 nên ta không thể kết luận gì được.
Các biến X1 , ..., Xk được gọi là đa cộng tuyến nếu tồn tại các hằng số c0 , c1 , ..., ck
Pk Pk
không đồng thời bằng 0 thỏa mãn c0 + ci Xi = 0 và do đó c0 + ci Xji = 0 với
i=1 i=1
j = 1, 2, ..., n.
Trong trường hợp này X có hạng ≤ k và không tồn tại ma trận nghịch đảo (XT X)−1 .
Trên thực tế, khi |XT X| ≈ 0, người ta có thể coi X1 , ..., Xk có hiện tượng đa cộng tuyến
tính. Khi đó ước lượng βb = (XT X)−1 XT Y thường không ổn định và có phương sai rất
lớn hay các khoảng tin cậy sẽ rất rộng.
Hiện tượng đa cộng tuyến thường được thể hiện qua các dấu hiệu sau:
+) Một số phần tử trên đường chéo chính của ma trận V = (XT X)−1 tỏ ra rất lớn.
√
+) Các hệ số tương quan tuyến tính mẫu của các cặp Xi , Xj là rij = sij / sii sjj tỏ ra
lớn (|rij ≥ 0, 7|.
Để khắc phục hiện tượng đa cộng tuyến người ta làm như sau:
1 Đặt r0i là hệ số tương quan tuyến tính mẫu giữa Y và Xi , cụ thể là:
√
r0i = s0i / sii s00
1 Pn
trong đó s0 = s2y ; s0i = yj xji − y × xi
n j=1
Khi đó nếu thấy |rij | ≥ 0, 7 thì:
sẽ loại biến Xi ra khỏi mô hình nếu |r0i | < |r0j |,
sẽ loại biến Xj ra khỏi mô hình nếu |r0i | > |r0j |.
2 Thực hiện hồi quy theo các thành phần chính của véctơ (X1 , ..., Xk )
3 Thực hiện hồi quy từng bước
Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 68 / 75
Mô hình hồi quy tuyến tính với sai số có tương quan
Xét mô hình (3.1.3): Y = βX + ε với giả thiết các sai số có tương quan khác không. Ta
giả thiết rằng hiệp phương sai của sai số có dạng:
cov(ε) = σ 2 Σ (4.1)
trong đó Σ = [σij ]n×n là ma trận xác định dương đã biết. Nhân cả 2 vế với Σ−1/2 ta
được:
Σ−1/2 Y = Σ−1/2 Xβ + Σ−1/2 ε (4.2)
hay là:
e = Xβ
Y e + εe (4.3)
e = Σ−1/2 Y, X
với Y e = Σ−1/2 X, εe = Σ−1/2 ε. Khi đó ta có:
−1/2
cov(eε) = Σ εΣ−1/2 = σ 2 Σ−1/2 ΣΣ−1/2 = σ 2 In
(3.4.3) là mô hình hồi quy tuyến tính cổ điển và ta có thể áp dụng các kết quả của mục
3.2 và 3.3.
Hơn nữa nếu X có hạng k + 1 thì Xe cũng có hạng k + 1 và ta có ước lượng bằng
phương pháp bình phương cực tiểu của mô hình (3.4.3) là:
e −1 X
e T X)
βb = (X e = (XT Σ−1/2 Σ−1/2 X)−1 XT Σ−1/2 Σ−1/2 Y
eT Y
tức là:
βb = (XT Σ−1 X)−1 (XT Σ−1 Y) (4.4)
Từ biểu thức này dễ dàng tính được:
b = σ 2 (XT Σ−1 X)−1
D(β) (4.5)
Thông thường các mô hình thực tế hay gặp là ma trận Σ đường chéo
tức là các εj vẫn không tương quan nhưng vì lý do độ chính xác của kỹ thuật nên
phương sai thay đổi.
Nội dung
1 Giới thiệu về mô hình hồi quy tuyến tính cổ điển
Bài toán thực tế
Mô hình hồi quy tuyến tính cổ điển
2 Ước lượng bình phương cực tiểu
Mệnh đề 2.1
Tính chất ước lương bằng phương pháp bình phương cực tiểu
Định lý Gauss về ước lượng bình phương cực tiểu
Hệ số xác định R
Khoảng tin cậy của các hệ số hồi quy βj
Kiểm định giả thiết về các hệ số hồi quy
Ước lượng hàm hồi quy tuyến tính
3 Kiểm tra sự phù hợp của mô hình
Tiêu chuẩn F
Khảo sát các phần dư
Tiêu chuẩn Student
Khảo sát đồ thị của các phần dư
Kiểm định tính không tương quan của εj theo thời gian
Khảo sát tính đa cộng tuyến tính của X1 , ..., Xk
4 Mô hình hồi quy tuyến tính với sai số có tương quan
5 Các bước tiến hành trong phân tích hồi quy
Design by Team 4 Phân tích số liệu Hà Nội, tháng 10 năm 2020 71 / 75
Các bước tiến hành trong phân tích hồi quy
Việc phân tích hồi quy tiến thành theo các bước sau:
Bước 1
Xác định ước lượng βb bằng phương pháp bình phương cực tiểu, tức là giải phương trình
chuẩn sau:
XT Xβ = XT Y
Việc phân tích hồi quy tiến thành theo các bước sau:
Bước 1
Xác định ước lượng βb bằng phương pháp bình phương cực tiểu, tức là giải phương trình
chuẩn sau:
XT Xβ = XT Y
Bước 2
Bước 4
Xác định khoảng tin cậy của các hệ số hồi quy.
Bước 5
Kiểm định xem các βi có khác 0 hay không với i = 1, ..., k
Bước 5
Kiểm định xem các βi có khác 0 hay không với i = 1, ..., k
Bước 6
Dùng phương trình hồi quy tuyến tính mẫu:
Yb = β
c0 + β
c1 X1 + β
ck Xk
để xác định giá trị dự đoán của E(Y |X = X 0 ) = β0 + β1 X01 + · · · + βk X0k và giá trị
Y (X 0 ).