Chuong 7

You might also like

You are on page 1of 28

Chương 7 HỒI QUY

7.1. Hồi quy tuyến tính giữa hai tiêu thức định lượng

7.2. Hồi quy phi tuyến giữa hai tiêu thức định lượng

7.3. Hồi quy bội giữa nhiều tiêu thức định lượng

7.4. Hồi quy với dữ liệu thuộc tính, dữ liệu thời gian

1
7.1. Hồi quy tuyến tính giữa hai
tiêu thức định lượng
? Giữa hai tiêu thức định lượng của một hiện tượng
nghiên cứu có thể có liên hệ nhân quả nào đó.

? Dựa trên các lý thuyết kinh tế hoặc các hiểu biết


thực tế về hiện tượng nghiên cứu, chọn tiêu thức
gây tác động làm biến độc lập (X), tiêu thức chịu tác
động làm biến phụ thuộc (Y).
? Ví dụ có liên hệ nhân quả giữa quy mô hộ gia đình
(X) và chi tiêu cho thực phẩm (Y).

Xi (người) 3 5 1 4 2 6
Yi (triệu đồng) 0,6 1,0 0,2 1,4 0,8 1,8
2
7.1.1. Mô hình hồi quy tuyến tính tổng thể
Mô hình hồi quy tuyến tính tổng thể

Yi = b1 + b 2 X i + U i

Trong đó: X : Biến (tiêu thức) độc lập


Y : Biến (tiêu thức) phụ thuộc
Yi : Giá trị cá biệt của Y tại giá trị Xi
β1, β2 : Các tham số của mô hình
Ui : Yếu tố ngẫu nhiên (yếu tố nhiễu)

? Ui thể hiện phần tác động ngẫu nhiên của tất cả các
biến độc lập khác không được đưa vào mô hình đến Y
3
7.1.1. Hàm hồi quy tuyến tính tổng thể

Hàm hồi quy tuyến tính tổng thể

E (Y | Xi ) = b1 + b2 Xi

Trong đó:
X : Biến (tiêu thức) độc lập
Y : Biến (tiêu thức) phụ thuộc
E(Y|Xi) : Giá trị trung bình (kỳ vọng) của Y tại
giá trị Xi
β1, β2 : Các tham số của hàm hồi qui

4
7.1.2. Hàm hồi quy tuyến tính mẫu

? Hàm hồi quy tuyến tính mẫu là một ước lượng tốt
nhất của hàm hồi quy tuyến tính tổng thể.

ˆ1 + b
ˆi = b
Y ˆ2 X i

Trong đó: Ŷi : Ước lượng tốt nhất của E(Y|Xi)


ˆ1 , b
b ˆ 2 : Hệ số hồi qui (hệ số chặn, hệ số góc)
là hai ước lượng tốt nhất của β1, β2

5
7.1.3. Xác định các hệ số hàm hồi quy mẫu
? ˆ1 + b
ˆi = b
Y ˆ2 X i
Giả sử có n cặp quan sát (Xi,Yi):
Xi 3 5 1 4 2 … 6
Yi 0,6 1,0 0,2 1,4 0,8 … 1,8

Phương pháp bình phương bé nhất thường được sử


n n

dụng, sao cho: å i - = å i 1 2 i => Min


- b + b
(Y ˆ
Y ) 2
(Y ( ˆ ˆ X ) 2
i
i =1 i =1

ˆ1 , b
Lấy đạo hàm riêng theo b ˆ 2 để tìm cực tiểu, ta
được công thức:
XY - X ×Y ˆ1 = Y - b
ˆ2 X
b2 = 2
ˆ và b
X - ( X )2 6
7.1.3. Xác định các hệ số hàm hồi quy mẫu
? ˆ1 + b
ˆi = b
Y ˆ2 X i
Ví dụ: Có dữ liệu về quy mô hộ Xi và chi cho thực
phẩm Yi của 6 hộ. Hộ Xi Yi XiYi Xi2
1 3 0,6 1,8 9,0
XY - X ×Y 2 5 1,0 5,0 25,0
b2 = 2
ˆ
X - ( X )2 3 1 0,2 0,2 1,0
4 4 1,4 5,6 16,0
4,17 - 3,5 * 0,97 5 2 0,8 1,6 4,0
= = 0,269
15,17 - 3,5 2
6 6 1,8 10,8 36,0
TB 3,5 0,97 4,17 15,17

bˆ1 = Y - bˆ2 X = 0,97 - 0,269 * 3,5 = 0,027

Hàm hồi quy mẫu: ˆi = 0,027 + 0,269Xi


Y
7
7.1.3. Xác định các hệ số hàm hồi quy mẫu
Hộ Xi Yi
1 3 0,6
2 5 1,0
ˆ i = 0,027 + 0,269 X i 3 1 0,2
Hàm hồi quy mẫu: Y
4 4 1,4
5 2 0,8
6 6 1,8

Ý nghĩa các hệ số hồi quy:

b̂ 1 : Cho biết quy mô hộ gia đình (Xi) là 0 thì chi tiêu


trung bình cho thực phẩm (Yi) của hộ là 0,027 triệu đồng.

b̂ 2 : Cho biết quy mô hộ gia đình (Xi) tăng 1 người thì chi
tiêu trung bình cho thực phẩm (Yi) của hộ tăng 0,269 triệu
đồng.
8
7.1.5. Hệ số xác định
ESS
? Hệ số xác định: R =
2

TSS
n n
Trong đó: TSS = å(Yi - Y ) 2 ESS = å (Yˆi - Y ) 2
i =1 i =1

Tính chất:
? 0 ≤ R2 ≤ 1
? R2 = 1 : Hàm hồi quy mẫu phù hợp hoàn hảo
? R2 = 0 : Giữa X và Y không có mối quan hệ
? R2 càng gần 1 hàm hồi quy mẫu càng phù hợp

Ý nghĩa: R2 đo mức độ phù hợp của mô hình hồi quy


mẫu. Nó cho biết tỉ lệ hay số phần trăm biến động của
biến phụ thuộc được giải thích bởi mô hình.
9
Ví dụ: Xét dữ liệu Yˆi = 0.027 + 0.269X i
Hộ Xi Yi Ŷ i (Yi -Y )2 (Yˆi -Y )2
1 3 0,6 0,83 0,13 0,02
2 5 1,0 1,37 0,00 0,16
3 1 0,2 0,30 0,59 0,45
4 4 1,4 1,10 0,19 0,02
5 2 0,8 0,56 0,03 0,16
6 6 1,8 1,64 0,69 0,45
Tổng 21 5,8 5,8 1,63 1,26
TB 3,5 0,97 0,97 0,27 0,21
n

ESS å i
(Yˆ - Y ) 2

1, 26
R2 = = i =1
n
= = 0 ,77
å i
TSS 1,63
(Y - Y ) 2

i =1

? R2 cho biết 77% biến động của chi tiêu cho thực phẩm
được giải thích bởi hàm hồi quy mẫu.
10
7.1.6. Kiểm định sự phù hợp của mô hình
? Kiểm định t:

Giả thuyết: Ho: β2 = 0


H1: β2 ≠ 0
ˆ2
b
Tiêu chuẩn kiểm định: t =
ˆ2 )
Se (b
Trong đó:
sˆ 2
Se (bˆ2 ) = RSS n
với: sˆ = RSS = å (Yi - Yˆi ) 2
n 2

å i
(
i=1
X - X ) 2
n-2 i =1

| t | ≥ tn-2, α/2 : Bác bỏ Ho, mô hình phù hợp.


| t | < tn-2, α/2 : Chưa đủ cơ sở bác bỏ Ho.
11
Ví dụ: Xét dữ liệu Yˆi = 0.027 + 0.269X i

Hộ Xi Yi Ŷ i
1 3 0,6 0,83 0,25 0,05
2 5 1,0 1,37 2,25 0,14
3 1 0,2 0,30 6,25 0,01
4 4 1,4 1,10 0,25 0,09
5 2 0,8 0,56 2,25 0,06
6 6 1,8 1,64 6,25 0,03
Tổng 21 5,8 5,8 17,5 0,37
TB 3,5 0,97 0,97 2,92 -

RSS 0,37 sˆ 2 0,09


sˆ 2 = = = 0,09 Se (bˆ2 ) = = = 0,073
n-2 6-2 n

å i
17,5
( X - X )2
12
i=1
7.1.6. Kiểm định sự phù hợp của mô hình

? Kiểm định t:
ˆi = 0,027 + 0,269X i
Y
Giả thuyết: Ho: β2 = 0
H1: β2 ≠ 0 sˆ 2 0,09
Se (bˆ2 ) = n
= = 0,073
å i
17,5
( X - X )2
Tiêu chuẩn kiểm định: i=1

bˆ 2 0,269
t= = = 3,68
Se ( bˆ 2 ) 0,073

Tra bảng phân vị: tn-2, α/2 = t4;0,025= 2,77

| t |>tn-2, α/2 : Bác bỏ Ho, mô hình phù hợp.


13
7.1.6. Kiểm định sự phù hợp của mô hình

? Kiểm định F:

Giả thuyết: Ho : R 2 = 0
H1: R2 ≠ 0
Tiêu chuẩn kiểm định:
E SS E SS
( K - 1) (2 - 1)
F = =
R SS R SS
(n - k ) ( n - 2)
F ≥ F1,n-2, α : Bác bỏ Ho, mô hình phù hợp.
F < F1,n-2, α : Chưa đủ cơ sở bác bỏ Ho.

14
7.1.6. Kiểm định sự phù hợp của mô hình
Ví dụ: Xét dữ liệu về chi tiêu cho thực phẩm của 6 hộ:
? Kiểm định F:
ESS = 1,26
Giả thuyết: Ho : R 2 = 0 RSS = 0,37
H1: R2 ≠ 0
ESS
1, 26
Tiêu chuẩn kiểm định: F = 1 = = 13 ,6
RSS 0,37
n-2 6-2

Tra bảng phân vị Fisher: F1,n-2, α = F1;4;0,05 = 7,71

F > F1,n-2, α : Bác bỏ Ho, mô hình phù hợp.


15
7.2.1. Mô hình hàm luỹ thừa (power)
? Hàm hồi quy mẫu:
ˆ ˆ ˆ2
b Ŷi
Yi = b1.Xi
? Hình dáng trên đồ thị:
X
? Dạng biến đổi tuyến tính:
ˆ1 + b
ˆi = ln b
ln Y ˆ2 ln Xi Hộ Xi Yi Xi*=lnXi Yi*=lnYi
1 3 0.6 1.10 -0.51
Đặt: lnYi = Yi*
2 5 1.0 1.61 0.00
ln bˆ1 = bˆ1*
lnXi = Xi* 3 1 0.2 0.00 -1.61
4 4 1.4 1.39 0.34
5 2 0.8
=> Yˆ
i
*
= bˆ
1
*
+ bˆ
2 X *
i
0.69 -0.22
6 6 1.8 1.79 0.59

16
7.2.2. Mô hình hàm mũ (exponential)
bˆ 2 X i
? Hàm hồi quy mẫu: Y i = b 1 .e
ˆ ˆ

Ŷi
? Hình dáng trên đồ thị:

? Dạng biến đổi tuyến tính (log-log model):

ln Yˆi = ln bˆ1 + bˆ 2 X i

? Tuyến tính hóa dữ liệu bằng Yi* = lnYi .

17
7.2.7. Lựa chọn mô hình hồi quy
Tiêu chuẩn lựa chọn:

? Mô hình càng đơn giản càng tốt.


? Mô hình giải thích được càng nhiều sự biến động của
biến phụ thuộc càng tốt. Tức là R2 (hoặc R2 hiệu chỉnh)
càng cao càng tốt.
? Mô hình vững về mặt lý thuyết. Tức là mô hình phải
dựa trên một lý thuyết kinh tế nào đó và các hệ số hồi
quy phải có dấu phù hợp với các lý thuyết đó.
? Mô hình phải phù hợp với thực tiễn. Tức mô hình phải
có khả năng dự báo đúng các hiện tượng trong thực tế.
18
7.3. Hồi quy bội giữa nhiều tiêu thức
định lượng

? Dựa trên các lý thuyết kinh tế hoặc các hiểu biết thực
tế về hiện tượng nghiên cứu, chọn các tiêu thức gây tác
động làm các biến độc lập (X1, X2, X3,…, Xk,), tiêu thức
chịu tác động làm biến phụ thuộc (Y).

? Mô hình hàm tuyến tính đa biến thường được chọn


nhất vì đơn giản và khá phù hợp với nhiều hiện tượng
trong thực tế.

19
Ví dụ: Doanh TSLN VKD TSCP TLTB
nghiệp (Y) (X2) (X3) (X4)
1 16 2,4 0,05 2,0
2 13 1,8 0,01 1,8
3 12 1,5 0,03 1,9
4 15 2,0 0,08 1,7
5 19 2,6 0,10 2,1
6 14 2,2 0,02 1,9
7 17 2,5 0,04 1,7
8 15 3,8 0,05 1,6
9 13 1,6 0,03 1,7
10 11 2,2 0,01 1,5

? Tỉ suất lợi nhuận (Y) có khả năng phụ thuộc vào:


Vốn kinh doanh (X2), Tỉ suất chi phí trên doanh số (X3),
Tiền lương trung bình (X4). Ta chọn Y làm biến phụ
thuộc, X2, X3 và X4 làm ba biến độc lập.
Yˆi = bˆ1 + bˆ2 X 2i + bˆ3 X 3i + bˆ4 X 4i 20
7.3.1. Hàm hồi quy mẫu tuyến tính
đa biến

Yˆi = bˆ1 + bˆ2 X 2i + bˆ3 X 3i + bˆ4 X 4i + ... + bˆk X ki

? Xji : Biến (tiêu thức) độc lập j


? Ŷ i : Ước lượng tốt nhất của E(Y|Xi)
ˆ1 , b
?b ˆ2 , b
ˆ 3 ,...b
ˆ k : Các hệ số hồi quy
? i : Quan sát thứ i

? Việc xác định các hệ số hồi qui, hệ số xác định,


kiểm định sự tồn tại của mô hình tương tự hàm hồi qui
đơn nhưng phức tạp hơn. => Sử dụng SPSS
21
7.2.7. Các giả thiết của mô hình hồi
quy bội tuyến tính
Kiểm soát giả thiết không có đa cộng tuyến:

? Hiện tượng đa cộng tuyến làm sai lệch mô hình


hồi quy. Cách phát hiện thường dùng là sử dụng VIF
hoặc TOL:
1
TOL j = 1 - R 2
VIFj =
j
1 - R 2j
Trong đó R2j là hệ số xác định của hàm hồi quy phụ Xj
theo tất cả các biến độc lập còn lại:

Xˆ j = bˆ1 + bˆ2 X2i + bˆ3 X3i +...+ bˆk Xki


22
7.3.7. Các giả thiết của mô hình hồi
quy bội
Kiểm soát giả thiết không có đa cộng tuyến

? Sử dụng SPSS:

VIFj >10 hay TOLj < 0,1 : Có đa cộng tuyến.

Cách khắc phục:

? Loại dần các biến có βj không bảo đảm ý nghĩa.


? Tăng thêm dữ liệu.
? Chuyển đổi dữ liệu: Y*i = lnYi và X*ji = lnXij

23
7.4.1. Hồi quy với dữ liệu định tính
Khi muốn dùng một tiêu thức định tính làm biến
độc lập, cần lượng hóa như sau.

? Chọn một thuộc tính của tiêu thức làm thuộc tính
cơ sở.
? Mỗi thuộc tính còn lại được lượng hóa bằng một
biến giả.
? Thuộc tính i được lượng hóa bằng biến giả Xi như
sau.
1: Thuộc tính i
Xi =
0: Các thuộc tính khác
24
Doanh TSLN TSCPKM Loại hình
X2 X3
nghiệp (Y) (X4) DN
1 16 0,05 Cổ phần 0 1
2 13 0,01 Tư nhân 0 0
3 12 0,03 Nhà nước 1 0
4 15 0,08 Tư nhân 0 0
5 19 0,10 Cổ phần 0 1
6 14 0,02 Tư nhân 0 0
7 17 0,04 Cổ phần 0 1
8 15 0,05 Tư nhân 0 0
9 13 0,03 Nhà nước 1 0
10 11 0,01 Nhà nước 1 0

? Chọn DN tư nhân làm loại hình cơ sở.


1: DNNN 1: DNCP
X2 = X3 =
0: DN khác 0: DN khác

Yˆi = bˆ1 + bˆ2 X 2i + bˆ3 X 3i + bˆ4 X 4i 25


7.4.2. Hồi quy với dữ liệu thời gian
? Thời gian có thể được dùng làm một biến độc lập
để giải thích tác động tổng hợp của nhiều tác nhân
khác theo thời gian đến biến phụ thuộc.
Năm (t) TSLN (Y) TSCPKM (X)
1997 14,92 0,0300 ? Hàm hồi quy:
1998 16,78 0,0627
1999 16,00 0,0402 Yˆt = bˆ1 + bˆ2t
2000 16,24 0,0627
2001 16,84 0,0621
2002 17,25 0,0615 Hoặc: Yˆt = bˆ1 + bˆ2 X t + bˆ3t
2003 17,00 0,0684
2004 17,58 0,0743
2005 17,61 0,0528
26
2006 18,32 0,0589
7.4.2. Hồi quy với dữ liệu thời gian

? Hàm hồi quy mẫu tổng quát:

ˆ1 + b
ˆt = b
Y ˆ2 X 2 t + b
ˆ3X3t + ... + b
ˆk X kt + b
ˆk +1t

Trong đó, t là biến thời gian.

? Giá trị ở thời gian trước có thể ảnh hưởng lên giá trị
ở các thời gian sau của biến phụ thuộc. Đây chính là
nguyên nhân của hiện tượng tự tương quan.

? Hiện tượng tự tương quan làm sai lệch hàm hồi


quy.

27
7.4.2. Hồi quy với dữ liệu thời gian
Kiểm soát hiện tượng tự tương quan
? Cách phát hiện thường dùng là kiểm định Durbin-
Watson. n

å t t -1
( e - e ) 2

? Sử dụng SPSS: d= t=2


n

å t
e 2

t =2

? d < dL(n,k-1,α/2) : Có tự tương quan thuận (dương)


? d > 4 - dL(n,k-1,α/2) : Có tự tương quan nghịch (âm)
Cách khắc phục:
? Tăng thêm dữ liệu.
? Sử dụng mô hình sai phân tổng quát.
28

You might also like