You are on page 1of 24

Phân tích hồi quy bội: Một số

vấn đề mở rộng

Chương 6

Wooldridge: Introductory Econometrics:


A Modern Approach, 5e

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
6.1. Bàn thêm về dạng hàm hồi quy
Bàn thêm về dạng hàm logarit
Giải thích tỷ lệ phần trăm/ hệ số co giãn thuận tiện
Hệ số độ dốc của các biến lấy log là bất biến đối với thay đổi tỷ lệ
Lấy log thường loại bỏ / giảm nhẹ vấn đề các giá trị bất thường
Lấy log thường giúp bảo đảm tính chuẩn và phương sai không đổi
Các biến sử dụng đơn vị đo lường như năm thì không nên lấy log
Các biến sử dụng đơn vị đo lường tỷ lệ phần trăm cũng không nên lấy log
Log không nên sử dụng nếu biến có giá trị 0 hoặc âm
Có khó khăn khi lấy toán tử ngược của log trong xây dựng dự đoán

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Sử dụng dạng hàm bậc 2
Ví dụ: Phương trình lương Dạng hàm lõm

Có 1 năm kinh nghiệm thì tăng là 0,298-2


(0,0061) (1) = 0,29 $,
Tác động biên Có 2 năm kinh nghiệm thì lương tăng là
0,298-2 (0,0061) (2) = 0,27 $, ...

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Cực đại của lương tương ứng với số năm kinh nghiệm

Liệu điều này có nghĩa là số năm kinh nghiệm


nhiều hơn 24,4 năm trở nên tiêu cực?
Không cần thiết. Nó phụ thuộc vào có bao nhiêu
quan sát trong mẫu nằm bên phải điểm cực đại.
Trong ví dụ trên, có khoảng 28% các quan sát
nằm bên phải. Có thể có một vấn đề lỗi chỉ định
mô hình (ví dụ biến bị bỏ sót).

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng Nitơ oxit trong không khí, khoảng cách từ
trung tâm việc làm, tỷ lệ sinh viên / giáo viên

Ví dụ: Ảnh hưởng của ô nhiễm tới giá nhà đất:


Mô hình giữa giá nhà với các đặc điểm của cộng đồng

Điều này có nghĩa rằng, dưới một mức nào đó,


nhiều phòng có liên quan với giá thấp hơn?
price
 log(price) price
   .545  .124rooms
rooms rooms
 %Δprice = 100.(-0.545+0.124 rooms). Δrooms
Vậy số phòng tăng lên 1 thì giá nhà thay đổi (-0.545 + 0.124 rooms).100%
(tỷ lệ thay đổi phụ thuộc số phòng hiện tại)
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Tính toán điểm cực tiểu

Điểm cực tiểu:

Diện tích này có thể bỏ qua


vì nó liên quan đến chỉ có
1% các quan sát.

Gia tăng số phòng từ 5 lên 6:

Gia tăng số phòng từ 6 lên 7:

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Khả năng khác

price
 log(price) price %price
    1  2 2 [log(nox)]
 log(nox ) nox % nox
nox
 nox tăng 1% thì price thay đổi {β1 + 2β2[log(nox)]} %
Đa thức bậc cao hơn

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Mô hình với các số hạng tương tác

Số hạng tương tác

Tác động của số phòng


ngủ phụ thuộc vào diện
tích

Giải thích các tham số phức tạp khi có tác động tương tác
Tác động của số phòng ngủ, nhưng diện tích là 0

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Xác định lại tham số của mô hình tương tác
Mục đích: Thể hiện được ý nghĩa cần nghiên cứu của các hệ số đối với biến gốc

Mô hình ban đầu:


Trung bình tổng thể; có thể được
thay thế bởi trung bình mẫu

Mô hình đã xác lại các tham số

Tác động của x2 nếu tất cả các biến cố định tại giá trị trung bình
Lợi ích của việc xác định lại các tham số
Dễ dàng giải thích tất cả các tham số
Sai số chuẩn cho các tác động riêng phần tại giá trị trung bình có sẵn.
Nếu cần thiết, mô hình tương tác có thể được phân tích tại giá trị quan
tâm khác ngoài giá trị trung bình 1 , 2
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
6.2. Nói thêm về độ phù hợp và lựa chọn các biến độc lập
Nhận xét chung về R-squared
Một R-squared cao không ngụ ý rằng có một quan hệ nhân quả
Một R-squared thấp vẫn ước lượng chính xác các tác động riêng phần tuy
nhiên sẽ khó trong việc dự báo.
Có thể sử dụng R2 để lựa chọn nhiều mô hình khác nhau nhưng phải
thỏa các nguyên tắc :
- Cùng mẫu.
- Dạng biến phụ thuộc giống nhau
- Cùng số biến độc lập như nhau dù biến độc lập có thể ở bất kỳ dạng nào
 lúc này mô hình có R2 cao hơn sẽ được chọn.
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
R-squared hiệu chỉnh R2 R-squared tổng thể
R-squared thông thường được định nghĩa là gì?

là 1 ước lượng của

Một ước lượng khác có xét đến bậc tự do sẽ là


Bậc tự do đúng của
tử số và mẫu số là

R-squared hiệu chỉnh có tính đến hệ quả của việc thêm các biến độc lập mới
R-squared hiệu chỉnh gia tăng nếu và chỉ nếu, thống kê t của một biến độc
lập mới được thêm vào (hay F của kiểm định ý nghĩa đồng thời của một
nhóm biến mới thêm vào ) có trị tuyệt đối lớn hơn 1.
R-squared hiệu chỉnh có
Mối liên hệ giữa R-squared và R-squared hiệu chỉnh thể lấy giá trị âm

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Sử dụng R-squared hiệu chỉnh để chọn lựa các mô hình không lồng
nhau ( R 2 nào lớn hơn sẽ được chọn)
Nguyên tắc sử dụng R2 – hiệu chỉnh ( R 2) trong lựa chọn mô hình:
- Cùng mẫu.
- Dạng biến phụ thuộc giống nhau

Việc so sánh R-squared của hai mô hình trên sẽ là không công bằng với
mô hình đầu tiên bởi vì mô hình đầu tiên chứa ít tham số hơn  nên
2
dùng R
Trong ví dụ trên, mô hình bậc hai được ưa thích hơn vì R 2 cao hơn.

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
 Ngoài R2 và R , có thể thêm các tiêu chuẩn khác để chọn mô hình như:
2

AIC (Akaike information criterion)


BIC ( Baysian information criterion)
2
 Điều kiện dùng AIC và BIC giống như R :
- Cùng mẫu.
- Dạng biến phụ thuộc giống nhau
 Nguyên tắc lựa chọn:
- R2, R càng lớn càng tốt.
2

- AIC và BIC càng nhỏ càng tốt.


 Các phần mềm kinh tế lượng đều có các câu lệnh để tính toán các tiêu
chuẩn này.
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
6.3. Phân tích về dự đoán và sai số dự đoán
6.3.1. Dự đoán điểm cho giá trị trung bình và giá trị cá biệt (cụ thể)
Cho hàm hồi quy y  0  1 x1  ...   k xk  u (1)
Giả sử x1 , x2, …,xk nhận các giá trị c1, c2, …,ck.
Dự đoán (ước lượng) điểm cho giá trị trung bình E(y|x1= c1, …, xk=ck) và
giá trị cá biệt y0 là:
ˆ0  yˆ 0  ˆ0  ˆ1c1  ...  ˆk ck
Tức là thay các biến x bởi các giá trị đã cho là c vào hồi quy mẫu

yˆ  ˆ0  ˆ1 x1  ...  ˆk xk

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
6.3.2. Khoảng tin cậy cho giá trị trung bình
Cho hàm hồi quy y  0  1 x1  ...   k xk  u (1)
Giả sử x1 , x2, …,xk nhận các giá trị c1, c2, …,ck.
Dự đoán (ước lượng) điểm cho giá trị trung bình E(y|x1= c1, …, xk=ck)?
Thay β0 = θ0 – β1c1– β2c2 –…– βkck vào hàm hồi quy trên và biến đổi, ta được:
y  0  1 ( x1  c1 )  ...  k ( xk  ck )  u (2)
 E[ y| x1= c1, …,xk = ck ) = θ0
 khoảng tin cậy cho giá trị trung bình chính là khoảng tin cậy cho θ0

ˆ0  se(ˆ0 ) t (n/2k 1)

Với ˆ0 là ước lượng điểm của θ0 trong (2) và ˆ0 ,se(ˆ0 ) có được nhờ chạy
hồi quy (2), tức là hồi quy y theo (x1- c1), (x2- c2), …,(xk- ck ), ( chú ý ˆ0  ŷ )
0

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Ví dụ1: Hồi quy colgpa theo sat, tothrs, ta có:
colgpa = 0.5291+ 0.0019sat +0.0025 tothrs
Hãy dự đoán giá trị trung bình của colgpa khi sat =1000 và tothrs= 120?
Thay sat =1000, tothrs=120, ta được ước lượng điểm của colgpa là ˆ0 = 2,7633.
Trong R, chúng ta dùng lệnh predict để dự đoán ước lượng điểm cũng như
khoảng tin cậy của giá trị trung bình khi sat =1000, tothrs=120 như sau :

>ketqua<-lm(colgpa~ sat+tothrs, data=gpa2)


# tạo data.frame lưu giá trị cho trước của các biến sat và tothrs:
> cvalues<-data.frame(sat=1000, tothrs=120)
ˆ0 > predict(ketqua, cvalues, se.fit= TRUE, interval = "confidence",level = 0.99)
fit lwr upr
1 2.763298 2.711859 2.814737
$se.fit Cận trên
[1] 0.0199606 Cận dưới
Se(ˆ0 )
$df
[1] 4134
$residual.scale
Bảng 1
[1] 0.5946301
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
6.3.3. Khoảng dự báo cho giá trị cá biệt y0
Cho hàm hồi quy y  0  1 x1  ...   k xk  u
Giả sử x1 , x2, …,xk nhận các giá trị c1, c2, …,ck.
Dự đoán (ước lượng) khoảng cho giá trị cá biệt y0, với

y 0  0  1c1  ...   k ck  u0

Khoảng dự báo: ˆ0  se(eˆ 0 ) t (n/2k 1)


Trong đó: ˆ0 là ước lượng điểm của y0
2
se(eˆ )   se(ˆ0 )   ˆ 2
0

( eˆ  y  yˆ  y  ˆ0 )
0 0 0 0

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Ví dụ2: Với hồi quy colgpa theo sat, tothrs ở phần dự báo khoảng cho giá trị trung
bình. Tìm dự báo khoảng cho giá trị cá biệt của colgpa khi sat = 1000, tothrs=120 .
Dựa vào bảng 1, ta có: ˆ0  2.7633
se (ˆ0 )  0.01996  0.02
ˆ  0.5946
Nên khoảng dự báo cho giá trị cá biệt của colgpa với mức ý nghĩa 5% là:
2.7633 ± [(0.02)2 + (0.5946)2]1/2 * 1.96 = ( 1.5975; 3.9291 )

Trong R, có thể tìm dự báo khoảng bằng lệnh predict nhưng với đối số
interval=“prediction”:

>ketqua<-lm(colgpa~ sat+tothrs, data=gpa2)


>cvalues<-data.frame(sat=1000, tothrs=120)
>predict(ketqua,cvalues,interval = "prediction",level = 0.95)
fit lwr upr
1 2.763298 1.596846 3.929749
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng

* Dưới giả định thêm vào là độc lập với :

Dự đoán của y

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
6.4. So sánh các mô hình với biến phụ thuộc có dạng khác nhau
R-squared hoặc R-squared hiệu chỉnh không được sử dụng để so sánh
các mô hình mà chúng có dạng hàm của biến phụ thuộc khác nhau
Ví dụ: Sự bồi thường của CEO và hiệu quả làm việc của công ty

log(salary)
biến thiên ít
hơn salary

Không thể dùng


R2 hay R2-hiệu
chỉnh để so sánh
hai mô hình bên
vì dạng biến phụ
thuộc khác nhau

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
So sánh R-squared của mô hình có log và không có log ở biến phụ
thuộc

(1)

(2)

Đây là các R-squared cho dự đoán của biến salary không có log
(mặc dù hồi quy thứ hai nguyên gốc là log(salary). Bây giờ có
thể so sánh trực tiếp hai R-squared.
R  R 2 (mô hình 1) nên mô hình 2 được ưa thích hơn

Trong đó, R2  ryy2ˆ ; yˆ là giá trị dự đoán của y khi biến phụ thuộc là log(y).
Trong trường hợp trên, y là biến salary.
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
6.5. Kiểm soát việc có quá nhiều yếu tố trong phân tích hồi quy
Trong một số trường hợp, một số biến không nên kiểm soát trong
mô hình
Trong hồi quy của tử vong do giao thông theo thuế bia của bang (và
các yếu tố khác) không nên kiểm soát trực tiếp việc tiêu thụ bia
Trong hồi quy của chi phí y tế gia đình theo việc sử dụng thuốc trừ sâu
của nông dân không nên kiểm soát việc đi khám bác sĩ
Các hồi quy khác nhau có thể phục vụ các mục đích khác nhau
Trong hồi quy giá nhà theo các đặc điểm của ngôi nhà, chúng ta cần
thêm biến định giá giá nhà nếu mục đích của hồi quy là nghiên cứu sự
hợp lý của của việc định giá; nếu không thì ta sẽ không thêm biến định
giá vào
© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Thêm biến độc lập để giảm phương sai của nhiễu

Việc thêm biến độc lập có thể làm trầm trọng thêm vấn đề đa cộng tuyến

Mặt khác, việc thêm biến độc lập làm giảm phương sai của nhiễu

Các biến không tương quan với biến độc lập đã có nên được thêm vào bởi
vì chúng làm giảm phương sai nhiễu mà không làm tăng tính đa cộng
tuyến

Tuy nhiên, các biến không tương quan như vậy rất khó tìm thấy

Ví dụ: tiêu thụ bia của mỗi cá nhân và giá bia

Việc bao gồm các đặc điểm cá nhân trong hồi quy tiêu thụ bia theo giá
bia dẫn đến ước lượng độ co giãn theo giá “chính xác” hơn

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích hồi quy bội: Một số
vấn đề mở rộng
Một số lưu ý khi chạy hồi quy trong R dành cho chương 6:

công thức mô hình


trong R
Hồi quy (y/20) theo x1 I(y/20) ~ x1

Hồi quy y theo x1, x23 y ~ x1+ I(x2^3)

Hồi quy y theo x1, x2, x1.x2 y ~ x1+ x2+ x1:x2


hay y ~ x1* x2
Hồi quy y theo x1, x2, x3,
x1.x2, x1.x3 y~ x1*(x2+x3)

© 2013 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part.

You might also like