You are on page 1of 7

1/21/2022

LOGO

Chương 6
PHÂN TÍCH HỒI QUY BỘI –
MỘT SỐ VẤN ĐỀ MỞ RỘNG

Wooldridge: Nhập môn Kinh tế lượng:


Cách tiếp cận hiện đại, 5e

GV: Hoàng Thị Diễm Hương

Nội dung

1. Vấn đề đơn vị tính trong hồi quy OLS


2. Thảo luận thêm về dạng hàm hồi quy
3. Thảo luận thêm về hệ số xác định và vấn đề lựa chọn biến độc
lập
4. Phân tích về dự đoán và sai số dự đoán

1
1/21/2022

1. Vấn đề về đơn vị tính trong hồi quy OLS

 Ví dụ: mối liên hệ giữa cân nặng của em bé mới sinh với việc hút thuốc và thu
nhập gia đình
  ˆ  ˆ cigs  ˆ faminc
bwght 0 1 2

Cân nặng của trẻ sơ sinh, Số điếu thuốc người Thu nhập của
tính bằng ounce mẹ hút hàng ngày gia đình
 Nếu ta muốn đo lường cân nặng em bé bằng đơn vị pound thay vì ounce (1
ounce  1/16 pound) thì hàm hồi quy trở thành:
  ( ˆ / 16)  ( ˆ / 16)cigs  ( ˆ / 16) faminc
bwghtlbs 0 1 2
 Việc thay đổi đơn vị tính không ảnh hưởng đến R2, thống kê t, thống kê F.
 Hàm hồi quy sẽ thay đổi thế nào nếu ta đổi đơn vị tính của biến cigs thành „số gói
thuốc người mẹ hút hàng ngày“ (1 gói có 20 điếu)?

2. Thảo luận thêm về dạng hàm hồi quy

 Dạng hàm logarit


 Lợi ích của việc lấy log:
• Thuận tiện cho việc giải thích tỷ lệ phần trăm/hệ số co giãn.
• Hệ số góc của các biến lấy log là bất biến (không đổi) khi thay đổi đơn vị tính.
• Lấy log thường loại bỏ / giảm nhẹ vấn đề về các giá trị bất thường.
• Lấy log thường giúp bảo đảm tính chuẩn và phương sai không đổi.
 Một số lưu ý khi dùng biến dạng log:
• Các biến sử dụng đơn vị đo lường như năm thì không nên lấy log.
• Các biến sử dụng đơn vị đo lường tỷ lệ phần trăm cũng không nên lấy log.
• Log không được sử dụng nếu biến có giá trị 0 hoặc âm.
• Có khó khăn khi lấy toán tử ngược của log trong xây dựng dự đoán.

2
1/21/2022

2. Thảo luận thêm về dạng hàm hồi quy

 Mô hình có dạng đa thức bậc hai


 Ví dụ: phương trình tiền lương

 Tác động biên:


Có 0 năm kinh nghiệm thì lương tăng
là 0,298$, có 1 năm kinh nghiệm thì
tăng là 0,298 – 2.(0,0061).(1) = 0,29$
...

2. Thảo luận thêm về dạng hàm hồi quy

 Mô hình với thành phần tương tác


 Ví dụ:
Số hạng tương tác

Tác động của số phòng ngủ phụ thuộc


vào diện tích
 Giải thích ý nghĩa các tham số khi có tác động tương tác:
2 = tác động của số phòng ngủ đến giá nhà, khi diện tích bằng 0.
 Xác định lại tham số của tác động tương tác Trung bình tổng thể; có thể được
thay thế bởi trung bình mẫu

Tác động của x2 nếu tất cả các biến cố định tại giá trị trung bình
6

3
1/21/2022

2. Thảo luận thêm về dạng hàm hồi quy

 Mô hình với thành phần tương tác


 Lợi ích của việc xác định lại các tham số:
• Dễ dàng giải thích các tham số.
• Sai số chuẩn cho các tác động riêng phần tại giá trị trung bình có sẵn.
• Nếu cần thiết, tương tác có thể được tập trung tại các giá trị quan tâm khác.

3. Thảo luận thêm về hệ số xác định và vấn đề lựa chọn biến


độc lập
 Nhận xét chung về R2:
 Một R2 cao không ngụ ý rằng có một quan hệ nhân quả.
 Một R2 thấp không ngăn cản ước lượng chính xác các tác động riêng phần.
 Sử dụng 𝑹𝟐 để lựa chọn giữa các mô hình không lồng nhau:
 Các mô hình được gọi là không lồng nhau nếu cái này không phải là trường hợp
đặc biệt của cái kia.

 Việc so sánh R2 của hai mô hình sẽ là không công bằng với mô hình đầu tiên bởi
vì mô hình đầu tiên chứa ít tham số hơn.
 Trong ví dụ trên, ngay cả sau khi xét 𝑅 , mô hình bậc hai vẫn được ưa thích hơn.
 Quan trọng: R2 hoặc 𝑅 không được sử dụng để so sánh các mô hình mà chúng
có dạng hàm của biến phụ thuộc khác nhau.

4
1/21/2022

3. Thảo luận thêm về hệ số xác định và vấn đề lựa chọn biến


độc lập
 Kiểm soát việc có quá nhiều yếu tố trong phân tích hồi quy:
 Trong một số trường hợp, các biến xác định không nên được giữ cố định.
• Trong hồi quy số lượng tử vong do giao thông theo thuế bia của bang (và các
yếu tố khác) không nên kiểm soát trực tiếp việc tiêu thụ bia.
• Trong hồi quy chi phí y tế gia đình theo việc sử dụng thuốc trừ sâu của nông
dân không nên kiểm soát việc đi khám bác sĩ.
 Các hồi quy khác nhau có thể phục vụ các mục đích khác nhau.
• Trong hồi quy giá nhà theo các đặc điểm của ngôi nhà, thì chỉ nên bao gồm
việc định giá giá nhà nếu mục đích của hồi quy là nghiên cứu giá trị của chúng;
nếu không thì ta sẽ không bao gồm chúng.
 Thêm biến độc lập để giảm phương sai của nhiễu:
 Các biến không tương quan với biến độc lập đã có nên được thêm vào bởi vì
chúng làm giảm phương sai nhiễu mà không làm tăng tính đa cộng tuyến.
 Tuy nhiên, các biến không có tương quan như vậy rất khó tìm.
9

4. Phân tích về dự đoán và sai số dự đoán


 Dự đoán giá trị trung bình:
 Xét mô hình hồi quy:
y   0  1 x1  ...   k xk  u
 Giả sử ta cần dự đoán giá trị trung bình của y khi x1=c1,..., xk=ck như sau:
0  E ( y | x1  c1 ,..., xk  ck )   0  1c1  ...   k ck
 Ước lượng điểm của 0 là:
ˆ0  ˆ0  ˆ1c1  ...  ˆk ck
 Khoảng tin cậy của 0 là:

 0  ˆ0  t( n/2( k 1)) .se(ˆ0 ); ˆ0  t( n/2( k 1)) .se(ˆ0 ) 

10

5
1/21/2022

4. Phân tích về dự đoán và sai số dự đoán


 Dự đoán giá trị trung bình:
 Ví dụ:
Điểm GPA đại học Điểm bài thi Vị trí tính theo bách phân vị Quy mô lớp
của sinh viên SAT kết hợp của kết quả tốt nghiệp PTTH tốt nghiệp
colgpa  1, 493  0,00149 sat  0, 01386 hsperc  0,06088hsize  0, 00546hsize 2
(0, 075) (0, 00007) (0,00056) (0, 01650) (0, 00227)
n  4.137; R 2  0, 278; R 2  0, 277; ˆ  0,560
 Khoảng tin cậy 95% cho giá trị dự đoán cho trung bình điểm GPA đại học sẽ thế nào,
nếu sat = 1200, hsperc = 30 và hsize = 5 (tức là 500hs)?
 Ta tạo ra các biến độc lập mới: sat0 = sat-1200; hsperc0 = hsperc-30; hsize0 = hsize-5;
hsizesq0 = hsize2-25; và hồi quy colgpa theo các biến độc lập mới:
colgpa  2, 700  0, 00149 sat 0  0, 01386 hsperc 0  0, 06088hsize 0  0, 00546 hsizesq 0
(0, 020) (0, 00007) (0, 00056) (0, 01650) (0, 00227)
n  4.137; R 2  0, 278; R 2  0, 277; ˆ  0,560   0   2,7  1,96.(0,02); 2,7  1,96.(0,02) 
11

4. Phân tích về dự đoán và sai số dự đoán


 Dự đoán giá trị cá biệt:
 Xét mô hình hồi quy: y   0  1 x1  ...   k xk  u
 Giả sử ta cần dự đoán giá trị cụ thể của y (ký hiệu là y0) khi x1 = c1,..., xk = ck như
sau:
y0   0  1c1  ...   k ck  u0
 Dự đoán tốt nhất (ước lượng điểm) cho y0 là: yˆ 0  ˆ0  ˆ1c1  ...  ˆk ck
 Sai số dự đoán là: eˆ0  y0  yˆ 0  (  0  1c1  ...   k ck )  u0  yˆ 0
 Ta có: E (eˆ0 )  0; Var (eˆ0 )  Var ( yˆ 0 )  Var (u0 )  Var ( yˆ 0 )  
2

 se(eˆ )  Var ( yˆ )  ˆ 2  [ se( yˆ )]2  ˆ 2


0 0 0

 Khoảng tin cậy của y0 là: y0   yˆ 0  t( n/2( k 1)) .se(eˆ0 ); yˆ 0  t( n/2( k 1)) .se(eˆ0 ) 

12

6
1/21/2022

4. Phân tích về dự đoán và sai số dự đoán


 Dự đoán giá trị cá biệt:
 Ví dụ:
Điểm GPA đại học Điểm bài thi Vị trí tính theo bách phân vị Quy mô lớp
của sinh viên SAT kết hợp của kết quả tốt nghiệp PTTH tốt nghiệp
colgpa  1, 493  0,00149 sat  0, 01386 hsperc  0,06088hsize  0, 00546hsize 2
(0, 075) (0, 00007) (0,00056) (0, 01650) (0, 00227)
n  4.137; R  0, 278; R  0, 277; ˆ  0,560
2 2

 Khoảng tin cậy 95% cho giá trị dự đoán điểm GPA đại học của một học sinh cụ
thể sẽ thế nào, nếu sat = 1200, hsperc = 30 và hsize = 5 (tức là 500hs)?
 Ta tính toán tương tự như trong ví dụ trước và thu được: se( yˆ 0 )  0,020; ˆ  0,560
 se(eˆ0 )  [ se( yˆ 0 )]2  ˆ 2  0,0202  0,5602  0,560
 y0   2, 7  1,96.(0,56); 2,7  1,96.(0,56)   (1,602; 3,798)

13

4. Phân tích về dự đoán và sai số dự đoán

 Dự đoán y khi biến phụ thuộc là log(y)


log( y )   0  1x1  ...   k xk  u
 y  e 0  1x1 ...  k xk u  e  0  1x1 ...  k xk  eu
Vì u độc lập với x1, x2,..., xk nên:
 0  1x1 ...  k xk
 E ( y | x )  E (e  eu )  e 0  1x1 ...  k xk E (eu )
ˆ ˆ ˆ  1 n uˆi 
 yˆ  e 0  1x1 ...  k xk  e 
Dự đoán của y  n i 1 

14

You might also like