You are on page 1of 10

1/25/2022

Chương 7
HỒI QUY BỘI VỚI BIẾN ĐỊNH TÍNH:
SỬ DỤNG BIẾN GIẢ TRONG HỒI QUY

Wooldridge: Nhập môn Kinh tế lượng:


Cách tiếp cận hiện đại, 5e

GV: Hoàng Thị Diễm Hương

L/O/G/O

Nội dung

1. Biến định tính và trường hợp mô hình có một biến giả


2. Sử dụng biến giả trong trường hợp biến định tính có
nhiều lựa chọn
3. Tương tác với biến giả
4. Biến phụ thuộc nhị phân: mô hình xác suất tuyến tính
5. Bàn thêm về phân tích chính sách và đánh giá chương
trình

1
1/25/2022

1. Biến định tính và trường hợp mô hình có một biến giả


 Biến định tính:
 Ví dụ: giới tính, chủng tộc, ngành nghề, khu vực, đánh giá cấp độ,....
 Một cách để kết hợp các yếu tố định tính trong mô hình hồi quy đó là sử dụng
biến giả.
 Biến giả có thể xuất hiện như là biến phụ thuộc hay biến độc lập.
 Trường hợp mô hình có một biến giả độc lập :
 Xét trường hợp đơn giản: mô hình hồi quy chỉ có 1 biến giải thích định tính với
hai lựa chọn.
 Khi đó ta chỉ cần thêm 1 biến giả vào mô hình:
wage   0   0 female  1educ  u Hệ số chặn của nhóm nữ

Mức chênh lệch tiền lương Biến giả: wage   0   0  1educ  u


theo giờ giữa nữ và nam = 1 nếu là nữ
(các yếu tố khác không đổi) = 0 nếu là nam wage   0  1educ  u
3

1. Biến định tính và trường hợp mô hình có một biến giả


 Bẫy biến giả: Mô hình này không thể ước lượng được vì có đa cộng tuyến
hoàn hảo (male + female = 1)
wage   0   0 male   0 female  1educ  u
 Khi sử dụng biến giả, một thuộc tính luôn luôn phải được loại bỏ. Nhóm thuộc
tính tương ứng với biến giả = 0 được gọi là nhóm cơ sở hay nhóm tham chiếu.
wage   0   0 female  1educ  u Nhóm cơ sở là nhóm nam
 Nếu muốn thêm các biến giả cho từng nhóm vào mô hình thì có thể loại bỏ hệ số
chặn để tránh đa cộng tuyến.
wage   0 male   0 female  1educ  u
 Nhược điểm của việc loại bỏ hệ số chặn:
• Việc kiểm định sự khác biệt về hệ số chặn giữa hai nhóm khó khăn hơn.
• Công thức R2 chỉ có ý nghĩa nếu hồi quy có tung độ gốc.

2
1/25/2022

1. Biến định tính và trường hợp mô hình có một biến giả


 Ví dụ: hồi quy phương trình tiền lương
  1,57  1,81 female  0,572educ  0,025exper  0,141tenure
wage
(0,72) (0, 26) (0, 049) (0,012) (0,021)
Cố định các biến học vấn, kinh nghiệm, và thâm niên
n  526; R 2  0,364 làm việc, nữ kiếm được ít hơn nam là 1,81 $/giờ
 Khác biệt về tiền lương giữa hai nhóm là có ý nghĩa thống kê.
 Điều đó có nghĩa rằng phụ nữ bị phân biệt đối xử?
• Không nhất thiết. Bởi vì phụ nữ có thể có mối tương quan với các đặc tính
phong phú khác mà chưa được kiểm soát.

1. Biến định tính và trường hợp mô hình có một biến giả


 Sử dụng biến giả trong phương trình log(y)
 Ví dụ:
 price)  1,35  0,168log(lotsize)  0,707 log( sqrft )  0,027bdrms  0,054colonial
log(
(0,65) (0,038) (0,093) (0,029) (0,045)
n  88; R 2  0,649 Biến giả biểu thị cho ngôi nhà
mang phong cách thời thuộc địa
 price) % price
 log(  Giá bán của những ngôi nhà có phong cách
   5, 4% thuộc địa cao hơn giá bán của những ngôi
colonial colonial nhà khác là 5,4%

3
1/25/2022

2. Sử dụng biến giả trong trường hợp biến định tính có


nhiều lựa chọn
 Sử dụng biến giả cho nhiều lựa chọn:
 Chọn 1 lựa chọn (1 nhóm) để làm nhóm cơ sở.
 Mỗi lựa chọn còn lại tương ứng với 1 biến giả.
 Kết quả hồi quy sẽ cho biết sự khác biệt giữa mỗi nhóm còn lại với nhóm cơ sở.
 Ví dụ:
 wage)  0,321  0, 213marrmale  0,198marrfem  0,110 singfem  0, 079educ
log(
(0,100) (0, 055) (0,058) (0,056) (0, 007)
 0, 027exper  0,00054exper 2  0, 029tenure  0,00053tenure 2
(0, 005) (0, 00011) (0, 007) (0, 00023)
n  526; R 2  0, 461 Giữ những yếu tố khác cố định, nữ có chồng kiếm được
ít hơn nam độc thân (= nhóm cơ sở) là 19,8%

2. Sử dụng biến giả trong trường hợp biến định tính có


nhiều lựa chọn
 Kết hợp thông tin thứ bậc bằng cách sử dụng biến giả
 Ví dụ: Xếp hạng tín dụng của thành phố và lãi suất trái phiếu đô thị
Xếp hạng tín dụng từ 0-4
Lãi suất trái phiếu đô thị
(0=tệ, 4=rất tốt)

Mô tả này có lẽ không phù hợp vì xếp hạng tín dụng chỉ chứa thông tin thứ bậc.
Một cách tốt hơn để kết hợp thông tin này là định nghĩa các biến giả:

Các biến giả biểu thị xếp hạng cụ thể áp dụng, ví dụ CR1 = 1 nếu
CR = 1 và CR1 = 0 nếu ngược lại. Tất cả các tác động được đo
lường so với xếp hạng tệ nhất (= nhóm cơ sở).

4
1/25/2022

3. Tương tác với biến giả


 Tương tác giữa các biến giả: Số hạng tương tác
 Ví dụ:
log( wage)   0   0 female  1married   2 female.married  1educ  u
Khi female = 0 và married = 0 (tương ứng nhóm nam độc thân):
log( wage)   0  1educ  u
Khi female = 1 và married = 0 (tương ứng nhóm nữ độc thân):
log( wage)   0   0  1educ  u
Khi female = 0 và married = 1 (tương ứng nhóm nam có gia đình):
log( wage)   0  1  1educ  u
Khi female = 1 và married = 1 (tương ứng nhóm nữ có gia đình):
log( wage)   0   0  1   2  1educ  u
 Khó kiểm định sự chênh lệch tiền lương giữa một nhóm bất kỳ với nhóm cơ sở
(chẳng hạn chênh lệch giữa nhóm nữ có gia đình với nhóm nam độc thân).
9

3. Tương tác với biến giả


 Tương tác giữa biến giả với biến định lượng: Số hạng tương tác
 Ví dụ:
log( wage)   0   0 female  1educ  1 female.educ  u
Khi female = 0 (tương ứng nhóm nam):
log( wage)   0  1educ  u
Khi female = 1 (tương ứng nhóm nữ):
log( wage)   0   0  1educ  1educ  u  (  0   0 )  ( 1  1 )educ  u
Khác biệt cả hệ số chặn lẫn hệ số góc

 Các giả thuyết quan tâm:


• Tác động của học vấn đến tiền lương là như nhau cho nam và nữ: H0: 1 = 0
• Lương hoàn toàn như nhau cho nam và nữ: H0: 0 = 1 = 0

10

5
1/25/2022

3. Tương tác với biến giả


 Kiểm định sự khác nhau trong hàm hồi quy giữa các nhóm:
 Mô hình chưa gán ràng buộc (chứa toàn bộ các tương tác):
Xếp hạng của SV tại trường Tổng số
Điểm GPA đại học Điểm thi SAT
trung học theo bách phân vị giờ học
cumgpa   0   0 female  1sat  1 female.sat   2 hsperc
  2 female.hsperc  3tothrs   3 female.tothrs  u
 Mô hình đã gán ràng buộc (hồi quy giống nhau cho cả hai nhóm):
cumgpa   0  1sat   2 hsperc   3tothrs  u
 Kiểm định giả thuyết: H0: 0 = 1 = 2 = 3 = 0
H1: Tồn tại j ≠ 0
( SSRUR  SSRR ) / q
 Dùng kiểm định F cho ràng buộc loại trừ: F 
SSRUR / ( n  (k  1))

11

3. Tương tác với biến giả


 Kiểm định sự khác nhau trong hàm hồi quy giữa các nhóm:
 Cách khác để tính thống kê F:
• Chạy hồi quy riêng biệt cho nam và nữ; SSRUR bằng tổng SSR của hai hồi
quy này (tức là SSRUR = SSR1 + SSR2).
• Chạy hồi quy cho mô hình đã gán ràng buộc và được SSR (ký hiệu là SSRP).
• Nếu kiểm định tính theo cách này thì được gọi là kiểm định Chow.
( SSRP  ( SSR1  SSR2 )) / (k  1)
F Thống kê Chow
( SSR1  SSR2 ) / (n  2( k  1))
• Quan trọng: Kiểm định này cần giả thiết phương sai của nhiễu giữa các nhóm
là hằng số.

12

6
1/25/2022

4. Biến phụ thuộc nhị phân: Mô hình xác suất tuyến tính
 Hồi quy tuyến tính khi biến phụ thuộc nhị phân:
 Xét mô hình hồi quy tuyến tính bội với y là biến nhị phân:
y   0  1 x1  ...   k xk  u
 E ( y | x )   0  1 x1  ...   k xk
 Vì y là biến nhị phân nên:
E ( y | x)  1.P ( y  1| x )  0.P ( y  0 | x)  P ( y  1| x )
 Do đó:
P ( y  1| x)   0  1 x1  ...   k xk
 Mô hình này được gọi là mô hình xác suất tuyến tính (LPM).
 Trong mô hình xác suất tuyến tính, các hệ số j mô tả tác động của các biến
độc lập lên xác suất xảy ra y = 1.

13

4. Biến phụ thuộc nhị phân: Mô hình xác suất tuyến tính
 Hồi quy tuyến tính khi biến phụ thuộc nhị phân:
 Ví dụ: Việc tham gia lực lượng lao động của phụ nữ đã lập gia đình
Sự tham gia lực lượng lao động trong Thu nhập của gia đình (không bao gồm thu
năm 1975 của phụ nữ đã kết hôn nhập của người vợ) (tính bằng ngàn USD/năm)
  0,586  0,0034nwifeinc  0, 038educ  0, 039exper  0, 00060exper 2
inlf
(0,154) (0,0014) (0, 007) (0,006) (0,00018)
 0,016age  0, 262kidslt 6  0,013kidsge6
(0,002) (0,034) (0,013) Số con dưới Số con từ 6
6 tuổi đến 18 tuổi
n  753; R 2  0, 264.
Nếu số trẻ em dưới 6 tuổi tăng thêm 1 thì xác suất
người phụ nữ có làm việc giảm 26,2%

14

7
1/25/2022

4. Biến phụ thuộc nhị phân: Mô hình xác suất tuyến tính
 Nhược điểm của mô hình xác suất tuyến tính:
 Xác suất dự đoán có thể lớn hơn 1 hoặc nhỏ hơn 0.
 Tác động xác suất cận biên đôi khi không thể có tính logic.
 Mô hình xác suất tuyến tính thì nhất thiết có phương sai thay đổi.
Var ( y | x)  P ( y  1| x).(1  P ( y  1| x))
 Sai số chuẩn khi có phương sai thay đổi cần được sửa lại cho đúng.
 Ưu điểm của mô hình xác suất tuyến tính:
 Dễ dàng ước lượng và giải thích.
 Tác động của các biến thường được ước lượng và dự đoán khá tốt trong thực tế.

15

5. Bàn thêm về phân tích chính sách và đánh giá chương


trình
 Một trường hợp đặc biệt của phân tích chính sách là đánh giá chương trình,
trong đó ta muốn biết tác động của các chương trình kinh tế hoặc xã hội đến
các cá nhân, doanh nghiệp, hộ gia đình, thành phố,....
 Trong trường hợp đơn giản nhất, có 2 nhóm đối tượng:
 Nhóm kiểm soát là nhóm không tham gia vào chương trình.
 Nhóm thí nghiệm (hay nhóm xử lý) có tham gia vào chương trình.
 Ví dụ: Tác động của các khoản tài trợ đào tạo nghề đến năng suất của người
lao động:
Tỷ lệ sản phẩm lỗi (%) =1 nếu công ty có nhận tài trợ đào tạo, =0 nếu ngược lại
 scrap )  4.99  0.052 grant  0.455log( sales )  0.639log(employ )
log(
(4.66) (0.431) (0.373) (0.365)
n  50; R 2  0.072. Không có tác động rõ ràng của tài trợ lên năng suất

16

8
1/25/2022

5. Bàn thêm về phân tích chính sách và đánh giá chương


trình
 Ví dụ: Tác động của các khoản tài trợ đào tạo nghề đến năng suất của người lao
động:
Tỷ lệ sản phẩm lỗi (%) =1 nếu công ty có nhận tài trợ đào tạo, =0 nếu ngược lại
 scrap )  4,99  0,052 grant  0, 455log( sales)  0,639 log(employ )
log(
(4,66) (0, 431) (0,373) (0,365)
n  50; R 2  0,072. Không có tác động rõ ràng của tài trợ lên năng suất
 Nhóm xử lý: nhóm được nhận tài trợ. Nhóm kiểm soát: nhóm không nhận được tài trợ.
 Tài trợ được đưa ra trên cơ sở: đến trước thì được nhận trước. Điều này không giống
với việc phân bổ tiền tài trợ một cách ngẫu nhiên. Có thể các doanh nghiệp với người lao
động có năng suất thấp đã nhận ra cơ hội cải tiến năng suất và họ nộp hồ sơ trước.
 Chúng ta cần thận trọng khi đánh giá chương trình vì trong hầu hết các trường hợp của
khoa học xã hội thì nhóm kiểm soát và nhóm xử lý không được chọn một cách ngẫu
nhiên.

17

5. Bàn thêm về phân tích chính sách và đánh giá chương


trình
 Ví dụ về một biến giả độc lập nội sinh:
 Ngay cả trong trường hợp phân tích chính sách không liên quan đến việc lựa
chọn các cá thể vào trong nhóm kiểm soát và nhóm xử lý, ta vẫn cần thận trọng
khi đưa các yếu tố có thể có tương quan một cách hệ thống với biến giả độc lập
nào đó đang được quan tâm.
 Có phải người da màu bị phân biệt đối xử khi xét duyệt các khoản vay không?
Biến giả biểu thị vốn vay Biến giả Xếp hạng
có được phê duyệt không chủng tộc tín dụng

 Điều quan trọng là kiểm soát các đặc điểm khác có thể quan trọng đối với việc
tiếp cận vốn vay (ví dụ: nghề nghiệp, thất nghiệp,...).
 Việc bỏ qua các đặc điểm quan trọng khác có tương quan với biến giả chủng tộc
sẽ tạo ra chứng cứ giả cho sự phân biệt đối xử.

18

9
1/25/2022

5. Bàn thêm về phân tích chính sách và đánh giá chương


trình
 Vấn đề tự lựa chọn (self-selection):
 Một vấn đề có thể nảy sinh khi phân tích chính sách và đánh giá chương trình đó
là các cá nhân (hoặc các doanh nghiệp, các thành phố) tự lựa chọn có tham gia
vào các hoạt động hay chương trình nào đó hay không.
 Thuật ngữ tự lựa chọn (self-selection): các cá nhân tự lựa chọn có tham gia một
hoạt động hoặc một chương trình nào đó hay không, tùy theo các đặc điểm cá
nhân và mong đợi của họ. Sự tham gia này không được xác định ngẫu nhiên.
 Thuật ngữ này được dùng khi biến nhị phân biểu thị sự tham gia có thể có tương
quan một cách hệ thống với các yếu tố không quan sát được.

Biến giả biểu thị sự tham gia nếu có tương quan với các yếu tố khác trong u thì
sẽ làm cho 1 bị ước lượng chệch (đây là trường hợp biến giải thích bị nội sinh).

19

10

You might also like