You are on page 1of 49

PHÂN TÍCH DỮ

LIỆU BẢNG

Giảng viên: TS. Vũ Thị Phương Mai


Khoa: Kinh Tế Quốc Tế- FTU
Email: maivp@ftu.edu.vn
Khái niệm

Cấu trúc dữ liệu bảng

Phân loại dữ liệu bảng

Nội dung Ưu điểm của dữ liệu bảng

Chiến lược phân tích dữ liệu bảng

Một số dạng mô hình phổ biến trong phân


tích dữ liệu bảng
12/23/2022 MAI V.T.P- FIE- FTU 2
1. Khái niệm
• Dữ liệu bảng (panel data) còn
được gọi là dữ liệu chéo theo chuỗi
thời gian (longitudinal/ cross-
sectional time-series data) là sự lặp
lại của các đơn vị quan sát theo thời
gian.
• Nói cách khác, dữ liệu bảng là sự
kết hợp của dữ liệu theo hai chiều
không gian (N) và thời gian (T),
trong đó, các đơn vị quan sát khác
nhau được quan sát trong một giai
đoạn thời gian nhất định.
• Các đơn vị quan sát có thể là:
quốc gia, doanh nghiệp, hộ gia đình,
cá nhân….

12/23/2022 MAI V.T.P- FIE- FTU 3


1. Khái niệm
• Dữ liệu bảng: cùng một tập đơn vị (N) (hộ gia đình, doanh
nghiệp, nền kinh tế) được quan sát dọc theo một số thời điểm
(T)
• Kích thước của số liệu:
• N lớn, T nhỏ
• N nhỏ, T lớn
• N nhỏ, T nhỏ
• N lớn, T lớn

12/23/2022 MAI V.T.P- FIE- FTU 4


1. Khái niệm
• Số liệu mảng có thể có:
• Biến số nhận các giá trị khác nhau giữa các đơn vị, nhưng với mỗi đơn
vị thì không thay đổi theo thời gian. (địa bàn hoạt động, giới tính, ..)
• Biến số nhận các giá trị khác nhau cho mỗi thời kỳ, nhưng giống nhau
giữa các đơn vị (tỷ giá hối đoái, c.s kinh tế vĩ mô,..)
• Biến số thay đổi cả hai chiều: vốn, lao động,,

12/23/2022 MAI V.T.P- FIE- FTU 5


2. Cấu trúc dữ liệu bảng
Nhắc lại:
• Dữ liệu chuỗi thời gian (time-series data)
• Dữ liệu chéo (cross-sectional data)
• Dữ liệu bảng/hỗn hợp (panel data/ longitudinal data)

12/23/2022 MAI V.T.P- FIE- FTU 6


2.1. Dữ liệu chuỗi thời gian

• Đây là dạng thường gặp nhất trong kinh tế lượng.


• Đó là những số liệu được thu thập theo thời gian.
• Chúng có dạng như sau : Ct, Yt với t = 1,…, T
✓ Trong đó t chỉ năm, quí hoặc tháng của quan sát tương ứng
✓ T chỉ tổng số lượng các quan sát

12/23/2022 MAI V.T.P- FIE- FTU 7


Bảng 1. Ví dụ số liệu chuỗi thời gian

FDI ODA
1990 180 248,35
1991 375,19 308,6
1992 473,946 646,06
1993 926,304 373,34
… … …
2005 2021 2021,53
2006 2360 1960,61
2007 6739 2496,73

12/23/2022 MAI V.T.P- FIE- FTU 8


2.2. Dữ liệu chéo

• Là các số liệu về một hoặc nhiều biến được thu thập tại cùng
một thời điểm ở nhiều địa phương, đơn vị khác nhau
• Các số liệu loại này có dạng như sau : Ci, Yi với i = 1,…, N

✓ Trong đó i chỉ hộ gia đình (người tiêu dùng), doanh nghiệp hoặc một
lĩnh vực của quan sát tương ứng
✓ N chỉ tổng số lượng các quan sát

12/23/2022 MAI V.T.P- FIE- FTU 9


Bảng 2. Ví dụ dữ liệu chéo

No ID YEAR FDI ODA POPU IZ MOUTAIN

1 An Giang 2006 140 30,60 2210,4 0 0

2 Ba Ria Vung Tau 2006 106618 11,55 926,3 7 0


3 Bac Giang 2006 345 21,50 1594,3 2 1
4 Bac Kan 2006 226 13,09 301,5 0 1
… … … … … … … …
61 Tuyen Quang 2006 0 10,14 732,3 0 1
62 Vinh Long 2006 509 10,63 1057 1 0
63 Vinh Phuc 2006 12776 27,73 1180,4 3 0
64 Yen Bai 2006 113 9,80 740,7 0 1

12/23/2022 MAI V.T.P- FIE- FTU 10


2.3. Dữ liệu hỗn hợp (panel)

• Là các số liệu được thu thập theo thời gian và không gian.
• Số liệu loại này có hai chỉ số như sau : Cit, Yit
✓ với i = 1,…, N
✓ t = 1,…, T

12/23/2022 MAI V.T.P- FIE- FTU 11


Bảng 3. Ví dụ dữ liệu hỗn hợp

Panel ID YEAR FDI ODA POPU IZ MOUTAIN


1 An Giang 2004 145 40,61 2170,1 0 0
1 An Giang 2005 139 41,51 2194 0 0
1 An Giang 2006 140 30,60 2210,4 0 0
2 Ba Ria Vung Tau 2004 64776 1220,01 897,6 7 0
2 Ba Ria Vung Tau 2005 71441 157,99 913,1 7 0
2 Ba Ria Vung Tau 2006 106618 11,55 926,3 7 0
…. …. …. …. …. …. …. ….
63 Vinh Phuc 2004 7340 5,24 1154,8 2 0
63 Vinh Phuc 2005 9340 7,36 1169 2 0
63 Vinh Phuc 2006 12776 27,73 1180,4 3 0
64 Yen Bai 2004 96 3,04 723,5 0 1
64 Yen Bai 2005 103 6,13 731,8 0 1
64 Yen Bai 2006 113 9,80 740,7 0 1

12/23/2022 MAI V.T.P- FIE- FTU 12


3. Phân loại dữ liệu bảng
• Dữ liệu định dạng theo chiều rộng và dữ liệu định dạng theo
chiều dai (Wide and long panel data)
• Dữ liệu cân bằng và Dữ liệu không cân bằng (Balanced vs
Unbalanced data)

12/23/2022 MAI V.T.P- FIE- FTU 13


Dữ liệu định
dạng theo No.
1
State lnp63 lnc63 lnp64 lnc64 lnp65 lnc65
1 4.5 4.5 4.6 4.6 4.5 4.6

chiều rộng 2 2 4.4 4.8 4.3 4.8 4.3 4.8

3 3 4.5 4.6 4.5 4.6 4.5 4.6


• Khi đơn vị quan sát là một cá thể
và mỗi quan sát đó sẽ được 4 4.4 5.0 4.4 4.9 4.4 4.9
thống kê cho tất cả các đơn vị 4
thời gian. 5 4.5 5.1 4.5 5.0 4.5 5.0
5
• Hoặc khi đơn vị quan sát là một
6 6 4.5 5.1 4.5 5.1 4.5 5.1
đơn vị thời gian và mỗi quan sát
sẽ bao gồm tất cả các cá thể 7 4.3 5.5 4.3 5.5 4.3 5.5
trên đơn vị thời gian đó. 7
• Ví dụ dữ liệu bảng bên là dữ liệu 8 8 4.5 4.9 4.6 4.8 4.5 4.9
về giá cả trong 3 năm (lnp63-
9 9 4.5 4.7 4.5 4.7 4.6 4.6
lnp65) và doanh thu trong 3 năm
(lnc63-lnc65) được thống kê cho
10 10 4.5 4.6 4.6 4.5 4.5 4.6
10 bang. Đơn vị quan sát ở đây
là 10 bang.

12/23/2022 MAI V.T.P- FIE- FTU 14


Dữ liệu định
State Year Lnp Lnc
dạng theo
chiều dài 1 63 4.5 4.5

• Khi các giá trị quan sát


của các biến được sắp
1 64 4.6 4.6
xếp vào từng cột theo một
cặp không gian và thời 1 65 4.5 4.6
gian.
• Mỗi cặp không gian và 2 63 4.4 4.8
thời gian sẽ được sắp xếp
vào hai cột khác nhau.
2 64 4.3 4.8

2 65 4.3 4.8

12/23/2022 MAI V.T.P- FIE- FTU 15


Dữ liệu cân
bằng Panel

1
ID

An Giang
YEAR

2004
FDI

145
ODA

40,61
POPU

2170,1
IZ

0
MOUTAIN

0
1 An Giang 2005 139 41,51 2194 0 0

1 An Giang 2006 140 30,60 2210,4 0 0

• Bộ dữ liệu bảng cân 2 Ba Ria Vung Tau 2004 64776 1220,01 897,6 7 0

bằng có cùng số 2 Ba Ria Vung Tau 2005 71441 157,99 913,1 7 0


2 Ba Ria Vung Tau 2006 106618 11,55 926,3 7 0
lượng quan sát cho …. …. …. …. …. …. …. ….
tất cả các nhóm. 63 Vinh Phuc 2004 7340 5,24 1154,8 2 0

• Một số mô hình dữ 63 Vinh Phuc 2005 9340 7,36 1169 2 0

liệu bảng nhất định 63 Vinh Phuc 2006 12776 27,73 1180,4 3 0

chỉ hợp lệ cho các 64


64
Yen Bai
Yen Bai
2004
2005
96
103
3,04
6,13
723,5
731,8
0
0
1
1
bộ dữ liệu cân bằng. 64 Yen Bai 2006 113 9,80 740,7 0 1

12/23/2022 MAI V.T.P- FIE- FTU 16


Dữ liệu không
cân bằng Panel ID YEAR FDI ODA POPU IZ MOUTAIN

1 An Giang 2004 145 40,61 2170,1 0 0


1 An Giang 2005 139 41,51 0 0

1 An Giang 2006 140 30,60 2210,4 0


• Bộ dữ liệu không bảng cân
bằng có các giá trị bị thiếu ở 2 Ba Ria Vung Tau 2004 64776 1220,01 897,6 7

một số quan sát của một 2 Ba Ria Vung Tau 2005 157,99 7 0
số/các nhóm 2 Ba Ria Vung Tau 2006 106618 11,55 926,3 7 0

• Lý tưởng nhất là có một bộ …. …. …. …. …. …. …. ….


dữ liệu cân bằng nhưng điều 63 Vinh Phuc 2004 7340 5,24 1154,8 2 0
này không phải lúc nào cũng 63 Vinh Phuc 2005 9340 7,36 1169 0
xảy ra vì thực tế thống kê sẽ 63 Vinh Phuc 2006 12776 1180,4 3 0
có nhiều giá trị quan sát bị
64 Yen Bai 2004 96 3,04 0 1
khuyết thiếu.
64 Yen Bai 2005 103 6,13 731,8 0
• Tuy nhiên, hầu hết các mô 64 Yen Bai 2006 113 9,80 740,7 0 1
hình hồi quy dữ liệu bảng có
thể được sử dụng cho các bộ
dữ liệu không cân bằng.
12/23/2022 MAI V.T.P- FIE- FTU 17
4. Ưu điểm của dữ liệu bảng
• Dữ liệu bảng chứa nhiều thông tin hơn và hiệu quả hơn dữ liệu
chuỗi thời gian hoặc dữ liệu chéo.
• Dữ liệu bảng có kích cỡ mẫu lớn hơn nên các suy diễn TK đáng tin
cậy hơn.
• Dữ liệu bảng cho phép tiến hành các phân tích tinh vi hơn, cho phép
quan sát hành vi của các cá nhân/nhóm theo cả không gian và thời
gian.
• Dữ liệu bảng có thể phát hiện và đo lường các tác động thống kê mà
dữ liệu chuỗi thời gian hoặc dữ liệu chéo không thể làm được.
• Dữ liệu bảng có thể giảm thiểu các khuyết tật trong mô hình hồi quy
(phương sai sai số thay đổi, đa cộng tuyến…)

12/23/2022 MAI V.T.P- FIE- FTU 18


Basic regression analysis

Specification tests and


model diagnostics

5. Chiến Multicollinearity; Omitted


Endogeneity
lược phân Heteroskedasticity;
Autocorrelation tests
variables
test
test

tích dữ liệu
bảng
Generalized
FE/RE
Pooled OLS least IV model
model
squares

Stationary
test (unit-
root test)

Static IV
Dynamic IV
(2SLS, 3SLS (GMM)
models)
12/23/2022 MAI V.T.P- FIE- FTU 19
Một ví dụ về nghiên cứu sử dụng dữ liệu bảng

• Mai V.T.P and Thuy Anh T. (2018), “Complementarity versus


Substitutability of FDI and ODA Revisited: Evidence from
Developing Countries”

12/23/2022 MAI V.T.P- FIE- FTU 20


Một số lệnh thông dụng dành cho dữ liệu bảng trong STATA

Data summary xtset; xtdescribe; xtsum; xtdata; xtline; xttab;


xttrans

Pooled OLS regress

Pooled FGLS xtgee; family (gaussian); xtgls; xtpcse

Random effects xtreg, re; xtregar, re

Fixed effects xtreg, fe; xtregar, fe

Random slopes xtmixed; xtrc

First-differences regress (with differenced data)

Static IV xtivreg; xthtaylor

Dynamic IV xtabond; xtdpdsys; xtdpd


12/23/2022 MAI V.T.P- FIE- FTU 21
6. Mô hình phân tích dữ liệu bảng
• Mô hình hồi quy gộp (Pooled OLS)
• Mô hình hồi quy tổng quát (GLS)
• Mô hình tác động cố định (Fixed effects model)
• Random effects model (Mô hình tác động ngẫu nhiên)
• Mô hình có chứa biến công cụ (Instrumental variables- IV model)
• Mô hình hồi quy moments tổng quát (GMM)

12/23/2022 MAI V.T.P- FIE- FTU 22


6. Mô hình Thành Mô tả Ví dụ

phân tích dữ
phần

Các yếu tố quan sát được. Độ tuổi, chủng tộc,

liệu bảng
𝑋𝑖𝑡
Các yếu tố này có thể quy mô doanh
không đổi cho từng đối nghiệp, chi tiêu,
tượng quan sát theo thời dân số, GDP
• Xét mô hình có dạng: gian (VD: giới tính, chủng

𝒚𝒊𝒕 = 𝜷𝑿𝒊𝒕 + 𝜹𝒁𝒊 + 𝜺𝒊𝒕 (1) tộc) hoặc có thể thay đổi
theo thời gian (VD: độ tuổi)
• Trong mô hình này, X đại
diện cho các yếu tố quan sát
được như độ tuổi, quy mô
doanh nghiệp, mức độ chi
tiêu; Z đại diện cho các yếu 𝑍𝑖 Các yếu tố không quan sát Kỹ năng, tiềm
tố không quan sát được, ví được → gây ra tính không năng doanh
dụ như chất lượng quản lý, đồng nhất của mô hình nghiệp,
cơ hội tăng trưởng, kỹ năng, (model heterogeneity)

vv.
𝜀𝑖𝑡 Yếu tố ngẫu nhiên N/A

12/23/2022 MAI V.T.P- FIE- FTU 23


6.1. Mô hình hồi quy gộp (POLS)
• Trong một số trường hợp, không tồn tại các tác động riêng không quan sát được
hoặc/và các yếu tố này không đổi với các đối tượng quan sát khác nhau.

• Đây là giả định tốt nhất có thể đạt được theo các giả thuyết của MHHQTTCĐ: tất cả
các quan sát trong các nhóm là độc lập với nhau. Khi đó, mô hình (1) trở thành:

𝒚𝒊𝒕 = 𝜷𝑿𝒊𝒕 + 𝜶 + 𝜺𝒊𝒕 (2)

• Điều này có nghĩa là không tồn tại sự phụ thuộc giữa các nhóm quan sát trong bảng dữ
liệu → có thể xử lý dữ liệu như một tập lớn gọi là dữ liệu gộp (pooled dataset). Các
tham số trong mô hình 𝜷 và 𝜶 có thể được ước lượng trực tiếp bằng PP bình phương
nhỏ nhất gộp (POLS).

12/23/2022 MAI V.T.P- FIE- FTU 24


6.2. Mô hình tác
động cố định (FE
model)
Đặc điểm:
• Trong mô hình tồn tại các tác động riêng có
không quan sát được theo thời gian hoặc
theo đối tượng quan sát. Các tác động này có
thể nằm trong các biến bị bỏ sót.
• Giả định rằng các tác động riêng có của các
đối tượng quan sát tương quan với các giá trị
quan sát được (các biến độc lập trong mô
hình, xit).

• Các ước lượng bằng PP POLS không còn tỏ


ra hiệu quả

12/23/2022 MAI V.T.P- FIE- FTU 25


6.2. Mô hình tác động cố định (FE model)
Phương trình:

𝒚𝒊𝒕 = 𝜷𝑿𝒊𝒕 + 𝜶𝒊 + 𝜺𝒊𝒕 (3)

• Hệ số chặn, 𝜶𝒊 , thay đổi theo các giá trị quan sát nhưng không đổi theo thời gian. Hệ số
này vì vậy bao gồm 2 phần: một phần là hệ số chặn không đổi, 𝝁, và một phần là sai số
riêng của từng quan sát, 𝜸𝒊 .

• Đặc điểm quan trọng nhất của mô hình FE là tồn tại 𝛾𝑖 nhưng không quan sát được mà
phải tiến hành ước lượng. Quan trọng hơn, nếu ước lượng 𝜷 bằng PP POLS thì sẽ không
tính tới được sự tồn tại của 𝛾𝑖 . Vì thế, kết quả ước lượng sẽ không còn chính xác và nhất
quán.

12/23/2022 MAI V.T.P- FIE- FTU 26


6.3. Mô hình tác động ngẫu nhiên (RE model)
Đặc điểm:

- Trong mô hình tồn tại các yếu tố tác động riêng


có không quan sát được theo thời gian hoặc
theo đối tượng quan sát. Các yếu tố này đóng
vai trò như thành phần ngẫu nhiên và không
tương quan với các biến độc lập (yếu tố quan
sát được) trong mô hình.

- Không làm sai lệnh kết quả ước lượng của các
hệ số nếu chạy bằng PP OLS tuy nhiên có thể
gây ra kết quả ước lượng không hiệu quả và
các suy diễn thống kê thiếu chính xác.

12/23/2022 MAI V.T.P- FIE- FTU 27


6.3. Mô hình tác động ngẫu nhiên (RE model)

Đặc điểm:

• Đặc điểm nổi bật của mô hình tác động ngẫu nhiên là không tồn tại giá trị thực
của 𝜹𝒁𝒊 mà tuân theo phân phối ngẫu nhiên với các tham số mà chúng ta phải
ước tính.

• Yếu tố tác động ngẫu nhiên 𝜹𝒁𝒊 :


- Không tương quan với 𝑿𝒊𝒕 → các giá trị ƯL thu được bằng POLS không bị chệch

- Tác động tới cấu trúc hiệp phương sai của các phần dư trong mô hình → Các giá trị ƯL sẽ không
còn hiệu quả và các kiểm định thống kê (VD: t-stat) sẽ không còn chính xác.

12/23/2022 MAI V.T.P- FIE- FTU 28


6.4. So sánh FE vs RE
FE: RE
• Không đánh giá được tác động • Tập quan sát phải mang tính
của các biến số không đổi theo ngẫu nhiên
thời gian. • Gỉa thiết về sự không tương
quan giữa c và X thường là quá
chặt

29
6.5. Lựa chọn POLS vs FE vs RE
• Nếu biến bị bỏ sót là không đáng kể => MH hồi qui gộp là tốt nhất
• Nếu biến bị bỏ sót không tương quan với X => RE là hiệu quả hơn FE
(nhưng phải giả thiết về sự không tương quan giữa c và u)
• Nếu biến bị bỏ sót là tương quan với X thì RE là chệch và không vững=>
chọn FE
• Lựa chọn giữa POLS và RE: sử dụng xttest0
• Nếu RE được lựa chọn => sẽ chọn giữa FE hay RE: Hausman

30
6.6. Các bước chạy trong STATA
1. Chạy mô hình RE
2. Xttest0
• Nếu p-value lớn chọn MH hồi qui gộp
• Nếu p-value nhỏ chạy tiếp FE
3. Hausam
• Nếu p-value lớn quay trở lại RE
• Nếu p-value nhỏ chọn FE

31
6.6. Mộ số lệnh trong STATA
1. xtset id time: khai báo số liệu dạng mảng
2. xtreg y x1 x2 xk, re : chạy mô hình r.e
3. xttest0: lựa chọn re và pols
4. xtreg y x1 x2 xk, fe
5. est store tdcd: lưu giữ kết quả vừa ước lượng
6. hausman tdcd: kiểm định lựa chọn re và fe

32
7. MÔ HÌNH HỒI QUY VỚI BIẾN CÔNG CỤ
7.1. Biến nội sinh vs biến ngoại sinh
7.2. Hồi quy với biến công cụ

12/23/2022 MAI V.T.P- FIE- FTU 33


7.1. Biến nội sinh vs biến ngoại sinh
• Khái niệm và ví dụ về biến nội sinh
• Khái niệm và ví dụ về biến ngoại sinh

12/23/2022 MAI V.T.P- FIE- FTU 34


7.1.1. Khái niệm và ví dụ về biến nội sinh
• Biến nội sinh là gì?
• Biến nội sinh được sử dụng trong kinh tế lượng và khá phổ
biến trong hồi quy tuyến tính. Chúng tương tự (nhưng không
hoàn toàn giống) các biến phụ thuộc. Các biến nội sinh có giá
trị được xác định bởi các biến khác trong mô hình (các biến
“khác” này được gọi là biến ngoại sinh).
• Một biến nội sinh có thể được định nghĩa như sau :
• Một biến xj được cho là nội sinh trong mô hình nhân quả M nếu
giá trị của nó được xác định hoặc bị ảnh hưởng bởi một hoặc
nhiều biến độc lập X (không bao gồm chính nó).
12/23/2022 MAI V.T.P- FIE- FTU 35
7.1.1. Khái niệm và ví dụ về biến nội sinh
• Ví dụ về biến nội sinh:
• Lượng bánh quy một cửa hàng bán ra: Mô hình SL bánh quy
mà một tiệm bánh SX mỗi ngày → biến nội sinh là SL bánh mà
tiệm bánh bán được. Biến này phụ thuộc vào các biến số khác
trong mô hình, như số lượng nhân viên đang làm việc và giá
nguyên liệu làm bánh quy.
• Lượng đèn sản xuất của một nhà SX: Mô hình về SL đèn mà họ
sản xuất. SL đèn được sản xuất phụ thuộc vào các yếu tố khác
bao gồm giá của các bộ phận của đèn, chi phí nhân công, chi
phí nhà xưởng → Biến nội sinh là số lượng đèn được sản xuất.
12/23/2022 MAI V.T.P- FIE- FTU 36
7.1.2. Khái niệm và ví dụ về biến ngoại sinh
• Biến ngoại sinh là gì?
• Biến ngoại sinh là biến không bị ảnh hưởng bởi các biến khác
trong mô hình (hệ thống). Biến ngoại sinh có đặc điểm:
✓được cố định khi đưa vào mô hình.
✓được coi là “đã có” trong mô hình.
✓ảnh hưởng đến các biến nội sinh trong mô hình.
✓không được xác định bởi mô hình.
✓không được giải thích bởi mô hình.
• Nói cách khác, biến ngoại sinh là biến không bị ảnh hưởng bởi bất
kỳ biến nào khác trong mô hình (mặc dù nó có thể bị ảnh hưởng
bởi các yếu tố bên ngoài mô hình hồi quy tuyến tính đang được
nghiên cứu).

12/23/2022 MAI V.T.P- FIE- FTU 37


7.1.2. Khái niệm và ví dụ về biến ngoại sinh
• Ví dụ về biến ngoại sinh
• Mô hình các yếu tố ảnh hưởng đến SL ngô: Có những biến có
thể ảnh hưởng đến SL ngô, nhưng SL ngô không thể ảnh
hưởng ngược lại các biến này.
• Các yếu tố bên ngoài như sâu bệnh ăn hại cây trồng và thời tiết
sẽ là các biến số ngoại sinh.
• Điều này là do các biến khác trong mô hình không thể ảnh
hưởng đến các biến này. Chúng có thể làm cho cây trồng phát
triển nhiều hơn hoặc ít hơn, nhưng ngược lại, cây trồng không
thể ảnh hưởng đến chúng.
12/23/2022 MAI V.T.P- FIE- FTU 38
7.1.2. Khái niệm và ví dụ về biến ngoại sinh
• Ví dụ về biến ngoại sinh
• Thuế suất: Một công ty có thu nhập ròng là 200.000 đô la vào
năm ngoái. Thu nhập ròng của nó phụ thuộc vào nhiều yếu tố,
bao gồm cả thuế suất. Vì các biến khác không thể tác động đến
thuế suất trong mô hình nên thuế suất là một biến ngoại sinh.

12/23/2022 MAI V.T.P- FIE- FTU 39


7.2. Hồi quy với biến công cụ
• Giới thiệu
• Ước lượng bằng biến công cụ
• Tiêu chuẩn lựa chọn biến công cụ

12/23/2022 MAI V.T.P- FIE- FTU 40


7.2.1. Giới thiệu
• Giả định cơ bản về tính nhất quán của các ƯL OLS là sai số ngẫu nhiên
của mô hình không tương quan với các biến giải thích, nghĩa là, E(u|x)=0.
• Nếu giả định này không được đảm bảo, các giá trị ƯL thu được bằng PP
OLS sẽ không còn chính xác và không thể sử dụng để giải thích cho mô
hình.
• Cụ thể, ƯL OLS của 𝛽መ𝑗 sẽ không còn là ước lượng tác động biên đối với
biến phụ thuộc y của một thay đổi ngoại sinh trong biến hồi quy thứ j xj.
• Đây là một vấn đề cơ bản vì những tác động cận biên như vậy là đầu vào
quan trọng của chính sách kinh tế.

12/23/2022 MAI V.T.P- FIE- FTU 41


7.2.1. Giới thiệu
• Ước lượng bằng biến công cụ (IV) cung cấp một công cụ ước tính
nhất quán với giả định rất chắc chắn rằng tồn tại các công cụ hợp lệ,
trong đó công cụ z là các biến tương quan với các biến giải thích x
thỏa mãn E(u|Z)=0.
• Phương pháp IV là phương pháp hàng đầu được sử dụng để ước
lượng các tham số của mô hình chứa các biến hồi quy nội sinh.
• Về mặt cơ học, phương pháp IV khó hơn các phương pháp hồi quy
khác. Trên thực tế, có thể rất khó để có được các công cụ hợp lệ, vì
E(u|Z)=0. Ngay cả khi những công cụ như vậy tồn tại, chúng có thể
tương quan rất yếu với các biến hồi quy nội sinh.

12/23/2022 MAI V.T.P- FIE- FTU 42


7.2.2. Ước lượng IV
• Chúng ta bắt đầu bằng mô hình hồi
quy đơn giản nhất, trong đó biến phụ
thuộc y được hồi quy trên một biến
giải thích duy nhất x:
𝑦 = 𝛽𝑥 + 𝑢 (1)
• Mô hình trên không có hệ số chặn.
Điều này không làm mất tính tổng
quát nếu cả y và x được đo bằng độ
lệch so với giá trị trung bình tương
ứng của chúng.

12/23/2022 MAI V.T.P- FIE- FTU 43


7.2.2. Ước lượng IV
• Giả sử biến y đại diện cho mức thu nhập,
biến x đại diện cho số năm đi học và u là
sai số của mô hình.
• Mô hình hồi quy đơn giản này giả định
rằng x không tương quan với u. Khi đó
ảnh hưởng duy nhất của x lên y là ảnh
hưởng trực tiếp thông qua đại lượng 𝛽.
• Việc không có mũi tên chỉ hướng từ u đến
x có nghĩa là không có mối liên hệ nào
giữa x và u. Do đó, giá trị ước lượng OLS
𝛽መ = σ𝑖 𝑥𝑖 𝑦𝑖 / σ𝑖 𝑥𝑖2 phù hợp với 𝛽.

12/23/2022 MAI V.T.P- FIE- FTU 44


7.2.2. Ước lượng IV
• Phần dư u đại diện cho tất cả các yếu tố khác ngoài
biến số năm đi học có thể ảnh hưởng tới thu nhập (ví
dụ chỉ số IQ, độ tuổi, giới tính, chủng tộc…)
• Tuy nhiên, khả năng cao sẽ tồn tại mối tương quan
giữa x và u vì các yếu tố trong u hoàn toàn có thể
ảnh hưởng tới số năm đi học.
• Khi đó, giá trị ước lượng OLS 𝛽መ sẽ không còn chính
xác. Ví dụ: nếu trung bình thêm một năm đi học làm
thu nhập hàng năm tăng thêm 1.000 đô la, thì ta
không chắc mức tăng này bao nhiêu phần là do số
năm đi học và bao nhiêu là do các yếu tố khác.

12/23/2022 MAI V.T.P- FIE- FTU 45


7.2.2. Ước lượng IV
• Biến giải thích x khi đó được cho là nội sinh vì nó có
thể ảnh hưởng đến u. Ngược lại, một biến hồi quy
ngoại sinh phát sinh bên ngoài mô hình và không
liên quan đến u.
• Cách tiếp cận IV cung cấp một giải pháp trong
trường hợp này.
• IV đề xuất một biến công cụ (mới), z, có đặc tính là
những thay đổi của z có liên quan đến những thay
đổi của x nhưng không dẫn đến những thay đổi của
y (ngoại trừ gián tiếp thông qua x).

12/23/2022 MAI V.T.P- FIE- FTU 46


7.2.2. Ước lượng IV
• Ví dụ: khoảng cách gần trường đại học (z) có
thể ảnh hưởng tới việc đi học (x) nhưng không
trực tiếp ảnh hưởng tới thu nhập (y).
• Giá trị ước lượng IV trong ví dụ đơn giản này là
𝛽መ𝐼𝑉 = σ𝑖 𝑧𝑦𝑖 / σ𝑖 𝑧𝑖 𝑥𝑖 . Điều này có thể được hiểu
là tỷ lệ tương quan của y với z với tương quan
của x với z.
• Ước lượng IV 𝛽መ𝐼𝑉 phù hợp với 𝛽 với điều kiện là
công cụ z không tương quan với sai số u và
tương quan với biến giải thích x.

12/23/2022 MAI V.T.P- FIE- FTU 47


7.2.3. Tiêu chuẩn lựa chọn biến công cụ
• Trong cuộc sống thực, các biến công cụ có thể khó tìm và trên thực tế, có
thể hoàn toàn không tồn tại.
• Để lựa chọn biến công cụ, phải dựa vào kiến thức của mình về cấu trúc
của mô hình và lý thuyết liên quan đằng sau mô hình (ví dụ: lý thuyết kinh
tế).
• Khi tìm IV, hãy nhớ rằng Z phải là:
✓ Ngoại sinh —không bị ảnh hưởng bởi các biến khác trong hệ thống (tức
là Cov(z,ε) = 0).
✓ Tương quan với X, một biến giải thích nội sinh (tức là Cov(Z,X) ≠ 0).

12/23/2022 MAI V.T.P- FIE- FTU 48


7.2.4. Một số câu lệnh trong STATA
• Mô hình IV:
• Ivregress
• Xtivreg
• Kiểm định cho mô hình IV:
• Ivregress…
• Estat endo
• Estat overid
• Ivendog

12/23/2022 MAI V.T.P- FIE- FTU 49

You might also like