You are on page 1of 128

Chương 5: Thực hành hồi quy

với dữ liệu bảng (Panel data)

SỬ DỤNG STATA
Thuộc tính của dữ liệu bảng (Panel Data)

• Dữ liệu bảng còn gọi là “Panel data” hay “longitudinal data”, là loại dữ
liệu kết hợp dữ liệu chuỗi thời gian (time series) và dữ liệu chéo (cross-
sectional entities).

• Dữ liệu bảng sẽ xuất hiện khi mối quan hệ giữa các biến số theo đơn vị chéo
(entities) cũng đồng thời được quan sát theo thời gian.

• Dữ liệu bảng cho phép kiểm soát những biến số mà ta không thể quan sát
hay đo lường được khi thực hiện hồi quy. Ví dụ:
o Cho phép kiểm soát tác động của những khác biệt trong thực hành kinh
doanh giữa các công ty, văn hóa hay thể chế chính trị giữa các quốc
gia...Những biến số này là khác nhau giữa các đơn vị chéo nhưng lại rất ít
hay không thay đổi theo thời gian.

o Cho phép kiểm soát tác động của những biến số thay đổi theo thời gian
nhưng lại có tác động như nhau giữa các đơn vị chéo. Ví dụ như hành vi
của các nhà đầu tư trên thị trường thay đổi theo thời gian, sự lan tỏa và
cập nhật của thông tin trên thị trường cổ phiếu...
2
Khoa Tài Chính - ĐHKTTPHCM
Cấu trúc của dữ liệu bảng (Panel Data)

3
Cấu trúc của dữ liệu bảng (Panel Data)
year Company Name sic sale ppegt ppent at ppm capx ebitdam dt zscore mkvalt
2000 3COM CORP 3576 2,820.88 1,481.12 609.679 3,452.80 -43.517 191.101 -26.707 2.713 1.82 1,914.30
2001 3COM CORP 3576 1,477.93 1,303.50 676.154 2,526.79 -34.146 351.813 -7.608 169.758 2.727 1,988.85
2002 3COM CORP 3576 932.866 850.33 248.79 2,062.36 -25.793 25.381 11.464 0.346 4.001 1,805.88
2003 3COM CORP 3576 698.884 396.551 72.452 1,820.82 -50.08 16.014 -9.499 0 5.015 2,541.02
2004 3COM CORP 3576 651.244 308.48 69.535 1,592.97 -29.512 21.121 -18.353 0 2.358 1,409.99
2005 3COM CORP 3576 794.807 322.053 89.109 1,861.36 -13.14 17.404 -11.141 0 1.487 1,774.42
2006 3COM CORP 3576 1,267.48 311.014 76.46 2,151.09 -4.12 28.331 2.621 430 1.026 1,867.62
2000 3M CO 2670 16,724.00 14,170.00 5,823.00 14,522.00 17.783 1,115.00 24.282 2,837.00 6.562 47,728.24
2001 3M CO 2670 16,079.00 14,365.00 5,615.00 14,606.00 13.595 980 23.584 2,893.00 6.158 46,256.05
2002 3M CO 2670 16,332.00 15,058.00 5,621.00 15,329.00 18.399 763 25.355 3,377.00 5.96 48,111.17
2003 3M CO 2670 18,232.00 15,841.00 5,609.00 17,600.00 20.058 677 26.163 3,007.00 7.037 66,673.47
2004 3M CO 2670 20,011.00 16,290.00 5,711.00 20,708.00 22.762 937 27.87 2,892.00 6.603 63,482.62
2005 3M CO 2670 21,167.00 16,127.00 5,593.00 20,513.00 23.541 943 28.464 2,440.00 6.477 58,476.70
2006 3M CO 2670 22,923.00 17,017.00 5,907.00 21,294.00 24.539 1,168.00 27.274 3,618.00 6.054 57,228.91
2000 ABBOTT 2834 13,745.92 10,127.90 4,816.91 15,283.25 27.822 @CF 29.751 1,555.82 9.143 74,881.18
2001 ABBOTT 2834 16,285.25 11,225.41 5,551.55 23,296.42 11.668 @CF 28.897 7,288.83 5.279 86,665.05
2002 ABBOTT 2834 17,684.66 12,147.67 5,828.12 24,259.10 20.874 1,296.40 28.941 6,422.63 4.595 62,522.72
2003 ABBOTT 2834 19,680.56 13,290.75 6,281.81 26,715.34 19.031 1,246.74 27.635 5,989.69 5.117 72,906.54
2004 ABBOTT 2834 19,680.02 12,501.69 6,007.87 28,767.49 21.019 1,291.63 29.187 6,780.62 4.934 72,775.12
2005 ABBOTT 2834 22,287.81 12,760.42 6,003.14 29,141.20 20.769 1,207.49 27.792 6,633.51 4.484 60,692.04
2006 ABBOTT 2834 22,476.32 14,401.94 6,946.44 36,178.17 10.163 1,337.82 28.559 12,410.93 3.458 74,879.11
2000 ACCENTURE 8742 9,752.09 1,394.14 705.508 5,451.30 27.755 315.426 23.823 293.551 4.239 @NA
2001 ACCENTURE 8742 11,443.72 1,517.89 822.318 6,061.36 6.946 377.93 24.193 191.759 3.737 5,115.27
2002 ACCENTURE 8742 13,105.02 1,569.20 716.504 5,478.95 8.146 262.831 13.593 66.527 4.141 6,701.85
2003 ACCENTURE 8742 13,397.24 1,759.60 650.455 6,459.24 12.038 211.565 13.349 60.117 4.081 9,211.33
2004 ACCENTURE 8742 15,113.58 1,863.45 643.946 7,987.68 11.9 281.986 13.528 33.876 4.329 14,936.48
2005 ACCENTURE 8742 17,094.42 1,962.37 693.71 8,957.35 12.905 317.772 13.478 75.188 4.255 13,918.74
2006 ACCENTURE 8742 18,228.37 2,087.V6ũ7 V iệt7Q27u.ả69n2g- Kh9o
,4a18T.à0i8Ch ính1- 306.174 13.177 51.857 @NA 417,219.86
Đ
0 .5 5K
H 3T

TPHCM
Thuộc tính của dữ liệu bảng (Panel Data)

• Với dữ liệu bảng chúng ta có thể phân tích các biến số ở các cấp độ dữ
liệu khác nhau (different levels) như :
o biến số được thu thập ở cấp độ quốc gia (country level),
o hay cấp độ tỉnh, thành phố, ngành nghề (state level, industry level),
o cấp độ công ty (firm level),
o cấp độ cá nhân (individual level)...

• Bất lợi của dữ liệu bảng là ở khâu thu thập dữ liệu (data collection). Ví
dụ dữ liệu bảng được thu thập ở cấp độ quốc gia thì ít khó khăn hơn so
với ở mức độ công ty, và ở mức độ công ty thì thu thập dữ liệu thuận lợi
hơn so với mức độ cá nhân.

5
Ưu điểm của sử dụng kỹ thuật phân tích dữ liệu bảng

Việc sử dụng kỹ thuật phân tích dữ liệu bảng mang lại những ưu điểm sau:

• Chúng ta có thể giải quyết câu hỏi nghiên cứu trên một phạm vi rộng hơn với
các vấn đề phức tạp hơn bằng kỹ thuật phân tích dữ liệu bảng hỗn hợp thay
vì chỉ phân tích hồi quy với dữ liệu chuỗi thời gian duy nhất hoặc chỉ với dữ
liệu chéo.

• Giúp xác định mối quan hệ giữa các biến số thay đổi như thế nào theo thời
gian.

• Bằng kỹ thuật phân tích thích hợp chúng ta có thể loại bỏ tác động từ những
biến số không thể quan sát hay đo lường được và sẽ khắc phục được kết
quả hồi quy bị “chệch” (biased) là hệ quả do việc bỏ sót biến.

6
Thuộc tính của dữ liệu bảng (Panel Data)

yit =  + xit + uit

7
Những nhược điểm của mô hình hồi quy với dữ liệu bảng
sử dụng phương pháp Pooled OLS

8
Ước lượng hồi quy Fixed và Random Effects cho dữ liệu bảng

• Đối với phân tích dữ liệu bảng có hai nhánh kỹ thuật phân tích chính:

1. Ước lượng hồi quy với hiệu ứng cố định (fixed effects estimator)

2. Ước lượng hồi quy với hiệu ứng ngẫu nhiên (random effects estimator)

Mô hình hồi quy hiệu ứng cố định (fixed effects model)


• Trên thực tế các biến đo lường được sự khác nhau giữa các đơn vị chéo
(crossectional units hay entities) nhưng không thay đổi theo thời gian là
thường không quan sát được trong bộ dữ liệu (unobserved in data).

• Tuy nhiên chúng ta vẫn có thể đo lường những tác động này một cách gián
tiếp bằng việc sử dụng mô hình hiệu ứng cố định.

9
Mô hình hồi quy hiệu ứng cố định (Fixed Effects Models)

yit =  + xit + i + vit

10
Mô hình hồi quy hiệu ứng cố định (Fixed Effects Models)

11
12
Mô hình hồi quy hiệu ứng cố định theo thời gian
(Time Fixed Effects Models)

• Mô hình hồi quy với hiệu ứng cố định theo thời gian có thể được viết như
sau:
y =  + x +  + v
it it t it

với t là hệ số chặn thay đổi theo thời gian (time-varying intercept) và nó


nắm bắt được tất cả các tác động thay đổi theo thời gian của những biến giải
thích lên biến y nhưng những tác động này là không khác nhau giữa các đơn
vị chéo.

• Một ví dụ minh họa: môi trường chính sách hay mức thuế suất thay đổi
trong thời kỳ quan sát của mẫu dữ liệu. Trong những trường hợp như vậy sự
thay đổi của môi trường có thể ảnh hưởng rất nhiều đến biến y, nhưng có tác
động không khác nhau giữa các công ty..

13
Mô hình hồi quy hiệu ứng cố định theo thời gian
(Time Fixed Effects Models)

yit = xit + 1D1t + 2D2t + ... + TDTt + vit

14
Mô hình hồi quy hiệu ứng cố định theo thời gian
(Time Fixed Effects Models)

yit = xit+ 1D1t + 2D2t + ... + TDTt + vit

15
yi =  t=1 yit
T

𝑥𝑖 = 𝑥𝑖𝑡
𝑡=1

yit − yi =  ( xit − xi ) + uit − ui

16
Phương pháp “chuyển đổi nội tại” (The within transformation)

y= +it
 x it uit

yit − yi =  ( xit − xi ) + uit − ui

17
Phương pháp ước lượng “ở giữa” (The Between Estimator)

18
Phương pháp ước lượng với biến sai phân bậc 1
(First-Differences Estimator)

19
1) NHẬP DỮ LIỆU VÀO STATA
a) Sử dụng Menu

Nhập dữ liệu file excel vào STATA


File > Import > Excel spreadsheet (*.xls;*.xlsx)

Chú ý:
Sử dụng tùy chọn “import first row as variables names” để khai báo
hàng thứ nhất của file Excel sẽ được sử dụng như là tên biến.
1) NHẬP DỮ LIỆU VÀO STATA
1) NHẬP DỮ LIỆU VÀO STATA
2) KIỂM TRA DỮ LIỆU - STATA

Sử dụng câu lệnh


.describe
2) KIỂM TRA DỮ LIỆU - STATA
a) Chuyển đổi dữ liệu “string” sang “numeric”

.encode variable_name, gen (new_variable_name)

Ví dụ:
. encode company gen (ncompany)

. gen dt_at=dt/at
. gen mkvalt_at=mkvalt/at
. gen dv_eps=dv/eps
. gen cfl_at=cfl/at
. gen sale_at=sale/at
. gen capx_at=capx/at
. gen ebitdam_at=ebitdam/at

b) Xóa một hay nhiều biến khỏi cơ sở dữ liệu trong STATA


Ví dụ:
.drop company
3) KHAI BÁO DỮ LIỆU BẢNG VÀO STATA

cú pháp : xtset id date

Ví dụ:

xtset ncompany year


4) THỐNG KÊ DỮ LIỆU - STATA
Sử dụng câu lệnh
Summarize variable_name1 variable_name2 ...

Ví dụ:
summarize dt_at mkvalt_at dv_eps cfl_at sale_at capx_at ebitdam_at
4) THỐNG KÊ DỮ LIỆU - STATA
Sử dụng câu lệnh:
Summarize variable_name1, variable_name2,..., detail
Ví dụ: summarize dt_at mkvalt_at dv_eps cfl_at sale_at capx_at
ebitdam_at, d
5) Ma trận hệ số tương quan (correlation)
Câu lệnh
. correlate variable_name 1 variable_name 2...

Ví dụ:
5) Ma trận hệ số tương quan (pairwise correlation)
Câu lệnh
. pwcorr variable_name 1 variable_name 2..., obs sig

Ví dụ: pwcorr dt_at mkvalt_at dv_eps cfl_at sale_at capx_at ebitdam_at, obs sig
6) Kiểm định hiện tượng đa cộng tuyến
Câu lệnh (Variance inflation factors)

. estat vif [, uncentered]

Ví dụ:
.bước 1: regress dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at
.bước 2: estat vif, uncentered

Lưu ý: The uncentered VIF = variance of the coefficient from the original
regression / sigmasq from original regression

•Common Indicators of Collinearity


•VIF -- variance inflation factor
• individual VIF greater than 10 should be inspected
•average VIF greater than 6
•tolerance less than .1
•tolerance = 1/VIF
6) Kiểm định hiện tượng đa cộng tuyến (postestimation test)
6) Kiểm định hiện tượng đa cộng tuyến (postestimation test)

. estat vif, uncentered


7) Hồi quy dữ liệu bảng trong Stata – Pooled OLS

Bước 1: Statistics\Longitudinal/panel data\set up and utilities\declare


dataset to be panel data

Hoặc có thể sử dụng câu lệnh trong command window như sau:
xtset panelvar timevar [, tsoptions]

Để kiểm tra xem dữ liệu có cấu trúc ra sao tại bất kỳ thời điểm nào:
xtset

Để xóa cấu trúc dữ liệu bảng trong Stata:


xtset, clear

Bước 2: Statistics\Linear model and related\Linear regression


7) Hồi quy dữ liệu bảng trong Stata – Pooled OLS
. regress dt_at dv_eps cfl_at capx_at ebitdam_at
7) Hồi quy dữ liệu bảng trong Stata – Pooled OLS
Kiểm định Heteroskadasticity
. regress dt_at dv_eps cfl_at capx_at ebitdam_at
. estat hettest, iid
Hồi quy dữ liệu bảng trong Stata – Fixed Effect

Bước 1: Statistics\Longitudinal/panel data\set up and utilities\declare


dataset to be panel data

Hoặc có thể sử dụng câu lệnh trong command window như sau:
xtset panelvar timevar [, tsoptions]

Để xóa cấu trúc dữ liệu bảng trong Stata:


xtset, clear

Bước 2: Statistics\Longitudinal/panel data\ linear models/Linear


regression (FE,RE,PA,BE)
Hồi quy dữ liệu bảng trong Stata – Fixed Effect

xtreg dt_at mkvalt_at dv_eps cfl_at capx_at, fe


Hồi quy dữ liệu bảng trong Stata – Fixed Effect
.set matsize 800
. regress dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at i.ncompany
Cùng kết quả với slide trước !!!
Hồi quy dữ liệu bảng trong Stata – Fixed (between) Effect

. xtreg dt_at dv_eps cfl_at capx_at ebitdam_at, be


Kiểm định sự cần thiết sử dụng -fixed effects: Thực hành
trên STATA
Xét mô hình hồi quy với hiệu ứng cố định theo thời gian:
yit = xit+ 1D1t + 2D2t + ... + TDTt + vit

• Chúng ta có thể kiểm định xem mô hình hồi quy quy với hiệu ứng cố định
cho ra kết quả tốt hơn mô hình hồi quy Pooled OLS hay không bằng cách sử
dụng F-test.

• Giả thiết H0 (null hypothesis) của kiểm định F nhưsau:


H0 : λ1= λ2 = λ3= .... : λT= 0

40
Kiểm định sự cần thiết sử dụng time-fixed effects: Thực
hành trên STATA

H0: no time-fixed effects

41
Mô hình hồi quy dữ liệu bảng với hiệu ứng ngẫu nhiên
(Ôn lại Pooled OLS và Fixed effects)

d or
mation

F.E.
n
rent F.E.
n

42
Mô hình hồi quy dữ liệu bảng với hiệu ứng ngẫu nhiên
(The Random Effects Model)

43
Mô hình hồi quy dữ liệu bảng với hiệu ứng ngẫu nhiên
(The Random Effects Model - GLS Random effects)

44
Mô hình hồi quy dữ liệu bảng với hiệu ứng ngẫu nhiên
(The Random Effects Model)

yit =  + xit + it , it = i + vit

yit* = yit − yi


45
Mô hình hồi quy dữ liệu bảng với hiệu ứng ngẫu nhiên
(The Random Effects Model)

• Ta định nghĩa chuyển đổi dữ liệu ‘quasi-demeaned’ như sau:


y * = y − y
it it i

• Và chuyển đổi tượng tự cho các biến giải thích xit,


•  là hàm số phụ thuộc vào phương sai của sai số hồi quy,  2v, và phương sai
của sai số chéo, 2: 
 = 1 − v 2
T  +  v2

• Sự chuyển đổi này cần được chính xác để đảm bảo loại trừ được hiện tượng
tương quan chéo trong các sai số của hồi quy và may mắn là các phần mềm
sẽ tự động tính toán đúng giá trị .

• Trong trường hợp kiểm soát thay đổi ngẫu nhiên theo thời gian, thì sai số
theo thời gian (time period-specific error term) sẽ được đưa vào mô hình. Và
như vậy ta có mô hình hiệu ứng ngẫu nhiên theo cả 2 chiều với các hệ số
chặn thay đổi theo cả đơn vị chéo và thời gian.
46
Hồi quy dữ liệu bảng trong Stata – Random Effect
. xtreg dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at, re
Lựa chọn giữa mô hình hiệu ứng cố định (Fixed Effects)
và mô hình hiệu ứng ngẫu nhiên (Random Effects)

• Mô hình ảnh hưởng ngẫu nhiên là thích hợp hơn nếu các đơn vị
chéo trong mẫu dữ liệu được xem như là lựa chọn ngẫu nhiên từ
tổng thể.

• Tuy nhiên mô hình hiệu ứng cố định sẽ hợp lý hơn nếu các đơn
vị chéo trong mẫu được lựa chọn đủ lớn và hiệu quả để có thể
được xem như là đại diện của tổng thể.

• Đối với mô hình hồi quy hiệu ứng ngẫu nhiên, kỹ thuật chuyển
đổi (transformation) được sử dụng với phương pháp GLS sẽ
không loại bỏ những biến số mà giá trị của nó không thay đổi
theo thời gian và do vậy tác động nhiễu từ những biến này có
thể là đáng kể. 48
Lựa chọn giữa mô hình hiệu ứng cố định (Fixed Effects)
và mô hình hiệu ứng ngẫu nhiên (Random Effects)

49
Lựa chọn giữa mô hình hiệu ứng cố định (Fixed Effects)
và mô hình hiệu ứng ngẫu nhiên (Random Effects)

• Đối với mô hình hồi quy hiệu ứng ngẫu nhiên:

yit =  + xit + it , it = i + vit

giả định “sai số của mô hình không có tương quan với tất cả
các biến giải thích” có tính cấn thiết hơn hẳn so với giả định
của mô hình hồi quy hiệu ứng cố định bởi vì chúng ta yêu cầu
đồng thời cả 2 giá trị sai số chéo i và sai số của mô hình hồi
quy vit phải độc lập với tất cả các giá trị của biến giải thíchxit.

50
Lựa chọn giữa mô hình hiệu ứng cố định (Fixed Effects)
và mô hình hiệu ứng ngẫu nhiên (Random Effects)

yit =  + xit + it , it = i + vit

51
Mô hình hồi quy hiệu ứng ngẫu nhiên (Random Effects
Models) hay cố định (Fixed Effects)? Thực hành trên STATA

52
Mô hình hồi quy hiệu ứng ngẫu nhiên (Random Effects
Models) hay cố định (Fixed Effects)? Thực hành trên STATA

Testing for random effects: Breusch-Pagan Lagrange multiplier (LM)


. xtreg dt_at dv_eps cfl_at capx_at ebitdam_at i.year , re
. xttest0

53
Kiểm định tính dừng khi hồi quy với panel data – STATA
(Testing for unit roots/stationarity)
Cú pháp:
. xtunitroot llc var (levin-lin-chu)
. xtunitroot ips var (im-pesaran-shin)
. xtunitroot fisher var (fisher type)
. xtunitroot breitung var (breitung type)

MENU: Statistics\Longitudinal\Unit Root test\

54
Kiểm định hiện tượng phương sai thay đổi
(Heteroskedasticity test) khi hồi quy với panel data và giả
định “No Correlation” - STATA
Nhập dữ liệu dataset mới: abdata.dat

Cú pháp:

•xtgls n w k ys, igls panels(hetero)


•estimate store hetero
•xtgls n w k ys
•local df = e(N_g) – 1
•lrtest hetero . , df(`df')

55
Kiểm định hiện tượng phương sai thay đổi
(Heteroskedasticity test) khi hồi quy với panel data (fixed
effects)- STATA
. Bước 1: xtreg dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at, fe

. Bước 2: xttest3 (H0: không có phương sai thay đổi)

56
Kiểm định hiện tượng tự tương quan (Autocorrelation test)
hồi quy với panel data – STATA

Cú pháp:

. Xtserial depvar indepvar1 indepvar2....

H0: không có hiện tượng tự tương quan

57
Kiểm định hiện tượng tự tương quan (Autocorrelation test)
hồi quy với panel data - STATA

Kiểm định Serial correlation chủ yếu áp dụng cho “macro panels”
với long time series (T>N và T = 20-30 years).

Hiện tượng tự tương quan không là vấn đề lớn đối với “micro
panels” (T < N và T nhỏ).

Serial correlation sẽ làm cho standard errors của hệ số hồi quy nhỏ đi,
hệ quả là kết quả hồi quy dễ có ý nghĩa thống kê hơn, và R-squared
cao hơn.

58
Kiểm định cross-sectional dependence/contemporaneous
correlation: Breusch-Pagan LM test of independence- STATA
Nhập datatset USMacropanel.dat .Cú pháp: xtreg y x1 x2 x3, fe

Kiểm định này chỉ sử dụng cho “macro panels” với T > N (long time
series over 20-30 years)

59
Kiểm định cross-sectional dependence/contemporaneous
correlation: Breusch-Pagan LM test of independence- STATA
Kiểm định này chỉ sử dụng cho “macro panels” với T > N (long time
series over 20-30 years)

60
Kiểm định cross-sectional dependence/contemporaneous
correlation: Pasaran CD test - STATA
Kiểm định này chỉ sử dụng cho “macro panels” với T > N (long time
series over 20-30 years).

Cross-sectional dependence test được sử dụng để kiểm định các phần dư


có tương quan giữa các đơn vị chéo hay không? (correlated across entities)

. xtreg y x1 x2 x3, fe
. ssc install xtcsd
. xtcsd, pesaran abs

61
Khắc phục hiện tượng Heteroskedasticity và Autocorrelation
khi hồi quy với panel data - STATA

62
Khắc phục hiện tượng Heteroskedasticity và Autocorrelation
khi hồi quy với panel data - STATA
xtreg dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at, fe robust

63
Mô hình hồi quy Generalize Least Squares
(GLS) khắc phục hiện tượng
Heteroskedasticity và / hoặc Autocorrelation

64
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

General Linear Regression Model in Matrix Format


y = X + ,  ~ N(0, W)
or
y ~ N(X, W)
Assumptions
1. The functional form is linear in parameters: y = X + 
2. The error term has mean zero: E() = 0
3. The errors are nonspherical: Var() = E(T) = W
where W is any nonsingular TxT variance-covariance matrix of disturbances.
4. The error term has a normal distribution: ~N
5. The error term is uncorrelated with each independent variable.
Cov (,X) = 0
ESTIMATION
1. Ordinary least squares (OLS) estimator
2. Generalized least squares (GLS) estimator
3. Feasible generalized least squares (FGLS) estimator
65
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS – STATA

Generalize Least Squares (GLS) Estimator

^GLS = (XTW-1X)-1XT W-1y

The variance-covariance matrix of estimates for the GLS estimator is

Var(^) = (XTW-1X)-1

Classical Linear Regression Model chỉ là trường hợp đặc biệt của General Linear
Regression Model :

Nếu phương sai của phần dư là hằng số (homoskedastic), khi đó W = 2I và hồi
quy GLS trở thành mô hình hồi quy tuyến tính cổ điển Classical linear regression
model như đã biết.

66
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

Ordinary Least Squares (OLS) Estimator

^ = (XTX)-1XTy

Var(^) = 2(XTX)-1

Nếu có hiện tượng phương sai thay đổi và tự tương quan, khi đó OLS estimator sẽ có
các thuộc tính sau:
1. Các ước lượng OLS estimator không bị lệch (unbiased )
2. Các ước lượng OLS estimator không còn hiệu quả (inefficient)
3. Các ước lượng OLS estimator không tương đương với
Maximum likelihood estimator.
4. Giá trị standard errors bị giảm xuống: biased và inconsistent
5. Kết quả kiểm định thống kê không có giá trị (Hypothesis tests are not valid)

67
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

Generalize Least Squares (GLS) Estimator:

^GLS = (XTW-1X)-1XT W-1y

Var(^) = (XTW-1X)-1

Ngay cả có hiện tượng phương sai thay đổi và tự tương quan, thì GLS estimator vẫn có
các thuộc tính sau:
1. Các ước lượng OLS estimator không bị lệch (unbiased )
2. Các ước lượng OLS estimator hiệu quả (efficient)
3. Các ước lượng OLS estimator tương đương với
Maximum likelihood estimator.
4. Giá trị standard errors ước lượng chính xác: unbiased và consistent
5. Kết quả kiểm định thống kê có giá trị (Hypothesis tests are valid)

68
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

Các ước lượng OLS estimator không khai thác thông tin chứa trong W
(heteroscedasticity và/hoặc autocorrelation), trong khi đó GLS estimator có
khai thác:

-> GLS vẫn có đủ thuộc tính BLUE

Tuy nhiên chúng ta không thể biết được các giá trị đúng của các phần tử trong
ma trận của phần dư W :

-> không thể sử dụng GLS estimator,

-> và do vậy GLS estimator không khả thi (feasible estimator).

69
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

Feasible Generalized Least Squares (FGLS) Estimator

Để đảm bảo GLS estimator là khả thi, chúng ta sử dụng mẫu quan sát (thay vì
tổng thể phân phối) để đạt giá trị ước lượng của W ~ W^.

Thay thế giá trị đúng W bằng giá trị ước lượng W^ , ta có được FGLS
estimator.

^FGLS = (XTW-1^X)-1XT W-1^y

Cov(^) = (XTW-1^X)-1

70
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

FGLS Estimator chính là Weighted Least Squares Estimator

Tìm ma trận trọng số P = TxT sao cho μ* = Pμ,


Với μ* có Cov(μ*) = E(μ* μ*T) = σ2I = hằng số.

Sử dụng ma trận P để rút ra phương trình chuyển đổi như sau:

Py = PXβ + Pμ

or y* = X*β + μ*
Với
y* = Py, X* = PX, μ* = Pμ.

71
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

Yt = β1 + β2Xt2 + β3Xt3 + μt
Với
var(μt) = E(μt 2) = σt 2

σt2 = α1 + α2Xt2 +α3Xt3


Linear hetero:

wtYt = wtβ1 + β2(wtXt1) + β3(wtXt2) + wtμt

Với w = trọng số thích hợp , ví dụ w t = 1/σt

var(wtμt) = var[(1/σt)μt] = (1/σt)2var(μt) = var(μt)/ var(μt) = 1

Để thực hiện hồi quy WLS, sử dụng dữ liệu mẫu để ước lượng trọng số
wt = 1/σt.

Sau đó hồi quy wtYt = wt, + wtXt1, + wtXt2 sử dụng phương pháp OLS
thông thường.
72
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA

Vấn đề nảy sinh với FGLS Estimator


Để có W^, chúng ta phải ước lượng tất cả phần tử của ma trận phần
dư W.

--> W = TxT matrix -> ước lượng T 2 phần tử.

Vì ma trận W là đối xứng -> chỉ cần ước lượng ½T(T + 1) phần tử.

-> nếu kích cở mẫu là T = 100, chúng ta sẽ sử dụng 100 quan sát này
để ước lượng 5,050 phần tử variances và covariances khác nhau.

-> không khả thi vì thiếu bậc tự do (degrees of freedom)!!!

73
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS – STATA

Giải quyết vấn đề Degrees of Freedom – FGLS

Cách 1) Áp dụng hồi quy Weighted Least Squares (WLS): Chúng ta phải biết
trước bản chất của heteroscedasticity và / hoặc autocorrelation đang hiện
hữu trong mô hình -> phải nhận diện được biến số nào gây ra các hiện tượng
nói trên và áp đặt các trọng số thích hợp lên những biến số này

Cách 2) Áp dụng hồi quy FGLS:

Sử dụng mẫu dữ liệu -> ước lượng thông số hồi quy của mô hình đang bị
heteroscedasticity và/hoặc autocorrelation.

Sử dụng những thông số hồi quy này để ước lượng các phần tử trong ma trận
variances và covariances W^.

74
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data – GLS - STATA
STATA

Xtgls hồi quy panel data sử dụng phương pháp “feasible generalized least squares”.
Phương pháp này cho phép hồi quy với sự hiện diện của phương sai thay đổi
(Heteroskedasticity) và tự tương quan giữa các đơn vị chéo (cross-sectional
correlation hay cross-sectional dependence)

75
Khắc phục hiện tượng Heteroskedasticity và
Autocorrelation khi hồi quy với panel data - STATA

76
Khắc phục hiện tượng Heteroskedasticity và Autocorrelation
test khi hồi quy với panel data - STATA

77
Khắc phục hiện tượng Heteroskedasticity và Autocorrelation
test khi hồi quy với panel data - STATA
. xtgls dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at i.ncompany,
panels(hetero) corr(ar) force

78
Mô hình hồi quy sử dụng biến công cụ
(Instrumental variables) khắc phục hiện
tượng nội sinh

79
Khắc phục hiện tượng nội sinh (endogeneity) với panel
data - 2SLS - STATA

y = N x1 vector = biến phụ thuộc


N = số quan sát (dữ liệu bảng sẽ là n x T);
Y = N x p matrix của p biến nội sinh (endogenous regressors);
X1 = N x k1 matrix của k1 biến ngoại sinh có sẵn (included exogenous regressors);
X2 = N x k2 matrix của k2 biến ngoại sinh không có sẵn (excluded exogenous
variables;

X = [Y X1], Z = [X1 X2];


U = N x 1 vector của phần dư (errors);
V = N x p matrix của phần dư (errors);
Khắc phục hiện tượng nội sinh (endogeneity) với panel
data - 2SLS - STATA
Khắc phục hiện tượng nội sinh (endogeneity) với panel
data - 2SLS - STATA

. ivregress 2sls D.n (D.nL1= nL2) D.(nL2 w wL1 k kL1 kL2 ys ysL1 ysL2
yr1979 yr1980 yr1981 yr1982 yr1983)

Mô tả
ivregress hồi quy biến phụ thuộc depvar và các biến giải thích varlist1 và
varlist2, sử dụng varlistiv cùng với varlist1 là những biến công cụ cho
varlist2

ivregress có thể sử dụng các phương pháp ước lượng sau:


✓ “two-stage least squares” (2SLS),
✓ limited-information maximum likelihood (LIML), và
✓ generalized method of moments (GMM).

▪varlist1 và varlistiv là những biến ngoại sinh (exogenous variables), hay


là những biến công cụ được dùng để ước lượng biến nội sinh varlist2.

▪varlist2 là biến nội sinh (endogenous variables).


Khắc phục hiện tượng nội sinh (endogeneity) với panel
data - 2SLS - STATA

Options
Noconstant

SE/Robust
vce(vcetype) = unadjusted, robust, cluster clustvar,
bootstrap, jackknife, hoặc hac kernel

Reporting
level(#): thiết lập mức ý nghĩa, mặc định là = level(95)
first: report first-stage regression
Khắc phục hiện tượng nội sinh (endogeneity)
với panel data - 2SLS - STATA
Khắc phục hiện tượng nội sinh (endogeneity)
với panel data - 2SLS - STATA
Khắc phục hiện tượng nội sinh (endogeneity)
với panel data - 2SLS - STATA
. ivregress liml D.n (D.nL1= nL2) D.(nL2 w wL1 k kL1 kL2 ys ysL1
ysL2 yr1979 yr1980 yr1981 yr1982 yr1983)
Khắc phục hiện tượng nội sinh (endogeneity)
với panel data - 2SLS - STATA
. ivregress liml D.n (D.nL1= nL2) D.(nL2 w wL1 k kL1 kL2 ys ysL1
ysL2 yr1979 yr1980 yr1981 yr1982 yr1983)
Khắc phục hiện tượng nội sinh (endogeneity)
với panel data - 2SLS - STATA
. ivregress gmm D.n (D.nL1= nL2) D.(nL2 w wL1 k kL1 kL2 ys ysL1
ysL2 yr1979 yr1980 yr1981 yr1982 yr1983)
Khắc phục hiện tượng nội sinh (endogeneity)
với panel data - 2SLS - STATA
. ivregress gmm D.n (D.nL1= nL2) D.(nL2 w wL1 k kL1 kL2 ys ysL1
ysL2 yr1979 yr1980 yr1981 yr1982 yr1983)
2SLS - Ứng dụng trong tài chính doanh nghiệp
ivregress 2sls D.dt_at (mkvalt_at= zscore i.dividend_policy) D.(L1.dt_at
cfl_at L.cfl_at ebitdam_at L.ebitdam_at L2.ebitdam_at)
2SLS - Ứng dụng trong tài chính doanh nghiệp
2SLS - Ứng dụng trong tài chính doanh nghiệp

.estat endogenous
2SLS - Ứng dụng trong tài chính doanh nghiệp
estat firststage
2SLS - Ứng dụng trong tài chính doanh nghiệp

estat overid
2SLS - Ứng dụng trong tài chính doanh nghiệp
. ivregress 2sls D.dt_at (mkvalt_at= zscore i.dividend_policy) D.(L1.dt_at cfl_at
L.cfl_at ebitdam_at L.ebitdam_at L2.ebitdam_at), vce(robust)
. estat overid
Mô hình hồi quy GMM sử dụng biến công cụ
(Instrumental variables) khắc phục hiện
tượng nội sinh

96
Lý do sử dụng ước lượng hồi quy Arellano – Bond GMM?

nit=β1ni,t−1+β2Kit+β3Wit+uit. (1)

1. biến w, k được giả định là nội sinh (endogenous) và sẽ dẫn đến các biến
này có tương quan với phần dư (the error term).

2. Sự hiện diện của Time-invariant company characteristics (fixed effects), ví


dụ như văn hóa quản trị và đặc điểm vùng, địa phương sẽ được chứa
trong phần dư của phương trình (1) bao gồm: unobserved country-specific
effects, vi, và the observation-specific errors, eit.
Fixeed effects này có thể sẽ tương quan với biến giải thích (explanatory
variables).

3.Sự hiện diện của biến “lagged dependent variable” nit-1 dẫn đến hiện tự
tương quan – autocorrelation

4. Dữ liệu bảng có “short time dimension” (T =8) và “larger company


dimension (N =150).
Lý do sử dụng ước lượng hồi quy Arellano – Bond GMM?

1. Để giải quyết vấn đề 1 -> dùng biến công cụ IV (two-stage least squares or
2SLS) -> khi biến công cụ yếu, ước lượng fixed-effects IV sẽ bị lệch khi
dùng OLS -> GMM

2.Để giải quyết vấn đề 2 -> sử dụng first-differences to transform equation (1)
như sau:
∆nit=β1 ∆ni,t−1+β2 ∆Kit+β3 ∆Wit+ ∆uit. (1)
Δuit=Δvi+Δeit
uit−ui,t−1=(vi−vi)+(eit−ei,t−1)=eit−ei,t−1

3. Để giải quyết vấn đề 3 -> sử dụng biến sai phân của biến trễ biến phụ thuộc
và các biến giải thích khác làm biến công cụ cho biến trễ biến phụ thuộc.

4.Arellano – Bond estimator được thiết kế để hồi quy dữ liệu bảng với small-T
large-N panels.
Khắc phục Heteroskedasticity, Autocorrelation và
Endogeneity trong panel data: hồi quy GMM
Arellano–Bond (Arellano and Bond 1991) giới thiệu Difference hay
Dynamic GMM (câu lệnh trong Stata là xtabond).

Arellano–Bover/Blundell–Bond (Arellano and Bover 1995; Blundell and


Bond 1998) sau đó giới thiệu phương pháp ước lượng System GMM (câu
lệnh trong Stata là xtabond2).

Với dữ liệu bảng - panel data thì Difference và System GMMs được sử dụng
ngày càng phổ biến để khắc phục mô hình có hiện tượng nội sinh va phương
sai thay đổi.

Phương pháp System GMM sử dụng Windmeijer (2005) finite-sample


correction với two-step estimation để khắc phục hiện tượng estimators bị
“biased downward” hay dễ dẫn đến Over-rejection.

Ngoài ra cả hai mô hinh System và Difference GMM có yếu điểm là phức


tạp và dễ dẫn đến sử dụng sai và như vậy sẽ cho ra kết quả ước lượng sai.
99
Vũ Việt Quảng - Khoa Tài Chính - ĐHKTTPHCM
Khắc phục Heteroskedasticity, Autocorrelation và
Endogeneity trong panel data: hồi quy GMM

• Phương pháp Arellano–Bond Difference GMM sẽ chuyển đổi tất cả các


biến bằng cách lấy sai phân và sau đó áp dụng hồi quy GMM (Hansen
1982), do vậy được gọi là difference GMM.

• Phương pháp Arellano–Bover/Blundell–Bond System GMM sử dụng giả


định bổ sung là sai phân bậc 1 của biến IVs không có tương quan với fixed
effects và do vậy có thể cho ra nhiều IVs hơn, cải thiện “efficiency”.

• Phương pháp System GMM thực hiện 2 phương trình hồi quy : phương
trình hồi quy gốc (original equation) và phương trình hồi quy đã sử dụng
chuyển đổi biến sai phân và do vậy được gọi là system GMM.

• System GMM sử dụng kết hợp moment conditions của mô hình sai phân
bậc 1 và moment conditions của mô hình ở level.
100
Khắc phục Heteroskedasticity, Autocorrelation và
Endogeneity trong panel data: hồi quy GMM

Cả 2 phương pháp Difference/Dynamic GMM và System GMM đều cần


những giả định sau:
1) dữ liệu bảng với “small T, large N”
2) Mô hình có mối quan hệ tuyến tính
3) Biến phụ thuộc được giải thích bởi chính nó trong quá khứ (dynamic)
4) Các biến giai thich không hoàn toàn ngoại sinh (not strictly exogenous)
5)Tồn tại hiệu ứng cố định theo đơn vị chéo trong mô hình (fixed individual
effects)

6) Tồn tại hiện tượng heteroskedasticity và autocorrelation theo thời gian của
phần dư (within individuals) nhưng không có hiện diện của những hiện tượng
này giữa các đơn vị chéo.

101
Xtabond2 – GMM trong Stata

Tất cả các biến trong varlists có thể bao gồm cả time-series operators,
như là L., và I*.

Nguyên tắc “ngón tay cái”: số instruments không được vượt quá “số đơn vị chéo”
trong dữ liệu bảng
Xtabond2 – GMM trong Stata

▪Đối với “difference GMM”, Windmeijer (2005) chứng minh rằng “two-step
EGMM” ước lượng tốt hơn “one-step GMM”.

▪Two-step standard errors, sau khi sử dụng Windmeijer correction, cho kết quả tốt
hơn “cluster-robust one-step estimation”.

▪Đối với hồi quy one-step GMM, tùy chọn “Robust” tương đương với cluster(id) ->
cho ra Standard Errors đã khắc phục Heteroskedasticity và Autocorrelation theo
thời gian (within individuals);

▪Đối với hồi quy Two-step GMM estimation, cần tùy chọn “robust” để bao gồm
Windmeijer correction. Và như vậy Standard Errors sẽ đáng tin cậy.

▪Tùy chọn cluster() nều được họn sẽ thay thế chế độ mặc định sử dụng
Cluster(panel identifier) để định nghĩa các nhóm (groups).

▪Thay đổi “Clustering variable” sẽ ảnh hưởng tất cả kết quả đầu ra của xtabond2
và cả kết quả post-estimations.

▪Tùy chọn Cluster() chỉ có sẵn trong Mata version của xtabond2
Xtabond2 – GMM trong Stata

Nhập lại dữ liệu abdata.dat

Cú pháp xtabond2, các ví dụ:

. xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmm(L.n) iv(w L.w L(0/2).(k ys)
yr*) nolevel robust

. xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmm(L.n) iv(w L.w L(0/2).(k ys)
yr*) robust twostep

.xtabond2 n L.n L(0/1).(w k) yr*, gmmstyle(L.(n w k)) ivstyle(yr*, equation(level))


robust small

. xtabond2 n L.n w k ys i.yr*, gmmstyle(L.n k L.ys) ivstyle(i.yr* w) twostep


robust small
Xtabond2 trong Stata: ví dụ
. xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmm(L.n) iv(w L.w L(0/2).(k ys)
yr*) h(1) nolevel small
xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmm(L.n) iv(w L.w L(0/2).(k ys) yr*) h(1)
nolevel small
Xtabond2 trong Stata: ví dụ
xtabond2 n L.n L(0/1).(w k) yr*, gmmstyle(L.(n w k)) ivstyle(yr*, equation(level))
robust small
xtabond2 n L.n L(0/1).(w k) yr*, gmmstyle(L.(n w k)) ivstyle(yr*, equation(level)) robust small
Xtabond2 – GMM trong Stata

So sánh xtdpd và xtabond2

. xtdpd n L.n L(0/1).(w k) yr1978-yr1984, dgmm(w k n)


lgmm(w k n) liv(yr1978-yr1984) vce(robust) two hascons

. xtabond2 n L.n L(0/1).(w k) yr1978-yr1984, gmmstyle(L.(w


k n)) ivstyle(yr1978-yr1984, equation(level)) h(2) robust
twostep small
So sánh xtdpd và xtabond2
xtdpd n L.n L(0/1).(w k) yr1978-yr1984, dgmm(w k n) lgmm(w k n) liv(yr1978-
yr1984) vce(robust) two hascons
So sánh xtdpd và xtabond2
So sánh xtdpd và xtabond2
xtabond2 n L.n L(0/1).(w k) yr1978-yr1984, gmmstyle(L.(w k n)) ivstyle(yr1978-
yr1984) h(2) robust twostep small
So sánh xtdpd và xtabond2
So sánh xtdpd và xtabond2
Hồi quy với dữ liệu bảng và khắc phục hiện
tượng nội sinh: ivreg2 or GMM?
Những lợi thế của GMM so với IV là rất rõ ràng: nếu heteroskedasticity là hiện hữu,
ước lượng GMM hiệu quả hơn so với ước lượng IV đơn giản.

Nếu heteroskedasticity không hiện hữu, ước lượng GMM cũng không tồi tệ hơn so
với ước lượng IV.

Tuy nhiên ước lượng GMM sẽ không còn hiệu quả nếu mẫu nhỏ.

Nếu trong thực tế phần dư của ivreg2 không có hiện tượng phương sai thay đổi
(homoskedastic), ước lượng IV sẽ thích hợp hơn GMM.

Vì lý do này, kiểm định sự hiện diện của heteroskedasticity khi mô hình hồi quy có
một hoặc nhiều biến là nội sinh rất hữu ích trong việc quyết định phương pháp IV hay
GMM.

Kiểm định này đã được đề xuất bởi Pagan và Hall (1983), và có thể được thực hiện
trong Stata bằng câu lệnh ivhettest
Hồi quy với dữ liệu bảng và khắc phục hiện
tượng nội sinh: ivreg2 or GMM?

Stata mặc định không có sẵn câu lệnh ivreg2 và ivhettest


-> findit ivreg2
-> findit ivhetetest

Sau đó chọn install:


Hồi quy với dữ liệu bảng và khắc phục hiện
tượng nội sinh: ivreg2

CÚ PHÁP

ivreg2 depvar [varlist1] (varlist2=varlist_iv) [,


2sls/gmm/liml bw(#) cue robust cluster(varname)
orthog(varlist_ex) endog(varlist_en)
redundant(varlist_ex) small noconstant first
Hồi quy với dữ liệu bảng và khắc phục hiện
tượng nội sinh: ivreg2
ivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) D.(L2.dt_at cfl_at L.cfl_at ebitdam_at
L.ebitdam_at L2.ebitdam_at), 2sls robust first

Rule of thumb: khi mô hình có nhiều hơn 2 biến nội sinh

▪standard partial R2 >> Shea measure -> biến công cụ yếu và không đủ để giải thích
endogenous regressors -> unidentified model

▪“weak instrument” problem if p-value trong khoảng (5% or 1%)


Hansen J kiểm định “excluded instruments” có phải là các biến công cụ có
giá trị hay không (H0 : những biến IV này không có tương quan với phần dư)
. ivendog (chỉ khi không sử dụng tùy chọn “robust”)

. ivhettest

. overid (chỉ khi không sử dụng tùy chọn “robust”


Hồi quy với dữ liệu bảng có hiệu ứng cố định
và khắc phục hiện tượng nội sinh: xtivreg2

CÚ PHÁP

xtivreg2 depvar [varlist1] (varlist2=varlist_iv) , {fe | fd} [ivar(varname)

tvar(varname) gmm cue robust cluster(varlist) orthog(varlist_ex)

endog(varlist_en) redundant(varlist_ex) small noconstant first ffirst

VÍ DỤ

. xtivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) cfl_at L.cfl_at


ebitdam_at L.ebitdam_at , fd endog(D.L.dt_at) orthog(mkvalt_at)
first robust
. xtivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) cfl_at L.cfl_at ebitdam_at
L.ebitdam_at , fd endog(D.L.dt_at) orthog(mkvalt_at) first robust
. xtivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) cfl_at L.cfl_at
ebitdam_at L.ebitdam_at , fd endog(D.L.dt_at) orthog(mkvalt_at)
first robust
. xtivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) cfl_at L.cfl_at ebitdam_at
L.ebitdam_at , fd endog(D.L.dt_at) orthog(mkvalt_at) first robust
. xtivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) cfl_at L.cfl_at ebitdam_at
L.ebitdam_at , fd endog(D.L.dt_at) orthog(mkvalt_at) first robust

Hansen J kiểm định “excluded instruments” có phải là các biến công cụ có


giá trị hay không (H0 : những biến IV này không có tương quan với phần dư)
Kiểm định ràng buộc với các hệ số hồi quy
Kiểm định ràng buộc với các hệ số hồi quy

You might also like