2. Bài tập thực hành máy tính tái tạo kết quả hồi quy dữ liệu bảng trong slides sử dụng Stata

1.
Nhập dữ liệu vào Stata

- File -> Import -> Excel Speadsheet (*.xls, *.xlsx): Vào File nhấn Import và chọn file
có định dạng *.xls hoặc *.xlsx
- Cửa sổ import excel - Import Excel files hiện lên
- Nhấn vào Browse… và chọn file CH5_Paneldata_USCompany.xls
- Chọn Import first row as variable names: Nhập hàng đầu tiên dưới dạng tên biến
2. Kiểm tra dữ liệu
a. Chuyển đổi dữ liệu “string” (màu đỏ) sang numeric (màu xanh)
b. Xóa một hay nhiều biến khỏi cơ sở dữ liệu trong Stata
3. Khai báo dữ liệu bảng vào Stata
- Khai báo biến không gian (ncompany) và biến thời gian (year)
Kết quả: Hình trên cho thấy dữ liệu bảng đầy, không có một ô trống nào.
4. Thống kê dữ liệu - Stata

- Thống kế dữ liệu các biến gồm số quan sát, giá trị trung bình, sai số chuẩn, giá
trị lớn nhất và nhỏ nhất
- Thống kê dữ liệu chi tiết các biến gồm điểm phân vị, giá trị lớn nhất và nhỏ
nhất, số quan sát, tổng trọng lượng, giá trị trung bình, sai số chuẩn, Phương sai,
chỉ số skewness và kurtosis.
Kết quả: Đối với biến dt_at, trung vị bằng 0.139673, giá trị nằm trong khoảng 0 đến
0.4576326, số quan sát là 3612 và tổng trọng lượng là 3612, giá trị trung bình là
0.1489381, phương sai và sai số chuẩn lần lượt là 0.0193387 và 0.1390637, Chỉ số
Skewness và Kurtosis là 0.6404326 và 2.426161.
5. Ma trận hệ số tương quan
- Ma trận hệ số tương quan của các biến không có hệ số sig
- Ma trận hệ số tương quan của các biến có số quan sát và có hệ số sig
Kết quả: Nhìn hình trên có thể thấy được biến dt_at có mối tương quan dương với
biến mkvalt_at, dv_eps, cfl_at, capx_at, ebitdam_at. Còn biến dt_at có mối tương
quan âm với biến sale_at.
6. Kiểm định hiện tượng đa cộng tuyến
- Trước khi kiểm định hiện tượng đa cộng tuyến, ta phải hồi quy dữ liệu bảng
Pooled OLS.
Kết quả: Biến mkvalt_at có VIF>10 và giá trị dung sai nhỏ hơn 0.1 (0.07): hiện tượng
đa cộng tuyến cần được loại bỏ khỏi mô hình.
7. Hồi quy dữ liệu bảng trong stata
a. Pooled OLS và kiểm định phương sai sai số thay đổi
- Hồi quy Pooled OLS
Kết quả: Nhìn hình trên, ta dễ dàng thấy biến capx_at không có ý nghĩa thống kê. Còn
các biến còn lại đều có ý nghĩa thống kê và có mối quan hệ tương quan dương với
biến dt_at ngoại trừ biến cfl_at. Mô hình là chưa tốt vì có R bình phương hiệu chỉnh là
31.08%.
- Kiểm định Heteroskedasticity: kiểm định phương sai thay đổi theo kiểu normal
và idd.
Kết quả: Theo kiểm định Heteroskedasticity normal hay idd thì đều có Prob>chi2 nhỏ
hơn 0.05 nên đều bác bỏ H0. Vậy là phương sai có thay đổi.
b. Fixed Effect
- Hồi quy với hiệu ứng cố định mặc định - Within transfomation (Demeanded)
Kết quả: Nhìn hình trên, ta thấy không có biến nào có ý nghĩa thống kê.
- Hồi quy với hiệu ứng cố định ở giữa (Between Regression)

Kết quả: Các biến dv_eps, capx_at và ebitdam_at có ý nghĩa thống kê và có mối quan
hệ cùng chiều với biến dt_at. Còn biến cfl_at cũng có ý nghĩa thống kê nhưng có mối
quan hệ ngược chiều với biến dt_at.
- Kiểm định sự cần thiết sử dụng - Fixed Effect
Kết quả: Hình trên cho thấy trong mô hình không tồn tại nhân tố vô hình nào (u_i=0)
và Prob>F = 0.0000 cho biết mô hình hồi quy với hiệu ứng cố định (fem) tốt hơn mô
hình hồi quy Pooled OLS.
- Kiểm định sự cần thiết sử dụng time-fixed effects
Kết quả: Với H0 là không cần thiết sử dụng time-fixed effects. Mà Prob>F = 0.9938
lớn hơn 0.05 thì không thể bác bỏ khác 0. Vậy sử dụng time-fixed effect là không cần
thiết.
c. Random Effect
Kết quả: Hình trên cho thấy biến capx_at không có ý nghĩa thống kê. Và biến dv_eps
và biến ebitdam có ý nghĩa thống kê và có mối quan hệ tương quan dương với biến
dt_at. Còn biến cfl_at cũng có ý nghĩa thống kê nhưng có mối quan hệ ngược chiều
với biến dt_at.
- Lựa chọn giữa mô hình hiệu ứng cố định (fem) và mô hình hiệu ứng ngẫu
nhiên (rem)
+ Kiểm định Hausman:
Bước 1: Hồi quy lại với mô hình với hiệu ứng cố định mặc định
Bước 2: Lưu hồi quy với mô hình hiệu ứng cố định với tên fixed
Bước 3: Hồi quy lại với mô hình với hiệu ứng ngẫu nhiên
Bước 4: Kiểm định hausman để chọn chọn mô hình tốt nhất giữa fem và rem
+ Kiểm định Breusch and Pagan

Bước 1: Hồi quy lại với mô hình với hiệu ứng ngẫu nhiên có biến i.year
Bước 2: Kiểm định Breusch and Pagan
Kết quả: Hai cách kiểm định trên đều cho ra cùng một kết quả là mô hình hồi quy với
hiệu ứng cố định (fem) tốt hơn
8. Kiểm định tính dừng khi hồi quy với panel data
Kết quả: Biến dt_at có tính dừng.

9. Kiểm định hiện tượng phương sai thay đổi (Heteroskedasticity) khi hồi quy
panel data và giả định “No Correlation”
Bước 1: Hồi quy GLS với hiện tượng phương sai thay đổi và giả định là không có
hiện tượng tự tương quan.
Bước 2: Lưu hồi quy GLS với tên hetero
Bước 3: Tiếp tục hồi quy GLS với phương sai không đổi (phương sai đồng nhất) và
giả định là không có hiện tượng tự tương quan.
Bước 4: tạo df tạm thời
Bước 5: Kiểm định Likelihood giữa mô hình GLS có phương sai thay đổi (hetero) và
mô hình GLS với phương sai không đổi.
10. Kiểm định hiện tượng phương sai thay đổi (Heteroskedasticity test) khi hồi
quy với panel data (fixed effects)
Bước 1: Hồi quy lại với mô hình hiệu ứng cố định
Bước 2: Dùng lệnh xttest3 để kiểm định hiện tượng phương sai thay đổi với H0:
không có phương sai thay đổi
Kết quả: Prob>chi2 nhỏ hơn 0.05 => Bác bỏ H0. Vậy có hiện tượng phương sai thay
đổi
11. Kiểm định hiện tượng tự tương quan
Kết quả: Prob>chi2 nhỏ hơn 0.05 => Bác bỏ H0. Vậy có hiện tượng tự tương quan.
12. Khắc phục hiện tượng Heteroskedasticity và Autocorrelation khi hồi quy với
panel data
Kết quả: Sau khi khắc phục hiện tượng phương sai thay đổi và hiện tượng tự tương
quan, có 2 biến cfl_at và capx_at không có ý nghĩa thống kê. Còn 3 biến mkvalt_at,
dv_eps và ebitdam_at có ý nghĩa thống kê và có mối quan hệ cùng chiều với biến
dt_at.
13. Khắc phục hiện tượng Heteroskedasticity và Autocorrelation khi hồi quy với
panel data - STATA
- xtreg dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at, fe robust
- Lệnh xtreg, fe robust dùng để hồi quy mô hình cố định FEM có 1 biến phụ
thuộc dt_at và 5 biến độc lập mkvalt_at dv_eps cfl_at capx_at ebitdam_at theo
phương trình mô hình sai số chuẩn mạnh khi thêm từ robust.
- Ước lượng mô hình sai số chuẩn mạnh sẽ (Robust Standard Errors Model)
cho một kết quả ước lượng đúng của sai số chuẩn trong đó chấp nhận sự hiện
diện của hiện tượng phương sai thay đổi (heteroskedasticity).
14. 2SLS - Ứng dụng trong tài chính doanh nghiệp
a. ivregress 2sls D.dt_at (mkvalt_at= zscore i.dividend_policy) D.(L1.dt_at

cfl_at L.cfl_at ebitdam_at L.ebitdam_at L2.ebitdam_at)
- Lệnh ivregress phù hợp với các mô hình tuyến tính trong đó một hoặc nhiều
biến hồi quy được xác định nội sinh. Lệnh ivregress được hỗ trợ ước tính thông
qua Mô hình bình phương nhỏ nhất hai giai đoạn (2SLS), Mô hình thông tin
hạn chế hợp lý tối đa (LIML) và phương pháp tổng quát của các khoảnh khắc
(GMM). Ở đây chúng ta sẽ sử dụng mô hình 2SLS. Mô hình 2SLS có thể khắc
phục được hiện tượng nội sinh.
- Lệnh ivregress estimator depvar [varlist1] (varlist2 = varlistiv) [if] [in]
[weight]
+ Ước lượng estimator là mô hình bình phương nhỏ nhất hai giai đoạn
(2SLS)
+ varlist1 D.dt_at là danh sách biến ngoại sinh
+ varlist2 = varlistiv mkvalt_at= zscore i.dividend_policy là danh sách

biến nội sinh = danh sách các biến công cụ iv nghĩa là biến ngoại sinh được sử
dụng với varlist1 làm công cụ cho varlist2.
- Ta có biến zscore i.dividend_policy là biến động giải thích cho biến

mkvalt_at.
b. estat endogenous
- Lệnh estat endogenous thực hiện các kiểm định để xác định liệu các biến hồi
quy nội sinh trong mô hình có thực sự là ngoại sinh hay không
H0: Biến mkvalt_at là biến ngoại sinh
H1: Biến mkvalt_at không là biến ngoại sinh
- Ta có p=0,0000 < 5% → Bác bỏ giả thuyết H0

→ Biến mkvalt_at không là biến ngoại sinh
c. estat firststage
- Sau khi ước tính ivegress chúng ta nên kiểm tra để đảm bảo rằng các công cụ
có tương quan đầy đủ với biến mkavlt_at . Chúng ta có thể làm điều đó bằng
cách sử dụng estat firststage:
+ Lệnh estat firststage để có được các số liệu thống kê khác nhau đo lường
mức độ liên quan của các biến ngoại sinh bị loại trừ.
+ Tất cả các số liệu thống kê R2 đều tương đối cao ( đều giải thích được hơn
80% ý nghĩa mô hình) , vì vậy chúng không ngụ ý vấn đề biến công cụ chúng
ta đang sử dụng bị yếu.
+ Thống kê F 2483,62 cao hơn ngưỡng thường được sử dụng là 10. Bởi vì
nhóm chúng em đang sử dụng công cụ ước tính 2SLS nên chúng em sẽ nhìn
vào dòng đầu của các giá trị tới hạn ở Bảng thứ 2.
+ Giả sử rằng chúng ta sẵn sàng chấp nhận tỷ lệ bác bỏ nhiều nhất là 10% của
phép thử Wald 5% danh nghĩa. Ở đây chúng ta Bác bỏ giả thuyết H 0 cho rằng
biến công cụ đang sử dụng bị yếu, bởi vì t-test là 2483,62 > giá trị tới hạn của
nó là 24,58.
- Biến công cụ sử dụng không bị yếu.
+ Nếu xét dựa trên 2SLS relative bias - sai lệch tương đối là 5%, chúng ta vẫn
sẽ kết luận rằng các công cụ của chúng ta sử dụng không yếu vì 2483,62 >
16,85
d. estat overid
- Kiểm tra các hạn chế xác định quá mức để xác minh tính hợp lệ của các biến
công cụ bị loại trừ.
H0: Các biến công cụ là hợp lệ
H1: Các biến công cụ là không hợp lệ
p-value =0,0000 < 5%
→ Bác bỏ giả thuyết H0
→ Kết luận rằng các biến công cụ đang sử dụng là không hợp lệ
e. ivregress 2sls D.dt_at (mkvalt_at= zscore i.dividend_policy) D.(L1.dt_at
cfl_at L.cfl_at ebitdam_at L.ebitdam_at L2.ebitdam_at), vce(robust)
- Lệnh vce() xác định cách ước lượng ma trận phương sai–hiệp phương sai
(VCE) tương ứng đến các ước lượng tham số. Các lỗi tiêu chuẩn được báo cáo
trong bảng ước tính tham số là căn bậc hai của phương sai (các phần tử đường
chéo) của VCE
- Lệnh vce(robust): Ước lượng mô hình sai số chuẩn mạnh còn được gọi là ước
lượng Hubber/White hay “Sandwich” estimator. Ước lượng này sẽ cho một kết
quả ước lượng đúng của sai số chuẩn trong đó chấp nhận sự hiện diện của hiện
tượng phương sai thay đổi (heteroskedasticity).
- Chúng ta thực hiện lại mô hình bình phương nhỏ nhất hai giai đoạn (2SLS) với
ước lượng sai số chuẩn mạnh
f. estat overid
- Kiểm tra các hạn chế xác định quá mức để xác minh tính hợp lệ của các biến
công cụ bị loại trừ.
H0: Các biến công cụ là hợp lệ

H1: Các biến công cụ là không hợp lệ
p-value =0,0000 < 5%
→ Bác bỏ giả thuyết H0
→ Và lần nữa kết luận rằng các biến công cụ đang sử dụng là không hợp lệ
15. Xtabond2 – GMM trong Stata
- Nhập dataset “abdata.dta”
xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmm(L.n) iv(w L.w L(0/2).(k ys)
yr*) h(1) nolevel small
xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmm(L.n) iv(w L.w L(0/2).(k ys)
yr*) h(1) nolevel small
xtabond2 n L.n L(0/1).(w k) yr*, gmmstyle(L.(n w k)) ivstyle(yr*,
equation(level)) robust small
xtabond2 n L.n L(0/1).(w k) yr*, gmmstyle(L.(n w k)) ivstyle(yr*,
equation(level)) robust small
- So sánh xtdpd và xtabond2
xtdpd n L.n L(0/1).(w k) yr1978-yr1984, dgmm(w k n) lgmm(w k n)

liv(yr1978- yr1984) vce(robust) two hascons
xtabond2 n L.n L(0/1).(w k) yr1978-yr1984, gmmstyle(L.(w k n))
ivstyle(yr1978- yr1984) h(2) robust twostep small
- xtabond2 để thực hiện các ước lượng GMM cho các bảng T nhỏ, N lớn và có
xét đến các ảnh hưởng cố định (fixed effect). Lệnh xtabond2 còn cho phép giải
quyết các vấn đề phương sai thay đổi, tự tương quan của thành phần sai số
nhiễu. Tuy nhiên, nó chưa giải quyết vấn đề tương quan chéo giữa các đơn vị
bảng.
- xtdpd để khắc phục vấn đề trung bình trượt của phần dư.
16. Hồi quy với dữ liệu bảng có hiệu ứng cố định và khắc phục hiện tượng nội
sinh: xtivreg2
search ranktest ( Tải lệnh ranktest)
xtivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) cfl_at L.cfl_at ebitdam_at

L.ebitdam_at , fd endog(D.L.dt_at) orthog(mkvalt_at) first robust
- Chúng ta dùng lệnh để xtivreg2 để ước tính các mô hình bình phương nhỏ
nhất hai giai đoạn (2SLS) cho mô hình FEM và triển khai ước tính IV/GMM
của các mô hình dữ liệu bảng hiệu ứng cố định và sai phân bậc nhất với các
biến hồi quy nội sinh có thể có.
- xtivreg2 hỗ trợ các hiệu ứng cố định đơn giản và ước tính chênh lệch đầu tiên
không có biến nội sinh, tức là có thể bỏ qua (varlist2=varlist_iv). R 2 được báo
cáo bởi xtivreg2 cho ước tính hiệu ứng cố định là "trong bình phương R" thu
được bằng cách ước tính phương trình ở dạng độ lệch trung bình.
- Và lệnh first robust sẽ giúp áp dụng mô hình sai số chuẩn mạnh làm cho sai số
chuẩn ra kết quả kết quả ước lượng đúng và đồng thời chấp nhận sự hiện diện
của hiện tượng phương sai thay đổi (Heteroskedasticity) trong mô hình.
2
- R một phần đưa ra tỷ lệ biến thiên được giải thích bởi các biến giải thích trong
mô hình (er) đầy đủ mà không thể giải thích được bằng các biến giải thích
trong mô hình rút gọn. Nó có thể có ý nghĩa về mặt thống kê, nhưng chỉ giải
thích được 1% Tổng bình phương. Ở đây R 2 một phần = 0,0636 có nghĩa là
biến độc lập giải thích 6,36% sự thay đổi trong biến phụ thuộc y mà biến độc
lập x1 không giải thích được.
- Dựa theo quy tắc ngón tay cái của Stock và Watson 2003 dùng cho mô hình
bình phương nhỏ nhất hai giai đoạn 2SLS. Chúng ta sử dụng thống kê F để
kiểm tra tầm quan trọng của các công cụ bị loại trừ. Nếu thống kê F giai đoạn
đầu nhỏ hơn 10, điều này cho thấy sự hiện diện của một công cụ yếu.
- Giả thuyết:
H0: Sự hiện diện của công cụ bị loại trừ này là cao
H1: Sự hiện diện của công cụ bị loại trừ này là yếu
F(2,1661) = 43,89 > F = 10
→ Chấp nhận H0
→ Chúng ta có thể kết luận rằng sự hiện diện của công cụ bị loại trừ này là
cao.
- Underidentification test: kiểm tra xác định dưới mức với giả thuyết như sau:
H0: Ma trận hệ số dạng rút gọn có hạng =K1-1 (chưa được xác định)
H1 : Ma trận có hạng=K1 (đã xác định)
+ Đối với hệ số Kleibergen-Paap rk LM statistics: Ta có p-value (Chi-sq2) =

0,0000 < 0,05 → Bác bỏ H0
+ Đối với hệ số Kleibergen-Paap rk Wald F: Ta có p-value (Chi-sq2) = 0,0000

< 0,05 → Bác bỏ H0
→ Ma trận có hạng = K1 (đã xác định)
- Underidentification test: Thử nghiệm xác định dưới mức kiểm tra tính hợp lệ/
liên quan của bộ công cụ của nhóm sử dụng.
Với thống kê xác định dưới mức của Kleibergen-Paap Lm, nhóm chúng em
kiểm tra xem các biến công cụ bị loại trừ có tương quan với các biến hồi quy nội sinh
(Cov(z,x)≠0) hay không.
H0: Mô hình bị xác định dưới mức (Model is underidentified)
H1: Mô hình bị xác định trên mức (Model is overidentified)
Ta có p-value (Chi-sq2) = 0,0000 < 0,05
→ Bác bỏ H0 và kết luận rằng mô hình chúng ta đang bị xác định trên mức
- Weak identification test:
Thống kê của Kleibergen-Paap rk Wald F đo lường các công cụ yếu, với các
giá trị tới hạn dao động trong khoảng từ 5,53 đến 16,38, cho thấy rằng các hồi quy ở
trên có thể gặp phải vấn đề về công cụ yếu.
Đối với trường hợp chúng ta giá trị này = 43,888. Các hồi quy ở trên không gặp
vấn đề về công cụ yếu
- Hansen J Statistic:
Với thử nghiệm Hansen J về xác định quá mức, nhóm chúng em kiểm tra xem
các hạn chế của việc xác định quá mức là hợp lệ hay không, tức là không tương quan
với phần sai số Error Term (Cov (z,u)=0). Nó kiểm tra xem những hạn chế hàm ý bởi
sự tồn tại của nhiều công cụ hơn các biến hồi quy nội sinh có hợp lệ hay không.
H0: Các hạn chế của việc xác định quá mức là hợp lệ.
H1: Các hạn chế của việc xác định quá mức là không hợp lệ.
Ta có p-value = 0,1225 > 5%
→ Không thể bác bỏ H0 cho rằng việc xác định quá mức các biến công cụ là
hợp lệ

2. Bài tập thực hành máy tính tái tạo kết quả hồi quy dữ liệu bảng trong slides sử dụng Stata

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2. Bài tập thực hành máy tính tái tạo kết quả hồi quy dữ liệu bảng trong slides sử dụng Stata

Uploaded by

Copyright:

Available Formats

1.

Nhập dữ liệu vào Stata

4. Thống kê dữ liệu - Stata

- Hồi quy với hiệu ứng cố định ở giữa (Between Regression)

+ Kiểm định Breusch and Pagan

Kết quả: Biến dt_at có tính dừng.

11. Kiểm định hiện tượng tự tương quan

- xtreg dt_at mkvalt_at dv_eps cfl_at capx_at ebitdam_at, fe robust

a. ivregress 2sls D.dt_at (mkvalt_at= zscore i.dividend_policy) D.(L1.dt_at

+ varlist1 D.dt_at là danh sách biến ngoại sinh

+ varlist2 = varlistiv mkvalt_at= zscore i.dividend_policy là danh sách

- Ta có biến zscore i.dividend_policy là biến động giải thích cho biến

H0: Biến mkvalt_at là biến ngoại sinh

H1: Biến mkvalt_at không là biến ngoại sinh

- Ta có p=0,0000 < 5% → Bác bỏ giả thuyết H0

- Biến công cụ sử dụng không bị yếu.

H0: Các biến công cụ là hợp lệ

H1: Các biến công cụ là không hợp lệ

p-value =0,0000 < 5%

→ Bác bỏ giả thuyết H0

H0: Các biến công cụ là hợp lệ

p-value =0,0000 < 5%

→ Bác bỏ giả thuyết H0

15. Xtabond2 – GMM trong Stata

- Nhập dataset “abdata.dta”

xtdpd n L.n L(0/1).(w k) yr1978-yr1984, dgmm(w k n) lgmm(w k n)

search ranktest ( Tải lệnh ranktest)

xtivreg2 D.dt_at (D.L.dt_at = zscore mkvalt_at) cfl_at L.cfl_at ebitdam_at

H0: Sự hiện diện của công cụ bị loại trừ này là cao

H1: Sự hiện diện của công cụ bị loại trừ này là yếu

F(2,1661) = 43,89 > F = 10

H1 : Ma trận có hạng=K1 (đã xác định)

+ Đối với hệ số Kleibergen-Paap rk LM statistics: Ta có p-value (Chi-sq2) =

+ Đối với hệ số Kleibergen-Paap rk Wald F: Ta có p-value (Chi-sq2) = 0,0000

→ Ma trận có hạng = K1 (đã xác định)

H0: Mô hình bị xác định dưới mức (Model is underidentified)

H1: Mô hình bị xác định trên mức (Model is overidentified)

Ta có p-value (Chi-sq2) = 0,0000 < 0,05

- Weak identification test:

Ta có p-value = 0,1225 > 5%

You might also like