STATA
Properties: hiển thị đặc điểm của các biến mà vừa được mở
Data:
Data -> data editor (hoặc trong ô command gõ edit) -> quan sát các số liệu đã nhập
vào stata đc hiển thị như thế nào
File số liệu khi nhập vào stata có dạng .dta (vd: wage.dta)
Cửa sổ do-file: nơi note các câu lệnh (vd: wage.do)
(khi làm việc với stata, sẽ cần chuyển đổi liên tục giữa 2 file số liệu và câu lệnh
Lưu ý: cần phải lưu lại trong do-file liên tục (tránh mất dữ liệu), cần note liên tục câu
lệnh vừa nhập dung để làm gì
VD: GDP = f(C, I, G, X, M) (chi tiêu hộ gia đình, đầu tư, chi tiêu của chính phủ, xuất,
nhập khẩu)
Data.worldbank.org -> nơi lấy dữ liệu
Databank -> Chọn mục World development indicator
Lưu ý: số liệu tải về là dạng thô. Khi nhập vào stata cần đc sắp xếp:
Time series: nhập theo cột (vn dưới: year – VN: số liệu của 1 đối tượng theo
thời gian
Time series Year country GDP FDI S(saving)
2000 VN
2001 VN
2002 VN
Panel 2000 Lao
2001 Lao
2002 Lao
Cross-section (số liệu chéo – ít được sử dụng, trừ khi cá nhân tự điều tra – của
nhiều đối tượng tại 1 thời điểm
Cross section Year Country GDP FDI Saving
2000 VN
2000 Lao
2000 Thailand
Lưu ý khi download từ các website thì tên biến rất dài -> cần tạo biến mới với
tên ngắn gọn nhưng rõ nghĩa – khi nhập vào stata sẽ dễ hơn
Câu lệnh Clear: yêu cầu xóa toàn bộ trong stata, bắt đầu phiên làm việc mới
File -> Import -> excel spreadsheet -> browse -> chọn đúng sheet -> import 1st row
as… -> ok -> có thể copy câu lệnh vừa hiện lên màn hình vào do-file để lưu trữ
Mở file số liệu gốc vừa mở trên data editor -> save (giữ nguyên ko thay đổi số liệu
gốc này)
Có một số cột hiển thị đỏ -> do đang hiểu là số liệu chữ. Lưu ý với saving và FDI đỏ
do đang lẫn 1 số chữ NA (strings) -> cần chuyển về dạng số, với các cột có NA, thì
chuyển về missing value – số liệu thiếu/trống
Đơn vị tính đang là USD -> chuỗi số dài -> chuyển về tỉ USD để chuỗi số ngắn hơn
Dán lại nhãn (label) cho các biến
Chuyển số liệu từ dạng chữ sang dạng số: data -> create or change data
Copy lệnh destring vào do-file + save
Lệnh encode: cho chuyển số liệu dạng chữ sang số nhưng dưới dạng chuỗi
Lệnh Destring:
Lệnh Label: dán nhãn cho các biến (them định nghĩa, khái niệm ->
Missing values -> làm giảm số lượng quan sát -> khi chuyển sang dạng logarit có thể
cộng them vào mỗi cái 0.1) để ko bị mất giá trị quan sát (có thể cộng vào tất cả các
biến hoặc chỉ cộng vào chuỗi có chứa missing value). (Lưu ý: cần tìm hiểu xem số
liệu trống là do không được thống kê hay là do ko có). KHông có nguyên tắc chung
khi xử lý số liệu trống
Lệnh DROP: xóa 1 biến vừa lạo
Nếu chỉ sử dụng lệnh list và tên các biến thì sẽ tự động liệt kê từ dòng đầu tiên đến
cuối cùng -> thường dung kèm với lệnh if để quan sát một số giá trị quan sát nào đấy
mà chúng ta nghi ngờ, chứ trong bài sẽ không dùng
Lệnh summerize:
Nhược điểm lệnh table: không hiển thị được hết thông tin muốn hiển thị, người sử
dụng cần điền thêm; chỉ có thể tạo ra được tối đa 5 cột, quá 5 cột sẽ rất xấu -> chỉ phát
huy hiệu quả khi số lượng danh sách biến ko nhiều và cũng ko nhiều chỉ tiêu để tạo
bảng.
[CÁCH PHÂN TÍCH HỒI QUY
TUYẾN TÍNH TRÊN STATA
Kết quả hồi quy mô hình cho thấy: - Số lượng quan sát của mô hình là 90 quan sát, hệ
số P-value của mô hình = 0.0001 <0.01 cho thấy mô hình có ý nghĩa ở mức 1% - Hệ
số R-Squared = 0.2726, cho biêt các biến độc lập giải thích được 27,26% cho biến phụ
thuộc - Hệ số Root MSE = 1.4217 cho biết độ lệch chuẩn của mô hình 1.4217 - Trong
các biến giải thích, biến gdp, inf và edu_expen_2 có hệ số P-value >0.05, điều này cho
thấy các biến này không có ý nghĩa trong mô hình; các biến còn lại là fdi và pop có ý
nghĩa trong mô hình do có hệ số P-value <0.05 - Hệ số của fdi =0.0000298 với độ lệch
chuẩn rất nhỏ là 7.80*10^-6, cho biết, trong điều kiện các yếu tố khác không đổi, khi
vốn đầu tư trực tiếp nước ngoài tăng thêm 1 triệu US$ thì tỷ lệ thất nghiệp tăng thêm
một lượng rất nhỏ là 0.0000298%, điều này đi ngược lại với lý thuyết cho rằng khi gia
tăng nguồn vốn FDI sẽ tạo thêm việc làm cho người lao động, từ đó giảm tỷ lệ thất
nghiệp. Kết quả này có thê được giải thích như sau: dữ liệu sử dụng để hồi quy được
lấy từ năm 2006 đến năm 2020 ở các quốc gia indonesia, malaysia, philippin,
singapore, thái lan, việt nam, trong đó năm 2020 là năm nền kinh tế toàn cầu bị ảnh
hưởng bởi đại dịch Covid-19, chuỗi cung ứng bị đứt gãy đồng thời các chính sách thắt
chặt đi lại của các nước đã khiến hoạt động kinh doanh của các doanh nghiệp bị
ngưng trệ, vì thế tỷ lệ thất nghiệp gia tăng một cách đáng kể trong thời gian này, cao
hơn rất nhiều so với các năm trươc ở tât cả các nền kinh tế trên thế giới. Tuy nhiên hệ
số hồi quy ở mức rất nhỏ 0.0000298%, cho thấy trong tương lai, khi dịch Covid-19
được kiểm soát, các nền kinh tế hoạt động bình thường thì việc gia tăng fdi có thể
được kỳ vọng sẽ làm giảm tỷ lệ thất nghiệp - Hệ số pop = 1.44*10^-8 với độ lệch
chuẩn rất nhỏ là 4.4*10^-8, cho biết, trong điều kiện các yếu tố khác không đổi, khi
dân số tăng thêm 100 triệu người thì tỷ lệ thất nghiệp tăng thêm 1.44%. Điều này phù
hợp với thực tế khi dân số ngày càng tăng thì tỷ lệ thất nghiệp sẽ càng tăng. Cụ thể,
khi dân số tăng nhanh sẽ làm dồi dào hơn nguồn lực lao động, dẫn đến sự cạnh tranh
cao trong việc làm vì thế tỷ lệ thất nghiệp sẽ gia tăng.
CHƯƠNG 5: ĐA CỘNG TUYẾN
Giả thiết 6 (mô hình HQTT cổ điển): không tồn tại mối quan hệ tuyến tính hoàn hảo
giữa các biến độc lập -> ĐCT chỉ xảy ra ở mô hình HQ đa biến
Mục tiêu của GT:
Làm tách biệt ảnh hưởng của từng biến lên giá trị của biến phụ thuộc
Hệ số hồi quy beta(j) cho chúng ta biến giá trị trung bình của biến phụ thuộc sẽ
thay đổi như thế nào khi các biến độc lập X(j) tăng 1 đơn vị và các biến độc lập khác
giữ nguyên
Nếu các biến độc lập tương quan lẫn nhau?
Bản chất đa cộng tuyết: khuyết tật của mô hình; trong MHHQTT có sự phụ thuộc
tuyến tính cao giữa các biến giải thích; 2 dạng ĐCT theo mmucws độ tương qua giữa
các biến độc lập (hoàn hảo + không hoàn hảo)
Đa cộng tuyến hoàn hảo -> khi có thể biểu diễn biến giải thích này thông qua biến giải
thích khác
Đa cộng tuyến không hoàn hảo -> có thể biểu diễn thông qua các biến giải thích khác,
và có them phần dư V(i)
Mức độ đa cộng tuyến
Không có ĐCT
ĐCT thấp: các biến gt có tương quan lẫn nhau nhưng ở mức độ rất thấp, có thể
chap nhận đc
ĐCT cao: không chấp nhận đc, nhưng có thể có 1 số giải pháp để xử lý
ĐCT hoàn hảo: X2 nằm trọn trong X3 và ngược lại -> mô hình chạy ko ra kết
quả (do 2 biến giải thích thực chất là một biến) -> giải pháp tệ nhất là loại bỏ 1 trong 2
biến ra khỏi mô hình
Ước lượng các tham số khi có đa cộng tuyến
ĐCT hoàn hảo: hệ số hồi quy trong mô hình sẽ ko xác định đc, không thể ước lượng
đc tất cả các tham số của mô hình hồi quy
ĐCT không hoàn hảo: vẫn ước lượng ra đc kết quả, tuy nhiên các tham số của mô
hình thường không có ý nghĩa
Nguồn gốc ĐCT
Do phuuongw pháp thu thập dữ liệu
Dạng hàm mô hình
Số liệu vĩ mô theo chuỗi thời gian
Hệ quả ĐCT
ĐCT không hoàn hảo:
Phương sai và sai số chuẩn của các ước lượng OLS lớn
Khoảng tin cậy lơn hơn -> đem lại ít thông tin hoặc thông tin ko có ý nghĩa về
vệ số hồi quy của mô hình tổng thể. (khoảng tin cậy càng nhỏ càng tốt)
Giá trị kiểm định t nhỏ hơn
Hệ số xác định R2 cao và các giá trị kiểm định t nhỏ
Các ước lượng và sai số tiêu chuẩn trpwr mêm rất nhạy cảm với những thay đổi
nhỏ trong số liệu hay them bớt biến giải thích (khi chạy ở các mô hình khác nhau sẽ ra
những kết quả rất khác nhau)
Dấu của các ước lượng hồi quy có thể sai (trái với lý thuyết)
Phát hiện ĐCT
Hệ số xác định R2 cao (>0.8) nhưng giá trị kiểm định t thấp I=(hệ số hồi quy ko
có ý nghĩa thống kê)
Ma trận tương quan (tương quan giữa các cặp biến giải thích) (r>0.8 -> ĐCT)
Hồi quy phụ (thay vai trò các biến giải thích lần lượt vào vai trò của các biến
phụ thuộc. nếu hệ số R2 của mô hình hồi quy phụ cao -> tương quan cao giữa các biến
giải thích. Hạn chế, nếu mô hình có k biến thì phải chạy k-1 mô hình hồi quy phụ ->
ko biết chính xác có hiện tượng ở cặp biến nào -> ko phải lúc nào cũng là ý hay
Nhân tử phóng đại phương sai (VIF = 1, ko có đa cộng tuyến) (mô hình càng
nhiều biến độc lập thì R2 càng cao (tốt – càng giải thích tốt hơn cho mô hình), đồng
thời dẫn đến VIF càng lớn -> xác suất xra đa cộng tuyến càng cao. Thường thì VIF >
1, tuy nhiên thường chấp nhận ở mức thấp (VIF <10), hay coi như ko xra hiện tượng
ĐCT, nếu VIF > 1 thì bắt buộc phải can thiệp (VD: Vì VIF = 3,5 < 10 nên có hiện
tượng ĐCT nhưng ở mức thấp nên vẫn có thể chấp nhận đc)
Khắc phục ĐCT
Bỏ qua (khi vấn đề ko quá nghiêm trọng: VIF <10; R2 của mô hình hồi quy
chính cao hơn R2 của mô hình hồi quy phụ; nếu mục tiêu xây dựng mô hình là để ước
lượng, dự báo chứ ko phải để kiểm định)
Sử dụng thông tin có trước (các mô hình đã đc sử dụng -> kế thừa, phát triển
các mô hình đó do đã đc kiểm chứng, thực nghiệm -> giúp hạn chế đc việc định dạng
sai mô hình)
Thu thập thêm số liệu hoặc lấy mẫu số liệu mới (tăng kích thước mẫu – càng
lớn thì càng gần tổng thể, nên xác suất nó phản ánh được tổng thể càng cao; lấy mẫu
số liệu khác)
Kết hợp số liệu chéo và số liệu thời gian: sử dụng số liệu bảng (panel data) ->
giảm thiếu tác động của ĐCT
Bỏ đi biến độc lập có đa cộng tuyến (1 hoặc 1 số biến không quan trọng trong
mô hình, cần thận trọng trong việc bỏ biến để tránh định dạng sai mô hình hoặc mô
hình ko còn thích hợp n; so sánh hệ số xác định hoặc hệ số xác định hiệu chỉnh của
các nô hình
Thay đổi biến: tìm hiểu thêm interaction variables, đây là phương pháp rất
hay đc sử dụng
CHƯƠNG 6: PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI
Thường gặp trong số liệu chéo (do quan sát nhiều đối tượng tại cùng 1 thời điểm ->
phương sai của các biến thường thay đổi
Hậu quả:
Phương pháp bình phương nhỏ nhất có trọng số
Phát hiện phương sai thay đổi
Khắc phục
Chạy mô hình hồi quy ln toàn tập -> cho phép giảm độ lệch chuẩn rất tốt. đc sử
dụng trong trường hợp hiện tượng phương sai thay đổi mạnh
GLS/WLS (WLS0 cho phép tính toán mô hình hồi quy lấy trọng số các biến số
trong mô hình; OLS
Lưu ý khi chuyển đổi mô hình: tham khảo ảnh chụp
CHƯƠNG 7: TỰ TƯƠNG QUAN
Bản chất:
Phân biệt: tự tương quan không gian, tự tương quan thời gian
Nếu xảy ra sự tương quan giữa thời điểm t và thời điểm t-1 -> tự tương quan bậc 1.
Tuy nhiên có nhiều chuỗi thời gian có bước nhảy (vd cứ cách 2 năm lại có tự tương
quan) -> tự tương quan bậc 2,…
Vấn đề TTQ thường xảy ra trong chuỗi thời gian (time series) -> khi làm cần bổ sung
thêm Kiểm tra tính dừng của chuỗi (Stationary test) – đọc thêm
Các bước chạy mô hình (thứ tự)
Kiểm tra các vấn đề khuyết tật của mô hình (diagnostic tests)
Regression (chạy mô hình)
Post estimations
- Robustness check: kiểm tra tính vững của mô hình/ kết quả hồi quy (có
nhiều phương pháp chạy: có thể sử dụng các mẫu quan sát khác để chạy
lại)
Nguyên nhân: khách quan (tính nhất quán của chuỗi số liệu; hiện tượng trễ - biến phụ
thuộc ở thời kỳ t phụ thuộc vào chính biến đó ở thời kỳ t – 1 – vd tác động của FDI
đến GDP, trên thực tế không phải đầu tư năm nay sẽ ảnh hưởng ngay đến GDP của
năm đó mà thường phải mất thời gian một hoặc vài năm; hiện tượng mạng nhện
Cobweb – phản ứng của cung sản phẩm đối với giá thường có một khoảng trễ về thời
gian – vd được giá mất mùa, được mùa mất giá), chủ quan (do định dạng sai mô hình
– thiếu biến quan trọng hay thừa biến không cần thiết; do xử lý số liệu quá đà- gây
mất các đặc tính thực sự của chuỗi)
Hậu quả: vi phạm giả thiết của phương pháp hồi quy TT cổ điển, Phương sai ko đạt
giá trị cực tiểu, các ước lượng của phương sai chệch, nhìn chung tương tự đa cộng
tuyến hay phương sai sai số thay đổi
Phát hiện tự tương quan:
- Phương pháp định tính: đồ thị (dùng đồ thị của phần dư et theo thời gian
hay theo et-1 (nếu thấy có biến thiên – tuy nhiên phương pháp này có thể
chỉ củng cố đc về mặt hình ảnh chứ chưa xác định được có TTQ hay
không, và TTQ cùng chiều hay ngược chiều, đôi khi rất khó để nhìn thấy
xu hướng của phần dư đó
- Phương pháp định lượng:
+ Dùng kiểm định d của Durbin – Watson. Hạn chế: trường hợp giá trị d
nằm giữa các giá trị 0, 2, 4 -> gọi đây là những vùng không đủ chứng cứ
để đưa ra kết luận -> làm thêm kiểm định Durbin – Watson mở rộng để
đưa ra kết luận trực tiếp (làm thẳng thay vì dùng Durbin – Watson). Yêu
cầu: mô hình HQ phải có hệ số chặn; Xi xác định từ trước; các nhiễu có
tương quan bậc 1 (có nghĩa D- W chỉ chạy đc tương quan bậc 1); mô
hình ko chứa giá trị trễ của biến phụ thuộc vo9ws vai trò biến độc laapk;
khồn có quan sát bị mất trong dữ liệu (ko có missing values – strong
data, not unbalanced data); chỉ chạy đc với times series
+ Dùng kiểm định Breusch – Godfrey: có thể kiểm tra tự tương quan
đến bậc cao hơn – p, nhưng cũng chỉ chạy đc cho time series, ko dùng
đc panel data
Khắc phục TTQ: mục đích là để chuyển mô hình ban đầu có khuyết tật thành mô
hình mới có cùng hệ số…