Professional Documents
Culture Documents
14
HƯỚNG DẪN THỰC HÀNH STATA 12 2014
LỜI MỞ ĐẦU
Stata là phần mềm xử lý số liệu rất mạnh, được sử dụng phổ biến trong
đào tạo và nghiên cứu về Kinh tế lượng.
Tài liệu Hướng dẫn thực hành Stata 12 được soạn ra để phục vụ cho
sinh viên, học viên cao học, nghiên cứu sinh, các nhà nghiên cứu muốn
tìm hiểu thực hành các kiến thức Kinh tế lượng trên phần mềm Stata
Số liệu thực hành được sử dụng trong tài liệu này có thể được tìm thấy
tại trang web http://sites.google.com/site/anhttt - mục số liệu thực
hành.
Đây là tài liệu được soạn thảo lần đầu tiên nên còn rất nhiều thiếu sót.
Mọi góp ý giúp cải thiện tài liệu xin gửi về địa chỉ mail
anhttt@gmail.com. Tác giả xin trân trọng mọi ý kiến đóng góp.
MỤC LỤC
Tên gọi Stata đƣợc viết tắt từ Statistics và data. Việc khởi động Stata có thể đƣợc thực
hiện bằng nhiều cách:
Cách 1 : Khởi động bằng cách nhấp chuột kép (double - click) vào biểu
tƣợng phần mềm trên màn hình chính (Desktop) của hệ điều hành.
- Cách 2 : Khởi động bằng cách nhấp chuột kép vài những tập tin số liệu
có phần mở rộng là dta. Đây là những tập tin số liệu củ Stata. Khi nhấp chuột kép
vào những tập tin này, hệ điều hành sẽ tự động khởi động phần mềm Stata để đọc
tập tin loại này.
Lưu ý : trong một vài trƣờng hợp, hệ điều hành chƣa nhận dạng đƣợc tập tin *.dta là
tập tin của Stata, để mở tập tin cần nhấp chuột phải trên tập tin .dta cần mở, chọn
“Open with” và chọn “Choose default program”. Sau đó nhất nút lệnh “Browse” trên
cửa sổ hiện ra và chỉ đƣờng dẫn đến nơi cài đặt Stata hoặc chỉ đƣờng dẫn đến màn
hình chính có biểu tƣợng Stata .
Giao diện của phần mềm Stata 12 sau khi khởi động sẽ gồm có 4 cửa sổ chính
Command : cửa sổ lệnh, là nơi để nhập các câu lệnh cần thực hiện
Results : cửa sổ kết quả, để hiển thị kết quả thực thi các câu lệnh
Review : cửa sổ xem lại, nơi liệt kê tất cả các câu lệnh đã sử dụng từ
khi Stata đƣợc khởi động
Variables : cửa sổ tên biến, liệt kê danh sách các biến đang đƣợc sử
dụng
Phía trên bên trái của màn hình Stata là hệ thống thực đơn chính (main menus)
Phía dƣới hệ thống thực đơn chính là thanh công cụ hiển thị các nút lệnh ứng với các
chức năng thƣờng đƣợc sử dụng của Stata
Nếu muốn nhập liệu trực tiếp vào Stata, ngƣời dùng cần sử dụng màn hình nhập liệu
(Data editor window) của Stata bằng cách nhấp chuột vào nút lệnh edit trên thanh
công cụ
Thay vì gõ số liệu trực tiếp, ta có thể sao chép số liệu từ Excel và dán vào Stata. Đầu
tiên, mở tập tin Excel có chứa dữ liệu, đánh dấu khối những dữ liệu cần sao chép (kể
cả dòng tên biến trên cùng); sau đó nhấn Ctrl+C để thực hiện sao chép. Sau đó,
chuyển qua cửa sổ nhập liệu của Stata, nhấn Ctrl + V để dán số liệu. Vì dòng đầu tiên
là tên biến nên chú ý chọn mục “Treat first row as variable name” trong hộp hội thoại
hiện ra sau khi dán dữ liệu.
Dữ liệu sau khi chuyển sang Stata nhƣ trên đã sẵn sàng cho việc xử lý.
Để việc nhập liệu đƣợc thuận tiện, Stata còn cho phép nhúng (import) một tập tin dữ
liệu có sẵn ở những định dạng khác (nhƣ txt, csv, xls, SAS…). Tuy nhiên, định dạng
thƣờng gặp nhất là xls hoặc xlsx của Excel.
Chức năng này đƣợc thực hiện bằng cách chọn mục import trong thực đơn File của
hệ thống thực đơn chính hoặc dùng lệnh import của Stata.
Sau khi chọn chức năng từ hệ thống thực đơn, cửa sổ nhúng tập tin sẽ hiện ra. Ta phải
chỉ đƣờng dẫn đến tập tin, chọn sheet có số liệu, chọn vùng có số liệu trên sheet đã
chọn. Nếu dòng đầu tiên của tập tin là tên biến thì chọn vào ô import first row as
variable name và sau đó nhấn OK
Các biến sau khi đƣợc nhập trực tiếp hoặc nhúng vào Stata sẽ hiển thị ra trong cửa sổ
Nếu đã có sẵn tập tin số liệu của Stata trên máy tính, có thể mở trực tiếp tập tin này
bằng lệnh use
Hoặc chọn từ hệ thống thực đơn File/Open và chỉ rõ đƣờng dẫn đến tập tin cần mở
trong cửa sổ hiện ra
Sau khi xử lý số liệu, kết quả xử lý số liệu đƣợc lƣu bằng nhiều cách.
Nếu muốn sao chép và xuất kết quả xử lý số liệu ra Word hoặc Excel, có thể dùng các
chức năng copy đƣợc Stata hỗ trợ. Trƣớc hết, chọn mảng kết quả cần sao chép trên
cửa số Result, nhấp chuột phải và chọn một trong số các chức năng copy trên thực
đơn hiện ra.
Mỗi chức năng copy của Stata có một định dạng khác nhau. Do đó, nên lựa chọn
chức năng phù hợp nhất với yêu cầu. Tuy nhiên, lựa chọn thông dụng nhất là copy
table để sao chép số liệu vì định dạng này giữ nguyên hàng – cột của kết quả cần sao
chép, đồng thời cho phép kẻ khung hoặc trang trí lại cách trình bày. Lựa chọn copy as
picture sẽ xuất kết quả dạng ảnh nên không thể trang trí lại theo yêu cầu.
Những kết quả thực hiện lệnh đƣợc hiển thị ra trên cửa sổ kết quả results không thể
lƣu đƣợc bằng lệnh save. Nếu muốn lƣu những kết quả này, cần sử dụng tập tin log.
Tập tin log của Stata có hai định dạng : dạng tập tin .txt và dạng tập tim .smcl . Tuy
nhiên, dạng .smcl thƣờng đƣợc sử dụng vì nó giữ nguyên định dạng kết quả mà Stata
xuất ra.
Để tạo một tập tin .smcl, dùng lệnh. Phía sau từ khóa using là đƣờng dẫn và tên của
tập tin log sẽ đƣợc tạo
Sau các thao tác trên, ở cửa sổ kết quả sẽ hiển thị các thông tin cho biết tập tin log đã
đƣợc tạo
Kể từ lúc này trở đi, các câu lệnh cũng nhƣ kết quả thực hiện câu lệnh đó sẽ đƣợc
Stata lƣu lại trong tập tin log. Sau khi kết thúc các thao tác, nếu muốn dừng lƣu và
đóng tập tin log thì dùng lệnh
Lưu ý : những kết quả thực hiện chỉ đƣợc lƣu khi tập tin log đã đƣợc tạo, có dấu hiệu
log on ở cuối cửa sổ lệnh. Những kết quả thực hiện lệnh trƣớc khi tạo tập tin log hoặc
sau khi tập tin log đã đƣợc đóng đều không đƣợc lƣu lại.
Để xóa bớt một hay nhiều biến trong số các biến đã tạo có thể dùng lệnh drop. Phía
sau tên lệnh là danh sách các biến cần xóa, mỗi tên biến cách nhau một khoảng trắng.
Nếu muốn xóa tất cả các biến trong tập tin số liệu, dùng lệnh
Nếu muốn xóa những biến có cùng những ký tự đầu trong tên giống nhau, ví vụ nhƣ
var01, var02, var03; dùng lệnh
Thay vì dùng lệnh drop, ta chọn một hoặc nhiều biến cần xóa ở cửa sổ tên biến, nhấp
chuộc phải và chọn mục Drop Selected Variables từ thực đơn hiện ra.
Nếu không dùng lệnh, có thể dùng chức năng của Stata. Trƣớc hết , cần hiển thị lại số
liệu của các biến đã có bằng lệnh
Góc trên bên phải của cửa sổ này là danh sách biến, góc dƣới là các tính chất tƣơng
ứng của biến đƣợc chọn trên danh sách biến nhƣ tên, kiểu số liệu… Do vậy, để đổi tên
biến, cần chọn biến cần đổi tên ở danh sách biến và gõ tên mới vào ô Name ở phần
properties bên dƣới.
Lưu ý : Vì Stata phân biệt chữ hoa và chữ thƣờng rất rõ ràng nên phải cẩn thận vấn đề
chữ hoa – chữ thƣờng trong tên biến. Đồng thời tên biến không đƣợc có khoảng trắng
hoặc các ký tự đặc biệt nhƣ -, *, {, +, %.% # @ ^ ….
Tên của biến mới sau khi đƣợc tạo sẽ đƣợc thêm vào cửa sổ danh sách biến ở góc phải
màn hình chính
Hoặc tạo biến DoanhThu2 bằng bình phƣơng của biến DoanhThu
Lưu ý : Một số toán tử và hàm số thƣờng dùng trong Stata khi tạo biến hoặc xử lý số
liệu
So sánh bằng ==
Để kết thúc sử dụng phần mềm Stata, có thể thoát khỏi phần mềm bằng cách gõ lệnh exit
vào cửa sổ lệnh và nhấn phím “Enter”.
Hoặc chọn mục “Exit” trong thực đơn con của mục File trong thực đơn chính
2.1. MÔ TẢ SỐ LIỆU
Trƣớc khi tiến hành hồi quy, số liệu có thể đƣợc mô tả để kiểm tra xem liệu số liệu có
phù hợp với yêu cầu nghiên cứu.
Dùng lệnh describe để mô tả các thông tin chung nhất về tập tin số liệu nhƣ số quan sát,
số biến, kích thƣớc tập tin, tên các biến, kiểu số liệu của từng biến, và nhãn của biến (nếu
có)
Lưu ý :
Nếu sau lệnh summarize mà không liệt kê tên biến, phần mềm sẽ hiển thị thông
tin của tất cả các biến hiện có trong tập tin số liệu.
Nếu muốn mô tả chi tiết, có thể tùy chọn detail vào cuối lệnh summarize sau khi
đã thêm dấu phẩy
Để vẽ đồ thị từ gốc tọa độ hoặc thêm tiêu đề, cần thêm các tùy chọn nhƣ trong câu lệnh
sau:
Hoặc có thể nhấn nút lƣu trên thanh công cụ của cửa sổ đồ thị. Sau đó chọn đƣờng dẫn và
đặt tên cho đồ thị cần lƣu. Phần mở rộng trong tên đồ thị của Stata là .gph
2.2. MÔ HÌNH HỒI QUY TUYẾN TÍNH - PHƢƠNG PHÁP OLS
Trong Stata, ngoài việc ƣớc lƣợng mô hình, phần mềm còn hỗ trợ rất nhiều các kiểm định
để đánh giá và lựa chọn mô hình
2.2.1. Ƣớc lƣợng mô hình hồi quy tuyến tính bằng phƣơng pháp OLS
Y 1 2 X 2 3 X 3 ... k X k U
Hàm hồi quy mẫu tƣơng ứng Y ˆ1 ˆ2 X 2 ˆ3 X 3 ... ˆk X k e
Việc ƣớc lƣợng mô hình hồi quy tuyến tính mẫu bằng phƣơng pháp OLS trên Stata đƣợc
thực hiện bằng lệnh regress với cú pháp nhƣ sau:
Ví dụ sau sử dụng số liệu của tập tin doanhthu.dta để hồi quy tuyến tính theo hàm hồi
quy
Trong đó :
DoanhThu thể hiện doanh thu của doanh nghiệp, đơn vị tính là triệu đồng/tháng.
ChaoHang là biến thể hiện chi phí chào hàng (triệu đồng/tháng)
QuangCao là chi phí quảng cáo của doanh nghiệp (triệu đồng/tháng)
Để hồi quy theo ví dụ trên, trƣớc hết, mở tập tin doanhthu.dta bằng Stata. Sau đó, hồi
quy bằng lệnh:
Hoặc có thể gọi chức năng hồi quy này từ hệ thống thực đơn chính Statistics/Linear
models and related/ Linear regression
Khi nhập hàm hồi quy, ta không cần nhập hệ số tự do vì Stata đã mặc định thêm hệ số tự
do vào hàm hồi quy. Kết quả hồi quy thu đƣợc nhƣ sau :
Từ kết quả trên, hàm hồi quy ƣớc lƣợng đƣợc từ mẫu số liệu bằng phƣơng pháp OLS là
Hệ số xác định R2 giúp đánh giá sự phù hợp của mô hình với mẫu nghiên cứu. Nó cho
biết mức độ giải thích của các biến độc lập với sự biến động (quanh giá trị trung bình)
của biến phụ thuộc. Ngoài R2, Stata cũng tính hệ số xác định hiệu chỉnh (Adjusted R2) và
hiển thị cả hai trên bảng kết quả hồi quy.
Và hàm hồi quy mẫu tƣơng ứng Y ˆ1 ˆ2 X 2 ˆ3 X 3 ... ˆk X k e
Khoảng tin cậy của j ,( j 1, k ) với độ tin cậy (1 ) đƣợc tính bằng công thức
ˆ t
j
2
se(ˆ j ), ˆ j t se(ˆ j )
2
Trong đó :
t là giá trị có đƣợc khi tra bảng t-Student, mức ý nghĩa 2 , bậc tự do n – k
2
Giá trị này có thể tra đƣợc bằng hàm TINV của Excel hoặc hàm invtail của Stata
se(ˆ j ) là sai số chuẩn của ˆ j , đƣợc phần mềm Stata tính sẵn
Tuy nhiên, Stata luôn tính sẵn khoảng tin cậy của hệ số hồi quy với độ tin cậy 95%.
Nếu muốn thay đổi độ tin cậy, ví dụ 99%, dùng tùy chọn level(99) sau lệnh regress
Kết quả hiển thị trên Stata hỗ trợ cả ba cách kiểm định này
H 0 : j 0
Giả sử cần kiểm định giả thuyết hai phía với độ tin cậy (1 ) và 0 là
H1 : j 0
H 0 : ChaoHang 7
Ví dụ cần kiểm định với độ tin cậy 95%
H1 : ChaoHang 7
Dùng thống kê t của kiểm định hai phía mà Stata đã tính sẵn, so sánh với
giá trị t có đƣợc khi tra bảng t-Student với mức ý nghĩa bậc tự do n – k
H 0 : j 0
Giả sử cần kiểm định giả thuyết phía phải với độ tin cậy (1 )
H1 : j 0
H 0 : ChaoHang 7
Ví dụ, để kiểm định với độ tin cậy (1 ) , sử dụng lệnh lincom nhƣ sau :
H1 : ChaoHang 7
Dùng t có đƣợc từ kết quả trên để so sánh với giá trị t có đƣợc khi tra bảng t-Student
với mức ý nghĩa bậc tự do n – k
Để tính p-value của kiểm định này, sau khi chạy lệnh lincom, có thể lần lƣợt thực hiện
các lệnh sau
Lệnh ttail() để tính p-value của kiểm định một phía dùng phân phối t-Student
Tƣơng tự nhƣ kiểm định phía phải nhƣng so sánh với giá trị t
d. Kiểm định giả thuyết đồng thời liên quan đến tổ hợp tuyến tính các hệ số hồi quy
H 0 : ChaoHang QuangCao
Giả sử cần kiểm định giả thuyết với độ tin cậy (1 )
H1 : ChaoHang QuangCao
H 0 : ChaoHang 2QuangCao
Giả sử cần kiểm định giả thuyết với độ tin cậy (1 )
H1 : ChaoHang 2QuangCao
H 0 : ChaoHang QuangCao 10
Giả sử cần kiểm định giả thuyết với độ tin cậy (1 )
H1 : ChaoHang QuangCao 10
Kết quả
Dùng lệnh sktest để kiểm định tính chuẩn của sai số. Lệnh này đòi hỏi phải có ít nhất 8
2.4. XUẤT NHIỀU KẾT QUẢ HỒI QUY DƢỚI DẠNG BẢNG
Để xuất nhiều kết quả hồi quy ra trên cùng một bảng với mỗi phƣơng trình là một cộng
trong bảng, ngƣời dùng có thể dùng lệnh esttab với ví dụ minh họa nhƣ sau
Lưu ý : nếu lệnh esttab chƣa có sẵn trong Stata, có thể cài đặt bằng cách dùng :
Hàm hồi quy tuyến tính đi qua gốc tọa độ khi hệ số tự do bằng 0. Khi đó, hồi quy tổng
thể có dạng Y 2 X 2 3 X 3 ... k X k U
Ƣớc lƣợng hàm hồi quy qua gốc tọa độ bằng lệnh regress với tùy chọn noconstant
3.2. DẠNG HÀM LOG –LOG; DẠNG HÀM LOG –LIN; DẠNG HÀM LIN – LOG
3.2.1. Dạng hàm log – log
Kết quả
Kết quả
Lưu ý : Nếu biến lnDoanhThu đã có sẵn thì không cần tạo lại bằng lệnh generate
Kết quả
Lưu ý : Nếu biến lnChaoHang đã có sẵn thì không cần tạo lại bằng lệnh generate
Giả sử cần ƣớc lƣợng hàm hồi quy DoanhThu 1 2ChaoHang 3ChaoHang 2 U
Biến định tính là những biến số kinh tế mà giá trị không thể hiện bằng những con số mà
bằng các tính chất mà bằng các lựa chọn. Để đƣa biến định tính vào hồi quy, ngƣời ta sử
dụng biến giả (Dummy variable). Biến Dummy là những biến chỉ nhận giá trị 0 và 1. Biến
này còn đƣợc gọi là biến nhị phân (Binary variable) hay là biến chỉ mục (indicator
variable)
Trong tập tin này có các biến giả NgoaiNgu, DNNN, HoKhau, GioiTinh. Việc hồi quy với
các biến giả này không có gì khác với hồi quy các biến định lƣợng thông thƣờng. Tuy
nhiên, việc giải thích hệ số hồi quy của biến giả rất khác với biến định lƣợng.
Việc hồi quy đƣợc thực hiện bằng câu lệnh sau
Giả sử cần tƣơng tác giữa biến KinhNghiem và GioiTinh để xem biến GioiTinh có làm
thay đổi tác động biên của KinhNghiem đến biến lnThuNhap hay không. Dạng hàm hồi
quy với biến tƣơng tác nhƣ sau :
Lưu ý : thay vì dùng hai lệnh để tạo ra biến tƣơng tác rồi hồi quy nhƣ trên, kết quả tƣơng
đƣơng có thể đƣợc tạo ra bằng cách dùng một lệnh duy nhất
Trong số liệu của tập tin ThuNhap_TPHCM có biến BangCap là biến định tính với các
lựa chọn PTCS(Phồ thông cơ sở), PTTH (phổ thông trung học), CD (Cao đẳng), DH (Đại
học), THS (Thạc sỹ) và KH(Khác)
Để tạo các biến giả ứng với các lựa chọn của biến bằng cấp, dùng lệnh :
Kết quả, Stata sẽ tạo ra 6 biến giả từ BangCap1 đến BangCap6 ứng với 6 lựa chọn,
đƣợc mô tả nhƣ sau
Những biến định tính đƣợc nhập vào theo kiểu số liệu numeric, thay vì tạo biến giả bằng
lệnh tabulate, có thể dùng biến factor để đƣa vào mô hình
Stata sẽ tự động thêm biến giả vào hàm hồi quy. Số biến giả thêm vào sẽ bằng số lựa
chọn của biến BangCap trừ đi 1
4.5. TƢƠNG TÁC GIỮA 2 BIẾN ĐỊNH GIẢ - PHƢƠNG PHÁP DIFFERENCE IN
DIFFERENCE
Tƣơng tác giữa hai biến giả đƣợc gọi là phƣơng pháp D-I-D trong kinh tế lƣợng. Ví dụ
sau tƣơng tác giữa hai biến giả GioiTinh và HoKhau
Giả sử muốn ƣớc lƣợng một hồi quy thu nhập cho Nam giới và Nữ giới riêng biệt. Câu lệnh có
thể dùng trong trƣờng hợp này nhƣ sau
Lưu ý : thay vì dùng tùy chọn by hoặc bysort, ta có thể dùng điều kiện if sau lệnh
regress
Kết quả cũng vẫn giống với dùng lệnh bysort ở trên.
Đa cộng tuyến là hiện tƣợng các biến độc lập trong mô hình có mối quan hệ với nhau. Đa
cộng tuyến hoàn hảo làm cho mô hình không ƣớc lƣợng đƣợc. Đa cộng tuyến không hoàn
hảo có thể làm cho các biến độc lập cộng tuyến mất đi ý nghĩa trong mô hình hoặc có thể
bị sai dấu của hệ số hồi quy.
Tiếp tục sử dụng tập tin số liệu ThuNhapTPHCM.dta để hồi quy hàm thu nhập nhƣ sau
Hệ số tƣơng quan giữa các biến độc lập trong mô hình đƣợc tính bằng lệnh correlate
Ma trận hệ số tƣơng quan giữa các biến độc lập nhƣ sau
Mỗi biến độc lập trong mô hình sẽ có một hệ số phóng đại phƣơng sai. Để tìm vif, phải
đảm bảo hàm hồi quy vừa chạy gần nhất trƣớc đó là hàm hồi quy cần kiểm định đa cộng
tuyến. Sau đó dùng lệnh vif.
Kết quả
Việc phát hiện sai dấu do đa cộng tuyến có thể thực hiện bằng các so sánh dấu của hệ số
tương quan giữa biến phụ thuộc và các biến độc lập với dấu của hệ số hồi quy thu được
bằng lệnh regress. Nếu hai dấu này khác nhau, đó là thể hiện của sai dấu cho các biến
Khi giả thiết về sự không đổi của phƣơng sai sai số bị vi phạm sẽ dẫn đến hiện tƣợng
phƣơng sai thay đổi. Khi đó,
E (U i ) 0 Var (Ui ) i2 , i 1, n Cov(Ui ,U j ) 0, i j
Vậy làm sao để phát hiện mô hình hồi quy bị phƣơng sai thay đổi ? Xử lý phƣơng sai
thay đổi nhƣ thế nào? Phần thực hành chƣơng 6 sẽ sử dụng tập tin số liệu
Heteroskesdaticity.dta để thực hiện các kiểm định và xử lý khi có phƣơng sai thay đổi.
Y 1 2 X 2 3 X 3 4 X 4 5 X 5 U
Một trong những dấu hiện ban đầu cho thấy có sự hiện diện của phƣơng sai thay đổi là
sai số phân bố không đồng đều xung quanh giá trị trung bình của nó.
Tùy chọn yline(0) để vẽ trục tung của đồ thị. Qua đồ thị cho thấy phần dƣ của mô hình có
phân bố không đều quanh giá trị trung bình của nó. Đây là dấu hiệu của phƣơng sai thay
đổi.
Giả thuyết H0 của kiểm định Breusch – Pagan là mô hình có phƣơng sai thuần nhất, giả
thuyết đối H1 là phƣơng sai của sai số phụ thuộc vào các yếu tố z2i ,..., zki :
H 0 : i2 2
H1 : i2 2 h( 2 z2i ... m zmi )
Sau khi hồi quy bằng OLS, Stata hỗ trợ thực hiện kiểm định Breusch – Pagan bằng lệnh:
Kết quả
H 0 : i2 2
Giả thuyết H0 của kiểm định White
H1 : i, j : i2 2j
Kiểm định phƣơng sai thay đổi bằng kiểm định White trên Stata đƣợc thực hiện bằng
lệnh :
Lưu ý : Trong một số trƣờng hợp, nếu phần mềm không hỗ trợ kiểm định phƣơng sai thay
đổi bằng gói các câu lệnh đƣợc xây dựng sẵn, ta có thể hồi quy phần dƣ để kiểm tra
phƣơng sai thay đổi của sai số.
Khi bị phƣơng sai thay đổi, ƣớc lƣợng tính đƣợc bằng phƣơng pháp OLS không còn là
ƣớc lƣợng hiệu quả nữa. Đồng thời các kiểm định về hệ số hồi quy đƣợc tính toán dựa
trên giả định var(U i ) 2 không còn đáng tin cậy. Việc xử lý hiện tƣợng phƣơng sai
thay đổi có thể tính lại giá trị các kiểm định để kiểm định đáng tin cậy hơn (bằng cách
dùng ma trận ƣớc lƣợng vững của hiệp phƣơng sai) hoặc tìm ƣớc lƣợng hiệu quả hơn
bằng GLS.
Sử dụng ƣớc lƣợng vững của ma trận hiệp phƣơng sai sai số do White(1980) đề xuất để
tính toán lại các giá trị kiểm định khi có phƣơng sai thay đổi. Trên Stata, việc này đƣợc
thực hiện bằng cách thêm tùy chọn robust hoặc vce(robust) sau câu lệnh regress
Kết quả
Lƣu ý rằng sau khi dùng tùy chọn robust, giá trị các hệ số hồi quy không hề thay đổi. Chỉ
có các sai số chuẩn thay đổi dẫn đến thống kê t và p-value của kiểm định các hệ số hồi
quy thay đổi.
6.2.2. Phƣơng pháp bình phƣơng nhỏ nhất tổng quát (GLS)
Phƣơng pháp GLS để tìm ƣớc lƣợng hiệu quả trong trƣờng hợp phƣơng sai thay đổi
đƣợc thực hiện bằng cách tìm trọng số cho sai số; để sau khi hồi quy với trọng số,
phƣơng sai của mô hình trở nên không đổi. Do vậy , GLS trong trƣờng hợp phƣơng sai
thay đổi còn đƣợc gọi là WLS (Weighted Least Squares – Bình phương nhỏ nhất có trọng
số)
Ngoài ra, một số câu lệnh đƣợc viết bởi các nhà nghiên cứu cũng cho phép thực hiện
WLS trên Stata nhƣ wls0, vwls
Hiện tƣợng tự tƣơng quan thƣờng đƣợc xét đối với số liệu theo thời gian, khi giả thiết về
sự không tƣơng quan giữa các sai số bị vi phạm.
Chƣơng 7 sử dụng số liệu của tập tin GiaXangDau.dta để thực hiện các kiểm định và xử
lý tự tƣơng quan. Mô tả tập tin số liệu nhƣ sau:
giaxangvietnamt 1 2 giaxangthegioit U t
Để Stata nhận dạng số liệu theo thời gian, cần dùng lệnh tsset
Biến quarter là biến dùng để chỉ định thời gian trong tập tin số liệu này. Hồi quy m6 hình
với phƣơng pháp OLS, kết quả ƣớc lƣợng ban đầu nhƣ sau :
Biểu đồ tự tƣơng quan biểu diễn hệ số tự tƣơng quan từ bậc 1 đến bậc k của một đại
lƣợng ngẫu nhiên lên cùng một đồ thị. Để biểu diễn biểu đồ tự tƣơng quan từ bậc 1 đến
bậc 12 của biến phandu, câu lệnh đƣợc sử dụng nhƣ sau
Sau khi ƣớc lƣợng hàm hồi quy, để tính giá trị thống kê d theo kiểm định Durbin –
Watson, cần thực thi câu lệnh:
Kết quả
Với giá trị thống kê d tính đƣợc, ta tra bảng Durbin-Watson, tìm ra giá trị dL và dU, kẻ
thang kiểm định Durbin Watson và kết luận vê tự tƣơng quan bậc nhất. Ngoài ra, Stata hỗ
trợ việc kiểm định tự tƣơng quan bậc nhất bằng Durbin – Watson thông qua việc tính sẵn
giá trị p-value cho kiểm định này.
Kiểm định BG trên Stata đƣợc hỗ trợ bằng câu lệnh estat bgodfrey. Khi kiểm định
BG trên Stata cần chỉ rõ bậc tự tƣơng quan cần kiểm định. Nếu không chỉ rõ bậc tự
tƣơng quan, phần mềm sẽ mặc định kiểm định tự tƣơng quan bậc 1.
Nếu chỉ cần kiểm định tự tƣơng quan bậc 1 và bậc 4 (nghĩa là không kiểm định tự
tƣơng quan bậc 2 và 3), câu lệnh đƣợc dùng sẽ là:
Cũng giống nhƣ trƣờng hợp phƣơng sai thay đổi, hiện tƣợng tự tƣơng quan cũng làm cho
ƣớc lƣợng OLS không còn là ƣớc lƣợng hiệu quả nhất và các kiểm định về hệ số hồi quy
cũng không còn đáng tin cậy. Do đó, việc khắc phục có thể theo hai hƣớng. Một là, làm
cho kiểm định hệ số hồi quy đáng tin cậy hơn bằng ma trận ƣớc lƣợng hiệp phƣơng sai
của Newey – West. Hai là, tìm ƣớc lƣợng hiệu quả bằng GLS.
Để sử dụng ma trận ƣớc lƣợng hiệp phƣơng sai, cần chỉ định rõ bandwidth đƣợc sử dụng
để tính toán ma trận ƣớc lƣợng hiệp phƣơng sai. Bandwidth có thể đƣợc tính toán bằng
1 2
công thức B 0.75T hoặc B 4 T 100
9
3
. Stata không dùng bandwidth mặc định nhƣ
một số phần mềm khác nên ngƣời dùng thƣờng phải chỉ định con số này.
Để tính toán bandwidth, ta \có thể dùng các câu lệnh sau
Với bandwidth = 3, mô hình hồi quy đƣợc thực hiện với ma trận ƣớc lƣợng hiệp phƣơng
sai của Newey – West nhƣ sau :
7.2.2. Khắc phục tự tương quan bằng GLS – thủ tục Prais - Winsten
Một thủ tục phổ biến của GLS để xử lý trong trƣờng hợp tự tƣơng quan bậc nhất đƣợc đề
xuất bởi Prais – Winsten(1954). Stata thực hiện thủ tục này bằng lệnh prais. Cú pháp
lệnh này rất giống lệnh regress
Lệnh prais có các tùy chọn để tính hệ số tự tƣơng quan rho khác nhau (gõ help prais để
xem trợ giúp của Stata về các tùy chọn này).
Prais, S. J. and Winsten D. B., (1954), Trend Estimators and Serial Correlation
Cowles Commission, Discussion Paper No. 383, University of Chicago.