You are on page 1of 16

Chương 11

Các mô hình hồi quy biến phụ thuộc giới hạn


(Gujarati: Econometrics by example, 2011) 1.
Người dịch và diễn giải: Phùng Thanh Bình
http://vnp.edu.vn/

C
Trong các mô hình logit và probit chúng ta đã thảo luận trước đây, biến phụ thuộc được
giả định có các giá trị 0 và 1, 0 đại diện cho không có một thuộc tính và 1 đại diện cho
có thuộc tính đó, chẳng hạn như hút thuốc và không hút thuốc, hoặc sở hữu nhà hay
không sở hữu nhà, hoặc thuộc hoặc không thuộc công đoàn. Như đã lưu ý, mô hình
logit sử dụng phân phối xác suất logistic và mô hình probit sử dụng phân phối chuẩn.
Chúng ta đã biết trong chương 8 các ước lượng và giải thích các mô hình đó như thế
nào, thông qua ví dụ minh họa về hành vi hút thuốc lá.
Nhưng bây giờ hãy xem xét vấn đề này: một người hút bao nhiêu gói thuốc, khi cho
trước các biến về kinh tế - xã hội của người ấy? Bây giờ câu hỏi này chỉ có ý nghĩa nếu
một người hút thuốc; một người không hút thuốc có thể không quan tâm đến câu hỏi
này. Trong ví dụ về người hút thuốc của chúng ta được thảo luận ở chương 8, chúng ta
có một mẫu gồm 1.196 người, trong đó khoảng 38% hút và 62% không hút. Vì thế chúng
ta có thể thu thập thông tin về số gói thuốc được hút chỉ cho 38% số người trong mẫu.
Giả sử chúng ta chỉ xem xét mẫu gồm những người hút thuốc và cố gắng ước lượng một
hàm cầu về số gói thuốc được hút một ngày dựa trên các thông tin kinh tế - xã hội chỉ
của những người hút thuốc. Hàm cầu này sẽ tin cậy như thế nào nếu chúng ta bỏ qua
62% những người trong mẫu 1.196 người? Như bạn có thể hoài nghi, hàm cầu như thế
có lẽ không thể tin cậy.
Vấn đề ở đây là chúng ta có một mẫu kiểm duyệt (censored sample), một mẫu trong đó
thông tin về biến phụ thuộc sẵn có chỉ cho một số quan sát nhưng không sẵn có cho tất
cả các quan sát, mặc dù chúng ta có thể có thông tin về các biến giải thích cho tất cả
các đơn vị trong mẫu. Có lẽ cần lưu ý rằng biến phụ thuộc có có thể bị kiểm duyệt phía
trái (left-censored) [nghĩa là nó không thể nhận một giá trị dưới một ngưỡng nhất định,
điển hình, nhưng không phải luôn luôn, là bằng 0] hoặc có thể bị kiểm duyệt phía phải
(right-censored) [nghĩa là nó không thể nhận một giá trị trên một ngưỡng nhất định, ví
dụ người ta kiếm được hơn một triệu đôla thu nhập], hoặc nó có thể bị kiểm duyệt cả
hai phía trái và phía phải.
Một mô hình có quan hệ rất gần nhưng hơi khác một chút so với mô hình có mẫu kiểm
duyệt là mô hình mẫu bị xén (truncated sample model), trong đó thông tin về cả biến

1
Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011:
https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/

1
phụ thuộc và các biến giải thích đều không có sẵn cho một số quan sát. Điều này có thể
do thiết kế, như trong thí nghiệm về thuế thu nhập âm ở New Jersey ở đó dữ liệu của
những người với thu nhập cao hơn 1.5 lần mức thu nhập ngưỡng nghèo đói năm 1967
không được đưa vào reong mẫu2.
Rồi chúng ta ước lượng các mô hình ấy như thế nào, các mô hình này cũng được gọi là
các mô hình hồi quy biến phụ thuộc giới hạn (limited dependent variable regression
models) bởi vì sự giới hạn gán lên các giá trị nhận được bởi biến phụ thuộc? Trước hết
chúng ta sẽ thảo luận mô hình hồi quy kiểm duyệt (censored regression model) và sau
đó thảo luận ngắn gọn mô hình hồi quy bị xén (truncated regression model). Cũng như
nhiều mô hình khác nhau trong cuốn sách này, trọng tâm của chúng ta sẽ là các áp dụng
thực tế.
11.1 Các mô hình hồi quy kiểm duyệt
Một mô hình được sử dụng phổ biến trong những tình huống này là mô hình Tobit (Tobit
model), được phát triển đầu tiên bởi James Tobin, một nhà kinh tế nhận giải Nobel3.
Trước khi thảo luận mô hình Tobit, trước hết chúng ta hãy thảo luận OLS được áp dụng
cho một mẫu kiểm duyệt. Xem Table 11.1, có sẵn trên trang web đồng hành cùng cuốn
sách này.
Ước lượng OLS cho dữ liệu kiểm duyệt
Với mục đích này, chúng ta sử dụng dữ liệu được thu thập bởi Mroz4. Mẫu của ông ta
cung cấp dữ liệu của 753 phụ nữ có gia đình, trong đó có 428 người đi làm bên ngoài và
325 người không đi làm bên ngoài, và vì thế mà số giờ làm việc của họ bằng 0.
Một số biến kinh tế - xã hội có ảnh hưởng đến quyết định đi làm được xem xét bởi Mroz
là tuổi, giáo dục, kinh nghiệm, kinh nghiệm bình phương, thu nhập gia đình, số con dưới
6 tuổi, và tiền lương của chồng. Table 11.1 cũng cung cấp dữ liệu về các biến khác được
xem xét bởi Mroz.
Áp dụng OLS về số giờ làm việc trong mối quan hệ với các biến kinh tế xã hội của tất cả
các quan sát, chúng ta có các kết quả trong Bảng 11.2.
Các kết quả trong bảng này được giải thích theo khuôn khổ mô hình hồi quy tuyến tính
chuẩn. Như bạn biết, trong mô hình hồi quy tuyến tính mỗi hệ số dốc cho biết ảnh
hưởng biên của biến đó lên giá trị trung bình của biến phụ thuộc, khi tất cả các biến
khác trong mô hình được giữ nguyên không đổi. Ví dụ, nếu tiền lương của chồng tăng
thêm một đôla, thì số giờ làm việc trung bình của phụ nữ có gia đình giảm khoảng 71
giờ, khi tất cả các biến khác được giữ nguyên không đổi. Ngoại trừ hệ số của biến giáo

2
Xem J. A. Hausman and D. A. Wise, Social Experimentation, NBER Economic Research Conference Report,
University of Chicago Press, Chicago, 1985.
3
James Tobin (1958) Estimation of Relationship for Limited Dependent Variables, Econometrica, vol. 26, pp. 24 –
36.
4
Xem T. A. Mroz, (1987) The sensitivity of an empirical model of married women’s hours of work to economic
and statistical assumptions, Econometrica, vol. 55, pp. 765 – 99. Nhớ lại rằng chúng ta sử dụng các dữ liệu này
trong chương 4 khi thảo luận về đa cộng tuyến.

2
dục, tất cả các hệ số khác dường như có ý nghĩa thống kê cao. Nhưng hãy cẩn thận với
các kết quả này, vì trong mẫu có 325 người có giờ làm việc bằng 0.
Bảng 11.2: Ước lượng OLS hàm số giờ làm việc.

Giả sử, thay vì sử dụng tất cả các quan sát trong mẫu, chúng ta chỉ sử dụng dữ liệu của
428 phụ nữ đi làm. Kết quả OLS dựa vào mẫu (kiểm soát) này được cho trong Bảng 11.3.
Nếu bạn so sánh các kết quả trong Bảng 11.2 và 11.3, thì bạn sẽ thấy một số khác biệt
rõ rệt giữa hai kết quả này5. Biến giáo dục bây giờ dường như có ý nghĩa cao, mặc dù nó
lại có dấu âm. Nhưng chúng ta cũng nên cẩn thận về các kết quả này.

5
Trong mô hình hồi quy truyền thống, giá trị trung bình của hạng nhiễu ui được giả định bằng 0, nhưng không có
gì đảm bảo rằng điều này sẽ đúng nếu chúng ta chỉ sử dụng một tập con của các giá trị mẫu, như trong ví dụ này.

3
Bảng 11.3: Ước lượng OLS hàm số giờ làm việc chỉ những phụ nữ đi làm.

Điều này là bởi vì các giá trị ước lượng OLS của các mô hình hồi quy kiểm duyệt, dù
chúng ta có bao gồm toàn bộ mẫu (Hình 11.1) hay một tập con của mẫu (Hình 11.2), bị
chệch và cũng không nhất quán – nghĩa là, cho dù cỡ mẫu lớn bao nhiêu, thì các tham
số ước lượng sẽ không hội tụ về các giá trị trung bình của chúng6. Lý do của điều này là
sự thật rằng trong các mô hình hồi quy kiểm duyệt cũng như các mô hình hồi quy bị
xén, trung bình có điều kiện của hạng nhiễu, ui, là không bằng 0 và hạng nhiễu có tương
quan với các biến giải thích. Như chúng ta biết, nếu hạng nhiễu và các biến giải thích có
tương quan, thì các ước lượng OLS bị chệch và không nhất quán [Xem chương 19].

6
Một chứng minh chặt chẽ, xem Jeffrey M. Wooldridge, Introductory Econometrics: A Modern Approach, South-
Western, USA, 4th edn, 2006, Ch.17. Cũng nên xem Christaan Heij, Paul de Boer, Philip Hans Franses, Teun Kloek,
and Herman K. van Dijk, Econometric Methods with Applications in Business and Economics, Oxford University
Press, Oxford, UK, 2004, Ch. 6.

4
Hình 11.1: Số giờ làm việc và thu nhập, mẫu đầy đủ.
[

Để hiểu sơ qua về lý do tại sao các giá trị ước lượng OLS có thể bị chệch và cũng không
nhất quán, chúng ta vẽ đồ thị số giờ làm việc theo thu nhập gia đình trong Hình 11.1 và
số giờ làm việc và thu nhập gia đình chỉ cho các phụ nữ đi làm trong Hình 11.2.
Hình 11.2: Số giờ làm việc và thu nhập cho các phụ nữ đi làm.

Trong Hình 11.1, có nhiều quan sát (thực sự là 325 quan sát) nằm trên trục hoành bởi
vì các quan sát này có số giờ làm việc bằng 0.
Trong Hình 11.2, không có quan sát nào nằm trên trục hoành, vì các quan sát này cho
428 phụ nữ đang đi làm. Các hệ số dốc của các đường hồi quy trong hai đồ thị dĩ nhiên
sẽ khác nhau.
Một phương pháp được sử dụng phổ biến để giải quyết các mẫu kiểm duyệt là mô hình
Tobit, bây giờ chúng ta thảo luận mô hình này.

5
11.2 Ước lượng ML của mô hình hồi quy kiểm duyệt: mô hình Tobit
Một trong số những mô hình hồi quy mẫu kiểm duyệt được sử dụng phổ biến là mô
hình Tobit. Có nhiều biến thể của mô hình Tobit, nhưng ở đây chúng ta xem xét mô hình
đơn giản nhất, được gọi là mô hình Tobit chuẩn (standard Tobit model) 7. Chúng ta sẽ
tiếp tục với dữ liệu của Mroz.
Để biết các quan sát kiểm duyệt được xử lý như thế nào, chúng ta thực hiện như sau:
Cho

Trong đó, Yi* là số giờ làm việc mong muốn (desired hours of work). Bây giờ

Trong đó, ui ~ N(0, 2) và Yi là số giờ làm việc thực tế8. Các biến giải thích lần lượt là tuổi
tính theo năm, giáo dục tính theo số năm đi học, kinh nghiệm làm việc tính theo năm,
số con dưới 6 tuổi, thu nhập gia đình tính theo ngàn đôla, và tiền lương theo giờ của
chồng tính theo ngàn đôla.
Biến Yi* được gọi là một biến tiềm ẩn (latent variable), là biến được quan tâm chính. Dĩ
nhiên, chúng ta thực sự không quan sát được biến này cho tất cả các quan sát. Chúng
ta chỉ quan sát nó đối với những quan sát có số giờ làm việc dương bởi vì sự kiểm duyệt.
Nhớ lại rằng chúng ta đã thảo luận khái niệm các biến tiềm ẩn trong chương trước9.
Lưu ý rằng chúng ta đang giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình
bằng 0 và phương sai cố định (phương sai không đổi). Chúng ta sẽ phải nói nhiều hơn
về giả định này sau.
Trước khi đi tiếp, điều hữu ích cần lưu ý sự khác biệt giữa mô hình probit và mô hình
Tobit. Trong mô hình probit, Yi = 1 nếu Yi* lớn hơn 0, và nó bằng 0 nếu biến tiềm ẩm
bằng 0. Trong mô hình Tobit, Yi có thể nhận bất kỳ các giá trị nào miễn là biến tiềm ẩn
lớn hơn 0. Đó là lý do tại sao mô hình Tobit cũng được gọi là probit của Tobin.
Để ước lượng một mô hình mà ở đó một số quan sát về biến phụ thuộc bị kiểm duyệt
(bởi vì chúng không được quan sát), mô hình Tobit sử dụng phương pháp hợp lý tối đa

7
Một thảo luận chi tiết, nhưng hơi nâng cao có thể tìm thấy trong A. Colin Cameron and Pravin K. Trivedi,
Microeconometrics: Methods and Applications, Cambridge University Press, New York, 2005, Chapter 16.
8
Bạn có thể sử dụng phân phối xác suất giá trị cực đại hoặc logistic thay vì phân phối chuẩn.
9
Trong ngữ cảnh hiện tại, chúng ta có thể giải thích biến tiềm ẩn như khuynh hướng hoặc mong muốn đi làm
của một phụ nữ có gia đình.

6
(ML), mà chúng ta đã gặp trong nhiều trường hợp10. Các cơ chế thực sự của phương
pháp ML cho mô hình Tobit thì khá phức tạp, nhưng Stata, Eviews và các phần mềm
khác có thể ước lượng một hình này rất dễ dàng11.
Sử dụng Eviews 6, chúng ta có được các kết quả trong Bảng 11.4 cho ví dụ của chúng ta
về số giờ làm việc của phụ nữ có gia đình.
Giải thích các giá trị ước lượng của mô hình Tobit
Chúng ta giải thích các kết quả này như thế nào? Nếu bạn chỉ xem xét các dấu của các
biến giải thích khác nhau, thì bạn sẽ thấy chúng giống trong các Bảng 11.2 và 11.3. Và
về mặc định tính, chúng có ý nghĩa. Ví dụ, nếu tiền lương của chồng tăng lên, thì trung
bình, một phụ nữ sẽ làm việc ít hơn trong thị trường lao động, khi tất cả các yếu tố khác
được giữ nguyên không đổi. Biến giáo dục không có ý nghĩa thống kê trong Bảng 11.2,
nhưng nó có ý nghĩa trong Bảng 11.3, mặc dù có dấu âm. Trong Bảng 11.4, nó có ý nghĩa
thống kê và có dấu dương, điều này có ý nghĩa.
Các hệ số dốc của các biến giải thích khác nhau trong Bảng 11.4 cho biết tác động biên
của biến đó lên giá trị trung bình của biến tiềm ẩn Yi*, nhưng trong thực tế chúng ta
quan tâm đến tác động biên của một biến giải thích lên giá trị trung bình của Yi, tức các
giá trị thực được quan sát trong mẫu.
Bảng 11.4: Ước lượng ML của mô hình hồi quy kiểm duyệt.

10
Có một số phương pháp thay thế ước lượng ML, một số trong đó có thể được tìm thấy trong sách của Greene,
op cit.
11
Chi tiết về phương pháp ML của Tobin có thể tìm thấy trong Christiaan Heij, op cit.

7
Không may, không giống các giá trị ước lượng OLS trong Bảng 11.2, chúng ta không thể
giải thích hệ số của Tobit của một biến giải thích như tác động biên của biến giải thích
đó lên giá trị trung bình của biến phụ thuộc được quan sát. Điều này là bởi vì trong các
mô hình hồi quy kiểm duyệt loại Tobit, thì một sự thay đổi đơn vị trong giá trị của một
biến giải thích có hai ảnh hưởng: (1) ảnh hưởng lên giá trị trung bình của biến phụ thuộc
được quan sát, và (2) ảnh hưởng lên xác suất mà Yi* thực sự được quan sát12.
Ví dụ, lấy tác động của biến tuổi. Hệ số của biến tuổi là khoảng -54 trong Bảng 11.4 có
nghĩa rằng, khi các biến khác được giữ nguyên không đổi, nếu tuổi tăng thêm một năm,
thì tác động trực tiếp của nó lên số giờ làm việc một năm sẽ giảm khoảng 54 giờ một
năm và xác suất mà một người phụ nữ tham gia lực lượng lao động cũng sẽ giảm. Vì thế,
chúng ta phải nhân -54 với xác suất mà điều này xảy ra. Trừ khi chúng ta biết được xác
suất này, chúng ta sẽ không thể tính được tác động tổng gộp của tăng thêm một tuổi
lên số giờ làm việc. Và việc tính toán xác suất này phụ thuộc vào tất cả các biến giải
thích trong mô hình và các hệ số của chúng.
Thật thú vị, hệ số dốc cho biết tác động biên một cách trực tiếp của một biến giải thích
lên biến tiềm ẩn, Yi*, như đã được lưu ý trước đây. Vì thế, hệ số của biến tuổi là -54 có
nghĩa là nếu tuổi tăng lên một năm, thì số giờ làm việc mong muốn sẽ giảm 54 giờ, khi
các yếu tố khác được giữ nguyên không đổi. Dĩ nhiên, chúng ta thực sự không quan sát
được số giờ làm việc mong muốn, vì nó là một cấu trúc trừu tượng (abstract contruct).
Trong ví dụ của chúng ta, chúng ta có 753 quan sát. Đó là một công việc mất thời gian
để tính toán tác động biên của mỗi biến giải thích cho tất cả 753 quan sát. Trong thực
tế, chúng ta có thể tính toán tác động biên tại giá trị trung bình của mỗi biến giải thích.
Vì xác suất của Y* phải nằm giữa 0 và 1, nên tích của mỗi hệ số dốc nhân với xác suất
này sẽ nhỏ hơn (theo giá trị tuyệt đối) chính bản thân hệ số dốc. Vì thế, tác động biên
của một biến giải thích lên giá trị trung bình của biến phụ thuộc được quan sát sẽ nhỏ
hơn (theo giá trị tuyệt đối) giá trị của hệ số dốc được chỉ ra trong Bảng 11.4. Dấu của
tác động biên phụ thuộc vào dấu của hệ số dốc, vì xác suất để quan sát được Yi* là luôn
luôn dương. Các phần mềm như Stata và Eviews có thể tính toán tác động biên của mỗi
biến giải thích.
Ý nghĩa thống kê của các hệ số ước lượng
Bảng 11.4 trình bày các sai số chuẩn, các thống kê Z (các giá trị phân phối chuẩn hóa)
và các giá trị xác suất p của mỗi hệ số ước lượng13. Như bảng kết quả hồi quy cho thấy
tất cả các hệ số đều có ý nghĩa thống kê ở mức ý nghĩa 10% hoặc thấp hơn.
Với mô hình Tobit, không có thước đo thông thường của R2. Điều này là bởi vì mô hình
hồi quy tuyến tính chuẩn ước lượng các tham số bằng cách tối thiểu hóa tổng bình
phương phần dư (RSS), trong khi mô hình Tobit tối đa hóa hàm hợp lý (likelihood
function). Nhưng nếu bạn muốn tính một R2 tương đương với R2 thông thường, thì bạn

12
Nghĩa là, [Y | Xi]/Xi = Bi*Pr(0 < Yi* < ) và xác suất này phụ thuộc vào tất cả các biến giải thích trong mô hình
và các hệ số của chúng.
13
Bởi vì cỡ mẫu lớn, nên chúng ta sử dụng phân phốn chuẩn hơn là phân phối t.

8
có thể làm bằng cách bình phương hệ số tương quan giữa các giá trị Y thực tế và các giá
trị Y được ước lượng từ mô hình Tobit.
Kiểm định các biến bị bỏ sót hoặc các biến thừa có thể được thực hiện trong khuôn khổ
của các kiểm định với mẫu lớn thông thường, chẳng hạn như tỷ số hợp lý (LR), Wald,
hoặc nhân tử Lagrange (L). Thử điều này bằng cách đưa thêm biến kinh nghiệm bình
phương vào mô hình hoặc biến giáo dục của cha và biến giáo dục của mẹ vào mô hình.
Những cảnh báo trước
Trong mô hình Tobit, chúng ta giả định rằng hạng nhiễu theo phân phối chuẩn với trung
bình bằng 0 và phương sai cố định (tức phương sai không đổi).
Sự không chuẩn của hạng nhiễu
Trong các mô hình hồi quy kiểm duyệt dưới phân phối không chuẩn của hạng nhiễu thì
các ước lượng không nhất quán. Một lần nữa, một vài phương pháp khắc phục được đề
xuất trong lý thuyết. Một cách khắc phục là thay đổi giả định về phân phối của hạng
nhiễu. Ví dụ, Eviews có thể ước lượng các mô hình như thế dưới các giả định phân phối
xác suất khác cho hạng nhiễu (chẳng hạn như logistic hoặc extreme value). Một thảo
luận chi tiết, bạn có thể xem các sách của Maddala và Wooldridge 14.
Phương sai thay đổi
Trong mô hình hồi quy tuyến tính thông thường, nếu hạng nhiễu có phương sai thay
đổi, thì các ước lượng OLS vẫn nhất quán mặc dù không hiệu quả. Tuy nhiên, trong các
mô hình kiểu Tobit, thì các ước lượng không nhất quán và cũng không hiệu quả. Có một
vài phương pháp để xử lý vấn đề này, nhưng một thảo luận chi tiết có thể sẽ đưa chúng
ta đi quá xa15. Tuy nhiên, các phần mềm thống kê như Stata và Eviews có thể tính toán
các sai số chuẩn cải thiện (robust standard errors), như được trình bày trong Bảng 11.5.
Như bạn có thể thấy, không có những khác biệt lớn trong các sai số chuẩn ước lượng
trong hai bảng, nhưng điều này không phải luôn luôn đúng như vậy.

14
Một thảo luận chi tiết nhưng hơi nâng cao, xem G. S. Maddala, Limited Dependent and Qualitative Variables in
Econometrics, Cambridge University Press, Cambridge, UK, 1983; và Wooldridge, J. M., Econometric Analysis of
Cross and Panel Data, MIT Press, Cambridge, MA, 2002.
15
Một thảo luận nâng cao, xem Maddala và Wooldridge, op cit.

9
Bảng 11.5: Ước lượng các sai số chuẩn cải thiện của mô hình Tobit.

11.3 Các mô hình hồi quy mẫu bị xén


[

Trước đây chúng ta đã thảo luận khác biệt giữa các mô hình hồi quy mẫu kiểm duyệt và
mẫu bị xén. Sau khi đã thảo luận mô hình hồi quy mẫu kiểm duyệt, bây giờ chúng ta tập
trung vào các mô hình hồi quy mẫu bị xén.
Trong các mẫu bị xén nếu chúng ta không có thông tin về biến phụ thuộc, thì chúng ta
không thu thập thông tin về các biến giải thích mà các biến đó có thể có quan hệ với
biến phụ thuộc. Trong ví dụ minh họa của chúng ta, chúng ta không có dữ liệu về số giờ
làm việc của 325 phụ nữ. Vì thế, chúng ta có thể không xem xét đến các thông tin về
các biến kinh tế - xã hội của những quan sát này, mặc dù chúng ta có thông tin về các
biến này trong ví dụ hiện tại.

10
Bảng 11.6: Ước lượng ML của mô hình hồi quy bị xén.

Thì tại sao không ước lượng hàm số giờ làm việc cho tập con của mẫu chỉ gồm 428 phụ
nữ đang làm việc bằng phương pháp OLS? Sự thật là chúng ta đã làm như thế trong
Bảng 11.2. Tuy nhiên, các ước lượng OLS không nhất quán trong trường hợp này. Vì mẫu
bị xén, nên giả định rằng hạng nhiễu trong mô hình này theo phân phối chuẩn với trung
bình  và phương sai 2 không thể được thỏa mãn. Vì thế, chúng ta phải sử dụng phân
phối chuẩn bị xén (truncated normal distribution). Trong trường hợp đó, chúng ta phải
sử dụng một phương pháp ước lượng phi tuyến, chẳng hạn như phương pháp ML.
Sử dụng ML, chúng ta có được các kết quả trong Bảng 11.6. Nếu bạn so sánh các kết
quả này với các kết quả OLS được cho trong Bảng 11.2, thì bạn sẽ thấy những khác biệt
rõ ràng, mặc dù dấu của các hệ số là giống nhau.
Nếu bạn so sánh các kết quả của hồi quy kiểm duyệt được cho trong Bảng 11.5 với hồi
quy bị xén được cho trong Bảng 11.6, thì một lần nữa bạn sẽ thấy những khác biệt trong
độ lớn và ý nghĩa của các hệ số. Đặc biệt lưu ý rằng hệ số của biến giáo dục là dương
trong mô hình hồi quy kiểm duyệt, nhưng âm trong mô hình hồi quy bị xén.

11
Giải thích các hệ số hồi quy bị xén
Như trong mô hình Tobit, một hệ số hồi quy riêng lẻ đo lường ảnh hưởng biên của biến
đó lên giá trị trung bình của biến phụ thuộc cho tất cả các quan sát – nghĩa là, bao gồm
cả những quan sát không được đưa vào. Nhưng nếu chúng ta chỉ xem xét các quan sát
trong mẫu (bị xén), thì hệ số hồi quy (riêng) thích hợp phải được nhân với một thừa số
nhỏ hơn 1. Vì thế, ảnh hưởng biên trong mẫu (within-sample) của một biến giải thích
nhỏ hơn (theo giá trị tuyệt đối) giá trị của hệ số của biến đó, như trong trường hợp của
mô hình Tobit.
Mô hình hồi quy Tobit với mô hình hồi quy bị xén
Bây giờ, giữa các mô hình hồi quy kiểm duyệt và bị xén, mô hình nào tốt hơn? Vì mô
hình hồi quy Tobit sử dụng nhiều thông tin (753 quan sát) hơn mô hìnhhồi quy bị xén
(428 quan sát), nên các giá trị ước lượng có được từ mô hình Tobit được kỳ vọng hiệu
quả hơn16.
11.4 Tóm tắt và kết luận
Trong chương này chúng ta đã thảo luận bản chất của các mô hình hồi quy kiểm duyệt.
Mấu chốt ở đây là khái niệm biến tiềm ẩn, là một biến mà, mặc dù về thực chất là quan
trọng, có lẽ không thể luôn luôn quan sát được. Điều này dẫn đến một mẫu kiểm duyệt
trong đó dữ liệu về biến phụ thuộc không có sẵn cho nhiều quan sát, mặc dù dữ liệu về
các biến giải thích có sẵn cho tất cả các quan sát.
Trong nhiều trường hợp như thế này, thì các ước lượng OLS bị chệch và cũng không
nhất quán. Giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình bằng 0 và
phương sai không đổi, chúng ta có thể ước lượng các mô hình hồi quy kiểm duyệt theo
phương pháp ML. Vì thế các ước lượng thu được là nhất quán.
Các hệ số dốc được ước lượng bằng ML cần phải được giải thích một cách cẩn thận.
Mặc dù chúng ta có thể giải thích hệ số dốc như là tác động biên của một biến lên giá
trị trung bình của biến tiềm ẩn, khi giữ nguyên các biến khác không đổi, nhưng chúng ta
không thể giải thích nó như vậy theo giá trị quan sát của biến tiềm ẩn. Ở đây chúng ta
phải nhân hệ số dốc với xác suất quan sát biến tiềm ẩn. Và xác suất này phụ thuộc vào
tất cả các biến giải thích và các hệ số của chúng. Tuy nhiên, các phần mềm thống kê
hiện đại có thể làm điều này một cách tương đối dễ dàng.
Một cảnh báo quan trọng là các ước lượng ML chỉ nhất quán nếu các giả định về hạng
nhiễu là thích hợp. Trong các trường hợp phương sai thay đổi và hạng nhiễu không theo
phân phối chuẩn, thì các ước lượng ML không nhất quán. Các phương pháp thay thế
cần được tham khảo trong các trường hợp như thế. Vài giải pháp sẵn có trong lý thuyết.
Tuy nhiên, chúng ta có thể tính các sai số chuẩn cải thiện, như được minh họa trong
một ví dụ cụ thể.

16
Về mặt kỹ thuật, đây là kết quả từ sự thật rằng hàm hợp lý của Tobit là tổng của các hàm hợp lý của mô hình
hồi quy bị xén và hàm hợp lý của probit.

12
Mô hình hồi quy bị xén khác mô hình hồi quy kiểm duyệt ở điểm là trong mô hình hồi
quy bị xén chúng ta quan sát các giá trị của các biến giải thích chỉ nếu chúng ta có dữ
liệu về biến phụ thuộc. Trong mô hình hồi quy kiểm duyệt, chúng ta có dữ liệu về các
biến giải thích cho tất cả các giá trị của biến phụ thuộc kể cả những giá trị của biến phụ
thuộc không quan sát được hoặc bị gán bằng 0 hoặc bằng một giới hạn nào đó.
Trong thực tế, các mô hình hồi quy kiểm duyệt có thể ưa thích hơn các mô hình hồi quy
bị xén bởi vì trong các mô hình hồi quy kiểm duyệt chúng ta sử dụng tất cả các quan sát
trong mẫu, trong khi đó trong các mô hình hồi quy bị xén chúng ta chỉ sử dụng các quan
sát trong mẫu bị xén.
Cuối cùng, sự thật rằng chúng ta có phần mềm để ước lượng các mô hình hồi quy kiểm
duyệt không có nghĩa là các mô hình loại Tobit là phù hợp trong tất cả các tình huống.
Một số tình huống trong đó nhiều mô hình như thế là không thể áp dụng đã được thảo
luận trong các tài liệu tham khảo trong chương này./.

Hướng dẫn Stata ( )


. use "D:\My Blog\Econometrics by example\Table11_1.dta", clear

13
14
. tobit hours age educ exper expersq faminc kidsl6 hwage, ll(0) robust

. marginsplot

Average Marginal Effects of age with 95% CIs


-20
-30
-40
-50
-60

20 30 40 50
Wife's age

. quietly truncreg hours age educ exper expersq faminc kidsl6 hwage, ll(0) robust
. margins, dydx(age) predict(e(0, 4950)) at(age=(20 30 40 50))

15
. marginsplot

Average Marginal Effects of age with 95% CIs


0
-10
-20
-30

20 30 40 50
Wife's age

16

You might also like