Professional Documents
Culture Documents
Gujarati 2011 Chương 8 - Các Mô Hình Logit Và Probit
Gujarati 2011 Chương 8 - Các Mô Hình Logit Và Probit
C
Biến phụ thuộc trong hầu hết các mô hình hồi quy đều bằng số, thường được đo theo
một thang đo tỷ lệ (ratio scale). Nhưng trong nhiều ứng dụng thì các biến phụ thuộc là
định danh (nominal) theo nghĩa rằng chúng biểu hiện các phân loại (categories), như
nam hoặc nữ, có gia đình hoặc chưa có gia đình, có việc làm hoặc thất nghiệp, trong lực
lượng lao động hoặc không thuộc lực lượng lao động.
Giả sử chúng ta có dữ liệu về những người trưởng thành, một số trong họ hút thuốc và
một số khác thì không. Hơn nữa, giả sử rằng chúng ta muốn biết các nhân tố nào quyết
định việc một người hút thuốc hay không. Vì thế biến tình trạng hút thuốc là một biến
định danh; hoặc là bạn hút thuốc hoặc là bạn không hút thuốc. Chúng ta mô hình hóa
các biến định danh như thế như thế nào? Chúng ta có thể sử dụng các kỹ thuật hồi quy
cổ điển hay chúng ta cần các kỹ thuật chuyên biệt?
Các mô hình hồi quy liên quan đến các biến có thang đo định danh là một ví dụ của một
lớp các mô hình được gọi chung là các mô hình hồi quy phản ứng định tính (qualitative
response regression models). Có rất nhiều loại mô hình như thế, nhưng trong chương
này chúng ta sẽ xem xét một loại đơn giản nhất trong các mô hình đó, có tên gọi là các
mô hình hồi quy có biến phụ thuộc là biến giả hoặc biến nhị phân (binary or
dichotomous). Trong các chương tiếp theo, chúng ta sẽ xem xét các loại khác trong các
mô hình hồi quy phản ứng định tính.
Mục tiêu của chương này là nhằm cho thấy rằng mặc dù các mô hình hồi quy biến nhị
phân có thể được ước lượng theo phương pháp bình phương bé nhất, nhưng các mô
hình như thế thường được ước lượng theo các phương pháp đặc biệt, chẳng hạn như
logit và probit. Trước hết chúng ta sẽ cho thấy tại sao phương pháp bình phương bé
nhất không thích hợp và sau đó xem xét các mô hình logit và probit. Chúng ta bắt đầu
bằng một ví dụ.
1
Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011:
https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/
1
8.1 Một ví dụ minh họa: hút hay là không hút
Dữ liệu được sử dụng ở đây là một mẫu ngẫu nhiên gồm 1.196 nam2. Dữ liệu này được
dung cấp trong tập tin Table 8.1, có thể được tìm thấy trên trang web đồng hành cùng
cuốn sách.
Các biến được sử dụng trong phân tích như sau đây:
Smoker = 1 cho những người hút thuốc và 0 cho những người không hút thuốc
Age = tuổi tính theo năm
Education = số năm đi học
Income = thu nhập gia đình
Pcigs = giá thuốc hút ở từng bang riêng lẻ vào năm 1979
Mô hình (8.2) được gọi là mô hình xác suất tuyến tính (LPM – linear probability model)
bởi vì kỳ vọng có điều kiện của biến phụ thuộc (tình trạng hút thuốc), khi cho trước các
giá trị của các biến giải thích, có thể được giải thích như xác suất có điều kiện
(conditional probability) mà biến cố (tức có hút thuốc) sẽ xảy ra3.
Sử dụng Eviews, chúng ta có được kết quả trong Bảng 8.2. Chúng ta hãy phân tích các
kết quả trong bảng này.
Lưu ý rằng tất cả các biến, trừ thu nhập, đều có ý nghĩa thống kê ít nhất ở mức ý nghĩa
10%.
2
Các dữ liệu này từ trang web của Michael P. Murray, Econometrics: A Modern Introduction, Addison-Wesley,
Boston, 2006. Xem http://www.aw.bc.com/murray. Nhưng dữ liệu đã được sử dụng đầu tiên bởi John Mullay,
Instrumental variable estimation of count data models: an application to models of cigarette smoking behavior,
The Review of Economics and Statistics, 1997.
3
Nếu Pi = Pr(Yi = 1) và (1 - Pi) = Pr(Yi = 0), thì giá trị kỳ vọng của Yi = E(Yi) = 1.Pi + 0.(1 - Pi) = Pi.
2
Tuổi, giáo dục, và giá thuốc có tác động âm lên hút thuốc, điều này có thể không phải
là một kết quả ngạc nhiên. Tất cả các biến giải thích đồng thời có ý nghĩa thống kê, vì
giá trị ước lượng của thống kê F 12.00 có một giá trị xác suất p hầu như bằng 0. Nhớ
lại rằng giá trị F dùng để kiểm định giả thuyết rằng tất cả các hệ số độ dốc đồng thời
bằng 0.
Bảng 8.2: Mô hình LPM về hút hay là không hút thuốc.
Vì chúng ta ước lượng một mô hình xác suất tuyến tính, nên việc giải thích các hệ số hồi
quy là như sau. Nếu chúng ta giữ nguyên tất cả các biến khác, xác suất hút thuốc giảm
với tỷ lệ 0.005 khi tăng thêm một tuổi, có thể điều này là do tác động xấu của hút
thuốc lên sức khỏe. Tương tự, khi các yếu tố khác được giữ nguyên, tăng số năm đi học
thêm một năm sẽ giảm xác suất hút thuốc khoảng 0.02. Tương tự, nếu giá thuốc tăng
thêm một đôla, thì xác suất hút thuốc giảm khoảng 0.005, khi giữ các biến khác không
đổi. Giá trị R2 0.038 dường như rất thấp, nhưng chúng ta đừng đặt quan trọng quá
nhiều vào thống kê này bởi vì biến phụ thuộc là biến định danh, chỉ nhận giá trị 1 và 0.
Chúng ta có thể cải thiện (refine) mô hình này bằng cách đưa thêm các biến tương tác
(interaction terms), như tuổi nhân với giáo dục, hoặc giáo dục nhân với thu nhập, hoặc
đưa thêm một biến bình phương của giáo dục hoặc bình phương của tuổi vào mô hình
để xem liệu có tác động phi tuyến của những biến này lên hút thuốc hay không. Nhưng
không có cơ sở nào để làm điều này, bởi vì LPM bản thân nó có nhiều hạn chế.
Thứ nhất, mô hình LPM giả định rằng xác suất hút thuốc có mối quan hệ tuyến tính với
giá trị của biến giải thích, không cần biết giá trị đó lớn hoặc nhỏ bao nhiêu. Thứ hai, theo
lôgic, thì giá trị xác suất phải nằm giữa 0 và 1. Nhưng không có gì đảm bảo rằng các giá
trị xác suất ước lượng từ mô hình LPM sẽ nằm trong các giới hạn này. Điều này là bởi vì
OLS không tính đến sự ràng buộc rằng các xác suất ước lượng phải nằm giữa các giới
hạn 0 và 1. Thứ ba, giả định thông thường rằng hạng nhiễu theo phân phối chuẩn không
thể được thỏa mãn khi biến phụ thuộc chỉ nhận các giá trị 0 và 1. Cuối cùng, hạng nhiễu
3
trong mô hình LPM có phương sai thay đổi, điều này làm cho các kiểm định ý nghĩa
truyền thống không thể tin cậy được.
Vì tất cả các lý do này, mà mô hình LPM không phải là sự lựa chọn ưa thích để mô hình
hóa các biến nhị phân. Các mô hình thay thế được thảo luận trong lý thuyết là mô hình
logit và mô hình probit.
Trong đó, i = cá nhân thứ i, u = hạng nhiễu, và BX như được định nghĩa trong phương
trình (8.2).
Nhưng chỉ số không thể quan sát có quan hệ như thế nào với quyết định thực sự là hút
hay không hút? Thật hợp lý để giả định rằng:
Nghĩa là, nếu chỉ số hữu dụng I của một người lớn hơn mức ngưỡng I*, thì người đó sẽ
hút nhưng nếu nhỏ hơn I*, thì người đó sẽ không hút. Lưu ý rằng chúng ta không có gợi
ý rằng hút thuốc là tốt hay xấu cho sức khỏe, mặc dù có nhiều nghiên cứu y khoa khuyến
cáo rằng hút thuốc có thể xấu cho sức khỏe.
Để làm cho lựa chọn này có thể thực hiện được, chúng ta có thể nghĩ theo xác suất của
việc thực hiện một lựa chọn, ví dụ lựa chọn hút thuốc (tức Y = 1):
4
John H. Aldridge and Forrest Nelson, Linear Probability, Logit and Probit Models, Sage Publications, 1984, p.26.
5
Chỉ số hữu dụng cũng được gọi là một biến tiềm ẩn (latent variable).
4
Bây giờ xác suất này phụ thuộc vào phân phối xác suất của Yi, đến lượt nó lại phụ thuộc
vào phân phối xác suất của hạng nhiễu, ui6. Nếu phân phối xác suất này là đối xứng
quanh giá trị trung bình (bằng 0) của nó, thì phương trình (8.4) có thể được viết lại là:
Rõ ràng Pi phụ thuộc vào phân phối xác suất cụ thể của ui. Nhớ rằng xác suất mà một
biến ngẫu nhiên nhận một giá trị nhỏ hơn một giá trị được xác định nào đó được cho
bởi hàm phân phối tích lũy (CDF – cumulative distribution function) của biến đó7.
Mô hình logit giả định rằng phân phối xác suất của ui theo phân phối xác suất logistic
(logistic probability distribution), đối với ví dụ của chúng ta nó có thể được viết lại như
sau:
Xác suất của Y = 0, nghĩa là, một người không phải là người hút thuốc, được cho bởi:
Lưu ý: Dấu của Zi trong phương trình (8.7) và (8.8) là khác nhau.
6
Lưu ý rằng B là cố định và phi ngẫu nhiên và các giá trị X được cho trước. Vì thế, biến thiên trong Yi xuất phát
từ biến thiên trong ui.
7
Nhớ lại từ thống kê căn bản rằng hàm phân phối tích lũy của một biến ngẫu nhiên X, F(X), được định nghĩa là
F(X) = Pr(X x), trong đó x là một giá trị cụ thể của X. Cũng nhắc lại rằng nếu bạn vẽ đồ thị CDF, nó trông giống
như một hình chữ S kéo dài (elongated S).
5
e−Zi
−Zi −Zi
1 1+ e −1 e e−Zi
1 − Pi = 1 − = = =
1 + e−Zi 1 + e−Zi 1 + e−Zi 1 + e−Zi
e−Zi
1 1 1
= = = = (8.9)
1 e−Zi eZi + 1 1 + eZi
e −Zi + e−Zi
Chúng ta dễ dàng xác nhận rằng khi Zi chạy từ - đến + , thì Pi chạy từ 0 đến 1 và rằng
Pi có quan hệ phi tuyến với Zi (tức Xi), vì thế thỏa mãn hai điều kiện chúng ta vừa mới
thảo luận ở trên8.
Chúng ta ước lượng mô hình (8.7) như thế nào, vì nó là phi tuyến không chỉ trong X mà
còn trong các tham số Bs? Chúng ta có thể sử dụng một cách chuyển hóa đơn giản để
làm cho mô hình tuyến tính trong Xs và các hệ số. Lấy tỷ số của các phương trình (8.7)
và (8.9), nghĩa là xác suất mà một người là người hút thuốc đối với xác suất mà người
đó không phải là người hút thuốc, chúng ta có:
Zi
1 + eZi
Zi
1+e 1+e 1 1 + eZi eZi
= = Zi = . = eZi = (8.10)
1 + e−Zi 1 e +1 1 1+ e Zi
1 + Zi
e e Zi
Zi Zi Zi ) Zi
eZi
=> Pi + Pi . e = e => Pi (1 + e = e => Pi =
1 + eZi
Bây giờ, Pi/(1 - Pi) đơn giản là tỷ số odds (odds ratio) ủng hộ việc hút thuốc – tỷ số của
xác suất mà một người là người hút thuốc so với xác suất mà người đó không phải là
người hút thuốc.
Lấy log (tự nhiên) của phương trình (8.10), chúng ta có được một kết quả rất thú vị, đó
là:
8
Lý do tại sao Pi có quan hệ phi tuyến với, ví dụ, thu nhập là rằng khi thu nhập tăng lên thì những người hút
thuốc sẽ tăng tiêu dùng của họ cho thuốc lá với một mức giảm dần bởi vì quay luật hiệu suất giảm dần (law of
diminishing returns). Điều này đúng với hầu hết các hàng hóa thông thường.
6
Phương trình (8.11) phát biểu rằng log của tỷ số odds là một hàm tuyến tính của các Bs
và cũng như các biến Xs. Li được gọi là logit (log của tỷ số odds) và vì thế có tên là mô
hình logit (logit model) cho các mô hình giống như (8.11). Điều thú vị mà ta quan sát
thấy rằng mô hình xác suất tuyến tính được thảo luận trước đó giả định rằng Pi có quan
hệ tuyến tính với Xi, trong khi đó mô hình logit giả định rằng log của tỷ số odds có quan
hệ tuyến tính với Xi.
Một số tính chất của mô hình logit như sau:
1. Khi Pi, xác suất tăng từ 0 đến 1, thì logit Li đi từ - đến + . Nghĩa là, mặc dù các
xác suất nằm giữa 0 và 1, nhưng logit là không có giới hạn.
2. Mặc dù Li là tuyến tính theo Xi, nhưng bản thân các xác suất thì không. Điều này
trái với mô hình LPM ở đó các xác suất tăng tuyến tính với Xi.
3. Nếu Li, logit, dương, thì nó có nghĩa rằng khi giá trị của (các) biến giải thích tăng,
tỷ số odds của hút thuốc tăng, trong khi đó nếu nó âm, thì tỷ số odds của hút
thuốc giảm.
4. Sự giải thích mô hình logit ở (8.11) như sau: mỗi hệ số dốc cho biết log của odds
ủng hộ việc hút thuốc thay đổi khi giá trị của biến X thay đổi một đơn vị.
5. Một khi các hệ số của mô hình logit được ước lượng, chúng ta có thể dễ dàng
tính các xác suất của hút thuốc, chứ không chỉ có tỷ số odds của hút thuốc, từ
(8.7).
6. Trong mô hình LPM, hệ số dốc đo lường ảnh hưởng biên (marginal effect) của
một thay đổi đơn vị trong biến giải thích lên xác suất hút thuốc, khi giữ nguyên
các biến khác. Điều này không đúng với mô hình logit, vì ảnh hưởng biên của một
sự thay đổi đơn vị trong biến giải thích không chỉ phụ thuộc vào hệ số của biến
đó, mà còn phụ thuộc vào mức xác suất từ đó mà sự thay đổi được đo lường.
Nhưng mức xác suất phụ thuộc vào các giá trị của tất cả các biến giải thích trong
mô hình9. Tuy nhiên, các phần mềm thống kê như Eviews và Stata có thể tính
toán các ảnh hưởng biên với các hướng dẫn đơn giản.
Bây giờ câu hỏi đặt ra là: chúng ta ước lượng các tham số của mô hình logit như thế
nào?
Ước lượng mô hình logit
Việc ước lượng mô hình logit phụ thuộc vào loại dữ liệu có sẵn cho phân tích. Có hai loại
dữ liệu có sẵn: dữ liệu ở cấp độ cá nhân, hoặc vi mô, nhưng trong trường hợp ví dụ về
người hút thuốc, và dữ liệu ở cấp độ nhóm. Trước hết chúng ta sẽ xem xét trường hợp
dữ liệu ở cấp độ cá nhân.
9
Các bạn đọc có khả năng về giải tích có thể xác nhận điều này nếu bạn lấy đạo hàm (riêng phần) của phương
trình (8.7) theo các biến giải thích phù hợp, lưu ý rằng Zi = BX. Lưu ý: sử dụng quy tắc dây chuyền (hàm của hàm,
chain rule): Pi/Xi = Pi/Zi . Zi/Xi.
7
Dữ liệu cấp độ cá nhân
Đối với ví dụ về người hút thuốc của chúng ta, chúng ta có dữ liệu về 1.196 cá nhân. Vì
thế, mặc dù mô hình logit là tuyến tính, nhưng nó không thể được ước lượng theo
phương pháp OLS thông thường. Để biết tại sao, lưu ý rằng Pi = 1 nếu một người hút
thuốc, và Pi = 0 nếu một người không hút thuốc. Nhưng nếu chúng ta đưa các giá trị này
một cách trực tiếp vào logit Li, thì chúng ta có biểu thức Li = ln(1/0) nếu một người hút
thuốc và Li = ln(0/1) nếu một người không hút thuốc. Đây là các biểu thức không xác
định. Vì thế, để ước lượng mô hình logit chúng ta phải dựa vào các phương pháp ước
lượng khác. Phương pháp phổ biến nhất với các tính chất thống kê hấp dẫn là phương
pháp hợp lý tối đa (ML – maximum likelihood). Chúng ta đã thảo luận ngắn gọn phương
pháp này ở chương 1, nhưng để biết chi tiết hơn về ML bạn có thể tìm đọc trong các tài
liệu tham khảo10. Hầu hết các phần mềm thống kê có thiết lập sẵn thủ tục để ước lượng
các tham số theo phương pháp ML.
Trước hết chúng ta trình bày các kết quả ước lượng theo ML cho ví dụ về người hút
thuốc, kết quả này có được từ Eviews (Bảng 8.3).
Chúng ta hãy phân tích các kết quả này. Các biến tuổi và giáo dục có ý nghĩa thống kê
cao và có dấu đúng như kỳ vọng. Khi tuổi tăng, thì giá trị của logit giảm, có lẽ do các
quan tâm về sức khỏe – nghĩa là, khi người ta lớn tuổi, thì họ ít có khả năng hút thuốc.
Tương tự, người có trình độ giáo dục cao hơn thì ít có khả năng hút thuốc, có lẽ do hiểu
biết về ảnh hưởng xấu của hút thuốc. Giá thuốc lá có dấu âm như kỳ vọng và có ý nghĩa
ở mức 7%. Khi các yếu tố khác được giữ nguyên, thì giá thuốc lá càng cao, thì xác suất
hút thuốc càng thấp. Thu nhập không có tác động có ý nghĩa thống kê lên việc hút thuốc,
có lẽ bởi vì chi tiêu cho thuốc lá có thể chiếm một tỷ phần nhỏ trong thu nhập gia đình.
Bảng 8.3: Mô hình logit về quyết định hút hay là không hút.
10
Một thảo luận dễ đọc về ML, xem Gujarati/Porter, op cit.
8
Giải thích các hệ số khác nhau như sau: khi giữ các biến khác không đổi, nếu, ví dụ giáo
dục tăng thêm một năm, thì trung bình giá trị logit giảm khoảng 0.09, nghĩa là log của
tỷ số odds ủng hộ việc hút thuốc giảm khoảng 0.09. Các hệ số khác cũng được giải thích
một cách tương tự.
Nhưng ngôn ngữ logit không phải là ngôn ngữ thường ngày. Điều mà chúng ta muốn
biết là xác suất của việc hút thuốc, khi cho trước các giá trị của các biến giải thích. Nhưng
điều này có thể được tính từ phương trình (8.7). Để minh họa, chúng ta chọn người thứ
2 từ Table 8.1. Dữ liệu của người này như sau: tuổi = 28, giáo dục = 15, thu nhập =
12.500 và giá thuốc năm 1979 = 60. Thế các giá trị này vào phương trình (8.7), ta có:
Nghĩa là, xác suất mà một người với các đặc điểm được cho ở trên là một người hút
thuốc là khoảng 38%. Từ dữ liệu chúng ta biết được người này là một người hút thuộc.
Bây giờ lấy một người (bất kỳ) với các thông tin về tuổi, giáo dục, thu nhập, và giá thuốc
năm 1979 lần lượt như sau: 63, 10, 20.000, và 60.8. Đối với người này, xác suất hút
thuốc sẽ là:
Nghĩa là, xác suất mà người này là một người hút thuốc là 32%. Trong mẫu của chúng
ta, một người như thế là người không hút thuốc.
Table 8.1 đưa ra xác suất hút thuốc cho mỗi người cùng với dữ liệu thô.
Liệu chúng ta có thể tính ảnh hưởng biên của một biến giải thích lên xác suất hút thuốc,
khi giữ nguyên tất cả các biến khác hay không? Giả sử chúng ta muốn biết Pi/Agei,
tức là ảnh hưởng của một sự thay đổi đơn vị trong tuổi lên xác suất hút thuốc, khi giữ
nguyên các biết khác không đổi. Điều này rất dễ dàng trong mô hình LPM, nhưng nó
không đơn giản với các mô hình logit hoặc probit. Điều này là bởi vì sự thay đổi trong
xác suất hút thuốc nếu tuổi thay đổi một đơn vị (ví dụ một năm) phụ thuộc không chỉ
vào hệ số của biến tuổi mà còn vào mức xác suất từ đó mà sự thay đổi được tính. Nhưng
mức xác suất này phụ thuộc vào giá trị của tất cả các biến giải thích. Để biết chi tiết cách
tính, bạn đọc có thể xem các tài liệu tham khảo, mặc dù Eviews và Stata có thể làm công
việc này một cách dễ dàng11.
Thước đo thông thường về mức độ phù hợp, R2, không có ý nghĩa nhiều khi biến phụ
thuộc nhận các giá trị 1 hoặc 0. Các thước đo tương tự R2, gọi là pseudo R2, được thảo
11
Xem, ví dụ như Gujarati/Porter, op cit.
9
luận trong lý thuyết. Một thước đo như vậy là McFadden R2, gọi là R2McF. Giống như R2,
R2McF nằm giữa 0 và 1. Đối với ví dụ của chúng ta, giá trị của nó là 0.0927.
Một thước đo về mức độ phù hợp khác là count R2, được định nghĩa như sau:
Vì biến phụ thuộc nhận một giá trị 1 hoặc 0, nếu xác suất dự đoán cho một quan sát lớn
hơn 0.5 chúng ta phân loại quan sát đó như 1, nhưng nếu nhỏ hơn 0.5, chúng ta phân
loại như 0. Sau đó chúng ta đếm số dự đoán đúng và tính count R2 như công thức ở trên
(xem Bài tập 8.3).
Cũng nên nhấn mạnh rằng trong các mô hình hồi quy nhị phân thì các thước đo về mức
độ phù hợp chỉ quan trọng thứ hai. Điều mà chúng ta quan tâm nhất là các dấu kỳ vọng
của các hệ số hồi quy và ý nghĩa thống kê hoặc ý nghĩa thực tiễn của chúng. Từ Bảng 8.3
chúng ta có thể thấy rằng ngoại trừ hệ số của biến thu nhập, tất cả các hệ số khác đều
có ý nghĩa thống kê, ít nhất là ở mức ý nghĩa 10%. Chúng ta cũng có thể kiểm định giả
thuyết Ho rằng tất cả các hệ số đồng thời bằng 0 với thống kê về tỷ số hợp lý (LR –
likelihood ratio statistic), thống kê này tương đương với kiểm định F trong mô hình hồi
quy tuyến tính12. Dưới giả thuyết Ho rằng không có biến giải thích nào có ý nghĩa, thống
kê LR theo phân phối Chi bình phương với số bậc tự do bằng với số biến giải thích: 4
trong ví dụ của chúng ta.
Như Bảng 8.3 cho thấy, giá trị của thống kê LR là khoảng 47.26 và giá trị xác suất p (tức
mức ý nghĩa chính xác) thực tế bằng 0, vì thế chúng ta bác bỏ giả thuyết Ho. Vì thế chúng
ta có thể nói rằng bốn biến được đưa vào mô hình logit là các nhân tố quyết định quan
trọng về thói quen hút thuốc.
• Lưu ý kỹ thuật số 1: Bảng 8.3 đưa ra hai thống kê về log likelihood –
unrestricted likelihood (= - 770.84) và restricted likelihood (= -794.47). Thống
kê thứ hai có được bằng cách giả sử rằng không có biến giải thích nào trong
mô hình, chỉ có hệ số cắt, trong khi đó unrestricted likelihood là giá trị có được
với tất cả các biến giải thích (kể cả hệ số cắt) trong mô hình. Thống kê LR (= )
khoảng 47.27 trong Bảng 8.3 được tính từ công thức được trình bày trong Phụ
lục cuối chương 1. Đối với ví dụ của chúng ta, tỷ số hợp lý được tính toán
(computed likelihood ratio) là 47.27 có ý nghĩa thống kê cao, vì giá trị xác suất
của nó thực tế bằng 013. Điều này có thể nói rằng mô hình không bị ràng buộc
(unrestricted model) bao gồm tất cả các biến giải thích là mô hình phù hợp
trong ví dụ hiện tại. Nói theo cách khác, mô hình bị ràng buộc là không hợp lý
trong trường hợp hiện tại.
12
Trong phụ lục về ML ở chương 1, chúng ta đã thảo luận tại sao chúng ta sử dụng thống kê LR.
13
Như đã lưu ý trong Phụ lục cuối chương 1, dưới giả thuyết Ho rằng các hệ số của tất cả các biến giải thích trong
mô hình đều bằng 0, thống kê LR theo phân phối Chi bình phương với bậc tự do bằng số biến giải thích (loại trừ
hệ số cắt), bằng 4 trong ví dụ của chúng ta.
10
• Lưu ý kỹ thuật số 2: Lưu ý rằng các sai số chuẩn Huber/White được báo cáo
trong Bảng 8.3 không nhất thiết là cải thiện phương sai thay đổi (robust to
heteroscedasticity) nhưng là cải thiện nhằm tránh sai dạng của phân phối xác
suất cơ bản (robust to certain misspecification of the underlying probability
distribution) của biến phụ thuộc.
Cải thiện mô hình (model refinement)
Mô hình logit được cho trong Bảng 8.3 có thể được cải thiện. Ví dụ, chúng ta đưa thêm
ảnh hưởng tương tác giữa các biến giải thích. Từng biến riêng lẻ thì giáo dục có tác động
âm và thu nhập có tác động dương lên xác suất hút thuốc, mặc dù ảnh hưởng của thu
nhập là không có ý nghĩa thống kê. Nhưng ảnh hưởng kết hợp của giáo dục và thu nhập
lên xác suất thì sao? Những người có trình độ giáo dục cao hơn và mức thu nhập cao
hơn sẽ hút ít hơn hay nhiều hơn những người có các đặc điểm khác?
Để biết điều này, chúng ta có thể đưa thêm ảnh hưởng tương tác của hai biến như một
biến giải thích tăng thêm vào mô hình. Các kết quả được trình bày trong Bảng 8.4.
Bảng 8.4: Mô hình logit về hút thuốc với biến tương tác.
Các kết quả này rất thú vị. Trong Bảng 8.3, xét từng biến thì biến giáo dục có ảnh hưởng
âm có ý nghĩa lên logit (vì thế lên xác suất hút thuốc) và biến thu nhập không có tác
động có ý nghĩa thống kê. Bây giờ giáo dục bản thân nó không có tác động có ý nghĩa
thống kê lên logit, nhưng thu nhập có tác động dương có ý nghĩa thống kê cao. Nhưng
nếu bạn xem xét biến tương tác, giáo dục nhân với thu nhập, có tác động âm có ý nghĩa
lên logit. Nghĩa là, những người với trình độ giáo dục cao hơn và cũng có thu nhập cao
hơn ít có khả năng là những người hút thuốc hơn so với những người chỉ có giá dục cao
hơn hoặc chỉ có thu nhập cao hơn. Điều này gợi cho chúng ta rằng tác động của một
biến lên xác suất hút thuốc có thể bị suy yếu hoặc tăng lên khi có sự hiện diện của (các)
biến khác.
11
Bạn đọc được khuyến khích làm thử các tương tác khác giữa các biến giải thích để xem
có tìm thấy kết quả gì khác hay không.
Trong đó, Pr(Y|X) có nghĩa là xác suất mà một biết cố xảy ra (ví dụ có hút thuốc) khi cho
trước các giá trị của các biến X và Z là biến chuẩn hóa (tức là biến chuẩn với trung bình
14
Nếu một biến X theo phân phối chuẩn với trung bình là và phương sai là 2, thì hàm mật độ xác suất (PDF)
2 2 𝑋
của nó là: f(X) = (1/𝜎√𝜋)𝑒−(𝑋− 𝜇) /2𝜎 và hàm phân phối tích lũy của nó (CDF) là: F(X0) = ∫−∞0 (1/
2 2
𝜎√𝜋)𝑒 −(𝑋− 𝜇) /2𝜎 𝑑𝑋, trong đó X0 là một giá trị cụ thể của X. Nếu = 0 và 2 = 1, thì PDF và CDF lần lượt thể
hiện PDF và CDF chuẩn hóa.
12
bằng 0 và phương sai bằng 1). F là CDF chuẩn hóa, và trong ngữ cảnh hiện tại có thể
được viết lại như sau:
Vì P thể hiện xác suất mà một người hút thuốc, nên nó được đo bằng phần diện tích của
đường cong CDF chuẩn hóa từ - đến Ii. Trong ngữ cảnh hiện tại, F(Ii) được gọi là hàm
probit.
Mặc dù việc ước lượng chỉ số hữu dụng BX và các tham số Bs là khá phức tạp trong mô
hình probit, nhưng phương pháp ML có thể được sử dụng để ước lượng chúng. Đối với
ví dụ của chúng ta, các giá trị ước lượng theo ML của mô hình probit được trình bày
trong Bảng 8.5.
Bảng 8.5: Mô hình probit về hút thuốc.
Mặc dù các giá trị bằng số của các hệ số hồi quy logit và probit là khác nhau, nhưng về
mặt định tính thì các kết quả là tương tự nhau: các hệ số của tuổi, giáo dục và giá thuốc
lá đều có ý nghĩa thống kê ít nhất ở mức ý nghĩa 10%. Tuy nhiên, hệ số của thu nhập
không có ý nghĩa.
Có một cách so sánh các hệ số của mô hình logit và probit. Mặc dù cả phân phối logistic
chuẩn (standard logistic, nền tảng của logit) và phân phối chuẩn hóa (standard normal,
nền tảng của probit) đều có trung bình bằng 0 nhưng phương sai của chúng khác nhau:
bằng 1 đối với phân phối chuẩn hóa và 2/3 đối với phân phối logistic, trong đó 22/7,
tức khoảng 3.14. Vì thế, nếu chúng ta nhân hệ số của probit cho khoảng 1.81 ( /√3),
13
thì chúng ta sẽ có xấp xỉ hệ số của logit. Ví dụ, hệ số probit của biến tuổi = -0.0129. Nếu
chúng ta nhân hệ số này với 1.81, chúng ta sẽ có -0.0233, con số này có thể so sánh
trực tiếp với hệ số của tuổi trong mô hình logit ở Bảng 8.3 [Ở đây, Gujarati nhầm -
0.01296 trong Bảng 8.5 với -0.0235].
Chúng ta giải thích các hệ số của mô hình probit được cho trong Bảng 8.5 như thế nào?
Ví dụ, ảnh hưởng biên lên xác suất hút thuốc là bao nhiêu nếu tuổi tăng thêm một năm,
khi giữ nguyên các yếu tố khác không đổi. Ảnh hưởng biên này được tính bằng cách lấy
hệ số của biến tuổi, -0.0130, nhân với giá trị của hàm mật độ chuẩn được đánh giá cho
tất cả các X cho cá nhân đó.
Để minh họa, hãy xem dữ liệu của người hút thuốc số 1 trong mẫu của chúng ta, thông
tin người này như sau: tuổi = 21, giáo dục = 12, thu nhập = 8.500, và giá = 60.6. Thế các
giá trị này vào hàm mật độ chuẩn được cho trong chú thích 13, chúng ta có: f(BX) =
0.3983. Nhân giá trị này với -0.0130, chúng ta có -0.0051. Con số này có nghĩa là với các
giá trị cho trước của các biến giải thích, thì xác suất mà một người nào đó hút thuốc
giảm khoảng 0.005 nếu tuổi tăng thêm một năm. Nhớ lại rằng chúng ta có một trường
hợp tương tự khi tính ảnh hưởng biên của một biến giải thích lên xác suất hút thuốc
trong mô hình logit.
Như bạn có thể thấy, tính toán ảnh hưởng biên của một biến giải thích lên xác suất hút
thuốc của một cá nhân theo cách này là một công việc chán ngắt, mặc dù các phần mềm
Stata và Eviews có thể làm công việc này tương đối nhanh chóng.
Nhân tiện, ước lượng mô hình probit cho ảnh hưởng tương tác như trong mô hình logit
được trình bày trong Bảng 8.6.
Bảng 8.6: Mô hình probit về hút thuốc với biến tương tác.
14
Như bạn có thể thấy, các kết quả trong Bảng 8.4 và 8.6 là khá giống nhau. Nhưng bạn
sẽ phải sử dụng hệ số chuyển đổi (conversion factor) khoảng 1.81 để làm cho các hệ số
của mô hình probit có thể so sánh trực tiếp với các hệ số của mô hình logit 15.
Nhân tiện, có thể lưu ý rằng chúng ta cũng có thể ước lượng mô hình probit cho dữ liệu
nhóm, được gọi là mô hình probit dữ liệu nhóm, tương tự như mô hình logit dữ liệu
nhóm. Nhưng chúng ta sẽ không theo đuổi việc này ở đây.
15
Một hệ hệ chuyển đổi để so sánh mô hình LPM và các mô hình logit được cho trong Bài tập 8.1.
15
Không giống mô hình LPM, ảnh hưởng biên của một biến giải thích trong mô hình logit
phụ thuộc không chỉ vào hệ số của biến đó mà còn và các giá trị của tất cả các biến giải
thích trong mô hình.
Một mô hình khác với logit là mô hình probit. Phân phối xác suất cơ bản của probit là
phân phối chuẩn. Các tham số của mô hình probit thường được ước lượng bằng phương
pháp hợp lý tối đa (ML).
Giống mô hình logit, ảnh hưởng biên của một biến giải thích trong mô hình probit cũng
liên quan đến tất cả các biến giải thích trong mô hình.
Các hệ số của logit và probit không thể so sánh một cách trực tiếp. Nhưng nếu bạn nhân
các hệ số của mô hình probit cho 1.81, thì chúng có thể so sánh được với các hệ số của
mô hình logit. Sự chuyển đổi này là cần thiết bởi vì phương sai của phân phối logistic và
phân phối chuẩn là khác nhau.
Trong thực tế, các mô hình logit và probit cho các kết quả tương tự. Sự lựa chọn giữa
chúng phụ thuốc vào sự sẵn có của phần mềm và sự dễ dàng trong việc giải thích kết
quả./.
Hướng dẫn Stata ( )
use "D:\Table8_1.dta" , clear
16
quietly logit smoker age educ income pcigs79
outreg2 using model1, ti(Chapter 8, Gujarati) ct(Logit Model) replace
quietly probit smoker age educ income pcigs79
outreg2 using model1, ti(Chapter 8, Gujarati) ct(Probit Model) append
17
hoặc
18
quietly logit smoker age educ income pcigs79
quietly fitstat, saving(mod1)
quietly logit smoker age educ income pcigs79 educincome
fitstat, using(mod1)
19
20
21