You are on page 1of 21

Chương 8

Các mô hình logit và probit


(Gujarati: Econometrics by example, 2011) 1.
Người dịch và diễn giải: Phùng Thanh Bình
http://vnp.edu.vn/

C
Biến phụ thuộc trong hầu hết các mô hình hồi quy đều bằng số, thường được đo theo
một thang đo tỷ lệ (ratio scale). Nhưng trong nhiều ứng dụng thì các biến phụ thuộc là
định danh (nominal) theo nghĩa rằng chúng biểu hiện các phân loại (categories), như
nam hoặc nữ, có gia đình hoặc chưa có gia đình, có việc làm hoặc thất nghiệp, trong lực
lượng lao động hoặc không thuộc lực lượng lao động.
Giả sử chúng ta có dữ liệu về những người trưởng thành, một số trong họ hút thuốc và
một số khác thì không. Hơn nữa, giả sử rằng chúng ta muốn biết các nhân tố nào quyết
định việc một người hút thuốc hay không. Vì thế biến tình trạng hút thuốc là một biến
định danh; hoặc là bạn hút thuốc hoặc là bạn không hút thuốc. Chúng ta mô hình hóa
các biến định danh như thế như thế nào? Chúng ta có thể sử dụng các kỹ thuật hồi quy
cổ điển hay chúng ta cần các kỹ thuật chuyên biệt?
Các mô hình hồi quy liên quan đến các biến có thang đo định danh là một ví dụ của một
lớp các mô hình được gọi chung là các mô hình hồi quy phản ứng định tính (qualitative
response regression models). Có rất nhiều loại mô hình như thế, nhưng trong chương
này chúng ta sẽ xem xét một loại đơn giản nhất trong các mô hình đó, có tên gọi là các
mô hình hồi quy có biến phụ thuộc là biến giả hoặc biến nhị phân (binary or
dichotomous). Trong các chương tiếp theo, chúng ta sẽ xem xét các loại khác trong các
mô hình hồi quy phản ứng định tính.
Mục tiêu của chương này là nhằm cho thấy rằng mặc dù các mô hình hồi quy biến nhị
phân có thể được ước lượng theo phương pháp bình phương bé nhất, nhưng các mô
hình như thế thường được ước lượng theo các phương pháp đặc biệt, chẳng hạn như
logit và probit. Trước hết chúng ta sẽ cho thấy tại sao phương pháp bình phương bé
nhất không thích hợp và sau đó xem xét các mô hình logit và probit. Chúng ta bắt đầu
bằng một ví dụ.

1
Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011:
https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/

1
8.1 Một ví dụ minh họa: hút hay là không hút
Dữ liệu được sử dụng ở đây là một mẫu ngẫu nhiên gồm 1.196 nam2. Dữ liệu này được
dung cấp trong tập tin Table 8.1, có thể được tìm thấy trên trang web đồng hành cùng
cuốn sách.
Các biến được sử dụng trong phân tích như sau đây:
Smoker = 1 cho những người hút thuốc và 0 cho những người không hút thuốc
Age = tuổi tính theo năm
Education = số năm đi học
Income = thu nhập gia đình
Pcigs = giá thuốc hút ở từng bang riêng lẻ vào năm 1979

8.2 Mô hình xác suất tuyến tính (LPM)


Vì biến phụ thuộc, người hút thuốc, là một biến định danh, nên nó nhận một giá trị bằng
1 (cho người hút thuốc) và bằng 0 (cho người không hút thuốc). Giả sử chúng ta như
thường lệ áp dụng phương pháp bình phương bé nhất thông thường (OLS) để xác định
hành vi hút thuốc trong mối quan hệ với các biến về tuổi, giáo dục, thu nhập gia đình,
và giá thuốc. Nghĩa là, chúng ta sử dụng mô hình sau đây:

Để đơn giản, chúng ta viết lại như sau:

Mô hình (8.2) được gọi là mô hình xác suất tuyến tính (LPM – linear probability model)
bởi vì kỳ vọng có điều kiện của biến phụ thuộc (tình trạng hút thuốc), khi cho trước các
giá trị của các biến giải thích, có thể được giải thích như xác suất có điều kiện
(conditional probability) mà biến cố (tức có hút thuốc) sẽ xảy ra3.
Sử dụng Eviews, chúng ta có được kết quả trong Bảng 8.2. Chúng ta hãy phân tích các
kết quả trong bảng này.
Lưu ý rằng tất cả các biến, trừ thu nhập, đều có ý nghĩa thống kê ít nhất ở mức ý nghĩa
10%.

2
Các dữ liệu này từ trang web của Michael P. Murray, Econometrics: A Modern Introduction, Addison-Wesley,
Boston, 2006. Xem http://www.aw.bc.com/murray. Nhưng dữ liệu đã được sử dụng đầu tiên bởi John Mullay,
Instrumental variable estimation of count data models: an application to models of cigarette smoking behavior,
The Review of Economics and Statistics, 1997.
3
Nếu Pi = Pr(Yi = 1) và (1 - Pi) = Pr(Yi = 0), thì giá trị kỳ vọng của Yi = E(Yi) = 1.Pi + 0.(1 - Pi) = Pi.

2
Tuổi, giáo dục, và giá thuốc có tác động âm lên hút thuốc, điều này có thể không phải
là một kết quả ngạc nhiên. Tất cả các biến giải thích đồng thời có ý nghĩa thống kê, vì
giá trị ước lượng của thống kê F  12.00 có một giá trị xác suất p hầu như bằng 0. Nhớ
lại rằng giá trị F dùng để kiểm định giả thuyết rằng tất cả các hệ số độ dốc đồng thời
bằng 0.
Bảng 8.2: Mô hình LPM về hút hay là không hút thuốc.

Vì chúng ta ước lượng một mô hình xác suất tuyến tính, nên việc giải thích các hệ số hồi
quy là như sau. Nếu chúng ta giữ nguyên tất cả các biến khác, xác suất hút thuốc giảm
với tỷ lệ  0.005 khi tăng thêm một tuổi, có thể điều này là do tác động xấu của hút
thuốc lên sức khỏe. Tương tự, khi các yếu tố khác được giữ nguyên, tăng số năm đi học
thêm một năm sẽ giảm xác suất hút thuốc khoảng 0.02. Tương tự, nếu giá thuốc tăng
thêm một đôla, thì xác suất hút thuốc giảm khoảng  0.005, khi giữ các biến khác không
đổi. Giá trị R2  0.038 dường như rất thấp, nhưng chúng ta đừng đặt quan trọng quá
nhiều vào thống kê này bởi vì biến phụ thuộc là biến định danh, chỉ nhận giá trị 1 và 0.
Chúng ta có thể cải thiện (refine) mô hình này bằng cách đưa thêm các biến tương tác
(interaction terms), như tuổi nhân với giáo dục, hoặc giáo dục nhân với thu nhập, hoặc
đưa thêm một biến bình phương của giáo dục hoặc bình phương của tuổi vào mô hình
để xem liệu có tác động phi tuyến của những biến này lên hút thuốc hay không. Nhưng
không có cơ sở nào để làm điều này, bởi vì LPM bản thân nó có nhiều hạn chế.
Thứ nhất, mô hình LPM giả định rằng xác suất hút thuốc có mối quan hệ tuyến tính với
giá trị của biến giải thích, không cần biết giá trị đó lớn hoặc nhỏ bao nhiêu. Thứ hai, theo
lôgic, thì giá trị xác suất phải nằm giữa 0 và 1. Nhưng không có gì đảm bảo rằng các giá
trị xác suất ước lượng từ mô hình LPM sẽ nằm trong các giới hạn này. Điều này là bởi vì
OLS không tính đến sự ràng buộc rằng các xác suất ước lượng phải nằm giữa các giới
hạn 0 và 1. Thứ ba, giả định thông thường rằng hạng nhiễu theo phân phối chuẩn không
thể được thỏa mãn khi biến phụ thuộc chỉ nhận các giá trị 0 và 1. Cuối cùng, hạng nhiễu

3
trong mô hình LPM có phương sai thay đổi, điều này làm cho các kiểm định ý nghĩa
truyền thống không thể tin cậy được.
Vì tất cả các lý do này, mà mô hình LPM không phải là sự lựa chọn ưa thích để mô hình
hóa các biến nhị phân. Các mô hình thay thế được thảo luận trong lý thuyết là mô hình
logit và mô hình probit.

8.3 Mô hình logit


Trong ví dụ về người hút thuốc, mục tiêu chính của chúng ta là ước lượng xác suất hút
thuốc, khi cho trước các giá trị của các biến giải thích. Khi xây dựng một hàm xác suất
như thế, chúng ta cần nhớ hai điều kiện: (1) đó là khi Xi, giá trị của (các) biến giải thích
thay đổi, thì xác suất ước lượng luôn nằm trong khoảng 0 – 1, và (2) đó là mối quan hệ
giữa Pi và Xi là phi tuyến, nghĩa là, “xác suất tiến gần 0 với đốc độ chậm dần khi Xi nhỏ
và tiến gần 1 với tốc độ chậm dần khi Xi rất lớn”4. Các mô hình logit và probit thỏa mãn
các điều kiện này. Trước hết chúng ta xem xét mô hình logit bởi vì nó tương đối đơn
giản về mặt toán học.
Giả sử trong ví dụ của chúng ta, quyết định của một cá nhân có hút thuốc hay không
phụ thuộc vào một chỉ số hữu dụng không thể quan sát được (unobservable utility index)
I*i, chỉ số này phụ thuộc vào các biến giải thích như tuổi, giáo dục, thu nhập gia đình và
giá thuốc lá5. Chúng ta thể hiện chỉ số này như sau:

Trong đó, i = cá nhân thứ i, u = hạng nhiễu, và BX như được định nghĩa trong phương
trình (8.2).
Nhưng chỉ số không thể quan sát có quan hệ như thế nào với quyết định thực sự là hút
hay không hút? Thật hợp lý để giả định rằng:

Yi = 1 (một người hút thuốc) nếu I*i  0


Yi = 0 (một người không hút thuốc) nếu I*i < 0

Nghĩa là, nếu chỉ số hữu dụng I của một người lớn hơn mức ngưỡng I*, thì người đó sẽ
hút nhưng nếu nhỏ hơn I*, thì người đó sẽ không hút. Lưu ý rằng chúng ta không có gợi
ý rằng hút thuốc là tốt hay xấu cho sức khỏe, mặc dù có nhiều nghiên cứu y khoa khuyến
cáo rằng hút thuốc có thể xấu cho sức khỏe.
Để làm cho lựa chọn này có thể thực hiện được, chúng ta có thể nghĩ theo xác suất của
việc thực hiện một lựa chọn, ví dụ lựa chọn hút thuốc (tức Y = 1):

4
John H. Aldridge and Forrest Nelson, Linear Probability, Logit and Probit Models, Sage Publications, 1984, p.26.
5
Chỉ số hữu dụng cũng được gọi là một biến tiềm ẩn (latent variable).

4
Bây giờ xác suất này phụ thuộc vào phân phối xác suất của Yi, đến lượt nó lại phụ thuộc
vào phân phối xác suất của hạng nhiễu, ui6. Nếu phân phối xác suất này là đối xứng
quanh giá trị trung bình (bằng 0) của nó, thì phương trình (8.4) có thể được viết lại là:

Rõ ràng Pi phụ thuộc vào phân phối xác suất cụ thể của ui. Nhớ rằng xác suất mà một
biến ngẫu nhiên nhận một giá trị nhỏ hơn một giá trị được xác định nào đó được cho
bởi hàm phân phối tích lũy (CDF – cumulative distribution function) của biến đó7.
Mô hình logit giả định rằng phân phối xác suất của ui theo phân phối xác suất logistic
(logistic probability distribution), đối với ví dụ của chúng ta nó có thể được viết lại như
sau:

Trong đó, Pi = xác suất hút thuốc (tức là Yi = 1) và

Xác suất của Y = 0, nghĩa là, một người không phải là người hút thuốc, được cho bởi:

Lưu ý: Dấu của Zi trong phương trình (8.7) và (8.8) là khác nhau.

Biến đổi phương trình (8.9)?

6
Lưu ý rằng B là cố định và phi ngẫu nhiên và các giá trị X được cho trước. Vì thế, biến thiên trong Yi xuất phát
từ biến thiên trong ui.
7
Nhớ lại từ thống kê căn bản rằng hàm phân phối tích lũy của một biến ngẫu nhiên X, F(X), được định nghĩa là
F(X) = Pr(X  x), trong đó x là một giá trị cụ thể của X. Cũng nhắc lại rằng nếu bạn vẽ đồ thị CDF, nó trông giống
như một hình chữ S kéo dài (elongated S).

5
e−Zi
−Zi −Zi
1 1+ e −1 e e−Zi
1 − Pi = 1 − = = =
1 + e−Zi 1 + e−Zi 1 + e−Zi 1 + e−Zi
e−Zi
1 1 1
= = = = (8.9)
1 e−Zi eZi + 1 1 + eZi
e −Zi + e−Zi
Chúng ta dễ dàng xác nhận rằng khi Zi chạy từ -  đến + , thì Pi chạy từ 0 đến 1 và rằng
Pi có quan hệ phi tuyến với Zi (tức Xi), vì thế thỏa mãn hai điều kiện chúng ta vừa mới
thảo luận ở trên8.
Chúng ta ước lượng mô hình (8.7) như thế nào, vì nó là phi tuyến không chỉ trong X mà
còn trong các tham số Bs? Chúng ta có thể sử dụng một cách chuyển hóa đơn giản để
làm cho mô hình tuyến tính trong Xs và các hệ số. Lấy tỷ số của các phương trình (8.7)
và (8.9), nghĩa là xác suất mà một người là người hút thuốc đối với xác suất mà người
đó không phải là người hút thuốc, chúng ta có:

Diễn giải chút:

Zi
1 + eZi
Zi
1+e 1+e 1 1 + eZi eZi
= = Zi = . = eZi = (8.10)
1 + e−Zi 1 e +1 1 1+ e Zi
1 + Zi
e e Zi

Giải thích thêm:


Pi
= eZi => Pi = (1 − Pi ). eZi = eZi − Pi . eZi
1 − Pi

Zi Zi Zi ) Zi
eZi
=> Pi + Pi . e = e => Pi (1 + e = e => Pi =
1 + eZi
Bây giờ, Pi/(1 - Pi) đơn giản là tỷ số odds (odds ratio) ủng hộ việc hút thuốc – tỷ số của
xác suất mà một người là người hút thuốc so với xác suất mà người đó không phải là
người hút thuốc.
Lấy log (tự nhiên) của phương trình (8.10), chúng ta có được một kết quả rất thú vị, đó
là:

8
Lý do tại sao Pi có quan hệ phi tuyến với, ví dụ, thu nhập là rằng khi thu nhập tăng lên thì những người hút
thuốc sẽ tăng tiêu dùng của họ cho thuốc lá với một mức giảm dần bởi vì quay luật hiệu suất giảm dần (law of
diminishing returns). Điều này đúng với hầu hết các hàng hóa thông thường.

6
Phương trình (8.11) phát biểu rằng log của tỷ số odds là một hàm tuyến tính của các Bs
và cũng như các biến Xs. Li được gọi là logit (log của tỷ số odds) và vì thế có tên là mô
hình logit (logit model) cho các mô hình giống như (8.11). Điều thú vị mà ta quan sát
thấy rằng mô hình xác suất tuyến tính được thảo luận trước đó giả định rằng Pi có quan
hệ tuyến tính với Xi, trong khi đó mô hình logit giả định rằng log của tỷ số odds có quan
hệ tuyến tính với Xi.
Một số tính chất của mô hình logit như sau:
1. Khi Pi, xác suất tăng từ 0 đến 1, thì logit Li đi từ -  đến + . Nghĩa là, mặc dù các
xác suất nằm giữa 0 và 1, nhưng logit là không có giới hạn.
2. Mặc dù Li là tuyến tính theo Xi, nhưng bản thân các xác suất thì không. Điều này
trái với mô hình LPM ở đó các xác suất tăng tuyến tính với Xi.
3. Nếu Li, logit, dương, thì nó có nghĩa rằng khi giá trị của (các) biến giải thích tăng,
tỷ số odds của hút thuốc tăng, trong khi đó nếu nó âm, thì tỷ số odds của hút
thuốc giảm.
4. Sự giải thích mô hình logit ở (8.11) như sau: mỗi hệ số dốc cho biết log của odds
ủng hộ việc hút thuốc thay đổi khi giá trị của biến X thay đổi một đơn vị.
5. Một khi các hệ số của mô hình logit được ước lượng, chúng ta có thể dễ dàng
tính các xác suất của hút thuốc, chứ không chỉ có tỷ số odds của hút thuốc, từ
(8.7).
6. Trong mô hình LPM, hệ số dốc đo lường ảnh hưởng biên (marginal effect) của
một thay đổi đơn vị trong biến giải thích lên xác suất hút thuốc, khi giữ nguyên
các biến khác. Điều này không đúng với mô hình logit, vì ảnh hưởng biên của một
sự thay đổi đơn vị trong biến giải thích không chỉ phụ thuộc vào hệ số của biến
đó, mà còn phụ thuộc vào mức xác suất từ đó mà sự thay đổi được đo lường.
Nhưng mức xác suất phụ thuộc vào các giá trị của tất cả các biến giải thích trong
mô hình9. Tuy nhiên, các phần mềm thống kê như Eviews và Stata có thể tính
toán các ảnh hưởng biên với các hướng dẫn đơn giản.
Bây giờ câu hỏi đặt ra là: chúng ta ước lượng các tham số của mô hình logit như thế
nào?
Ước lượng mô hình logit
Việc ước lượng mô hình logit phụ thuộc vào loại dữ liệu có sẵn cho phân tích. Có hai loại
dữ liệu có sẵn: dữ liệu ở cấp độ cá nhân, hoặc vi mô, nhưng trong trường hợp ví dụ về
người hút thuốc, và dữ liệu ở cấp độ nhóm. Trước hết chúng ta sẽ xem xét trường hợp
dữ liệu ở cấp độ cá nhân.

9
Các bạn đọc có khả năng về giải tích có thể xác nhận điều này nếu bạn lấy đạo hàm (riêng phần) của phương
trình (8.7) theo các biến giải thích phù hợp, lưu ý rằng Zi = BX. Lưu ý: sử dụng quy tắc dây chuyền (hàm của hàm,
chain rule): Pi/Xi = Pi/Zi . Zi/Xi.

7
Dữ liệu cấp độ cá nhân
Đối với ví dụ về người hút thuốc của chúng ta, chúng ta có dữ liệu về 1.196 cá nhân. Vì
thế, mặc dù mô hình logit là tuyến tính, nhưng nó không thể được ước lượng theo
phương pháp OLS thông thường. Để biết tại sao, lưu ý rằng Pi = 1 nếu một người hút
thuốc, và Pi = 0 nếu một người không hút thuốc. Nhưng nếu chúng ta đưa các giá trị này
một cách trực tiếp vào logit Li, thì chúng ta có biểu thức Li = ln(1/0) nếu một người hút
thuốc và Li = ln(0/1) nếu một người không hút thuốc. Đây là các biểu thức không xác
định. Vì thế, để ước lượng mô hình logit chúng ta phải dựa vào các phương pháp ước
lượng khác. Phương pháp phổ biến nhất với các tính chất thống kê hấp dẫn là phương
pháp hợp lý tối đa (ML – maximum likelihood). Chúng ta đã thảo luận ngắn gọn phương
pháp này ở chương 1, nhưng để biết chi tiết hơn về ML bạn có thể tìm đọc trong các tài
liệu tham khảo10. Hầu hết các phần mềm thống kê có thiết lập sẵn thủ tục để ước lượng
các tham số theo phương pháp ML.
Trước hết chúng ta trình bày các kết quả ước lượng theo ML cho ví dụ về người hút
thuốc, kết quả này có được từ Eviews (Bảng 8.3).
Chúng ta hãy phân tích các kết quả này. Các biến tuổi và giáo dục có ý nghĩa thống kê
cao và có dấu đúng như kỳ vọng. Khi tuổi tăng, thì giá trị của logit giảm, có lẽ do các
quan tâm về sức khỏe – nghĩa là, khi người ta lớn tuổi, thì họ ít có khả năng hút thuốc.
Tương tự, người có trình độ giáo dục cao hơn thì ít có khả năng hút thuốc, có lẽ do hiểu
biết về ảnh hưởng xấu của hút thuốc. Giá thuốc lá có dấu âm như kỳ vọng và có ý nghĩa
ở mức 7%. Khi các yếu tố khác được giữ nguyên, thì giá thuốc lá càng cao, thì xác suất
hút thuốc càng thấp. Thu nhập không có tác động có ý nghĩa thống kê lên việc hút thuốc,
có lẽ bởi vì chi tiêu cho thuốc lá có thể chiếm một tỷ phần nhỏ trong thu nhập gia đình.
Bảng 8.3: Mô hình logit về quyết định hút hay là không hút.

10
Một thảo luận dễ đọc về ML, xem Gujarati/Porter, op cit.

8
Giải thích các hệ số khác nhau như sau: khi giữ các biến khác không đổi, nếu, ví dụ giáo
dục tăng thêm một năm, thì trung bình giá trị logit giảm khoảng 0.09, nghĩa là log của
tỷ số odds ủng hộ việc hút thuốc giảm khoảng 0.09. Các hệ số khác cũng được giải thích
một cách tương tự.
Nhưng ngôn ngữ logit không phải là ngôn ngữ thường ngày. Điều mà chúng ta muốn
biết là xác suất của việc hút thuốc, khi cho trước các giá trị của các biến giải thích. Nhưng
điều này có thể được tính từ phương trình (8.7). Để minh họa, chúng ta chọn người thứ
2 từ Table 8.1. Dữ liệu của người này như sau: tuổi = 28, giáo dục = 15, thu nhập =
12.500 và giá thuốc năm 1979 = 60. Thế các giá trị này vào phương trình (8.7), ta có:

Nghĩa là, xác suất mà một người với các đặc điểm được cho ở trên là một người hút
thuốc là khoảng 38%. Từ dữ liệu chúng ta biết được người này là một người hút thuộc.
Bây giờ lấy một người (bất kỳ) với các thông tin về tuổi, giáo dục, thu nhập, và giá thuốc
năm 1979 lần lượt như sau: 63, 10, 20.000, và 60.8. Đối với người này, xác suất hút
thuốc sẽ là:

Nghĩa là, xác suất mà người này là một người hút thuốc là 32%. Trong mẫu của chúng
ta, một người như thế là người không hút thuốc.
Table 8.1 đưa ra xác suất hút thuốc cho mỗi người cùng với dữ liệu thô.
Liệu chúng ta có thể tính ảnh hưởng biên của một biến giải thích lên xác suất hút thuốc,
khi giữ nguyên tất cả các biến khác hay không? Giả sử chúng ta muốn biết Pi/Agei,
tức là ảnh hưởng của một sự thay đổi đơn vị trong tuổi lên xác suất hút thuốc, khi giữ
nguyên các biết khác không đổi. Điều này rất dễ dàng trong mô hình LPM, nhưng nó
không đơn giản với các mô hình logit hoặc probit. Điều này là bởi vì sự thay đổi trong
xác suất hút thuốc nếu tuổi thay đổi một đơn vị (ví dụ một năm) phụ thuộc không chỉ
vào hệ số của biến tuổi mà còn vào mức xác suất từ đó mà sự thay đổi được tính. Nhưng
mức xác suất này phụ thuộc vào giá trị của tất cả các biến giải thích. Để biết chi tiết cách
tính, bạn đọc có thể xem các tài liệu tham khảo, mặc dù Eviews và Stata có thể làm công
việc này một cách dễ dàng11.
Thước đo thông thường về mức độ phù hợp, R2, không có ý nghĩa nhiều khi biến phụ
thuộc nhận các giá trị 1 hoặc 0. Các thước đo tương tự R2, gọi là pseudo R2, được thảo

11
Xem, ví dụ như Gujarati/Porter, op cit.

9
luận trong lý thuyết. Một thước đo như vậy là McFadden R2, gọi là R2McF. Giống như R2,
R2McF nằm giữa 0 và 1. Đối với ví dụ của chúng ta, giá trị của nó là 0.0927.
Một thước đo về mức độ phù hợp khác là count R2, được định nghĩa như sau:

Vì biến phụ thuộc nhận một giá trị 1 hoặc 0, nếu xác suất dự đoán cho một quan sát lớn
hơn 0.5 chúng ta phân loại quan sát đó như 1, nhưng nếu nhỏ hơn 0.5, chúng ta phân
loại như 0. Sau đó chúng ta đếm số dự đoán đúng và tính count R2 như công thức ở trên
(xem Bài tập 8.3).
Cũng nên nhấn mạnh rằng trong các mô hình hồi quy nhị phân thì các thước đo về mức
độ phù hợp chỉ quan trọng thứ hai. Điều mà chúng ta quan tâm nhất là các dấu kỳ vọng
của các hệ số hồi quy và ý nghĩa thống kê hoặc ý nghĩa thực tiễn của chúng. Từ Bảng 8.3
chúng ta có thể thấy rằng ngoại trừ hệ số của biến thu nhập, tất cả các hệ số khác đều
có ý nghĩa thống kê, ít nhất là ở mức ý nghĩa 10%. Chúng ta cũng có thể kiểm định giả
thuyết Ho rằng tất cả các hệ số đồng thời bằng 0 với thống kê về tỷ số hợp lý (LR –
likelihood ratio statistic), thống kê này tương đương với kiểm định F trong mô hình hồi
quy tuyến tính12. Dưới giả thuyết Ho rằng không có biến giải thích nào có ý nghĩa, thống
kê LR theo phân phối Chi bình phương với số bậc tự do bằng với số biến giải thích: 4
trong ví dụ của chúng ta.
Như Bảng 8.3 cho thấy, giá trị của thống kê LR là khoảng 47.26 và giá trị xác suất p (tức
mức ý nghĩa chính xác) thực tế bằng 0, vì thế chúng ta bác bỏ giả thuyết Ho. Vì thế chúng
ta có thể nói rằng bốn biến được đưa vào mô hình logit là các nhân tố quyết định quan
trọng về thói quen hút thuốc.
• Lưu ý kỹ thuật số 1: Bảng 8.3 đưa ra hai thống kê về log likelihood –
unrestricted likelihood (= - 770.84) và restricted likelihood (= -794.47). Thống
kê thứ hai có được bằng cách giả sử rằng không có biến giải thích nào trong
mô hình, chỉ có hệ số cắt, trong khi đó unrestricted likelihood là giá trị có được
với tất cả các biến giải thích (kể cả hệ số cắt) trong mô hình. Thống kê LR (= )
khoảng 47.27 trong Bảng 8.3 được tính từ công thức được trình bày trong Phụ
lục cuối chương 1. Đối với ví dụ của chúng ta, tỷ số hợp lý được tính toán
(computed likelihood ratio) là 47.27 có ý nghĩa thống kê cao, vì giá trị xác suất
của nó thực tế bằng 013. Điều này có thể nói rằng mô hình không bị ràng buộc
(unrestricted model) bao gồm tất cả các biến giải thích là mô hình phù hợp
trong ví dụ hiện tại. Nói theo cách khác, mô hình bị ràng buộc là không hợp lý
trong trường hợp hiện tại.
12
Trong phụ lục về ML ở chương 1, chúng ta đã thảo luận tại sao chúng ta sử dụng thống kê LR.
13
Như đã lưu ý trong Phụ lục cuối chương 1, dưới giả thuyết Ho rằng các hệ số của tất cả các biến giải thích trong
mô hình đều bằng 0, thống kê LR theo phân phối Chi bình phương với bậc tự do bằng số biến giải thích (loại trừ
hệ số cắt), bằng 4 trong ví dụ của chúng ta.

10
• Lưu ý kỹ thuật số 2: Lưu ý rằng các sai số chuẩn Huber/White được báo cáo
trong Bảng 8.3 không nhất thiết là cải thiện phương sai thay đổi (robust to
heteroscedasticity) nhưng là cải thiện nhằm tránh sai dạng của phân phối xác
suất cơ bản (robust to certain misspecification of the underlying probability
distribution) của biến phụ thuộc.
Cải thiện mô hình (model refinement)
Mô hình logit được cho trong Bảng 8.3 có thể được cải thiện. Ví dụ, chúng ta đưa thêm
ảnh hưởng tương tác giữa các biến giải thích. Từng biến riêng lẻ thì giáo dục có tác động
âm và thu nhập có tác động dương lên xác suất hút thuốc, mặc dù ảnh hưởng của thu
nhập là không có ý nghĩa thống kê. Nhưng ảnh hưởng kết hợp của giáo dục và thu nhập
lên xác suất thì sao? Những người có trình độ giáo dục cao hơn và mức thu nhập cao
hơn sẽ hút ít hơn hay nhiều hơn những người có các đặc điểm khác?
Để biết điều này, chúng ta có thể đưa thêm ảnh hưởng tương tác của hai biến như một
biến giải thích tăng thêm vào mô hình. Các kết quả được trình bày trong Bảng 8.4.
Bảng 8.4: Mô hình logit về hút thuốc với biến tương tác.

Các kết quả này rất thú vị. Trong Bảng 8.3, xét từng biến thì biến giáo dục có ảnh hưởng
âm có ý nghĩa lên logit (vì thế lên xác suất hút thuốc) và biến thu nhập không có tác
động có ý nghĩa thống kê. Bây giờ giáo dục bản thân nó không có tác động có ý nghĩa
thống kê lên logit, nhưng thu nhập có tác động dương có ý nghĩa thống kê cao. Nhưng
nếu bạn xem xét biến tương tác, giáo dục nhân với thu nhập, có tác động âm có ý nghĩa
lên logit. Nghĩa là, những người với trình độ giáo dục cao hơn và cũng có thu nhập cao
hơn ít có khả năng là những người hút thuốc hơn so với những người chỉ có giá dục cao
hơn hoặc chỉ có thu nhập cao hơn. Điều này gợi cho chúng ta rằng tác động của một
biến lên xác suất hút thuốc có thể bị suy yếu hoặc tăng lên khi có sự hiện diện của (các)
biến khác.

11
Bạn đọc được khuyến khích làm thử các tương tác khác giữa các biến giải thích để xem
có tìm thấy kết quả gì khác hay không.

Ước lượng mô hình logit với dữ liệu nhóm


Giả sử chúng ta nhóm dữ liệu người hút thuốc thành 20 nhóm với khoảng 60 quan sát
cho mỗi nhóm. Đối với mỗi nhóm, chúng ta biết số người hút thuốc, ví dụ ni. Chúng ta
chia ni cho 60 để có một giá trị ước lượng về xác suất (thực nghiệm) về những người hút
thuốc cho nhóm đó, ví dụ pi. Vì thế, có ta có 20 giá trị pi ước lượng (estimated pi). Chúng
ta có thể sử dụng các xác suất này để ước lượng hồi quy logit phương trình (8.11) theo
OLS.
Khi khi dữ liệu có sẵn đã được phân chia theo nhóm, thì việc phân thành các nhóm theo
cách vừa được đề nghị ở đoạn trên có nhiều vấn đề. Thứ nhất, chúng ta phải quyết định
hình thành bao nhiêu nhóm. Nếu chúng ta hình thành quá ít nhóm, chúng ta sẽ có rất
ít pi để ước lượng phương trình (8.11). Trái lại, nếu chúng ta hình thành quá nhiều nhóm,
thì chúng ta sẽ chỉ có vài quan sát trong mỗi nhóm, điều này có thể khó mà ước lượng
các pi một cách hiệu quả.
Thứ hai, thậm chí nếu chúng ta có số nhóm vừa phải (right number of groups), thì một
vấn đề với ước lượng mô hình logit theo nhóm là hạng nhiễu trong (8.11) có phương sai
thay đổi. Vì thế chúng ta sẽ phải thận trọng với vấn đề phương sai thay đổi bằng cách
chuyển hóa thích hợp hoặc sử dụng các sai số chuẩn cải thiện theo phương pháp White,
một chủ đề được thảo luận ở chương 5.
Chúng ta sẽ không minh họa ước lượng mô hình logit với dữ liệu nhóm với dữ liệu về
người hút thuốc vì các lý do được thảo luận ở trên. Ngoài ra, chúng ta có dữ liệu cấp vi
mô và chúng ta có thể sử dụng phương pháp ML để ước lượng mô hình logit, như chúng
ta đã thấy ở phần trên (nhưng xem Bài tập 8.4).

8.4 Mô hình probit


Trong mô hình LPM, hạng nhiễu không có phân phối chuẩn; trong mô hình logit, hạng
nhiễu có phân phối logistic. Một mô hình ‘đối thủ’ khác là mô hình probit, trong đó hạng
nhiễu có phân phối chuẩn. Với giả định phân phối chuẩn cho trước, thì xác suất để I*i
nhỏ hơn hoặc bằng Ii có thể được tính từ hàm phân phối tích lũy chuẩn hóa (CDF –
standard normal cumulative distribution function) như sau 14:

Trong đó, Pr(Y|X) có nghĩa là xác suất mà một biết cố xảy ra (ví dụ có hút thuốc) khi cho
trước các giá trị của các biến X và Z là biến chuẩn hóa (tức là biến chuẩn với trung bình

14
Nếu một biến X theo phân phối chuẩn với trung bình là  và phương sai là 2, thì hàm mật độ xác suất (PDF)
2 2 𝑋
của nó là: f(X) = (1/𝜎√𝜋)𝑒−(𝑋− 𝜇) /2𝜎 và hàm phân phối tích lũy của nó (CDF) là: F(X0) = ∫−∞0 (1/
2 2
𝜎√𝜋)𝑒 −(𝑋− 𝜇) /2𝜎 𝑑𝑋, trong đó X0 là một giá trị cụ thể của X. Nếu  = 0 và 2 = 1, thì PDF và CDF lần lượt thể
hiện PDF và CDF chuẩn hóa.

12
bằng 0 và phương sai bằng 1). F là CDF chuẩn hóa, và trong ngữ cảnh hiện tại có thể
được viết lại như sau:

Vì P thể hiện xác suất mà một người hút thuốc, nên nó được đo bằng phần diện tích của
đường cong CDF chuẩn hóa từ -  đến Ii. Trong ngữ cảnh hiện tại, F(Ii) được gọi là hàm
probit.
Mặc dù việc ước lượng chỉ số hữu dụng BX và các tham số Bs là khá phức tạp trong mô
hình probit, nhưng phương pháp ML có thể được sử dụng để ước lượng chúng. Đối với
ví dụ của chúng ta, các giá trị ước lượng theo ML của mô hình probit được trình bày
trong Bảng 8.5.
Bảng 8.5: Mô hình probit về hút thuốc.

Mặc dù các giá trị bằng số của các hệ số hồi quy logit và probit là khác nhau, nhưng về
mặt định tính thì các kết quả là tương tự nhau: các hệ số của tuổi, giáo dục và giá thuốc
lá đều có ý nghĩa thống kê ít nhất ở mức ý nghĩa 10%. Tuy nhiên, hệ số của thu nhập
không có ý nghĩa.
Có một cách so sánh các hệ số của mô hình logit và probit. Mặc dù cả phân phối logistic
chuẩn (standard logistic, nền tảng của logit) và phân phối chuẩn hóa (standard normal,
nền tảng của probit) đều có trung bình bằng 0 nhưng phương sai của chúng khác nhau:
bằng 1 đối với phân phối chuẩn hóa và 2/3 đối với phân phối logistic, trong đó   22/7,
tức khoảng 3.14. Vì thế, nếu chúng ta nhân hệ số của probit cho khoảng 1.81 ( /√3),
13
thì chúng ta sẽ có xấp xỉ hệ số của logit. Ví dụ, hệ số probit của biến tuổi = -0.0129. Nếu
chúng ta nhân hệ số này với 1.81, chúng ta sẽ có  -0.0233, con số này có thể so sánh
trực tiếp với hệ số của tuổi trong mô hình logit ở Bảng 8.3 [Ở đây, Gujarati nhầm -
0.01296 trong Bảng 8.5 với -0.0235].
Chúng ta giải thích các hệ số của mô hình probit được cho trong Bảng 8.5 như thế nào?
Ví dụ, ảnh hưởng biên lên xác suất hút thuốc là bao nhiêu nếu tuổi tăng thêm một năm,
khi giữ nguyên các yếu tố khác không đổi. Ảnh hưởng biên này được tính bằng cách lấy
hệ số của biến tuổi, -0.0130, nhân với giá trị của hàm mật độ chuẩn được đánh giá cho
tất cả các X cho cá nhân đó.
Để minh họa, hãy xem dữ liệu của người hút thuốc số 1 trong mẫu của chúng ta, thông
tin người này như sau: tuổi = 21, giáo dục = 12, thu nhập = 8.500, và giá = 60.6. Thế các
giá trị này vào hàm mật độ chuẩn được cho trong chú thích 13, chúng ta có: f(BX) =
0.3983. Nhân giá trị này với -0.0130, chúng ta có -0.0051. Con số này có nghĩa là với các
giá trị cho trước của các biến giải thích, thì xác suất mà một người nào đó hút thuốc
giảm khoảng 0.005 nếu tuổi tăng thêm một năm. Nhớ lại rằng chúng ta có một trường
hợp tương tự khi tính ảnh hưởng biên của một biến giải thích lên xác suất hút thuốc
trong mô hình logit.
Như bạn có thể thấy, tính toán ảnh hưởng biên của một biến giải thích lên xác suất hút
thuốc của một cá nhân theo cách này là một công việc chán ngắt, mặc dù các phần mềm
Stata và Eviews có thể làm công việc này tương đối nhanh chóng.
Nhân tiện, ước lượng mô hình probit cho ảnh hưởng tương tác như trong mô hình logit
được trình bày trong Bảng 8.6.
Bảng 8.6: Mô hình probit về hút thuốc với biến tương tác.

14
Như bạn có thể thấy, các kết quả trong Bảng 8.4 và 8.6 là khá giống nhau. Nhưng bạn
sẽ phải sử dụng hệ số chuyển đổi (conversion factor) khoảng 1.81 để làm cho các hệ số
của mô hình probit có thể so sánh trực tiếp với các hệ số của mô hình logit 15.
Nhân tiện, có thể lưu ý rằng chúng ta cũng có thể ước lượng mô hình probit cho dữ liệu
nhóm, được gọi là mô hình probit dữ liệu nhóm, tương tự như mô hình logit dữ liệu
nhóm. Nhưng chúng ta sẽ không theo đuổi việc này ở đây.

Logit với probit


Các mô hình logit và probit nói chung cho các kết quả tương tự; khác biệt chính giữa hai
mô hình là phân phối logistic có các đuôi hơi mỏng hơn [Gujarati dùng từ fatter, dầy
hơn là không đúng]; nhớ lại rằng phương sai của một biến ngẫu nhiên theo phân phối
logistic là khoảng 2/3, trong khi đó của một biến ngẫu nhiên theo phân phối chuẩn hóa
là 1. Điều đó nói lên rằng, xác suất có điều kiện Pi tiến về 0 và 1 với tốc độ chậm hơn
trong mô hình logit so với mô hình probit. Nhưng trong thực tế không có lý do thuyết
phục để chọn mô hình này chứ không phải mô hình kia. Nhiều nhà nghiên cứu thích
chọn logit hơn bởi vì sự tương đối đơn giản về mặt toán học của nó.

8.5 Tóm tắt và kết luận


Trong chương này, chúng ta thảo luận mô hình hồi quy phản ứng định tính có thể là đơn
giản nhất trong đó biến phụ thuộc là biến nhị phân, nhận giá trị bằng 1 nếu có thuộc
tính và giá trị bằng 0 nếu không có thuộc tính.
Mặc dù các mô hình biến phụ thuộc nhị phân có thể được ước lượng bằng OLS, trong
trường hợp này chúng được gọi là các mô hình xác suất tuyến tính (LPM), nhưng OLS
không phải là phương pháp ước lượng được ưa thích cho các mô hình như thế bởi vì hai
hạn chế: (1) các xác suất ước lượng từ LPM không nhất thiết nằm trong giới hạn 0 và 1,
và (2) LPM giả định rằng xác suất của một phản ứng dương tăng tuyến tính với mức độ
của biến giải thích, điều này rất phản trực quan. Bạn có thể kỳ vọng tốc độ tăng trong
xác suất sẽ giảm sau một điểm nào đó.
Các mô hình hồi quy phản ứng nhị phân có thể được ước lượng bằng các mô hình logit
và probit.
Mô hình logit sử dụng phân phối xác suất logistic để ước lượng các tham số của mô
hình. Mặc dù dường như phi tuyến, nhưng log của tỷ số odds, gọi là logit, làm cho mô
hình logit trở thành tuyến tính trong các tham số.
Nếu chúng ta có dữ liệu theo phân nhóm, chúng ta có thể ước lượng mô hình logit bằng
OLS. Nhưng nếu chúng ta có dữ liệu vi mô, thì chúng ta phải sử dụng phương pháp hợp
lý tối đa (ML). Trong trường hợp dữ liệu theo phân nhóm, chúng ta sẽ phải điều chỉnh
phương sai thay đổi của hạng nhiễu.

15
Một hệ hệ chuyển đổi để so sánh mô hình LPM và các mô hình logit được cho trong Bài tập 8.1.

15
Không giống mô hình LPM, ảnh hưởng biên của một biến giải thích trong mô hình logit
phụ thuộc không chỉ vào hệ số của biến đó mà còn và các giá trị của tất cả các biến giải
thích trong mô hình.
Một mô hình khác với logit là mô hình probit. Phân phối xác suất cơ bản của probit là
phân phối chuẩn. Các tham số của mô hình probit thường được ước lượng bằng phương
pháp hợp lý tối đa (ML).
Giống mô hình logit, ảnh hưởng biên của một biến giải thích trong mô hình probit cũng
liên quan đến tất cả các biến giải thích trong mô hình.
Các hệ số của logit và probit không thể so sánh một cách trực tiếp. Nhưng nếu bạn nhân
các hệ số của mô hình probit cho 1.81, thì chúng có thể so sánh được với các hệ số của
mô hình logit. Sự chuyển đổi này là cần thiết bởi vì phương sai của phân phối logistic và
phân phối chuẩn là khác nhau.
Trong thực tế, các mô hình logit và probit cho các kết quả tương tự. Sự lựa chọn giữa
chúng phụ thuốc vào sự sẵn có của phần mềm và sự dễ dàng trong việc giải thích kết
quả./.
Hướng dẫn Stata ( )
use "D:\Table8_1.dta" , clear

16
quietly logit smoker age educ income pcigs79
outreg2 using model1, ti(Chapter 8, Gujarati) ct(Logit Model) replace
quietly probit smoker age educ income pcigs79
outreg2 using model1, ti(Chapter 8, Gujarati) ct(Probit Model) append

17
hoặc

18
quietly logit smoker age educ income pcigs79
quietly fitstat, saving(mod1)
quietly logit smoker age educ income pcigs79 educincome
fitstat, using(mod1)

19
20
21

You might also like