You are on page 1of 16

LOGO

HỒI QUI LOGISTIC


LOGO

Hồi quy nhị phân hay còn gọi là hồi quy Binary Logistic là mô hình khá
phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ
xảy ra.
Trong đó biến số phụ thuộc (Y) là một biến số nhị phân (dichotomous –
binary variable),
Y thường được mã hoá là 1 và 0 (Y = 1, thành công; Y = 0, thất bại).
Biến số độc lập trong hồi qui logistic có thể là biến số rời hoặc liên tục,
biến số đơn hoặc đa biến số.
LOGO

Mục đích sử dụng hồi quy logit:


❖ Dự báo xác suất xảy ra sự kiện dựa vào các thông tin có được từ các
biến độc lập.
❖ Đo lường mức độ tác động của một biến độc lập lên thay đổi xác xuất
xảy ra sự kiện.
❖ Xếp thứ tự ảnh hưởng giữa các biến độc lập trong việc giải thích thay
đổi ở biến phụ thuộc.
LOGO

Trong hồi quy Logit, biến phụ thuộc Y hoặc bằng 0 hoặc bằng 1.
Y = 1 khi xảy ra (có) sự kiện; Y = 0 khi không xảy ra (không có) sự kiện,
với các xác suất tương ứng p và (1-p).
• Xác suất: p =[0,1]
• Xác suất xảy ra: Pr(Y = 1) = p
• Xác suất không xảy ra: Pr(Y = 0) = 1 – p
LOGO
LOGO

• Khái niệm:
• Odds: Odds = p/(1-p) → so sánh giữa xác suất xảy ra và xác suất không
xảy ra. Khi Odds = 1 thì xác suất xảy ra sự kiện bằng xác suất không
xảy ra và cùng bằng 0.5.
• Tỷ lệ Odds (odds
ratio):
LOGO

Ứng dụng nổi bật của hồi quy nhị phân Binary Logistic là khả năng dự
báo. Từ phương trình hồi quy, chúng ta có phương trình mô hình hàm
dự báo như sau:

Trong đó Pi = E(Y = 1/X) = P(Y = 1) gọi là xác suất để sự kiện


xảy ra (Y = 1) khi biến độc lập X có giá trị cụ thể Xi.
LOGO

Chú ý: Có thể so sánh giữa hai thời điểm hay giữa hai nhóm khác nhau.
❖ Ví dụ: xác suất mắc bệnh ung thư phổi của nam giới là 0.75 và của nữ
giới là 0.5 thì Odds mắc bệnh của nam là 3 và Odds mắc bệnh của nữ
là 1; khi đó, tỷ lệ Odds sẽ bằng 3 (Odds nam/Odds nữ = 3), nghĩa là,
khả năng mắc phải bệnh ung thư của nam giới cao gấp 3 lần của nữ
giới.
❖ log odds: ln(odds)
❖ logit = log of it (odds)
LOGO
Trường hợp đơn giản là dạng hồi quy logit đơn (simple logistic regression):

Phương trình logistic là:

1 e  0 + 1 X
p = =
1 + e − (  0 + 1 X ) 1 + e  0 + 1 X

Trong đó: p là xác suất để Y = 1.

Suy ra:

1
1− p =
1 + e  0 + 1 X
Odds của sự kiện xảy ra:

p 1 + e  0 + 1 X
Odds = = − (  0 + 1 X )
= e  0 + 1 X
1− p 1+ e

p
Ln(Odds ) = Ln( ) = ln(e  0 + 1 X ) =  0 + 1 X
1− p

Hay :

Logit = Ln(Odds ) =  0 + 1 X
LOGO

Xem xét sự thay đổi của Odds khi biến độc lập (biến giải thích) X gia tăng thêm 1
đơn vị (từ X lên X +1). Chúng ta có:

→ Ln(Odds1 ) =  0 + 1 X 1
Khi X = X 1 ⎯⎯
Khi X = X 1 + 1 → Ln(Odds 2 ) =  0 + 1 ( X 1 + 1) = Ln(Odds1 ) + 1
Odds 2
→ 1 = Ln(Odds ) − Ln(Odds ) = Ln(
2 1
1
) = LnOR
Odds
→ OR = e 1
1
Ý nghĩa: gia tăng 1 đơn vị của biến độc lập thì Odds2
bằng e
lần so với Odds1.
 1 1
Nếu e 1  1 (hay β1 > 0) thì Odds2 tăng gấp elần Odds1 (Odds2 = e
*Odds1)
 
và ngược lại nếu e 1  1 (hay β1 < 0) thì Odds2 giảm e 1 lần Odds1.
Cũng như trong hồi quy tuyến tính, chúng ta ước lượng các tham số β0 và β1 từ mẫu,
rồi dùng các kiểm định thống kê phù hợp để xem xét ý nghĩa thống kê của chúng.
LOGO

Giả thuyết kiểm định là:

H0: β1 = 0 → biến độc lập không tác động đến xác suất xảy ra sự kiện;

H1: β1 ≠ 0 → biến độc lập có tác động đến xác suất xảy ra sự kiện.

Trường hợp hồi quy logit bội (Multiple logistic regression) thì:

Logit = Ln(Odds) = 0 + 1 X1 + ... +  k X k


LOGO
Thực hiện phân tích hồi quy Logistic bằng phần mềm SPSS ở ví dụ dưới đây.
Một ngân hàng xem xét khả năng trả nợ của các cá nhân để quyết định có nên
cho họ vay vốn hay không. Biến phụ thuộc TraNo mang 2 giá trị:
0: biểu hiện không trả được nợ, 1: biểu hiện trả được nợ.
Có 3 biến độc lập trong mô hình tác động lên biến phụ thuộc TraNo gồm:
❖ – Trình độ học vấn (HocVan) mang giá trị: 1 – THCS, THPT; 2 – Cao đẳng; 3
– Đại học; 4 – Sau đại học
❖ – Độ tuổi (Tuoi)
❖ – Thu nhập hàng tháng (ThuNhap – ĐVT: triệu đồng)
Thực hiện hồi quy nhị phân trên phần mềm SPSS 20. Chúng ta vào Analyze >
Regression > Binary Logistic.
LOGO
LOGO
❖ Đưa biến vào các mục tương ứng
❖ Tại mục Options. Tích vào hàng Classification plots, chọn Continue để quay lại cửa sổ
ban đầu.

Đưa biến vào các mục tương ứng


Tại mục Options. Tích vào hàng Classification plots, chọn Continue để quay lại cửa sổ ban đầu.
LOGO
LOGO

❖ Tại mục Method, chọn phương pháp Enter. Tiếp tục nhấp vào OK để
xuất các bảng kết quả.
❖ Bảng Case Processing Summary cho chúng ta các thông tin mô tả
đặc điểm dữ liệu đưa vào phân tích hồi quy nhị phân. Cụ thể ở đây, có
300 quan sát được đưa vào phân tích (Included in Analysis), không
có quan sát nào bị thiếu số liệu (Missing Cases), không có quan sát
nào không được chọn (Unselected Cases).

You might also like