You are on page 1of 8

BIẾN DỰ ĐOÁN PHÂN ĐÔI

Chương này xem xét các cấu trúc dữ liệu bao gồm một biến dự đoán phân đôi. Những cấu trúc dữ liệu
này thường gặp trong nghiên cứu thực tế. Ví dụ, chúng ta có thể muốn dự đoán liệu một người trong
nghiên cứu nhân khẩu học sẽ là nam hay nữ dựa trên chiều cao và cân nặng của họ, hoặc dự đoán liệu
một người sẽ bỏ phiếu dựa trên mức thu nhập của họ, hoặc dự đoán liệu một trận bóng chày có người
đánh bóng sẽ nhận được 1 cú đánh, dựa trên vị trí chính của họ trên sân.

Những cách xử lý và tiếp cận với những cấu trúc dạng này được gọi là “Hồi quy Logistic”

Xem xét một tình huống có nhiều yếu tố dự đoán số liệu, bởi vì trường hợp này giúp hình dung dễ dàng
nhất các khái niệm về hồi quy logistic. Giả sử chúng ta đo chiều cao, cân nặng và giới tính (nam hoặc nữ)
của một mẫu người trưởng thành.

Dữ liệu được tạo ra bởi một mô hình chính xác của một cuộc khảo sát dân số lớn (Brainard & Burmaster,
1992). Dữ liệu được vẽ dưới dạng 1 hoặc 0, với giới tính được mã hóa tùy ý là nam = 1 và nữ = 0. Tất cả
các số 0 đều nằm ở mặt phẳng dưới cùng và tất cả các số 1 đều nằm ở mặt phẳng trên cùng. Bạn có thể
thấy rằng số 1 có xu hướng có giá trị chiều cao và cân nặng lớn hơn, trong khi số 0 có xu hướng có giá trị
chiều cao và cân nặng nhỏ hơn

Chúng ta sẽ sử dụng hàm logistic của sự kết hợp tuyến tính của các yếu tố dự đoán. Ý tưởng là sự kết
hợp tuyến tính của các yếu tố dự đoán số liệu được ánh xạ tới một giá trị xác suất thông qua hàm
logistic và các số 0 và 1 được dự đoán là Bernoulli được phân phối xung quanh xác suất:
CODE implementation:
VÍ DỤ:

Hình trình bày kết quả dự đoán giới tính chỉ dựa vào cân nặng. Dữ liệu được vẽ dưới dạng các điểm chỉ
rơi ở 0 và 1 trên trục y. Xếp chồng lên các dữ liệu là các đường cong Logistic có các giá trị tham số từ các
bước khác nhau trong chuỗi MCMC.

Đánh giá:

- Sự trải rộng của các đường cong logistic cho thấy độ không chắc chắn của ước tính
- Độ dốc của các đường cong Logistic thể hiện độ lớn của hệ số hồi quy
- Ngưỡng xác suất 50% được đánh dấu bằng các mũi tên thả xuống từ đường cong logistic tới trục
x, gần trọng lượng khoảng 160 pound. Các đường logistics với giá trị khác không và tang dần khi
cân nặng tăng cho thấy cân nặng mang lại nhiều thông tin để dự đoán giới tính
- Cân nặng dưới mức hầu hết là nữ và cân nặng trên mức hầu hết là nam
Kết quả khi sử dụng 2 yếu tố dự đoán là chiều cao và trọng lượng. Dữ liệu được vẽ dưới dạng 1 và 0 với
x1 ( trọng lượng) trên trục hoàng và x2( chiều cao) trên trục tung. Xếp chồng lên dữ liệu là các đường
mức đáng tin cậy mà tại đó p(Nam) =50%. Đường viền mức 50% là tập hợp các giá trị x1, x2 trong đó µ =
0,5, được thỏa mãn bởi x2 = (- β0/β2)+(- β1/β2)x1
- Theo mô hình, ở một bên của đường mức có ít hơn 50% là nam giới và phía bên kia có hơn 50%
khả năng là nam giới.
- Sự trải rộng của các đường mức tin cậy cho thấy sự không chắc chắn trong các ước tính tham số
- Xác suất là nam giới tang nhanh khi chiều cao tăng nhanh, nhưng xác suất là nam chỉ tang một
chút khi cân nặng tăng

GIẢI THÍCH CÁC HỆ SỐ HỒI QUY

1. Log odds:
- Khi công thức hồi quy logistic được viết bằng hàm logit, chúng ta có logit(µ) = β0 + β1x1 + β2x2.
Công thức ngụ ý rằng bất cứ khi nào x1 tăng lên 1 đơn vị (trên thang x1), thì logit(µ) sẽ tăng lên
một lượng β1. Và bất cứ khi nào x2 tăng lên 1 đơn vị (trên thang x2), thì logit(µ) sẽ tăng lên một
lượng β2 => Các hệ số hồi quy cho biết sự gia tăng logit

- Hàm logit là hàm nghịch đảo của hàm logistic. Chính thức, với 0 < µ < 1, logit(µ) = log (µ/(1 µ)),
trong đó logarit là logarit tự nhiên, tức là nghịch đảo của hàm mũ. Thật dễ dàng để xác minh
thông qua đại số rằng biểu thức này của logit thực sự làm cho nó trở thành nghịch đảo của
logistic: Nếu x = logit(µ) = log (µ/(1 - µ)), thì µ = logistic(x) = 1 / (1 + exp(x)) và ngược lại.

- Trong các ứng dụng hồi quy Logistic, µ là xác suất để y = 1, và do đó có thể viết logit(µ) = logit
p(y=1) = log p(y=1)/(1 - p(y=1)) = log p(y=1)/p(y=0)

- Tỷ lệ p(y=1)/p(y=0) được gọi là tỷ lệ chênh lệch của kết quả 1 so với kết quả 0, và do đó logit(µ)
là tỷ lệ logit của kết quả 1 so với kết quả 0.

 Hệ số hồi quy cho biết về sự gia tang tỷ lệ Log

 Giả sử rằng β0 = - 50,0, β1 = 0,02 và β2 = 0,70


- Xét 1 người nặng 160 pounds, với 2 chiều cao là 63 inch và 64 inch :
x1 = 160, x2 = 63
+ Xác suất dự đoán logistic (β0 +β1x1 +β2x2) = logistic(- 50.0+0.02 · 160 +0,70 · 63) = 0,063
+ Tỷ lệ log odds (0,063/(1 - 0,063)) = - 2,70 => Giá trị âm của Log cho biết xác suất là nam giới
dưới 50%
x1 = 160, x2 = 64
+ Xác suất dự đoán logistic (β0 +β1x1 +β2x2) = logistic(- 50.0+0.02 · 160 +0,70 · 66) = 0,119
+ Tỷ lệ log odds: (0,119/(1 - 0,119)) = - 2,00 => Giá trị âm của Log cho biết xác suất là nam giới
dưới 50%
Nhận xét: Khi chiều cao x2 tăng lên 1 đơn vị so với x1, xác suất tăng 0.056 và log odds tăng 0.70
đúng bằng với β2

- Xét 1 người nặng 160 pounds, với 2 chiều cao là 67 inch và 68 inch :
x1 = 160, x2 = 67
+ Xác suất dự đoán logistic (β0 +β1x1 +β2x2) = logistic(- 50.0+0.02 · 160 +0,70 · 67) = 0,525
+ Tỷ lệ log odds (0,525/(1 - 0,525)) = 0,10 => Giá trị dương của Log cho biết xác suất là nam giới
trên 50%
x1 = 160, x2 = 68
+ Xác suất dự đoán logistic (β0 +β1x1 +β2x2) = logistic(- 50.0+0.02 · 160 +0,70 · 68) = 0,690
+ Tỷ lệ log odds: (0,690/(1 - 0,690)) = 0,8 => Giá trị dương của Log cho biết xác suất là nam giới
trên 50%
Nhận xét: Khi chiều cao x2 tăng lên 1 đơn vị so với x1, xác suất tăng 0.165 và log odds tăng 0.70
đúng bằng với β2

- Nhận xét tổng quát: Khi tang lên 1 đơn vị xj sẽ làm tang log odds lên βj. Nhưng việc log odds
tăng lên 1 hằng số như v kh có nghĩa là xác suất cũng tăng như v
 Hệ số hồi quy Logistic cho biết mức độ thay đổi 1 đơn vị của biến dự đoán sẽ làm tăng Log
odds của kết quả “1”

2. Khi có quá ít số 0 và 1

3. Các yếu tố dự đoán tương quan


4. Tương tác của những yếu tố dự đoán số liệu

You might also like