Professional Documents
Culture Documents
***
2
Lời Nói Đầu
Bệnh tim mạch vành tên tiếng anh là “Coronary heart disease”, là loại bệnh
nguy hiểm. Năm 2015, trên thế giới có 111 triệu người mắc bệnh, trong đó tỷ lệ tử
vọng là 8%.
Bệnh tim mạch vành là căn bệnh nguy hiểm, với tỷ lệ tử vọng cao. Cách tốt
nhất để đối phó với căn bệnh này là phát hiện bệnh sớm, từ đó có các phác đồ để
phòng tránh. Từ năm 1948, nhóm nghiên cứu trường đại học Boston, Hoa Kỳ đã
tiến hành xây dựng cơ sở dữ liệu về bệnh tim mạch vành. Trong bài tập lớn, mục
tiêu của em là xây dựng mô hình dự báo nguy cơ mắc bệnh tim mạch vành, sử
dụng bộ dữ liệu sẻ bởi trường đại học Boston. Qua quá trình nghiên cứu và phân
tích, em đã xây dựng mô hình hồi quy nhị thức, dự báo nguy cơ mắc bệnh tim
mạch vành đạt độ chính xác 86% trên dữ liệu kiểm thử.
Trong tương lai gần , em hi vọng sẽ tiếp tục nghiên cứu các mô hình khác để
giải quyết bài toán dự báo nguy cơ mắc bệnh tim mạch vành. Mặc dù đã cố gắng
hoàn thiện bài nghiên cứu, tuy nhiên không tránh khỏi những sai sót, em mong
nhận được thầy góp ý để em hoàn thiện đề tài hơn nữa.
3
1. Giới thiệu
4
○ prevalentStroke: 0- không đột quỵ, 1- đột quỵ
○ prevalentHyp: 0-không cao huyết áp, 1- cao huyết áp
○ diabetes: 0-không tiểu đường , 1- tiểu đường
● Yếu tố lâm sàng vật lý (Risk factors from first physical examination):
○ totChol: chỉ số cholesterol
○ sysBP: huyết áp tâm thu
○ diaBP: huyết áp tâm trương
○ BMI: chỉ số BMI (Body Mass Index)
○ Heart Rate: nhịp tim (Heart rate in bpm)
○ Glucose: chỉ số đường Glucose (mg/dL)
5
thế bằng giá trị xuất hiện nhiều nhất (mode), (2) biến định lượng thay thế bằng giá
trị chính giữa(median).
6
2. Phân tích dữ liệu thăm dò (EDA)
Dữ liệu gồm 4240 quan sát, trong đó số lượng mắc bệnh tim mạch vành là
644, chiếm 15% và số ngược không mắc bệnh chiếm 85%.
7
Hình 5 : phân bố các biến độc lập định lượng
Thống kê các chỉ số cơ bản như Mean, Std, Min, Max.. theo 2 nhóm : nhóm
mắc bệnh tim mạch vành và nhóm không mắc, của các biến định lượng được mô tả
trong hình 6.
8
Hình 7 : phân bố các biến định lượng theo bệnh tim mạch vành
Đa số các biến định lượng đều có độ tương quan thấp với nhau. Trong hình
8, có thể thấy thể thấy chỉ số huyết áp tâm thu và tâm trương có sự tương quan cao,
điều này đã được chứng minh trong y khoa.
9
Hình 8 : mối tương quan giữa các biến định lượng
Với các biến định tính, được thể hiện qua biểu đồ hình 9, có thể thấy phân
bố các biến định tính không quá chênh lệch trừ khác biến như BPMeds (điều trị
DB), biến prevalentStroke (mặc bệnh đột quỵ), diabetes(mắc bệnh tiểu đường) là
có sự chênh lệnh lớn vì quan sát mắc bệnh thường ít hơn rất nhiều so với quan sát
không mắc bệnh.
10
Hình 9 : biểu đồ các biến định tính
Với ảnh hưởng của từng biến định tính tới tỷ lệ mắc bệnh tim mạch vành,
trong hình 10, tỷ lệ mắc tim mạch vành ở Nam là 18.8% cao hơn tỷ lệ ở nữ là
12.4%. Kiểm định khi bình phương ảnh hưởng của giới tính đến tỷ lệ mắc bệnh, có
thể thấy p-value gần bằng 0, suy ra kiểm định có ý nghĩa thống kê. Với độ tự tin
95%, có thể thấy Odd Ratio trong khoảng (1.38-1.93), cao hơn 1 nên có thể kết
luận tỷ lệ mắc bệnh tim mạch vành ở nam cao hơn ở nữ.
Hình 10 : thống kê tỷ lệ mắc bệnh tim mạch vành theo giới tính
Hình 11 cho ta thấy tỷ lệ mắc tim mạch vành cao nhất tại nhóm học vấn 1
(chưa tốt nghiệp cấp 3) với tỷ lệ 18.6%. Giá trị p-value gần 0 cho thấy có sự khác
nhau giữa tỷ lệ mắc tim mạch vành tại các nhóm học vấn.
11
Hình 11 : thống kê tỷ lệ mắc bệnh tim mạch vành theo học vấn
Theo suy luận thông thường, thì hút thuốc lá có khả năng mắc các loại bệnh
cao hơn. Tuy nhiên hình 12 cho thấy một thống kê ngược lại, khi tỷ lệ mắc bệnh
giữa nhóm hút thuốc và nhóm không hút thuốc là không quá khác biết. Kiểm định
khi bình phương với p-value khá lớn, cho thấy yếu tố hút thuốc không quá ảnh
hưởng đến nguy cơ mắc bệnh tim mạch vành.
Hình 12 : thống kê tỷ lệ mắc bệnh tim mạch vành theo hút thuốc
Hình 13 cho thấy có sự khác nhau đến kể trong tỷ lệ mắc bệnh tim mạch
vành của nhóm điều trị thuốc BP và nhóm không điều trị. Tuy nhiên số lượng
nhóm điều trị thuốc BP là khá nhỏ ( 3%).
Hình 13 : thống kê tỷ lệ mắc bệnh tim mạch vành theo điều trị BP
12
Hình 14 cho thấy có sự khác nhau đến kể trong tỷ lệ mắc bệnh tim mạch
vành của nhóm mắc bệnh đột quỵ và nhóm không mắc. Tuy nhiên số lượng nhóm
bị đột quỵ là rất nhỏ ( 0.6%).
Hình 14 : thống kê tỷ lệ mắc bệnh tim mạch vành theo đột quỵ
Hình 15 cho thấy có sự khác nhau đến kể trong tỷ lệ mắc bệnh tim mạch
vành của nhóm mắc bệnh huyết áp cao và nhóm không mắc. Số lượng nhóm bị
huyết áp cao chiếm 31%, nên nhiều khả năng biến prevalentHyp sẽ là biến tốt để
dự báo khả năng mắc bệnh tim mạch vành.
Hình 15 : thống kê tỷ lệ mắc bệnh tim mạch vành theo huyết áp cao
Hình 16 cho thấy có sự khác nhau đến kể trong tỷ lệ mắc bệnh tim mạch
vành của nhóm mắc bệnh tiểu đường và nhóm không mắc. Tuy nhiên số lượng
nhóm bị bệnh tiểu đường là khá nhỏ ( 2.6%).
Hình 16 : thống kê tỷ lệ mắc bệnh tim mạch vành theo bệnh tiểu đường
13
3. Xây Dựng Mô Hình
Mục tiêu của mô hình là dự báo nguy cơ mắc bệnh tim mạch vành, như vậy
biến phụ thuộc hay biến Y trong mô hình là HeartDisease với 2 giá trị 0 hoặc 1.
Như vậy mô hình phù hợp cho bài toán này sẽ là mô hình hồi quy nhị phân như
hình 17. Tuy nhiên cần sử dụng biến độc lập nào trong 15 biến để xây dựng được
mô hình tốt nhất ? Việc sự chọn mô hình phù hợp là bước rất quan trọng trong quá
trình xây dựng mô hình. Ngoài ra để đánh giá khả năng khái quát hóa của mô hình,
em chia dữ liệu ngẫu nhiên thành 2 phần: bộ dữ liệu huấn luyện (80%), bộ dữ liệu
kiểm thử (20%), cách chia dữ liệu cũng đảm bảo tỷ lệ mắc bệnh tim mạch vành
trên tập huấn luyện và tập kiểm thử là như nhau để đảm bảo sự công bằng cho mô
hình.
14
Hình 18 : đánh giá mức quan trọng các biến sử dụng Random Forest
Chiến lược lựa chọn mô hình em sử dụng trong nghiên cứu là chiến lược vét
cạn, nghĩa là sẽ thử tất cả các mô hình có thể. Như vậy với 15 biến độc lập, số mô
hình cần thử là 32,768 mô hình. Để chọn mô hình tốt nhất trong 32,768 mô hình,
em sử dụng 2 đánh giá phổ biến trong việc lựa chọn mô hình là AIC và BIC.
15
Hình 20 : 5 mô hình có chỉ số AIC tốt nhất
16
Hình 22 : kết quả test Anova
17
Hình 24 : Link function “probit”
18
3.3 Một số thử nghiệm khác
Vì số lượng quan sát mắc bệnh tim mạch vành chỉ chiếm 15%, nhỏ hơn
nhiều so với số lượng quán sát không mắc bệnh, nên đôi khi dữ liệu không mắc
bệnh sẽ khiến mô hình tập trung nhiều vào các quan sát này. Để giải quyết bài toán
mất cân bằng dữ liệu, em có sử dụng kỹ thuật xét trọng số (weights) cho mô hình
hồi quy nhị thức, nghĩa là dữ liệu bệnh nhân tim mạch vành sẽ được xét trong số
cao hơn trong tính link function. Ngoài ra em cũng thử nghiệm thêm kỹ thuật
“cross-validation” hay kiểm tra chéo. Em chia dữ liệu huấn luyện thành 10 phần,
huấn luyện 10 lần, mỗi lần bỏ 1 phần khác nhau trong dữ liệu ra và huấn luyện trên
9 phần còn lại. Mục đích của “cross-validation” là để mô hình có khả năng tổng
quát hóa tốt hơn. Tuy nhiên cả 2 kỹ thuật này đều không cải tiến được chỉ số AIC
và BIC trong bài này.
19
4. Kết quả thực nghiệm
20
Sử dụng Wald test để kiểm định hệ số khác 0 hay không . Hình 28 cho thấy
với độ tin cậy 95%, có thể thấy tất cả các hệ số đều khác 0, hay các biến đưa vào
mô hình đều có ý nghĩa thống kê.
21
Hình 29 : Overdispersion test
22
Hình 30 : Hosmer–Lemeshow test
Kết quả Hosmer–Lemeshow test hình 30 với p-value lớn hơn nhiều 0.05,
cho thấy mô hình “goodness of fit”.
4.4 Diagnostic
Sau khi xây dựng mô hình cần kiểm tra lại mô hình có đạt được các giải thiết
ban đầu hay không. Đầu tiên có thể thấy phân bố phần dư như hình 32, phần dư
phân bố đều, tuy nhiên là có xu hướng lợi lệch xuống phía dưới trục 0.
23
Hình 32 : Biểu đồ phân bố phần dư
Tiếp theo sử dụng biểu đồ QQ-norm để kiểm tra phân bố của phần dư có
phải phân bố chuẩn. Như hình 33 ta thấy phần bố của phần dư khá gần phân bố
chuẩn, chứng tỏ mô hình đã tuân theo giả định ban đầu.
24
Hình 34 : Biểu đồ Cook’s distance
Cuối cùng biểu đồ Cook's distance hình 34 cho thấy đa số các điểm đều tuân
theo phân phối chuẩn, tuy nhiên có một vài điểm có độ dài Cook's distance bất
thường, gọi là điểm ngoại lại hay outliers. Phân tích kỹ hơn các điểm ngoại lai, như
dòng 3972, quan sát này có tuổi khá cao, là nam, chỉ số đường rất cao tuy nhiên lại
không mắc bệnh tim mạch vành. Hay dòng 1650, quan sát giới tính nữ, 43 tuổi, có
chỉ số đường khá bình thường nhưng lại mắc bệnh tim mạch vành.
25
Hình 36 : Kết quả dự đoán mô hình trên dữ liệu kiểm thử
Cụ thể với những quan sát không mắc bệnh, mô hình dự đoán đúng 85.56%,
với những quan sát mắc bệnh tim mạch vành, mô hình dự đoán đúng 89%. Trên
toàn bộ dữ liệu kiểm thử, như hình 37 mô hình dự báo chính xác 85.71%
26
accuracy của em đạt 86% (+2% vs. paper ) và kết quả AUC đạt 0.71 (+0.3 vs.
paper).
Hình 38 : Kết quả mô hình của paper của tác giả Juan-Jose Beunza
27
Kết Luận
Bài toán dự báo nguy cơ mắc bệnh tim mạch vành là bài toán khó và thách
thức với cộng đồng xử lý dữ liệu và cộng đồng y khoa. Với việc sử dụng một mô
hình nhẹ và đơn giản như hồi quy nhị phân đã đạt được những kết quả rất khả
quan, từ đó mở ra hướng áp dụng lớp các mô hình GLM cho bài toán dự đoán nguy
cơ mắc bệnh tim mạch vành nói riêng, hay những bài toán xử lý dữ liệu y khoa nói
chung.
Tuy nhiên, khi sử dụng mô hình để dự báo cho những dữ liệu mới, vẫn còn
những dữ liệu cho kết quả dự đoán sai, bởi vậy mô hình vẫn cần cải thiện trong
tương lai.
Trong thời gian tới, em mong muốn sẽ sử dụng nhiều lớp mô hình khác nhau
để tăng độ chính xác cho bài toán dự báo nguy cơ mắc bệnh tim mạch vành.
28
Tài liệu tham khảo
[1] Peter K.Dunn, Generalized Linear Models With Examples in R, Spring 2009.
[2] Colin Rundel, Lecture 20 - Logistic Regression, Statistics 102, Duke Universiry
https://www2.stat.duke.edu/courses/Spring13/sta102.001/Lec/Lec20.pdf7
[3] Juan-Jose Beunza, Comparison of machine learning algorithms for clinical
event prediction (risk of coronary heart disease), 2019
https://doi.org/10.1016/j.jbi.2019.103257
[4] Elie Gurarie, GLM: Logistic Regression and Model Selection,
BIOL709/BSCI339, University of Maryland
https://terpconnect.umd.edu/~egurarie/teaching/Biol709/Topic3/Lab11_GLMandM
odelSelection.html#aic
[5] Annette Dobson, An introduction to generalized linear models 4th , Chapman
and Hall/CRC, 2018
[6] https://rpubs.com/danizam/546689
29