Group5 DTG

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

KHOA TOÁN - CƠ - TIN HỌC
***
BÁO CÁO MÔN MÔ HÌNH HÓA THỐNG KÊ
Dự Đoán Nguy Cơ Mắc Bệnh Tim Mạch Vành
Giáo viên hướng dẫn : TS. Phạm Đình Tùng

Học viên thực hiện : Đỗ Trường Giang
Mã học viên : 20007924
Hà Nội , Tháng 07 Năm 2021

MỤC LỤC
Lời Nói Đầu 3
1. Giới thiệu 4
1.1 Mục tiêu 4
1.2 Giới thiệu bộ dữ liệu tim mạch vành 4
1.3 Tiền xử lý dữ liệu 5
2. Phân tích dữ liệu thăm dò (EDA) 7
3. Xây Dựng Mô Hình 14
3.1 Lựa chọn biến độc lập 14
3.2 Lựa chọn link function 17
3.3 Một số thử nghiệm khác 19
4. Kết quả thực nghiệm 20
4.1 Hypothesis tests for coefficients 20
4.2 Overdispersion Tests 21
4.3 Goodness of Fit Tests 22
4.4 Diagnostic 23
4.5 Kết quả mô hình 25
Kết Luận 27
Tài liệu tham khảo 28
2
Lời Nói Đầu
Bệnh tim mạch vành tên tiếng anh là “Coronary heart disease”, là loại bệnh
nguy hiểm. Năm 2015, trên thế giới có 111 triệu người mắc bệnh, trong đó tỷ lệ tử
vọng là 8%.
Bệnh tim mạch vành là căn bệnh nguy hiểm, với tỷ lệ tử vọng cao. Cách tốt
nhất để đối phó với căn bệnh này là phát hiện bệnh sớm, từ đó có các phác đồ để
phòng tránh. Từ năm 1948, nhóm nghiên cứu trường đại học Boston, Hoa Kỳ đã
tiến hành xây dựng cơ sở dữ liệu về bệnh tim mạch vành. Trong bài tập lớn, mục
tiêu của em là xây dựng mô hình dự báo nguy cơ mắc bệnh tim mạch vành, sử
dụng bộ dữ liệu sẻ bởi trường đại học Boston. Qua quá trình nghiên cứu và phân
tích, em đã xây dựng mô hình hồi quy nhị thức, dự báo nguy cơ mắc bệnh tim
mạch vành đạt độ chính xác 86% trên dữ liệu kiểm thử.
Trong tương lai gần , em hi vọng sẽ tiếp tục nghiên cứu các mô hình khác để
giải quyết bài toán dự báo nguy cơ mắc bệnh tim mạch vành. Mặc dù đã cố gắng
hoàn thiện bài nghiên cứu, tuy nhiên không tránh khỏi những sai sót, em mong
nhận được thầy góp ý để em hoàn thiện đề tài hơn nữa.
3
1. Giới thiệu
1.1 Mục tiêu

Mục tiêu của bài nghiên cứu là xây dựng mô hình dự báo nguy cơ mắc bệnh
tim mạch vành, qua đó giúp phát hiện và chẩn đoán sớm những bệnh nhân có nguy
cơ mắc bệnh, từ đó có phác đồ điều trị phù hợp.
1.2 Giới thiệu bộ dữ liệu tim mạch vành

Đề án nghiên cứu tim mạch vành triển khai từ năm 1948, mục tiêu của
nghiên cứu là nghiên cứu tỷ lệ mắc bệnh cũng như những yếu tố lâm sàng ảnh
hưởng để nguy cơ mắc bệnh. Nghiên cứu quan sát hơn 5000 tình nguyện viên, gồm
cả nam và nữ, tuổi từ 26 đến 62 tuổi, trong vòng 10 năm để nghiên cứu những yếu
tố nào có thể ảnh hưởng đến nguy cơ mắc bệnh tim mạch vành.
Bộ dữ liệu gồm 4240 quan sát, trong đó có 15 biến độc lập và 1 biến phụ
thuộc. Biến phụ thuộc là TenYearCHD, có 2 giá trị 0 và 1 tương ứng không mắc
bệnh và có mắc bệnh tim mạch vành.
Hình 1 : Bộ dữ liệu tim mạch vành

Trong đó các biến độc lập được chia thành 4 nhóm chính:
● Nhân khẩu học (Demographic):
○ Male : 1 - giới tính nam, 0 - giới tính nữ
○ Age: tuổi
○ Education Level: trình độ học vấn theo 4 cấp gồm 1-Cấp ba, 2-Tốt
nghiệp THPT, 3-Cao Đẳng, 4-Đại Học
● Hành vi (Behavioral):
○ currentSmoker: 1- hiện tại hút thuốc, 0- không hút thuốc
○ cigsPerDay: số lượng điếu thuốc/ngày
● Tiền sử dùng thuốc (Medical History):
○ BPMeds: Số lần điều trị thuốc
4
○ prevalentStroke: 0- không đột quỵ, 1- đột quỵ
○ prevalentHyp: 0-không cao huyết áp, 1- cao huyết áp
○ diabetes: 0-không tiểu đường , 1- tiểu đường
● Yếu tố lâm sàng vật lý (Risk factors from first physical examination):
○ totChol: chỉ số cholesterol
○ sysBP: huyết áp tâm thu
○ diaBP: huyết áp tâm trương
○ BMI: chỉ số BMI (Body Mass Index)
○ Heart Rate: nhịp tim (Heart rate in bpm)
○ Glucose: chỉ số đường Glucose (mg/dL)
1.3 Tiền xử lý dữ liệu

Bộ dữ liệu gồm 15 biến độc lập, được phân thành 2 nhóm: biến định tính và
biến định lượng. Nhóm biến định tính gồm 7 biến : Male, Education Level,
currentSmoker, BPMeds, prevalentStroke, prevalentHyp, diabetes. Nhóm biến định
lượng gồm 8 biến : Age, cigsPerDay, totChol, sysBP, diaBP, BMI, Heart Rate,
Glucose. Các biến được tính sẽ được tiền xử lý để đưa về dạng factor trước khi đưa
vào xây dựng mô hình.
Hình 2 : Dữ liệu định tính đưa về dạng factor

Trong quá trình thu thập dữ liệu, nhiều quan sát bị thu thập không có giá trị
do lỗi thu thập hoặc lỗi ghi chép. Bởi vậy cần loại tiền xử lý những quan sát không
có giá trị trước khi đưa dữ liệu vào mô hình. Quan sát không có giá trị không
nhiều, đáng chú ý có biến glucose, có số lượng quan sát không có giá trị là 388
quan sát, chiếm 9% như hình 3. Vì số lượng dữ liệu không có giá trị không nhiều,
nên em dùng 2 chiến lược để thay thế dữ liệu bị thiếu: (1) với biến định tính thay
5
thế bằng giá trị xuất hiện nhiều nhất (mode), (2) biến định lượng thay thế bằng giá
trị chính giữa(median).
Hình 3 : Dữ liệu thu thập không có giá trị.
6
2. Phân tích dữ liệu thăm dò (EDA)
Dữ liệu gồm 4240 quan sát, trong đó số lượng mắc bệnh tim mạch vành là
644, chiếm 15% và số ngược không mắc bệnh chiếm 85%.
Hình 4 : số lượng bệnh nhân mắc bệnh tim mạch vành

Trong hình 5, phân bố của các biến độc lập định lượng Age, BMI, diaBP,
toChol khá gần gần phân bố chuẩn, trong khi phân bố của glucose, sysBP có xu
hướng hơi lệch trái.
7
Hình 5 : phân bố các biến độc lập định lượng
Thống kê các chỉ số cơ bản như Mean, Std, Min, Max.. theo 2 nhóm : nhóm
mắc bệnh tim mạch vành và nhóm không mắc, của các biến định lượng được mô tả
trong hình 6.
Hình 6 : thống kê các biến độc lập định lượng

Dựa vào biểu đồ hộp hình 7 có thể thấy, với biểu đồ Age, người cao tuổi có
xu hướng mắc bệnh tim mạch vành cao hơn. Với biểu đồ diaBP, những người có
chỉ số huyết áp tâm trương có nguy cơ mắc bệnh tim mạch vành cao hơn người chỉ
số thấp. Với biểu đồ sysBP: tỷ lệ mắc tim mạch vành ở người có chỉ số huyết áp
tâm thu cao cũng cao hơn người huyết áp tâm thu thấp.
8
Hình 7 : phân bố các biến định lượng theo bệnh tim mạch vành
Đa số các biến định lượng đều có độ tương quan thấp với nhau. Trong hình
8, có thể thấy thể thấy chỉ số huyết áp tâm thu và tâm trương có sự tương quan cao,
điều này đã được chứng minh trong y khoa.
9
Hình 8 : mối tương quan giữa các biến định lượng
Với các biến định tính, được thể hiện qua biểu đồ hình 9, có thể thấy phân
bố các biến định tính không quá chênh lệch trừ khác biến như BPMeds (điều trị
DB), biến prevalentStroke (mặc bệnh đột quỵ), diabetes(mắc bệnh tiểu đường) là
có sự chênh lệnh lớn vì quan sát mắc bệnh thường ít hơn rất nhiều so với quan sát
không mắc bệnh.
10
Hình 9 : biểu đồ các biến định tính
Với ảnh hưởng của từng biến định tính tới tỷ lệ mắc bệnh tim mạch vành,
trong hình 10, tỷ lệ mắc tim mạch vành ở Nam là 18.8% cao hơn tỷ lệ ở nữ là
12.4%. Kiểm định khi bình phương ảnh hưởng của giới tính đến tỷ lệ mắc bệnh, có
thể thấy p-value gần bằng 0, suy ra kiểm định có ý nghĩa thống kê. Với độ tự tin
95%, có thể thấy Odd Ratio trong khoảng (1.38-1.93), cao hơn 1 nên có thể kết
luận tỷ lệ mắc bệnh tim mạch vành ở nam cao hơn ở nữ.
Hình 10 : thống kê tỷ lệ mắc bệnh tim mạch vành theo giới tính
Hình 11 cho ta thấy tỷ lệ mắc tim mạch vành cao nhất tại nhóm học vấn 1
(chưa tốt nghiệp cấp 3) với tỷ lệ 18.6%. Giá trị p-value gần 0 cho thấy có sự khác
nhau giữa tỷ lệ mắc tim mạch vành tại các nhóm học vấn.
11
Hình 11 : thống kê tỷ lệ mắc bệnh tim mạch vành theo học vấn
Theo suy luận thông thường, thì hút thuốc lá có khả năng mắc các loại bệnh
cao hơn. Tuy nhiên hình 12 cho thấy một thống kê ngược lại, khi tỷ lệ mắc bệnh
giữa nhóm hút thuốc và nhóm không hút thuốc là không quá khác biết. Kiểm định
khi bình phương với p-value khá lớn, cho thấy yếu tố hút thuốc không quá ảnh
hưởng đến nguy cơ mắc bệnh tim mạch vành.
Hình 12 : thống kê tỷ lệ mắc bệnh tim mạch vành theo hút thuốc
Hình 13 cho thấy có sự khác nhau đến kể trong tỷ lệ mắc bệnh tim mạch
vành của nhóm điều trị thuốc BP và nhóm không điều trị. Tuy nhiên số lượng
nhóm điều trị thuốc BP là khá nhỏ ( 3%).
Hình 13 : thống kê tỷ lệ mắc bệnh tim mạch vành theo điều trị BP
12
vành của nhóm mắc bệnh đột quỵ và nhóm không mắc. Tuy nhiên số lượng nhóm
bị đột quỵ là rất nhỏ ( 0.6%).
Hình 14 : thống kê tỷ lệ mắc bệnh tim mạch vành theo đột quỵ
vành của nhóm mắc bệnh huyết áp cao và nhóm không mắc. Số lượng nhóm bị
huyết áp cao chiếm 31%, nên nhiều khả năng biến prevalentHyp sẽ là biến tốt để
dự báo khả năng mắc bệnh tim mạch vành.
Hình 15 : thống kê tỷ lệ mắc bệnh tim mạch vành theo huyết áp cao
vành của nhóm mắc bệnh tiểu đường và nhóm không mắc. Tuy nhiên số lượng
nhóm bị bệnh tiểu đường là khá nhỏ ( 2.6%).
Hình 16 : thống kê tỷ lệ mắc bệnh tim mạch vành theo bệnh tiểu đường
13
3. Xây Dựng Mô Hình
Mục tiêu của mô hình là dự báo nguy cơ mắc bệnh tim mạch vành, như vậy
biến phụ thuộc hay biến Y trong mô hình là HeartDisease với 2 giá trị 0 hoặc 1.
Như vậy mô hình phù hợp cho bài toán này sẽ là mô hình hồi quy nhị phân như
hình 17. Tuy nhiên cần sử dụng biến độc lập nào trong 15 biến để xây dựng được
mô hình tốt nhất ? Việc sự chọn mô hình phù hợp là bước rất quan trọng trong quá
trình xây dựng mô hình. Ngoài ra để đánh giá khả năng khái quát hóa của mô hình,
em chia dữ liệu ngẫu nhiên thành 2 phần: bộ dữ liệu huấn luyện (80%), bộ dữ liệu
kiểm thử (20%), cách chia dữ liệu cũng đảm bảo tỷ lệ mắc bệnh tim mạch vành
trên tập huấn luyện và tập kiểm thử là như nhau để đảm bảo sự công bằng cho mô
hình.
Hình 17 : mô hình hồi quy nhị phân
3.1 Lựa chọn biến độc lập

Để lựa chọn mô hình tốt, hay lựa chọn biến độc lập phù hợp với bài toán,
một cách tự nhiên là đánh giá mức độ quan trọng của các biến độc lập. Hình 18 sử
dụng thuật toán random forest để đánh giá mức quan trọng của các biến, thuật toán
nằm trong thư viện random forest. Kết quả tương đồng với kết quả phân tích dữ
liệu trong phần 2, khi các biến sysBP (huyết áp tâm thu), diaBP (tuổi) (huyết áp
tâm trương), Age, prevalentStroke(mắc bệnh đột quỵ) là những biến quan trọng
trong việc dự báo nguy cơ mắc bệnh tim mạch vành.
14
Hình 18 : đánh giá mức quan trọng các biến sử dụng Random Forest
Chiến lược lựa chọn mô hình em sử dụng trong nghiên cứu là chiến lược vét
cạn, nghĩa là sẽ thử tất cả các mô hình có thể. Như vậy với 15 biến độc lập, số mô
hình cần thử là 32,768 mô hình. Để chọn mô hình tốt nhất trong 32,768 mô hình,
em sử dụng 2 đánh giá phổ biến trong việc lựa chọn mô hình là AIC và BIC.
Hình 19 : công thức AIC và BIC

Thư viện bestglm trong R cho phép thử nghiệm 32,768 trường hợp để tìm ra
mô hình tốt nhất. Hình 20 là các mô hình hồi quy nhị thức cho chỉ số AIC tốt nhất.
Mô hình được chọn (mô hình 1) có chỉ số AIC = 2570.98
mô hình 1:
HeartDisease ~ gender + age + cigsPerDay + prevalentStroke + prevalentHyp,
totChol + sysBP + glucose
15
Hình 20 : 5 mô hình có chỉ số AIC tốt nhất
Hình 21 : 5 mô hình có chỉ số BIC tốt nhất

Thư viện glmulti trong R cũng là thư viện phổ biến để lựa chọn mô hình phù
hợp. Sử dụng thư viện glmilti, thử nghiệm 32,768 trường hợp để tìm ra mô hình
hình hồi quy nhị thức cho chỉ số BIC nhỏ nhất. Hình 21 là các mô hình có chỉ số
BIC tốt nhất, trong đó mô hình tốt nhất là :
mô hình 2:
HeartDisease ~ gender + age + cigsPerDay + sysBP + glucose
Mô hình 1 và mô hình 2 là hai mô hình lồng nhau, sử dụng test Anova để

chọn là mô hình phù hợp nhất. Kết quả test Anova hình 22 cho thấy, mô hình 2 có
sự cải tiến so với mô hình 1 khi p-value nhỏ (0.05).
16
Hình 22 : kết quả test Anova
3.2 Lựa chọn link function

Để chọn được mô hình hồi quy nhị thức tốt nhất, em đã thử 3 link function:
“logit”, “probit” và “cloglog”, kết quả link function “probit” là phù hợp nhất khi
cho kết quả AIC tốt nhất.
Hình 23 : Link function “logit”
17
Hình 24 : Link function “probit”
Hình 25 : Link function “cloglog”
18
3.3 Một số thử nghiệm khác
Vì số lượng quan sát mắc bệnh tim mạch vành chỉ chiếm 15%, nhỏ hơn
nhiều so với số lượng quán sát không mắc bệnh, nên đôi khi dữ liệu không mắc
bệnh sẽ khiến mô hình tập trung nhiều vào các quan sát này. Để giải quyết bài toán
mất cân bằng dữ liệu, em có sử dụng kỹ thuật xét trọng số (weights) cho mô hình
hồi quy nhị thức, nghĩa là dữ liệu bệnh nhân tim mạch vành sẽ được xét trong số
cao hơn trong tính link function. Ngoài ra em cũng thử nghiệm thêm kỹ thuật
“cross-validation” hay kiểm tra chéo. Em chia dữ liệu huấn luyện thành 10 phần,
huấn luyện 10 lần, mỗi lần bỏ 1 phần khác nhau trong dữ liệu ra và huấn luyện trên
9 phần còn lại. Mục đích của “cross-validation” là để mô hình có khả năng tổng
quát hóa tốt hơn. Tuy nhiên cả 2 kỹ thuật này đều không cải tiến được chỉ số AIC
và BIC trong bài này.
19
4. Kết quả thực nghiệm
4.1 Hypothesis tests for coefficients

Sau khi lựa chọn được mô hình phù hợp nhất, tiến hành huấn luyện mô hình.
Hình 26 : mô hình hồi quy nhị thức

Kết quả của mô hình cho thấy các biến đều có ý nghĩa thống kê khi p-value
nhỏ hơn nhiều 0.05 như hình 26. Anova test cũng cho kết quả tương tự, chứng tỏ
mô hình xây dựng có ý nghĩa thống kê.
Hình 27 : kết quả Anova test
20
Sử dụng Wald test để kiểm định hệ số khác 0 hay không . Hình 28 cho thấy
với độ tin cậy 95%, có thể thấy tất cả các hệ số đều khác 0, hay các biến đưa vào
mô hình đều có ý nghĩa thống kê.
Hình 28 : Ước lượng hệ số
4.2 Overdispersion Tests

Trong mô hình giả sử dụng biến phụ thuộc tuân theo phân bố nhị thức, với
Var[y] = p (1-p). Tuy nhiên nếu giá trị phương sai thực tế vượt quá giá trị phương
sai lý thuyết thì hiện tượng “Overdispersion” xảy ra, khi đó mô hình không còn tin
cậy nữa. Thư viện DHARMa là thư viện phổ biến nhất trong R cho phép test
overdispersion. Kết quả test hình 29 cho thấy hệ dispersion xấp xỉ 1 và p-value lớn
hơn nhiều 0.05, cho thấy mô hình hoàn toàn không có hiện tượng overdispersion
hay underdispersion.
21
Hình 29 : Overdispersion test
4.3 Goodness of Fit Tests

Có nhiều kiểm định để kiểm tra “goodness of fit” của mô hình, đầu tiên là
kiểm định chisq, với tổng bình tưởng phần dư là 2566.9 và bậc tự do df=3387, kết
quả 1- pchisq(2566.9, df=3387) = 1, lớn hơn nhiều 0.05 nên mô hình “goodness of
fit”. Ngoài ra, Hosmer–Lemeshow test là kiểm định thường dùng để đánh giá
“goodness of fit” của mô hình hồi quy nhị thức.
22
Hình 30 : Hosmer–Lemeshow test
Kết quả Hosmer–Lemeshow test hình 30 với p-value lớn hơn nhiều 0.05,
cho thấy mô hình “goodness of fit”.
Hình 31 : Pseudo-R2 test

Ngoài ra chỉ số Pseudo-R2 cũng là chỉ số thường dùng để đánh giá
“goodness of fit” cho mô hình hồi quy nhị phân. Kết quả test hình 31 cho thấy chỉ
số Nagelkerke Index là 0.16, cho thấy “goodness of fit” của mô hình.
4.4 Diagnostic
Sau khi xây dựng mô hình cần kiểm tra lại mô hình có đạt được các giải thiết
ban đầu hay không. Đầu tiên có thể thấy phân bố phần dư như hình 32, phần dư
phân bố đều, tuy nhiên là có xu hướng lợi lệch xuống phía dưới trục 0.
23
Hình 32 : Biểu đồ phân bố phần dư
Tiếp theo sử dụng biểu đồ QQ-norm để kiểm tra phân bố của phần dư có
phải phân bố chuẩn. Như hình 33 ta thấy phần bố của phần dư khá gần phân bố
chuẩn, chứng tỏ mô hình đã tuân theo giả định ban đầu.
Hình 33 : Biểu đồ QQ-norm
24
Hình 34 : Biểu đồ Cook’s distance
Cuối cùng biểu đồ Cook's distance hình 34 cho thấy đa số các điểm đều tuân
theo phân phối chuẩn, tuy nhiên có một vài điểm có độ dài Cook's distance bất
thường, gọi là điểm ngoại lại hay outliers. Phân tích kỹ hơn các điểm ngoại lai, như
dòng 3972, quan sát này có tuổi khá cao, là nam, chỉ số đường rất cao tuy nhiên lại
không mắc bệnh tim mạch vành. Hay dòng 1650, quan sát giới tính nữ, 43 tuổi, có
chỉ số đường khá bình thường nhưng lại mắc bệnh tim mạch vành.
Hình 35 : Top 5 điểm ngoại lai
4.5 Kết quả mô hình

Để đánh giá khả năng dự báo của mô hình, mô hình được kiểm thử trên tập
dữ liệu mới, được tách (20%) từ bộ dữ liệu ban đầu. Với tập dữ liệu kiểm thử, mô
hình cho kết quả AUC đạt 0.711 như hình 36.
25
Hình 36 : Kết quả dự đoán mô hình trên dữ liệu kiểm thử
Cụ thể với những quan sát không mắc bệnh, mô hình dự đoán đúng 85.56%,
với những quan sát mắc bệnh tim mạch vành, mô hình dự đoán đúng 89%. Trên
toàn bộ dữ liệu kiểm thử, như hình 37 mô hình dự báo chính xác 85.71%
Hình 37 : Confusion Matrix trên dữ liệu kiểm thử

So sánh với kết quả trong paper “Comparison of machine learning
algorithms for clinical event prediction” của nhóm tác giả Juan-Jose Beunza, giới
thiệu năm 2019, trên cùng bộ dữ liệu, cùng lớp mô hình hồi quy nhị phân, kết quả
26
accuracy của em đạt 86% (+2% vs. paper ) và kết quả AUC đạt 0.71 (+0.3 vs.
paper).
Hình 38 : Kết quả mô hình của paper của tác giả Juan-Jose Beunza
27
Kết Luận
Bài toán dự báo nguy cơ mắc bệnh tim mạch vành là bài toán khó và thách
thức với cộng đồng xử lý dữ liệu và cộng đồng y khoa. Với việc sử dụng một mô
hình nhẹ và đơn giản như hồi quy nhị phân đã đạt được những kết quả rất khả
quan, từ đó mở ra hướng áp dụng lớp các mô hình GLM cho bài toán dự đoán nguy
cơ mắc bệnh tim mạch vành nói riêng, hay những bài toán xử lý dữ liệu y khoa nói
chung.
Tuy nhiên, khi sử dụng mô hình để dự báo cho những dữ liệu mới, vẫn còn
những dữ liệu cho kết quả dự đoán sai, bởi vậy mô hình vẫn cần cải thiện trong
tương lai.
Trong thời gian tới, em mong muốn sẽ sử dụng nhiều lớp mô hình khác nhau
để tăng độ chính xác cho bài toán dự báo nguy cơ mắc bệnh tim mạch vành.
28
Tài liệu tham khảo
[1] Peter K.Dunn, Generalized Linear Models With Examples in R, Spring 2009.
[2] Colin Rundel, Lecture 20 - Logistic Regression, Statistics 102, Duke Universiry
https://www2.stat.duke.edu/courses/Spring13/sta102.001/Lec/Lec20.pdf7
[3] Juan-Jose Beunza, Comparison of machine learning algorithms for clinical
event prediction (risk of coronary heart disease), 2019
https://doi.org/10.1016/j.jbi.2019.103257
[4] Elie Gurarie, GLM: Logistic Regression and Model Selection,
BIOL709/BSCI339, University of Maryland
https://terpconnect.umd.edu/~egurarie/teaching/Biol709/Topic3/Lab11_GLMandM
odelSelection.html#aic
[5] Annette Dobson, An introduction to generalized linear models 4th , Chapman
and Hall/CRC, 2018
[6] https://rpubs.com/danizam/546689
29

Group5 DTG

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Group5 DTG

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

BÁO CÁO MÔN MÔ HÌNH HÓA THỐNG KÊ

Dự Đoán Nguy Cơ Mắc Bệnh Tim Mạch Vành

Giáo viên hướng dẫn : TS. Phạm Đình Tùng

Hà Nội , Tháng 07 Năm 2021

1.1 Mục tiêu

1.2 Giới thiệu bộ dữ liệu tim mạch vành

Hình 1 : Bộ dữ liệu tim mạch vành

1.3 Tiền xử lý dữ liệu

Hình 2 : Dữ liệu định tính đưa về dạng factor

Hình 3 : Dữ liệu thu thập không có giá trị.

Hình 4 : số lượng bệnh nhân mắc bệnh tim mạch vành

Hình 6 : thống kê các biến độc lập định lượng

Hình 17 : mô hình hồi quy nhị phân

3.1 Lựa chọn biến độc lập

Hình 19 : công thức AIC và BIC

Hình 21 : 5 mô hình có chỉ số BIC tốt nhất

Mô hình 1 và mô hình 2 là hai mô hình lồng nhau, sử dụng test Anova để

3.2 Lựa chọn link function

Hình 23 : Link function “logit”

Hình 25 : Link function “cloglog”

4.1 Hypothesis tests for coefficients

Hình 26 : mô hình hồi quy nhị thức

Hình 27 : kết quả Anova test

Hình 28 : Ước lượng hệ số

4.2 Overdispersion Tests

4.3 Goodness of Fit Tests

Hình 31 : Pseudo-R2 test

Hình 33 : Biểu đồ QQ-norm

Hình 35 : Top 5 điểm ngoại lai

4.5 Kết quả mô hình

Hình 37 : Confusion Matrix trên dữ liệu kiểm thử

You might also like