You are on page 1of 37

ĐẠI HỌC KINH TẾ TP.

HỒ CHÍ MINH
TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN


KHOA HỌC DỮ LIỆU
Đề tài: ……………………

GVHD: TS.GVC Nguyễn Quốc Hùng

Nhóm thực hiện: _ Số thứ tự nhóm_


Nguyễn Văn A (Trưởng nhóm)
Nguyễn Thị B
Nguyễn Thị D
Nguyễn Văn E

TP. Hồ Chí Minh, Tháng 8/2023


MỤC LỤC
DANH MỤC HÌNH ẢNH....................................................................................................................3
DANH MỤC BẢNG BIỂU...................................................................................................................4
DANH MỤC TỪ VIẾT TẮT...............................................................................................................5
Lời mở đầu............................................................................................................................................6
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN.......................................................................................7
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI..........................8
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ
DỤNG..................................................................................................................................................12
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ......................................18
Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH.......................................................................29
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.........................................................................................32
TÀI LIỆU THAM KHẢO..................................................................................................................34

Page | 2
DANH MỤC HÌNH ẢNH.

Hình 1.1 Phương pháp hồi quy Logistic ......................................................................17

Hình 2.2 Phương pháp hồi quy Tree............................................................................18

Hình 3.3 Phương pháp hồi quy SVM...........................................................................19

Hình 4.4 Phương pháp hồi quy Neutral Network............................................................18

Hình 5.5 Mô tả dữ liệu tiền sử hút thuốc.....................................................................21

Hình 6.6 Mô tả dữ liệu BMI.....................................................................................21

Hình 7.7 Mô tả dữ liệu HbA1c..................................................................................22

Hình 8.8 Mô tả dữ liệu mức đường huyết....................................................................22

Hình 2 Data sampler 70%........................................................................................23

Hình 3 Bảng dữ liệu file Training..............................................................................23

Hình 4Bảng dữ liệu file Forecast...............................................................................24

Hình 5 Mô hình xử lí dữ liệu.....................................................................................24

Hình 6 Tập huấn luyện............................................................................................25

Hình 7 Bảng Test and Score.....................................................................................25

Hình 8.1 Bảng Ma trận nhầm lẫn Logistic Regerssion..................................................26

Hình 8.2 Bảng ma trận nhầm lẫn Tree.......................................................................27

Hình 8.3 Bảng ma trận nhầm lẫn SVM.......................................................................27

Hình 8.4 Bảng ma trận nhầm lẫn Neutral Network.......................................................28

Hình 9 Tập thử nghiệm............................................................................................28

Hình 90 Mô hình dự đoán........................................................................................29

Page | 3
Hình 100 Bảng dự đoán..........................................................................................29

DANH MỤC BẢNG BIỂU.


Hình 11 Bảng mô tả biến.........................................................................................01

Page | 4
DANH MỤC TỪ VIẾT TẮT.

Page | 5
Lời mở đầu.

Lời đầu tiên chúng em xin gửi lời cảm ơn chân thành nhất đến TS. Nguyễn Quốc
Hùng, giảng viên đảm nhiệm bộ môn Khoa học dữ liệu của nhóm chúng em. Tuy là
chỉ trong một khoảng thời gian ngắn ngủi nhưng chúng em đã cảm nhận được sự nhiệt
tình, tận tâm và nhiệt huyết của thầy trong quá trình truyền đạt kiến thức .
Tuy môn KHDL đối với chúng em khá là khô khan nhưng qua môn học này chúng
em đã được tiếp cận với các phần mềm thú vị như Excel,Word,Orange,... có thể giúp
chúng em có những kiến thức mới và những kiến thức này hoàn toàn thực tiễn và
chúng em có thể áp dụng nó vào nhiều vấn đề như nghiên cứu cũng như công việc
Trong quá trình thực hiện tiểu luận , do chưa có nhiều kiến thức chuyên môn lẫn kinh
nghiệm nên chúng em khó có thể tránh khỏi sai sót, mong thầy có thể đưa ra nhận xét
và phương hướng để chúng em có thể giải quyết sai lầm và hoàn thiện hơn về mặt tri
thức trong tương lai
Chúng em xin chúc thầy thật nhiều sức khỏe, hạnh phúc và mãi giữ được nhiệt huyết
để truyền đạt kiến thức cho những khóa sau
Nhóm em xin chân thành cảm ơn thầy ạ !

Page | 6
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN
TT Họ và tên Công việc phụ trách Mức độ hoàn thành
1. Nguyễn Lê Bảo
Viết tổng quan, Phần 2.1 ; 2.2.1 ;
Minh 100%
Kết quả đạt được
(Trưởng nhóm)
2. Phần 1.1 ; Phần 2.2.3 ; Đánh giá
Hà Hải Triều 100%
Kết quả mô hình
3. Phần 3.1 ; Phần 3.2 ; Phần
Nguyễn Quang Đạt 100%
3.3 ;Kết luận
4. Phần 1.2 ; Phần 2.2.2 ; Hướng
Lê Thanh Phong 100%
phát triển
5. Vũ Hoàng Phúc Phần 3.4 ; Phần 3.6 ; Power Point 100%

Page | 7
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIỆU ĐỀ TÀI
Nôi dung chương này, mô tả về các kiến thức tổng quan về khoa học dữ liệu và đề tài
của nhóm bao gồm: Giới thiệu về khoa học dữ liệu,giới thiệu về đề tài

1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU


-Sự bùng nổ của internet, thiết bị cảm biến và thiết bị di động thông minh, v.v.
Đã sản sinh ra một thời đại của big data. Đem lại 1 tài nguyên khổng lồ về khối
lượng, tốc độ và đa dạng của dữ liệu. Nhằm tận khai thác tối đa nguồn tài
nguyên dồi dào đấy Khoa học dữ liệu , Khoa học dữ liệu được sinh ra để thu
thập, xử lý, phân tích và áp dụng dữ liệu. mang lại nhiều cơ hội cho các tổ chức
và cá nhân để khai thác giá trị tiềm ẩn trong dữ liệu và tạo ra những quyết định
thông minh hơn. Khoa học dữ liệu là một lĩnh vực phân tích dữ liệu kế thừa từ các
lĩnh vực khác như khoa học thống kê, khai phá dữ liệu, hay còn gọi là trích xuất kiến
thức từ các cơ sở dữ liệu.
1.1.1 Lịch sử hình thành
-Thuật ngữ khoa học dữ liệu là một thuật ngữ được ra đời vào những năm 60 như
một cách gọi khác của thống kê. Sau đó, vào cuối những năm 90, thuật ngữ này đã
được các nhà khoa học máy tính định nghĩa chính thức là một ngành học độc lập bao
gồm ba yếu tố: thiết kế, thu thập và phân tích dữ liệu. Tuy nhiên, cho đến sau một thập
kỷ nữa, thuật ngữ này mới được phổ biến ngoài giới học thuật .Trí tuệ nhân tạo và
máy học đã mang lại những tiến bộ lớn trong việc xử lý dữ liệu nhanh chóng và
hiệu quả. Ngành này có nhu cầu cao về các khóa học, bằng cấp và cơ hội nghề
nghiệp liên quan đến khoa học dữ liệu. Khoa học dữ liệu là một lĩnh vực đòi hỏi
sự chuyên sâu và kỹ năng liên ngành, và được dự báo sẽ phát triển mạnh trong
tương lai.
1.1.2 Vai trò
-Khoa học dữ liệu có vai trò rất quan trọng và đa dạng trong nhiều lĩnh vực khác nhau.
Theo kết quả tìm kiếm trên web, một số vai trò của khoa học dữ liệu là:
+Sử dụng dữ liệu để phân tích chuyên sâu về một vấn đề kinh doanh nào đó và đưa ra
các giải pháp, hoặc dự đoán cho tương lai.
+Xây dựng các mô hình dữ liệu để tạo ra các sản phẩm, hoặc tính năng công nghệ nào
đó.
+Rút ra insight giá trị từ dữ liệu để hỗ trợ các quyết định kinh doanh và chiến lược.
+Trực quan hóa các insight cho các bên liên quan, để chuyển hóa insight thành hành
động.
+Ứng dụng các thuật toán học máy để xử lý các dữ liệu phi cấu trúc như văn bản, âm
thanh, video và hình ảnh.
+Cải thiện chất lượng cuộc sống và sức khỏe của con người bằng cách sử dụng dữ liệu
trong các lĩnh vực y tế, giáo dục, an ninh và nhiều lĩnh vực khác.

1.1.3 Cách khoa học dữ liệu hoạt động


Page | 8
-Khoa học dữ liệu sử dụng nhiều công cụ khác nhau để thu thập, xử lý, phân tích và
trực quan hóa dữ liệu. Một số công cụ phổ biến bao gồm:

 Công cụ lập trình: là các ngôn ngữ máy tính được sử dụng để viết các chương
trình, thư viện và ứng dụng cho khoa học dữ liệu. Một số ngôn ngữ lập trình
phổ biến cho khoa học dữ liệu là Python, R, Matlab, Java.
 Công cụ truy vấn cơ sở dữ liệu: là các ngôn ngữ hoặc hệ thống được sử dụng để
truy xuất, thêm, xóa hoặc cập nhật dữ liệu trong các cơ sở dữ liệu quan hệ hoặc
phi quan hệ. Một số công cụ truy vấn cơ sở dữ liệu phổ biến cho khoa học dữ
liệu là SQL, MongoDB, Apache Hadoop.
 Công cụ thống kê: là các phần mềm hoặc thư viện được sử dụng để tính toán
các chỉ số thống kê, kiểm định giả thiết, phân tích tương quan và hồi quy, phân
phối xác suất và các phương pháp thống kê khác. Một số công cụ thống kê phổ
biến cho khoa học dữ liệu là Microsoft Excel, Minitab, SAS
 Công cụ trực quan hóa dữ liệu: là các phần mềm hoặc thư viện được sử dụng để
tạo ra các biểu đồ, bảng, dashboard hoặc các hình ảnh khác để minh họa và
trình bày dữ liệu một cách sinh động và dễ hiểu. Một số công cụ trực quan hóa
dữ liệu phổ biến cho khoa học dữ liệu là Tableau, Matplotlib, Power BI

-Công cụ học máy: là các phần mềm hoặc thư viện được sử dụng để xây dựng, huấn
luyện và đánh giá các mô hình học máy, bao gồm cả học có giám sát, học không giám
sát và học tăng cường. Một số công cụ học máy phổ biến cho khoa học dữ liệu là
TensorFlow, DataRobot, BigML.
1.1.4Ứng dụng của khoa học dữ liệu:

-Trong y tế, khoa học dữ liệu có thể giúp hỗ trợ trong việc thiết kế các hệ thống chăm
sóc sức khỏe , nghiên cứu về gen và di truyền, điều chế thuốc và phòng ngừa bệnh tật.
-Trong tìm kiếm thông tin, khoa học dữ liệu có thể giúp giảm thiểu sai sót và tăng độ
chính xác của các công cụ tìm kiếm, bằng cách sử dụng các thuật toán máy học để hiểu
ngôn ngữ tự nhiên, xử lý ảnh và âm thanh, phân loại và nhóm các kết quả tìm kiếm.
-Trong lĩnh vực quảng cáo, khoa học dữ liệu có thể giúp tăng hiệu quả của các chiến
dịch quảng cáo được nhắm mục tiêu, bằng cách sử dụng các thuật toán để phân tích
hành vi, sở thích và nhu cầu của khách hàng.
-Trong thương mại điện tử và dịch vụ số, khoa học dữ liệu có thể giúp tăng doanh số
bán hàng và khách hàng trung thành, bằng cách sử dụng các thuật toán để đưa ra các
đề xuất sản phẩm hoặc nội dung phù hợp với từng người dùng . 2

-Trong lĩnh vực tài chính - ngân hàng, khoa học dữ liệu có thể giúp giảm rủi ro và tối
ưu hóa lợi nhuận, bằng cách sử dụng các thuật toán để phát hiện gian lận, đánh giá tín
dụng, định giá sản phẩm tài chính và dự báo xu hướng thị trường.
-Trong sản xuất, khoa học dữ liệu có thể giúp nâng cao hiệu suất và chất lượng sản
phẩm, bằng cách sử dụng các thuật toán để theo dõi và điều khiển quá trình sản xuất,
phát hiện và khắc phục sự cố, tối ưu hóa chuỗi cung ứng và quản lý hàng tồn kho .2

-Trong giao thông vận tải, khoa học dữ liệu có thể giúp cải thiện an toàn và tiết kiệm
năng lượng, bằng cách sử dụng các thuật toán để phân tích luồng giao thông, điều
chỉnh đèn giao thông, định vị xe buýt hoặc taxi, điều khiển xe tự lái và xe bay.

1.1.5 Kết luận

Page | 9
- Nắm bắt được khoa học dữ liệu là nắm bắt được một lĩnh vực mới mẻ và hấp
dẫn, mang lại nhiều lợi ích cho xã hội và con người. Tuy nhiên, khoa học dữ liệu cũng
đòi hỏi những kiến thức và kỹ năng chuyên sâu về toán học, thống kê, tin học và các
lĩnh vực ứng dụng. Ngoài ra, khoa học dữ liệu cũng cần tuân thủ các nguyên tắc đạo
đức và pháp luật trong việc thu thập, xử lý và sử dụng dữ liệu. Chỉ có như vậy, khoa
học dữ liệu mới có thể phát huy được tiềm năng của mình và góp phần vào sự phát
triển bền vững của nhân loại

1.2. GIỚI THIỆU VỀ ĐỀ TÀI


1.2.1 Định nghĩa về tiểu đường:
-Bệnh tiểu đường là một bệnh lý xảy ra khi lượng đường trong máu (đường huyết)
tăng cao. Đây là một nhóm bệnh gây ảnh hưởng đến cách cơ thể sử dụng lượng đường
(glucose) trong máu. Glucose rất quan trọng đối với sức khỏe vì nó là nguồn năng
lượng thiết yếu giúp các tế bào cơ thể, đặc biệt là tế bào não hoạt động bình thường.
Bệnh tiểu đường có nhiều dạng, nhưng dạng phổ biến nhất là tiểu đường típ 1 và tiểu
đường típ 2. Tiểu đường típ 1 xảy ra do phản ứng tự miễn khiến cơ thể ngừng sản xuất
insulin. Những người mắc bệnh tiểu đường sẽ phải dùng insulin nhân tạo mỗi ngày
trong suốt cuộc đời. Đái tháo đường típ 2 ảnh hưởng đến cách cơ thể sử dụng insulin.
Không giống như tiểu đường típ 1, ở người mắc tiểu đường típ 2, các tế bào trở nên
kháng insulin, nghĩa là nó không còn phản ứng với insulin một cách hiệu quả như
trước, mặc dù cơ thể vẫn sản xuất insulin.

1.2.2 Thực trạng :

- Tiểu đường là một căn bệnh ngày càng phổ biến và tăng trưởng nhanh chóng ở nhiều
quốc gia trên thế giới. Hiện nay, có khoảng 425 triệu người bị tiểu đường trên toàn
cầu, chiếm tỷ lệ 1/11 dân số. Theo dự báo, số người bị tiểu đường sẽ lên tới 522 triệu
người vào năm 2030. Tiểu đường là một trong ba nguyên nhân hàng đầu gây ra cái
chết cho con người, chỉ xếp sau bệnh tim mạch và ung thư.

-Ở Việt Nam, bệnh tiểu đường cũng đang trở thành căn bệnh phổ biến và gia tăng
nhanh chóng. Hiện nay, khoảng 5.5% dân số Việt Nam mắc bệnh tiểu đường. Theo dự
báo, con số này sẽ tăng lên 7.7% vào năm 2045. Bệnh tiểu đường là một trong ba
nguyên nhân gây tử vong hàng đầu tại Việt Nam, chỉ sau bệnh tim mạch và ung thư.

1.2.3 Áp dụng Khoa học kỹ thuật vào việc nghiên cứu bệnh tiểu đường:

-Bệnh tiểu đường là một căn bệnh có tỷ lệ tử vong cao trên thế giới. Việc áp dụng
khoa học kĩ thuật vào việc dự đoán bệnh tiểu đường là rất cần thiết. Xét nghiệm tiểu
đường là một trong những phương pháp chẩn đoán bệnh tiểu đường hiệu quả nhất.Mọi
người đều có nguy cơ mắc bệnh tiểu đường, vì vậy bạn nên kiểm tra bệnh tiểu đường
của mình định kỳ để có thể có những thay đổi kịp thời. Điều này sẽ giúp kiểm soát
lượng đường huyết cho người chưa hoặc đang mắc bệnh tiểu đường.

Page | 10
-Tuy nhiên, việc dự đoán bệnh tiểu đường không chỉ dựa trên xét nghiệm tiểu đường
mà còn phải kết hợp với các yếu tố nguy cơ như huyết áp cao, mức cholesterol bất
thường, lối sống ít vận động, tiền sử hội chứng buồng trứng đa nang hoặc bệnh tim .

-Ngoài ra, các loại xét nghiệm tiểu đường như xét nghiệm HbA1c và xét nghiệm
đường huyết ngẫu nhiên cũng được sử dụng để chẩn đoán bệnh tiểu đường.

-Tóm lại, việc áp dụng khoa học kĩ thuật vào việc dự đoán bệnh tiểu đường là rất quan
trọng và giúp cho việc chẩn đoán và điều trị bệnh hiệu quả hơn.

Page | 11
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ
CÁC PHƯƠNG PHÁP SỬ DỤNG
Nôi dung chương này, trình bày về tổng quan về chương trình sử dụng và các phương
pháp sử dụng đến đề tài bao gồm: Tổng quan về Orange,Các phương pháp sử dụng
2.1 Dùng excel để khai thác dữ liệu:
-Excel là phần mềm bảng tính của Microsoft Office, giúp người dùng khám phá, phân
tích, thống kê,... và ta dùng Excel để thống kê, phân tích và lưu dữ liệu dùng cho việc
dự báo
2.1.1. Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
- Lần lượt làm theo các bước:
Bước 1: Chuẩn bị bảng dữ liệu
Bước 2 :Chọn lệnh Data -> Data Analysis -> Descriptive Statistics,xuất hiện hộp thoại
Descriptive Statistics
Bước 3:Khai báo các thông số Input và lựa chọn các thông số Output Options
2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal
-Chức năng của Subtotal:
Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm
tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.
- Lần lượt làm theo các bước:
Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là
Salesperson)
Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu.
Bước 3: Chọn Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal
2.1.2 Phương pháp phân tích dự báo:
2.1.2.1 Phương pháp trung bình trượt (Moving Average):
- Lần lượt làm theo các bước:
Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là
Salesperson)
Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu.
Bước 3: Chọn Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal.
2.1.2.2 Phương pháp san bằng mũ :
- Lần lượt làm theo các bước:
Bước 1: Chuẩn bị bảng số liệu cần dự báo

Page | 12
Bước 2: Chọn lệnh Data → Data Analysis→ Exponential Smoothing, xuất hiện hộp
thoại Exponential Smoothing
Bước 3: Khai báo các dữ liệu Input và Output Options
2.1.2.3 Phương pháp hồi quy (Regression)
- Lần lượt làm theo các bước:
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến
độc lập X
Bước 3: Vẽ đồ thi dạng Scatter
Bước 4: Click chuột phải vào data series, chọn Add Trendline
Bước 5: Tuỳ chọn hiển thị trong Trendline Options
2.1.TỔNG QUAN VỀ ORANGE:
-Phần mềm Orange là phần mềm tích hợp các công cụ Data Mining(Khai phá dữ liệu
mã nguồn mở ) và Machine Learning (Học máy) , phần mềm được lập trình bằng
Python nên sử dụng khá đơn giản, trực quan và tương tác dễ dàng. Bao gồm nhiều
chức năng có thể giúp người dùng phân tích được những dữ liệu từ đơn giản đến phức
tạp.Có đến 15 loại hình ảnh trực quan khác nhau và có thể được sử dụng để xem dữ
liệu trên các kích thước khác nhau
-Orange còn có các công cụ (widget) cung cấp các chức năng như đọc dữ liệu ,hiển thị
dữ liệu dạng bảng, lựa chọn các thuộc tính đặc điểm của dữ liệu , huấn luyện các dữ
liệu để dự đoán ,trực quan hóa các dữ liệu , và còn nhiều công cụ khác
2.2.CÁC PHƯƠNG PHÁP ĐƯỢC ÁP DỤNG:
2.2.1 Tiền xử lí dữ liệu:
-Tiền xử lý dữ liệu (data preprocessing) là quá trình chuẩn bị và biến đổi dữ liệu trước
khi áp dụng các mô hình học máy hoặc các phương pháp phân tích dữ liệu khác. Tiền
xử lý dữ liệu rất quan trọng trong quá trình phân tích dữ liệu và học máy, vì dữ liệu
không được xử lý đúng cách có thể dẫn đến kết quả không chính xác hoặc không tin
cậy. Dưới đây là một số công đoạn quan trọng trong tiền xử lý dữ liệu:
 Thu thập dữ liệu:
Xác định nguồn dữ liệu và thu thập dữ liệu từ các nguồn đáng tin cậy.
 Loại bỏ dữ liệu nhiễu (Noise removal):
Phát hiện và loại bỏ dữ liệu nhiễu hoặc không chính xác từ tập dữ liệu.
 Xử lý dữ liệu thiếu (Handling missing data):
Điền giá trị cho các ô dữ liệu trống hoặc loại bỏ các mẫu dữ liệu có giá trị thiếu.
 Chuẩn hóa dữ liệu (Data normalization):
Biến đổi các biến thành một phạm vi chuẩn để tránh ảnh hưởng của các đơn vị đo
lường khác nhau.
 Chuyển đổi biến đổi (Data transformation):
Áp dụng các phép biến đổi để giảm độ lớn của dữ liệu hoặc để biến đổi dữ liệu thành
các dạng phù hợp với giả định của mô hình.
 Xử lý outliers (Outlier handling):
Phát hiện và xử lý các giá trị ngoại lai không phù hợp trong dữ liệu.
 Rút gọn đặc trưng (Feature selection):
Chọn ra các đặc trưng quan trọng và loại bỏ các đặc trưng không cần thiết.
Page | 13
 Tạo đặc trưng mới (Feature creation):
Tạo ra các đặc trưng mới từ các đặc trưng hiện có để cải thiện khả năng dự đoán của
mô hình.
 Xử lý biến động (Handling skewness):
Biến đổi dữ liệu để giảm độ chệch (skewness) trong phân phối của dữ liệu.
 Chia dữ liệu thành tập huấn luyện và tập kiểm tra (Data splitting):
Phân chia dữ liệu thành hai tập riêng biệt để đào tạo mô hình và đánh giá hiệu suất của
mô hình.
-Quá trình tiền xử lý dữ liệu đòi hỏi sự hiểu biết sâu rộng về dữ liệu và nguyên tắc của
các thuật toán học máy và thống kê. Việc thực hiện tiền xử lý dữ liệu cẩn thận và chính
xác giúp cải thiện đáng kể các mô hình dự đoán và phân loại.

2.2.2 Phân cụm:

2.2.2.1)Giới thiệu chung về phân cụm dữ liệu chung về phân cụm dữ liệu:
-Phân cụm dữ liệu là một kỹ thuật phân tích dữ liệu không giám sát, nhằm phân chia
một tập dữ liệu thành các nhóm (cụm) sao cho các đối tượng trong cùng một nhóm có
độ tương đồng cao với nhau, và có độ tương đồng thấp với các đối tượng ở các nhóm
khác . Mục tiêu của phân cụm dữ liệu là khám phá ra cấu trúc ẩn, nhóm hóa, phân loại,
hoặc tổng hợp dữ liệu. Phân cụm dữ liệu có nhiều ứng dụng trong các lĩnh vực khác
nhau, như khai thác tri thức, khám phá dữ liệu, học máy, thị trường, y tế,…

-Các bước thực hiện phân cụm dữ liệu gồm có:

Bước 1: Chọn phương pháp và thuật toán phân cụm phù hợp với bài toán và dữ liệu.

Bước 2: Tiền xử lý dữ liệu: làm sạch, chuẩn hóa, chọn thuộc tính, giảm chiều,…

Bước 3: Thực hiện phân cụm dữ liệu theo thuật toán đã chọn.

Bước 4: Đánh giá kết quả phân cụm dữ liệu theo các tiêu chí như độ tương đồng trong
cụm, độ khác biệt giữa các cụm, chỉ số Silhouette,…

Bước 5: Trình bày và diễn giải kết quả phân cụm dữ liệu, khám phá ra các đặc điểm và
ý nghĩa của các cụm.

2.2.2.2)Các phương pháp phân cụm dữ liệu:


-Có sáu phương pháp phân cụm dữ liệu chính, đó là:

1.Phân cụm phân vùng: phân chia dữ liệu thành các cụm không giao nhau, mỗi cụm
có một tâm cụm. Ví dụ: k-means, k-medoids, CLARANS,…

2.Phân cụm phân cấp: xây dựng một cây phân cấp của các cụm, có thể từ dưới lên
(gộp dần) hoặc từ trên xuống (chia dần). Ví dụ: AGNES, DIANA, BIRCH,…

3.Phân cụm dựa theo mật độ: phân chia dữ liệu thành các cụm dựa trên mật độ của các
điểm dữ liệu trong không gian. Ví dụ: DBSCAN, OPTICS, DENCLUE,…
Page | 14
4.Phân cụm dựa theo lưới: phân chia không gian thành các ô lưới và thực hiện phân
cụm trên các ô lưới. Ví dụ: STING, CLIQUE, WaveCluster,…

5.Phân cụm dựa theo mô hình: sử dụng một mô hình xác suất hoặc hàm mục tiêu để
tìm ra các cụm tối ưu. Ví dụ: EM, COBWEB, SOM,…

6.Phân cụm mờ: cho phép một điểm dữ liệu thuộc về nhiều cụm với các độ thuộc khác
nhau. Ví dụ: FCM, PCM, FPCM,…

2.2.2.3)Các tiêu chí đánh giá hiệu quả của phân cụm dữ liệu:

-Một số tiêu chí đánh giá hiệu quả của phân cụm dữ liệu, đó là:
1.Độ tương đồng trong cụm: là mức độ mà các đối tượng trong cùng một cụm có các
thuộc tính giống nhau. Độ tương đồng trong cụm càng cao thì phân cụm càng tốt.

2.Độ khác biệt giữa các cụm: là mức độ mà các đối tượng ở các cụm khác nhau có các
thuộc tính khác nhau. Độ khác biệt giữa các cụm càng cao thì phân cụm càng tốt.

3.Chỉ số Silhouette: là một chỉ số kết hợp giữa độ giống nhau trong cụm và sự khác
biệt trong các cụm. Chỉ số Silhouette nằm trong khoảng từ -1 đến 1, và càng gần với 1
thì phân cụm càng tốt.

4.Chỉ số Davies-Bouldin: là một chỉ số dựa trên tỷ lệ giữa khoảng cách trung bình
trong cụm và khoảng cách trung bình giữa các tâm cụm. Chỉ số Davies-Bouldin càng
nhỏ thì phân cụm càng tốt.

5.Chỉ số Dunn: là một chỉ số dựa trên tỷ lệ ngược của khoảng cách nhỏ nhất giữa hai
cụm bất kỳ và đường kính lớn nhất của một cụm bất kỳ. Chỉ số Dunn càng lớn thì
phân cụm càng tốt.

2.2.2.4)Ứng dụng của phân cụm dữ liệu trong thực tế:

Phân cụm dữ liệu có nhiều ứng dụng trong thực tế, như là :

Sinh học: phân loại các lớp động vật qua các chức năng gen tương đồng của chúng.

Kinh doanh và kinh tế: phân khúc thị trường, phân loại khách hàng, phân tích hành vi
mua hàng, dự báo nhu cầu, định giá sản phẩm,…

Y tế: phân loại bệnh nhân, chuẩn đoán bệnh, phát hiện bất thường, phân tích di truyền,

Hình ảnh: phân đoạn ảnh, nhận dạng khuôn mặt, nhận dạng vân tay, nhận dạng chữ
viết,…

Văn bản: phân loại văn bản, tóm tắt văn bản, phát hiện ngôn ngữ, phát hiện chủ đề,…

Page | 15
2.2.2.5)Kết luận:

-Phân cụm dữ liệu là một kỹ thuật quan trọng và hữu ích trong khoa học dữ liệu, giúp
khám phá ra cấu trúc ẩn và nhóm hóa dữ liệu. Tuy nhiên, phân cụm dữ liệu cũng gặp
một số thách thức và hạn chế, như việc chọn số lượng cụm tối ưu, việc xử lý dữ liệu
nhiễu và bất thường, việc đối mặt với dữ liệu có chiều sâu và có tính đa dạng,…

-Kiến nghị cho việc sử dụng và nghiên cứu phân cụm dữ liệu trong tương lai, chúng
em đề xuất một số hướng sau:

1.Cần có sự kết hợp giữa các phương pháp phân cụm khác nhau để tăng hiệu quả và độ
tin cậy của kết quả phân cụm.

2.Cần có sự áp dụng của các kỹ thuật học sâu và học tăng cường để nâng cao khả năng
xử lý dữ liệu phức tạp và đa chiều.

3.Cần có sự đầu tư vào việc xây dựng các công cụ và nền tảng hỗ trợ cho việc phân
cụm dữ liệu, như các thư viện, giao diện, máy tính đám mây,…

4.Cần có sự hợp tác giữa các nhà nghiên cứu, doanh nghiệp và chính quyền để tạo ra
các phương pháp tối ưu phân cụm dữ liệu để mang lại lợi ích cho xã hội.

2.2.3 Phân lớp:

2.2.3.1)Định nghĩa:

-Là quá trình phân đối tượng hay dữ liệu vào một hay nhiều lớp đã cho trước nhờ một
mô hình phân lớp.Mô hình được xây dựng trên một tập dữ liệu đã được gán nhãn trước
đó

-Phân lớp dữ liệu được xem là một lĩnh vực nghiên cứu quan trọng trong khai phá dữ
liệu. Thực tế yêu cầu rằng con người phải có khả năng khai thác các thông tin ẩn trong
cơ sở dữ liệu để đưa ra các quyết định nghiệp vụ thông minh hơn.

2.2.3.2)Quá trình phân lớp dữ liệu:

-Mục tiêu của phân lớp là dự báo nhãn cho các đối tượng dữ liệu mới hoặc chưa biết.
Phân lớp bao gồm hai giai đoạn chủ yếu:

Page | 16
Bước 1: Xây dựng mô hình phân lớp: nhận diện các vật mẫu thuộc vào các nhóm đã
xác định trước dựa trên các thuộc tính của chúng
-Dữ liệu đầu vào bao gồm các dữ liệu mẫu được gán nhãn, mẫu được tiền xử
lý(sample), đối tượng (object),..
Bước 2: Sử dụng mô hình giúp phân lớp dữ liệu trong tương lai hoặc phân lớp cho
những đối tượng chưa biết đến
-Đánh giá mô hình:Khi ước lượng độ chính xác của mô hình trên tập dữ liệu Training,
ta sẽ thấy kết quả tốt vì mô hình thường “quá khớp" với dữ liệu
-Các thuật toán phân lớp: tập luật, Neural network,...

2.2.3.3)Một số vấn đề liên quan đến phân lớp dữ liệu:


-Tiền xử lý dữ liệu là một nhiệm vụ bắt buộc và quan trọng trong việc đưa ra những dự
đoán liệu một mô hình phân lớp có phù hợp hay không. Tiền xử lý dữ liệu giúp cải
thiện độ chính xác, hiệu quả và khả năng mở rộng của mô hình phân lớp.
- Phân tích thông tin cần thiết: Mục tiêu là loại bỏ các thuộc tính không cần thiết, dư
thừa trong quá trình học tập vì chúng gây nhiễu, có độ trễ và gây ra những hiểu lầm,
dẫn đến rắc rối và từ đó mô hình phân lớp không thể được sử dụng.

2.2.3.4)Một số phương pháp phân lớp:


-Hồi quy logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu
ra rời rạc từ một tập các giá trị đầu vào ( biểu diễn dưới dạng vector)

Hình 1.0.1 Hình minh họa phương pháp Hồi quy logisctic

-Cây quyết định (Random Forest) là đồ thị các quyết định cùng các kết quả mang tính
ổn định đi kèm nhằm hỗ trợ việc đưa ra quyết định. Trong khoa học dữ liệu, cây quyết
định là phương pháp mô tả, phân loại và tổng quát tập dữ liệu cho trước.

Page | 17
Hình 0.2 Hình minh họa phương pháp Tree

-SVM (Support Vector Machine): SVM là một thuật toán có giám sát,SVM nhận dữ
liệu vào, xem chúng như những vector trong không gian và phân loại chúng vào các
lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm
mặt phân cách các lớp dữ liệu

Hình 0.3 Hình minh họa phương pháp SVM

Page | 18
-Neutral Network : là một loại mạng nơ-ron nhân tạo, là một chuỗi các thuật toán để
khám phá các mối liên hệ trong dữ liệu dựa trên cơ chế hoạt động của bộ não người.
Neutral Network có khả năng tự điều chỉnh theo đầu vào để cho ra kết quả đầu ra tối
ưu nhất

Hình 0.4 Hình minh họa phương pháp Neutral Network

2.2.3.5) Mô hình phân lớp được đánh giá bằng những phương pháp:
-Ma trận nhầm lẫn (Confusion Matrix) biểu diễn số lượng điểm dữ liệu thuộc một lớp
thực tế và được chuẩn đoán là thuộc một lớp nào đó
-Phân chia dữ liệu Hold-out: Phân chia dữ liệu thành 2 tập độc lập theo một tỷ lệ nhất
định
-K-cross validation:Phân chia dữ liệu thành k tập con có cùng kích thước. Và một
trong các tập con này được dùng làm tập dữ liệu đánh giá, số còn lại dùng làm tập
huấn luyện
-Các phương pháp này giúp đo lường hiệu quả của mô hình phân lớp trên dữ liệu có
thuộc tính đặc biệt, để có thể chọn lựa có dùng mô hình hay không
- Một mô hình tốt là một mô hình vừa đủ đơn giản, vừa đủ phức tạp và không bị ảnh
hưởng nhiều bởi nhiễu.

2.2.3.6) Ứng dụng của phân lớp dữ liệu vào nền kinh tế:
-Phân loại khách hàng theo nhu cầu, sở thích, hành vi mua hàng, độ trung thành, thu
nhập,... để đưa ra các chiến lược tiếp thị, bán hàng và chăm sóc khách hàng phù hợp
-Phân loại doanh nghiệp theo hiệu quả hoạt động, khả năng thanh toán, rủi ro phá
sản,.. để đánh giá và so sánh các doanh nghiệp
-Phân loại các quốc gia theo mức độ phát triển, chỉ số kinh tế xã hội, chỉ số bền
vững,.. để nghiên cứu và so sánh các quốc gia
-Phân loại các văn bản kinh tế theo chủ đề, tác giả, nguồn gốc, ý kiến, … để phân tích
và tổng hợp các thông tin kinh tế
-Phân loại các dữ liệu tài chính theo loại giao dịch, loại sản phẩm, loại rủi ro, ... để
quản lý và kiểm soát các hoạt động tài chính

Page | 19
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN
THỰC TẾ
Nôi dung chương này, trình bày tất cả vấn đề về ứng dụng phương pháp lựa chọn vào
bài toán thực tế gồm: Mô tả bài toán, Mô tả dữ liệu,thống kê dữ liệu, phân lớp dữ
liệu,dự báo, đánh giá kết quả mô hình
3.1 MÔ TẢ BÀI TOÁN:
-Dự đoán bệnh tiểu đường dựa vào các thông tin y tế của các bệnh nhân giúp cho bác
sĩ xác định nguy cơ bị tiểu đường của bệnh nhân từ đó đưa ra các biện pháp phòng
ngừa
3.2 MÔ TẢ DỮ LIỆU :
-Bộ dữ liệu Diabetes prediction dataset là tập hợp dữ liệu y tế và nhân khẩu học từ
bệnh nhân, cùng với tình trạng bệnh tiểu đường của họ (tích cực hoặc tiêu cực). Dữ
liệu bao gồm các đặc điểm như tuổi tác ( age) , giới tính (gender) , chỉ số khối cơ thể
(BMI), chứng tăng huyết áp ( hypertension), bệnh tim ( heart disease) , tiền sử hút
thuốc ( smoking history), mức HbA1c (HbA1c level) và mức đường huyết (blood
glucose level) .Bộ dữ liệu này có thể được sử dụng để xây dựng các mô hình học máy
( machine learning models) nhằm dự đoán bệnh tiểu đường ở bệnh nhân dựa trên tiền
sử bệnh và thông tin nhân khẩu học của họ. Điều này thật sự rất hữu ích cho các
chuyên gia chăm sóc sức khỏe trong việc xác định những bệnh nhân có nguy cơ mắc
bệnh tiểu đường nhằm đưa ra các can thiệp và biện pháp kịp thời để chữa trị cho các
bệnh nhân . Ngoài ra, các nhà nghiên cứu có thể sử dụng tập dữ liệu này để khám phá
mối quan hệ giữa các yếu tố y tế và nhân khẩu học khác nhau với khả năng phát triển
bệnh tiểu đường.
Bộ dữ liệu này chứa 100000 thông tin quan sát qua 9 biến , bao gồm :
Bảng 1. Mô tả biến

Biến Mô tả biến Giá trị


Gender Đề cập đến giới tính sinh học của cá nhân,  Male ( nam)
có thể có tác động đến khả năng mắc bệnh  Female ( nữ )
tiểu đường của họ  Other ( không
rõ hoặc giới
tính thứ 3 )
Age Tuổi tác là một yếu tố quan trọng vì bệnh  0 – 80 tuổi
tiểu đường thường được chẩn đoán ở người
lớn tuổi
Hypertension Tăng huyết áp là một tình trạng bệnh lý  0 ( không bị
trong đó huyết áp trong động mạch tăng tăng huyết áp )
cao liên tục.  1 ( bị tăng
huyết áp )
Heart Disease Bệnh tim là một tình trạng y tế khác có liên  0 ( không bị
quan đến việc tăng nguy cơ phát triển bệnh bệnh tim )
tiểu đường.  1 ( bị bệnh
tim )

Page | 20
Smoking Tiền sử hút thuốc cũng được coi là một  Not current ( có
history yếu tố nguy cơ của bệnh tiểu đường và có hút thuốc nhưng
thể làm trầm trọng thêm các biến chứng thời gian gần
liên quan đến bệnh tiểu đường. đây không hút )
 Former ( Trước
kia đã từng hút
nhưng bây giờ
đã bỏ hút)
 No Info ( không
có thông tin)
 Current ( có hút
thuốc )
 Ever ( có khi đã
từng hút thuốc
hoặc không )
 Never ( không
bao giờ hút
thuốc)
BMI BMI (Body Mass Index) là thước đo lượng  Dưới 18,5 là
mỡ trong cơ thể dựa trên cân nặng và chiều thiếu cân
cao. Giá trị BMI cao hơn có liên quan đến  18,5-24,9 là
nguy cơ mắc bệnh tiểu đường cao hơn. bình thường,
Phạm vi chỉ số BMI trong tập dữ liệu là từ  25-29,9 là thừa
10,16 đến 71,55. cân
 Từ 30 trở lên là
béo phì.
HbA1c level Mức HbA1c (Hemoglobin A1c) là thước  < 6,5% ( bình
đo lượng đường trong máu trung bình của thường )
một người trong 2-3 tháng qua. Mức độ  >= 6,5 % ( có
cao hơn cho thấy nguy cơ phát triển bệnh nguy cơ tiểu
tiểu đường cao hơn. đường )
Blood Mức đường huyết đề cập đến lượng  80 – 300
glucose level glucose trong máu tại một thời điểm nhất
định.
Diabetes Bệnh tiểu đường là biến mục tiêu được dự 0 ( biểu thị sự vắng
đoán mặt của bệnh tiểu
đường )
1 ( biểu thị sự hiện
diện của bệnh tiểu
đường )

3.3 THỐNG KÊ DỮ LIỆU:


 Gender ( giới tính )

Page | 21
Giới tính đề cập đến giới tính sinh học của cá nhân, có thể có tác động đến khả năng
mắc bệnh tiểu đường của họ. Có ba loại trong đó nam, nữ và loại khác.

Hình 2.1 Mô tả dữ liệu giới tính

 Age ( tuổi )
Tuổi tác là một yếu tố quan trọng vì bệnh tiểu đường thường được chẩn đoán ở người
lớn tuổi. Độ tuổi nằm trong khoảng từ 0-80 trong tập dữ liệu

Hình 2.2 Mô tả dữ liệu tuổi

 Hypertension ( Chứng tăng huyết áp )


Tăng huyết áp là một tình trạng bệnh lý trong đó huyết áp trong động mạch tăng cao
liên tục. Nó có giá trị 0 hoặc 1 trong đó 0 cho biết họ không bị tăng huyết áp và với 1
có nghĩa là họ bị tăng huyết áp.

Hình 2.3 Mô tả dữ liệu chứng tăng huyết áp

Page | 22
 Heart Disease ( bệnh tim mạch )
Bệnh tim là một tình trạng y tế khác có liên quan đến việc tăng nguy cơ phát triển bệnh
tiểu đường. Nó có giá trị 0 hoặc 1 trong đó 0 cho biết họ không mắc bệnh tim và với 1
có nghĩa là họ mắc bệnh tim.

Hình 2.4 Mô tả dữ liệu bệnh tim mạch

 Smoking history ( tiền sử hút thuốc )


Tiền sử hút thuốc cũng được coi là yếu tố nguy cơ của bệnh tiểu đường và có thể làm
trầm trọng thêm các biến chứng liên quan đến bệnh tiểu đường.

Hình 2.5 Mô tả dữ liệu tiền sử hút thuốc

 BMI
BMI (Body Mass Index) là thước đo lượng mỡ trong cơ thể dựa trên cân nặng và chiều
cao. Giá trị BMI cao hơn có liên quan đến nguy cơ mắc bệnh tiểu đường cao hơn.
Phạm vi chỉ số BMI trong tập dữ liệu là từ 10,16 đến 71,55. BMI dưới 18,5 là thiếu
cân, 18,5-24,9 là bình thường, 25-29,9 là thừa cân và từ 30 trở lên là béo phì.

Page | 23
Hình 2.6 Mô tả dữ liệu BMI

 HbA1c
Mức HbA1c (Hemoglobin A1c) là thước đo lượng đường trong máu trung bình của
một người trong 2-3 tháng qua. Mức độ cao hơn cho thấy nguy cơ phát triển bệnh tiểu
đường cao hơn. Hầu hết mức HbA1c trên 6,5% cho thấy bệnh tiểu đường.

Hình 2.7 Mô tả dữ liệu HbA1c

 Blood Glucose level ( mức đường huyết )


Mức đường huyết đề cập đến lượng glucose trong máu tại một thời điểm nhất định.
Mức đường huyết cao là dấu hiệu chính của bệnh tiểu đường.

Hình 2.8 Mô tả dữ liệu mức đường huyết

Page | 24
3.4 PHÂN LỚP DỮ LIỆU:
3.4.1 Xử lí dữ liệu:
-Sử dựng công cụ Data Sampler để phân tách từ file Diabetes prediction dataset
thành 2 file riêng biệt với tỉ lệ 70% và 30%

Hình 3. Data sampler 70%

-Lấy dữ liệu với tỉ lệ 70% làm file Huấn luyện ( Training Data)

Hình 4. Bảng dữ liệu file Training

-Tập dữ liệu sau khi phân tách có 70000 bản ghi và 9 biến và không có dữ liệu bị lỗi.
Lưu về với tên (diabetes_prediction_dataset-Training.xlsx)
-Lấy dữ liệu với tỉ lệ 30% làm file Dự báo (Forecast Data)
Page | 25
Hình 5. Bảng dữ liệu file Forecast

-Tập dữ liệu sau khi phân tách có 30000 bản ghi và 9 biến và không có dữ liệu bị lỗi.
Lưu về với tên (diabetes_prediction_dataset-Forecast.xlsx)

Hình 6. Mô hình xử lí dữ liệu

3.4.2 Sử dụng mô hình phân lớp dữ liệu


3.4.2.1)Lựa chọn mô hình phân lớp:
Bước 1: Sử dụng file diabetes_prediction_dataset-Training.xlsxlà tập huấn
luyện .Trong đó chọn “diabetes” làm target

Page | 26
Hình 7. Tập huấn luyện

Bước 2: Sử dụng mô hình Logistic Regression ,Tree ,SVM, Neutral Network để tiến
hành dự báo nguy cơ bị bệnh tiểu đường
Bước 3: Sử dụng các phương pháp đánh giá mô hình phân lớp để có thể chọn ra
phương pháp đánh giá tốt nhất ,sau đó tiến hành dự đoán dữ liệu
diabetes_prediction_dataset-Forecast.xlsx
a)Kết quả đánh giá Test and Score với k=5

Hình 8. Bảng Test and Score

Page | 27
- Nhận xét :
Tại mục "Evaluation results", chúng ta cần xem xét kết quả định lượng của 4 mô
hình: Logistic Regression, Decision Tree, Support Vector Machine (SVM), và Neural
Network để xác định mô hình nào có giá trị cao nhất.
Từ đó, ta có thể thấy rằng mô hình Neural Network mang lại kết quả tốt nhất, cụ thể
là:
Tỉ lệ chính xác (CA) đạt 97,1%.
Giá trị trung bình của điểm F1 là 96,9%.
Độ chính xác (Precision) là 97,1%.
Độ phủ (Recall) đạt 97,1%.
Diện tích dưới đường cong ROC (AUC) là 0,976 (cao nhất so với các mô hình khác).
Nhận thấy rằng mô hình Neural Network là mô hình hiệu quả nhất dựa trên các chỉ số
đánh giá này.

b. Ma trận nhầm lẫn (Confusion Matrix) :

Hình 9.1 Bảng Ma trận nhầm lẫn Logistic Regerssion

*Nhận xét:
-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo không bị tiểu đường nhưng thực
tế là bị tiểu đường là khoảng 3,6%
-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo bị bệnh tiểu đường nhưng không
bị bệnh tiểu đường là 15,2%

Page | 28
Hình 9.2 Bảng ma trận nhầm lẫn Tree

*Nhận xét:
-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo không bị tiểu đường nhưng thực
tế là bị tiểu đường là khoảng 4.8%
-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo bị bệnh tiểu đường nhưng không
bị bệnh tiểu đường là 0%

Hình 9.3 Bảng ma trận nhầm lẫn SVM

*Nhận xét:
-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo không bị tiểu đường nhưng thực
tế là bị tiểu đường là khoảng 7.6%
-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo bị bệnh tiểu đường nhưng không
bị bệnh tiểu đường là 87.6%
Page | 29
Hình 9.4 Bảng ma trẫn nhầm lẫn Neutral Network

-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo không bị tiểu đường nhưng thực
tế là bị tiểu đường là khoảng 2.8%
-Tỉ lệ nhầm lẫn so với thực tế của người được dự báo bị bệnh tiểu đường nhưng không
bị bệnh tiểu đường là 3.8%
Kết luận phương pháp đánh giá ma trận nhầm lẫn
Phương pháp đánh giá Ma trận nhầm lẫn (Confusion Matrix) đánh giá hiệu suất của
mô hình dựa trên tỷ lệ các sai lầm loại 1 (False Positive) và loại 2 (False Negative).
Một mô hình tốt nhất sẽ có tỷ lệ sai lầm này thấp nhất.
Dựa vào 4 ma trận kết quả từ các mô hình, chúng ta có thể nhận thấy rằng mô hình
Neural Network là mô hình có tỷ lệ nhầm lẫn thấp nhất.
=>Đây là mô hình hiệu quả nhất
c.

Hình 10.0.5Đường cong ROC với biến y là 0

Page | 30
Hình 10.6 Đường cong ROC với y=1

-Nhận xét: Mô hình hiệu quả khi có FPR cao và TPR thấp( đường cong ROC càng
tiệm cận với điểm (0;1) thì mô hình càng hiệu quả.Trong hình thể hiện đường cong
ROC ta thấy được mô hình Neutral Network có đường cong ROC tiệm cận với điểm
(0;1) nhất nên mô hình này hiệu quả
Kết luận:Phương pháp Neutral Network là phương pháp tốt nhất
3.5 DỰ BÁO
-Sử dụng file diabetes_prediction_dataset-Forecast.xlsx là tập thử nghiệm để đi đến dự
đoán

Hình 11. Tập thử nghiệm

Page | 31
-Dự báo thử nghiệm cho phương pháp Neutral Network ta sử dụng Prediction

Hình 12. Mô hình dự đoán

Hình 13. Bảng dự đoán

Page | 32
Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
Nôi dung chương này, trình bày các vấn đề đánh giá kết quả của mô hình bao gồm các
nội dung:…

ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH :


-Nhóm làm đồ án đã tìm ra cách dự báo những dấu hiệu của bệnh tiểu đường dựa trên
phân tích cơ sở liệu diabetes prediction .Tập dữ liệu này được cung cấp bởi
Mohammed Mustafa đến từ Ấn Độ. Nhóm xây dựng dự báo nguy cơ mắc bệnh tiểu
đường dựa vào các thông tin như là giới tính, tuổi,tiền sử hút thuốc, bmi,...
Sau khi tiến hành lấy mẫu dữ liệu , huấn luyện dữ liệu và phân lớp dữ liệu bằng các
mô hình phân lớp khác nhau , từ đó dựa vào các phương pháp đánh giá mô hình để lựa
ra phương pháp phân lớp tối ưu nhất nhầm dự đoán nguy cơ bị tiểu đường

-Quá trình của nhóm diễn ra theo các bước:

1.Thu thập dữ liệu: Thu thập dữ liệu từ nguồn cung cấp Mohammed Mustafa từ Ấn
Độ. Điều này quan trọng để có dữ liệu đủ lớn và đại diện cho quá trình huấn luyện mô
hình.

2.Tiền xử lý dữ liệu: Tiền xử lý dữ liệu là bước quan trọng để loại bỏ dữ liệu nhiễu,
điền vào các giá trị thiếu, và chuẩn hóa dữ liệu nếu cần thiết. Điều này giúp đảm bảo
rằng dữ liệu sẽ làm việc tốt với các mô hình phân lớp.

3.Huấn luyện mô hình: Sử dụng các mô hình phân lớp khác nhau để huấn luyện trên
dữ liệu đã tiền xử lý. Các mô hình có thể bao gồm Tree, SVM,Logistic
Regression,Neutral Network, và nhiều mô hình khác.

4.Đánh giá mô hình: Sau khi huấn luyện, nhóm thường sẽ sử dụng các phương pháp
đánh giá như cross-validation, ROC curve, precision-recall curve và F1-score để đánh
giá hiệu suất của từng mô hình. Mục tiêu là chọn ra mô hình tốt nhất cho công việc dự
đoán nguy cơ mắc bệnh tiểu đường.

5.Phân loại tối ưu: Dựa trên kết quả đánh giá, nhóm sẽ lựa chọn mô hình phân lớp tối
ưu nhất để sử dụng trong việc dự đoán nguy cơ mắc bệnh tiểu đường.

Nhóm đã thực hiện các bước này cẩn thận và có kết quả đáng tin cậy, dự đoán nguy
cơ mắc bệnh tiểu đường có thể hữu ích trong việc phòng ngừa và quản lý bệnh tiểu
đường cho những người có nguy cơ.

Page | 33
-Theo kết quả từ bảng Evaluation Result, trong cả 3 trường hợp chia dữ liệu mẫu thành 50-
90%; 20-70%;50-66%, mô hình Neutral Network đều cho ra kết quả tốt nhất

Bảng 2 Bảng Evaluation Result

Tỉ lệ 50-90% 20-70% 50-66%


Tính chính xác 0.971 0.968 0.971
(CA)
Giá trị trung 0.968 0.966 0.968
bình điều hòa
(F1)
Độ chính 0.970 0.968 0.970
xác(Precision)
Độ phủ(Recall) 0.971 0.968 0.971
Diện tích 0.975 0.959 0.976
đường cong

Đánh giá bằng ma trận nhầm lẫn,thì mô hình Neutral Network cho ra kết quả sai lầm
loại 1 và sai lầm loại 2 là thấp nhất

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN


KẾT QUẢ ĐẠT ĐƯỢC :
-Mục tiêu chính của dự án chúng em là dự đoán nguy cơ mắc bệnh tiểu đường, nhằm
cung cấp thông tin quan trọng để hỗ trợ việc chẩn đoán và quản lý bệnh cho các bệnh
nhân. Dựa vào nền tảng lý thuyết, chúng em đã phát triển nhiều mô hình phân loại
khác nhau và kết hợp chúng với các phương pháp đánh giá mô hình để tìm ra phương
pháp tối ưu nhất. Cuối cùng, chúng em đã chọn mạng nơ-ron (Neural Network) là mô
hình tốt nhất, đạt độ chính xác cao là 97,1% và mức sai sót thấp nhất so với các
phương pháp khác. Điều này là một kết quả ấn tượng và quan trọng, vì nó có thể giúp
cải thiện khả năng dự đoán nguy cơ mắc bệnh tiểu đường và từ đó hỗ trợ quá trình
điều trị và quản lý bệnh cho những người có nguy cơ. Công trình này có tiềm năng để
mang lại lợi ích lớn trong lĩnh vực y học và nghiên cứu y tế. Tuy nhiên, chúng ta cũng
cần đảm bảo rằng dự án được thực hiện với độ tin cậy và tuân thủ đúng quy tắc, bảo vệ
thông tin cá nhân của người tham gia và tuân thủ các quy định và nguyên tắc đạo đức
trong nghiên cứu y học.

Page | 34
HƯỚNG PHÁT TRIỂN:

-Bằng cách sử dụng mô hình dự đoán nguy cơ bị tiểu đường dựa trên các yếu tố như
BMI, độ tuổi, lượng đường trong máu, tiền sử bệnh tim, và nhiều yếu tố khác, chúng ta
có thể thu thập nhiều thông tin quan trọng để nghiên cứu và phát triển các biện pháp
chữa trị cho bệnh nhân:

1.Dự đoán nguy cơ cá nhân: Xác định nguy cơ cá nhân dựa trên thông tin cá nhân để
tập trung chẩn đoán và điều trị cho những người có nguy cơ cao.

2.Phát hiện sớm và phòng ngừa: Cho phép bắt đầu biện pháp phòng ngừa và điều trị
sớm, bao gồm thay đổi lối sống, kiểm soát cân nặng, và kiểm tra đường huyết định kỳ.

3.Tối ưu hóa quản lý bệnh: Tùy chỉnh quản lý bệnh cho từng bệnh nhân bằng cách
điều chỉnh liều thuốc, chế độ ăn uống và lịch trình kiểm tra sức khỏe.

4.Nghiên cứu y tế: Sử dụng dữ liệu từ mô hình để nghiên cứu về yếu tố nguy cơ và
quan hệ giữa chúng, giúp cải thiện hiểu biết về tiểu đường và phát triển các biện pháp
chữa trị mới.

5.Tùy chỉnh chăm sóc sức khỏe: Tạo các chương trình chăm sóc sức khỏe tùy chỉnh
dựa trên nguy cơ và tình trạng cá nhân của từng bệnh nhân.

KẾT LUẬN
- Trong bối cảnh ngày nay, việc phát triển một mô hình dự đoán nguy cơ mắc bệnh
tiểu đường dựa trên các yếu tố như BMI, độ tuổi, lượng đường trong máu, tiền sử bệnh
tim và các yếu tố khác không chỉ là một bước tiến quan trọng trong lĩnh vực y học mà
còn mang lại hy vọng lớn cho sức khỏe cộng đồng. Mô hình này không chỉ là một
công cụ dự đoán mà còn là chiếc chìa khóa mở cánh cửa cho những biện pháp phòng
ngừa và quản lý bệnh tốt hơn.
- Dựa trên học máy và trí tuệ nhân tạo, chúng ta có thể ước lượng nguy cơ mắc bệnh
tiểu đường của mỗi người, từ đó đưa ra những biện pháp phòng ngừa và điều chỉnh lối
sống để ngăn ngừa hoặc kiểm soát bệnh tốt hơn. Sự kết hợp giữa dữ liệu y tế và công
nghệ thông tin không chỉ mang lại lợi ích cho bệnh nhân mà còn giúp các nhà nghiên
cứu và chuyên gia y tế trong việc khám phá, đánh giá xu hướng, và phát triển các
phương pháp chữa trị hiện đại.
- Mô hình này còn giúp tối ưu hóa nguồn lực y tế, giúp hệ thống y tế dự phòng và xử
lý tình hình sức khỏe của cộng đồng một cách hiệu quả hơn. Ngoài ra, nó còn thúc đẩy
sự hợp tác của cộng đồng, bác sĩ và chuyên gia y tế trong việc nâng cao nhận thức và
giáo dục về tiểu đường, từ việc thay đổi lối sống đến việc duy trì chế độ ăn uống lành
mạnh và vận động thường xuyên.

Page | 35
Như vậy, việc xây dựng mô hình dự đoán nguy cơ mắc bệnh tiểu đường không chỉ là
một bước tiến vượt bậc trong y học mà còn là minh chứng cho sức mạnh của khoa học
dữ liệu và trí tuệ nhân tạo trong việc cải thiện chất lượng cuộc sống và sức khỏe của
cộng đồng. Sự kết hợp giữa kiến thức y tế và công nghệ thông tin không chỉ là triển
vọng cho tương lai mà còn đang giúp chúng ta tiến tới tầm cao mới của y học hiện đại.

Page | 36
TÀI LIỆU THAM KHẢO

Page | 37

You might also like