18CN3-Nhóm 6

Trường Đại học Kiến Trúc Hà Nội
Khoa Công Nghệ Thông Tin
Đề tài: KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG
DO VIRUS COVID-19 BẰNG THUẬT TOÁN PHÂN CỤM K-MEANS
Giảng viên hướng dẫn: Đoàn Trung Sơn
Nguyễn Thị Khánh Trâm
Sinh viên thực hiện: Nguyễn Văn Thản

01 Chương 1
TỔNG QUAN ĐỀ TÀI
Chương 2
02
Nội dung chính CƠ SỞ LÝ THUYẾT
03 Chương 3
CHƯƠNG TRÌNH
04 Chương 4
KẾT LUẬN
I. TỔNG QUAN ĐỀ TÀI
Mục tiêu đề tài Đối tượng và phương pháp Ý Nghĩa Đề Tài.

nghiên cứu
Mục Tiêu Đề Tài:
Sử dụng phương pháp và nghiên cứu hồi
cứu với sự hỗ trợ chuyên môn của các bác sĩ
chuyên khoa, đề tài tiến hành nghiên cứu trên
cơ sở thuật toán phân cụm trong khai phá dữ
liệu.
Đối tượng và phương pháp nghiên cứu
Đối tượng nghiên cứu:

- Nghiên cứu thuật toán k-means
- Tình hình dịch covid-19 trên 63 tỉnh thành của Việt Nam
Phương pháp nghiên cứu:

Sử dụng phương pháp và nghiên cứu hồi cứu với sự hỗ trợ
chuyên môn của các bác sĩ chuyên khoa, đề tài tiến hành
nghiên cứu trên cơ sở thuật toán phân cụm trong khai phá dữ
liệu.
Ý Nghĩa Đề Tài
Ý nghĩa thực tiễn Ý nghĩa khoa học
- Đánh giá tỷ lệ nhiễm , chết do virus và - Với sự trợ giúp của máy tính, đề tài đóng
phát hiện bệnh góp một biện pháp thực hiện hỗ trợ các cán
- Góp phần chuẩn đoán sớm, điều trị bộ y tế đánh giá bệnh cho bệnh nhân.
đúng cho bệnh nhân

Cơ sở dữ liệu Y khoa Khái niệm về khai phá dữ
liệu
II.CƠ SỞ LÝ THUYẾT
Kỹ thuật phân cụm trong Thuật Toán K-

Khai phá dữ liệu Means
Cơ sở dữ liệu Y khoa
Đại dịch COVID-19 là một đại dịch bệnh truyền nhiễm với tác nhân là virus SARS-
CoV-2, đang diễn ra trên phạm vi toàn cầu.Khởi nguồn vào tháng 12 năm 2019 với tâm
dịch đầu tiên được ghi nhận tại thành phố Vũ Hán thuộc miền Trung Trung Quốc, bắt
nguồn từ một nhóm người mắc viêm phổi không rõ nguyên nhân. Các nhà khoa học
Trung Quốc đã tiến hành nghiên cứu và phân lập được một chủng loại corona virus
mới, được Tổ chức Y tế Thế giới lúc đó tạm thời gọi là 2019-nCoV, có trình tự gen
giống với SARS-CoV trước đây với mức tương đồng lên tới 79,5%.
Khái niệm về khai phá dữ liệu
Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập
hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải
quyết các vấn đề nhờ phân tích dữ liệu. Các MCU khai phá dữ liệu cho
phép các doanh nghiệp có thể dự đoán được xu hướng tương lai.
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu
chuyên sâu cũng như các công nghệ tính toán. Hơn nữa, Data Mining
không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để
chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.
Kỹ thuật phân cụm trong Khai phá dữ liệu
Phân cụm là kỹ thuật rất quan trọng
trong khai phá dữ liệu, nó thuộc lớp các
phương pháp Unsupervised Learning
trong Machine Learning. Có rất nhiều
định nghĩa khác nhau về kỹ thuật này,
nhưng về bản chất ta có thể hiểu phân
cụm là các qui trình tìm cách nhóm các
đối tượng đã cho vào các cụm
(clusters), sao cho các đối tượng trong
cùng 1 cụm tương tự (similar) nhau và
các đối tượng khác cụm thì không
tương tự (Dissimilar) nhau.
Thuật Toán K-Means
K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng
chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là
số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các
đối tượng đến tâm nhóm (centroid ) là nhỏ nhất.

Thuật toán K-Means thực hiện qua các bước chính
sau:
1. Chọn ngẫu nhiên K tâm
(centroid) cho K cụm (cluster).
Mỗi cụm được đại diện bằng các
tâm của cụm.
2. Tính khoảng cách giữa các đối
tượng (objects) đến K tâm
(thường dùng khoảng cách
Euclidean)
3. Nhóm các đối tượng vào nhóm
gần nhất
4. Xác định lại tâm mới cho các
nhóm
5. Thực hiện lại bước 2 cho đến
khi không có sự thay đổi nhóm
nào của các đối tượng.

III. CHƯƠNG TRÌNH
WEKA là một phần mềm khai tháᴄ dữ liệu mã
nguồn mở đượᴄ phát triển tại Đại họᴄ Wiᴄhita.
Giống như RapidMiner, Weka không ᴄó mã hóa
ᴠà ѕử dụng GUI đơn giản.
Sử dụng Weka, bạn ᴄó thể gọi trựᴄ tiếp ᴄáᴄ
thuật toán họᴄ máу hoặᴄ nhập ᴄhúng bằng mã
Jaᴠa. Nó ᴄung ᴄấp một loạt ᴄáᴄ ᴄông ᴄụ như
trựᴄ quan hóa, tiền хử lý, phân loại, phân ᴄụm,
ᴠ.ᴠ.
IV. Kết Luận
Sau thời gian thực hiện, em đã thực hiện được một số kết quả sau:
• Tìm hiểu được về khai phá dữ liệu
• Vai trò của khai phá dữ liệu
• Tìm hiểu về thuật toán K-Means
• Tìm hiểu về K-means giải quyết bài toán phân cụm người mắc bệnh và chết
trên từng tỉnh thành.
Em đã tìm hiểu lý thuyết xác suất đến thuật toán K-means . Tuy độ chính xác còn
chưa cao do bản chất của phương pháp cũng như tập dữ liệu chưa đủ lớn mong
thầy cô giúp đỡ để bài toán của chúng em được hoàn thiện hơn.
Thank For Watching

18CN3-Nhóm 6

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

18CN3-Nhóm 6

Uploaded by

Copyright:

Available Formats

Trường Đại học Kiến Trúc Hà Nội

Khoa Công Nghệ Thông Tin

Đề tài: KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG

DO VIRUS COVID-19 BẰNG THUẬT TOÁN PHÂN CỤM K-MEANS

Giảng viên hướng dẫn: Đoàn Trung Sơn

Nguyễn Thị Khánh Trâm

Sinh viên thực hiện: Nguyễn Văn Thản

Mục tiêu đề tài Đối tượng và phương pháp Ý Nghĩa Đề Tài.

Đối tượng nghiên cứu:

Phương pháp nghiên cứu:

đúng cho bệnh nhân

Kỹ thuật phân cụm trong Thuật Toán K-

đối tượng đến tâm nhóm (centroid ) là nhỏ nhất.

You might also like