Duancuoiky - KHDL 1

BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC UEH

TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC
DỰ ÁN CUỐI KÌ
ĐỀ TÀI: PHÂN LỚP VÀ DỰ BÁO BỘ DỮ LIỆU IRIS
Môn học: Khoa học dữ liệu

GVHD: Thầy VÕ THÀNH ĐỨC
LHP: 22D1INF50905909
Nhóm sinh viên thực hiện:
 NGUYỄN THỊ THÙY LINH
 NGUYỄN THỊ THẢO LY
 NGUYỄN CÔNG MINH
 NGUYỄN NỮ PHƯƠNG NHIÊN
 BÙI PHẠM DIỄM TRINH
TP HCM, ngày 27 tháng 03 năm 2022

MỤC LỤC
LỜI CẢM ƠN..................................................................................................................................1
I. GIỚI THIỆU:..............................................................................................................................1
1.1. Lý do chọn đề tài...................................................................................................................2
1.1.1. Mục tiêu nghiên cứu:......................................................................................................2
1.1.2. Đối tượng nghiên cứu:...................................................................................................2
1.1.3. Câu hỏi nghiên cứu:.......................................................................................................2
1.2. Một số phương pháp phân lớp.............................................................................................2
II. THU THẬP VÀ LÀM SẠCH DỮ LIỆU.................................................................................3
Mô tả tổng quát dữ liệu...............................................................................................................3
Sơ lược về các thuộc tính và xác định biến mục tiêu...............................................................3
Các bước và giải pháp làm sạch dữ liệu...................................................................................4
III. KIỂM ĐỊNH MÔ HÌNH.........................................................................................................5
 Test and Score.......................................................................................................................6
 Ma trận nhầm lẫn.................................................................................................................7
+ Hồi quy Logistic Regression...............................................................................................7
+ Tree.......................................................................................................................................7
+ SVM......................................................................................................................................8
IV. ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH..............................................................................8
Dự báo..........................................................................................................................................9
V. TRIỂN KHAI MÔ HÌNH.......................................................................................................10
5.1 Mục tiêu của việc triển khai mô hình:...............................................................................10
5.1.1. Ứng dụng trong y khoa:...............................................................................................10
5.1.2: Ứng dụng trong kinh tế:...............................................................................................11
5.2. Hiệu quả kinh tế của mô hình:..........................................................................................11
VI. ĐÁNH GIÁ.............................................................................................................................12
1
LỜI CẢM ƠN
Nhóm em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy VÕ THÀNH ĐỨC,
giảng viên bộ môn Khoa học dữ liệu của trường Đại học Kinh Tế TP. HCM. Trong quá
trình tìm hiểu và học tập, nhóm em đã nhận được sự giảng dạy và hướng dẫn rất tận tình,
tâm huyết của thầy. Thầy đã giúp nhóm em tích lũy thêm nhiều kiến thức hay và bổ ích.
Tuy nhiên, kiến thức về bộ môn của nhóm em còn những hạn chế nhất định. Trong
quá trình làm đề tài dự án khó tránh khỏi sai sót, rất mong thầy bỏ qua. Đồng thời do trình
độ lý luận cũng như kinh nghiệm thực tiễn còn hạn chế nên bài báo cáo không thể tránh
khỏi những thiếu sót, nhóm em rất mong nhận được ý kiến đóng góp của thầy để bài dự
án của nhóm em được hoàn thiện hơn.
Một lần nữa, nhóm em xin trân trọng cảm ơn sự quan tâm giúp đỡ của thầy trong
quá trình làm bài dự án này. Kính chúc thầy luôn dồi dào sức khỏe, niềm tin để tiếp tục
thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau.
Nhóm em xin chân thành cảm ơn!
I. GIỚI THIỆU:
Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin ngày nay
được áp dụng hầu hết trong mọi lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệu
được lưu trữ với kích thước tăng lên không ngừng. Đây chính là điều kiện tốt cho việc
khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lập bảng biểu
và khai phá dữ liệu.
Khai phá dữ liệu là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết như xác
xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩn trong các kho dữ liệu có
kích thước lớn mà người dùng khó có thể nhận biết bằng những kỹ thuật thông
thường. Bộ dữ liệu Iris dataset chứa đựng ý nghĩa về y khoa và kinh tế rất lớn, nếu áp
dụng khai phá dữ liệu trong hai lĩnh vực này sẽ mang lại nhiều ý nghĩa. Nó sẽ cung
cấp những thông tin quý giá nhằm hỗ trợ trong việc dự báo để chế tạo thuốc hay ứng
dụng trong kinh tế.
Để minh chứng cho những lợi ích mà việc dự báo mang lại, nhóm em quyết
định thực hiện dự án “Phân lớp và dự báo bộ dữ liệu Iris” để thử nghiệm và đánh
giá. Ứng dụng kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu nhằm xây dựng hệ
thống đánh giá là một trong những hướng nghiên cứu chính của dự án.
2
Hình 1: Quá trình khai phá dữ liệu
1.1. Lý do chọn đề tài
1.1.1. Mục tiêu nghiên cứu:
Dùng dự báo phân lớp để phân loại các loài hoa nhằm mục đích ứng dụng trong sản
suất y khoa và tối đa hóa năng suất, lợi nhuận kinh tế.
1.1.2. Đối tượng nghiên cứu:
Sử dụng bộ dữ liệu Iris dataset trên phần mềm Orange rồi tiến hành dự án.
1.1.3. Câu hỏi nghiên cứu:
 Với 1 bông hoa diên vĩ (iris), liệu có thể phân loại nó thành setosa, versicolor
hay virginica dựa trên những phép đo không?
 Nếu việc phân loại các loài chỉ mang tính chất tương đối thì tỉ lệ dự báo nhầm
lẫn giữa các loài có cao không và nó có ảnh hưởng nhiều không?
 Ứng dụng vào thực tiễn sau khi phân loại hoa Iris là gì?
1.2. Một số phương pháp phân lớp.
Logistic Regression
Hồi quy logistic là một phương pháp phân tích thống kê để dự đoán một kết quả nhị phân,
chẳng hạn như có hoặc không, dựa trên các quan sát trước đó của một tập dữ liệu. Mô
hình hồi quy logistic dự đoán một biến dữ liệu phụ thuộc bằng cách phân tích mối quan
hệ giữa một hoặc nhiều biến độc lập hiện có.
Decision Tree
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ
đi kèm nhằm hỗ trợ quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và
tổng quát hóa tập dữ liệu cho trước.
3
SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các
vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng
một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.
SVM (Support Vector Machine)
Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến
các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.
II. THU THẬP VÀ LÀM SẠCH DỮ LIỆU

Mô tả tổng quát dữ liệu
Tập dữ liệu hoa Iris hoặc tập dữ liệu Iris của Fisher là tập dữ liệu đa biến được giới thiệu
bởi nhà thống kê và nhà sinh vật học người Anh Ronald Fisher trong bài báo năm 1936
Việc sử dụng nhiều phép đo trong các vấn đề phân loại như một ví dụ về phân tích phân
biệt tuyến tính. Đôi khi nó được gọi là tập dữ liệu Iris của Anderson vì Edgar Anderson
đã thu thập dữ liệu để định lượng sự biến đổi hình thái của hoa Iris của ba loài liên quan.
Hai trong số ba loài được thu thập ở Bán đảo Gaspé "tất cả từ cùng một đồng cỏ, và được
chọn vào cùng một ngày và được đo cùng lúc bởi cùng một người với cùng một bộ máy".
Bộ dữ liệu bao gồm 3 loài Iris (Iris setosa, Iris virginica và Iris Verscolor), trong đó mỗi
loài có 50 mẫu.
Sơ lược về các thuộc tính và xác định biến mục tiêu

Bộ dữ liệu bao gồm 150 quan sát và 5 thuộc tính với 4 thuộc tính kiểu số:
Độ dài đài hoa (sepal length)
Độ rộng đài hoa (sepal width)
Độ dài cánh hoa (petal length)
4
Độ rộng cánh hoa (petal width)
Và 1 thuộc tính còn lại là tên của loài hoa Iris (có 3 loài tất cả: Iris Setosa, Iris Versicolor,
Iris Virginica) được dùng làm biến mục tiêu để xác định nó thuộc loài nào trong 3 loại
trên.
Các bước và giải pháp làm sạch dữ liệu
Role” của các thuộc tính:
Từ bộ dữ liệu “Iris” ban đầu, ta có được “Type” và “Role” của 5 thuộc tính như sau:
Đến đây, ta thực hiện quá trình xử lý bằng cách điều chỉnh các thuộc tính sang“Type” và
“Role” sao cho hợp lý. Cụ thể:
Vì ở đây ta thực hiện xử lý dữ liệu nhằm mục đích dự báo cho biến đầu ra, cho nên ta sẽ
chuyển “Role” của thuộc tính iris từ Feature => Target.
Các thuộc tính của bộ dữ liệu đều được đưa vào mô hình nên “Role” của chúng vẫn giữ
nguyên “ feature”
“Missing Value” trong bộ dữ liệu:
5
Để xử lý các mẫu có “Missing Value”, ta tiến hành thực hiện Preprocess, chọn Impute
Missing Values, sau đó chọn Average/Most frequent nhằm mục đích điền những mẫu này
bằng các giá trị trung bình hoặc các giá trị có tần số xuất hiện thường xuyên. Sau khi thực
hiện, ta có kết quả như sau:
Kết quả thu được ta tiến hành lưu giữ ở định dạng Excel, để từ đó ta tiếp tục lấy dữ liệu
kết quả này tiến hành phân lớp.
III. KIỂM ĐỊNH MÔ HÌNH

- Đầu tiên, ta sẽ tiến hành nghiên cứu dữ liệu để tìm hiểu tất cả các loài thuộc
tính khác nhau bằng cách sử dụng widget là Data table.
6
- Ngoài ra, còn có thể sử dụng widget Distributions – dữ liệu các thuộc tính ở
đây đã được phân phối theo biến mục tiêu một cách rất rõ ràng và dễ nhìn qua
biểu đồ cột.
Ví dụ: Đối với thuộc tính độ dài đài hoa, loài sentosa phân bổ từ 4-6 ( phần lớn là 5cm), loài
versicolor phân bổ từ 5-7 và loài virginica phân bổ từ 5-8
 Test and Score
7
Nhận xét kết quả:
Mô hình Tree có chỉ số AUC là 0.957 và Precision là 0.940
Mô hình SVM có chỉ số AUC là 0.998 và Precision là 0.966
Mô hình Logistic Regression có chỉ số AUC là 0.997 và Precision là 0.965
→ Vậy mô hình tốt nhất ở đây là SVM vì có chỉ số AUC và Precision cao nhất trong 3
mô hình.
Tuy nhiên, để có thêm căn cứ về kiểm định mô hình nào là phù hợp nhất ta dùng ma trận
nhầm lẫn (Confusion Matrix)
 Ma trận nhầm lẫn

+ Hồi quy Logistic Regression
→ Ta thấy được tỉ lệ dự đoán đúng giữa hai loài versicolor và virginica lần lượt là 96% và
93.5% . Mặt khác, ta thấy tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là
6.5% và ngược lại là 4.0%.
+ Tree
8
→ Ta thấy được tỉ lệ dự đoán đúng giữa hai loài versicolor và virginica lần lượt là 90.5%
và 91.4% . Mặt khác, ta thấy tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là
8.6% và ngược lại là 8.7%.
+ SVM
→ Ta thấy được tỉ lệ dự đoán đúng giữa hai loài versicolor và virginica lần lượt là 94.7%
và 95.1% . Mặt khác, ta thấy tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là
4.9% và ngược lại là 5.3%
֍ Vì loài virsicolor là loài có độc nên sự nhầm lẫn khi thực tế là loài virsicolor nhưng
được dự đoán là virginica sẽ đưa ra kết luận sai có hại. Từ bảng ma trận nhầm lẫn ta thấy
mô hình SVM có tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là thấp nhất
(4.9%) → Mô hình SVM là tốt nhất.
IV. ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH

* Qua các ma trận nhầm lẫn của các phương pháp phân lớp ta thấy được phương SVM tốt
nhất trong bộ dữ liệu này vì có tỉ lệ dự đoán sai lệch thấp nhất và ta sẽ dùng phương pháp
SVM để phân lớp dữ liệu.
* Bên cạnh đó, chúng ta quan tâm đến AUC và Precision trong Test and Score. Từ bảng
kết quả => mô hình SVM là tốt nhất trong 3 mô hình vì có chỉ số AUC lớn nhất (0.998)
và có độ chính xác Precision cao nhất (0.966).
9
Dự báo
10
Với mô hình SVM ta có: AUC = 1 chứng tỏ mô hình rất tốt.
Ta lưu lại bảng dự báo dưới tên “Iris(pre)_end”
V. TRIỂN KHAI MÔ HÌNH

5.1 Mục tiêu của việc triển khai mô hình:
5.1.1. Ứng dụng trong y khoa:
Để dựa trên những thuộc tính của 3 loài hoa đã phân lớp từ đó ứng dụng vào trong
sản xuất y khoa. Xét ma trận nhầm lẫn của mô hình SVM:
Trên thực tế, công dụng của loài hoa Iris là dùng để làm thuốc chữa bệnh ngoài da,
đau lưng, cảm mạo, khó thở,…(trừ loài Versicolor vì nó có độc)
Dựa vào ma trận nhầm lẫn ta thấy dự báo nhầm lẫn là loài verginica => dự báo có
hại. Ngược lại là dự báo không có hại.
11
5.1.2: Ứng dụng trong kinh tế:
 Để dựa trên những thuộc tính của 3 loài hoa đã phân lớp từ đó ứng dụng vào trong
sản xuất kinh tế. Do có mùi thơm như hoa violet nên được thêm vào làm nước hoa và
rượu thơm. Đồng thời, hoa diên vĩ còn mang lại giá trị kinh tế cao.
 Để một loài hoa đem lại hiệu quả kinh tế cao nhất trước tiên cần phải đáp ứng điều
kiện sống của chúng với nhiều nhu cầu, chức năng cơ bản của loài thực vật. Nhu cầu
cơ bản của loài thực vật đóng vai trò quan trọng đối với sự sống còn của nó (ví dụ,
nhu cầu cần oxy, nước, chất dinh dưỡng, ánh sáng, nhiệt độ,...)
Ví dụ: Loài Setosa
 Điều kiện sống của Setosa là thích nơi ẩm ướt, có bóng râm, ít ánh nắng mặt trời.
Độ pH của đất <6.8, giàu chất dinh dưỡng.
5.2. Hiệu quả kinh tế của mô hình:
Phân lớp các loài hoa dựa trên thuộc tính của mỗi loài đã giúp cho người nông dân
trồng hoa và các nhà nghiên cứu sinh học, sản xuất có thể nhận biết ra môi trường sống
thích hợp của từng loài. Từ đó giúp tăng năng suất và chất lượng cây trồng. Bên cạnh đó,
việc phân lớp các loài hoa Iris cũng giúp cho người trồng tiết kiệm chi phí chăm sóc và
tối đa hóa lợi nhuận.
12
VI. ĐÁNH GIÁ
ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN
Họ và tên Nội dung đóng Tỷ lệ đóng Ghi chú
góp góp
NGUYỄN THỊ THÙY LINH Phần I, II 100% Làm PPT
NGUYỄN THỊ THẢO LY Phần II,III 100% Thuyết trình
NGUYỄN CÔNG MINH Phần III, IV 100% Tìm kiếm tài liệu
NGUYỄN NỮ PHƯƠNG NHIÊN Phần IV, V 100% Chạy orange
BÙI PHẠM DIỄM TRINH Phần IV, V 100% Tổng hợp bài
13

Duancuoiky - KHDL 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Duancuoiky - KHDL 1

Uploaded by

Copyright:

Available Formats

BỘ GIÁO DỤC & ĐÀO TẠO

TRƯỜNG ĐẠI HỌC UEH

Môn học: Khoa học dữ liệu

TP HCM, ngày 27 tháng 03 năm 2022

II. THU THẬP VÀ LÀM SẠCH DỮ LIỆU

Sơ lược về các thuộc tính và xác định biến mục tiêu

III. KIỂM ĐỊNH MÔ HÌNH

 Test and Score

 Ma trận nhầm lẫn

IV. ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH

V. TRIỂN KHAI MÔ HÌNH

You might also like