KHDL

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ

ĐỒ ÁN MÔN HỌC
ĐỀ TÀI:
PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ
DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE
Học phần: Khoa Học Dữ Liệu

Nhóm Sinh Viên:
1. NGUYỄN VĂN A
2. NGUYỄN VĂN B
3. NGUYỄN VĂN C
4. NGUYỄN VĂN D
5. NGUYỄN VĂN E
Chuyên Ngành: TÀI CHÍNH
Khóa: K46
Giảng Viên: TS. Đặng Ngọc Hoàng Thành

TP. Hồ Chí Minh, Ngày xx tháng xx năm 2023
1
MỤC LỤC
MỤC LỤC..........................................................................................................................1
CHƯƠNG 1. TỔNG QUAN.............................................................................................2
1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu............................................................2
1.2. Giới Thiệu Về Python và Phần Mềm Orange...........................................................2
1.3. Lý Do Chọn Lựa Đề Tài............................................................................................2
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU..................................................3
2.1. Các Mô Hình Phân Lớp Dữ Liệu..............................................................................3
2.1.1. Mô Hình Logistic Regression.............................................................................3
2.1.2. Mô Hình Decision Tree......................................................................................3
2.1.3. Mô Hình Support Vector Machine.....................................................................3
2.1.4. Mô Hình Neural Network...................................................................................3
2.2. Quy Trình Phân Lớp Dữ Liệu...................................................................................3
2.2.1. Tiền Xử Lý Dữ Liệu...........................................................................................3
2.2.2. Phân Lớp Dữ Liệu...............................................................................................3
2.2.3. Đánh Giá Tính Hiệu Quả....................................................................................3
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM...........................................................4
3.1. Bộ Dữ Liệu................................................................................................................4
3.2. Các Kết Quả Thực Nghiệm.......................................................................................4
3.3. Phân Tích và Đánh Giá.............................................................................................4
CHƯƠNG 4. KẾT LUẬN.................................................................................................5
4.1. Các Kết Quả Đạt Được..............................................................................................5
4.2. Những Hạn Chế và Hướng Phát Triển......................................................................5
TÀI LIỆU THAM KHẢO.................................................................................................6
2
CHƯƠNG 1. TỔNG QUAN
1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu
1.2. Giới Thiệu Về Python và Phần Mềm Orange
1.3. Lý Do Chọn Lựa Đề Tài
3
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU
2.1. Các Mô Hình Phân Lớp Dữ Liệu

2.1.1. Mô Hình Logistic Regression
2.1.2. Mô Hình Decision Tree
2.1.3. Mô Hình Support Vector Machine
2.1.4. Mô Hình Neural Network
2.2. Quy Trình Phân Lớp Dữ Liệu

2.2.1. Tiền Xử Lý Dữ Liệu
Trước hết ta tiến hành xử lý dữ liệu bằng các công cụ trong phần mềm Orange:
Các bước tiến hành xử lý dữ liệu
4
Nạp dữ liệu Airline passenger satisfaction.csv vào file
Để xử lý các mẫu có “Missing Value”, ta tiến hành thực hiện Preprocess, chọn Impute
Missing Values, sau đó chọn Average/Most frequent để thay thế những mẫu có “Missing
Value” thành giá trị trung bình của chuỗi.
5
Xử lý các mẫu có mising value
Để quan sát dữ liệu bảng bằng cách nối File Airline passenger satisfaction vào Data table:
khi double click vào Data table, ta thấy có 0% dữ liệu bị thiếu (no missing data).
Quan sát dữ liệu đã xử lý trên Table

Sử dụng Data Sampler phân chia dữ liệu ban đầu thành 2 tệp độc lập theo tỷ lệ 70:30, với
tên lần lượt là Data train và Data forecast. Lấy 70% mẫu dữ liệu từ file dữ liệu đã được
xử lý tiền dữ liệu trước đó. Chọn Save Data để lưu dữ liệu về dưới file Airline passenger
satisfaction 70% fbs.xlsx.
Lấy 70% dữ liệu từ Airline passenger satisfaction.csv

6
Dữ liệu 70% của file Airline passenger satisfaction.csv trên Table
Kết quả tập dữ liệu sau khi lấy mẫu có 90916 mẫu dữ liệu, 23 biến và không tồn tại dữ
liệu bị lỗi.
- Tiếp tục sử dụng Data Sampler để thực hiện lấy mẫu dữ liệu. Từ mẫu dữ liệu đã được
xử lý trước đó ta chọn Fixed proportion of data chỉnh xuống lấy 30% mẫu dữ liệu, hoàn
thành bằng nút chọn sample data. Chọn save data để lưu dữ liệu dưới dạng file Airline
passenger satisfaction 30% fbs.xlsx.
Lấy 30% mẫu dữ liệu từ file Airline passenger satisfaction.csv
7
Dữ liệu 30% của file Airline passenger satisfaction.csv trên Table
Kết quả của tập dữ liệu sau khi lấy 30% sẽ có 38964 mẫu dữ liệu, 23 biến và không tồn
tại dữ liệu bị lỗi.
2.2.2. Phân Lớp Dữ Liệu
Sử dụng Airline passenger satisfaction 70%.xlsx là tập huấn luyện, chọn biến
“satissfaction” làm biến mục tiêu “Target”
8
Tiến hành so sánh qua Test and Score, Ma trận nhầm lẫn, phân tích ROC để tìm ra
phương pháp tốt nhất trong 4 phương pháp (Logistic Regression, SVM, Decision Tree và
Neural Netwwork), từ đó phục vụ cho việc dự báo file Data forecast với độ chính xác cao
nhất.
★ Chọn tỷ lệ lấy mẫu Cross Validation

Tại bảng Test and Score, chọn tỷ lệ để lấy mẫu. Sử dụng công cụ Random Sampling để
thu được chỉ số đẹp nhất.
9
10
Nhận xét: Evaluation results cho ta biết được kết quả định lượng của 4 mô hình Hồi quy
Logistic (Logistic regression), Cây quyết định (Decision Tree), SVM (Support Vector
Machines) và Neural Netwwork với giá trị nào là cao nhất. Khi xem xét các chỉ số từ việc
lựa chọn lấy mẫu ngẫu nhiên qua các trường hợp trên ta thấy mô hình Neural Netwwork
11
ở trường hợp chia lấy mẫu dữ liệu theo kiểu Cross Validation đạt được số liệu tốt nhất là
10 lớp (10-66%) và 20 lớp (50-90%) với:
● Diện tích dưới đường cong (AUC) là: 0.993
● Tính chính xác (CA): 0.957
● Giá trị trung bình điều hòa (F1): 0.957
● Độ chính xác (Precision): 0.957
● Độ phủ (Recall): 0,912
12
13
Nhận xét: Kết quả phân tích từ ma trận nhầm lẫn (Confusion Matrix) chỉ số cần quan sát
là sai lầm loại 1 và sai lầm loại 2. Mô hình được đánh giá tốt nhất là mô hình có tỷ lệ sai
lầm loại 1 và sai lầm loại 2 thấp nhất. Dựa vào kết quả của ma trận nhầm lẫn thấy được
mô hình Neural Netwwork là mô hình có tỷ lệ sai lầm nhỏ nhất với tỷ lệ sai lầm loại 1 là
4,1% và tỷ lệ sai lầm loại 2 là 4,5%. Do đó phương pháp Neural Netwwork là phù hợp
nhất.
 ROC Analysis
14
2.2.3. Đánh Giá Tính Hiệu Quả
15
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM
3.1. Bộ Dữ Liệu
3.2. Các Kết Quả Thực Nghiệm
3.3. Phân Tích và Đánh Giá
16
CHƯƠNG 4. KẾT LUẬN
4.1. Các Kết Quả Đạt Được
4.2. Những Hạn Chế và Hướng Phát Triển
17
TÀI LIỆU THAM KHẢO
1. Batóg, B., Wawrzyniak, K. (2022). Comparison of Influence of Various Proposals of

Transforming Nominants into Stimulants on Linear Ordering and Grouping of Listed
Companies. In: Jajuga, K., Dehnel, G., Walesiak, M. (eds) Modern Classification and
Data Analysis. Springer, Cham.
2. Speller, J., Staerk, C., Gude, F. et al. (2023). Robust gradient boosting for generalized
additive models for location, scale and shape. Adv Data Anal Classif.
3. Tên tác giả (năm xuất bản). Tên bài báo. Tên sách/tạp chí.
18

KHDL

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

KHDL

Uploaded by

Copyright:

Available Formats

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

Học phần: Khoa Học Dữ Liệu

Giảng Viên: TS. Đặng Ngọc Hoàng Thành

1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu

1.2. Giới Thiệu Về Python và Phần Mềm Orange

1.3. Lý Do Chọn Lựa Đề Tài

2.1. Các Mô Hình Phân Lớp Dữ Liệu

2.1.2. Mô Hình Decision Tree

2.1.3. Mô Hình Support Vector Machine

2.1.4. Mô Hình Neural Network

2.2. Quy Trình Phân Lớp Dữ Liệu

Các bước tiến hành xử lý dữ liệu

Quan sát dữ liệu đã xử lý trên Table

Lấy 70% dữ liệu từ Airline passenger satisfaction.csv

Lấy 30% mẫu dữ liệu từ file Airline passenger satisfaction.csv

★ Chọn tỷ lệ lấy mẫu Cross Validation

3.2. Các Kết Quả Thực Nghiệm

3.3. Phân Tích và Đánh Giá

4.1. Các Kết Quả Đạt Được

4.2. Những Hạn Chế và Hướng Phát Triển

1. Batóg, B., Wawrzyniak, K. (2022). Comparison of Influence of Various Proposals of

You might also like