You are on page 1of 19

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH


TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ


ĐỒ ÁN MÔN HỌC
ĐỀ TÀI:
PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ
DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE

Học phần: Khoa Học Dữ Liệu


Nhóm Sinh Viên:
1. NGUYỄN VĂN A
2. NGUYỄN VĂN B
3. NGUYỄN VĂN C
4. NGUYỄN VĂN D
5. NGUYỄN VĂN E
Chuyên Ngành: TÀI CHÍNH
Khóa: K46

Giảng Viên: TS. Đặng Ngọc Hoàng Thành


TP. Hồ Chí Minh, Ngày xx tháng xx năm 2023

1
MỤC LỤC

MỤC LỤC..........................................................................................................................1
CHƯƠNG 1. TỔNG QUAN.............................................................................................2
1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu............................................................2
1.2. Giới Thiệu Về Python và Phần Mềm Orange...........................................................2
1.3. Lý Do Chọn Lựa Đề Tài............................................................................................2
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU..................................................3
2.1. Các Mô Hình Phân Lớp Dữ Liệu..............................................................................3
2.1.1. Mô Hình Logistic Regression.............................................................................3
2.1.2. Mô Hình Decision Tree......................................................................................3
2.1.3. Mô Hình Support Vector Machine.....................................................................3
2.1.4. Mô Hình Neural Network...................................................................................3
2.2. Quy Trình Phân Lớp Dữ Liệu...................................................................................3
2.2.1. Tiền Xử Lý Dữ Liệu...........................................................................................3
2.2.2. Phân Lớp Dữ Liệu...............................................................................................3
2.2.3. Đánh Giá Tính Hiệu Quả....................................................................................3
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM...........................................................4
3.1. Bộ Dữ Liệu................................................................................................................4
3.2. Các Kết Quả Thực Nghiệm.......................................................................................4
3.3. Phân Tích và Đánh Giá.............................................................................................4
CHƯƠNG 4. KẾT LUẬN.................................................................................................5
4.1. Các Kết Quả Đạt Được..............................................................................................5
4.2. Những Hạn Chế và Hướng Phát Triển......................................................................5
TÀI LIỆU THAM KHẢO.................................................................................................6

2
CHƯƠNG 1. TỔNG QUAN

1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu

1.2. Giới Thiệu Về Python và Phần Mềm Orange

1.3. Lý Do Chọn Lựa Đề Tài

3
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU

2.1. Các Mô Hình Phân Lớp Dữ Liệu


2.1.1. Mô Hình Logistic Regression

2.1.2. Mô Hình Decision Tree

2.1.3. Mô Hình Support Vector Machine

2.1.4. Mô Hình Neural Network

2.2. Quy Trình Phân Lớp Dữ Liệu


2.2.1. Tiền Xử Lý Dữ Liệu
Trước hết ta tiến hành xử lý dữ liệu bằng các công cụ trong phần mềm Orange:

Các bước tiến hành xử lý dữ liệu

4
Nạp dữ liệu Airline passenger satisfaction.csv vào file
Để xử lý các mẫu có “Missing Value”, ta tiến hành thực hiện Preprocess, chọn Impute
Missing Values, sau đó chọn Average/Most frequent để thay thế những mẫu có “Missing
Value” thành giá trị trung bình của chuỗi.

5
Xử lý các mẫu có mising value
Để quan sát dữ liệu bảng bằng cách nối File Airline passenger satisfaction vào Data table:
khi double click vào Data table, ta thấy có 0% dữ liệu bị thiếu (no missing data).

Quan sát dữ liệu đã xử lý trên Table


Sử dụng Data Sampler phân chia dữ liệu ban đầu thành 2 tệp độc lập theo tỷ lệ 70:30, với
tên lần lượt là Data train và Data forecast. Lấy 70% mẫu dữ liệu từ file dữ liệu đã được
xử lý tiền dữ liệu trước đó. Chọn Save Data để lưu dữ liệu về dưới file Airline passenger
satisfaction 70% fbs.xlsx.

Lấy 70% dữ liệu từ Airline passenger satisfaction.csv


6
Dữ liệu 70% của file Airline passenger satisfaction.csv trên Table

Kết quả tập dữ liệu sau khi lấy mẫu có 90916 mẫu dữ liệu, 23 biến và không tồn tại dữ
liệu bị lỗi.
- Tiếp tục sử dụng Data Sampler để thực hiện lấy mẫu dữ liệu. Từ mẫu dữ liệu đã được
xử lý trước đó ta chọn Fixed proportion of data chỉnh xuống lấy 30% mẫu dữ liệu, hoàn
thành bằng nút chọn sample data. Chọn save data để lưu dữ liệu dưới dạng file Airline
passenger satisfaction 30% fbs.xlsx.

Lấy 30% mẫu dữ liệu từ file Airline passenger satisfaction.csv

7
Dữ liệu 30% của file Airline passenger satisfaction.csv trên Table
Kết quả của tập dữ liệu sau khi lấy 30% sẽ có 38964 mẫu dữ liệu, 23 biến và không tồn
tại dữ liệu bị lỗi.
2.2.2. Phân Lớp Dữ Liệu
Sử dụng Airline passenger satisfaction 70%.xlsx là tập huấn luyện, chọn biến
“satissfaction” làm biến mục tiêu “Target”

8
Tiến hành so sánh qua Test and Score, Ma trận nhầm lẫn, phân tích ROC để tìm ra
phương pháp tốt nhất trong 4 phương pháp (Logistic Regression, SVM, Decision Tree và
Neural Netwwork), từ đó phục vụ cho việc dự báo file Data forecast với độ chính xác cao
nhất.

★ Chọn tỷ lệ lấy mẫu Cross Validation


Tại bảng Test and Score, chọn tỷ lệ để lấy mẫu. Sử dụng công cụ Random Sampling để
thu được chỉ số đẹp nhất.

9
10
Nhận xét: Evaluation results cho ta biết được kết quả định lượng của 4 mô hình Hồi quy
Logistic (Logistic regression), Cây quyết định (Decision Tree), SVM (Support Vector
Machines) và Neural Netwwork với giá trị nào là cao nhất. Khi xem xét các chỉ số từ việc
lựa chọn lấy mẫu ngẫu nhiên qua các trường hợp trên ta thấy mô hình Neural Netwwork

11
ở trường hợp chia lấy mẫu dữ liệu theo kiểu Cross Validation đạt được số liệu tốt nhất là
10 lớp (10-66%) và 20 lớp (50-90%) với:
● Diện tích dưới đường cong (AUC) là: 0.993
● Tính chính xác (CA): 0.957
● Giá trị trung bình điều hòa (F1): 0.957
● Độ chính xác (Precision): 0.957
● Độ phủ (Recall): 0,912

12
13
Nhận xét: Kết quả phân tích từ ma trận nhầm lẫn (Confusion Matrix) chỉ số cần quan sát
là sai lầm loại 1 và sai lầm loại 2. Mô hình được đánh giá tốt nhất là mô hình có tỷ lệ sai
lầm loại 1 và sai lầm loại 2 thấp nhất. Dựa vào kết quả của ma trận nhầm lẫn thấy được
mô hình Neural Netwwork là mô hình có tỷ lệ sai lầm nhỏ nhất với tỷ lệ sai lầm loại 1 là
4,1% và tỷ lệ sai lầm loại 2 là 4,5%. Do đó phương pháp Neural Netwwork là phù hợp
nhất.
 ROC Analysis

14
2.2.3. Đánh Giá Tính Hiệu Quả

15
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM

3.1. Bộ Dữ Liệu

3.2. Các Kết Quả Thực Nghiệm

3.3. Phân Tích và Đánh Giá

16
CHƯƠNG 4. KẾT LUẬN

4.1. Các Kết Quả Đạt Được

4.2. Những Hạn Chế và Hướng Phát Triển

17
TÀI LIỆU THAM KHẢO

1. Batóg, B., Wawrzyniak, K. (2022). Comparison of Influence of Various Proposals of


Transforming Nominants into Stimulants on Linear Ordering and Grouping of Listed
Companies. In: Jajuga, K., Dehnel, G., Walesiak, M. (eds) Modern Classification and
Data Analysis. Springer, Cham.
2. Speller, J., Staerk, C., Gude, F. et al. (2023). Robust gradient boosting for generalized
additive models for location, scale and shape. Adv Data Anal Classif.
3. Tên tác giả (năm xuất bản). Tên bài báo. Tên sách/tạp chí.

18

You might also like