Professional Documents
Culture Documents
ĐỒ ÁN MÔN HỌC
ĐỀ TÀI:
PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ
DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE
1
MỤC LỤC
MỤC LỤC..........................................................................................................................1
CHƯƠNG 1. TỔNG QUAN.............................................................................................2
1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu............................................................2
1.2. Giới Thiệu Về Python và Phần Mềm Orange...........................................................2
1.3. Lý Do Chọn Lựa Đề Tài............................................................................................2
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU..................................................3
2.1. Các Mô Hình Phân Lớp Dữ Liệu..............................................................................3
2.1.1. Mô Hình Logistic Regression.............................................................................3
2.1.2. Mô Hình Decision Tree......................................................................................3
2.1.3. Mô Hình Support Vector Machine.....................................................................3
2.1.4. Mô Hình Neural Network...................................................................................3
2.2. Quy Trình Phân Lớp Dữ Liệu...................................................................................3
2.2.1. Tiền Xử Lý Dữ Liệu...........................................................................................3
2.2.2. Phân Lớp Dữ Liệu...............................................................................................3
2.2.3. Đánh Giá Tính Hiệu Quả....................................................................................3
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM...........................................................4
3.1. Bộ Dữ Liệu................................................................................................................4
3.2. Các Kết Quả Thực Nghiệm.......................................................................................4
3.3. Phân Tích và Đánh Giá.............................................................................................4
CHƯƠNG 4. KẾT LUẬN.................................................................................................5
4.1. Các Kết Quả Đạt Được..............................................................................................5
4.2. Những Hạn Chế và Hướng Phát Triển......................................................................5
TÀI LIỆU THAM KHẢO.................................................................................................6
2
CHƯƠNG 1. TỔNG QUAN
3
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU
4
Nạp dữ liệu Airline passenger satisfaction.csv vào file
Để xử lý các mẫu có “Missing Value”, ta tiến hành thực hiện Preprocess, chọn Impute
Missing Values, sau đó chọn Average/Most frequent để thay thế những mẫu có “Missing
Value” thành giá trị trung bình của chuỗi.
5
Xử lý các mẫu có mising value
Để quan sát dữ liệu bảng bằng cách nối File Airline passenger satisfaction vào Data table:
khi double click vào Data table, ta thấy có 0% dữ liệu bị thiếu (no missing data).
Kết quả tập dữ liệu sau khi lấy mẫu có 90916 mẫu dữ liệu, 23 biến và không tồn tại dữ
liệu bị lỗi.
- Tiếp tục sử dụng Data Sampler để thực hiện lấy mẫu dữ liệu. Từ mẫu dữ liệu đã được
xử lý trước đó ta chọn Fixed proportion of data chỉnh xuống lấy 30% mẫu dữ liệu, hoàn
thành bằng nút chọn sample data. Chọn save data để lưu dữ liệu dưới dạng file Airline
passenger satisfaction 30% fbs.xlsx.
7
Dữ liệu 30% của file Airline passenger satisfaction.csv trên Table
Kết quả của tập dữ liệu sau khi lấy 30% sẽ có 38964 mẫu dữ liệu, 23 biến và không tồn
tại dữ liệu bị lỗi.
2.2.2. Phân Lớp Dữ Liệu
Sử dụng Airline passenger satisfaction 70%.xlsx là tập huấn luyện, chọn biến
“satissfaction” làm biến mục tiêu “Target”
8
Tiến hành so sánh qua Test and Score, Ma trận nhầm lẫn, phân tích ROC để tìm ra
phương pháp tốt nhất trong 4 phương pháp (Logistic Regression, SVM, Decision Tree và
Neural Netwwork), từ đó phục vụ cho việc dự báo file Data forecast với độ chính xác cao
nhất.
9
10
Nhận xét: Evaluation results cho ta biết được kết quả định lượng của 4 mô hình Hồi quy
Logistic (Logistic regression), Cây quyết định (Decision Tree), SVM (Support Vector
Machines) và Neural Netwwork với giá trị nào là cao nhất. Khi xem xét các chỉ số từ việc
lựa chọn lấy mẫu ngẫu nhiên qua các trường hợp trên ta thấy mô hình Neural Netwwork
11
ở trường hợp chia lấy mẫu dữ liệu theo kiểu Cross Validation đạt được số liệu tốt nhất là
10 lớp (10-66%) và 20 lớp (50-90%) với:
● Diện tích dưới đường cong (AUC) là: 0.993
● Tính chính xác (CA): 0.957
● Giá trị trung bình điều hòa (F1): 0.957
● Độ chính xác (Precision): 0.957
● Độ phủ (Recall): 0,912
12
13
Nhận xét: Kết quả phân tích từ ma trận nhầm lẫn (Confusion Matrix) chỉ số cần quan sát
là sai lầm loại 1 và sai lầm loại 2. Mô hình được đánh giá tốt nhất là mô hình có tỷ lệ sai
lầm loại 1 và sai lầm loại 2 thấp nhất. Dựa vào kết quả của ma trận nhầm lẫn thấy được
mô hình Neural Netwwork là mô hình có tỷ lệ sai lầm nhỏ nhất với tỷ lệ sai lầm loại 1 là
4,1% và tỷ lệ sai lầm loại 2 là 4,5%. Do đó phương pháp Neural Netwwork là phù hợp
nhất.
ROC Analysis
14
2.2.3. Đánh Giá Tính Hiệu Quả
15
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM
3.1. Bộ Dữ Liệu
16
CHƯƠNG 4. KẾT LUẬN
17
TÀI LIỆU THAM KHẢO
18