You are on page 1of 5

Bài tập về nhà buổi #4

Họ và tên: Lê Thị Ngọc Mai


MSSV:31211025161

Lab 1 – Chuẩn bị dữ liệu


1. Từ file dữ liệu cho sẳn tách làm 2 file riêng:
a. ThuNhap_HoGiaDinh_data.tab: chiếm 70% dữ liệu trong file
dubao_hogiadinh. Tab

b. ThuNhap_HoGiaDinh_forecast.tab: 30% dữ liệu dùng để dự báo. Và bỏ


đi dữ liệu cột biến phụ thuộc (Vay Vốn)

Lab 2 – Phân lớp dữ liệu


1. Sử dụng 3 phương pháp: hồi qui logistic, svm, cây quyết định tiến hành phân
lớp theo “Vay Vốn”. Đánh giá các phương pháp. Lưu ý thế hiện quan sát dữ
liệu theo dạng bảng hoặc biều đồ
a. Chụp màn hình xây dựng mô hình:

1
b. Chụp màn hình đánh giá các phương pháp và Ma trận nhầm lẫn

2
Dựa vào ma trận nhầm lẫn:
 Sai lầm loại 1: Thực tế, người ta không vay vốn nhưng kết quả dự báo là
người ta có vay vốn.
 LR = 17
 TREE = 21
 SVM = 9
=> TREE > LR > SVM
 Sai lầm loại 2 Thực tế, người ta có vay vốn nhưng kết quả dự báo là người ta
không vay vốn. Nghiêm trọng hơn trường hợp 1 vì có thể người có vay vốn sẽ
lợi dụng kết quả dự báo không vay vốn này đi vay thêm hoặc tham gia thêm
vào các hình thức tín dụng khác.
 LR = 30
 TREE = 29
 SVM = 35
=> SVM > LR > TREE

3
Dùng Test and Score để đánh giá các phương pháp:
 Dựa vào Test and Score:
 AUC: LR = 0.718 > SVM = 0.703 > TREE = 0.620

=> Dùng LR để thực hiện dự báo.

2. Sử dụng mô hình tốt nhất để dự báo “Vay Vốn” cho khách hàng trong file:
ThuNhap_HoGiaDinh_forecast.tab
a. Chụp màn hình xây dựng mô hình:

b. Chụp màn hình kết quả dự báo:

4
3. Phân tích chuyên sâu: sử dụng mô hình Tree và mô hình hồi qui logistic để đưa
ra những phát hiện từ mô hình

You might also like