You are on page 1of 8

BÀI TẬP VỀ NHÀ BUỔI 4

Lab 1 – Chuẩn bị dữ liệu

1. Từ file dữ liệu cho sẳn ThuNhap_HoGiaDinh.xlsx tách làm 2 file excel riêng:

a. ThuNhap_HoGiaDinh_data.xlsx: chiếm 70% dữ liệu

b. ThuNhap_HoGiaDinh_forecast.xlsx: 30% dữ liệu dùng để dự báo. Và bỏ đi dữ

liệu cột biến phụ thuộc (Vay Vốn)


Lab 2 – Phân lớp dữ liệu

1. Sử dụng 3 phương pháp: hồi qui logistic, svm, cây quyết định tiến hành phân lớp

theo “Vay Vốn”. Đánh giá các phương pháp. Lưu ý thế hiện quan sát dữ liệu theo

dạng bảng hoặc biều đồ

a. Chụp màn hình xây dựng mô hình:

b. Chụp màn hình đánh giá các phương pháp và Ma trận nhầm lẫn
Ma trận nhầm lẫn:
Dựa vào Test and Score, ta thấy được mô hình Logistic Regression có tống giá trị lớn hơn hai mô
hình còn lại. Căn cứ vào Confusion Matrix thì mô hình Logistic Regression có giá trị False Negative
nhỏ hơn, mặc dù mô hình này có giá trị False Positive lớn, nhưng tổng giá trị False Negative và False
Positive nhỏ nhất trong hai mô hình còn lại. Cho nên mô hình Logistic Regression là tốt nhất.

2. Sử dụng mô hình tốt nhất để dự báo “Vay Vốn” cho khách hàng trong file:

ThuNhap_HoGiaDinh_forecast.xlsx

a. Chụp màn hình xây dựng mô hình:

b. Chụp màn hình kết quả dự báo:

You might also like