You are on page 1of 5

BÀI TẬP VỀ NHÀ BUỔI 4

Lab 1 – Chuẩn bị dữ liệu


1. Từ file dữ liệu cho sẳn ThuNhap_HoGiaDinh.xlsx tách làm 2 file excel riêng:
a. ThuNhap_HoGiaDinh_data.xlsx: chiếm 70% dữ liệu
b. ThuNhap_HoGiaDinh_forecast.xlsx: 30% dữ liệu dùng để dự báo. Và bỏ đi dữ liệu cột
biến phụ thuộc (Vay Vốn)
Lab 2 – Phân lớp dữ liệu
1. Sử dụng 3 phương pháp: hồi qui logistic, svm, cây quyết định tiến hành phân lớp theo “Vay
Vốn”. Đánh giá các phương pháp. Lưu ý thế hiện quan sát dữ liệu theo dạng bảng hoặc biểu
đồ
a. Chụp màn hình xây dựng mô hình:

b. Chụp màn hình đánh giá các phương pháp và Ma trận nhầm lẫn
Kết quả thử nghiệm
Ma trận nhầm lẫn:

Dựa vào kết quả thử nghiệm và ma trận nhầm lẫn, ta nhận thấy mô hình Logistic Regresstion có
tổng các chỉ số cao nhất đặt biệt là chỉ số AUC (tính chính xác). Dựa vào ma trận nhầm lẫn, ta
thấy tỷ lệ False Positive và False Negetive của cả ba mô hình đều xấp xỉ nhau. => Mô hình
Logistic Regresstion là mô hình tốt nhất.
2. Sử dụng mô hình tốt nhất để dự báo “Vay Vốn” cho khách hàng trong file:
ThuNhap_HoGiaDinh_forecast.xlsx
a. Chụp màn hình xây dựng mô hình:
b, Chụp màn hình kết quả dự báo

You might also like