Professional Documents
Culture Documents
Bài tập khoa học dữ liệu 4
Bài tập khoa học dữ liệu 4
1. Từ file dữ liệu cho sẳn ThuNhap_HoGiaDinh.xlsx tách làm 2 file excel riêng:
1. Sử dụng 3 phương pháp: hồi qui logistic, svm, cây quyết định tiến hành phân lớp
theo “Vay Vốn”. Đánh giá các phương pháp. Lưu ý thế hiện quan sát dữ liệu theo
b. Chụp màn hình đánh giá các phương pháp và Ma trận nhầm lẫn
Ma trận nhầm lẫn:
Dựa vào Test and Score, ta thấy được mô hình Logistic Regression có tống giá trị lớn hơn hai mô
hình còn lại. Căn cứ vào Confusion Matrix thì mô hình Logistic Regression có giá trị False Negative
nhỏ hơn, mặc dù mô hình này có giá trị False Positive lớn, nhưng tổng giá trị False Negative và False
Positive nhỏ nhất trong hai mô hình còn lại. Cho nên mô hình Logistic Regression là tốt nhất.
2. Sử dụng mô hình tốt nhất để dự báo “Vay Vốn” cho khách hàng trong file:
ThuNhap_HoGiaDinh_forecast.xlsx