You are on page 1of 6

BÀI TẬP VỀ NHÀ 4

PHÂN LỚP DỮ LIỆU


Lab 1 - Chuẩn bị dữ liệu

1. Từ file dữ liệu Thunhap_HoGiaDinh.xlsx tách làm 2 file excel riêng


- ThuNhap_HoGiaDinh_data.xlsx: chiếm 70% dữ liệu
- ThuNhap_HoGiaDinh_forecast.xlsx: chiếm 30% dữ liệu để dự báo và bỏ đi dữ liệu cột
biến phụ thuộc (Vay vốn)

Lab 2 – Phân lớp dữ liệu

1. Sử dụng 3 phương pháp: hồi quy logistic, svm và cây quyết định tiến hành phân lớp
theo “Vay vốn”. Đánh giá các phương pháp. Lưu ý thể hiện quan sát dữ liệu theo
dạng bảng hoặc biểu đồ
a. Mô hình được xây dựng trong phần mềm Organge như sau:
b. Đánh giá các phương pháp và Ma trận nhầm lẫn

Nhìn vào bảng đánh giá của ma trận nhầm lẫn ta có thể thấy rằng cả ba đều có False
Positive bà False negative đều chiếm phần lớn. Trong đó thì False positive của mô hình
SVM có tỷ lệ nhỏ nhất. Hơn nữa, khi nhìn vào các chỉ số để đánh giá trong bảng Test and
Score, có thể thấy rằng chỉ số đánh giá tính chính xác (AUC) của mô hình Logistic
Regression là cao nhất => Do đó, mô hình tốt nhất để thực hiện cho dự báo là Logistic
Regression.
2. Sử dụng mô hình tốt nhất để dự báo “Vay vốn” cho khách hàng trong file:
ThuNhap_HoGiaDinh_forecast.xlsx
a. Mô hình dư báo được xây dựng như sau:

b. Kết quả dự báo

You might also like