Câu 1: Bước 1: Trong công cụ File, chọn file Thunhap_Hogiadinh.xlsx đã tải về, chọn Sheet: DataThuNhap. Bước 2: Tiếp theo, chọn chức năng Data Sampler, ở tùy chọn Fixed proportion of data, lần lượt chọn 70% cho Data Sampler thứ nhất và chọn 30% cho Data Sampler thứ hai. Bước 3: Lưu dữ liệu dưới dạng 2 file Excel riêng: + ThuNhap_HoGiaDinh_data.xlsx: chiếm 70% dữ liệu + ThuNhap_HoGiaDinh_forecast.xlsx: 30% dữ liệu (Trong đó, trước khi lưu, file ThuNhap_HoGiaDinh_forecast.xlsx được loại bỏ cột Vay vốn bằng chức năng Select Columns)
Lab 2 – Phân lớp dữ liệu
Câu 1: a. Chụp màn hình xây dựng mô hình Các bước thực hiện Bước 1: Trong công cụ File, chọn File Thunhap_Hogiadinh.xlsx đã tải về, chọn Sheet: DataThuNhap. Bước 2: Nối từ công cụ File sang công cụ Test and Score. Từ bên trái công cụ Test and Score, nối chọn 3 phương pháp: Hồi qui Logistic; SVM; Cây quyết định. Bước 3: Từ bên phải công cụ Test and Score, nối chọn công cụ Ma trận nhầm lẫn (Confusion Matrix) b. Chụp màn hình đánh giá các phương pháp và Ma trận nhầm lẫn Nhận xét: Theo các phương pháp đánh giá mô hình phân lớp + Giá trị AUC càng lớn thì càng tốt. Theo ta thấy, phương pháp mô hình hồi qui logistic có giá trị AUC cao nhất trong ba phương pháp + Nhìn vào ma trận nhầm lẫn của 3 phương pháp, ta thấy hệ số FP (False Positive) và hệ số FN (False Negative) của phương pháp hồi qui Logistic là phù hợp nhất. Dùng mô hình hồi qui Logistic để dự báo. Câu 2: a. Chụp màn hình xây dựng mô hình
Các bước thực hiện:
Bước 1: Vì đã lựa chọn được phương pháp hồi qui logistic để dự báo như đã trình bày ở câu 1, ta tiếp tục nối công cụ hồi qui logistic với công cụ Predictions. Bước 2: Từ mô hình đã được xây dựng ở câu 1. Ta thêm một công cụ file, chọn file “ThuNhap_HoGiaDinh_forecast.xlsx” để tiến hành dự báo. Bước 2: Nối file dùng để dự báo với chức năng Predictions đã tạo ra ở bước 1. Bước 3: Nối chức năng Predictions với công cụ Data Table để thấy được dữ liệu dự báo. b. Chụp màn hình kết quả dự báo