Professional Documents
Culture Documents
3.1. Bộ dữ liệu
3.1.1. Mô tả bài toán
Bộ dữ liệu này chứa thông tin về nhân viên trong một công ty, bao gồm
trình độ học vấn, lịch sử công việc, nhân khẩu học và các yếu tố liên quan đến
việc làm. Nó đã được ẩn danh để bảo vệ quyền riêng tư trong khi vẫn cung cấp
những hiểu biết có giá trị về lực lượng lao động,
3.1.2. Mô tả dữ liệu
Mô tả tổng quát bộ dữ liệu
- Tên bộ dữ liệu: Employee Dataset
(https://www.kaggle.com/datasets/tawfikelmetwally/employee-dataset/data)
- Dữ liệu bao gồm 4653 mẫu dữ liệu (instances), 8 biến (feature)
- Missing value: 0
Không cần xử lý dữ liệu
Tập dữ liệu huấn luyện sau khi tách bằng Data Sampler sẽ có 3258 mẫu với 9
biến và không có dữ liệu bị lỗi.
Hình 3: Tập dữ liệu huấn luyện (Training Set) sau khi tách bằng Data Sampler
Tập dữ liệu thử nghiệm (Testing Set) sau khi tách bằng Data Sampler sẽ có
1395 mẫu với 9 biến và không có dữ liệu bị lỗi.
Hình 4: Tập dữ liệu thử nghiệm (Testing Set) sau khi tách bằng Data Sampler
Ngoài ra, từ Test and Score ta có thể đưa ra thêm Confusion Matrix và ROC
Analysis để lựa chọn mô hình phù hợp nhất
✓ Ma trận nhầm lẫn (Confusion Matrix)
Hình 8: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
Hình 9: Kết quả ma trận nhầm lẫn của phương pháp Tree
Hình 10: Kết quả ma trận nhầm lẫn của phương pháp SVM
Hình 11: Kết quả ma trận nhầm lẫn của phương pháp Neural Network
Nhận xét: Tại Confusion Matrix chỉ số cần quan sát nhất là tỷ lệ của sai lầm
loại 1 và sai lầm loại 2, mô hình tốt nhất khi có hai tỷ số này là thấp nhất và
hợp lý nhất. Nhìn vào kết quả ta thấy mô hình Neural Network là có tỷ lệ sai
lầm nhỏ nhất với sai lầm loại 1 là 14,0% và sai lầm loại 2 là 16,1%. Nên
phương pháp Neural Network là phù hợp nhất.
✓ ROC Analysis
Hình 12: Đường cong ROC với biến Target là 0
Network.
Hình 15: Mô hình dự báo cho tập dữ liệu thử nghiệm
Kết quả dự báo:
Hình 16: Kết quả dự báo cho tập dữ liệu thử nghiệm (Testing Set)