You are on page 1of 12

CHƯƠNG III: CÁC KẾT QUẢ THỰC NGHIỆM

3.1. Bộ dữ liệu
3.1.1. Mô tả bài toán
Bộ dữ liệu này chứa thông tin về nhân viên trong một công ty, bao gồm
trình độ học vấn, lịch sử công việc, nhân khẩu học và các yếu tố liên quan đến
việc làm. Nó đã được ẩn danh để bảo vệ quyền riêng tư trong khi vẫn cung cấp
những hiểu biết có giá trị về lực lượng lao động,
3.1.2. Mô tả dữ liệu
Mô tả tổng quát bộ dữ liệu
- Tên bộ dữ liệu: Employee Dataset
(https://www.kaggle.com/datasets/tawfikelmetwally/employee-dataset/data)
- Dữ liệu bao gồm 4653 mẫu dữ liệu (instances), 8 biến (feature)
- Missing value: 0
 Không cần xử lý dữ liệu

Hình 1: Mẫu dữ liệu

- Bộ dữ liệu gồm 8 thuộc tính


Thuộc tính Ý nghĩa

Education Trình độ học vấn của nhân viên

Joining Year Năm gia nhập công ty

City Nơi nhân viên sống hoặc làm việc

Phân loại nhân viên thành các bậc lương


Payment Tier
khác nhau

Age Tuổi của nhân viên

Gender Giới tính của nhân viên


Cho biết liệu một nhân viên có từng tạm
Ever Benched thời không được giao công việc hay
không
Số năm kinh nghiệm mà nhân viên có
Experience in Current Domain
được trong lĩnh vực hiện tại của họ.

Leave Or Not Rời đi hay không?

3.2. Các kết quả thực nghiệm


a) Lấy mẫu dữ liệu
 Để phục vụ cho phân lớp dữ liệu, nhóm đã sử dụng Data Sampler để thực
hiện lấy tập dữ liệu huấn luyện (Training Set) và tập dữ liệu thử nghiệm
(Testing Set) theo tỷ lệ lần lượt là 70:30
Hình 2: Lấy mẫu dữ liệu

 Tập dữ liệu huấn luyện sau khi tách bằng Data Sampler sẽ có 3258 mẫu với 9
biến và không có dữ liệu bị lỗi.

Hình 3: Tập dữ liệu huấn luyện (Training Set) sau khi tách bằng Data Sampler
 Tập dữ liệu thử nghiệm (Testing Set) sau khi tách bằng Data Sampler sẽ có
1395 mẫu với 9 biến và không có dữ liệu bị lỗi.

Hình 4: Tập dữ liệu thử nghiệm (Testing Set) sau khi tách bằng Data Sampler

Hình 5: Quá trình lấy mẫu dữ liệu


b) Phân lớp dữ liệu
 Sử dụng các mô hình phân lớp Logistic Regression, Tree, SVM, Neural
Network để tiến hành dự báo.

Hình 6: Mô hình so sánh các phương pháp phân lớp dữ liệu


 Sử dụng các phương pháp đánh giá mô hình phân lớp để chọn ra phương pháp
được đánh giá tốt nhất, sau đó tiến hành dự đoán cho dữ liệu.
✓ Kết quả đánh giá Test and Score: Sử dụng phương pháp K – fold cross
validation với k = 10
Hình 7: Kết quả khi chia mẫu dữ liệu thành 10 phần
 Nhận xét:
Tại mục Evaluation results, ta cần chú ý kết quả định lượng của 4 mô hình Logistic
Regression, Tree, SVM, Neural Network, mô hình nào có các giá trị cao nhất.
Qua đó, ta thấy được mô hình Neural Network là mang lại số liệu tốt nhất, cụ thể:
- Diện tích đường cong (AUC) là 0.863

- Tính chính xác (CA) là 0.844

- Giá trị trung bình điều hòa (F1) là 0.839

- Độ chính xác (Precision) là 0.846

- Độ phủ (Recall) là 0.844

 Đây là mô hình hiệu quả nhất

 Ngoài ra, từ Test and Score ta có thể đưa ra thêm Confusion Matrix và ROC
Analysis để lựa chọn mô hình phù hợp nhất
✓ Ma trận nhầm lẫn (Confusion Matrix)

Hình 8: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
Hình 9: Kết quả ma trận nhầm lẫn của phương pháp Tree

Hình 10: Kết quả ma trận nhầm lẫn của phương pháp SVM
Hình 11: Kết quả ma trận nhầm lẫn của phương pháp Neural Network

 Nhận xét: Tại Confusion Matrix chỉ số cần quan sát nhất là tỷ lệ của sai lầm
loại 1 và sai lầm loại 2, mô hình tốt nhất khi có hai tỷ số này là thấp nhất và
hợp lý nhất. Nhìn vào kết quả ta thấy mô hình Neural Network là có tỷ lệ sai
lầm nhỏ nhất với sai lầm loại 1 là 14,0% và sai lầm loại 2 là 16,1%. Nên
phương pháp Neural Network là phù hợp nhất.
✓ ROC Analysis
Hình 12: Đường cong ROC với biến Target là 0

Hình 13: Đường cong ROC với biến Target là 1


 Nhận xét: Theo đường cong ROC, mô hình hiệu quả là khi có FPR thấp và
TPR cao hoặc đường cong ROC càng tiệm cận với điểm (0;1) thì mô hình càng
hiệu quả. Như vậy, ta thấy được mô hình Neural Network có đường cong ROC
tiệm cận với điểm (0,1) nhất
 Đây là mô hình hiệu quả nhất
 Kết luận: Phương pháp phân lớp Neural Network là phương pháp tốt nhất để
dự đoán.
- Phương pháp có AUC (diện tích nằm dưới đường cong ROC) lớn nhất, tức
có mô hình tốt nhất.
- Phương pháp có CA (tính chính xác) cao nhất.
- Phương pháp có chỉ số 2 sai lầm thấp nhất.
- Phương pháp có đường cong ROC tiệm cận với điểm (0;1) nhất.
Hình 14: Đánh giá mô hình phân lớp
 Sau khi đã sử dụng các phương pháp đánh giá mô hình phân lớp, ta sẽ chọn
phương pháp Neural Network để dự báo cho dữ liệu.
 Sử dụng Prediction để dự báo kết quả dữ liệu theo phương pháp Neural

Network.
Hình 15: Mô hình dự báo cho tập dữ liệu thử nghiệm
 Kết quả dự báo:
Hình 16: Kết quả dự báo cho tập dữ liệu thử nghiệm (Testing Set)

You might also like