Professional Documents
Culture Documents
1
DANH MỤC HÌNH ẢNH
Hình 1.1: Dashboard.....................................................................................................13
Hình 1.2: Biểu đồ tương quan giữa điểm đào tạo và khả năng hoàn thành KPI của nhân
viên...............................................................................................................................14
Hình 1.3: Biểu đồ tương quan giữa biểu đồ tương quan giữa phòng ban và độ tuổi tác
động đến khả năng hoàn thành KPI của nhân viên.......................................................14
Hình 1.4: Biểu đồ tương quan giữa kênh tuyển dụng tác động đến khả năng hoàn thành
KPI của nhân viên.........................................................................................................15
Hình 1.5: Biểu đồ tương quan giữa trình độ học vấn tác động đến khả năng hoàn thành
KPI của nhân viên.........................................................................................................16
Hình 1.6: Biểu đồ tương quan giữa giới tính và khả năng hoàn thành KPI của nhân viên
......................................................................................................................................17
Hình 1.7: Biểu đồ tương quan giữa số năm đào tạo và khả năng hoàn thành KPI của nhân
viên...............................................................................................................................17
Hình 2.1: Mô hình Orange bài toán phân lớp...............................................................21
Hình 2.2: Kết quả phân tích hồi quy Logistic...............................................................22
Hình 2.3: Tree Viewer..................................................................................................23
Hình 2.4: Kết quả Test and Score.................................................................................24
Hình 2.5: Ma trận nhầm lẫn của phương pháp SVM....................................................25
Hình 2.6: Ma trận nhầm lẫn của phương pháp hồi quy Logistic..................................25
Hình 2.7: Ma trận nhầm lẫn của phương pháp Tree.....................................................26
Hình 2.8: Đồ thị biểu diễn đường cong ROC...............................................................27
Hình 3.1: Minh họa phương pháp phân cụm................................................................28
Hình 3.2: File dữ liệu....................................................................................................30
Hình 3.3: Select Rows và Select Columns...................................................................31
Hình 3.4: Dữ liệu trước phân cụm................................................................................31
Hình 3.5: Kết quả K-Means..........................................................................................32
Hình 3.6: Kết quả Silhouette Plot.................................................................................33
Hình 3.7: Dữ liệu cụm 1...............................................................................................33
Hình 3.8: Dữ liệu cụm 2...............................................................................................34
Hình 3.9: Mô hình phân cụm........................................................................................34
2
ĐƯỜNG LINK LIÊN KẾT TRONG BÀI
File Drive:
https://drive.google.com/drive/folders/1EQdv9yG44uX429o6wjIhmAZXKIoiy0wz?
usp=drive_link
https://www.kaggle.com/datasets/sanjanchaudhari/employees-performance-for-hr-
analytics/data .....................................................................................................................9
https://drive.google.com/file/d/1NFq_-suave2krD6GJ-BT4nMyrw7oYLS6/view?
usp=drive_link...................................................................................................................13
https://docs.google.com/spreadsheets/d/1isjL1b-
24OwOibshZgtUc7PPcQC7kvfUbxuL9PAhsn0/edit?usp=drive_link..............................13
https://drive.google.com/file/d/15hSfxttKHmSPO6qGtr4cwvwLYvAtvi8P/view?
usp=drive_link...................................................................................................................21
https://drive.google.com/file/d/1VrZzE8CZOSNH9kC8h7ePmkyTNg-LMi72/view?
usp=drive_link...................................................................................................................35
3
LỜI CẢM ƠN
Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn đến Trường Đại học Kinh tế
Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng dạy.
Đây là một bộ môn vô cùng cần thiết, đem lại kiến thức hữu dụng cho quá trình làm việc
sau này. Đặc biệt, nhóm xin được bày tỏ lòng cảm ơn sâu sắc và chân thành nhất đến
Giảng viên Nguyễn Mạnh Tuấn. Cảm ơn Thầy đã nhiệt tình giảng dạy và cung cấp cho
chúng em những kiến thức chuyên môn đầy bổ ích và thiết thực, là nền tảng vững chắc
giúp chúng em thực hiện bài đồ án cuối kỳ. Trong thời gian tham gia lớp học Khoa học
dữ liệu của Thầy, chúng em đã tiếp thu được vô vàn kiến thức bổ ích, một tinh thần học
tập nghiêm túc và hiệu quả. Đây chắc chắn sẽ là những kiến thức quý báu và là hành
trang cho con đường sau này của chúng em.
Bài đồ án sẽ không thể tránh khỏi những thiếu sót do còn nhiều hạn chế trong vốn
kiến thức. Nhóm chúng em rất mong nhận được những ý kiến đóng góp và nhận xét từ
Thầy để có thể tiếp thu, khắc phục và dần hoàn thiện hơn ở những lần tiếp theo.
Lời cuối cùng, nhóm chúng em xin chúc Thầy nhiều sức khỏe, thành công và công
tác tốt. Xin trân trọng cảm ơn Thầy vì những kiến thức quý báu mà Thầy truyền đạt cho
chúng em!
4
BẢNG ĐÁNH GIÁ THÀNH VIÊN
Mức độ
STT Họ và Tên MSSV Thực hiện
hoàn thành
Mô tả nguồn dữ liệu
2 Văn Huyền Châu 31211022193 Tiền xử lý dữ liệu 100%
Bài toán phát hiện điểm đặc thù
Trần Thị Kim Sương 31211022253 Giới thiệu tổng quan đề tài
5 100%
Bài toán phân cụm
5
Chương I: TỔNG QUAN
6
cách cải thiện các yếu tố như đào tạo và công bằng trong việc thăng tiến. Đồng thời cũng
đóng góp vào việc hiểu rõ hơn về các yếu tố ảnh hưởng đến hiệu suất của nhân viên trong
các lĩnh vực công nghiệp khác nhau, không chỉ ở Pakistan mà còn ở các quốc gia khác
trên toàn thế giới.
Việc phân tích các yếu tố ảnh hưởng đến hiệu suất công việc của nhân viên trong
khu vực công là một đề tài có ý nghĩa to lớn, đem lại nhiều lợi ích quan trọng cho cả tổ
chức và cộng động. Vì vậy nhóm chúng em lựa chọn đề tài: “Phân tích những yếu tố
ảnh hưởng đến hiệu suất công việc của nhân viên trong khu vực công”.
Các bài toán được phân tích trong đề tài báo cáo ở mức độ 2 - liên quan gần.
7
của các chương trình Orange và Excel. Từ đó xây dựng các mô hình dự báo những yếu tố
có tầm ảnh hưởng nhất để có thể có các biện pháp nâng cao hiệu suất làm việc của nhân
viên.
8
Mô tả cột để phân tích hiệu suất của nhân viên cho phân tích nhân sự:
1. ID nhân viên
Mã định danh duy nhất cho mỗi nhân viên
Theo dõi hiệu suất của nhân viên bằng ID
2. Phòng ban
Phân loại nhân viên thành các phòng ban khác nhau
Tác động của phòng ban đến hiệu quả hoạt động
3. Khu vực
Khu vực địa lý nơi làm việc của nhân viên
Sự khác biệt giữa các khu vực về hiệu quả hoạt động
4. Trình độ học vấn
Mối quan hệ về trình độ học vấn của nhân viên
Giữa trình độ học vấn và hiệu suất làm việc
5. Giới tính
Phân bổ nhân viên theo giới tính
Phân tích hiệu suất dựa trên giới
6. Kênh tuyển dụng
Nguồn tuyển dụng Nhân viên
So sánh hiệu suất dựa trên kênh tuyển dụng
7. Số lượng đào tạo
Số lượng chương trình đào tạo mà mỗi nhân viên tham gia
Ảnh hưởng của việc đào tạo đến hiệu suất
8. Tuổi
Tuổi của nhân viên
Tác động của tuổi tác đến hiệu suất của nhân viên
9. Xếp hạng năm trước
Đánh giá hiệu suất của nhân viên từ năm trước
Mối quan hệ giữa đánh giá năm trước và hiệu suất hiện tại
10. Thời gian phục vụ
Thời gian làm việc tại Công ty
Hiệu suất của nhân viên dựa trên nhiệm kỳ
9
Làm sạch dữ liệu
Dữ liệu trên thực tế hầu như thường có xu hướng không toàn vẹn, bị nhiễu và
không đầy đủ dữ liệu. Vì vậy để có thể giải quyết những vấn đề trên thì chúng ta cần thực
hiện đó là bước làm sạch dữ liệu :
● Xử lý những dữ liệu bị thiếu: loại bỏ những mẫu tin liên quan đến dữ liệu bị thiếu,
bổ sung thủ công, thay thế bằng các giá trị được tính toán
● Xử lý nhiễu: so sánh với những dữ liệu lân cận (binning); khoảng cách, phân phối,
mật độ…(statistical approaches); gom cụm để phát hiện những dữ liệu bất thường
(clustering); chọn lựa các thuộc tính, phân tích tương quan (filter)
● Xử lý những dữ liệu không nhất quán: loại bỏ những dữ liệu không phản ánh đúng
nghĩa hoặc những dữ liệu được ghi nhận khác nhau đối với cùng một đối tượng
bằng cách hiệu chỉnh thủ công, khai thác siêu dữ liệu, tăng cường tập trung dữ liệu
(master reference store approach)
Tích hợp dữ liệu
Tích hợp dữ liệu là quá trình hợp nhất dữ liệu từ nhiều kho dữ liệu khác nhau.
Giúp ta làm giảm thu bớt dữ liệu, tránh dư thừa hay mất đi tính toàn vẹn trong tập dữ
liệu. Ngoài ra, tại bước này còn giúp ta cải thiện tốc độ, đồng thời tăng độ chính xác cho
quá trình khai phá dữ liệu sau này.
● Tích hợp dữ liệu từ nhiều nguồn: sao chép nhiều dữ liệu nguồn vào một nơi lưu
trữ chung;sao chép một dữ liệu nguồn đến các nơi khác (duplicate, replication); sử
dụng interfaces kết nối các dữ liệu nguồn; tổ chức kho dữ liệu
● Nhận diện đối tượng trùng lắp
● Nhận diện thông tin dư thừa: phân tích các thuộc tính dẫn xuất, phân tích tương
quan (hệ số Pearson, hệ số Spearman), kiểm định Chi bình phương với dữ liệu rời
rạc (Chi-square Testing)
Thu gọn dữ liệu
Thu gọn dữ liệu là kỹ thuật loại bỏ những thuộc tính dư thừa mà vẫn giữ được
thông tin quan trọng. Điều này giúp tối ưu hóa việc lưu trữ dữ liệu và tăng hiệu suất khi
xử lý dữ liệu.
● Tóm tắt đặc trưng: xu thế trung tâm (central tendency), sự phân tán (dispersion),
những giá trị bất thường (outliers)
● Giảm chiều dữ liệu: phân tích tương quan, PCA (Principal Component Analysis)
nén dữ liệu ( Wavelet Transforms )
● Thu giảm lượng: thay đổi dạng biểu diễn dữ liệu, các phương pháp có tham số
(parametric) như mô hình ước lượng…, các phương pháp phi tham số
(nonparametric) như histogram, clustering, sampling.
Chỉnh dạng dữ liệu
Chỉnh dạng dữ liệu là quá trình chuyển đổi dữ liệu từ dạng này sang dạng khác
phù hợp với quá trình khai phá dữ liệu, làm cho việc khai phá dữ liệu trở nên hiệu quả, và
các mô hình trở nên dễ hiểu hơn
10
● Làm trơn : binning, regression, clustering
● Bổ sung thuộc tính mới : gộp, tách các thuộc tính sẵn có; bổ sung ngữ nghĩa cho
dữ liệu; phân tích mối tương quan giữa các thuộc tính
● Tổng hợp : tổng hợp dữ liệu ở nhiều mức trừu tượng khác nhau như cubes, sum,...;
roll-up; drill-down
● Chuẩn hóa : miền giá trị chung cho các thuộc tính
● Rời rạc hóa : biến đổi dữ liệu liên tục, khoảng (interval); nhãn (label); cây phân
cấp khái niệm ( concept hierarchy) mỗi nút có thể là khoảng hay label.
Lý do chọn phương pháp tiền xử lý dữ liệu:
Sau khi xem xét 4 phương pháp tiền xử lý kết hợp với đánh giá đặc điểm của bộ
dữ liệu. Nhóm đã lựa chọn 2 phương pháp tiền xử lý phù hợp là : làm sạch dữ liệu và
chỉnh dạng dữ liệu.
Khi nhập bộ dữ liệu vào Orange, nhóm phát hiện có 0,9% missing values nên đã
sử dụng công cụ Impute Missing Values để xử lý.
11
Sau làm sạch dữ liệu bằng công cụ Impute Missing Values ta được kết quả no
missing data.
12
Sau chỉnh dạng dữ liệu
2.3 Bài toán phát hiện các điểm đặc thù và xây dựng Dashboard.
Xây dựng dashboard
Đường dẫn tới File Excel xây dựng Dashboard:
https://docs.google.com/spreadsheets/d/1mzu0MPdkoP1J7TID0GfsPzZzT7Z8THxB/edit?
usp=drive_link&ouid=115987522334457635908&rtpof=true&sd=true
13
Hình 1.1: Dashboard
Mô tả dashboard và phát hiện tính đặc thù của dữ liệu
1. Biểu đồ tương quan giữa điểm đào tạo và khả năng hoàn thành KPI của nhân
viên
Hình 1.2: Biểu đồ tương quan giữa điểm đào tạo và khả năng hoàn thành KPI
của nhân viên
Qua biểu đồ ta có thể thấy:
- Nhân viên đạt KPI nhiều nhất tại khoảng 54-69 điểm đào tạo
- Nhân viên đạt KPI ít nhất tại khoảng >= 84 điểm đào tạo
- Nhân viên chưa đạt KPI nhiều nhất tại khoảng <54 điểm đào tạo
- Nhân viên chưa đạt KPI ít nhất tại khoảng >= 84 điểm đào tạo
Qua biểu đồ có thể thấy sự chênh lệch giữa đạt và không đạt KPI dựa trên điểm
đào tạo là không nhiều. Tuy nhiên, ở mức điểm đào tạo thấp hơn 54 thì số nhân
viên đạt và không đạt KPI lại khá chênh lệch, trong khi tại các mức điểm khác
nhân viên đạt KPI chiếm khoảng từ 36% - 42% thì tại mức điểm thấp hơn 54 chỉ
14
chiếm 29%, có thể thấy việc đào tạo cũng có ảnh hưởng đến chỉ số đạt KPI của
nhân viên. Vì vậy nên cần đặc biệt chú ý việc đào tạo nhóm phân khúc này.
2. Biểu đồ tương quan giữa phòng ban và độ tuổi tác động đến khả năng hoàn thành
KPI của nhân viên
Hình 1.3: Biểu đồ tương quan giữa phòng ban và độ tuổi tác động đến khả năng
hoàn thành KPI của nhân viên
Qua biểu đồ ta có thể thấy số lượng nhân viên đạt KPI dựa trên phòng ban và độ
tuổi cụ thể như sau:
- Nhân viên đạt KPI nhiều tại các phòng Operations, Sales & Marketing,
Technology, Procurement trong đó:
+ Độ tuổi hoàn thành KPI cao nhất tại khoảng 30-40 tuổi
+ Độ tuổi hoàn thành KPI thấp nhất tại khoảng >= 50 tuổi
- Nhân viên chưa đạt KPI nhiều tại các phòng Operations, Sales & Marketing,
Technology, Procurement, Analytics trong đó:
+ Độ tuổi chưa hoàn thành KPI cao nhất tại khoảng 30-40 tuổi
+ Độ tuổi chưa hoàn thành KPI thấp nhất tại khoảng >= 50 tuổi
Không có sự chênh lệch giữa các phòng ban, độ tuổi về khả năng đạt KPI của
nhân viên. Tuy nhiên có thể thấy, ở độ tuổi khoảng 30 - 40 có số lượng đạt KPI
cao nhất với tổng các phòng ban là 3154 nhân viên chiếm khoảng 57%, trong khi
và cũng là độ tuổi không đạt KPI nhiều nhất với tổng các phòng ban là 5295 nhân
viên chiếm khoảng 53%, vì chiếm tỉ số lớn nhất nên cũng cần tập trung vào độ
tuổi này để đào tạo để duy trì và nâng cao hiệu suất, đồng thời tăng cường giao
tiếp giữa các nhóm tuổi để nhân viên có thể cập nhập kỹ năng, trao đổi kinh
nghiệm với nhau.
15
3. Biểu đồ tương quan giữa kênh tuyển dụng và khả năng hoàn thành KPI của nhân
viên
Hình 1.4: Biểu đồ tương quan giữa kênh tuyển dụng tác động đến khả năng hoàn thành
KPI của nhân viên
Qua biểu đồ ta có thể thấy số lượng nhân viên đạt KPI so với lượng nhân viên chưa
đạt KPI dựa trên kênh tuyển dụng không có sự chênh lệch nhiều. Vậy nên có thể kết luận
rằng yếu tố Kênh tuyển dụng không ảnh hưởng đến khả năng hoàn thành KPI của nhân
viên, ở bất kì kênh tuyển dụng nào cũng có số lượng nhân viên đạt KPI và không đạt KPI
như nhau.
4. Biểu đồ tương quan giữa trình độ học vấn và khả năng hoàn thành KPI của nhân
viên
16
Hình 1.5: Biểu đồ tương quan giữa trình độ học vấn tác động đến khả năng hoàn thành
KPI của nhân viên
Qua biểu đồ ta có thể thấy số lượng nhân viên đạt KPI dựa trên trình độ học vấn
cụ thể như sau:
- Nhân viên đạt KPI nhiều nhất là trình độ cử nhân chiếm khoảng 67% và thạc sĩ là
1759 chiếm khoảng 32%
- Nhân viên không đạt KPI ở trình độ cử nhân chiếm khoảng 68%, thạc sĩ chiếm
khoảng 31%
Có thể thấy về yếu tố Trình độ học vấn không có sự chênh lệch giữa nhân viên đạt
KPI và không đạt KPI, yếu tố Trình độ học vấn không ảnh hưởng nhiều đến khả
năng đạt KPI. Tuy nhiên vẫn có thể thấy trình độ học vấn lại là một trong những
yếu tố rất quan trọng trong tuyển dụng nhân sự, trình độ trung cấp chỉ chiếm tỉ số
rất nhỏ trong bộ phận nhân sự.
5. Biểu đồ tương quan giữa giới tính và khả năng hoàn thành KPI của nhân viên
Hình 1.6: Biểu đồ tương quan giữa giới tính và khả năng hoàn thành KPI của nhân viên
+ Nhân viên Nam đạt KPI và không đạt KPI đều chiếm khoảng 67% - 71%
+ Nhân viên Nữ đạt KPi và không đạt KPI đều chiếm khoảng 33% - 29%
Qua biểu đồ ta có thể thấy yếu tố giới tính chưa cho chúng ta thấy được sự tác
động đến khả năng hoàn thành KPI của nhân viên bởi không có sự khác biệt giữa
khả năng hoàn thành KPI của giới tính.
17
6. Biểu đồ tương quan giữa số năm đào tạo và khả năng hoàn thành KPI của nhân
viên
Hình 1.7: Biểu đồ tương quan giữa số năm đào tạo và khả năng hoàn thành KPI của
nhân viên
Qua biểu đồ ta có thể thấy với số năm đào tạo nhiều hay ít thì số nhân viên không
đạt KPI cũng nhiều hơn nhân viên đạt KPI, cụ thể nhân sự chủ yếu hầu hết đều được đào
tạo dưới 3 năm, năm đào tạo từ 5-7, hay từ 7 trở lên chiếm tỉ số rất nhỏ.
+ Nhân viên đạt KPI với số năm đào tạo dưới 3 năm là 5401với tổng nhân viên có số
năm đào tạo dưới 3 năm là 14811, vậy chiếm khoảng 36%.
+ Nhân viên đạt KPI với số năm đào tạo từ 3-5 năm chiếm khoảng 29%.
+ Nhân viên đạt KPI với số năm đào tạo từ 5-7 năm và trên 7 năm chiếm tỉ số rất
nhỏ nên không xét đến.
Yếu tố Năm đào tạo không ảnh hưởng nhiều đến KPI của nhân viên, có sự chênh
lệch không quá nhiều giữa hai đối tượng.. Có thể với số năm đào tạo ít hơn nhưng
lại hiệu quả hơn với chương trình sát thực tế, đúng trọng tâm công việc, cập nhập
xu hướng mới phù hợp với thị trường. Vì vậy nên cần tập trung phát triển vào chất
lượng chương trình đào tạo có tính ứng dụng cao để hiệu suất nhân viên hiệu quả
hơn.
7. Kết luận chung
Tổng quát, biểu đồ cho thấy một số yếu tố như điểm đào tạo, phòng ban, độ tuổi
có thể ảnh hưởng đến khả năng đạt KPI của nhân viên, trong khi kênh tuyển dụng, giới
tính, và số năm đào tạo không có ảnh hưởng lớn.
Từ đó đưa ra một số kiến nghị như sau:
18
- Tối ưu hóa đào tạo cho nhóm chưa đạt KPI:
+ Tăng cường đào tạo cho nhóm nhân viên chưa đạt KPI, đặc biệt ở khoảng
điểm <54
+ Tập trung vào nâng cao kỹ năng và hiểu biết liên quan đến công việc.
- Tạo chương trình đào tạo đặc biệt cho khoảng điểm :
+ Tạo ra các chương trình đào tạo đặc biệt cho nhóm có điểm đào tạo thấp.
+ Đảm bảo rằng nội dung đào tạo phản ánh chính xác yêu cầu công việc và
mục tiêu KPI.
- Cập nhật liên tục chương trình đào tạo:
+ Dựa trên phản hồi và kết quả đánh giá, cập nhật liên tục các chương trình
đào tạo để đảm bảo tính hiệu quả và đáp ứng nhanh chóng với yêu cầu thay
đổi của công việc.
+ Đối với nhóm độ tuổi 30-40 tuổi, tăng cường đào tạo để duy trì và nâng cao
hiệu suất.
+ Đối với nhóm >= 50 tuổi, cung cấp hỗ trợ đào tạo và tài trợ để đảm bảo họ
có cơ hội cập nhật kiến thức và kỹ năng mới.
- Tạo chương trình nghề nghiệp phát triển:
+ Phát triển chương trình nghề nghiệp cho nhân viên độ tuổi 40-50 và >50
tuổi, để họ có thể phát triển và đạt KPI.
+ Tăng cường sự tương tác giữa các nhóm độ tuổi để chia sẻ kinh nghiệm và
học hỏi lẫn nhau.
- Theo dõi và đánh giá định kỳ:
+ Thực hiện theo dõi định kỳ về tiến triển của nhân viên theo độ tuổi.
+ Đánh giá kết quả KPI để đảm bảo rằng mọi nhóm đều có cơ hội công bằng
để đạt được mục tiêu.
- Tạo môi trường làm việc thuận lợi:
+ Tạo môi trường làm việc tích cực và hỗ trợ để khuyến khích tất cả các nhân
viên đạt KPI.
+ Xác định và giải quyết bất kỳ vấn đề hoặc rắc rối trong môi trường làm việc
có thể ảnh hưởng đến hiệu suất.
- Liên kết KPI với phát triển sự nghiệp:
+ Liên kết mục tiêu KPI với phát triển sự nghiệp và thăng tiến để tạo động
lực mạnh mẽ cho tất cả các nhóm độ tuổi.
- Tăng cường đào tạo cho trình độ trung cấp:
+ Tăng cường chương trình đào tạo cho nhân viên có trình độ trung cấp để
nâng cao khả năng đạt KPI.
+ Tạo các cơ hội và ưu đãi đặc biệt để khuyến khích nhân viên trình độ trung
cấp tham gia đào tạo.
- Theo dõi và đánh giá hiệu suất trình độ Cử Nhân và Thạc Sĩ:
19
+ Theo dõi hiệu suất của nhân viên cử nhân và thạc sĩ để đảm bảo rằng trọng
số cao không chỉ phản ánh trình độ học vấn mà còn phản ánh hiệu suất
công việc.
+ Đánh giá liệu có cơ hội cải thiện hiệu suất của nhóm trình độ trung cấp hay
không.
- Phát triển chương trình đào tạo với trình độ học vấn:
+ Phát triển chương trình đào tạo linh hoạt có thể đáp ứng nhu cầu của tất cả
các trình độ học vấn.
+ Đảm bảo rằng nội dung đào tạo được thiết kế để giúp nhân viên áp dụng
kiến thức và kỹ năng vào công việc hàng ngày.
- Khuyến khích học hỏi liên tục:
+ Khuyến khích học hỏi liên tục và phát triển sự nghiệp, không phụ thuộc quá
nhiều vào trình độ học vấn ban đầu.
+ Tạo môi trường hỗ trợ để nhân viên có thể tự động nâng cao kỹ năng và
kiến thức của mình.
- Tăng cường đào tạo trong các khoảng thời gian ngắn:
+ Tăng cường chương trình đào tạo cho nhóm nhân viên có số năm đào tạo
<3 năm để họ có cơ hội đạt KPI cao hơn.
+ Tập trung vào cung cấp kiến thức và kỹ năng cần thiết để nhân viên có thể
đạt được mục tiêu công việc trong thời gian ngắn.
- Đào tạo liên quan đến nhu cầu công việc:
+ Đảm bảo rằng chương trình đào tạo được thiết kế để đáp ứng chính xác nhu
cầu của công việc và yêu cầu của KPI.
+ Thực hiện đánh giá nhu cầu đào tạo định kỳ để cập nhật nội dung theo thời
gian.
- Hỗ trợ phát triển nghề nghiệp dài hạn:
+ Đối với nhóm có số năm đào tạo >=5-7 năm, tạo các chương trình hỗ trợ
phát triển nghề nghiệp dài hạn để khuyến khích họ tiếp tục học hỏi và phát
triển.
20
2.4.2. Các kiến thức chuyên ngành có liên quan
Trong chuyên ngành quản lý, các kiến thức và kỹ năng liên quan đến quản lý hiệu
suất, quản lý nhân sự, quản lý chiến lược và quản lý dự án đóng vai trò quan trọng trong
việc điều hành và cải thiện hiệu suất của một tổ chức như:
- Quản lý hiệu suất: việc đo lường và đánh giá hiệu suất làm việc là một phần quan
trọng của việc đảm bảo sự hiệu quả của các quy trình và hoạt động sản xuất. Việc
áp dụng các KPIs phù hợp và thiết lập hệ thống theo dõi và đánh giá hiệu suất sẽ
giúp các nhà quản lý theo dõi và cải thiện hiệu suất của các quy trình và hoạt động
trong công ty.
- Quản lý nhân sự: đóng vai trò quan trọng trong việc tạo ra một môi trường làm
việc tích cực, động viên và phát triển nhân viên. Bằng cách áp dụng các phương
pháp đào tạo và thúc đẩy phát triển nhân viên hiệu quả, nhà quản lý có thể đảm
bảo rằng nhân sự của tổ chức có đủ năng lực và động lực để đạt được KPIs và
đóng góp vào sự phát triển của tổ chức đó.
- Quản lý dự án: Việc nhà quản lý dự án sử dụng mô hình dự đoán về KPI có thể
giúp đảm bảo tổng thể dự án được vận hành triển khai và kiểm tra giám sát một
cách hiệu quả, đúng thời hạn và trong khoảng ngân sách cho phép.
Tóm lại, các kiến thức và kỹ năng trong quản lý hiệu suất, quản lý nhân sự và quản lý dự
án đều đóng vai trò quan trọng trong việc điều hành và cải thiện hiệu suất của tổ chức
trong lĩnh vực quản lý công.
21
Đường dẫn tới File Orange bài toán phân lớp:
https://drive.google.com/file/d/15hSfxttKHmSPO6qGtr4cwvwLYvAtvi8P/view?usp=drive_link
22
đánh giá cao hơn 4 có khả năng hoàn thành được KPI cao nhất, và nhóm nhân viên
có điểm đánh giá thấp hơn 2 có khả năng hoàn thành được KPI thấp nhất.
- Yếu tố giải thưởng cũng có tác động lớn đến tỷ lệ hoàn thành KPI của nhân viên.
Theo đó, nhóm nhân viên đã từng được nhận giải thưởng sẽ có năng lực đạt được
KPI đề ra cao hơn so với nhóm nhân viên chưa từng đạt giải.
- Phòng ban của nhân viên cũng quyết định đến khả năng làm việc của họ. Nhóm
nhân viên từ các phòng ban như R&D và Procurement có tỷ lệ hoàn thành công
việc cao hơn những nhân nhân viên từ phòng Sales & Marketing.
- Bên cạnh đó, một số yếu tố như giới tính, trình độ, số lượng khóa đào tạo,... ít ảnh
hưởng đến năng lực làm việc của nhân viên.
2.4.4.2. Phân tích chuyên sâu dùng mô hình Tree
23
2.4.4.3. Phân tích dựa trên Test and Score
- Đối với chỉ số AUC: cao nhất là mô hình hồi quy Logistic với 0.698, mô hình
SVM là 0.518 và mô hình Tree là 0.599
- Đối với chỉ số CA: cao nhất là mô hình hồi quy Logistic với 0.664, mô hình
SVM là 0.569 và mô hình Tree là 0.628
- Đối với chỉ số F1: cao nhất là mô hình hồi quy Logistic với 0.645, mô hình
SVM là 0.562 và mô hình Tree là 0.615
- Đối với chỉ số Precision: cao nhất là mô hình hồi quy Logistic với 0.645, mô
hình SVM là 0.556 và mô hình Tree là 0.610
- Đối với chỉ số Recall: cao nhất là mô hình hồi quy Logistic với 0.664, mô hình
SVM là 0.569 và mô hình Tree là 0.628
Nhận xét: Dựa trên kết quả của Test and Score, các chỉ số của mô hình hồi quy Logistic
đều cao nhất, có thể kết luận đây là mô hình hiệu quả nhất.
24
Hình 2.5: Ma trận nhầm lẫn của phương pháp SVM
- Mô hình dự đoán số nhân viên sẽ đạt được KPI nhưng thực tế là không đạt được
có 421 trường hợp.
- Mô hình dự đoán số nhân viên sẽ không đạt được KPI nhưng thực tế là đạt được
có 522 trường hợp.
Hình 2.6: Ma trận nhầm lẫn của phương pháp hồi quy Logistic
25
- Mô hình dự đoán số nhân viên sẽ đạt được KPI nhưng thực tế là không đạt được
có 240 trường hợp.
- Mô hình dự đoán số nhân viên sẽ không đạt được KPI nhưng thực tế là đạt được
có 496 trường hợp.
- Mô hình dự đoán số nhân viên sẽ đạt được KPI nhưng thực tế là không đạt được
có 320 trường hợp.
- Mô hình dự đoán số nhân viên sẽ không đạt được KPI nhưng thực tế là đạt được
có 495 trường hợp.
Dựa vào ma trận nhầm lẫn:
- Sai lầm loại 1 là dự đoán nhân viên sẽ đạt được KPI nhưng thực tế là không đạt
được: tình hình kinh doanh hoặc hoạt động của doanh nghiệp có thể gặp khó khăn
trong việc đạt được mục tiêu đề ra. Điều này có thể dẫn đến trì hoãn hoặc thậm chí
là thất bại của dự án.
- Sai lầm loại 2 là dự đoán nhân viên sẽ không đạt được KPI nhưng thực tế là đạt
được: nhà quản lý có thể bị mất cơ hội để tận dụng tối đa nguồn lực và tiềm năng
của nhân viên.
Dựa theo phân tích trên thì sai lầm loại 1 sẽ có phần nghiêm trọng hơn so với sai
lầm loại 2.
Nhận xét: dựa trên số liệu sai lầm loại 2 của cả ba phương pháp thì mô hình hồi quy
Logistic cho ra kết quả sai lầm ít nhất là 240. Do đó mô hình này sẽ hiệu quả nhất.
26
2.4.4.5. Phân tích dựa trên ROC Analysis
Nhận xét: Đồ thị ROC của phương pháp hồi quy Logistics tiếp cận gần điểm 1 trên trục
tung nhiều nhất, hay nói cách khác, đường cong ROC của Logistics Regression có giá trị
true positive rate (TPR) cao nhất.
2.4.4.6. Lựa chọn mô hình
Các kết quả phân tích đều cho thấy rằng việc sử dụng phương pháp hồi quy
Logistic cho bộ dữ liệu này mang lại hiệu quả cao hơn so với các phương pháp khác. Do
đó, nhóm sẽ sử dụng phương pháp này để đưa ra dự đoán về khả năng hoàn thành KPI
của nhân viên trong khu vực công.
27
lực làm việc và cải thiện khả năng hoàn thành KPI. Đồng thời, việc tăng cường
đào tạo cũng giúp giảm bớt rủi ro về sai lầm loại 1.
- Tạo động lực và ghi nhận thành tích: Việc tạo điều kiện để nhân viên cảm thấy
động viên và ghi nhận thành tích của họ thông qua việc trao giải thưởng và công
nhận công việc tốt sẽ tăng khả năng hoàn thành KPI và giảm rủi ro của sai lầm loại
2.
- Xây dựng môi trường làm việc tích cực: Tạo ra một môi trường làm việc tích cực
và hỗ trợ, nơi mà nhân viên cảm thấy được đánh giá cao và được khuyến khích để
phát triển và đóng góp, có thể giúp tăng hiệu suất làm việc và giảm bớt rủi ro về
nhầm lẫn.
- Điều chỉnh tiêu chí đánh giá: Cân nhắc việc điều chỉnh tiêu chí đánh giá hiệu suất
ở các phòng ban khác nhau, để tạo nên tiêu chí đánh giá công bằng, phản ánh
chính xác hơn sự đóng góp và hiệu suất của nhân viên.
- Theo dõi và phản hồi định kỳ: Cuối cùng, thực hiện việc theo dõi và đánh giá hiệu
suất của nhân viên định kỳ, cung cấp phản hồi xây dựng và hướng dẫn cải thiện
khi cần thiết. Điều này giúp giữ cho nhân viên cảm thấy được hỗ trợ và tiếp tục
phát triển.
29
hiệu suất làm việc tương đồng, xác định các yếu tố chính ảnh hưởng đến hiệu suất của
từng nhóm. Từ đó giúp nhà quản lý hiểu rõ hơn về nhân viên và các yếu tố ảnh hưởng
đến hiệu suất làm việc của nhân viên, đưa ra các giải pháp phù hợp để cải thiện hiệu suất
làm việc và tăng hiệu quả hoạt động của tổ chức.
2.5.3 Các kiến thức chuyên ngành liên quan đến bài toán
Hiệu suất làm việc của một nhân viên được định nghĩa là cách mà họ hoàn thành
nhiệm vụ công việc và các yêu cầu nhiệm vụ khác. Nó liên quan đến chất lượng và hiệu
quả của sản phẩm hoặc dịch vụ mà họ cung cấp. Hiệu suất đóng góp vào việc đánh giá
giá trị của một nhân viên đối với một tổ chức. Mỗi nhân viên đều là một đầu tư quan
trọng của doanh nghiệp, vì vậy, lợi ích mà mỗi nhân viên mang lại phải rất đáng kể.
Hiệu suất làm việc là một chỉ số hữu ích giúp đánh giá nhân viên, các phòng ban
hoặc bộ phận có đang thực hiện công việc tốt hay không, và giúp nhà quản lý đo lường
cách tài nguyên trong doanh nghiệp được sử dụng để đạt được mục tiêu công việc. Có
nhiều yếu tố có thể ảnh hưởng đến hiệu suất làm việc, bao gồm: trình độ học vấn, số
lượng đào tạo, thời gian phục vụ, KPI đạt hơn 80%, giải thưởng đạt được, và điểm đào
tạo trung bình.
Bài toán được đặt ra hướng đến giải quyết vấn đề liên quan đến nhân viên có hiệu
suất làm việc thấp, đây là bài toán có tác động mạnh mẽ đến doanh nghiệp. Vận dụng
Khoa học dữ liệu, ta phân loại được các cụm nhân viên có năng suất làm việc cao, vừa và
thấp, giúp bộ phận quản lý có cái nhìn đúng và đưa ra những giải pháp phù hợp về các
vấn đề như thăng tiến, tiền lương, trợ cấp,...
2.5.4 Chạy mô hình và kết quả
Bước 1: Xây dựng mô hình
Tạo file, gắn link dữ liệu tiền xử lý để đưa dữ liệu vào
30
Bước 2: Chọn dữ liệu
Sử dụng Select Rows và Select Columns để lọc những nhân viên không đạt KPI (=0)
31
Bước 3: Sử dụng phương pháp K-Means để phân cụm dữ liệu
Từ bộ dữ liệu, kéo thả K-Means để tiến hành phân cụm. Nhấn đúp chuột vào biểu
tượng để xuất hiện hộp thoại K-Means. Number of Clusters chọn From 2 to 10 để cho ra
kết quả của Silhouette Scores từng trường hợp.
Đối với phương pháp này, để phân tích, đánh giá xem bộ dữ liệu này nên được
phân ra bao nhiêu cụm là hợp lý nhất thì dựa vào giá trị của Silhouette Scores của từng
kiểu phân cụm, sau đó đánh giá và chọn ra phương pháp tối ưu. Giá trị Silhouette Scores
trung bình càng cao, càng tiến đến 1 thì phương pháp phân cụm đó sẽ càng chính xác, tin
cậy hơn. Ngược lại, càng hướng đến -1 thì phương pháp thiếu độ tin cậy và độ chính xác
thấp.
Với kết quả chạy trên, bảng Silhouette cho thất nếu ta phân bộ dữ liệu này lần lượt
thành 2, 3, 4, 5, 6, 7, 8,9 10 cụm thì có giá trị Silhouette trung bình lần lượt là 0,194;
0,120; 0,146; 0,132; 0,119; 0,127; 0,126; 0,117; 0,125. Nguyên tắc khi giá trị Silhouette
càng lớn thì phương án phân cụm càng đáng tin cậy.
Từ kết quả của phương pháp K-Means, có thể thấy răng ta nên chọn phân thành 2
cụm vì chỉ số Silhouette scores của 2 nhóm tiến đến gần 1 nhất.
32
Dưới đây là bảng Silhouette Plot khi chia thành 2 cụm như sau:
Sử dụng Select Rows để lọc cụm 1 và Feature Statistics để xem mô ta dữ liệu. Làm tương
tự với cụm 2
Hình 3.7: Dữ liệu cụm 1
Mô tả dữ liệu cụm 1: Cụm 1 bao gồm những nhân viên không đạt KPI, có các đặc
điểm là số lượng đào tạo nhỏ hơn 3; Phòng ban có số nhân viên trong cụm nhiều nhất là
Sales & Marketing; Trình độ học vấn là Master & Above; Giới tính là nam; Kênh tuyển
dụng khác; Độ tuổi là từ 40 đến 50 tuổi; Xếp hạng năm trước là 3-4; Chưa đạt được giải
thưởng nào và Điểm đào tạo trung bình là từ 54-69 điểm.
33
Hình 3.8: Dữ liệu cụm 2
Mô tả dữ liệu cụm 2: Cụm 2 bao gồm những nhân viên không đạt KPI, có các đặc
điểm là số lượng đào tạo nhỏ hơn 3; Phòng ban có số nhân viên trong cụm nhiều nhất là
Sales & Marketing; Trình độ học vấn là Bachelors; Giới tính là nam; Kênh tuyển dụng
khác; Độ tuổi là từ 30 đến 40 tuổi; Xếp hạng năm trước là 3-4; Chưa đạt được giải
thưởng nào và Điểm đào tạo trung bình là từ nhỏ hơn 54 điểm.
Nhận xét: Sự khác biệt rõ ràng giữa 2 cụm là trình độ học vấn, độ tuổi và điểm
đào tạo trung bình.
34
Đường dẫn tới File Orange bài toán phân cụm:
https://drive.google.com/file/d/1VrZzE8CZOSNH9kC8h7ePmkyTNg-LMi72/view?usp=drive_link
36
Chương III: KẾT LUẬN
Trong khu vực công, hiệu suất làm việc của nhân viên đóng vai trò quan trọng
trong việc định hình sự thành công và bền vững của tổ chức. Đối diện với một môi
trường thay đổi liên tục và áp lực ngày càng tăng, việc hiểu và quản lý các yếu tố ảnh
hưởng đến hiệu suất làm việc trở thành một phần không thể thiếu trong chiến lược quản
lý nhân sự.
Nhóm đã tiến hành nghiên cứu và phân tích những yếu tố ảnh hưởng đến hiệu suất
làm việc, để có thể cung cấp những kiến thức, giúp ích cho các doanh nghiệp, tổ chức
công.
Sử dụng phần mềm Orange và Excel để phân tích và đánh giá dữ liệu được cung
cấp bởi Kaggle thì nhóm em đã tìm hiểu được những yếu tố có tác động và làm giảm hiệu
suất làm việc. Các yếu tố về độ tuổi, phòng ban, mức độ đào tạo, trình độ chuyên môn,
điểm đánh giá đều có ảnh hưởng đến hiệu suất làm việc của các nhân viên trong khu vực
công.
Từ đó, nhóm em cũng đã đề xuất giải pháp để cải thiện hiệu suất làm việc:
● Tăng cường đào tạo và phát triển
● Tạo động lực và ghi nhận thành tích
● Xây dựng môi trường làm việc tích cực
● Điều chỉnh tiêu chí đánh giá
● Theo dõi và phản hồi định kỳ
● Tối ưu hóa quy trình làm việc
● Đảm bảo cân bằng giữa công việc và cuộc sống
Hiệu suất làm việc trong khu vực công được ảnh hưởng bởi nhiều yếu tố khác nhau,
từ môi trường làm việc đến lãnh đạo và quản lý, đào tạo và phát triển, công nghệ, sự cân
nhắc giữa công việc và cuộc sống, và sức khỏe và hạnh phúc cá nhân. Để đảm bảo sự
thành công và phát triển bền vững, tổ chức cần đưa ra các biện pháp cụ thể để quản lý và
tối ưu hóa những yếu tố này, từ đó tạo ra một môi trường làm việc đáng sống và phát
triển cho nhân viên.
37
TÀI LIỆU THAM KHẢO
1. Nguyễn, T. M. (n.d.). Slide bài giảng môn Khoa học dữ liệu.
2. Trần Thị Phương T. 2014 “ Ứng dụng phân cụm dữ liệu trong việc báo cáo gian
lận trên báo cáo tài chính”, MA thesis, Trường Đại học Kinh tế Tp. Hồ Chí Minh
3. Harter, J. (2022, 08 13). Employee Engagement vs. Employee Satisfaction and
Organizational Culture. Gallup. Retrieved 3 10, 2024, from
https://www.gallup.com/workplace/236366/right-culture-not-employee-
satisfaction.aspx
4. Ahmed, S. (2018, 6). Factors Affecting Employee Motivation Towards Employee
Performance: A Study on Banking Industry of Pakistan.
https://www.researchgate.net/publication/318163567_Factors_Affecting_Employe
e_Motivation_Towards_Employee_Performance_A_Study_on_Banking_Industry
_of_Pakistan
5. Tổng quan về tiền xử lý dữ liệu. (2017, 1 6). gizsolution
https://gizsolution.wordpress.com/2017/01/06/tong-quan-ve-tien-xu-ly-du-lieu/
38