You are on page 1of 39

ĐẠI HỌC UEH

TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC


KHOA QUẢN LÝ NHÀ NƯỚC

BÁO CÁO CUỐI KỲ


Môn học: KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH NHỮNG YẾU TỐ ẢNH HƯỞNG ĐẾN
HIỆU SUẤT LÀM VIỆC CỦA NHÂN VIÊN TRONG KHU VỰC CÔNG

Giảng viên : ThS. Nguyễn Mạnh Tuấn

Mã học phần : 24D1INF50905903

Nhóm thực hiện : Nhóm 3

Danh sách thành viên:


1 Nguyễn Thanh Phong (nhóm trưởng) 31211023755

2 Văn Huyền Châu 31211022193

3 Hà Thị Châm 31211022190

4 Trần Thị Linh Chi 31211026618

5 Trần Thị Kim Sương 31211022253

TP. Hồ Chí Minh, ngày 14 tháng 3 năm 2024


MỤC LỤC
DANH MỤC HÌNH ẢNH.................................................................................................2
DANH MỤC BẢNG BIỂU................................................................................................2
ĐƯỜNG LINK LIÊN KẾT TRONG BÀI.......................................................................3
LỜI CẢM ƠN....................................................................................................................4
BẢNG ĐÁNH GIÁ THÀNH VIÊN..................................................................................5
Chương I: TỔNG QUAN..................................................................................................6
1.1 Lý do chọn đề tài........................................................................................................6
1.2 Mục tiêu nghiên cứu...................................................................................................7
1.3 Đối tượng nghiên cứu.................................................................................................7
1.4 Phương pháp thực hiện...............................................................................................7
1.4.1 Phương pháp nghiên cứu lý luận.........................................................................7
1.4.2 Phương pháp nghiên cứu thực tiễn......................................................................7
Chương II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ................................................8
2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu..............................................................8
2.2. Tiền xử lý dữ liệu......................................................................................................9
2.3 Bài toán phát hiện các điểm đặc thù và xây dựng Dashboard..................................13
2.4 Bài toán phân lớp.....................................................................................................20
2.4.1. Mô tả bài toán...................................................................................................20
2.4.2. Các kiến thức chuyên ngành có liên quan.........................................................21
2.4.3. Chạy mô hình....................................................................................................21
2.4.4. Phân tích............................................................................................................22
2.4.4.1. Phân tích chuyên sâu dùng hồi quy Logistic..............................................22
2.4.4.2. Phân tích chuyên sâu dùng mô hình Tree...................................................23
2.4.4.3. Phân tích dựa trên Test and Score..............................................................24
2.4.4.4. Phân tích dựa trên ma trận nhầm lẫn..........................................................25
2.4.4.5. Phân tích dựa trên ROC Analysis...............................................................27
2.4.4.6. Lựa chọn mô hình.......................................................................................27
2.4.5. Đánh giá kết quả...............................................................................................27
2.5 Bài toán phân cụm....................................................................................................28
2.5.1 Cơ sở lý luận về phân cụm dữ liệu....................................................................28
2.5.2 Mô tả bài toán....................................................................................................29
2.5.3 Các kiến thức chuyên ngành liên quan đến bài toán..........................................30
2.5.4 Chạy mô hình và kết quả...................................................................................30
2.5.5 Giải pháp............................................................................................................35
2.5.5.1 Đối với những nhân viên ở cụm 1...............................................................35
2.5.5.2 Đối với những nhân viên ở cụm 2...............................................................35
Chương III: KẾT LUẬN.................................................................................................37
TÀI LIỆU THAM KHẢO...............................................................................................38

1
DANH MỤC HÌNH ẢNH
Hình 1.1: Dashboard.....................................................................................................13
Hình 1.2: Biểu đồ tương quan giữa điểm đào tạo và khả năng hoàn thành KPI của nhân
viên...............................................................................................................................14
Hình 1.3: Biểu đồ tương quan giữa biểu đồ tương quan giữa phòng ban và độ tuổi tác
động đến khả năng hoàn thành KPI của nhân viên.......................................................14
Hình 1.4: Biểu đồ tương quan giữa kênh tuyển dụng tác động đến khả năng hoàn thành
KPI của nhân viên.........................................................................................................15
Hình 1.5: Biểu đồ tương quan giữa trình độ học vấn tác động đến khả năng hoàn thành
KPI của nhân viên.........................................................................................................16
Hình 1.6: Biểu đồ tương quan giữa giới tính và khả năng hoàn thành KPI của nhân viên
......................................................................................................................................17
Hình 1.7: Biểu đồ tương quan giữa số năm đào tạo và khả năng hoàn thành KPI của nhân
viên...............................................................................................................................17
Hình 2.1: Mô hình Orange bài toán phân lớp...............................................................21
Hình 2.2: Kết quả phân tích hồi quy Logistic...............................................................22
Hình 2.3: Tree Viewer..................................................................................................23
Hình 2.4: Kết quả Test and Score.................................................................................24
Hình 2.5: Ma trận nhầm lẫn của phương pháp SVM....................................................25
Hình 2.6: Ma trận nhầm lẫn của phương pháp hồi quy Logistic..................................25
Hình 2.7: Ma trận nhầm lẫn của phương pháp Tree.....................................................26
Hình 2.8: Đồ thị biểu diễn đường cong ROC...............................................................27
Hình 3.1: Minh họa phương pháp phân cụm................................................................28
Hình 3.2: File dữ liệu....................................................................................................30
Hình 3.3: Select Rows và Select Columns...................................................................31
Hình 3.4: Dữ liệu trước phân cụm................................................................................31
Hình 3.5: Kết quả K-Means..........................................................................................32
Hình 3.6: Kết quả Silhouette Plot.................................................................................33
Hình 3.7: Dữ liệu cụm 1...............................................................................................33
Hình 3.8: Dữ liệu cụm 2...............................................................................................34
Hình 3.9: Mô hình phân cụm........................................................................................34

DANH MỤC BẢNG BIỂU


Bảng 1: Thông tin bộ dữ liệu nhân viên sử dụng trong nghiên cứu này........................8

2
ĐƯỜNG LINK LIÊN KẾT TRONG BÀI
File Drive:
https://drive.google.com/drive/folders/1EQdv9yG44uX429o6wjIhmAZXKIoiy0wz?
usp=drive_link

https://www.kaggle.com/datasets/sanjanchaudhari/employees-performance-for-hr-
analytics/data .....................................................................................................................9
https://drive.google.com/file/d/1NFq_-suave2krD6GJ-BT4nMyrw7oYLS6/view?
usp=drive_link...................................................................................................................13
https://docs.google.com/spreadsheets/d/1isjL1b-
24OwOibshZgtUc7PPcQC7kvfUbxuL9PAhsn0/edit?usp=drive_link..............................13
https://drive.google.com/file/d/15hSfxttKHmSPO6qGtr4cwvwLYvAtvi8P/view?
usp=drive_link...................................................................................................................21
https://drive.google.com/file/d/1VrZzE8CZOSNH9kC8h7ePmkyTNg-LMi72/view?
usp=drive_link...................................................................................................................35

3
LỜI CẢM ƠN
Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn đến Trường Đại học Kinh tế
Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng dạy.
Đây là một bộ môn vô cùng cần thiết, đem lại kiến thức hữu dụng cho quá trình làm việc
sau này. Đặc biệt, nhóm xin được bày tỏ lòng cảm ơn sâu sắc và chân thành nhất đến
Giảng viên Nguyễn Mạnh Tuấn. Cảm ơn Thầy đã nhiệt tình giảng dạy và cung cấp cho
chúng em những kiến thức chuyên môn đầy bổ ích và thiết thực, là nền tảng vững chắc
giúp chúng em thực hiện bài đồ án cuối kỳ. Trong thời gian tham gia lớp học Khoa học
dữ liệu của Thầy, chúng em đã tiếp thu được vô vàn kiến thức bổ ích, một tinh thần học
tập nghiêm túc và hiệu quả. Đây chắc chắn sẽ là những kiến thức quý báu và là hành
trang cho con đường sau này của chúng em.
Bài đồ án sẽ không thể tránh khỏi những thiếu sót do còn nhiều hạn chế trong vốn
kiến thức. Nhóm chúng em rất mong nhận được những ý kiến đóng góp và nhận xét từ
Thầy để có thể tiếp thu, khắc phục và dần hoàn thiện hơn ở những lần tiếp theo.
Lời cuối cùng, nhóm chúng em xin chúc Thầy nhiều sức khỏe, thành công và công
tác tốt. Xin trân trọng cảm ơn Thầy vì những kiến thức quý báu mà Thầy truyền đạt cho
chúng em!

4
BẢNG ĐÁNH GIÁ THÀNH VIÊN

Mức độ
STT Họ và Tên MSSV Thực hiện
hoàn thành

1 Nguyễn Thanh Phong 31211023755 Bài toán phân lớp 100%

Mô tả nguồn dữ liệu
2 Văn Huyền Châu 31211022193 Tiền xử lý dữ liệu 100%
Bài toán phát hiện điểm đặc thù

Hà Thị Châm 31211022190 Xây dựng dashboard


3 100%
Bài toán phát hiện điểm đặc thù

Trần Thị Linh Chi 31211026618 Trình bày báo cáo


4 100%
Bài toán phân cụm

Trần Thị Kim Sương 31211022253 Giới thiệu tổng quan đề tài
5 100%
Bài toán phân cụm

5
Chương I: TỔNG QUAN

1.1 Lý do chọn đề tài


Cốt lõi cho sự thành công của một tổ chức hay doanh nghiệp chính là nhân viên,
người cống hiến sức lực và trí tuệ cho tổ chức, doanh nghiệp đó. Họ là những trụ cột
quan trọng, đem lại giá trị không chỉ thông qua công việc hàng ngày mà còn qua sự cam
kết, sáng tạo và ý chí làm việc. Tầm quan trọng của nhân viên không chỉ nằm ở việc thực
hiện nhiệm vụ được giao một cách hiệu quả, mà còn ở khả năng hòa nhập vào văn hóa tổ
chức, đồng thời mang lại sự đóng góp tích cực trong việc xây dựng môi trường làm việc
tích cực và sáng tạo. Họ là những người mang lại động lực cho sự phát triển, là nguồn
năng lượng để đưa doanh nghiệp vượt qua thách thức và tạo ra những cơ hội mới. Ở các
tổ chức nói chung, đặc biệt là trong khu vực công nói riêng thì nhân viên là người tiếp
xúc trực tiếp và phục vụ người dân, tạo ra mối quan hệ tốt đẹp, từ đó gây dựng niềm tin
của người dân với các cơ quan nhà nước. Trong tổ chức hay doanh nghiệp, sự chú trọng
đầu tư vào nhân viên không chỉ là một chiến lược kinh doanh mà còn là yếu tố quyết định
đến thành công và sự phát triển bền vững trong dài hạn. Việc phân tích các yếu tố ảnh
hưởng đến hiệu suất làm việc không chỉ là một sự phản ánh của sự quan tâm đến nguồn
lực nhân sự mà còn là một phần không thể thiếu trong việc tối ưu hóa năng suất lao động
và cải thiện chất lượng dịch vụ công. Vậy nên, nhóm đánh giá đề tài này có mối quan hệ
liên quan gần với ngành Quản lý công mà nhóm đang theo học.
Mặt khác, trong bối cảnh toàn cầu hóa và cạnh tranh gay gắt, việc nâng cao hiệu
suất làm việc không chỉ là một yêu cầu mà còn là một hạng mục cần thiết để tồn tại và
phát triển. Qua việc phân tích các yếu tố ảnh hưởng đến hiệu suất của nhân viên trong
khu vực công, chúng ta có thể thu thập những thông tin quý giá để giải quyết các thách
thức, tối ưu hóa các nguồn lực và tạo ra những cơ hội mới cho sự phát triển bền vững của
các tổ chức và doanh nghiệp. Đồng thời, nghiên cứu này cũng đóng góp vào việc mở
rộng hiểu biết và kiến thức trong lĩnh vực quản lý nhân sự và phát triển tổ chức.
Phân tích các yếu tổ ảnh hưởng đến hiệu suất nhân viên luôn là vấn đề quan trọng
trong các kế hoạch phát triển tổ chức, doanh nghiệp. Do đó cũng có nhiều những bài
nghiên cứu liên quan đến vấn đề này. Một bài nghiên cứu nổi bật trong lĩnh vực đó là
“Nghiên cứu của Gallup về cam kết và hiệu suất làm việc”. Gallup đã tiến hành nhiều
nghiên cứu về mối liên kết giữa những cam kết của nhân viên và hiệu suất làm việc.
Nghiên cứu này đã chỉ ra rằng các yếu tố như sự hài lòng với công việc, sự tin tưởng vào
lãnh đạo và cơ hội phát triển đều có ảnh hưởng lớn đến hiệu suất làm việc của nhân viên.
Một nghiên cứu khác liên quan đến khu vực công là “Factors Affecting Employee
Performance: A Case Study of Banking Sector in Pakistan” (Amir Aslam, 2015). Nghiên
cứu này điều tra các yếu tố như mức độ đào tạo, công bằng trong việc thăng tiến và môi
trường làm việc để đánh giá tác động của chúng đến hiệu suất của nhân viên trong ngành
ngân hàng ở Pakistan. Nó cung cấp những thông tin quan trọng cho các tổ chức và quản
lý trong ngành ngân hàng để nhà lãnh đạo có thể tăng cường hiệu suất lao động bằng

6
cách cải thiện các yếu tố như đào tạo và công bằng trong việc thăng tiến. Đồng thời cũng
đóng góp vào việc hiểu rõ hơn về các yếu tố ảnh hưởng đến hiệu suất của nhân viên trong
các lĩnh vực công nghiệp khác nhau, không chỉ ở Pakistan mà còn ở các quốc gia khác
trên toàn thế giới.
Việc phân tích các yếu tố ảnh hưởng đến hiệu suất công việc của nhân viên trong
khu vực công là một đề tài có ý nghĩa to lớn, đem lại nhiều lợi ích quan trọng cho cả tổ
chức và cộng động. Vì vậy nhóm chúng em lựa chọn đề tài: “Phân tích những yếu tố
ảnh hưởng đến hiệu suất công việc của nhân viên trong khu vực công”.
Các bài toán được phân tích trong đề tài báo cáo ở mức độ 2 - liên quan gần.

1.2 Mục tiêu nghiên cứu


Bài nghiên cứu: “Phân tích những yếu tố ảnh hưởng đến hiệu suất công việc
của nhân viên trong khu vực công” nhằm tập trung vào những mục tiêu dưới đây:
● Xác định các yếu tố quan trọng ảnh hưởng đến hiệu suất công việc: Nghiên cứu sẽ
tiến hành phân tích để xác định và đánh giá những yếu tố nào có ảnh hưởng lớn đến hiệu
suất làm việc của nhân viên trong khu vực công.
● Đánh giá mức độ tác động của từng yếu tố: Mục tiêu là đưa ra đánh giá cụ thể về
mức độ tác động của từng yếu tố đến hiệu suất làm việc của nhân viên trong khu vực
công. Qua đó, nghiên cứu sẽ giúp xác định những yếu tố nào cần được ưu tiên và cải
thiện để tối ưu hóa năng suất lao động.
● Đề xuất biện pháp cải thiện: Dựa trên kết quả phân tích để có thể đề xuất các biện
pháp và chiến lược cụ thể để cải thiện môi trường làm việc của nhân viên trong khu vực
công.
● Đóng góp vào thực tiễn: Đóng góp vào việc mở rộng hiểu biết về các yếu tố ảnh
hưởng đến hiệu suất công việc trong khu vực công và áp dụng thực tiễn trong quản lý
nhân sự và phát triển tổ chức.
1.3 Đối tượng nghiên cứu
Đối tượng nghiên cứu là nhân viên của một công ty. Dữ liệu được thu thập và tạo
ra bởi công ty công nghệ IBM, sau đó được đăng tải trên trang web Kaggle bởi Sanjana
Chaudhari. Tập dữ liệu này chứa thông tin thô của 17417 nhân viên và bao gồm 13 cột
đặc tính.
1.4 Phương pháp thực hiện
1.4.1 Phương pháp nghiên cứu lý luận
Tổng hợp những thông tin, dữ liệu từ các trang web thống kê dữ liệu, bài báo, bài
nghiên cứu. Chọn lọc và phân tích các yếu tố, nhằm xây dựng cơ sở lý thuyết cho bài
nghiên cứu, dự đoán những yếu tố quan trọng ảnh hưởng đến hiệu suất công việc của
nhân viên.
1.4.2 Phương pháp nghiên cứu thực tiễn
Sử dụng các phương pháp thống kê, lọc và phân tích ứng dụng, ứng dụng phân lớp
và phân cụm dữ liệu để dự báo các yếu tố quan trọng của đề tài nghiên cứu với sự hỗ trợ

7
của các chương trình Orange và Excel. Từ đó xây dựng các mô hình dự báo những yếu tố
có tầm ảnh hưởng nhất để có thể có các biện pháp nâng cao hiệu suất làm việc của nhân
viên.

Chương II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ

2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu


Trong nghiên cứu này, bộ dữ liệu đã kiểm chứng thực nghiệm từ nghiên cứu của
nhóm tác giả được lựa chọn sử dụng để xây dựng và huấn luyện mô hình. Bộ dữ liệu sử
dụng cho nghiên cứu này được thu thập từ kho dữ liệu học Kaggle, bao gồm thông tin
của 17417 nhân viên với 13 thuộc tính được thể hiện chi tiết ở Bảng 1.

TT Thuộc tính Giải thích Kiểu dữ liệu Khoảng giá trị

1 employee_id ID nhân viên Interger 3 đến 78295


Sales & Marketing, Procurement, Finance,
2 department Phòng ban String Analytics, Technology, Operations, HR,
Legal, R&D
3 region Khu vực Interger 1 đến 34
Bachelors, Masters & above, Below
4 education Trình độ học vấn String
Secondary
5 gender Giới tính Integer 0,1
recruitment_chann
6 Kênh tuyển dụng String sourcing, other, referred
el
7 no_of_trainings Số lượng đào tạo Integer 1 đến 9
8 age Tuổi Integer 20 đến 60
previous_year_rati Xếp hạng năm
9 Integer 1 đến 5
ng trước
10 length_of_service Thời gian phục vụ Integer 1 đến 34
KPIs_met_more_th
11 KPI đạt hơn 80% Integer 0,1
an_80
Giải thưởng đạt
12 awards_won Integer 0,1
được
Điểm đào tạo trung
13 avg_training_score Integer 39 đến 99
bình
Bảng 1: Thông tin bộ dữ liệu nhân viên sử dụng trong nghiên cứu này

8
Mô tả cột để phân tích hiệu suất của nhân viên cho phân tích nhân sự:
1. ID nhân viên
Mã định danh duy nhất cho mỗi nhân viên
Theo dõi hiệu suất của nhân viên bằng ID
2. Phòng ban
Phân loại nhân viên thành các phòng ban khác nhau
Tác động của phòng ban đến hiệu quả hoạt động
3. Khu vực
Khu vực địa lý nơi làm việc của nhân viên
Sự khác biệt giữa các khu vực về hiệu quả hoạt động
4. Trình độ học vấn
Mối quan hệ về trình độ học vấn của nhân viên
Giữa trình độ học vấn và hiệu suất làm việc
5. Giới tính
Phân bổ nhân viên theo giới tính
Phân tích hiệu suất dựa trên giới
6. Kênh tuyển dụng
Nguồn tuyển dụng Nhân viên
So sánh hiệu suất dựa trên kênh tuyển dụng
7. Số lượng đào tạo
Số lượng chương trình đào tạo mà mỗi nhân viên tham gia
Ảnh hưởng của việc đào tạo đến hiệu suất
8. Tuổi
Tuổi của nhân viên
Tác động của tuổi tác đến hiệu suất của nhân viên
9. Xếp hạng năm trước
Đánh giá hiệu suất của nhân viên từ năm trước
Mối quan hệ giữa đánh giá năm trước và hiệu suất hiện tại
10. Thời gian phục vụ
Thời gian làm việc tại Công ty
Hiệu suất của nhân viên dựa trên nhiệm kỳ

2.2. Tiền xử lý dữ liệu


Tiền xử lý dữ liệu là quá trình xử lý dữ liệu thô nhằm cải thiện chất lượng dữ liệu.
Các kỹ thuật trong quy trình tiền xử lý dữ liệu (data preprocessing), bao gồm: làm sạch
dữ liệu (data cleaning), tích hợp dữ liệu (data integration), thu gọn dữ liệu (data
reduction) và chỉnh dạng dữ liệu (data transform)
Bài nghiên cứu này sử dụng bộ dữ liệu được tổng hợp từ trang
https://www.kaggle.com/datasets/sanjanchaudhari/employees-performance-for-hr-analytics/data

9
Làm sạch dữ liệu
Dữ liệu trên thực tế hầu như thường có xu hướng không toàn vẹn, bị nhiễu và
không đầy đủ dữ liệu. Vì vậy để có thể giải quyết những vấn đề trên thì chúng ta cần thực
hiện đó là bước làm sạch dữ liệu :
● Xử lý những dữ liệu bị thiếu: loại bỏ những mẫu tin liên quan đến dữ liệu bị thiếu,
bổ sung thủ công, thay thế bằng các giá trị được tính toán
● Xử lý nhiễu: so sánh với những dữ liệu lân cận (binning); khoảng cách, phân phối,
mật độ…(statistical approaches); gom cụm để phát hiện những dữ liệu bất thường
(clustering); chọn lựa các thuộc tính, phân tích tương quan (filter)
● Xử lý những dữ liệu không nhất quán: loại bỏ những dữ liệu không phản ánh đúng
nghĩa hoặc những dữ liệu được ghi nhận khác nhau đối với cùng một đối tượng
bằng cách hiệu chỉnh thủ công, khai thác siêu dữ liệu, tăng cường tập trung dữ liệu
(master reference store approach)
Tích hợp dữ liệu
Tích hợp dữ liệu là quá trình hợp nhất dữ liệu từ nhiều kho dữ liệu khác nhau.
Giúp ta làm giảm thu bớt dữ liệu, tránh dư thừa hay mất đi tính toàn vẹn trong tập dữ
liệu. Ngoài ra, tại bước này còn giúp ta cải thiện tốc độ, đồng thời tăng độ chính xác cho
quá trình khai phá dữ liệu sau này.
● Tích hợp dữ liệu từ nhiều nguồn: sao chép nhiều dữ liệu nguồn vào một nơi lưu
trữ chung;sao chép một dữ liệu nguồn đến các nơi khác (duplicate, replication); sử
dụng interfaces kết nối các dữ liệu nguồn; tổ chức kho dữ liệu
● Nhận diện đối tượng trùng lắp
● Nhận diện thông tin dư thừa: phân tích các thuộc tính dẫn xuất, phân tích tương
quan (hệ số Pearson, hệ số Spearman), kiểm định Chi bình phương với dữ liệu rời
rạc (Chi-square Testing)
Thu gọn dữ liệu
Thu gọn dữ liệu là kỹ thuật loại bỏ những thuộc tính dư thừa mà vẫn giữ được
thông tin quan trọng. Điều này giúp tối ưu hóa việc lưu trữ dữ liệu và tăng hiệu suất khi
xử lý dữ liệu.
● Tóm tắt đặc trưng: xu thế trung tâm (central tendency), sự phân tán (dispersion),
những giá trị bất thường (outliers)
● Giảm chiều dữ liệu: phân tích tương quan, PCA (Principal Component Analysis)
nén dữ liệu ( Wavelet Transforms )
● Thu giảm lượng: thay đổi dạng biểu diễn dữ liệu, các phương pháp có tham số
(parametric) như mô hình ước lượng…, các phương pháp phi tham số
(nonparametric) như histogram, clustering, sampling.
Chỉnh dạng dữ liệu
Chỉnh dạng dữ liệu là quá trình chuyển đổi dữ liệu từ dạng này sang dạng khác
phù hợp với quá trình khai phá dữ liệu, làm cho việc khai phá dữ liệu trở nên hiệu quả, và
các mô hình trở nên dễ hiểu hơn

10
● Làm trơn : binning, regression, clustering
● Bổ sung thuộc tính mới : gộp, tách các thuộc tính sẵn có; bổ sung ngữ nghĩa cho
dữ liệu; phân tích mối tương quan giữa các thuộc tính
● Tổng hợp : tổng hợp dữ liệu ở nhiều mức trừu tượng khác nhau như cubes, sum,...;
roll-up; drill-down
● Chuẩn hóa : miền giá trị chung cho các thuộc tính
● Rời rạc hóa : biến đổi dữ liệu liên tục, khoảng (interval); nhãn (label); cây phân
cấp khái niệm ( concept hierarchy) mỗi nút có thể là khoảng hay label.
Lý do chọn phương pháp tiền xử lý dữ liệu:
Sau khi xem xét 4 phương pháp tiền xử lý kết hợp với đánh giá đặc điểm của bộ
dữ liệu. Nhóm đã lựa chọn 2 phương pháp tiền xử lý phù hợp là : làm sạch dữ liệu và
chỉnh dạng dữ liệu.

Phương pháp 1 : làm sạch dữ liệu


Vì bộ dữ liệu có một số dữ liệu bị thiếu và nhiễu nên nhóm đã sử dụng phương
pháp làm sạch dữ liệu để loại bỏ những mẫu tin liên quan dữ liệu bị thiếu, giúp việc sử
dụng bộ dữ liệu hiệu quả không sai sót hay gián đoạn.
+ Biến phụ thuộc : KPIs_met_more_than_80 (đat KPI trên 80% hay không)
+ Biến độc lập : Các thuộc tính còn lại của bộ dữ liệu

Khi nhập bộ dữ liệu vào Orange, nhóm phát hiện có 0,9% missing values nên đã
sử dụng công cụ Impute Missing Values để xử lý.

11
Sau làm sạch dữ liệu bằng công cụ Impute Missing Values ta được kết quả no
missing data.

Phương pháp 2 : chỉnh dạng dữ liệu


Do bộ dữ liệu có các khoảng giá trị khá rộng nên nhóm quyết định sử dụng
phương pháp chỉnh dạng dữ liệu rời rạc hóa, biến đổi dữ liệu thành các khoảng để việc
khai phá dữ liệu hiệu quả hơn, mô hình dễ phân tích hơn.
Nhóm đã sử dụng công cụ Discretize Continuous Variables chia 4 bins có cùng
kích thước.

12
Sau chỉnh dạng dữ liệu

Lý do không chọn 2 phương pháp còn lại :


Vì sau khi làm sạch loại bỏ các dữ liệu bị thiếu và nhiễu, thì bộ dữ liệu đã khá tinh
gọn và đầy đủ, và mỗi dữ liệu đều đã có đặc trưng riêng nên nhóm không sử dụng
phương pháp thu gọn dữ liệu nữa.
Vì dữ liệu nhóm dùng đã cung cấp đầy đủ thông tin cho bài nghiên cứu nên việc
trộn lẫn dữ liệu sẽ gây dư thừa hoặc nhiễu bộ dữ liệu ảnh hưởng đến việc phân tích nên
nhóm không sử dụng phương pháp tích hợp dữ liệu.

Đường dẫn tới File Orange tiền xử lý dữ liệu:


https://drive.google.com/file/d/1NFq_-suave2krD6GJ-BT4nMyrw7oYLS6/view?usp=drive_link
Đường dẫn tới File Excel tiền xử lý dữ liệu:
https://docs.google.com/spreadsheets/d/1isjL1b-24OwOibshZgtUc7PPcQC7kvfUbxuL9PAhsn0/edit?usp=drive_link

2.3 Bài toán phát hiện các điểm đặc thù và xây dựng Dashboard.
Xây dựng dashboard
Đường dẫn tới File Excel xây dựng Dashboard:
https://docs.google.com/spreadsheets/d/1mzu0MPdkoP1J7TID0GfsPzZzT7Z8THxB/edit?
usp=drive_link&ouid=115987522334457635908&rtpof=true&sd=true

13
Hình 1.1: Dashboard
Mô tả dashboard và phát hiện tính đặc thù của dữ liệu
1. Biểu đồ tương quan giữa điểm đào tạo và khả năng hoàn thành KPI của nhân
viên

Hình 1.2: Biểu đồ tương quan giữa điểm đào tạo và khả năng hoàn thành KPI
của nhân viên
Qua biểu đồ ta có thể thấy:
- Nhân viên đạt KPI nhiều nhất tại khoảng 54-69 điểm đào tạo
- Nhân viên đạt KPI ít nhất tại khoảng >= 84 điểm đào tạo
- Nhân viên chưa đạt KPI nhiều nhất tại khoảng <54 điểm đào tạo
- Nhân viên chưa đạt KPI ít nhất tại khoảng >= 84 điểm đào tạo
 Qua biểu đồ có thể thấy sự chênh lệch giữa đạt và không đạt KPI dựa trên điểm
đào tạo là không nhiều. Tuy nhiên, ở mức điểm đào tạo thấp hơn 54 thì số nhân
viên đạt và không đạt KPI lại khá chênh lệch, trong khi tại các mức điểm khác
nhân viên đạt KPI chiếm khoảng từ 36% - 42% thì tại mức điểm thấp hơn 54 chỉ

14
chiếm 29%, có thể thấy việc đào tạo cũng có ảnh hưởng đến chỉ số đạt KPI của
nhân viên. Vì vậy nên cần đặc biệt chú ý việc đào tạo nhóm phân khúc này.
2. Biểu đồ tương quan giữa phòng ban và độ tuổi tác động đến khả năng hoàn thành
KPI của nhân viên

Hình 1.3: Biểu đồ tương quan giữa phòng ban và độ tuổi tác động đến khả năng
hoàn thành KPI của nhân viên
Qua biểu đồ ta có thể thấy số lượng nhân viên đạt KPI dựa trên phòng ban và độ
tuổi cụ thể như sau:
- Nhân viên đạt KPI nhiều tại các phòng Operations, Sales & Marketing,
Technology, Procurement trong đó:
+ Độ tuổi hoàn thành KPI cao nhất tại khoảng 30-40 tuổi
+ Độ tuổi hoàn thành KPI thấp nhất tại khoảng >= 50 tuổi
- Nhân viên chưa đạt KPI nhiều tại các phòng Operations, Sales & Marketing,
Technology, Procurement, Analytics trong đó:
+ Độ tuổi chưa hoàn thành KPI cao nhất tại khoảng 30-40 tuổi
+ Độ tuổi chưa hoàn thành KPI thấp nhất tại khoảng >= 50 tuổi
 Không có sự chênh lệch giữa các phòng ban, độ tuổi về khả năng đạt KPI của
nhân viên. Tuy nhiên có thể thấy, ở độ tuổi khoảng 30 - 40 có số lượng đạt KPI
cao nhất với tổng các phòng ban là 3154 nhân viên chiếm khoảng 57%, trong khi
và cũng là độ tuổi không đạt KPI nhiều nhất với tổng các phòng ban là 5295 nhân
viên chiếm khoảng 53%, vì chiếm tỉ số lớn nhất nên cũng cần tập trung vào độ
tuổi này để đào tạo để duy trì và nâng cao hiệu suất, đồng thời tăng cường giao
tiếp giữa các nhóm tuổi để nhân viên có thể cập nhập kỹ năng, trao đổi kinh
nghiệm với nhau.

15
3. Biểu đồ tương quan giữa kênh tuyển dụng và khả năng hoàn thành KPI của nhân
viên

Hình 1.4: Biểu đồ tương quan giữa kênh tuyển dụng tác động đến khả năng hoàn thành
KPI của nhân viên
Qua biểu đồ ta có thể thấy số lượng nhân viên đạt KPI so với lượng nhân viên chưa
đạt KPI dựa trên kênh tuyển dụng không có sự chênh lệch nhiều. Vậy nên có thể kết luận
rằng yếu tố Kênh tuyển dụng không ảnh hưởng đến khả năng hoàn thành KPI của nhân
viên, ở bất kì kênh tuyển dụng nào cũng có số lượng nhân viên đạt KPI và không đạt KPI
như nhau.
4. Biểu đồ tương quan giữa trình độ học vấn và khả năng hoàn thành KPI của nhân
viên

16
Hình 1.5: Biểu đồ tương quan giữa trình độ học vấn tác động đến khả năng hoàn thành
KPI của nhân viên
Qua biểu đồ ta có thể thấy số lượng nhân viên đạt KPI dựa trên trình độ học vấn
cụ thể như sau:
- Nhân viên đạt KPI nhiều nhất là trình độ cử nhân chiếm khoảng 67% và thạc sĩ là
1759 chiếm khoảng 32%
- Nhân viên không đạt KPI ở trình độ cử nhân chiếm khoảng 68%, thạc sĩ chiếm
khoảng 31%
 Có thể thấy về yếu tố Trình độ học vấn không có sự chênh lệch giữa nhân viên đạt
KPI và không đạt KPI, yếu tố Trình độ học vấn không ảnh hưởng nhiều đến khả
năng đạt KPI. Tuy nhiên vẫn có thể thấy trình độ học vấn lại là một trong những
yếu tố rất quan trọng trong tuyển dụng nhân sự, trình độ trung cấp chỉ chiếm tỉ số
rất nhỏ trong bộ phận nhân sự.
5. Biểu đồ tương quan giữa giới tính và khả năng hoàn thành KPI của nhân viên

Hình 1.6: Biểu đồ tương quan giữa giới tính và khả năng hoàn thành KPI của nhân viên

+ Nhân viên Nam đạt KPI và không đạt KPI đều chiếm khoảng 67% - 71%
+ Nhân viên Nữ đạt KPi và không đạt KPI đều chiếm khoảng 33% - 29%
 Qua biểu đồ ta có thể thấy yếu tố giới tính chưa cho chúng ta thấy được sự tác
động đến khả năng hoàn thành KPI của nhân viên bởi không có sự khác biệt giữa
khả năng hoàn thành KPI của giới tính.

17
6. Biểu đồ tương quan giữa số năm đào tạo và khả năng hoàn thành KPI của nhân
viên

Hình 1.7: Biểu đồ tương quan giữa số năm đào tạo và khả năng hoàn thành KPI của
nhân viên

Qua biểu đồ ta có thể thấy với số năm đào tạo nhiều hay ít thì số nhân viên không
đạt KPI cũng nhiều hơn nhân viên đạt KPI, cụ thể nhân sự chủ yếu hầu hết đều được đào
tạo dưới 3 năm, năm đào tạo từ 5-7, hay từ 7 trở lên chiếm tỉ số rất nhỏ.
+ Nhân viên đạt KPI với số năm đào tạo dưới 3 năm là 5401với tổng nhân viên có số
năm đào tạo dưới 3 năm là 14811, vậy chiếm khoảng 36%.
+ Nhân viên đạt KPI với số năm đào tạo từ 3-5 năm chiếm khoảng 29%.
+ Nhân viên đạt KPI với số năm đào tạo từ 5-7 năm và trên 7 năm chiếm tỉ số rất
nhỏ nên không xét đến.
 Yếu tố Năm đào tạo không ảnh hưởng nhiều đến KPI của nhân viên, có sự chênh
lệch không quá nhiều giữa hai đối tượng.. Có thể với số năm đào tạo ít hơn nhưng
lại hiệu quả hơn với chương trình sát thực tế, đúng trọng tâm công việc, cập nhập
xu hướng mới phù hợp với thị trường. Vì vậy nên cần tập trung phát triển vào chất
lượng chương trình đào tạo có tính ứng dụng cao để hiệu suất nhân viên hiệu quả
hơn.
7. Kết luận chung
Tổng quát, biểu đồ cho thấy một số yếu tố như điểm đào tạo, phòng ban, độ tuổi
có thể ảnh hưởng đến khả năng đạt KPI của nhân viên, trong khi kênh tuyển dụng, giới
tính, và số năm đào tạo không có ảnh hưởng lớn.
Từ đó đưa ra một số kiến nghị như sau:

18
- Tối ưu hóa đào tạo cho nhóm chưa đạt KPI:
+ Tăng cường đào tạo cho nhóm nhân viên chưa đạt KPI, đặc biệt ở khoảng
điểm <54
+ Tập trung vào nâng cao kỹ năng và hiểu biết liên quan đến công việc.
- Tạo chương trình đào tạo đặc biệt cho khoảng điểm :
+ Tạo ra các chương trình đào tạo đặc biệt cho nhóm có điểm đào tạo thấp.
+ Đảm bảo rằng nội dung đào tạo phản ánh chính xác yêu cầu công việc và
mục tiêu KPI.
- Cập nhật liên tục chương trình đào tạo:
+ Dựa trên phản hồi và kết quả đánh giá, cập nhật liên tục các chương trình
đào tạo để đảm bảo tính hiệu quả và đáp ứng nhanh chóng với yêu cầu thay
đổi của công việc.
+ Đối với nhóm độ tuổi 30-40 tuổi, tăng cường đào tạo để duy trì và nâng cao
hiệu suất.
+ Đối với nhóm >= 50 tuổi, cung cấp hỗ trợ đào tạo và tài trợ để đảm bảo họ
có cơ hội cập nhật kiến thức và kỹ năng mới.
- Tạo chương trình nghề nghiệp phát triển:
+ Phát triển chương trình nghề nghiệp cho nhân viên độ tuổi 40-50 và >50
tuổi, để họ có thể phát triển và đạt KPI.
+ Tăng cường sự tương tác giữa các nhóm độ tuổi để chia sẻ kinh nghiệm và
học hỏi lẫn nhau.
- Theo dõi và đánh giá định kỳ:
+ Thực hiện theo dõi định kỳ về tiến triển của nhân viên theo độ tuổi.
+ Đánh giá kết quả KPI để đảm bảo rằng mọi nhóm đều có cơ hội công bằng
để đạt được mục tiêu.
- Tạo môi trường làm việc thuận lợi:
+ Tạo môi trường làm việc tích cực và hỗ trợ để khuyến khích tất cả các nhân
viên đạt KPI.
+ Xác định và giải quyết bất kỳ vấn đề hoặc rắc rối trong môi trường làm việc
có thể ảnh hưởng đến hiệu suất.
- Liên kết KPI với phát triển sự nghiệp:
+ Liên kết mục tiêu KPI với phát triển sự nghiệp và thăng tiến để tạo động
lực mạnh mẽ cho tất cả các nhóm độ tuổi.
- Tăng cường đào tạo cho trình độ trung cấp:
+ Tăng cường chương trình đào tạo cho nhân viên có trình độ trung cấp để
nâng cao khả năng đạt KPI.
+ Tạo các cơ hội và ưu đãi đặc biệt để khuyến khích nhân viên trình độ trung
cấp tham gia đào tạo.
- Theo dõi và đánh giá hiệu suất trình độ Cử Nhân và Thạc Sĩ:

19
+ Theo dõi hiệu suất của nhân viên cử nhân và thạc sĩ để đảm bảo rằng trọng
số cao không chỉ phản ánh trình độ học vấn mà còn phản ánh hiệu suất
công việc.
+ Đánh giá liệu có cơ hội cải thiện hiệu suất của nhóm trình độ trung cấp hay
không.
- Phát triển chương trình đào tạo với trình độ học vấn:
+ Phát triển chương trình đào tạo linh hoạt có thể đáp ứng nhu cầu của tất cả
các trình độ học vấn.
+ Đảm bảo rằng nội dung đào tạo được thiết kế để giúp nhân viên áp dụng
kiến thức và kỹ năng vào công việc hàng ngày.
- Khuyến khích học hỏi liên tục:
+ Khuyến khích học hỏi liên tục và phát triển sự nghiệp, không phụ thuộc quá
nhiều vào trình độ học vấn ban đầu.
+ Tạo môi trường hỗ trợ để nhân viên có thể tự động nâng cao kỹ năng và
kiến thức của mình.
- Tăng cường đào tạo trong các khoảng thời gian ngắn:
+ Tăng cường chương trình đào tạo cho nhóm nhân viên có số năm đào tạo
<3 năm để họ có cơ hội đạt KPI cao hơn.
+ Tập trung vào cung cấp kiến thức và kỹ năng cần thiết để nhân viên có thể
đạt được mục tiêu công việc trong thời gian ngắn.
- Đào tạo liên quan đến nhu cầu công việc:
+ Đảm bảo rằng chương trình đào tạo được thiết kế để đáp ứng chính xác nhu
cầu của công việc và yêu cầu của KPI.
+ Thực hiện đánh giá nhu cầu đào tạo định kỳ để cập nhật nội dung theo thời
gian.
- Hỗ trợ phát triển nghề nghiệp dài hạn:
+ Đối với nhóm có số năm đào tạo >=5-7 năm, tạo các chương trình hỗ trợ
phát triển nghề nghiệp dài hạn để khuyến khích họ tiếp tục học hỏi và phát
triển.

2.4 Bài toán phân lớp


2.4.1. Mô tả bài toán
Các KPIs (Key Performance Indicators) là một thuật ngữ được sử dụng để đo
lường hiệu suất của công ty trong nhiều lĩnh vực, từ doanh số bán hàng đến chất lượng
dịch vụ. Mục tiêu của bài toán phân lớp này là xây dựng một mô hình dự báo chính xác
khả năng hoàn thành KPI của nhân sự trong công ty. Việc dự báo này sẽ giúp cho các nhà
quản lý và lãnh đạo có cái nhìn tổng quan về tình hình nhân sự và kinh doanh, từ đó hỗ
trợ trong việc đưa ra các biện pháp cải thiện hiệu suất hiệu quả hơn, thúc đẩy năng lực
làm việc của nhân viên, tối ưu hóa các kế hoạch và chiến lược kinh doanh của mình.

20
2.4.2. Các kiến thức chuyên ngành có liên quan
Trong chuyên ngành quản lý, các kiến thức và kỹ năng liên quan đến quản lý hiệu
suất, quản lý nhân sự, quản lý chiến lược và quản lý dự án đóng vai trò quan trọng trong
việc điều hành và cải thiện hiệu suất của một tổ chức như:
- Quản lý hiệu suất: việc đo lường và đánh giá hiệu suất làm việc là một phần quan
trọng của việc đảm bảo sự hiệu quả của các quy trình và hoạt động sản xuất. Việc
áp dụng các KPIs phù hợp và thiết lập hệ thống theo dõi và đánh giá hiệu suất sẽ
giúp các nhà quản lý theo dõi và cải thiện hiệu suất của các quy trình và hoạt động
trong công ty.
- Quản lý nhân sự: đóng vai trò quan trọng trong việc tạo ra một môi trường làm
việc tích cực, động viên và phát triển nhân viên. Bằng cách áp dụng các phương
pháp đào tạo và thúc đẩy phát triển nhân viên hiệu quả, nhà quản lý có thể đảm
bảo rằng nhân sự của tổ chức có đủ năng lực và động lực để đạt được KPIs và
đóng góp vào sự phát triển của tổ chức đó.
- Quản lý dự án: Việc nhà quản lý dự án sử dụng mô hình dự đoán về KPI có thể
giúp đảm bảo tổng thể dự án được vận hành triển khai và kiểm tra giám sát một
cách hiệu quả, đúng thời hạn và trong khoảng ngân sách cho phép.
Tóm lại, các kiến thức và kỹ năng trong quản lý hiệu suất, quản lý nhân sự và quản lý dự
án đều đóng vai trò quan trọng trong việc điều hành và cải thiện hiệu suất của tổ chức
trong lĩnh vực quản lý công.

2.4.3. Chạy mô hình

Hình 2.1: Mô hình Orange bài toán phân lớp

21
Đường dẫn tới File Orange bài toán phân lớp:
https://drive.google.com/file/d/15hSfxttKHmSPO6qGtr4cwvwLYvAtvi8P/view?usp=drive_link

Bước 1: Sử dụng widget File để nhập dữ liệu.


Bước 2: Dùng Data Sampler để chia dữ liệu thành 2 phần 70% - 30%. 70% dữ
liệu cho việc huấn luyện và 30% dữ liệu còn lại cho việc dự báo.
Bước 3: Dữ liệu huấn luyện được đưa vào ba mô hình khác nhau là Tree (cây
quyết định), SVM (Support Vector Machine) và Logistic Regression (hồi quy logistic).
Các mô hình này kết nối với widget Test and Score để đánh giá.
Bước 4: Đánh giá lựa chọn mô hình tốt nhất thông qua Test and Score, ma trận
nhầm lẫn và đồ thị ROC.
Bước 5: Kết nối mô hình tốt nhất với Predictions và đưa 30% dữ liệu còn lại vào
dự báo. Cuối cùng, xem kết quả bằng Data Table.

2.4.4. Phân tích


2.4.4.1. Phân tích chuyên sâu dùng hồi quy Logistic

Hình 2.2: Kết quả phân tích hồi quy Logistic


Nhận xét:
- Yếu tố có ảnh hưởng nhiều nhất đối với khả năng hoàn thành được KPI của nhân
viên đó là số điểm đánh giá của năm ngoái. Có thể thấy, nhóm nhân viên có điểm

22
đánh giá cao hơn 4 có khả năng hoàn thành được KPI cao nhất, và nhóm nhân viên
có điểm đánh giá thấp hơn 2 có khả năng hoàn thành được KPI thấp nhất.
- Yếu tố giải thưởng cũng có tác động lớn đến tỷ lệ hoàn thành KPI của nhân viên.
Theo đó, nhóm nhân viên đã từng được nhận giải thưởng sẽ có năng lực đạt được
KPI đề ra cao hơn so với nhóm nhân viên chưa từng đạt giải.
- Phòng ban của nhân viên cũng quyết định đến khả năng làm việc của họ. Nhóm
nhân viên từ các phòng ban như R&D và Procurement có tỷ lệ hoàn thành công
việc cao hơn những nhân nhân viên từ phòng Sales & Marketing.
- Bên cạnh đó, một số yếu tố như giới tính, trình độ, số lượng khóa đào tạo,... ít ảnh
hưởng đến năng lực làm việc của nhân viên.
2.4.4.2. Phân tích chuyên sâu dùng mô hình Tree

Hình 2.3: Tree Viewer


Nhận xét:
- Nhóm nhân viên có điểm đánh giá năm trước lớn hơn 4 có 50,9% khả năng hoàn
thành được KPI đúng hạn. Còn đối với nhóm có điểm đánh giá năm trước thấp
hơn 4 điểm, 76,7% nhân viên trong nhóm này không thể hoàn thành KPI đề ra.
- Trong nhóm nhân viên có điểm đánh giá năm trước lớn hơn 4, 2 phòng ban có tỷ
lệ nhân viên hoàn thành được KPI cao nhất là Procurement và Technology với tỷ
lệ 62%. Đối với nhóm Finance và Sale & Marketing, tỷ lệ này chỉ có 41,1%.
- Trong nhóm nhân viên của phòng ban Procurement và Technology kể trên, nhóm
có tỷ lệ hoàn thành được KPI cao hơn là những nhân viên làm việc ở công ty ít
hơn 7 năm với 67,8%.
- Trong nhóm nhân viên có điểm đánh giá năm trước ít hơn 4, 90% những nhân
viên làm việc ở công ty nhiều hơn 8 năm lại không thể đạt được KPI.
- Cũng trong nhóm nhân viên có điểm đánh giá năm trước lớn hơn 4, 93,8% những
nhân viên đã từng nhận được giải thưởng của công ty sẽ có khả năng hoàn thành
được KPI đúng hạn.

23
2.4.4.3. Phân tích dựa trên Test and Score

Hình 2.4: Kết quả Test and Score

- Đối với chỉ số AUC: cao nhất là mô hình hồi quy Logistic với 0.698, mô hình
SVM là 0.518 và mô hình Tree là 0.599
- Đối với chỉ số CA: cao nhất là mô hình hồi quy Logistic với 0.664, mô hình
SVM là 0.569 và mô hình Tree là 0.628
- Đối với chỉ số F1: cao nhất là mô hình hồi quy Logistic với 0.645, mô hình
SVM là 0.562 và mô hình Tree là 0.615
- Đối với chỉ số Precision: cao nhất là mô hình hồi quy Logistic với 0.645, mô
hình SVM là 0.556 và mô hình Tree là 0.610
- Đối với chỉ số Recall: cao nhất là mô hình hồi quy Logistic với 0.664, mô hình
SVM là 0.569 và mô hình Tree là 0.628
Nhận xét: Dựa trên kết quả của Test and Score, các chỉ số của mô hình hồi quy Logistic
đều cao nhất, có thể kết luận đây là mô hình hiệu quả nhất.

2.4.4.4. Phân tích dựa trên ma trận nhầm lẫn

24
Hình 2.5: Ma trận nhầm lẫn của phương pháp SVM

- Mô hình dự đoán số nhân viên sẽ đạt được KPI nhưng thực tế là không đạt được
có 421 trường hợp.
- Mô hình dự đoán số nhân viên sẽ không đạt được KPI nhưng thực tế là đạt được
có 522 trường hợp.

Hình 2.6: Ma trận nhầm lẫn của phương pháp hồi quy Logistic

25
- Mô hình dự đoán số nhân viên sẽ đạt được KPI nhưng thực tế là không đạt được
có 240 trường hợp.
- Mô hình dự đoán số nhân viên sẽ không đạt được KPI nhưng thực tế là đạt được
có 496 trường hợp.

Hình 2.7: Ma trận nhầm lẫn của phương pháp Tree

- Mô hình dự đoán số nhân viên sẽ đạt được KPI nhưng thực tế là không đạt được
có 320 trường hợp.
- Mô hình dự đoán số nhân viên sẽ không đạt được KPI nhưng thực tế là đạt được
có 495 trường hợp.
Dựa vào ma trận nhầm lẫn:
- Sai lầm loại 1 là dự đoán nhân viên sẽ đạt được KPI nhưng thực tế là không đạt
được: tình hình kinh doanh hoặc hoạt động của doanh nghiệp có thể gặp khó khăn
trong việc đạt được mục tiêu đề ra. Điều này có thể dẫn đến trì hoãn hoặc thậm chí
là thất bại của dự án.
- Sai lầm loại 2 là dự đoán nhân viên sẽ không đạt được KPI nhưng thực tế là đạt
được: nhà quản lý có thể bị mất cơ hội để tận dụng tối đa nguồn lực và tiềm năng
của nhân viên.
 Dựa theo phân tích trên thì sai lầm loại 1 sẽ có phần nghiêm trọng hơn so với sai
lầm loại 2.
Nhận xét: dựa trên số liệu sai lầm loại 2 của cả ba phương pháp thì mô hình hồi quy
Logistic cho ra kết quả sai lầm ít nhất là 240. Do đó mô hình này sẽ hiệu quả nhất.

26
2.4.4.5. Phân tích dựa trên ROC Analysis

Hình 2.8: Đồ thị biểu diễn đường cong ROC

Nhận xét: Đồ thị ROC của phương pháp hồi quy Logistics tiếp cận gần điểm 1 trên trục
tung nhiều nhất, hay nói cách khác, đường cong ROC của Logistics Regression có giá trị
true positive rate (TPR) cao nhất.
2.4.4.6. Lựa chọn mô hình
Các kết quả phân tích đều cho thấy rằng việc sử dụng phương pháp hồi quy
Logistic cho bộ dữ liệu này mang lại hiệu quả cao hơn so với các phương pháp khác. Do
đó, nhóm sẽ sử dụng phương pháp này để đưa ra dự đoán về khả năng hoàn thành KPI
của nhân viên trong khu vực công.

2.4.5. Đánh giá kết quả


Thông qua bài toán phân lớp nhân viên dự đoán năng lực làm việc, đã xác định
được những yếu tố có tác động mạnh cũng như những đối tượng nhân viên cần sự thúc
đẩy tinh thần trong công việc để có thể hoàn thành KPI đúng tiến độ nhằm mục tiêu cải
thiện hiệu suất chung của cả tổ chức. Từ đó, nhóm chúng em xin phép đưa ra một số kiến
nghị sau:
- Tăng cường đào tạo và phát triển: Đặc biệt đối với những nhân viên có điểm đánh
giá thấp hơn 4, việc đầu tư vào đào tạo và phát triển có thể giúp họ nâng cao năng

27
lực làm việc và cải thiện khả năng hoàn thành KPI. Đồng thời, việc tăng cường
đào tạo cũng giúp giảm bớt rủi ro về sai lầm loại 1.
- Tạo động lực và ghi nhận thành tích: Việc tạo điều kiện để nhân viên cảm thấy
động viên và ghi nhận thành tích của họ thông qua việc trao giải thưởng và công
nhận công việc tốt sẽ tăng khả năng hoàn thành KPI và giảm rủi ro của sai lầm loại
2.
- Xây dựng môi trường làm việc tích cực: Tạo ra một môi trường làm việc tích cực
và hỗ trợ, nơi mà nhân viên cảm thấy được đánh giá cao và được khuyến khích để
phát triển và đóng góp, có thể giúp tăng hiệu suất làm việc và giảm bớt rủi ro về
nhầm lẫn.
- Điều chỉnh tiêu chí đánh giá: Cân nhắc việc điều chỉnh tiêu chí đánh giá hiệu suất
ở các phòng ban khác nhau, để tạo nên tiêu chí đánh giá công bằng, phản ánh
chính xác hơn sự đóng góp và hiệu suất của nhân viên.
- Theo dõi và phản hồi định kỳ: Cuối cùng, thực hiện việc theo dõi và đánh giá hiệu
suất của nhân viên định kỳ, cung cấp phản hồi xây dựng và hướng dẫn cải thiện
khi cần thiết. Điều này giúp giữ cho nhân viên cảm thấy được hỗ trợ và tiếp tục
phát triển.

2.5 Bài toán phân cụm


2.5.1 Cơ sở lý luận về phân cụm dữ liệu
Định nghĩa: Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu
có đặc điểm tương đồng vào các cụm/nhóm tương ứng. Trong đó:
- Tương đồng giữa những phần tử trong cùng cụm
- Khác biệt với những phần tử trong các cụm khác

Hình 3.1: Minh họa phương pháp phân cụm


Mục đích của việc phân cụm dữ liệu là khai phá cấu trúc của mẫu dữ liệu để tạo ra các
nhóm dữ liệu từ một tập dữ liệu lớn. Điều này cho phép nghiên cứu và phân tích sâu hơn
28
cho từng nhóm dữ liệu, từ đó khám phá và tìm ra các thông tin tiềm ẩn và hữu ích. Quá
trình này cung cấp thông tin cần thiết để đưa ra các quyết định thông minh và hiệu quả
trong tương lai, dựa trên sự hiểu biết sâu sắc về dữ liệu và các mẫu xu hướng có thể được
xác định từ các nhóm dữ liệu đã được phân loại.
Các phương pháp phân cụm dữ liệu:
- Phương pháp dựa trên phân cấp: Diana, Agnes, BIRCH, CAMELEON
- Phương pháp dựa trên phân hoạch: K-mean, k-medoids, fuzzy C-means
- Phương pháp dựa trên mật độ: DBSCAN, OPTICS, DenClue
- Phương pháp dựa trên lưới: STing, WaveCluster, CUQUE
- Phương pháp dựa trên mô hình: EM, SOM, COBWEB
Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu:
- Quảng cáo trực tuyến: Phân cụm dữ liệu có thể được sử dụng để nhận biết các
nhóm khách hàng có sở thích, hành vi trực tuyến tương tự. Điều này giúp các nhà
quảng cáo tối ưu hóa chiến lược quảng cáo, đưa ra thông điệp phù hợp với từng
nhóm đối tượng, tăng hiệu suất chiến dịch quảng cáo.
- Giao thông và vận tải: Phân cụm dữ liệu có thể giúp xác định các mô hình giao
thông, nhận diện điểm nút giao thông quan trọng và dự đoán tình trạng giao thông.
Các ứng dụng này giúp cải thiện quy hoạch giao thông, giảm ùn tắc và tăng khả
năng an toàn.
- Dự báo thị trường tài chính: Phân cụm dữ liệu có thể được sử dụng để nhóm các
loại tài sản tài chính có xu hướng di chuyển cùng nhau. Điều này giúp nhà đầu tư
và quản lý rủi ro hiểu rõ hơn về các xu hướng thị trường và đưa ra quyết định đầu
tư thông minh.
Bài toán về phân cụm đã được sử dụng trong nhiều bài nghiên cứu trong nước và
trên thế giới. Tiêu biểu một số công trình nghiên cứu như: “Khai phá dữ liệu trong việc
phát hiện gian lận nhằm cải thiện hệ thống kiểm soát nội bộ” của Jans, Lyebart và
Vanhoof (2007). Bằng cách tiến hành công cụ phân cụm K-mean, các tác giả đã nhận
dạng được ba loại gian lận trong quy trình mua hàng đó là thanh toán trùng hóa đơn,
chênh lệch đơn hàng, thay đổi đơn hàng từ đó đưa giả các giải pháp xử lý và cải thiện hệ
thống kiểm soát nội bộ. Ở trong nước có thể kể đến đề tài của Thạc sĩ Nguyễn Đăng
Nhượng về “ Khai phá dữ liệu về kết quả học tập của học sinh Cao đẳng nghề Văn Lang
Hà Nội”. Đề tài đã sử dụng phương pháp phân cụm để xác định những yếu tố ảnh hưởng
đến kết quả học tập của học sinh như ảnh hưởng vùng miền, hoàn cảnh gia đình, phẩm
chất đạo đức,...từ đó đưa ra những phương pháp giảng dạy cho phù hợp với từng năng lực
của người học. Trong đề tài này, nhóm đã sử dụng phương pháp phân cụm dữ liệu để xác
định các yếu tố ảnh hưởng đến hiệu suất làm việc của nhân viên, từ đó đưa ra các hướng
giải quyết cho nhà quản lý.
2.5.2 Mô tả bài toán
Xử lý dữ liệu và giải quyết bài toán bằng công cụ Orange: Phân cụm hiệu suất làm
việc của nhân viên thông qua các yếu tố nhằm phân chia nhân viên thành các nhóm có

29
hiệu suất làm việc tương đồng, xác định các yếu tố chính ảnh hưởng đến hiệu suất của
từng nhóm. Từ đó giúp nhà quản lý hiểu rõ hơn về nhân viên và các yếu tố ảnh hưởng
đến hiệu suất làm việc của nhân viên, đưa ra các giải pháp phù hợp để cải thiện hiệu suất
làm việc và tăng hiệu quả hoạt động của tổ chức.
2.5.3 Các kiến thức chuyên ngành liên quan đến bài toán
Hiệu suất làm việc của một nhân viên được định nghĩa là cách mà họ hoàn thành
nhiệm vụ công việc và các yêu cầu nhiệm vụ khác. Nó liên quan đến chất lượng và hiệu
quả của sản phẩm hoặc dịch vụ mà họ cung cấp. Hiệu suất đóng góp vào việc đánh giá
giá trị của một nhân viên đối với một tổ chức. Mỗi nhân viên đều là một đầu tư quan
trọng của doanh nghiệp, vì vậy, lợi ích mà mỗi nhân viên mang lại phải rất đáng kể.
Hiệu suất làm việc là một chỉ số hữu ích giúp đánh giá nhân viên, các phòng ban
hoặc bộ phận có đang thực hiện công việc tốt hay không, và giúp nhà quản lý đo lường
cách tài nguyên trong doanh nghiệp được sử dụng để đạt được mục tiêu công việc. Có
nhiều yếu tố có thể ảnh hưởng đến hiệu suất làm việc, bao gồm: trình độ học vấn, số
lượng đào tạo, thời gian phục vụ, KPI đạt hơn 80%, giải thưởng đạt được, và điểm đào
tạo trung bình.
Bài toán được đặt ra hướng đến giải quyết vấn đề liên quan đến nhân viên có hiệu
suất làm việc thấp, đây là bài toán có tác động mạnh mẽ đến doanh nghiệp. Vận dụng
Khoa học dữ liệu, ta phân loại được các cụm nhân viên có năng suất làm việc cao, vừa và
thấp, giúp bộ phận quản lý có cái nhìn đúng và đưa ra những giải pháp phù hợp về các
vấn đề như thăng tiến, tiền lương, trợ cấp,...
2.5.4 Chạy mô hình và kết quả
Bước 1: Xây dựng mô hình
Tạo file, gắn link dữ liệu tiền xử lý để đưa dữ liệu vào

Hình 3.2: File dữ liệu

30
Bước 2: Chọn dữ liệu
Sử dụng Select Rows và Select Columns để lọc những nhân viên không đạt KPI (=0)

Hình 3.3: Select Rows và Select Columns

Sử dụng Data Table để xem dữ liệu trước phân cụm

Hình 3.4: Dữ liệu trước phân cụm

31
Bước 3: Sử dụng phương pháp K-Means để phân cụm dữ liệu

Hình 3.5: Kết quả K-Means

Từ bộ dữ liệu, kéo thả K-Means để tiến hành phân cụm. Nhấn đúp chuột vào biểu
tượng để xuất hiện hộp thoại K-Means. Number of Clusters chọn From 2 to 10 để cho ra
kết quả của Silhouette Scores từng trường hợp.
Đối với phương pháp này, để phân tích, đánh giá xem bộ dữ liệu này nên được
phân ra bao nhiêu cụm là hợp lý nhất thì dựa vào giá trị của Silhouette Scores của từng
kiểu phân cụm, sau đó đánh giá và chọn ra phương pháp tối ưu. Giá trị Silhouette Scores
trung bình càng cao, càng tiến đến 1 thì phương pháp phân cụm đó sẽ càng chính xác, tin
cậy hơn. Ngược lại, càng hướng đến -1 thì phương pháp thiếu độ tin cậy và độ chính xác
thấp.
Với kết quả chạy trên, bảng Silhouette cho thất nếu ta phân bộ dữ liệu này lần lượt
thành 2, 3, 4, 5, 6, 7, 8,9 10 cụm thì có giá trị Silhouette trung bình lần lượt là 0,194;
0,120; 0,146; 0,132; 0,119; 0,127; 0,126; 0,117; 0,125. Nguyên tắc khi giá trị Silhouette
càng lớn thì phương án phân cụm càng đáng tin cậy.
 Từ kết quả của phương pháp K-Means, có thể thấy răng ta nên chọn phân thành 2
cụm vì chỉ số Silhouette scores của 2 nhóm tiến đến gần 1 nhất.

32
Dưới đây là bảng Silhouette Plot khi chia thành 2 cụm như sau:

Hình 3.6: Kết quả Silhouette Plot

Bước 4: Mô tả đặc điểm các cụm

Sử dụng Select Rows để lọc cụm 1 và Feature Statistics để xem mô ta dữ liệu. Làm tương
tự với cụm 2
Hình 3.7: Dữ liệu cụm 1
Mô tả dữ liệu cụm 1: Cụm 1 bao gồm những nhân viên không đạt KPI, có các đặc
điểm là số lượng đào tạo nhỏ hơn 3; Phòng ban có số nhân viên trong cụm nhiều nhất là
Sales & Marketing; Trình độ học vấn là Master & Above; Giới tính là nam; Kênh tuyển
dụng khác; Độ tuổi là từ 40 đến 50 tuổi; Xếp hạng năm trước là 3-4; Chưa đạt được giải
thưởng nào và Điểm đào tạo trung bình là từ 54-69 điểm.
33
Hình 3.8: Dữ liệu cụm 2
Mô tả dữ liệu cụm 2: Cụm 2 bao gồm những nhân viên không đạt KPI, có các đặc
điểm là số lượng đào tạo nhỏ hơn 3; Phòng ban có số nhân viên trong cụm nhiều nhất là
Sales & Marketing; Trình độ học vấn là Bachelors; Giới tính là nam; Kênh tuyển dụng
khác; Độ tuổi là từ 30 đến 40 tuổi; Xếp hạng năm trước là 3-4; Chưa đạt được giải
thưởng nào và Điểm đào tạo trung bình là từ nhỏ hơn 54 điểm.

 Nhận xét: Sự khác biệt rõ ràng giữa 2 cụm là trình độ học vấn, độ tuổi và điểm
đào tạo trung bình.

Tổng thể mô hình phân cụm:

Hình 3.9: Mô hình phân cụm

34
Đường dẫn tới File Orange bài toán phân cụm:
https://drive.google.com/file/d/1VrZzE8CZOSNH9kC8h7ePmkyTNg-LMi72/view?usp=drive_link

2.5.5 Giải pháp


Nghiên cứu những yếu tố ảnh hưởng đến hiệu suất làm việc của nhân viên và tìm
ra các giải pháp nâng cao hiệu suất là một chủ đề quan trọng để các nhà lãnh đạo xem xét
và thực hiện. Đó là yếu tố quan trọng trong việc phát triển lâu dài và bền vững của tổ
chức. Và đặc biệt là trong khu vực công, khi nhân viên là những người làm việc vì dân,
tiếp xúc trực tiếp với dân thì việc nâng cao hiệu suất sẽ tăng mức độ hài lòng của nhân
dân và tạo niềm tin giữa người dân và nhà nước. Một số giải pháp đề xuất:
2.5.5.1 Đối với những nhân viên ở cụm 1
- Tổ chức thêm những buổi đào tạo cho các nhân viên, để bổ sung kiến thức nền cần
thiết cho công việc. Có thể khuyến khích nhân viên học tập thêm các kiến thức
ngoài, có liên quan đến vị trí làm việc hiện tại để cải tiến năng suất.
- Vì những nhân viên tại cụm 1 là những người có trình độ học vấn cao (Master)
nhưng lại năng suất làm việc thấp, thì nguyên nhân có lẽ là thiếu kinh nghiệm thực
tế. Nên tổ chức hoặc cho nhân viên trải nghiệm về những vấn đề liên quan đến vị
trí công việc của mình.
- Độ tuổi trung bình của cụm này là từ 40-50 tuổi, độ tuổi trung niên. Hiệu suất
không cao thể có một vài vấn đến ngoài khác ảnh hưởng đến năng suất làm việc
như gia đình, tài chính… Có thể xem xét và đưa ra các chính sách mới, hỗ trợ về
mặt tinh thần và tạo điều kiện để có thể tăng thu nhập.
2.5.5.2 Đối với những nhân viên ở cụm 2
- Cũng giống như cụm 1 thì những nhân viên ở cụm 2 có mức đào tạo thấp. Cần có
những chính sách tăng buổi đào tạo, bổ sung kiến thức cho nhân viên.
- Trình độ học vấn của nhân viên cụm 2 chỉ ở mức cơ bản (Bachelors) nên có thể
thiếu những kiến thức chuyên sâu để có thể làm việc một cách hiệu quả cao. Nên
tạo điều kiện và có các chính sách phù hợp để nhân viên có thể học tập và đạt
được những bằng học vấn cao hơn.
- Ngoài ra thì cũng có những biện pháp tăng năng suất làm việc cho các tổ chức
công:
+ Xây dựng môi trường làm việc tích cực: văn hóa tổ chức cũng tác động
không nhỏ đến động lực làm việc vì vậy nên tạo ra một môi trường làm
việc khuyến khích sự sáng tạo, đề xuất ý tưởng mới và giải quyết vấn đề
một cách linh hoạt. Việc này có thể thúc đẩy động lực và cam kết từ phía
nhân viên.
+ Đặt mục tiêu rõ ràng và theo dõi tiến độ: Thiết lập mục tiêu cụ thể, đo
lường và theo dõi tiến độ của từng nhân viên. Vì nó giúp nhân viên tập
trung vào các nhiệm vụ quan trọng và cải thiện hiệu suất làm việc.
+ Tối ưu hóa quy trình làm việc: Xem xét và tối ưu hóa các quy trình làm
việc để loại bỏ sự lãng phí và tăng cường hiệu suất làm việc. Điều này có
35
thể bao gồm sử dụng công nghệ mới, tự động hóa các quy trình hoặc tái cấu
trúc tổ chức.
+ Thưởng cho thành tích và nỗ lực: Thiết lập các hệ thống thưởng phù hợp để
tôn vinh những nhân viên đạt thành tích xuất sắc và cống hiến đặc biệt.
Việc này có thể tạo động lực lớn cho nhân viên để nâng cao hiệu suất làm
việc của họ.
+ Đảm bảo cân bằng giữa công việc và cuộc sống: Quản lý công việc và thời
gian sao cho nhân viên có thể duy trì cân bằng giữa công việc và cuộc sống
cá nhân. Sự cân bằng này giúp họ duy trì năng lượng và sự tập trung, từ đó
tăng cường hiệu suất làm việc.

36
Chương III: KẾT LUẬN

Trong khu vực công, hiệu suất làm việc của nhân viên đóng vai trò quan trọng
trong việc định hình sự thành công và bền vững của tổ chức. Đối diện với một môi
trường thay đổi liên tục và áp lực ngày càng tăng, việc hiểu và quản lý các yếu tố ảnh
hưởng đến hiệu suất làm việc trở thành một phần không thể thiếu trong chiến lược quản
lý nhân sự.
Nhóm đã tiến hành nghiên cứu và phân tích những yếu tố ảnh hưởng đến hiệu suất
làm việc, để có thể cung cấp những kiến thức, giúp ích cho các doanh nghiệp, tổ chức
công.
Sử dụng phần mềm Orange và Excel để phân tích và đánh giá dữ liệu được cung
cấp bởi Kaggle thì nhóm em đã tìm hiểu được những yếu tố có tác động và làm giảm hiệu
suất làm việc. Các yếu tố về độ tuổi, phòng ban, mức độ đào tạo, trình độ chuyên môn,
điểm đánh giá đều có ảnh hưởng đến hiệu suất làm việc của các nhân viên trong khu vực
công.
Từ đó, nhóm em cũng đã đề xuất giải pháp để cải thiện hiệu suất làm việc:
● Tăng cường đào tạo và phát triển
● Tạo động lực và ghi nhận thành tích
● Xây dựng môi trường làm việc tích cực
● Điều chỉnh tiêu chí đánh giá
● Theo dõi và phản hồi định kỳ
● Tối ưu hóa quy trình làm việc
● Đảm bảo cân bằng giữa công việc và cuộc sống

Hiệu suất làm việc trong khu vực công được ảnh hưởng bởi nhiều yếu tố khác nhau,
từ môi trường làm việc đến lãnh đạo và quản lý, đào tạo và phát triển, công nghệ, sự cân
nhắc giữa công việc và cuộc sống, và sức khỏe và hạnh phúc cá nhân. Để đảm bảo sự
thành công và phát triển bền vững, tổ chức cần đưa ra các biện pháp cụ thể để quản lý và
tối ưu hóa những yếu tố này, từ đó tạo ra một môi trường làm việc đáng sống và phát
triển cho nhân viên.

37
TÀI LIỆU THAM KHẢO
1. Nguyễn, T. M. (n.d.). Slide bài giảng môn Khoa học dữ liệu.
2. Trần Thị Phương T. 2014 “ Ứng dụng phân cụm dữ liệu trong việc báo cáo gian
lận trên báo cáo tài chính”, MA thesis, Trường Đại học Kinh tế Tp. Hồ Chí Minh
3. Harter, J. (2022, 08 13). Employee Engagement vs. Employee Satisfaction and
Organizational Culture. Gallup. Retrieved 3 10, 2024, from
https://www.gallup.com/workplace/236366/right-culture-not-employee-
satisfaction.aspx
4. Ahmed, S. (2018, 6). Factors Affecting Employee Motivation Towards Employee
Performance: A Study on Banking Industry of Pakistan.
https://www.researchgate.net/publication/318163567_Factors_Affecting_Employe
e_Motivation_Towards_Employee_Performance_A_Study_on_Banking_Industry
_of_Pakistan
5. Tổng quan về tiền xử lý dữ liệu. (2017, 1 6). gizsolution
https://gizsolution.wordpress.com/2017/01/06/tong-quan-ve-tien-xu-ly-du-lieu/

38

You might also like