ĐỒ ÁN CUỐI KỲ MÔM KHDL

ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC

KHOA KINH TẾ
BÁO CÁO ĐỒ ÁN KẾT THÚC HỌC PHẦN

Bộ môn: KHOA HỌC DỮ LIỆU (23D1INF50905912)
ĐỀ TÀI: “PHÂN LỚP BỘ DỮ LIỆU ATTRITION - TRAIN DỰA TRÊN
PHẦN MỀM ORANGE”
Giảng viên: TS. GVC Nguyễn Quốc Hùng

Sinh viên: Phan Vũ Phương Ngọc (trưởng nhóm)
Nguyễn Thị Ngọc Hạnh
Lê Phi Long
Hoàng Thuỵ Thuý Vy
Mã lớp HP: 22C1ECO50105604
TP Hồ Chí Minh, ngày 18 tháng 05 năm 2023
1
MỤC LỤC
MỤC LỤC...................................................................................................................... 2
DANH MỤC HÌNH ẢNH.............................................................................................5
DANH MỤC BẢNG BIỂU........................................................................................... 7
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN............................................................... 4
LỜI MỞ ĐẦU................................................................................................................ 8
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU VỀ ĐỀ

TÀI.................................................................................................................................. 10
1.1. Giới thiệu về Khoa học dữ liệu............................................................................. 10
1.1.1. Sơ lược về dữ liệu................................................................................................. 10
1.1.2. Khái quát về khoa học dữ liệu.............................................................................. 11
1.1.3. Sự phát triển của khoa học dữ liệu....................................................................... 13
1.1.4. Ứng dụng của khoa học dữ liệu............................................................................ 14
1.2. Giới thiệu về đề tài................................................................................................. 15

1.2.1. Giới thiệu về đề tài................................................................................................15
1.2.2. Lý do chọn đề tài...................................................................................................16
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ PHƯƠNG

PHÁP SỬ DỤNG........................................................................................................... 17
2.1. Các phương pháp khai thác dữ liệu trong Excel................................................ 17
2.1.1. Phương pháp thống kê mô tả................................................................................ 17
2.1.2. Phương pháp về phân tích dự báo.........................................................................17
2.1.3. Phương pháp phân tích tối ưu............................................................................... 18
2.2. Phần mềm Orange................................................................................................. 20

2.2.1. Tổng quan về phần mềm Orange..........................................................................20
2.2.2. Phương pháp phân cụm dữ liệu............................................................................ 20
2.2.3. Phương pháp phân lớp dữ liệu.............................................................................. 22
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ..........28
3.1. Xử lý và phân tích dữ liệu..................................................................................... 28
3.1.1. Tiền xử lý dữ liệu Attrition-Train......................................................................... 28
3.1.2. Mô tả dữ liệu Attrition-Train................................................................................ 30
3.1.3. Thống kê mô tả dữ liệu......................................................................................... 31
3.2. Phân lớp bộ dữ liệu................................................................................................ 36
2
3.2.1 Một số phương pháp phân lớp............................................................................... 36
3.2.2 Kết quả mô hình..................................................................................................... 37
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Kết luận.................................................................................................................... 50
4.2. Hướng phát triển...................................................................................................... 51
TÀI LIỆU THAM KHẢO............................................................................................ 53
3
BẢNG PHÂN CÔNG VÀ MỨC ĐỘ HOÀN THÀNH CỦA CÁC THÀNH VIÊN
STT Tên thành viên - Công việc phụ trách Mức độ hoàn thành
MSSV (Random)
1 Phan Vũ Phương Ngọc - Lời mở đầu 100%

(trưởng nhóm) -
- Chương I: Cơ sở lý thuyết
31211020837
- Tài liệu tham khảo
- Tổng hợp và chỉnh sửa
2 Nguyễn Thị Ngọc Hạnh - Chương II: Tổng quan về 100%

- 31211022831 chương trình sử dụng và các
phương pháp sử dụng
- Danh mục bảng biểu
3 Lê Phi Long - Chương III: Ứng dụng 100%

31211027154 phương pháp vào bài toán
thực tế
4 Hoàng Thuỵ Thuý Vy - - Chương IV: Kết luận và 100%

31211020858 hướng phát triển
- Danh mục hình ảnh
4
DANH MỤC HÌNH ẢNH
Hình 1.1 Sở giao dịch chứng khoán New York tạo ra khoảng một terabyte dữ liệu giao
dịch mới mỗi ngày - ứng dụng của khoa học dữ liệu .................................................... 15
Hình 2.1 Minh hoạ về Attrition là vấn đề nan giải đặt ra của các doanh nghiệp......... 16
Hình 1.2 Minh họa phương pháp phân cụm...................................................................21
Hình 2.2 Mô hình quá trình phân tích cụm dữ liệu........................................................ 21
Hình 3.2 Mô hình phân lớp............................................................................................. 23
Hình 4.2 Minh họa của phương pháp Hồi quy logistic..................................................24
Hình 5.2 Minh họa một mô hình cây quyết định đơn giản.............................................24
Hình 6.2 Minh họa phương pháp SVM...........................................................................25
Hình 1.3 Các bước tiến hành xử lý dữ liệu.....................................................................28
Hình 2.3 Nạp dữ liệu Attrition-Train vào Datasets........................................................ 29
Hình 3.3 Dữ liệu Attrition-Train trong Data Table........................................................ 29
Hình 4.3 Biểu đồ tỷ lệ phần trăm trình độ học vấn của các nhân viên..........................31
Hình 5.3 Biểu đồ tình trạng hôn nhân của các nhân viên..............................................32
Hình 6.3 Biểu đồ khoảng cách địa lý..............................................................................33
Hình 7.3 Biểu đồ độ tuổi................................................................................................. 33
Hình 8.3 Biểu đồ giới tính...............................................................................................34
Hình 9.3 Biểu đồ số lần đi công tác................................................................................35
Hình 10.3 Biểu đồ mức độ hài lòng với công việc......................................................... 35
Hình 11.3 Giới thiệu phân lớp dữ liệu............................................................................ 36
Hình 12.3 Lấy mẫu từ dữ liệu 1...................................................................................... 37
Hình 13.3 Mẫu dữ liệu.................................................................................................... 38
Hình 14.3 Lấy tập dữ liệu huấn luyện ........................................................................... 38
Hình 15.3 Mẫu dữ liệu huấn luyện................................................................................. 39
Hình 16.3 Lấy mẫu dữ liệu thử nghiệm.......................................................................... 39
Hình 17.3 Mẫu dữ liệu mới trên DataTable................................................................... 40
5
Hình 18.3 Mô hình lấy tập dữ liệu mới...........................................................................40
Hình 19.3 Tập dữ liệu huấn luyện.................................................................................. 41
Hình 20.3 Mô hình các thuật toán.................................................................................. 41
Hình 21.3 Kết quả chia mẫu dữ liệu thành 5 phần........................................................ 42
Hình 22.3 Kết quả chia mẫu dữ liệu thành 10 phần...................................................... 42
Hình 23.3 Kết quả khi chia mẫu dữ liệu thành 50- 90%................................................43
Hình 24.3 Kết quả khi chia mẫu dữ liệu thành 20-70%.................................................43
Hình 25.3 Kết quả khi chia mẫu dữ liệu thành 50-66%.................................................44
Hình 26.3 Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines).................45
Hình 27.3 Kết quả ma trận nhầm lẫn của Hồi quy logistic (Logistic Regression)........45
Hình 28.3 Kết quả ma trận nhầm lẫn của Cây quyết định (Decision Tree)...................46
Hình 29.3 Đường cong của ROC với biến y là no..........................................................46
Hình 30.3 Đường cong của ROC với biến y là yes........................................................ 47
Hình 31.3 Đánh giá mô hình phân lớp dữ liệu 2...........................................................48
Hình 32.3 Tập dữ liệu thử nghiệm.................................................................................. 48
Hình 33.3 Mô hình dự báo dữ liệu Attrition-Train ........................................................49
Hình 34.3 Kết quả dự báo của mô hình..........................................................................49
6
DANH MỤC BẢNG BIỂU
Bảng 1.2 Bảng tóm tắt bài toán tối đa hóa lợi nhuận.................................................... 19
Bảng 2.2 Các biến thể của SVM..................................................................................... 25
Bảng 1.3 Bảng mô tả các biến của bộ dữ liệu Attrition-Train....................................... 31
Bảng 1.4 Bảng tổng hợp số liệu Test and Score qua các dạng phân lớp.......................51
7
LỜI MỞ ĐẦU
Thông qua bài báo cáo, nhóm chúng em cũng xin gửi lời cảm ơn thật sâu sắc tới giảng
viên Nguyễn Quốc Hùng, là người đã đứng lớp giảng dạy chúng em học phần Khoa học
dữ liệu trong kỳ vừa rồi. Vì có như thế chúng em mới có kỹ năng, kiến thức để tạo ra một
bài báo cáo về chủ đề khoa học dữ liệu hoàn chỉnh như thế này.
Kính chúc thầy và gia đình luôn mạnh khoẻ, hạnh phúc và thành công viên mãn trong
cuộc sống. Chúc thầy mãi giữ vững phong độ như hiện tại, vẫn tiếp tục nhiệt huyết với sự
nghiệp trồng người và truyền tải tri thức tới các thế hệ sinh viên sau!
Chúng em xin chân thành cảm ơn !
Trong quá trình làm bài, do sự hạn chế về kiến thức cũng như kinh nghiệm, nên nhóm
chúng em khó tránh khỏi những thiếu sót về mặt nội dung cũng như hình thức. Chúng em
rất mong nhận được sự đánh giá và đóng góp từ giảng viên để bài tiểu luận có thể hoàn
thiện hơn nữa cũng như giúp chúng em tích lũy thêm kiến thức và kinh nghiệm thật sự
hữu ích cho việc học và kể cả sau này.
Trong lĩnh vực này, khoa học dữ liệu đã chứng tỏ sự hữu ích của mình trong việc xử lý và
phân tích lượng lớn dữ liệu để tìm ra các mẫu, xu hướng và đặc trưng của các cuộc tấn
công mạng. Trong đó, phần mềm Orange là một công cụ mạnh mẽ, linh hoạt và dễ sử
dụng cho việc khám phá dữ liệu và xây dựng mô hình học máy.
Trong đề tài này, chúng tôi tập trung vào việc phân lớp bộ dữ liệu "Attrition - Train" sử
dụng phần mềm Orange. Bộ dữ liệu này chứa thông tin về các nhân viên hoặc thành viên
trong tổ chức, bao gồm các thuộc tính như tuổi, giới tính, lương, vị trí công việc, thời
gian làm việc và các thông tin khác có thể liên quan đến việc dự đoán Attrition. Mục tiêu
8
cuối cùng là tạo ra một mô hình dự đoán Attrition chính xác và đáng tin cậy, từ đó giúp tổ
chức hoặc doanh nghiệp nhận biết và đưa ra các biện pháp phù hợp để giữ chân nhân viên,
tăng cường sự hài lòng và đảm bảo ổn định trong tổ chức. Mô hình này có thể được sử
dụng để đưa ra quyết định chiến lược, phát triển chính sách nhân sự và tạo ra các biện
pháp đối phó hiệu quả để giảm thiểu Attrition và duy trì một môi trường làm việc tích cực.
Điều này giúp chúng ta hiểu rõ hơn về việc xây dựng mô hình dự đoán Attrition sử dụng
cho mục đích huấn luyện và đưa ra biện pháp phòng ngừa hiệu quả.
9
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1. Giới thiệu về Khoa học dữ liệu
1.1.1. Sơ lược về dữ liệu
Dữ liệu: “Data”
Dữ liệu là các giá trị thông tin định lượng hoặc định tính của các sự vật, hiện tượng trong
cuộc sống. Trong khoa học dữ liệu, dữ liệu được dùng như một cách biểu diễn hình thức
hoá của thông tin về các sự kiện, hiện tượng thích ứng với các yêu cầu truyền nhận, thể
hiện và xử lý bằng máy tính.
Dữ liệu có hai loại chính: dữ liệu có cấu trúc và dữ liệu không có cấu trúc.
Dữ liệu có cấu trúc, còn được gọi là dữ liệu định lượng, là dạng dữ liệu và số liệu khách
quan. Thông thường, nó được biểu diễn dưới dạng số hoặc chữ và được lưu trữ trong các
hệ thống như Excel, SQL hoặc Google Sheet. Dữ liệu này dễ dàng thu thập, truy xuất, lưu
trữ và sắp xếp, đồng thời cho phép trích xuất thông tin một cách dễ dàng.
Dữ liệu không có cấu trúc, còn được gọi là dữ liệu định tính, thường là các ý kiến chủ
quan và đánh giá thương hiệu được biểu diễn dưới dạng văn bản. Nó chỉ tồn tại dưới
dạng văn bản và có thể được lưu trữ trong các tài liệu Word, Elasticsearch hoặc Solr, nơi
có thể thực hiện các truy vấn tìm kiếm từ và cụm từ. Dữ liệu không có cấu trúc khó thu
thập và gây khó khăn cho việc xuất, lưu trữ và sắp xếp trong các cơ sở dữ liệu thông
thường. Ngoài ra, không thể áp dụng các phương pháp và công cụ phân tích dữ liệu trực
tiếp lên dữ liệu này.
Dữ liệu là nguồn thông tin quan trọng trong lĩnh vực khoa học dữ liệu. Nó thể hiện các
thông tin, sự kiện và thuộc tính của các đối tượng trong thế giới thực hoặc trong một hệ
10
thống.
Trong tất cả các lĩnh vực, dữ liệu đóng vai trò quan trọng trong việc cung cấp thông tin
và kiến thức. Dữ liệu cung cấp cơ sở cho việc phân tích, nghiên cứu và đưa ra quyết định.
Dữ liệu cũng là nguồn cung cấp thông tin quan trọng để phát hiện xu hướng, tìm ra mối
quan hệ giữa các biến và xây dựng mô hình dự đoán.
1.1.2. Khái quát về khoa học dữ liệu
Khoa học dữ liệu là một lĩnh vực nghiên cứu và ứng dụng sử dụng các phương pháp,
công cụ và kỹ thuật để trích xuất, xử lý, phân tích và hiểu dữ liệu. Nó kết hợp các lĩnh
vực như toán học, thống kê, khoa học máy tính và tri thức kinh doanh để tìm hiểu thông
tin ẩn chứa trong dữ liệu và tạo ra kiến thức có ích để đưa ra quyết định và dự đoán.
Trong thời đại số hóa hiện nay, dữ liệu được tạo ra và tích lũy với tốc độ chóng mặt từ
nhiều nguồn khác nhau như mạng xã hội, cảm biến, máy móc và giao dịch điện tử. Khoa
học dữ liệu giúp chúng ta khám phá, phân tích và tìm hiểu dữ liệu này để tạo ra giá trị.
Các bước chính trong quá trình khoa học dữ liệu bao gồm:
(1) Thu thập dữ liệu: Đây là quá trình thu thập dữ liệu từ các nguồn khác nhau như cơ sở
dữ liệu, tệp tin, trang web hoặc API.
(2) Tiền xử lý dữ liệu: Dữ liệu thường không hoàn hảo và có thể chứa lỗi, thiếu sót hoặc
nhiễu. Bước này liên quan đến làm sạch, chuyển đổi và chuẩn hóa dữ liệu để nó có thể
được sử dụng cho phân tích.
11
(3) Phân tích dữ liệu: Đây là quá trình tìm hiểu và khám phá dữ liệu bằng cách áp dụng
các phương pháp và công cụ thống kê, khai phá dữ liệu và học máy. Mục tiêu là tìm ra
mẫu, xu hướng và thông tin hữu ích từ dữ liệu.
(4) Xây dựng mô hình: Dựa trên các kết quả phân tích dữ liệu, các mô hình dự đoán có
thể được xây dựng để đưa ra dự đoán và đưa ra quyết định. Điều này có thể bao gồm việc
sử dụng các thuật toán máy học như học có giám sát, học không giám sát và học tăng
cường.
(5) Triển khai và tối ưu hóa: Sau khi xây dựng mô hình, nó có thể được triển khai vào sản
phẩm hoặc quá trình thực tế. Tuy nhiên, quá trình này còn liên quan đến việc áp dụng mô
hình và công nghệ đã xây dựng vào môi trường thực tế. Điều này bao gồm kiểm tra và
đánh giá hiệu suất của mô hình, tối ưu hóa các tham số và quy trình để đạt được kết quả
tốt nhất.
Khoa học dữ liệu là một lĩnh vực quan trọng trong thế giới kỷ nguyên số hiện đại. Nó
liên quan đến việc khám phá, phân tích và hiểu dữ liệu để tạo ra thông tin và kiến thức có
giá trị. Khoa học dữ liệu kết hợp các phương pháp, công cụ và kỹ thuật từ nhiều lĩnh vực
như toán học, thống kê, khoa học máy tính và tri thức kinh doanh.
Qua các bước thu thập, tiền xử lý, phân tích dữ liệu và xây dựng mô hình, khoa học dữ
liệu giúp chúng ta tìm hiểu thông tin tiềm ẩn trong dữ liệu và áp dụng nó vào quyết định
và dự đoán. Quá trình này cũng liên quan đến việc làm sạch, chuẩn hóa và tối ưu hóa dữ
liệu để đảm bảo tính chính xác và tin cậy của kết quả.
Trong lĩnh vực khoa học dữ liệu, dữ liệu là trung tâm của quá trình nghiên cứu. Khoa
học dữ liệu liên quan đến việc thu thập, lưu trữ, xử lý và phân tích dữ liệu để tìm ra
12
những thông tin hữu ích và khám phá những mô hình ẩn trong dữ liệu. Khoa học dữ liệu
thường sử dụng các phương pháp, kỹ thuật và công cụ như khai phá dữ liệu, học máy, trí
tuệ nhân tạo và thống kê để khám phá, hiểu và sử dụng dữ liệu một cách hiệu quả.
Trong lĩnh vực khoa học dữ liệu, dữ liệu thường được thu thập từ nhiều nguồn khác
nhau, bao gồm cơ sở dữ liệu, tệp tin, các hệ thống cảm biến, mạng xã hội và các nguồn
dữ liệu trực tuyến khác. Dữ liệu khoa học dữ liệu thường lớn, phức tạp và đa dạng, đòi
hỏi sự xử lý và phân tích mạnh mẽ để trích xuất thông tin hữu ích và đưa ra những phân
tích sâu sắc.
1.1.3. Sự phát triển của khoa học dữ liệu
Sự phát triển của khoa học dữ liệu đã là một xu hướng quan trọng trong thập kỷ gần đây
và tiếp tục mở ra nhiều cơ hội và thách thức trong tương lai. Cùng với sự phát triển của
khoa học dữ liệu đó thì cuộc sống ngày càng thuận tiện và dễ dàng hơn như:
• Tăng cường khả năng tính toán: Sự phát triển nhanh chóng của công nghệ tính toán, đặc
biệt là việc sử dụng đám mây và công nghệ xử lý song song, đã cung cấp khả năng tính
toán mạnh mẽ hơn cho việc xử lý và phân tích dữ liệu lớn. Điều này cho phép xử lý
nhanh chóng và hiệu quả các tập dữ liệu phức tạp và lớn.
• Mở nguồn dữ liệu: Sự phát triển của Internet, truyền thông xã hội và các thiết bị di động
đã tạo ra một lượng dữ liệu khổng lồ. Sự gia tăng này trong nguồn dữ liệu đã tạo ra một
cơ sở cho việc phân tích và khai thác thông tin từ các nguồn này. Ngoài ra, việc mở
nguồn dữ liệu công cộng và khởi xướng các dự án dữ liệu mở đã tạo ra cơ hội rất lớn cho
sự phát triển của khoa học dữ liệu.
• Tiến bộ trong kỹ thuật và công nghệ: Các phương pháp và công nghệ trong khoa học
dữ liệu đã trải qua sự phát triển đáng kể. Các thuật toán học máy và học sâu ngày càng
được cải thiện, các mô hình và kiến trúc mới được phát triển, và các công cụ và
framework phân tích dữ liệu dễ sử dụng đã xuất hiện. Điều này giúp giảm độ phức tạp và
thời gian triển khai của các dự án khoa học dữ liệu.
13
• Học máy và trí tuệ nhân tạo: Khoa học dữ liệu đã đóng vai trò quan trọng trong sự phát
triển của học máy và trí tuệ nhân tạo. Việc áp dụng các phương pháp và thuật toán học
máy vào việc phân tích dữ liệu đã mang lại khả năng tự học và tự động hóa cho các hệ
thống. Trí tuệ nhân tạo cũng đã được phát triển với việc sử dụng dữ liệu lớn để huấn
luyện mô hình và tạo ra các ứng dụng thông minh trong nhiều lĩnh vực, như xe tự lái,
robot hội thoại, chẩn đoán y tế và hơn thế nữa.
• Xử lý dữ liệu thời gian thực: Sự phát triển của khoa học dữ liệu đã đưa đến khả năng xử
lý dữ liệu thời gian thực. Với việc sử dụng các công nghệ như xử lý dữ liệu đám mây, cơ
sở dữ liệu phân tán và hệ thống xử lý phân tán, chúng ta có thể phân tích và trích xuất
thông tin từ dữ liệu được tạo ra và cập nhật liên tục. Điều này cho phép các ứng dụng
theo thời gian thực như giám sát và dự đoán dựa trên dữ liệu liên tục.
• Bảo mật và quyền riêng tư: Với việc sử dụng dữ liệu cá nhân và nhạy cảm, bảo mật và
quyền riêng tư trở thành một vấn đề quan trọng trong khoa học dữ liệu. Sự phát triển của
các phương pháp và kỹ thuật bảo mật đã đảm bảo rằng dữ liệu được bảo vệ và xử lý một
cách an toàn và tuân thủ các quy định về quyền riêng tư.
• Điều chỉnh và luật pháp: Sự phát triển của khoa học dữ liệu đã đặt ra nhiều thách thức
về điều chỉnh và luật pháp. Vấn đề về quyền riêng tư, bảo vệ dữ liệu và trách nhiệm trong
việc sử dụng dữ liệu đã trở thành một vấn đề quan trọng. Các quy định và quyền riêng tư
dữ liệu đã được đưa ra để đảm bảo việc sử dụng dữ liệu đúng cách và có trách nhiệm;...
Ứng dụng đa lĩnh vực: Khoa học dữ liệu không chỉ được áp dụng trong lĩnh vực công
nghệ thông tin và kỹ thuật, mà còn trong nhiều lĩnh vực khác như y tế, tài chính, bán lẻ,
marketing, sản xuất, vận tải và nhiều ngành công nghiệp khác.
1.1.4. Ứng dụng của khoa học dữ liệu
Khoa học dữ liệu dùng trong phân tích dữ liệu; dự báo dự đoán; xây dựng hệ thống thông
minh; tối ưu hóa và quyết định; khai thác dữ liệu xã hội; phân tích hình ảnh và video; kỹ
thuật tăng cường thực tế (AR) và thực tế ảo (VR); kỹ thuật tìm kiếm và đề xuất;...
Một trong những ứng dụng cụ thể chúng ta thường thấy là: dự đoán số lượng hành khách;
chiến lược quản lý quan hệ khách hàng, dự đoán trễ chuyến bay, tỷ lệ huỷ; đảm bảo an
14
toàn và bảo mật cho hành khách; tỷ lệ người tiêm vaccine covid-19 bị nhiễm covid-19;
dự báo biến động thị trường tài chính; dự báo khách hàng trả nợ ngân hàng trước hạn
hàng quý ...
Hình 1.1 Sở giao dịch chứng khoán New York tạo ra khoảng một terabyte dữ liệu giao
dịch mới mỗi ngày - ứng dụng của khoa học dữ liệu
1.2. Giới thiệu về đề tài

1.2.1. Giới thiệu về đề tài
Đề tài "Phân lớp bộ dữ liệu Attrition - Train" tập trung vào việc phân loại và dự đoán
tình trạng "Attrition" trong một tổ chức. Attrition đề cập đến việc nhân viên rời bỏ tổ
chức hoặc chấm dứt mối quan hệ làm việc trong một khoảng thời gian nhất định.
Trên thực tế, hiểu và dự đoán Attrition là một vấn đề quan trọng trong lĩnh vực quản lý
nhân sự. Việc mất nhân sự có thể gây ra những ảnh hưởng tiêu cực về mặt tài chính và
hoạt động của tổ chức. Do đó, phân loại và dự đoán Attrition đóng vai trò quan trọng
trong việc phát hiện những yếu tố tiềm ẩn gây ra sự ra đi của nhân viên và phục vụ cho
việc xây dựng các biện pháp giữ chân nhân tài.
Trong đề tài này, chúng ta sẽ sử dụng phần mềm Orange, một công cụ phân tích dữ liệu
mạnh mẽ và dễ sử dụng, để tiến hành phân loại dữ liệu Attrition. Các bước tiến hành sẽ
15
bao gồm: thu thập dữ liệu liên quan đến nhân viên, xử lý và tiền xử lý dữ liệu, chọn và áp
dụng các thuật toán phân loại, đào tạo mô hình và đánh giá hiệu suất dự đoán.
Hình 2.1 Minh hoạ về Attrition là vấn đề nan giải đặt ra của các doanh nghiệp
1.2.2. Lý do chọn đề tài
Phân lớp bộ dữ liệu Attrition là một chủ đề phổ biến trong lĩnh vực quản lý nhân sự và
phân tích dữ liệu. Nó liên quan đến việc dự đoán việc làm lâu dài của nhân viên trong
một tổ chức. Đề tài này cung cấp cho sinh viên cơ hội nắm bắt kiến thức và kỹ năng quan
trọng trong việc phân loại và dự đoán trong lĩnh vực này.
Việc thực hiện dự án phân loại bộ dữ liệu Attrition sẽ đòi hỏi sinh viên nghiên cứu, phân
tích và hiểu rõ về dữ liệu nhân sự, cũng như áp dụng các kỹ thuật phân loại và đánh giá
mô hình. Qua quá trình này, sinh viên sẽ phát triển kỹ năng quan trọng trong việc làm
việc với dữ liệu thực tế và xử lý các vấn đề phân loại. Tất nhiên, sẽ có những bài nghiên
cứu về vấn đề này với quy mô lớn hơn, chuẩn mực hơn, nhưng các thành viên sẽ dựa trên
những kiến thức sẵn có trong phạm vi học phần khoa học dữ liệu của UEH để làm bài với
mục đích luyện tập và sản phẩm tạo ra phục vụ việc tham khảo mục đích học tập đối với
các bạn sinh viên là chính, nên không thể đem ra so sánh.
16
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
PHƯƠNG PHÁP SỬ DỤNG
2.1 Các phương pháp của Excel dùng để khai thác dữ liệu:
Excel là một phần mềm bảng tính của Microsoft Office. Excel có nhiều công dụng như:
Tính toán số liệu, lưu trữ, quản lý, phân tích dữ liệu,...trong bộ môn Khoa học Dữ liệu,
Excel phục vụ cho việc phân tích dự báo, thống kê mô tả và lưu các dữ liệu.
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng dụng cụ Descriptive Statistics
Bước 1: Chuẩn bị bảng số liệu cần thống kê
Bước 2: Chọn lệnh Data  Data Analysis  Descriptive Statistics, xuất hiện hộp thoại
Descriptive Statistics.
Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal
Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm
Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào ô bất kỳ trên dữ liệu
Bước 3: Chọn Data  Outline  Subtotal, xuất hiện hộp thoại Subtotal.
2.1.1.3 Hợp nhất dữ liệu với Consolidate
Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.
Bước 2: Chọn Data  Data Tools  Consolidate, xuất hiện hộp thoại Consolidate.
2.1.1.4 Tổng hợp dữ liệu đa chiều với Pivot Table
Cách thực hiện:
Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu
Bước 2: Chọn lệnh Insert  PivotTable
Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chưa
PivotTable, click nút OK
Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS,
COLUMNS và VALUES.
2.1.2 Phương pháp về phân tích dự báo
17
2.1.2.1 Phương pháp trung bình trượt ( Moving Average )
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chọn lệnh Data  Data Analysis  Moving Average, xuất hiện hộp thoại
Moving Average
Bước 3: Khai báo các thông số Input và Output Options
2.1.2.2 Phương pháp san bằng mũ
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chọn lệnh Data  Data Analysis  Exponential Smoothing, xuất hiện hộp thoại
Exponential Smoothing
2.1.2.3 Phương pháp hồi quy ( Regression )
Cách thức hiện bằng đồ thị:
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc
lập X
Bước 3: Vẽ đồ thị dạng Scatter
Bước 4: Click chuột phải vào data series, chọn Add Trendline
Bước 5: Tùy chọn hiển thị trong Trendline Options
Cách thức hiện bằng công cụ Regression:
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
Bước 2: Chọn lệnh Data  Data Analysis  Regression, xuất hiện hộp thoại Regression
2.1.3 Phương pháp phân tích tối ưu
Khảo sát một tình huống như sau:
Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn
lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:
18
Loại sản phẩm Khả năng lớn nhất
Số liệu đầu vào đối với của các nguồn tài
một đơn vị sản phẩm nguyên sẵn có
Lúa gạo Lúa mì
Diện tích đất (ha/tấn) 4 6 100 ha
Lượng nước (m3/tấn) 12 8 180 m3
Nhân công (người/tấn) 30 24 500 người
Lợi nhuận (USD/tấn) 36 42
Bảng 1.2 Bảng tóm tắt bài toán tối đa hóa lợi nhuận
Các bước lập mô hình:
Bước 1: Xác định biến quyết định
Gọi x1, x2 lần lượt là lượng lúa gạo và lúa mì ( tấn ) cần sản xuất
Bước 2: Xác định hàm mục tiêu
Mục tiêu của bài toán là tối đa hóa lợi nhuận, ta có:
P=P (lúa gạo) + P (lúa mì) = 36x1 + 42x2  max
Bước 3: Xác định hệ ràng buộc
Ràng buộc tài nguyên sử dụng:
 Về diện tích đất: 4x1 + 6x2 ≤100
 Về nước tưới: 12x1 + 8x2 ≤ 180
 Về lao động: 30x1 + 24x2 ≤ 500
Ràng buộc tự nhiên: x1, x2 ≥ 0
Sử dụng công cụ SOLVER để giải mô hình kinh tế
Bước 1: Thiết lập bảng tính
Bước 2: Chọn lệnh Data  Analysis  Solver
Bước 3: Nhấn nút Solve để giải mô hình
Bước 4: Nhấn nút OK để xem kết quả
2.2 Phần mềm Orange
2.2.1 Tổng quan về phần mềm Orange
19
“Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE). Hệ
điều hành này dựa trên kiến thức x86 (32-bit) của Intel và chạy được dưới bộ vix86 của
Intel hay AMD. Orange là một nền tảng được xây dựng để tạo các đường ống học máy
trên quy trình làm việc giao diện đồ họa người dùng (GUI). Orange là một công cụ khá
trực quan để nghiên cứu về các thuật toán machine learning và thực hành data mining.
Những người không có kỹ năng mã hóa có thể vận hành Orange một cách dễ dàng.
Người ta có thể thực hiện mọi nhiệm vụ ngay từ khi chuẩn bị dữ liệu đến đánh giá mô
hình mà không cần viết một dịch mã nào. Orange là một giải pháp khai thác dữ liệu giúp
các doanh nghiệp từ nhỏ đến lớn tạo quy trình công việc phân tích và trực quan hóa dữ
liệu để tạo các phép chiếu tuyến tính bản đồ nhiệt, MDS, Cây quyết định,... trên nền tảng
tập trung.”
Orange có thể phân tích cả dữ liệu đơn giản và phức tạp với đồ họa dễ nhìn, giúp việc
khai thác dữ liệu và học máy trở nên đơn giản hơn cho người dùng.
Các công cụ của Orange cung cấp các chức năng cơ bản nhất, vì thế mà người dùng có
thể vào phân tích dữ liệu ngay, bao gồm:
 Data: Rút trích, nạp dữ liệu
 Visualize: biểu diễn biểu đồ, dữ liệu được quan sát một cách tốt hơn
 Model: bao gồm hàm phân lớp dữ liệu ( Tree, Logictis Regression, SVM,...)
 Evaluate: đánh giá mô hình
 Unsupervised: Các hàm gom nhóm dữ liệu: Distance, K-means,...
 Add ons: Mở rộng các chức năng nâng cao, phân tích mạng xã hội,...
2.2.2 Phương pháp phân cụm dữ liệu
2.2.2.1 Định nghĩa
Phân cụm dữ liệu là quá trình gom cụm/ nhóm của các đối tượng/ dữ liệu có những đặc
điểm tương đồng vào các cụm/ nhóm tương ứng. Trong đó:
 Trong cùng một cụm, các đối tượng sẽ có tính chất tương tự nhau
 Đối tượng thuộc cụm/nhóm khác nhau sẽ có tính chất khác nhau
Lưu ý: Dữ liệu trong bài toán phân cụm là dữ liệu chưa được gán nhãn. Một ví dụ điển
hình cho dữ liệu tự nhiên thường thấy trong thực tế.
20
Hình 1.2 Minh họa của phương pháp phân cụm
Hình 2.2 Mô hình quá trình phân cụm dữ liệu

2.2.2.2 Đặc điểm của phân cụm dữ liệu
Tìm, đo đạc sự khác biệt giữa các đối tượng dữ liệu.
Phân cụm là phương pháp học không giám sát, lí do là vì không biết trước được số
nhóm.
Phương pháp phân cụm tốt là phương pháp tạo các cụm có chất lượng cao:
 Bên trong cụm có độ tương đồng cao.
 Giữa các cụm có độ tương tự thấp.
2.2.2.3 Các ứng dụng của phương pháp phân cụm trong kinh tế
 Dự báo vùng khách hàng tiềm năng.
21
 Phân tích những xu hướng hành vi của khách hàng
 Phân tích xu hướng lựa chọn dịch vụ, cạnh tranh giữa những nhà cung cấp
 Phân tích tính sản phẩm dịch vụ
 Đánh giá kết quả của hoạt động kinh doanh
 Phân tích hành vi của người dùng mạng
2.2.2.4 Các phương pháp phân cụm
2.2.2.4.1 Phân cụm phân cấp ( Hierarchical approach )
Là xây dựng cây phân cấp cho dữ liệu cần gom cụm dựa vào:
 Ma trận khoảng cách giữa phần tử (similarity matrix or dissimilarity matrix)
 Độ đo khoảng cách giữa những cụm (single link, complete link...)
Phương pháp trên không cần xác định số cụm trước nhưng cần xác định điều kiện dừng.
Vài phương pháp điển hình như là: Diana, Agnes...
2.2.2.4.2 Phân cụm phân hoạch ( Partitioning Clustering )
“Là phân tập dữ liệu có n phần tử cho trước thành k tập con (k≤n), mỗi tập con biểu
diễn một cụm”
Cụm hình thành qua cơ sở tối ưu hóa giá trị hàm độ đo phân cụm, sao cho:
 Mỗi đối tượng thuộc duy nhất 1 cụm, phần tử trong cụm tương tự nhau.
 Mỗi cụm có ít nhất 1 phần tử.
Một vài thuật toán tiêu biểu như: Fuzzy C-means, K-mediods, K-means.
2.2.2.4.3 Các phương pháp đánh giá phân cụm dữ liệu
 Đánh giá ngoài (external validation): là đánh giá kết quả phân cụm dựa vào cấu
trúc/ xu hướng phân cụm được chỉ định trước cho tập dữ liệu
 Đánh giá nội bộ (internal validation): là đánh giá kết quả phân cụm mà không có
thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ liệu thông qua ma
trận xấp xỉ
 Đánh giá tương đối (relative validation): là đánh giá kết quả gom cụm bằng việc
so sánh với: Kết quả gom cụm ứng với các bộ trị thông số khác nhau với kết quả
gom cụm của các phương pháp khác.
2.2.3 Phương pháp phân lớp dữ liệu
2.2.3.1 Định nghĩa
22
“Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một
mô hình phân lớp. Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán
nhãn trước đó”.
2.2.3.2 Quá trình phân lớp dữ liệu
Hình 3.2 Mô hình phân lớp

Quá trình phân lớp dữ liệu là quá trình gán nhãn cho đối tượng. Gồm 2 bước:
 Bước 1: Xây dựng mô hình
 Bước 2.1: Đánh giá mô hình
 Bước 2.2: Phân lớp dữ liệu mới
2.2.3.3 Các ứng dụng của phương pháp phân lớp trong kinh tế
 Dự báo giá chứng khoán
 Xếp hạng tín dụng cá nhân và tổ chức
 Đánh giá rủi ro tài chính
 Dự báo doanh thu
 Dự báo khách hàng trung thành
 Dự báo khủng hoảng kinh tế
 Dự báo cung cầu
2.2.3.4 Một số phương pháp phân lớp
2.2.3.4.1 Phương pháp Hồi quy logistic ( Logistic Regression )
“Phương pháp Hồi quy logistic là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ
một tập các giá trị đầu vào”.
23
Kết quả của phương pháp này là một giá trị nhị phân bất kỳ.
Hình 4.2 Minh họa của phương pháp Hồi quy logistic
2.2.3.4.2 Phương pháp cây quyết định ( Decision Tree )
“Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả
dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại
và tổng quát hóa tập dữ liệu cho trước.”
Hình 5.2 Minh họa một mô hình cây quyết định đơn giản
Ưu điểm:
 Dễ hiểu
 Không cần đòi hỏi việc chuẩn hóa dữ liệu
24
 Xử lý được trên nhiều kiểu dữ liệu khác nhau
 Trong thời gian ngắn vẫn có thể xử lý tốt lượng dữ liệu lớn
Khuyết điểm:
 Trong tình huống dữ liệu phụ thuộc vào thời gian, rất khó giải quyết
 Mô hình này có chi phí xây dựng cao
2.2.3.4.3 Phương pháp SVM ( Support Vector Machine )
“SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những
vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng
một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu”.
Hình 6.2 Minh họa phương pháp SVM

Biến thể của SVM gồm :
Loại SVM Tính chất
Hard Margin SVM Hai lớp cần phân lớp là có thể phân chia tuyến tính (linearly seperable)
Soft Margin SVM Hai lớp cần phân lớp là “gần” phân chia tuyến tính (almost linear
seperable)
Multi-class SVM Phân lớp đa lớp (biên giữa các lớp là tuyến tính)
Kernel SVM Dữ liệu là phi tuyến
Bảng 2.2 Biến thể của SVM

Ưu điểm:
 Tiết kiệm bộ nhớ
25
 Linh hoạt: phân lớp được cả tuyến tính và phi tuyến tính
 Có thể xử lý được trong không gian đa chiều
Khuyết điểm:
 Nếu số dòng dữ liệu bé hơn số chiều dữ liệu  kết quả của SVM không tốt
 Trong phân lớp chưa thể hiện tính xác xuất
2.2.3.5 Các phương pháp đánh giá mô hình phân lớp
“Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên dữ liệu có
đặc thù cụ thể, từ đó quyết đinh có sử dụng mô hình đó hay không”.
Mô hình lý tưởng là mô hình không quá phức tạp, không quá đơn giản và không quá nhạy
cảm với nhiễu.
2.2.3.5.1 Ma trận nhầm lẫn ( Confusion Matrix )
“Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một
lớp cụ thể và được dự đoán là rơi vào lớp nào. Có kích thước k x k với k là số lượng lớp
của dữ liệu”.
2.2.3.5.2 Tính chính xác (Accuracy)
“Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu
(��+��)
acc = �
=> Error rate = 1 - acc là độ lỗi của mô hình”.
Accuracy chỉ cho ta biết được tỷ lệ dữ liệu đã được phân loại đúng mà không chỉ ra
được cụ thể mỗi loại được phân loại thế nào, lớp nào được phân loại đúng nhiều nhất và
dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.
2.2.3.5.2 ROC, AUC, Precision/ Recall
“ROC (Receiver Operating Characteristic): Là một đồ thị được sử dụng khá phổ biến
trong đánh giá các mô hình phân loại nhị phân. Đường cong này được tạo ra bằng cách
biểu diễn tỷ lệ dự báo TPR dựa trên tỷ lệ dự báo FPR tại các ngưỡng khác nhau. Một mô
hình hiệu quả là khi có FPR thấp, TPR cao hay ROC càng tiệm cận với điểm (0;1) trong
đồ thị.”
“AUC (Area Under the Curve): là diện tích nằm dưới đường cong ROC. Giá trị này (số
dương >1) càng lớn thì mô hình càng tốt”
“Precision (độ chính xác): Cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao
nhiêu mẫu có đúng”
��
Precision =
(��+��)
26
“Recall (độ phủ): còn được gọi là độ phủ hay độ nhạy hay TPR”
��
Recall =
(��+��)
“F1-score: giá trị trung bình điều hòa của hai độ đo Precision và Recall”
( Precision x recall)
F1 = 2
(Precision + recall)
2.2.3.5.2 Phương pháp phân chia dữ liệu Hold-out

“Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệ
nhất định”.
Phương pháp trên thích hợp với những tập dữ liệu nhỏ. Tuy nhiên, các mẫu có thể
không đại diện cho toàn bộ dữ liệu ( thiếu lớp trong tập thử nghiệm )
2.2.3.5.3 K-fold cross validation
“Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kích
thước ( gọi là fold )”.
Một số fold được sử dụng làm tập huấn luyện, phần còn lại được sử dụng làm tập dữ
liệu đánh giá.
Quá trình này được lặp lại mãi cho đến khi tất cả các fold đều đã được dùng làm tập dữ
liệu đánh giá.
Phương pháp này thường sẽ được sử dụng nhiều hơn Hold-out do mô hình được đánh
giá trên nhiều phần dữ liệu khác nhau => tăng độ tin cậy của mô hình.
27
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ
3.1. Phân tích dữ liệu Attrition-Train
3.1.1. Tiền xử lý dữ liệu Attrition-Train
Ta tiền xử lý dữ liệu Attrition-Train trên phần mềm Orange:
Hình 1.3 Các bước tiến hành xử lý dữ liệu
Nạp dữ liệu Attrition-Train ta mở Datasets chọn Attrition-Train
28
Hình 2.3 Nạp dữ liệu Attrition-Train vào Datasets
Dùng dữ liệu quan sát bằng cách nối Datasets với Data Table sau đó nhấp chuột vào
Data Table đã sẽ thấy được dữ liệu. Do không có dữ liệu bị thiếu nên có thể bỏ qua bước
tiền xử lý dữ liệu Preprocess.
Hình 3.3 Dữ liệu Attrition-Train trong Data Table

Lưu dữ liệu và xuất dữ liệu ra file Excel mới với tên dữ liệu Attrition-Train.xlsx
29
3.1.2. Mô tả dữ liệu Attrition-Train
Thông tin dữ liệu Attrition-Train
Khám phá các yếu tố dẫn đến sự tiêu hao của nhân viên và khám phá các câu hỏi quan
trọng như 'chỉ cho tôi bảng phân tích khoảng cách từ nhà theo vai trò công việc và sự tiêu
hao' hoặc 'so sánh thu nhập trung bình hàng tháng bằng giáo dục và tiêu hao'. Đây là một
bộ dữ liệu hư cấu được tạo ra bởi các nhà khoa học dữ liệu của IBM.
Các biến của bộ dữ liệu:
STT Tên biến Ý nghĩa
1 Age Tuổi
2 Business Travel Tần suất đi công tác
3 Department Bộ phận làm việc
4 Distance From Home Khoảng cách từ nhà đến nơi làm việc
5 Education Trình độ học vấn
6 Gender Giới tính
7 Job level Cấp độ công việc
8 Job Role Vai trò công việc
9 Job Satisfaction Mức độ hài lòng trong công việc
10 Marital Status Tình trạng hôn nhân
11 Monthly Income Thu nhập hàng tháng
12 Overtime Làm việc ngoài giờ
13 Percent Salary Hike Phần trăm tăng lương
30
14 Performance Rating Đánh giá hiệu quả
15 Stock Option Level Mức quyền chọn cổ phiếu
16 Total Working Years Tổng số năm làm việc
17 Years At Company Số năm làm việc tại công ty
18 Years Since Last Promotion Số năm kể từ lần tăng lương cuối cùng
Bảng 1.3 Bảng mô tả các biến của bộ dữ liệu Attrition-Train

Mục tiêu phân tích
Từ bộ dữ liệu Attrition - Train ta có thể phân tích, dự báo xem liệu công ty có bị hao
mòn nhân lực và có thể đào tạo nhân viên thay thế được không từ đó rút ra kết luận và
hướng phát triển.
3.1.3. Thống kê mô tả dữ liệu
Tỷ lệ trình độ học vấn của các nhân viên
Hình 4.3 Biểu đồ tỷ lệ phần trăm trình độ học vấn của các nhân viên
31
Từ bộ dữ liệu Attrition - Train thống kê thông tin của 1470 người, ta có thể thấy trình đồ
học vấn rất chênh lệch nhau. Đa phần là những người có học vấn trung bình 3.0 chiếm
39%, tiếp đến là những người có trình độ học vấn khá 4.0 chiếm 27%. Những người có
học vấn thấp cũng chiếm một tỷ lệ tương đối lần lượt là 2.0 chiếm 19% và 1.0 chiếm 12%.
Còn là là những người có học vấn giỏi chỉ chiếm con số rất nhỏ trong tổng số là 3%.
Tình trạng hôn nhân
Hình 5.3 Biểu đồ tình trạng hôn nhân của các nhân viên
Trong tổng số 1470 người, ta có thể thấy có đến 673 người đã kết hôn chiếm 46%. Tỷ lệ
những người độc thân là 32% với 470 người. Còn là là những người đã ly hôn lên đến
327 người chiếm 22%, con số khá cao.
Khoảng cách địa lý
32
Hình 6.3 Biểu đồ khoảng cách địa lý
Biểu đồ cho thấy số lượng đông nhân viên có khoảng cách từ nhà đến nơi làm việc dưới
35_ và khoảng cách gần nhất là 12_. Số ít người có khoảng cách trong khoảng 60 đến 90.
Và có hai trương hợp có khoảng cách xa nhất là 208 và 211.
Độ tuổi
Hình 7.3 Biểu đồ độ tuổi
33
Độ tuổi của nhân viên trong khoảng từ 31-40 là chiếm số lượng đông nhất là 619 người.
Nhân viên từ 18-30 với 41-50 có số lượng hơn 300 người. Và những nhân viên tron lứa
tuổi 51-60 có số lượng ít nhất với 143 người.
Tỷ lệ giới tính
Hình 8.3 Biểu đồ giới tính

Qua biểu đồ trên, ta có thể thấy số lượng nhân viên nam chiếm số lượng đông hơn số
nhân viên nữ.
Số lần đi công tác của nhân viên
34
Hình 9.3 Biểu đồ số lần đi công tác
Biểu đồ cho thấy, phần lớn nhân viên hiếm khi được đi công tác. Chỉ có 277 người được
đi công tác thường xuyên và thậm chí có 150 người chưa được đi công tác.
Mức độ hài lòng trong công việc
Hình 10.3 Biểu đồ mức độ hài lòng với công việc
35
Các nhân viên có mức độ hài lòng với công việc chủ yếu ở mức 3 và 4, trong đó sự hài
lòng tại mức 4 chiếm số đông hơn. Mức độ hài lòng tại 1 và 2 cũng có số lượng khá đông
nhưng tổng lại chưa đến 50%.
3.2. Phân lớp dữ liệu Attrition - Train
Giới thiệu phân lớp dữ liệu
Hình 11.3 Giới thiệu phân lớp dữ liệu

3.2.1. Một số phương pháp phân lớp
+ Hồi quy Logistic (Logistic Regression)
+ SVM (Support Vector Machines)
36
+ Cây quyết định (Decision Tree)
3.2.2. Kết quả mô hình

Bước 1: Xây dựng mô hình
Sử dụng Data Sampler lấy mẫu dữ liệu
Lấy 30% mẫu đã được tiền xử lý trước đó. Sau đó chọn DataSave để lưu thành file
Excel tên Du_Lieu_Thu_Nghiem_30%.xlsx
Hình 12.3 Lấy mẫu từ dữ liệu 1
37
Hình 13.3 Mẫu dữ liệu
Dữ liệu sau khi lấy mẫu sẽ có 441 quan sát, 18 biến và không có dữ liệu bị lỗi
Tiếp tục sử dụng Data Sampler để lấy mẫu dữ liệu từ File
Du_Lieu_Thu_Nghiem_30%.xlsx để phục vụ cho việc phân lớp dữ liệu
Lấy tập dữ liệu huấn luyện
Hình 14.3 Lấy tập dữ liệu huấn luyện
38
Hình 15.3 Mẫu dữ liệu huấn luyện
Dữ liệu huấn luyện sau khi được lấy sẽ có 309 quan sát, 18 biến và không có dữ liệu bị
lỗi. Sau đó chọn DataSave để lưu về máy với tên Du_Lieu_Huan_Luyen_30%_70%
Lấy tập dữ liệu thử nghiệm :
Hình 16.3 Lấy mẫu dữ liệu thử nghiệm
39
Tại Fixed sample size chọn lấy 100 mẫu bất kỳ từ tập dữ liệu
Du_Lieu_Thu_Nghiem_30%.xlsx. Sau đó chọn Sample Data và chọn DataTable để xuất
ra dữ liệu mới.
Hình 17.3 Mẫu dữ liệu mới trên DataTable

Tập dữ liệu mới với 100 quan sát, 18 biến và không có dữ liệu bị lỗi. Sau đó chọn
DataSave để lưu về máy với tên Attrition-Train_Forecast.xlsx
Hình 18.3 Mô hình lấy tập dữ liệu mới
40
Bước 2: Sử dụng mô hình
Các dữ liệu sau khi lấy mẫu đã đạt và không bị lỗi nên ta bỏ qua bước tiền xử lý dữ liệu.
Dùng Test and Score để so sánh và đánh giá các thuật toán từ đó đưa ra thuật toán chính
xác nhất, tối ưu nhất cho việc dự báo.
Sử dụng tập dữ liệu Du_Lieu_Huan_Luyen_30%_70%.xlsx để dự báo với biến Attrition
là biến phụ thuộc (target).
Hình 19.3 Tập dữ liệu huấn luyện
Hình 20.3 Mô hình các thuật toán
41
Tại bảng Test and Score, chọn chia tỷ lệ mẫu, chọn tỷ lệ lấy mẫu tại Cross Validation
hoặc Random Sampling để được chỉ số đẹp nhất.
Chọn tỷ lệ lấy mẫu Cross Validation
Hình 21.3 Kết quả chia mẫu dữ liệu thành 5 phần
Hình 22.3 Kết quả chia mẫu dữ liệu thành 10 phần
42
Chọn tỷ lệ Random Sampling
Hình 23.3 Kết quả khi chia mẫu dữ liệu thành 50- 90%
Hình 24.3 Kết quả khi chia mẫu dữ liệu thành 20-70%
43
Hình 25.3 Kết quả khi chia mẫu dữ liệu thành 50-66%
Nhận xét: Evaluation Results cho ta biết kết quả định lượng của 3 mô hình Hồi quy
Logistic (Logistic Regression), SVM (Support Vector Machines), Cây quyết định
(Decision Tree) giá trị nào là cao nhất. Khi xem xét các chỉ số từ việc lựa chọn ngẫu
nhiên qua các trường hợp trên ta thấy phương pháp Hồi quy Logistic (Logistic
Regression) ở trường hợp chia dữ liệu mẫu theo kiểu Random Sampling chia mẫu dữ liệu
thành 50 - 90%
Tính chính xác: 84.8%
Giá trị trung bình điều hòa (F1): 81.7%
Độ chính xác (Precision): 81.7%
Độ phủ (Recall): 82.6%
Diện tích đường cong (AUC): 0.760 là là số liệu tốt nhất trong các trường hợp ngẫu
nhiên.
44
Ma trận nhầm lẫn (Confusion Matrix)
Hình 26.3 Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines)
Hình 27.3 Kết quả ma trận nhầm lẫn của Hồi quy logistic (Logistic Regression)
45
Hình 28.3 Kết quả ma trận nhầm lẫn của Cây quyết định (Decision Tree)
Nhận xét: Tại Confusion Matrix ta cần quan sát tỉ lệ sai lầm loại 1 và sai lầm loại 2. Mô
hình tốt nhất là mô hình có tỉ lệ sai lầm loại 2 thấp nhất. Nhìn vào các ví dụ ta cũng có thể
thấy mô hình hồi quy Logistic (Logistic Regression) có tỉ lệ sai lầm loại 2 thấp nhất
12.4% và sai lầm loại 1 là 71.9%. Nên phương pháp Hồi quy Logistic (Logistic
Regression) là phương pháp tốt nhất.
ROC Analysis
Hình 29.3 Đường cong của ROC với biến y là no
46
Hình 30.3 Đường cong của ROC với biến y là yes
Nhận xét: một mô hình khi có FRP cao và TPR thấp hay đường cong ROC gần tiệm cận
với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả. Nên khi nhìn 2 hình thể hiện
đường cong ROC của biến Attrition ta thấy phương pháp Hồi quy Logistic (Logistic
Regression) có đường cong gần tiệm cận với (0;1) nhất nên mô hình này hiệu quả nhất.
Kết luận: phương pháp hồi quy Logistic (Logistic Regression) là phương pháp tốt nhất .
Nguyên nhân lựa chọn:
Phương pháp này có AUC (Area Under the Curve) hay diện tích nằm dưới đường cong
ROC lớn nhất suy ra mô hình này tốt nhất.
Tính chính xác (CA): cao
Phương pháp này có sai lầm loại 2 và sai lầm loại 1 nhỏ nhất.
Phương pháp có đường cong ROC gần tiệm cận với điểm (0;1) nhất.
47
Hình 31.3 Đánh giá mô hình phân lớp dữ liệu 2
Sau khi đã sử dụng các phương pháp đánh giá mô hình phân lớp, ta sẽ chọn phương
pháp Hồi quy Logistic (Logistic Regression) để dự báo 100 mẫu bất kỳ.
Hình 32.3 Tập dữ liệu thử nghiệm
48
Sử dụng Prediction để dự báo dữ liệu theo phương pháp Hồi quy Logistic (Logistic
Regressiom)
Hình 33.3 Mô hình dự báo dữ liệu Attrition-Train

Mô hình dự báo 100 mẫu bất kỳ:
Kết quả dự báo
Hình 34.3 Kết quả dự báo của mô hình
49
CHƯƠNG 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Chương này trình bày các nội dung bao gồm: tổng kết các kết quả của đồ án, nhận xét
và đánh giá mô hình đã được chọn để phân lớp bộ dữ liệu Attrition-Train và đưa ra hướng
phát triển phù hợp thông qua cách đưa ra các kiến nghị thực tế cho doanh nghiệp.
4.1. Kết luận:
Mục tiêu ban đầu của nhóm là khám phá các yếu tố dẫn đến sự tiêu hao của nhân viên
dựa theo bộ dữ liệu hư cấu Attrition-Train do các nhà khoa học dữ liệu IBM tạo ra. Đồng
thời, chọn ra 100 mẫu để dự báo về sự hao hụt nhân lực trong tập dữ liệu này. Bằng cách
vận dụng đầy đủ các cơ sở lý thuyết ở chương II, các kết quả từ đồ án này có độ tin cậy
cao.
Thông qua các thuật toán phân lớp dữ liệu, mô hình Hồi quy Logistic là phương pháp tốt
nhất được lựa chọn dựa trên các kết quả kiểm tra của nó. Những kết quả đó gồm:
+ Kết quả dữ liệu chia mẫu thành 5 phần, 10 phần, 50-90%, 20-70% và 50-66% cho
thấy lựa mô hình Hồi quy Logistic với cách chia mẫu thành 5 phần là lựa chọn tốt
nhất.
Cách chia mẫu Mô hình AUC CA F1 Prec
Chia mẫu thành SMV 0.658 0.867 0.806 0.752

5 phần
Logistic 0.741 0.861 0.826 0.817
Regression
Tree 0.511 0.819 0.805 0.794
Chia mẫu thành 10 SMV 0.666 0.867 0.806 0.752

phần
Logistic 0.756 0.854 0.822 0.809
Regression
Tree 0.505 0.799 0.795 0.791
Chia mẫu 50-90% SMV 0.685 0.871 0.811 0.759
50
Logistic 0.76 0.848 0.817 0.799
Regression
Tree 0.476 0.819 0.809 0.799
Chia mẫu 20-70% SMV 0.656 0.871 0.811 0.759
Logistic 0.738 0.846 0.818 0.801

Regression
Tree 0.474 0.805 0.797 0.790
Chia mẫu 50-66% SMV 0.648 0.867 0.806 0.753
Logistic 0.726 0.844 0.815 0.798

Regression
Tree 0.498 0.805 0.795 0.786
Bảng 1.4 Bảng tổng hợp số liệu Test and Score qua các dạng phân lớp
+ Kết quả của ma trận nhầm lẫn với tỉ lệ FP (False Positive - Type 1 Error) và FN
(False Negative - Type 2 Error) nhỏ nhất trong cả 3 mô hình ( FP = 71.9% và FN =
12.4%)
=> Mô hình Logistic là mô hìnhCa phù hợp nhất để phân tích và dự báo bộ dữ liệu nay.
Kết quả dự báo 100 mẫu bất kỳ qua phương pháp Hồi quy Logistic cho thấy ít có sự
tiêu hao nhân lực do các yếu tố đã đề ra nhưng vẫn cần lưu ý các yếu tố đã đưa ra trong
trường hợp thực tế.
4.2. Hướng phát triển:
Mô hình này có thể giúp ích cho các doanh nghiệp trong việc giảm tiêu hao lao động.
Thông qua kết quả của mô hình này, doanh nghiệp có thể xác định được các yếu tố gây
nên sự hao hụt nhân viên và từ đó lên kế hoạch định hướng để doanh nghiệp giữ chân
người tài. Đối với các ngành cung cấp dịch vụ, sự tiêu hao nhân lực là rủi ro lớn bởi nhân
viên là những người được đào tạo và lĩnh hội được kinh nghiệm của doanh nghiệp. Đây
là có thể coi là một sự thất thoát tài sản và có thể gây tổn thất cho doanh nghiệp nếu nhân
viên rời đi và tham gia công ty khác với những kinh nghiệm đã lấy được trong thời gian
còn làm việc tại doanh nghiệp cũ.
51
Bộ dự liệu có các biến độc lập phù hợp với những nguyên nhân thực tế dẫn đến dự hao
hụt nhân viên trong một tổ chức, doanh nghiệp. Do đó, bộ phận Nhân sự của các doanh
nghiệp và tổ chức có thể khai thác thêm dữ liệu này và đưa số liệu thực tế của chính họ
để nghiên cứu và tìm ra giải pháp cho vấn đề này tại chính tổ chức, doanh nghiệp của họ.
Qua quá trình phân tích và dự báo về bộ dữ liệu Attrition-Train, nhóm có đề ra một số
kiến nghị để giảm tình trạng hao hụt nhân viên như sau:
- Các doanh nghiệp nên tạo điều kiện cho nhân viên thực hiện đi công tác nhiều hơn.
Đây là rủi ro cho doanh nghiệp, sau khi cho nhân viên đi công tác năng lực của họ
được cải thiện và nâng cao hơn. Nhưng đây cũng là một cơ hội tạo ra đủ sức hấp
dẫn để giữ chân họ lại.
- Tạo cơ hội thăng tiến hoặc tăng phần trăm tăng lương cho những người đã làm
việc tại doanh nghiệp nhiều năm để tránh tình trạng hao hụt những nhân viên
nhiều kinh nghiệm, kỹ năng chuyên môn trong doanh nghiệp.
- Nên đầu tư phương tiện di chuyển giúp cho những nhân viên ở xa nơi làm việc dễ
dàng đi lại. Khi được chăm sóc về vấn đề di chuyển, ta có thể giảm được nguyên
nhân nhân viên rời đi do khoảng cách quá xa.
- Xem xét giảm bớt chế độ tăng ca để nhân viên giảm cảm giác căng thẳng, chán
nản với chế độ làm việc của doanh nghiệp.
HẾT
52
TÀI LIỆU THAM KHẢO
Nguyễn Hưng. (2022). Dữ liệu là gì? Tầm quan trọng của data đối với doanh nghiệp.
Truy cập ngày 20/5/2023 tại: https://vietnix.vn/du-lieu-la-gi/
TS Nguyễn Quốc Hùng, bài giảng chương 1, 2, 3, 4 và các tài liệu tham khảo môn Khoa
học dữ liệu.
53

ĐỒ ÁN CUỐI KỲ MÔM KHDL

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ĐỒ ÁN CUỐI KỲ MÔM KHDL

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC UEH

TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC

BÁO CÁO ĐỒ ÁN KẾT THÚC HỌC PHẦN

Giảng viên: TS. GVC Nguyễn Quốc Hùng

TP Hồ Chí Minh, ngày 18 tháng 05 năm 2023

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU VỀ ĐỀ

1.2. Giới thiệu về đề tài................................................................................................. 15

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ PHƯƠNG

2.2. Phần mềm Orange................................................................................................. 20

3.2. Phân lớp bộ dữ liệu................................................................................................ 36

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO............................................................................................ 53

1 Phan Vũ Phương Ngọc - Lời mở đầu 100%

2 Nguyễn Thị Ngọc Hạnh - Chương II: Tổng quan về 100%

3 Lê Phi Long - Chương III: Ứng dụng 100%

4 Hoàng Thuỵ Thuý Vy - - Chương IV: Kết luận và 100%

Bảng 2.2 Các biến thể của SVM..................................................................................... 25

Bảng 1.3 Bảng mô tả các biến của bộ dữ liệu Attrition-Train....................................... 31

Chúng em xin chân thành cảm ơn !

hữu ích cho việc học và kể cả sau này.

1.1. Giới thiệu về Khoa học dữ liệu

1.1.1. Sơ lược về dữ liệu

hiện và xử lý bằng máy tính.

tiếp lên dữ liệu này.

quan hệ giữa các biến và xây dựng mô hình dự đoán.

1.1.2. Khái quát về khoa học dữ liệu

dữ liệu, tệp tin, trang web hoặc API.

được sử dụng cho phân tích.

mẫu, xu hướng và thông tin hữu ích từ dữ liệu.

tích sâu sắc.

1.1.3. Sự phát triển của khoa học dữ liệu

1.1.4. Ứng dụng của khoa học dữ liệu

hàng quý ...

1.2. Giới thiệu về đề tài

Hình 2.2 Mô hình quá trình phân cụm dữ liệu

Hình 3.2 Mô hình phân lớp

Hình 6.2 Minh họa phương pháp SVM

Bảng 2.2 Biến thể của SVM

2.2.3.5.2 Phương pháp phân chia dữ liệu Hold-out

Hình 1.3 Các bước tiến hành xử lý dữ liệu

Nạp dữ liệu Attrition-Train ta mở Datasets chọn Attrition-Train

Hình 3.3 Dữ liệu Attrition-Train trong Data Table

STT Tên biến Ý nghĩa

2 Business Travel Tần suất đi công tác

3 Department Bộ phận làm việc

5 Education Trình độ học vấn

6 Gender Giới tính

7 Job level Cấp độ công việc

8 Job Role Vai trò công việc

9 Job Satisfaction Mức độ hài lòng trong công việc

10 Marital Status Tình trạng hôn nhân

11 Monthly Income Thu nhập hàng tháng

12 Overtime Làm việc ngoài giờ

13 Percent Salary Hike Phần trăm tăng lương

15 Stock Option Level Mức quyền chọn cổ phiếu

16 Total Working Years Tổng số năm làm việc

17 Years At Company Số năm làm việc tại công ty

Bảng 1.3 Bảng mô tả các biến của bộ dữ liệu Attrition-Train

Hình 7.3 Biểu đồ độ tuổi

Hình 8.3 Biểu đồ giới tính

Hình 10.3 Biểu đồ mức độ hài lòng với công việc

Hình 11.3 Giới thiệu phân lớp dữ liệu

+ SVM (Support Vector Machines)

3.2.2. Kết quả mô hình