You are on page 1of 80

lOMoARcPSD|36908422

Đồ án nhóm 6 - mẫu

Khoa học dữ liệu (Trường Đại học Kinh tế Thành phố Hồ Chí Minh)

Scan to open on Studocu

Studocu is not sponsored or endorsed by any college or university


Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)
lOMoARcPSD|36908422

ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH


TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN KHOA HỌC DỮ LIỆU

BÁO CÁO ĐỒ ÁN HỌC PHẦN


KHOA HỌC DỮ LIỆU

Đề tài: PHÂN TÍCH VÀ DỰ ĐOÁN KHẢ NĂNG KHÁCH


HÀNG RỜI BỎ THẺ TÍN DỤNG CỦA NGÂN HÀNG. TỪ
ĐÓ ĐƯA RA NHỮNG CHIẾN LƯỢC KINH DOANH ĐỂ
THU HÚT VÀ TẠO MỐI QUAN HỆ VỚI KHÁCH HÀNG

GVHD: TS.GVC Nguyễn Quốc Hùng

Nhóm thực hiện: 6

Nguyễn Đào Như Ánh (Trưởng nhóm)


Nguyễn Thanh Phong
Lê Hoàng Bích Phượng
Trần Thị Loan
Thạch Việt Tân

TP. Hồ Chí Minh, Tháng 5/2023

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

MỤC LỤC
DANH MỤC HÌNH ẢNH....................................................................................................................2
DANH MỤC BẢNG BIỂU...................................................................................................................3
DANH MỤC TỪ VIẾT TẮT................................................................................................................4
Lời mở đầu............................................................................................................................................5
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN........................................................................................6
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI..........................7
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ
DỤNG..................................................................................................................................................12
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ......................................47
Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................................74
TÀI LIỆU THAM KHẢO..................................................................................................................76

1
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

DANH MỤC HÌNH ẢNH.


Hình 1. Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại Descriptive
Statistics....................................................................................................................... 13
Hình 2. Bảng kết quả thống kê bằng công cụ Descriptive Statistics............................14
Hình 3. Dữ liệu nhân viên............................................................................................15
Hình 4.Hộp thoại Subtotal...........................................................................................15
Hình 5. Tổng hợp số tiền mà mỗi nhân viên thực hiện................................................16
Hình 6. Doanh thu 3 cửa hàng.....................................................................................17
Hình 7. Hộp thoại Consolidate.....................................................................................17
Hình 8. Bảng hợp nhất doanh thu 3 cửa hàng..............................................................18
Hình 9. Tổng hợp dữ liệu đa chiều với Pivot Table......................................................18
Hình 10. Hộp thoại Create Pivot Table........................................................................19
Hình 11. Kết quả tổng hợp đa chiều với Pivot Table....................................................19
Hình 12. Số liệu bán và hộp thoại Moving Average.....................................................20
Hình 13. Số liệu bán thịt gà và hộp thoại Exponential Smoothing...............................21
Hình 14. Tác động chi phí lên doanh thu thông qua biểu đồ........................................22
Hình 15. Hộp thoại của Regression..............................................................................23
Hình 16. Kết quả hồi quy.............................................................................................24
Hình 17. Thiết lập bảng tính........................................................................................25
Hình 18. Hộp thoại Solver Parameters.........................................................................26
Hình 19. Kết quả tính lợi nhuận tối đa.........................................................................26
Hình 20. Hình ảnh phần mềm Orange.........................................................................27
Hình 21. Giao diện chức năng Data.............................................................................28
Hình 22. Giao diện của công cụ File............................................................................29
Hình 23. Giao diện của Datasets..................................................................................30
Hình 24. Giao diện của Data Table..............................................................................30
Hình 25. Giao diện của Data Sampler..........................................................................31
Hình 26. Giao diện chức năng Visualize......................................................................32
Hình 27. Giao diện chức năng Model..........................................................................33
Hình 28. Giao diện chức năng Evaluate.......................................................................34
Hình 29. Giao diện Test and score...............................................................................34
2
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 30. Giao diện của Confusion Matrix...................................................................35


Hình 31. Giao diện chức năng Unsupervised...............................................................36
Hình 32. Giao diện của Educational............................................................................36
Hình 33. Quá trình phân lớp........................................................................................37
Hình 34. Biểu đồ hàm Logistic....................................................................................38
Hình 35. Mô hình cây quyết định................................................................................40
Hình 36. Ví dụ về ma trận nhầm lẫn............................................................................41
Hình 37. Quy trình phân cụm dữ liệu...........................................................................43
Hình 38. Đồ thị của quá trình phân chia hoặc hợp nhất theo phương pháp phân cụm
phân cấp....................................................................................................................... 44
Hình 39. Sơ đồ giải thích hoạt động của thuật toán k-Means.......................................45
Hình 40. Các bước tiến hành xử lý dữ liệu..................................................................48
Hình 41. Nạp dữ liệu....................................................................................................48
Hình 42. Nạp dữ liệu Credit Card customers vào trong File........................................49
Hình 43. Hộp thoại Continuize....................................................................................50
Hình 44. Quan sát dữ liệu đã xử lí...............................................................................50
Hình 45. Bảng Select Columns....................................................................................51
Hình 46. Mẫu dữ liệu...................................................................................................52
Hình 47. Biểu đồ tròn thể hiện tỉ lệ giới tính của khách hàng sử dụng thẻ tín dụng.....55
Hình 48. Lượng khách hàng ở lại và rời đi thông qua giới tính...................................55
Hình 49. Biểu đồ tròn về trung bình tổng số tiền giao dịch của khách hàng dựa trên
hoạt động của khách hàng............................................................................................56
Hình 50. Biểu đồ thể hiện khách hàng có độ tuổi lớn nhất, nhỏ nhất...........................57
Hình 51. Biểu đồ thống kê số khách hàng ở các độ tuổi..............................................57
Hình 52. Biểu đồ thống kê tình trạng hôn nhân...........................................................58
Hình 53.Biểu đồ cột thể hiện trình độ học vấn của các khách hàng.............................58
Hình 54. Biểu đồ cột thể hiện phần trăm khách hàng rời đi phân theo trình độ học vấn
..................................................................................................................................... 59
Hình 55. Biểu đồ cột về số lượng khách hàng sử dụng các loại thẻ.............................60
Hình 56. Hạn mức trung bình của thẻ..........................................................................60
Hình 57. Sơ đồ cột thể hiện tổng số khách hàng rời đi dựa trên mức thu nhập và giới
tính............................................................................................................................... 61
3
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 58. Lấy mẫu từ dữ liệu........................................................................................62


Hình 59. Mẫu dữ liệu...................................................................................................63
Hình 60. Lấy dữ liệu dự báo........................................................................................64
Hình 61. Tập dữ liệu huấn luyện..................................................................................65
Hình 62. Mô hình so sánh các thuật toán.....................................................................65
Hình 63. Kết quả mẫu khi chia mẫu dữ liệu 5 phần.....................................................66
Hình 64. Kết quả mẫu dữ liệu khi chia 10 phần...........................................................66
Hình 65. Kết quả khi chia mẫu dữ liệu 50-90%...........................................................67
Hình 66. Kết quả khi chia mẫu dữ liệu 20-70%...........................................................67
Hình 67. Kết quả khi chia mẫu dữ liệu 50-66%...........................................................68
Hình 68. Kết quả ma trận nhẫm lẫn của phương pháp Confusion Matrix....................69
Hình 69. Kết quả ma trận nhẫm lẫn của phương pháp SVM........................................69
Hình 70. Kết quả ma trận nhẫm lẫn của phương pháp Logistic...................................69
Hình 71. Đường cong ROC của Attrition_Flag = 1.....................................................70
Hình 72. Đường cong ROC của Attrition_Flag = 0.....................................................71
Hình 73. Đánh giá mô hình phân lớp...........................................................................72
Hình 74. Tập dữ liệu thử nghiệm.................................................................................72
Hình 75. Mô hình dự báo 100 mẫu dữ liệu..................................................................73
Hình 76. Kết quả dự báo của 100 mẫu dữ liệu (1).......................................................73
Hình 77. Kết quả dự báo của 100 mẫu dữ liệu (2).......................................................74
Hình 78. Kết quả dự báo của 100 mẫu dữ liệu (3).......................................................74

4
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

DANH MỤC BẢNG BIỂU.


Bảng 1. Số liệu dự án...................................................................................................24
Bảng 2. Bảng chức năng của File.................................................................................29
Bảng 3. Bảng chức năng của Data Sampler.................................................................31
Bảng 4. Bảng chức năng của Test and score................................................................35
Bảng 5. Các loại biến thể SVM....................................................................................39
Bảng 6. Bảng so sánh ưu nhược điểm..........................................................................39
Bảng 7. Ưu nhược điểm của cây quyết định................................................................40
Bảng 8. Bảng chú thích về ma trận nhầm lẫn...............................................................41
Bảng 9. Phân biệt học có giám sát và học không có giám sát......................................43
Bảng 10. Ưu nhược điểm phương pháp k-Means........................................................46
Bảng 11. Mô tả những thuộc tính của dữ liệu..............................................................54

5
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

DANH MỤC TỪ VIẾT TẮT.

6
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Lời mở đầu.

7
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN


TT Họ và tên Công việc phụ trách Mức độ hoàn thành
1. Chương 1: 1.2
Chương 2: 2.1, 2.4
Nguyễn Đào Như Ánh
Chương 3: 3.1
(Trưởng nhóm)
Chương 4
Tổng hợp Word
2. Chương 2: 2.1.2
Nguyễn Thanh Phong
Chương 3: 3.2
3. Chương 2: 2.1.3, 2.3, 2.5.2
Lê Hoàng Bích Phượng
PowerPoint
4. Chương 1: 1.1
Trần Thị Loan
Chương 2: 2.5
5. Chương 2: 2.1.3, 2.3, 2.5.2
Thạch Việt Tân
PowerPoint

8
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI


THIỆU ĐỀ TÀI

1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

1.1.1 Khái niệm dữ liệu


Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số, từ, hình ảnh, nhằm đo
lường, quan sát hoặc chỉ là mô tả về sự vật. Sự phát triển trong lĩnh vực công nghệ,
đặc biệt là trong điện thoại thông minh đã dẫn đến việc văn bản, video và âm thanh
được đưa vào dữ liệu cùng với nhật ký web. Dữ liệu được chia làm 2 phần:

 Dữ liệu có cấu trúc

+ Thường được gọi là dữ liệu định lượng.


+ Là dạng dữ liệu và số liệu khách quan.
+ Thường ở dạng số hoặc chữ.
+ Được lưu trữ trong Excel, SQL, Google Sheet.
+ Dễ dàng thu thập, truy xuất, lưu trữ và sắp xếp.
+ Dễ đang trích xuất thông tin.
Ví dụ: Con số, họ tên, ngày tháng, địa chỉ thông tin giao dịch.

 Dữ liệu không có cấu trúc

+ Thường được gọi là dữ liệu định tính.


+ Nó có thế là các ý kiến chủ quan và đánh giá thương hiệu của bạn dưới dạng văn
bản.
+ Chỉ ở dưới dạng văn bản.
+ Có thể được lưu trữ trong các tài liệu Word, Elasticsearch hoặc Solr, nơi có thể thực
hiện các truy vấn tìm kiếm từ và cụm từ.
+ Khó có thể thu thập, gây khó khăn cho việc xuất, lưu trữ và sắp xếp trong cơ sở dữ
liệu thông thường.
+ Không thể kiểm tra các phương pháp và công cụ phân tích dữ liệu.
Ví dụ: Phản hồi khảo sát nhận xét trên Social Media, nhận xét blog phản hồi email.
1.1.2 Tổng quan về khoa học dữ liệu
9
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Khoa học dữ liệu là ngành nghiên cứu khoa học về quản trị và phân tích dữ liệu,
chuyển đổi dữ liệu thành những tri thức, thông tin giá trị trợ giúp trong việc đưa ra các
quyết định hành động của doanh nghiệp.
Mục đích của Khoa học dữ liệu là giúp ta có cái nhìn sâu hơn, đánh giá kỹ hơn,
phân tích và chuyển hóa những dữ liệu thô trở thành những giá trị hữu ích.
Công việc của Khoa học dữ liệu gồm quá trình thu thập dữ liệu và xử lý, tiến
hành phân tích chuyên sâu, cuối cùng là trình bày thành quả, đưa ra quyết định và hành
động.
Khoa học dữ liệu sẽ yêu cầu thực hiện:

 Quan sát
 Đặt câu hỏi
 Hình thành các giả thuyết
 Tạo các bài kiểm tra
 Phân tích kết quả
 Khuyến nghị thực tế

1.1.3 Sự phát triển của khoa học dữ liệu


Khoa học dữ liệu là một lĩnh vực nghiên cứu tập trung vào việc thu thập, xử lý,
phân tích và trình bày dữ liệu để giải quyết các vấn đề thực tế. Với sự phát triển của
công nghệ thông tin, khả năng thu thập và lưu trữ dữ liệu của các công ty và tổ chức đã
được cải thiện đáng kể, và khoa học dữ liệu đã trở thành một công cụ hữu ích để phân
tích và đưa ra dự đoán.
Trong những năm gần đây, khoa học dữ liệu đã trở thành một lĩnh vực rộng lớn
và ngày càng phổ biến trong nhiều ngành công nghiệp, bao gồm bán lẻ, tài chính, y tế,
giáo dục và nhiều lĩnh vực khác. Khoa học dữ liệu cũng đang phát triển nhanh chóng,
với việc áp dụng các công nghệ mới như trí tuệ nhân tạo và học sâu để phân tích dữ
liệu phức tạp hơn.
Từ việc phân tích dữ liệu để tìm hiểu thị trường và khách hàng, đến dự đoán và
tối ưu hóa hoạt động kinh doanh, khoa học dữ liệu đóng vai trò quan trọng trong quản
lý doanh nghiệp hiện đại. Nó cung cấp cho các doanh nghiệp những thông tin quan
trọng để đưa ra quyết định kinh doanh thông minh và hiệu quả.

10
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu

1.1.4.1 Ứng dụng trong ngành ngân hàng


Bằng ứng dụng của khoa học dữ liệu, ngân hàng tìm ra giá trị vòng đời khách
hàng, cho phép họ định lượng khách hàng mà họ mong muốn. Ngoài ra, dữ liệu cũng
góp phần định hướng ngân hàng phát triển theo nhu cầu thị trường.
Trong các phân tích đánh giá thực tế, ngân hàng sử dụng thuật toán Machine
Learning để cải thiện chiến lược của họ vào đào sâu tìm hiểu nhiều vấn đề tác động
đến chất lượng công việc.

1.1.4.2 Ứng dụng của Khoa học dữ liệu trong ngành tài chính

Ngành khoa học dữ liệu là chìa khóa để tạo ra giao dịch dựa trên thuật toán.
Dựa vào quy trình phân tích dữ liệu cố định, những doanh nghiệp tài chính dễ dàng
tìm ra giải pháp cho dữ liệu họ nắm giữ, mang đến trải nghiệm và xây dựng quan hệ
khách hàng tốt hơn.

Đây là bước tiến vượt trội trong việc áp dụng phân tích dữ liệu người dùng qua
quy trình cá nhân hóa dữ liệu. Những kỹ thuật và thuật toán Machine Learning thúc
đẩy tương tác trên truyền thông đa phương tiện, tăng tốc độ tiếp nhận phản hồi, chăm
sóc khách hàng để phân tích hiệu quả.

1.1.4.3 Ứng dụng của Khoa học dữ liệu trong ngành sản xuất

Những nhà khoa học nắm giữ vai trò chủ chốt trong nền sản xuất vì bằng các
ứng dụng của Khoa học dữ liệu, nền sản xuất có thể cải thiện được khả năng tạo ra sản
phẩm, tối ưu hiệu suất, giảm chi phí và tăng lợi nhuận.

Hơn nữa, với công cụ như IoT, Khoa học dữ liệu cho phép nhưng doanh nghiệp
dự đoán được vấn đề, điều phối hệ thống và phân tích dòng dữ liệu của họ.

1.1.4.4 Ứng dụng của Data Science trong ngành giao thông vận tải

Một lĩnh vực ứng dụng của Khoa học dữ liệu quan trọng là ngành giao thông
vận tải. Khoa học dữ liệu giúp môi trường giao thông an toàn hơn cho người điều
khiển giao thông. Khoa học dữ liệu giúp các phương tiện giao thông được cải tiến,
thêm yếu tố tự động hóa.

Thông qua nhiều biến số của thông tin khách hàng, địa điểm, chỉ dẫn kinh tế,
logistics, phương tiện như xe cộ có thể nhận biết đoạn đường thuận lợi và chỉ hướng
cho người điều khiển một cách tự động.

1.1.4.5 Ứng dụng của Khoa học dữ liệu trong ngành y tế - chăm sóc sức khỏe

Từ khi có ứng dụng của Khoa học dữ liệu, ngành y tế và chăm sóc sức khỏe
cũng có những bước nhảy vọt quan trọng.
11
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

1.1.4.6 Ứng dụng của Khoa học dữ liệu trong Thương mại điện tử

Khoa học dữ liệu cũng có ý nghĩa đối với phân đoạn thị trường và chọn lọc đối
tượng khách hàng mục tiêu của các doanh nghiệp. Sử dụng Khoa học dữ liệu trong các
đề xuất nâng cao của hệ thống, nền tảng thương mại điện tử hoàn toàn có thể đưa ra
những thông tin giá trị và khả thi đối với doanh nghiệp để họ định hướng chiến lược
mua và bán của thị trường.

1.2 GIỚI THIỆU ĐỀ TÀI

1.2.1 Lý do chọn đề tài


Trong thời đại hiện nay, sự phát triển của khoa học dữ liệu đã mở ra nhiều cơ hội
để các doanh nghiệp sử dụng dữ liệu để đưa ra các quyết định kinh doanh thông minh
hơn.
Lý do chọn đề tài này là do vấn đề khách hàng rời bỏ thẻ tín dụng đã trở thành
một trong những thách thức đối với các công ty tài chính. Việc đưa ra các chiến lược
kinh doanh để giữ chân khách hàng cũng như thu hút khách hàng mới là một yếu tố
quan trọng để tăng doanh số và lợi nhuận cho công ty. Tuy nhiên, để đưa ra những
chiến lược kinh doanh phù hợp, các công ty cần phải hiểu rõ hơn về hành vi của khách
hàng và tìm hiểu những yếu tố nào có thể khiến khách hàng rời bỏ thẻ tín dụng của
mình.
Phân tích và dự đoán khả năng khách hàng rời bỏ thẻ tín dụng của công ty có thể
giúp các công ty xác định được những khách hàng có nguy cơ rời bỏ và đưa ra các giải
pháp để giữ chân họ. Đồng thời, phân tích cũng giúp cho các công ty hiểu rõ hơn về
hành vi và nhu cầu của khách hàng, từ đó đưa ra các sản phẩm và dịch vụ phù hợp để
thu hút và giữ chân khách hàng.
Việc phân tích khách hàng và đưa ra các chiến lược kinh doanh phù hợp là rất cần
thiết để đảm bảo sự tồn tại và phát triển của công ty. Các chiến lược này có thể bao
gồm việc đưa ra các chương trình khuyến mãi, ưu đãi cho khách hàng, nâng cấp dịch
vụ và tối ưu hóa trải nghiệm khách hàng. Điều quan trọng là đưa ra các chiến lược phù
hợp với từng đối tượng khách hàng và phù hợp với tình hình kinh doanh của công ty.
Vì vậy, nghiên cứu phân tích và dự đoán khả năng khách hàng rời bỏ thẻ tín dụng
của công ty là một đề tài cực kỳ hữu ích và cần thiết. Từ đó, công ty có thể đưa ra
những chiến lược kinh doanh phù hợp để giữ chân khách hàng hiện tại, thu hút khách
hàng mới và tăng doanh số kinh doanh của mình.

12
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

1.2.2 Mục tiêu nghiên cứu ( CÓ GÌ CHỈNH SỬA LẠI )


1.2.2.1 Mục tiêu tổng quát
Giúp công ty xác định những yếu tố quan trọng có liên quan đến quyết định của
khách hàng về việc rời bỏ thẻ tín dụng. Thông qua việc phân tích dữ liệu và áp dụng
các mô hình dự đoán, nghiên cứu sẽ đưa ra dự báo về khả năng khách hàng sẽ rời bỏ
thẻ tín dụng của công ty trong tương lai.
1.2.2.2 Các mục tiêu cụ thể

 Phân tích các đặc điểm khách hàng như độ tuổi, giới tính, thu nhập, nghề
nghiệp,... để xác định các nhóm khách hàng có khả năng cao hoặc thấp trong
việc rời bỏ thẻ tín dụng của công ty.
 Phân tích các thông tin về lịch sử sử dụng dịch vụ của khách hàng, như số tiền
đã chi tiêu, tần suất giao dịch,... để đánh giá sự hài lòng và mức độ trung thành
của khách hàng.
 Phân tích các yếu tố khác như chất lượng dịch vụ, thời gian phản hồi,... để đánh
giá mức độ hài lòng của khách hàng và tìm ra các vấn đề cần được cải thiện để
giữ chân khách hàng.
 Áp dụng các phương pháp dự đoán khách hàng rời bỏ thẻ tín dụng của công ty,
như mô hình hồi quy logistic, mô hình cây quyết định,...
 Đưa ra những chiến lược kinh doanh phù hợp để thu hút và giữ chân khách
hàng, như tăng cường chất lượng dịch vụ, đưa ra chính sách khuyến mãi,...

1.2.3 Đối tượng nghiên cứu


Chọn bộ dữ liệu “Credit Card Customers” bộ dữ liệu này liên quan đến vấn đề
quản lý khách hàng trong lĩnh vực tín dụng. Bộ dữ liệu này chứa thông tin về khách
hàng sử dụng thẻ tín dụng, bao gồm thông tin cá nhân, doanh thu hằng năm, loại thẻ,...
được sử dụng rộng rãi trong nghiên cứu về phân tích dữ liệu và dự đoán khách hàng
trong lĩnh vực tài chính.

13
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ


CÁC PHƯƠNG PHÁP SỬ DỤNG

2.1 CÁC PHƯƠNG PHÁP CỦA EXEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descripitive Statistics
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần thống kê.
Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp
thoại Descriptive Statistics.
Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong tháng 03 tại siêu
thị ABC.

Hình 1. Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại Descriptive
Statistics
Trong hộp thoại Descriptive Statistics, nhập vào Input Range là cột chứa dữ liệu
thịt heo, Output Range là ô xuất dữ liệu. Confidence Level for Mean là 95%. Sau đó ta
sẽ nhận được bảng kết quả.

14
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

• Mean: Giá trị trung bình


• Standard Error: Sai số chuẩn
• Median: Trung vị
• Mode: Yếu vị
• Standard Deviation: Độ lệch chuẩn
• Sample Variance: Phương sai mẫu
• Kurtosis: Độ nhọn
• Skewness: Độ bất đối xứng (Độ
nghiêng)
• Range: Khoảng biến thiên (Max – Min)
• Minimum: Số nhỏ nhất
• Maximum: Số lớn nhất
• Sum: Tổng
• Count: Số lượng phần tử
• Confidence Level: Độ tin cậy

Hình 2. Bảng kết quả thống kê bằng công cụ Descriptive Statistics

2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal


Chức năng của Subtotal:

 Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu
như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
 Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.

Cách thực hiện:


Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là
Salesperson)
Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu.
Bước 3: Chọn Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal.

15
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Ví dụ: Thống kê số tiền mà mỗi nhân viên thực hiện được

Hình 3. Dữ liệu nhân viên

• At each change in: chọn cột gom nhóm


(Salesperson).
• Use function: chọn hàm thống kê dùng để tổng
hợp dữ liệu (Sum).
• Add subtotal to: chọn cột thống kê giá trị
(Order Amount).
• Replace current subtotals: chọn để thay thế kết
quả thống kê trước đó.
• Page break between group: chọn để ngắt trang
giữa các nhóm, khi in ra giấy thì mỗi nhóm một
trang giấy.
• Summary below data: chọn để kết quả tổng
hợp ở dưới mỗi nhóm.
• Remove All: để xóa bỏ các kết quả tổng hợp.

Hình 4.Hộp thoại Subtotal

Và sau đó, ta được kết quả bảng tổng hợp số tiền mà mỗi nhân viên thực hiện được.

16
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 5. Tổng hợp số tiền mà mỗi nhân viên thực hiện

2.1.1.3 Hợp nhất dữ liệu với Consolidate


Chức năng của Consolidate:

 Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau.
 Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
o Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.
o Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về
cấu trúc.

Cách thực hiện:


Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.
Bước 2: Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại
Consolidate.
Ví dụ: Hợp nhất doanh thu của 3 cửa hàng

17
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 6. Doanh thu 3 cửa hàng

• Function: chọn hàm tổng hợp.


• Reference: để tham chiếu lần lượt
các bảng dữ liệu nguồn.
• All references: chứa tất cả các
vùng dữ liệu nguồn cần thiết cho
việc hợp nhất.
• Top row: chọn nếu muốn dùng tên
cột của vùng nguồn.
• Left column: chọn nếu muốn dùng
các giá trị của cột đầu tiên của vùng
nguồn.
• Create links to source data: chọn
nếu muốn dữ liệu hợp nhất được cập
nhật mỗi khi có thay đổi ở vùng dữ
liệu nguồn.
Hình 7. Hộp thoại Consolidate

18
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 8. Bảng hợp nhất doanh thu 3 cửa hàng

2.1.1.4 Tổng hợp đa chiều với Pivot Table


Cách thực hiện trên Excel:
Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu.
Bước 2: Chọn lệnh Insert → PivotTable.
Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa
PivotTable, click nút OK.
Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS,
COLUMNS và VALUES.
Ví dụ: Tổng hợp dữ liệu đa chiều với Pivot Table

Hình 9. Tổng hợp dữ liệu đa chiều với Pivot Table

19
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Table/Range: Là các dữ liệu


muốn thống kê.
 New Worksheet: Pivot Table sẽ
xuất hiện ở trang tính mới.
 Existing Worksheet: Sẽ xuất dữ
liệu ở 1 trang tính mới.
 Location: Chọn vị trí muốn tạo
bảng Pivot Table.

Hình 10. Hộp thoại Create Pivot Table

Hình 11. Kết quả tổng hợp đa chiều với Pivot Table
2.1.2 Phương pháp về phân tích dự báo
2.1.2.1 Phương pháp trung bình trượt ( Moving Average )
Chức năng: Giúp làm giảm độ nhiễu của dữ liệu bằng cách loại bỏ các giá trị
nhiễu tạm thời và tạo ra một bảng trung bình có ý nghĩa hơn. Nó cũng giúp xác định
xu hướng và mức độ biến động của dữ liệu, giúp cho việc dự đoán và quản lý rủi ro trở
nên dễ dàng hơn.
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần dự báo.

Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại
Moving Average.

Bước 3: Khai báo các thông số Input và Output Options.

20
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Input Range: tham chiếu đến vùng dữ liệu thực tế.


 Labels in First Row: Khai báo hàng đầu tiên của Input range có chứa tiêu
đề cột hay không.
 Interval (w) : Số lượng các kỳ trước đó muốn tính.
 Output Range: tham chiếu đến vùng xuất ra kết quả. Những ô không đủ số
lượng các giá trị các kỳ trước đó để tính toán thì sẽ xuất ra giá trị #N/A.
 Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết
quả.
 Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn.

Ví dụ: Dự báo số liệu bán thịt gà của siêu thị ABC.

Hình 12. Số liệu bán và hộp thoại Moving Average


Sau khi chọn vùng dữ liệu cần khai báo vào Input Range, chọn các kỳ trước đó
muốn ước tính trong Interval, ở bài này cho giá trị là 3, có nghĩa là 3 kì để trượt từ đó
dự báo được số liệu số con gà. Sau đó, chọn vùng muốn hiển thị kết quả ở ô Output
Range.

2.1.2.2 Phương pháp san bằng mũ


Chức năng: Dự báo giá trị tương lai của một chuỗi dữ liệu dựa trên xu hướng và
mức độ biến động của dữ liệu trong quá khứ. Nó cũng giúp loại bỏ các giá trị nhiễu,
dự báo kết quả kinh doanh và quản lý rủi ro, cải thiện độ chính xác của dự báo và đưa
ra quyết định dựa trên dữ liệu chính xác hơn.

21
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Cách thực hiện:


Bước 1: Chuẩn bị bảng số liệu cần dự báo.

Bước 2: Chọn lệnh Data → Data Analysis→ Exponential Smoothing, xuất hiện hộp
thoại Exponential Smoothing.

Bước 3: Khai báo các thông số Input và Output Options.

 Input Range : tham chiếu đến vùng dữ liệu thực tế.


 Damping factor: giá trị dùng làm hệ số san bằng. Đó là giá trị điều chỉnh sự
bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)
 Labels: tùy chọn cho biết hàng/cột đầu tiên của Input Range có chứa tiêu đề
hay không.

Ví dụ: Dự báo số liệu bán thịt gà tại siêu thị ABC có hệ số điều chỉnh bằng 0.3

Hình 13. Số liệu bán thịt gà và hộp thoại Exponential Smoothing

Input Range là cột dữ liệu cần được dự báo. Hệ số san bằng Damping Factor là
a=0.7 � 1-a=0.3 . Ta được hệ số điều chỉnh là 0.3, ngày 17 lượng thịt gà dự đoán bán
được là 47.53 con gà.

22
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

2.1.2.3 Phương pháp hồi quy ( Regression )


Chức năng: Uớc tính mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều
biến độc lập, từ đó có thể dự đoán giá trị của biến phụ thuộc dựa trên các giá trị có sẵn
của biến độc lập.

 Cách thực hiện bằng đồ thị:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo.

Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến
độc lập X.

Bước 3: Vẽ đồ thi dạng Scatter.

Bước 4: Click chuột phải vào data series, chọn Add Trendline.

Bước 5: Tuỳ chọn hiển thị trong Trendline Options.

 Linear: dạng đường thẳng


 Display Equation on chart
 Display R-squared value on chart

Ví dụ: Tác động của chi phí lên doanh thu.

Hình 14. Tác động chi phí lên doanh thu thông qua biểu đồ

23
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Cách thực hiện bằng công cụ Regression:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại
Regression

Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Tác động của chi phí lên doanh thu.

 Input Y Range: Vùng địa chỉ


chứa biến phụ thuộc Y
 Input X Range: Vùng địa chỉ
chứa các biến độc lập X (Có thể
chọn nhiều biến X trong trường
hợp hồi quy đa biến)
 Labels: Tích vào mục này để
khẳng định ô (các ô) đầu tiên
không chứa dữ liệu hồi quy
 Constant is Zero: Tích vào mục
này để khẳng định hệ số tự do
của hàm hồi quy tuyến tính a = 0
 Confidentce Level: Độ tin cậy
của hồi quy (mặc định là 95%)
bằng 1-α, với α là mức ý nghĩa
hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng.
Hình 15. Hộp thoại của Regression

 Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả
 New Worksheet Ply: In kết quả ra một sheet khác
 New Workbook: In kết quả ra một file Excel mới
 Residuals: Sai số do ngẫu nhiên
 Standardardlized Residuals: Chuẩn hóa sai số
 Residuals Plots: Đồ thị sai số
 Line Fit Plots: Đồ thị hàm hồi quy tuyến tính
24
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Normal Probability Plots: Đồ thị xác suất phân phối chuẩn

Input Y Range là cột doanh thu, Input X Range là cột chi phí. Độ tin cậy hồi quy
Confidence Level là 95%. Kết quả là a=1.7911 và b=3.8132

Hình 16. Kết quả hồi quy

2.1.3 Phương pháp phân tích tối ưu


Tình huống: Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án
trồng trọt bao nhiêu tấn lúa mì và lúa gạo để đạt tối đa hóa lợi nhuận của dự án dựa
trên các số liệu sau:
Số liệu đầu vào đối với một Loại sản phẩm Khả năng lớn nhất của các
đơn vị sản phẩm Lúa gạo Lúa mì nguồn tài nguyên có sẵn
Diện tích đất (ha/ tấn) 2 3 50 ha
Lượng nước(m3/tấn) 6 4 90 m3
Nhân công(người/tấn) 15 12 250 người
Lợi nhuận (USD/tấn) 18 21
Bảng 1. Số liệu dự án
 Các bước lập mô hình:

25
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Bước 1: Xác định biến quyết định


 Gọi x1 là lượng lúa gạo, x2 là lượng lúa mì (tấn) cần sản xuất
Bước 2: Xác định hàm mục tiêu
 Mục tiêu bài toán là tối đa hóa lợi nhuận ta có
 P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max
Bước 3: Xác định hệ ràng buộc
 Ràng buộc tài nguyên sử dụng:
 Về diện tích đất: 2x1 + 3x2 ≤ 50
 Về nước tưới: 6x1 + 4x2 ≤ 90
 Về lao động: 15x1 + 12x2 ≤ 250
 Ràng buộc tự nhiên: x1, x2 ≥ 0
Sử dụng công cụ SOLVER để giải mô hình tối ưu
Bước1: Thiết lập bảng tính

Hình 17. Thiết lập bảng tính


Giả định biến x1, x2 bằng 1, nhập các hệ ràng buộc tương đương về diện tích,
mức nước, nhân công. Sau đó, dùng hàm SUMPRODUCT để tính các giá trị vế trái
theo biến khởi tạo.
Bước 2: Chọn lệnh Data Data -> Analysis -> Solver.

26
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 18. Hộp thoại Solver Parameters


Nhập ô chứa hàm mục tiêu Set Objective là ô sẽ chứa lợi nhuận max E5. Chọn
To: MAX bởi vì đây là bài toán tối đa hóa lợi nhuận. Nhập ô chưa biến quyết định By
Changing Variable Cells, trong trường hợp này là ô C4 và D4. Nhập các ràng buộc
bằng cách nhấn Add trong Subject to the Constraints.
Bước 3: Nhấn ô Solve để giải bài toàn, chọn Sensitivity và nhấn OK để xem kết quả
mô hình bài toán.

Hình 19. Kết quả tính lợi nhuận tối đa


Và ta thu được kết quả bài toán là để thỏa mãn tất cả các điều kiện ràng buộc ta
sẽ đạt lợi nhuận tối đa là 378 đô la với việc trồng 7 cây lúa gạo và 12 cây lúa mì.

27
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

2.2 PHẦN MỀM ORANGE

2.2.1 Tổng quan về phần mềm Orange

Hình 20. Hình ảnh phần mềm Orange


Trong thời đại công nghệ số phát triển mạnh mẽ, khai phá dữ liệu (Data
Mining) và học máy (Machine Learning) là những lĩnh vực khó khăn và phức tạp. Để
giúp người dùng nghiên cứu và khám phá những bài toán trong hai lĩnh vực này, đã
xuất hiện nhiều phần mềm với mục tiêu đơn giản hóa quá trình nghiên cứu. Một trong
số đó là Orange.
Orange là một phần mềm nổi tiếng, tích hợp các công cụ khai phá dữ liệu mã
nguồn mở và học máy thông minh, được viết bằng ngôn ngữ Python với giao diện trực
quan và dễ sử dụng. Với nhiều chức năng mạnh mẽ, phần mềm này có khả năng phân
tích dữ liệu từ đơn giản đến phức tạp, tạo ra những biểu đồ hấp dẫn và thú vị, và giúp
việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và
chuyên gia. Đặc biệt, Orange cũng là một giải pháp khai thác dữ liệu dành cho doanh
nghiệp, cho phép xây dựng quy trình phân tích dữ liệu và trực quan hóa, bao gồm các
phép chiếu tuyến tính, heatmaps, MDS, cây quyết định và nhiều công cụ khác trên một
nền tảng tập trung. Nó cung cấp giao diện đồ họa (GUI) cho nhân viên, giúp họ thực
hiện phân tích dữ liệu định tính thông qua các phương pháp khám phá dữ liệu và xây
dựng mô hình.
Các công cụ (widgets) trong Orange cung cấp các chức năng cơ bản như đọc dữ
liệu, hiển thị dữ liệu dưới dạng bảng, lựa chọn thuộc tính đặc trưng của dữ liệu, huấn
luyện dữ liệu để dự đoán, so sánh các thuật toán học máy và trực quan hóa các thành
phần dữ liệu, và còn nhiều tính năng khác.

28
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

2.2.2 Tính năng

2.2.2.1 Nhóm Data

- Chức năng: Dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).

Hình 21. Giao diện chức năng Data


+ File: Có chức năng đọc dữ liệu từ một tệp đầu vào và gửi tệp dữ liệu đến kênh đầu
ra.
29
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 22. Giao diện của công cụ File


File Duyệt các tệp dữ liệu đã mở trước đó hoặc tải bất kì tệp mẫu nào.
URL Chèn dữ liệu bằng địa chỉ URL.
Info Instances: bản ghi
Features: trường dữ liệu
Missing values/ No Missing values: trường bị lỗi/ trường không bị lỗi
Columns Name: Tên thường
Type: Kiểu dữ liệu
Role: Vai trò các trường dữ liệu và thông thường dữ liệu tồn tại ở 2 dạng
( feature: trường độc lập, target: trường phụ thuộc )
Bảng 2. Bảng chức năng của File

+ Datasets: Chức năng giúp nạp dữ liệu và kết nối với các dữ liệu trên Internet được
chia sẻ miễn phí. Và đây cũng là nơi cung cấp các thông tin mô tả về bộ dữ liệu trong
phần Description.

30
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 23. Giao diện của Datasets

+ Data Table: Nơi chứa và hiển thị dữ liệu có trong File trên bảng tính. Công cụ cũng
cho phép sắp xếp các dữ liệu theo thuộc tính và giúp ta chọn dữ liệu.

Hình 24. Giao diện của Data Table

+ Data Sampler: Sử dụng lấy mẫu ngẫu nhiên từ dữ liệu ban đầu để phù hợp với nhu
cầu phân tích.

31
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 25. Giao diện của Data Sampler


Fixed proportion of data Thể hiện tỉ lệ phần trăm dữ liệu
Fixed sample size Trả về một số trường hợp dữu liệu được chọn
Cross Validdation Phân vùng các trường hợp thành tập hợp con bổ sung
Nhấn Sampler Data Để xuất ra dữ liệu mới
Bảng 3. Bảng chức năng của Data Sampler
+ Save Data: Lữu trữ dữ liệu ta thực hiện trên Orange vào máy tính.

2.2.2.2 Nhóm Visualize

- Chức năng: Dùng để biểu diễn biểu đồ (chart) giúp người dùng quan sát dữ liệu được
tốt hơn.

32
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 26. Giao diện chức năng Visualize


+ Tree Viewer: Thể hiện hình ảnh trực quan của cây phân loại và hồi quy.

2.2.2.3 Nhóm Model

- Chức năng: Gồm các hàm máy học (machine learning) phân lớp dữ liệu với các phương
pháp như Tree, Logistics Regression, SVM,… thường hay xuất hiện và sử dụng trong các bài
toán phân lớp dữ liệu.”

33
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 27. Giao diện chức năng Model


+ Tree: Thuật toán cây quyết định

+ SVM: Thuật toán siêu phẳng

+ Logistic Regression: Thuật toán hồi quy Logistic

2.2.2.4 Nhóm Evaluate

- Chức năng: Bao gồm các phương pháp đánh giá mô hình như : Test& Score, Prediction,
Confusion Matrix, … giúp người dùng dễ dàng đánh giá được mức độ hoàn hảo của mô hình
mình đang sử dụng cũng như giúp họ dự báo trước được một số trường hợp cần thiết.”

34
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 28. Giao diện chức năng Evaluate


+ Test and Score: Đánh giá hiệu suất của mô hình dự đoán trên tệp dữ liệu kiểm tra.
Cung cấp các phương pháp và số liệu thống kê để đo lường và so sánh kết quả dự đoán
của mô hình với nhãn thực tế.

Hình 29. Giao diện Test and score


AUC Diện tích đường cong ROC và đo lường khả năng phân
35
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

loại của mô hình.


CA Đo lường tỉ lệ phân loại chính xác cảu mô hình trên tập dữ
liệu kiểm tra.
Number of folds Chia dữ liệu thành bao nhiêu phần, từ đây có thể thay đổi kết
quả của Test and score.
Bảng 4. Bảng chức năng của Test and score
+ Prediction:“Dự báo các kết quả của thuật toán phân loại thử nghiệm.”

+ Confusion Matrix:“Là bước bổ sung tiếp theo của Test and Score, từ đó có thêm cơ
sở để đánh giá mô hình là tốt nhất của dự báo.”

Hình 30. Giao diện của Confusion Matrix


Sai lầm loại 2 nằm ở góc trên bên phải ( Ví dụ 396 ) càng lớn thì mô hình càng không
chính xác. Do đó ta nên lựa chọn mô hình có sai lầm loại 2 càng nhỏ càng tốt.

2.2.2.5 Nhóm Unsupervised

36
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 31. Giao diện chức năng Unsupervised

+ Hierachical Clustering:“Đây là phần hiển thị các cụm của dữ liệu và ta có thể điều
chỉnh số cụm theo mong muốn của mình.”

+ K-mean: Để tìm cách phân chia dữ liệu thành các nhóm dựa trên đặc điểm của
chúng. Cho phép xác định số lượng nhóm, tùy chỉnh các tham số và hiển thị kết quả
phân cụm.

2.2.2.6 Nhóm Educational

Hình 32. Giao diện của Educational


+ Interactive K-means: Xác định được cụm nào là tốt nhất để chọn nó là tiêu chuẩn khi
ta áp dụng vào bài toán phân cụm cụ thể.
37
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

2.3 PHƯƠNG PHÁP PHÂN LỚP

2.3.1 Phân lớp dữ liệu

2.3.1.1 Khái niệm về phân lớp dữ liệu

“Phân lớp dữ liệu là một quá trình phân một đối tượng dữ liệu vào một hay
nhiều lớp đã cho trước nhờ 1 mô hình phân lớp. Mô hình này được xây dựng trên một
tệp dữ liệu đã gán nhãn. Quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình
phân lớp dữ liệu.”

2.3.1.2 Quá trình phân lớp

Hình 33. Quá trình phân lớp


Quá trình phân lớp dữ liệu gồm 2 bước chính:

 Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Từ dữ liệu đầu vào, sử dụng các thuật toán để phân lớp dữ liệu, cụ thể hơn là
giải bài toán cho phương trình f(x)=y để tìm ra mô hình phân lớp.
 Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.
 Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

Từ dữ liệu đầu vào là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lí,
bộ dữ liệu này nhỏ hơn bộ dữ liệu training ( Chia tỉ lệ khoảng 70/30 ). Tuy
nhiên, lúc đưa vào mô hình phân lớp, ta bỏ lướt qua thuộc tính đã được gán
nhãn. So sánh thuộc tính gán nhãn và kết quả phân lớp để xác định tính đúng
đắn của mô hình.
38
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Bước 2.2: Phân lớp dữ liệu mới

Dữ liệu đầu là dữ liệu khuyết thuộc tính cần dự lớp ( nhãn ). Mô hình sẽ tự
động gán nhãn cho các đối tượng đó dựa vào mô hình huấn luyện ở Bước 1.

2.3.1.3 Ứng dụng của phân lớp dữ liệu

 Tài chính ngân hàng

❑ Dự báo giá chứng khoán

❑ Xếp hạng tín dụng cá nhân và tổ chức

❑ Đánh giá rủi ro tài chính

 Sales & Marketing

❑ Dự báo doanh thu

❑ Dự báo khách hàng trung thành

 Kinh tế học

❑ Dự báo khủng hoảng kinh tế

❑ Dự báo cung cầu

2.3.2 Một số phương pháp phân lớp dữ liệu

2.3.2.1 Hồi quy Logistic ( Logistic Regression )

Hình 34. Biểu đồ hàm Logistic

39
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Hồi quy Logistic là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một
tập các giá trị đầu vào và được biểu diễn dưới dạng vector.

 Hàm Logistic dự đoán đối tượng xem


đối tượng � sở hữu các thuộc tính cụ thể sẽ thuộc vào lớp � nào.
2.3.2.2 SVM ( Support Vector Machine )

 Định nghĩa: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem
chúng như những các vector trong không gian và phân loại chúng vào các lớp
khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều
làm mặt phân cách các lớp dữ liệu.
 Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng
cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
 SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.
Loại SVM Tính chất
Hard Margin SVM Hai lớp cần phân lớp có thể chia tuyến tính
Soft Margin SVM Hai lớp cần phân lớp là gần phân chia tuyến tính
Multi-class SVM Phân lớp đa lớp ( Biên giữa các lớp là tuyến tính )
Kenel SVM Dữ liệu là phi tuyến
Bảng 5. Các loại biến thể SVM

Ưu điểm Nhược điểm


Chạy nhanh, tiết kiệm bộ nhớ. Chưa thể hiện tính xác suất trong phân
loại.
Vừa phân loại tuyến tính, vừa phân loại Kết quả không tốt đối với trường hợp số
phi tính. chiều dữ liệu lớn hơn số dòng dữ liệu.

Xử lý được trong không gian nhiều


chiều.
Bảng 6. Bảng so sánh ưu nhược điểm

=> Mục đích cuối cùng của mô hình SVM là tạo ra 2 mặt phẳng giữa 2 lớp dữ liệu.
2.3.2.3 Cây quyết định ( Decision Tree )

40
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 35. Mô hình cây quyết định


 Định nghĩa: Cây quyết định là đồ thị các quyết định cùng các cùng các kết quả
khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định; là phương pháp nhằm mô tả,
phân loại và tổng quát hóa tập dữ liệu cho trước.

Ưu điểm Nhược điểm


Dễ hiểu. Khó giải quyết trong tình huống dữ liệu
phụ thuộc thời gian.
Không đòi hỏi việc chuẩn hóa dữ liệu. Chi phí xây dựng mô hình cao.

Có thể xử lý trên nhiều kiểu dữ liệu


khác nhau.
Xử lý tốt lượng dữ liệu lớn trong thời
gian ngắn.
Bảng 7. Ưu nhược điểm của cây quyết định

2.4 MỘT SÔ PHƯƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH PHÂN LỚP


2.4.1 Ma trận nhầm lẫn

41
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

- Chức năng: Là công cụ phân tích được sử dụng trong lĩnh vực đánh giá hiệu suất của
các mô hình phân loại. Được sử dụng để đánh giá mức độ dự đoán chính xác của một
mô hình phân loại bằng cách so sánh các giá trị dự đoán và nhãn thực tế của các mẫu
dữ liệu.

Hình 36. Ví dụ về ma trận nhầm lẫn


TP ( True Positive ) Số dự báo chính xác được nhận giá trị TP
TN ( True Negative ) Số dự báo chính xác một cách gián tiếp
FP ( False Positive ) Sai lầm loại 1, số liệu dự báo sai lệch
FN ( False Negative ) Sai lầm loại 2, số liệu dự báo sai lệch
Bảng 8. Bảng chú thích về ma trận nhầm lẫn
2.4.2 Hold-out

- Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ
nhất định ( 70/30; 60/40...).

- Phương pháp này thích hợp cho các dữ liệu nhỏ. Tuy nhiên, các mẫu có thể không
đại diện cho toàn bộ dữ liệu ( thiếu lớp trong tập thử nghiệm ).

2.4.3 K-fold cross validation

- Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước ( gọi là
Fold ).

- Một trong các fold sẽ được sử dụng làm tập dữ liệu đánh giá và phần còn lại được sử
dụng làm tập huấn luyện. Quá trình lập lại cho đến khi tất cả các fold đều được dùng
làm tập dữ liệu đánh giá.

42
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

2.4.4 ROC, AUC

- ROC: Đồ thị đánh giá phân loại mô hình phân nhị. Tạo ra bằng cách dựa trên tỉ lệ
TPR ( True Positive Rate ) và FPR ( False Positive Rate ).

=> Một mô hình hiệu quả khi có FPR thấp và TPR cao hay ROC càng tiệm cận với
điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.

- AUC: Là diện tích nằm dưới đường cùng ROC. Giá trị này là một số dương nhỏ hơn
hoặc bằng 1.

=> Giá trị này càng lớn thì mô hình càng hiệu quả.

2.5 PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU

 Phân biệt học có giảm sát và học không giám sát

Học có giám sát

- Học có giám sát hay còn gọi là học có thầy là thuật toán dự đoán nhãn
(label)/đầu ra (output) của một dữ liệu mới dựa trên tập dữ liệu huấn luyện
mà trong đó mỗi mẫu dữ liệu đều đã được gán nhãn
- Ví dụ: Hồi quy tuyến tính cho các vấn đề hồi quy.
Nguyên lý “Khu rừng ngẫu nhiên” cho việc phân loại và hồi quy.
Hỗ trợ các hệ máy vector cho các vấn đề về phân loại.

Học không giám sát


- Học không giám sát hay học không thầy là thuật toán dự đoán nhãn của một
dữ liệu mới dựa trên tập dữ liệu huấn luyện mà trong đó tất cả các mẫu dữ
liệu đều chưa được gán nhãn hay nói cách khác là ta không biết câu trả lời

43
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

chính xác cho mỗi dữ liệu đầu vào.


- Ví dụ: Xây dựng tham số “k-Mean” cho vấn đề chia nhóm.
Thuật toán Apriori cho các vấn đề liên quan đến việc học tập quy tắc.
Bảng 9. Phân biệt học có giám sát và học không có giám sát

2.5.1 Phân cụm dữ liệu

2.5.1.1 Khái niệm về phân cụm dữ liệu

Phân cụm dữ liệu là quá trình nhóm ( gom cụm ) các đối tượng dữ liệu có đặc điểm
tương đồng vào các nhóm ( cụm ) tương ứng, giống nhau, có tính chất tương tự nhau.

2.5.1.2 Quy trình phân cụm dữ liệu

Hình 37. Quy trình phân cụm dữ liệu


2.5.1.3 Ứng dụng của phân cụm dữ liệu

 Dự báo khách hàng tiềm năng.

 Phân tích xu hướng hành vi khách hàng.

 Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp.

 Phân tích đặc tính sản phẩm dịch vụ.

 Đánh giá kết quả hoạt động kinh doanh.

 Phân tích hành vi người dùng mạng xã hội.

2.5.2 Một số phương pháp phân cụm


44
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

2.5.2.1 Phân cụm theo phân cấp (Hierarchical Methods)

- Định nghĩa: Là quá trình xây dựng một cây phân cấp cho dữ liệu cần gom cụm, dựa
trên 2 tiêu chí:

 Tạo ra ma trận khoảng cách giữa các phần tử (Ma trận tương đồng, ma trận
không tương đồng).

 Độ đo khoảng cách giữa các cụm ( Single link, complete link,...).

Hình 38. Đồ thị của quá trình phân chia hoặc hợp nhất theo phương pháp phân cụm
phân cấp
2.5.2.2 Phương pháp K-Means

- Định nghĩa: K-Means là một thuật toán rất quan trọng và được sử dụng phổ biến
trong kỹ thuật phân cụm. Ý tưởng chính của thuật toán K-Means là tìm cách nhóm một
đối tượng cho trước thành K cụm, trong đó K là số cụm được xác định trước và K là số
nguyên dương, sao cho kết quả là tổng bình phương khoảng cách giữa các đối tượng
đến trung tâm nhóm (centroid) là nhỏ nhất.
Để hiểu rõ về phương pháp này, cần hiểu rõ thuật toán phân cụm K-means chủ yếu
thực hiện hai nhiệm vụ như sau:
 “Xác định giá trị tốt nhất cho K điểm trung tâm hoặc trọng tâm bằng quy trình
lặp.”
45
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 “Chỉ định mỗi điểm dữ liệu cho trung tâm K gần nhất của nó. Những điểm dữ
liệu gần trung tâm K cụ thể sẽ tạo ra một cụm.”

Hình 39. Sơ đồ giải thích hoạt động của thuật toán k-Means
Sau khi biết rõ được nhiệm vụ của thuật toán, ta có thể dễ dàng biết được hoạt động
của thuật toán K-Means diễn ra như thế nào. Các bước sau đây sẽ giải thích kĩ hơn về
cách thức mà thuật toán K-Means hoạt động:
 Bước 1: “Chọn số K để quyết định số cụm.”
 Bước 2: “Chọn ngẫu nhiên K điểm hoặc trọng tâm. (Nó có thể khác với tập dữ
liệu đầu vào).”
 Bước 3: “Gán từng điểm dữ liệu cho trọng tâm gần nhất của nó, tâm này sẽ tạo
thành các cụm K được xác định trước.””
 Bước 4: “Tính toán phương sai và đặt trọng tâm mới của mỗi cụm.”
 Bước 5: “Lặp lại bước 3, nghĩa là gán lại từng điểm dữ liệu cho tâm mới gần
nhất của mỗi cụm.”
 Bước 6: “Nếu có bất kỳ sự chỉ định lại nào xảy ra, hãy chuyển sang bước 4, nếu
không thì hãy chuyển sang hoàn tất.”
 Bước 7: “Mô hình đã sẵn sàng.”
Ưu điểm Nhược điểm
K-means là thuật toán đơn giản, dễ dàng Số K cần được xác định trước. Ở nhiều
sử dụng tốt cho các bài toán phân cụm. bài toán, việc xác định được K không
phải là dễ dàng, khi đó K-means sẽ

46
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

không hiệu quả.


K-means thực hiện phân cụm tốt mà K-means không đảm bảo tìm được
không cần biết nhãn dữ liệu đầu vào. nghiệm tối ưu toàn cục. Và nghiệm cuối
(Học không giám sát). cùng phụ thuộc hoàn toàn vào việc khởi
tạo các tâm cụm ban đầu.
K-means là nền tảng cho nhiều thuật
toán phức tạp sau này.
Bảng 10. Ưu nhược điểm phương pháp k-Means
2.5.2.3 Phân cụm phân hoạch (Partitioning Methods)

 Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con
biểu diễn một cụm.
 Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo
phân cụm) sao cho:
 Mỗi đối tượng thuộc ít nhất một cụm, các phần tử trong cụm có sự tương tự
nhau.
 Mỗi cụm có ít nhất một phần tử.
 Các thuật toán điển hình: K-means, K-mediods, Fuzzy C-means.
2.5.3 Đánh giá mô hình phân cụm
2.5.3.1 Đánh giá ngoài (external validation)
Là kết quả đánh giá phân cụm dựa vào cấu trúc, xu hướng phân cụm được chỉ
định trước cho tập dữ liệu.
2.5.3.2 Đánh giá nội bộ (internal validation)
Là kết quả đánh giá phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa
trên các vector chính của dữ liệu thông qua ma trận xấp xỉ.
Tối ưu hóa các chỉ số nội bộ: Độ nén, độ phân tách.
2.5.3.3 Đánh giá tương đối (relative validation)
Đánh giá kết quả gom cụm bằng việc so sánh với:
+ Kết quả gom cụm ứng với các bộ trị thông số khác nhau.
+ Kết quả gom cụm của các phương pháp khác.

47
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN


THỰC TẾ

3.1 PHÂN TÍCH DỮ LIỆU


3.1.1 Tiền xử lí dữ liệu
 Ta tiến hành xử lý dữ liệu gồm các bước sau trên phần mềm Orange:

Hình 40. Các bước tiến hành xử lý dữ liệu


o Nạp dữ liệu Credit card customer: Mở File chọn Credit card customer

Hình 41. Nạp dữ liệu


o Ta quan sát bộ dữ liệu:

+ “ Attrition_Flag ” là biến phân loại với các giá trị “ Attrited Customer ”, “
Existing Customer ”.
48
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

+ “ Gender ” là biến phân loại với các giá trị “ F ” viết tắt của từ Female, “ M ” viết
tắt của từ Male. Để sử dụng dữ liệu này trong các thuật toán máy học, ta cần biến
đổi phân loại này thành dạng số học bằng cách sử dụng One-hot encoding.

Hình 42. Nạp dữ liệu Credit Card customers vào trong File
o Trong hộp thoại Continuize -> Chọn Attrition_Flag và Gender -> One-hot
encoding để chuyển đổi thành dạng số học.
o Chọn Education Level, Marital_Status, Income_Category, Card_Category ->
Chọn Keep categorical để giữ nguyên thuộc tính trong bảng.

49
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 43. Hộp thoại Continuize


o Quan sát lại dữ liệu đã xử lí bằng cách nối Continuize vào Data table. Ở đây ta

sẽ thấy Attrition_Flag và Gender đã chuyển đổi thành dạng số học (0),


(1).

Hình 44. Quan sát dữ liệu đã xử lí

o Ta loại bỏ 2 cột cuối vì không cần thiết tới đề bài, trong cột Attrition_Flag và
Gender giữ lại 1 cột làm chuẩn.
o Chọn Select Columns -> Chọn tất cả các cột ( Trừ 2 cột cuối và Attrition_Flag =

50
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Attrited Customer và Gender = F )

Hình 45. Bảng Select Columns


 Lưu dữ liệu đã xử lý. Xuất dữ liệu ra file excel mới với tên Credit Card
customers đã xử lí dữ liệu.xlsx.

3.1.2 Mô tả bộ dữ liệu
Bộ dữ liệu được tổng hợp từ nhiều khách hàng trong lĩnh vực tài chính:
https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers
Dữ liệu thô gồm 10127 mẫu dữ liệu ( instances ) và 21 thuộc tính ( features ):

51
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 46. Mẫu dữ liệu

Thuộc tính Ý nghĩa Mô tả


CLIENTNUM Mã khách hàng 1 chuỗi kí tự số
Attrition_Flag Trạng thái khách hàng hiện Khách hàng đang sử
tại? dụng dịch vụ ( 1 )
Khách hàng đã rời đi
(0)
Customer_Age Tuổi khách hàng 1 chuỗi kí tự số
Gender Giới tính Nam ( 1 )
Nữ ( 0 )
Dependent_count Số người phụ thuộc mà chủ 1 chuỗi kí tự số
thẻ có trong gia đình
Education_Level Trình độ học vấn 1 chuỗi kí tự chữ
High School = Tốt
nghiệp trung học
Graduate = Tốt nghiệp
đại học
College = Đi học cao
đẳng hoặc đại học
Uneducated = Không có

52
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

học vấn
Doctorate = Tốt nghiệp
tiến sĩ hoặc có bằng tiến

Post-Graduate = Sau đại
học
Unknown = Không biết
Marital_Status Tình trạng hôn nhân 1 chuỗi kí tự chữ
Married: Đã kết hôn
Single: Độc thân
Divorced: Ly hôn
Unknown: Không biết
Income_Category Mức thu nhập hàng năm của 1 chuỗi kí tự số
khách hàng
Card_Category Loại thẻ tín dụng 1 chuỗi kí tự chữ
Blue = Thẻ cơ bản
Silver = Thẻ bạc
Gold = Thẻ vàng
Platinum = Thẻ kim
cương
Months_on_book Thời gian sỡ hữu thẻ tín 1 chuỗi kí tự số
dụng từ khi mở thẻ đến thời
điểm được cập nhật dữ liệu
Total_Relationship_Count Tổng số tài khoản mà khách 1 chuỗi kí tự số
hàng đang sở hữu tại ngân
hàng
Months_Inactive_12_mon Số tháng mà khách hàng 1 chuỗi kí tự số
không hoạt động trên tài
khoản thẻ tín dụng trong
vòng 12 tháng gần nhất.
Contacts_Count_12_mon Số lượng lần liên hệ của 1 chuỗi kí tự số
khách hàng với ngân hàng
trong vòng 12 tháng gần
nhất.
53
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Credit_Limit Hạn mức tín dụng của thẻ 1 chuỗi kí tự số


Total_Revolving_Bal Số dư còn lại trên thẻ 1 chuỗi kí tự số
Avg_Open_To_Buy Tiền trung bình mà khách 1 chuỗi kí tự số
hàng có sẵn để sử dụng trên
thẻ tín dụng
Total_Amt_Chng_Q4_Q1 Tổng số tiền giao dịch trên 1 chuỗi kí tự số
thẻ tín dụng của khách hàng
từ quý thứ nhất (Q1) đến
quý thứ tư (Q4)
Total_Trans_Amt Tổng số tiền giao dịch trên 1 chuỗi kí tự số
thẻ tín dụng của khách hàng
trong một năm
Total_Trans_Ct Tổng số lần giao dịch trên 1 chuỗi kí tự số
thẻ tín dụng của khách hàng
trong một năm.
Total_Ct_Chng_Q4_Q1 Biểu thị sự thay đổi tổng số 1 chuỗi kí tự số
lần giao dịch trên thẻ tín
dụng của khách hàng từ quý
thứ nhất (Q1) đến quý thứ tư
(Q4)
Avg_Utilization_Ratio Biểu thị tỷ lệ sử dụng trung 1 chuỗi kí tự số
bình của hạn mức tín dụng
của khách hàng
Bảng 11. Mô tả những thuộc tính của dữ liệu

3.1.3 Thống kê mô tả

 Giới tính

54
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 47. Biểu đồ tròn thể hiện tỉ lệ giới tính của khách hàng sử dụng thẻ tín dụng

Nhìn qua sơ đồ, ta thấy tỷ lệ khách hàng nữ sử dụng thẻ tín dụng nhiều hơn khách
hàng nam (Nữ chiếm: 53%, Nam chiếm 47%).

Hình 48. Lượng khách hàng ở lại và rời đi thông qua giới tính
Lượng khách hàng nữ ở lại và tiếp tục sử dụng thẻ tín dụng chiếm số lượng nhiều hơn
khách hàng nam.

 Trung bình tổng số tiền giao dịch của khách hàng dựa trên hoạt động của

55
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

khách hàng

Hình 49. Biểu đồ tròn về trung bình tổng số tiền giao dịch của khách hàng dựa trên
hoạt động của khách hàng
Qua sơ đồ ta thấy, số tiền giao dịch trung bình mà khách hàng rời đi ít hơn số tiền mà
khách hàng đang ở lại. Điều này thể hiện rằng lượng khách hàng rời đi có xu hướng
chi tiêu ít hơn và có khả năng sẽ không tạo ra lợi nhuận cao cho doanh nghiệp so với
khách hàng đang ở lại.

 Độ tuổi

56
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 50. Biểu đồ thể hiện khách hàng có độ tuổi lớn nhất, nhỏ nhất

Hình 51. Biểu đồ thống kê số khách hàng ở các độ tuổi


Dựa vào 2 biểu đồ trên, ta thấy rằng nhóm tuổi từ 50-55 có số lượng khách hàng
nhiều nhất chiếm 17,24% , trong khi nhóm tuổi từ 71-75 có số lượng khách hàng thấp
nhất chiếm 0,01%. Cùng với đó khách hàng trẻ tuổi nhất là 26 tuổi và lớn tuổi nhất là
73 tuổi.

 Tình trạng hôn nhân


57
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 52. Biểu đồ thống kê tình trạng hôn nhân


Nhìn qua biểu đồ, trong số 10127 có đến 4687 khách hàng đều là những người
đã kết hôn chiếm 46%, cùng với số lượng khách hàng độc thân gồm 3943 khách hàng
chiếm tỉ lệ khá cao là 39%. Bên cạnh đó là các trường hợp ly hôn, không rõ chiếm tỉ lệ
nhỏ.
 Trình độ học vấn

Hình 53.Biểu đồ cột thể hiện trình độ học vấn của các khách hàng

58
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Biểu đồ cho thấy khách hàng đa số đều đã tốt nghiệp đại học là 3125 người
chiếm 31%. Tiếp đến là khách hàng đã tốt nghiệp trung học là 2010 người chiếm 20%
trong tổng số.

Hình 54. Biểu đồ cột thể hiện phần trăm khách hàng rời đi phân theo trình độ học vấn
 Loại thẻ

59
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 55. Biểu đồ cột về số lượng khách hàng sử dụng các loại thẻ
Khách hàng tập trung chủ yếu là những người sử dụng loại thẻ cơ bản, và chỉ có
duy nhất 20 khách hàng sử dụng thẻ kim cương.

 Hạn mức thẻ tín dụng

Hình 56. Hạn mức trung bình của thẻ

60
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Thu nhập

Hình 57. Sơ đồ cột thể hiện tổng số khách hàng rời đi dựa trên mức thu nhập và giới
tính

Nhìn qua sơ đồ, số khách hàng rời đi có mức thu nhập không cụ thể “ Unknown
” ở nữ nhiều hơn số khách hàng nam. Đa số khách hàng nữ rời đi có mức thu nhập ít
hơn 40k$ nhiều hơn so với khách hàng nam.
3.2 PHÂN LỚP DỮ LIỆU

3.2.1. Một số phương pháp phân lớp


Sử dụng các phương pháp phân lớp như:

 Cây quyết định (Decision Tree)

61
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 SVM (Support Vector Machines)

 Hồi quy Logistic (Logistic


Regression)

3.2.2. Kết quả mô hình


Bước 1: Xây dựng mô hình
- Lấy tập dữ liệu huấn luyện từ file dữ liệu đã tiền dữ liệu trước đó
(Credit-Card-customers-đã-xử-lí-dữ-liệu.xlsx)

- Sử dụng Data Sampler để thực hiện lấy mẫu dữ liệu.

Hình 58. Lấy mẫu từ dữ liệu

62
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

- Chọn save Data và lưu dưới file Excel (Credit-Card-customers-đã-xử-


lí-dữ-liệu-70%.xlsx).

Hình 59. Mẫu dữ liệu

- Tập dữ liệu sau khi lấy mẫu huấn luyện sẽ có 7089 mẫu dữ liệu, 21
biến và không có dữ liệu bị lỗi.

- âLấy tập dữ liệu 30% mẫu dữ liệu từ file dữ liệu đã tiền dữ liệu trước
đó (Credit-Card-customers-đã-xử-lí-dữ-liệu.xlsx) và lưu dưới file
Excel (Credit-Card-customers-đã-xử-lí-dữ-liệu-30%.xlsx). Từ tập dữ
liệu 30% đó lấy ra tập dữ liệu dự báo chọn lấy 100 mẫu dữ liệu để
đem đi dự báo và lưu dưới file Excel (Credit-Card-customers-đã-xử-
lí-dữ-liệu- forecast.xlsx).

63
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 60. Lấy dữ liệu dự báo


 Tập dữ liệu dự báo có 100 mẫu dữ liệu, 20 biến và không có dữ liệu nào bị lỗi.

Bước 2: Sử dụng mô hình


 Vì các dữ liệu sau khi lấy mẫu đã đạt chuẩn, không có dữ liệu bị lỗi nên ta sẽ bỏ
qua bước tiền xử lí dữ liệu.

 Sử dụng các phương pháp phân lớp, Test and Score, và ma trận nhầm lẫn
(Confusion Matrix) để so sánh đánh giá các phương pháp. Để lựa chọn ra
phương pháp tốt nhất, chính xác nhất phục vụ cho việc dự báo.

 Sử dụng Credit-Card-customers-đã-xử-lí-dữ-liệu-70%.xlsx là tập huấn luyện,


chọn biến Attrition_Flag là biến phụ thuộc (target).

64
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 61. Tập dữ liệu huấn luyện

Hình 62. Mô hình so sánh các thuật toán


65
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Tại bảng Test and Score, chọn chia tỷ lệ lấy mẫu, chọn tỷ lệ lấy mẫu tại Cross
Validation hoặc Random Slamping để có được chỉ số đẹp nhất.

 Chọn tỷ lệ lấy mẫu Cross Validation

Hình 63. Kết quả mẫu khi chia mẫu dữ liệu 5 phần

Hình 64. Kết quả mẫu dữ liệu khi chia 10 phần


66
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Chọn tỷ lệ lấy mẫu Random Samping

Hình 65. Kết quả khi chia mẫu dữ liệu 50-90%

Hình 66. Kết quả khi chia mẫu dữ liệu 20-70%

67
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 67. Kết quả khi chia mẫu dữ liệu 50-66%


 Nhận xét: Đánh giá kết quả cho ta biết được kết quả định lượng của 3 mô hình
cây quyết định ( Decision Tree), Hồi quy logistic ( Logistic Regression), SVM
(Support Vector Machines) giá trị nào là cao nhất. Sau khi xem xét các chỉ số từ
việc lấy mẫu ngẫu nhiên qua các trường hợp trên ta thấy mô hình Cây quyết
định ( Tree Decision) ở trường hợp chia lấy mẫu dữ liệu theo kiểu Random
Sampling 20-70% là đạt các chỉ số cao nhất. Với các chỉ số như sau:

 Tính chính xác (CA) là: 92.6%

 Giá trị trung bình điều hòa (F1) là: 92.3%

 Độ chính xác (Precision) là 92.3%

 Độ phủ (Recall) là: 92.6%

 Diện tích đường cong (AUC) là 0.812 đạt được chỉ số tốt nhất trong các
trường hợp khác đã ví dụ ở trên.

 Ma trận nhầm lẫn (Confusion Matrix)

68
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 68. Kết quả ma trận nhẫm lẫn của phương pháp Confusion Matrix

Hình 69. Kết quả ma trận nhẫm lẫn của phương pháp SVM

Hình 70. Kết quả ma trận nhẫm lẫn của phương pháp Logistic

69
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

=> Nhận xét: Với kết quả của Ma trận nhầm lẫn ( Confusion Matrix) chỉ cần quan sát
vào tỷ lệ sai lầm loại 1 và tỷ lệ sai lầm loại 2, loại mô hình tốt nhất là mô hình có tỷ lệ
sai lầm loại 1 và tỷ lệ sai lầm loại 2 thấp nhất. Nhưng tỷ lệ sai lầm loại 2 quan trọng
hơn. Nên nhìn vào kết quả ta thấy với mô hình Cây quyết đinh ( Decision Tree) là mô
hình có tỷ lệ sai lầm loại 2 nhỏ nhất là 5.7%. Nên phương pháp Cây quyết đinh
( Decision Tree) là phù hợp nhất.

 ROC Analysis

Hình 71. Đường cong ROC của Attrition_Flag = 1

70
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 72. Đường cong ROC của Attrition_Flag = 0


=> Nhận xét: Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay đường cong
ROC càng tiệm cận với điểm (0;1) thì đồ thị mô hình càng hiệu quả. Nên khi nhìn
2 hình trên gồm hình đường cong ROC của Attrition_Flag = 0 và hình đường cong
ROC của Attrition_Flag = 1 thì ta thấy mô hình của Cây quyết định có đường cong
ROC tiệm cận với điểm (0;1) nhất nên mô hình này sẽ là mô hình hiệu quả nhất.
 KẾT LUẬN: Phương pháp Cây quyết định ( Decision Tree) là phương pháp tốt
nhất. Với các nguyên nhân lựa chọn là:

 Phương pháp này có AUC ( Area Under The Curve ) hay diện tích nằm
dưới đường cong ROC là lớn nhất nên là mô hình tốt nhất.

 Phương pháp này có Tính chính xác (CA) là cao nhất.

 Phương pháp này có tỷ lệ sai lầm loại 2 nhỏ nhất.

71
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 73. Đánh giá mô hình phân lớp


 Sử dụng Credit-Card-customers-đã-xử-lí-dữ-liệu- forecast.xlsx làm tập thử
nghiệm

Hình 74. Tập dữ liệu thử nghiệm

72
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

 Sử dụng Prediction để dự báo dữ liệu theo phương pháp Cây quyết định
(Decision Tree)

Hình 75. Mô hình dự báo 100 mẫu dữ liệu


 Kết quả dự báo:

73
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 76. Kết quả dự báo của 100 mẫu dữ liệu (1)

Hình 77. Kết quả dự báo của 100 mẫu dữ liệu (2)

74
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

Hình 78. Kết quả dự báo của 100 mẫu dữ liệu (3)

Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN


Nội dung chương này nhóm sẽ trình bày một cái nhìn tổng quan nhất. Chương
này sẽ cung cấp một bản tóm tắt về đồ án bao gồm quy trình nghiên cứu và kết quả mô
hình. Cùng với đó, từ những kết quả đánh giá của mô hình, nhóm sẽ đề xuất và đưa ra
những khuyến nghị cho đồ án.

4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN

4.1.1 Tóm tắt

Nhóm đã làm về phân tích và dự đoán khả năng rời bỏ thẻ tín dụng dựa trên bộ
dữ liệu phân tích Credit Card customers trên Kaggle. Nhóm xây dựng mô hình dự báo
khả năng rời đi của khách hàng là khách hàng đó rời đi hay đang ở lại. Sau khi tiến
hành xử lý dữ liệu, huấn luyện dữ liệu, phân lớp dữ liệu bằng phần mềm Orange thì
chọn ra được mô hình Cây quyết định ( Decision Tree ) là mô hình tốt nhất để phân
lớp dữ liệu, với độ chính xác lên đến 92,6% và sai lầm loại 2 là 5,7%.

75
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

4.1.2 Kết luận

Mục tiêu của nhóm là dự báo về khả năng khách hàng rời đi hay ở lại. Các phần
lý thuyết được đề cập ở Chương 2 được áp dụng để xây dựng mo hình dự đoán có thể
đảm bảo các ước tính từ phân tích và có tính chính xác cao.

4.2 HƯỚNG PHÁT TRIỂN

Mô hình này có thể được dùng để dự đoán khách hàng rời bỏ thẻ tín dụng dựa
trên các yếu tố khác nhau như độ tuổi, giới tính, trình trạng hôn nhân, trình độ học vấn,
mức thu nhập của khách hàng,...

Từ đó có thể giúp cho các công ty đưa ra các quyết định phù hợp. Chẳng hạn:

- Phân bố giới tính của khách hàng gần như giống nhau. Độ tuổi chung của khách
hàng là từ 40-55 và độ tuổi trung bình là 46. Những người ở độ tuổi trung niên
là đối tượng khách hàng nhiều nhất của ngân hàng này. Bằng cách này, ngân
hàng cung cấp các chiến dịch đặc biệt cho những khách hàng này.
- Khách hàng nói chung đang sử dụng thẻ “ Blue ”. Ý nghĩa của nó, hầu hết trong
số họ sử dụng thẻ cơ bản. Mục tiêu cần giải quyết là làm thế nào ngân hàng có
thể tăng hạng thẻ khác theo thu nhập của khách hàng?
- Trình độ học vấn phổ thông ở mức "Graduate" tốt nghiệp đại học, nghĩa là hầu
hết khách hàng có thể biết cơ bản về kinh tế.
- Khách hàng rời bỏ có trình độ học vấn cao - Trình độ học vấn của khách hàng
rời bỏ chiếm tỷ lệ cao là Cao học (21,06%), tiếp theo là Sau đại học (17,83%).
- Hạn mức tín dụng của khách hàng Nam cao hơn khách hàng Nữ. Điều đó có
nghĩa là Nam đang sử dụng thẻ tín dụng nhiều hơn Nữ. Làm thế nào để có thể
thuyết phục khách hàng Nữ sử dụng thẻ tín dụng nhiều hơn.
- Ngoài ra, loại thu nhập cao nhất chỉ xảy ra bởi khách hàng Nam. Điều đó có
nghĩa là, khách hàng nam có thể biết hầu hết mọi thứ về đầu tư hoặc những thứ
tương tự.

4.3 GIẢI PHÁP


Để tối ưu hóa việc quản lý khách hàng và tăng cường mối quan hệ với khách
hàng nhóm xin đề ra một số giải pháp sau:

- Phân tích hồ sơ khách hàng: Sử dụng dữ liệu khách hàng có sẳn, phân tích hồ
76
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

sơ khách hàng để hiểu rõ hơn về nhu cầu của từng nhóm khách hàng. Các yếu
tố như độ tuổi, thu nhập, loại thẻ sử dụng,... Dựa trên phân tích này, có thể sẽ
tạo ra các chiến lược tiếp cận phù hợp và phát triển của loại thẻ tín dụng, đáp
ứng nhu cầu của từng nhóm khách hàng.
- Xử lí rủi ro khách hàng rời bỏ: Dựa trên thông tin dữ liệu, mình nhanh chóng
phát hiện khách hàng có nguy cơ rời bỏ và áp dụng các chương trình để giữ
chân khách hàng. Điều này có thể bao gồm liện hệ trực tiếp với khách hàng,
cung cấp ưu đãi đặc biệt, tạo sự liên kết bằng cách cũng cấp dịch vụ tốt hơn và
thực hiện các biện pháp khắc phục.
- Xây dựng chương trình khuyến mãi cho khách hàng trung thành: Tạo ra chương
trình khách hàng trung thành để tăng cường sự gắn kết của khách hàng và
khuyến khích họ tiếp tục sử dụng thẻ tín dụng. Chương trình có thể bao gồm
các ưu đãi đặc biệt, điểm thưởng hoặc các chường trình cashback cho việc sử
dụng thẻ. Đồng thời, chú trọng đến chất lượng dịch vụ dành cho khách hàng.
Đây sẽ là yếu tố quan trọng để duy trì lòng trung thành của khách hàng.

77
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)


lOMoARcPSD|36908422

TÀI LIỆU THAM KHẢO

1. TS. Nguyễn Quốc Hùng, slide bài giảng và các tài liệu môn
Khoa học dữ liệu
2. Admin. (2022). Khái niệm biến định tính, định lượng trong xử
lý dữ liệu. XLDL. https://xulydinhluong.com/khai-niem-bien-
dinh-tinh-dinh-luong-la-gi/
3. ThuyDinh, A. (2021). Dữ liệu là gì? Tầm quan trọng của dữ
liệu khách hàng đối với doanh nghiệp. A1 DigiHub.
https://a1digihub.com/du-lieu-la-gi/

78
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

You might also like