Do An Nhom 6 Mau

lOMoARcPSD|36908422
Đồ án nhóm 6 - mẫu
Khoa học dữ liệu (Trường Đại học Kinh tế Thành phố Hồ Chí Minh)
Scan to open on Studocu
Studocu is not sponsored or endorsed by any college or university

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)
lOMoARcPSD|36908422
ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN KHOA HỌC DỮ LIỆU
BÁO CÁO ĐỒ ÁN HỌC PHẦN

KHOA HỌC DỮ LIỆU
Đề tài: PHÂN TÍCH VÀ DỰ ĐOÁN KHẢ NĂNG KHÁCH

HÀNG RỜI BỎ THẺ TÍN DỤNG CỦA NGÂN HÀNG. TỪ
ĐÓ ĐƯA RA NHỮNG CHIẾN LƯỢC KINH DOANH ĐỂ
THU HÚT VÀ TẠO MỐI QUAN HỆ VỚI KHÁCH HÀNG
GVHD: TS.GVC Nguyễn Quốc Hùng
Nhóm thực hiện: 6
Nguyễn Đào Như Ánh (Trưởng nhóm)

Nguyễn Thanh Phong
Lê Hoàng Bích Phượng
Trần Thị Loan
Thạch Việt Tân
TP. Hồ Chí Minh, Tháng 5/2023

lOMoARcPSD|36908422
MỤC LỤC
DANH MỤC HÌNH ẢNH....................................................................................................................2
DANH MỤC BẢNG BIỂU...................................................................................................................3
DANH MỤC TỪ VIẾT TẮT................................................................................................................4
Lời mở đầu............................................................................................................................................5
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN........................................................................................6
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI..........................7
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ
DỤNG..................................................................................................................................................12
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ......................................47
Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................................74
TÀI LIỆU THAM KHẢO..................................................................................................................76
1
Báo cáo đồ án học phần Khoa học dữ liệu (DS)

lOMoARcPSD|36908422
DANH MỤC HÌNH ẢNH.

Hình 1. Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại Descriptive
Statistics....................................................................................................................... 13
Hình 2. Bảng kết quả thống kê bằng công cụ Descriptive Statistics............................14
Hình 3. Dữ liệu nhân viên............................................................................................15
Hình 4.Hộp thoại Subtotal...........................................................................................15
Hình 5. Tổng hợp số tiền mà mỗi nhân viên thực hiện................................................16
Hình 6. Doanh thu 3 cửa hàng.....................................................................................17
Hình 7. Hộp thoại Consolidate.....................................................................................17
Hình 8. Bảng hợp nhất doanh thu 3 cửa hàng..............................................................18
Hình 9. Tổng hợp dữ liệu đa chiều với Pivot Table......................................................18
Hình 10. Hộp thoại Create Pivot Table........................................................................19
Hình 11. Kết quả tổng hợp đa chiều với Pivot Table....................................................19
Hình 12. Số liệu bán và hộp thoại Moving Average.....................................................20
Hình 13. Số liệu bán thịt gà và hộp thoại Exponential Smoothing...............................21
Hình 14. Tác động chi phí lên doanh thu thông qua biểu đồ........................................22
Hình 15. Hộp thoại của Regression..............................................................................23
Hình 16. Kết quả hồi quy.............................................................................................24
Hình 17. Thiết lập bảng tính........................................................................................25
Hình 18. Hộp thoại Solver Parameters.........................................................................26
Hình 19. Kết quả tính lợi nhuận tối đa.........................................................................26
Hình 20. Hình ảnh phần mềm Orange.........................................................................27
Hình 21. Giao diện chức năng Data.............................................................................28
Hình 22. Giao diện của công cụ File............................................................................29
Hình 23. Giao diện của Datasets..................................................................................30
Hình 24. Giao diện của Data Table..............................................................................30
Hình 25. Giao diện của Data Sampler..........................................................................31
Hình 26. Giao diện chức năng Visualize......................................................................32
Hình 27. Giao diện chức năng Model..........................................................................33
Hình 28. Giao diện chức năng Evaluate.......................................................................34
Hình 29. Giao diện Test and score...............................................................................34
2

lOMoARcPSD|36908422
Hình 30. Giao diện của Confusion Matrix...................................................................35

Hình 31. Giao diện chức năng Unsupervised...............................................................36
Hình 32. Giao diện của Educational............................................................................36
Hình 33. Quá trình phân lớp........................................................................................37
Hình 34. Biểu đồ hàm Logistic....................................................................................38
Hình 35. Mô hình cây quyết định................................................................................40
Hình 36. Ví dụ về ma trận nhầm lẫn............................................................................41
Hình 37. Quy trình phân cụm dữ liệu...........................................................................43
Hình 38. Đồ thị của quá trình phân chia hoặc hợp nhất theo phương pháp phân cụm
phân cấp....................................................................................................................... 44
Hình 39. Sơ đồ giải thích hoạt động của thuật toán k-Means.......................................45
Hình 40. Các bước tiến hành xử lý dữ liệu..................................................................48
Hình 41. Nạp dữ liệu....................................................................................................48
Hình 42. Nạp dữ liệu Credit Card customers vào trong File........................................49
Hình 43. Hộp thoại Continuize....................................................................................50
Hình 44. Quan sát dữ liệu đã xử lí...............................................................................50
Hình 45. Bảng Select Columns....................................................................................51
Hình 46. Mẫu dữ liệu...................................................................................................52
Hình 47. Biểu đồ tròn thể hiện tỉ lệ giới tính của khách hàng sử dụng thẻ tín dụng.....55
Hình 48. Lượng khách hàng ở lại và rời đi thông qua giới tính...................................55
Hình 49. Biểu đồ tròn về trung bình tổng số tiền giao dịch của khách hàng dựa trên
hoạt động của khách hàng............................................................................................56
Hình 50. Biểu đồ thể hiện khách hàng có độ tuổi lớn nhất, nhỏ nhất...........................57
Hình 51. Biểu đồ thống kê số khách hàng ở các độ tuổi..............................................57
Hình 52. Biểu đồ thống kê tình trạng hôn nhân...........................................................58
Hình 53.Biểu đồ cột thể hiện trình độ học vấn của các khách hàng.............................58
Hình 54. Biểu đồ cột thể hiện phần trăm khách hàng rời đi phân theo trình độ học vấn
..................................................................................................................................... 59
Hình 55. Biểu đồ cột về số lượng khách hàng sử dụng các loại thẻ.............................60
Hình 56. Hạn mức trung bình của thẻ..........................................................................60
Hình 57. Sơ đồ cột thể hiện tổng số khách hàng rời đi dựa trên mức thu nhập và giới
tính............................................................................................................................... 61
3

lOMoARcPSD|36908422
Hình 58. Lấy mẫu từ dữ liệu........................................................................................62

Hình 59. Mẫu dữ liệu...................................................................................................63
Hình 60. Lấy dữ liệu dự báo........................................................................................64
Hình 61. Tập dữ liệu huấn luyện..................................................................................65
Hình 62. Mô hình so sánh các thuật toán.....................................................................65
Hình 63. Kết quả mẫu khi chia mẫu dữ liệu 5 phần.....................................................66
Hình 64. Kết quả mẫu dữ liệu khi chia 10 phần...........................................................66
Hình 65. Kết quả khi chia mẫu dữ liệu 50-90%...........................................................67
Hình 68. Kết quả ma trận nhẫm lẫn của phương pháp Confusion Matrix....................69
Hình 69. Kết quả ma trận nhẫm lẫn của phương pháp SVM........................................69
Hình 70. Kết quả ma trận nhẫm lẫn của phương pháp Logistic...................................69
Hình 71. Đường cong ROC của Attrition_Flag = 1.....................................................70
Hình 72. Đường cong ROC của Attrition_Flag = 0.....................................................71
Hình 73. Đánh giá mô hình phân lớp...........................................................................72
Hình 74. Tập dữ liệu thử nghiệm.................................................................................72
Hình 75. Mô hình dự báo 100 mẫu dữ liệu..................................................................73
Hình 76. Kết quả dự báo của 100 mẫu dữ liệu (1).......................................................73
4

lOMoARcPSD|36908422
DANH MỤC BẢNG BIỂU.

Bảng 1. Số liệu dự án...................................................................................................24
Bảng 2. Bảng chức năng của File.................................................................................29
Bảng 3. Bảng chức năng của Data Sampler.................................................................31
Bảng 4. Bảng chức năng của Test and score................................................................35
Bảng 5. Các loại biến thể SVM....................................................................................39
Bảng 6. Bảng so sánh ưu nhược điểm..........................................................................39
Bảng 7. Ưu nhược điểm của cây quyết định................................................................40
Bảng 8. Bảng chú thích về ma trận nhầm lẫn...............................................................41
Bảng 9. Phân biệt học có giám sát và học không có giám sát......................................43
Bảng 10. Ưu nhược điểm phương pháp k-Means........................................................46
Bảng 11. Mô tả những thuộc tính của dữ liệu..............................................................54
5

lOMoARcPSD|36908422
DANH MỤC TỪ VIẾT TẮT.
6

lOMoARcPSD|36908422
Lời mở đầu.
7

lOMoARcPSD|36908422
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

TT Họ và tên Công việc phụ trách Mức độ hoàn thành
1. Chương 1: 1.2
Chương 2: 2.1, 2.4
Nguyễn Đào Như Ánh
Chương 3: 3.1
(Trưởng nhóm)
Chương 4
Tổng hợp Word
2. Chương 2: 2.1.2
Nguyễn Thanh Phong
Chương 3: 3.2
3. Chương 2: 2.1.3, 2.3, 2.5.2
Lê Hoàng Bích Phượng
PowerPoint
4. Chương 1: 1.1
Trần Thị Loan
Chương 2: 2.5
5. Chương 2: 2.1.3, 2.3, 2.5.2
Thạch Việt Tân
PowerPoint
8

lOMoARcPSD|36908422
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI

THIỆU ĐỀ TÀI
1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
1.1.1 Khái niệm dữ liệu

Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số, từ, hình ảnh, nhằm đo
lường, quan sát hoặc chỉ là mô tả về sự vật. Sự phát triển trong lĩnh vực công nghệ,
đặc biệt là trong điện thoại thông minh đã dẫn đến việc văn bản, video và âm thanh
được đưa vào dữ liệu cùng với nhật ký web. Dữ liệu được chia làm 2 phần:
 Dữ liệu có cấu trúc
+ Thường được gọi là dữ liệu định lượng.

+ Là dạng dữ liệu và số liệu khách quan.
+ Thường ở dạng số hoặc chữ.
+ Được lưu trữ trong Excel, SQL, Google Sheet.
+ Dễ dàng thu thập, truy xuất, lưu trữ và sắp xếp.
+ Dễ đang trích xuất thông tin.
Ví dụ: Con số, họ tên, ngày tháng, địa chỉ thông tin giao dịch.
 Dữ liệu không có cấu trúc
+ Thường được gọi là dữ liệu định tính.

+ Nó có thế là các ý kiến chủ quan và đánh giá thương hiệu của bạn dưới dạng văn
bản.
+ Chỉ ở dưới dạng văn bản.
+ Có thể được lưu trữ trong các tài liệu Word, Elasticsearch hoặc Solr, nơi có thể thực
hiện các truy vấn tìm kiếm từ và cụm từ.
+ Khó có thể thu thập, gây khó khăn cho việc xuất, lưu trữ và sắp xếp trong cơ sở dữ
liệu thông thường.
+ Không thể kiểm tra các phương pháp và công cụ phân tích dữ liệu.
Ví dụ: Phản hồi khảo sát nhận xét trên Social Media, nhận xét blog phản hồi email.
1.1.2 Tổng quan về khoa học dữ liệu
9

lOMoARcPSD|36908422
Khoa học dữ liệu là ngành nghiên cứu khoa học về quản trị và phân tích dữ liệu,
chuyển đổi dữ liệu thành những tri thức, thông tin giá trị trợ giúp trong việc đưa ra các
quyết định hành động của doanh nghiệp.
Mục đích của Khoa học dữ liệu là giúp ta có cái nhìn sâu hơn, đánh giá kỹ hơn,
phân tích và chuyển hóa những dữ liệu thô trở thành những giá trị hữu ích.
Công việc của Khoa học dữ liệu gồm quá trình thu thập dữ liệu và xử lý, tiến
hành phân tích chuyên sâu, cuối cùng là trình bày thành quả, đưa ra quyết định và hành
động.
Khoa học dữ liệu sẽ yêu cầu thực hiện:
 Quan sát
 Đặt câu hỏi
 Hình thành các giả thuyết
 Tạo các bài kiểm tra
 Phân tích kết quả
 Khuyến nghị thực tế
1.1.3 Sự phát triển của khoa học dữ liệu

Khoa học dữ liệu là một lĩnh vực nghiên cứu tập trung vào việc thu thập, xử lý,
phân tích và trình bày dữ liệu để giải quyết các vấn đề thực tế. Với sự phát triển của
công nghệ thông tin, khả năng thu thập và lưu trữ dữ liệu của các công ty và tổ chức đã
được cải thiện đáng kể, và khoa học dữ liệu đã trở thành một công cụ hữu ích để phân
tích và đưa ra dự đoán.
Trong những năm gần đây, khoa học dữ liệu đã trở thành một lĩnh vực rộng lớn
và ngày càng phổ biến trong nhiều ngành công nghiệp, bao gồm bán lẻ, tài chính, y tế,
giáo dục và nhiều lĩnh vực khác. Khoa học dữ liệu cũng đang phát triển nhanh chóng,
với việc áp dụng các công nghệ mới như trí tuệ nhân tạo và học sâu để phân tích dữ
liệu phức tạp hơn.
Từ việc phân tích dữ liệu để tìm hiểu thị trường và khách hàng, đến dự đoán và
tối ưu hóa hoạt động kinh doanh, khoa học dữ liệu đóng vai trò quan trọng trong quản
lý doanh nghiệp hiện đại. Nó cung cấp cho các doanh nghiệp những thông tin quan
trọng để đưa ra quyết định kinh doanh thông minh và hiệu quả.
10

lOMoARcPSD|36908422
1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu
1.1.4.1 Ứng dụng trong ngành ngân hàng

Bằng ứng dụng của khoa học dữ liệu, ngân hàng tìm ra giá trị vòng đời khách
hàng, cho phép họ định lượng khách hàng mà họ mong muốn. Ngoài ra, dữ liệu cũng
góp phần định hướng ngân hàng phát triển theo nhu cầu thị trường.
Trong các phân tích đánh giá thực tế, ngân hàng sử dụng thuật toán Machine
Learning để cải thiện chiến lược của họ vào đào sâu tìm hiểu nhiều vấn đề tác động
đến chất lượng công việc.
1.1.4.2 Ứng dụng của Khoa học dữ liệu trong ngành tài chính
Ngành khoa học dữ liệu là chìa khóa để tạo ra giao dịch dựa trên thuật toán.
Dựa vào quy trình phân tích dữ liệu cố định, những doanh nghiệp tài chính dễ dàng
tìm ra giải pháp cho dữ liệu họ nắm giữ, mang đến trải nghiệm và xây dựng quan hệ
khách hàng tốt hơn.
Đây là bước tiến vượt trội trong việc áp dụng phân tích dữ liệu người dùng qua
quy trình cá nhân hóa dữ liệu. Những kỹ thuật và thuật toán Machine Learning thúc
đẩy tương tác trên truyền thông đa phương tiện, tăng tốc độ tiếp nhận phản hồi, chăm
sóc khách hàng để phân tích hiệu quả.
1.1.4.3 Ứng dụng của Khoa học dữ liệu trong ngành sản xuất
Những nhà khoa học nắm giữ vai trò chủ chốt trong nền sản xuất vì bằng các
ứng dụng của Khoa học dữ liệu, nền sản xuất có thể cải thiện được khả năng tạo ra sản
phẩm, tối ưu hiệu suất, giảm chi phí và tăng lợi nhuận.
Hơn nữa, với công cụ như IoT, Khoa học dữ liệu cho phép nhưng doanh nghiệp
dự đoán được vấn đề, điều phối hệ thống và phân tích dòng dữ liệu của họ.
1.1.4.4 Ứng dụng của Data Science trong ngành giao thông vận tải
Một lĩnh vực ứng dụng của Khoa học dữ liệu quan trọng là ngành giao thông
vận tải. Khoa học dữ liệu giúp môi trường giao thông an toàn hơn cho người điều
khiển giao thông. Khoa học dữ liệu giúp các phương tiện giao thông được cải tiến,
thêm yếu tố tự động hóa.
Thông qua nhiều biến số của thông tin khách hàng, địa điểm, chỉ dẫn kinh tế,
logistics, phương tiện như xe cộ có thể nhận biết đoạn đường thuận lợi và chỉ hướng
cho người điều khiển một cách tự động.
1.1.4.5 Ứng dụng của Khoa học dữ liệu trong ngành y tế - chăm sóc sức khỏe
Từ khi có ứng dụng của Khoa học dữ liệu, ngành y tế và chăm sóc sức khỏe
cũng có những bước nhảy vọt quan trọng.
11

lOMoARcPSD|36908422
1.1.4.6 Ứng dụng của Khoa học dữ liệu trong Thương mại điện tử
Khoa học dữ liệu cũng có ý nghĩa đối với phân đoạn thị trường và chọn lọc đối
tượng khách hàng mục tiêu của các doanh nghiệp. Sử dụng Khoa học dữ liệu trong các
đề xuất nâng cao của hệ thống, nền tảng thương mại điện tử hoàn toàn có thể đưa ra
những thông tin giá trị và khả thi đối với doanh nghiệp để họ định hướng chiến lược
mua và bán của thị trường.
1.2 GIỚI THIỆU ĐỀ TÀI
1.2.1 Lý do chọn đề tài

Trong thời đại hiện nay, sự phát triển của khoa học dữ liệu đã mở ra nhiều cơ hội
để các doanh nghiệp sử dụng dữ liệu để đưa ra các quyết định kinh doanh thông minh
hơn.
Lý do chọn đề tài này là do vấn đề khách hàng rời bỏ thẻ tín dụng đã trở thành
một trong những thách thức đối với các công ty tài chính. Việc đưa ra các chiến lược
kinh doanh để giữ chân khách hàng cũng như thu hút khách hàng mới là một yếu tố
quan trọng để tăng doanh số và lợi nhuận cho công ty. Tuy nhiên, để đưa ra những
chiến lược kinh doanh phù hợp, các công ty cần phải hiểu rõ hơn về hành vi của khách
hàng và tìm hiểu những yếu tố nào có thể khiến khách hàng rời bỏ thẻ tín dụng của
mình.
Phân tích và dự đoán khả năng khách hàng rời bỏ thẻ tín dụng của công ty có thể
giúp các công ty xác định được những khách hàng có nguy cơ rời bỏ và đưa ra các giải
pháp để giữ chân họ. Đồng thời, phân tích cũng giúp cho các công ty hiểu rõ hơn về
hành vi và nhu cầu của khách hàng, từ đó đưa ra các sản phẩm và dịch vụ phù hợp để
thu hút và giữ chân khách hàng.
Việc phân tích khách hàng và đưa ra các chiến lược kinh doanh phù hợp là rất cần
thiết để đảm bảo sự tồn tại và phát triển của công ty. Các chiến lược này có thể bao
gồm việc đưa ra các chương trình khuyến mãi, ưu đãi cho khách hàng, nâng cấp dịch
vụ và tối ưu hóa trải nghiệm khách hàng. Điều quan trọng là đưa ra các chiến lược phù
hợp với từng đối tượng khách hàng và phù hợp với tình hình kinh doanh của công ty.
Vì vậy, nghiên cứu phân tích và dự đoán khả năng khách hàng rời bỏ thẻ tín dụng
của công ty là một đề tài cực kỳ hữu ích và cần thiết. Từ đó, công ty có thể đưa ra
những chiến lược kinh doanh phù hợp để giữ chân khách hàng hiện tại, thu hút khách
hàng mới và tăng doanh số kinh doanh của mình.
12

lOMoARcPSD|36908422
1.2.2 Mục tiêu nghiên cứu ( CÓ GÌ CHỈNH SỬA LẠI )

1.2.2.1 Mục tiêu tổng quát
Giúp công ty xác định những yếu tố quan trọng có liên quan đến quyết định của
khách hàng về việc rời bỏ thẻ tín dụng. Thông qua việc phân tích dữ liệu và áp dụng
các mô hình dự đoán, nghiên cứu sẽ đưa ra dự báo về khả năng khách hàng sẽ rời bỏ
thẻ tín dụng của công ty trong tương lai.
1.2.2.2 Các mục tiêu cụ thể
 Phân tích các đặc điểm khách hàng như độ tuổi, giới tính, thu nhập, nghề
nghiệp,... để xác định các nhóm khách hàng có khả năng cao hoặc thấp trong
việc rời bỏ thẻ tín dụng của công ty.
 Phân tích các thông tin về lịch sử sử dụng dịch vụ của khách hàng, như số tiền
đã chi tiêu, tần suất giao dịch,... để đánh giá sự hài lòng và mức độ trung thành
của khách hàng.
 Phân tích các yếu tố khác như chất lượng dịch vụ, thời gian phản hồi,... để đánh
giá mức độ hài lòng của khách hàng và tìm ra các vấn đề cần được cải thiện để
giữ chân khách hàng.
 Áp dụng các phương pháp dự đoán khách hàng rời bỏ thẻ tín dụng của công ty,
như mô hình hồi quy logistic, mô hình cây quyết định,...
 Đưa ra những chiến lược kinh doanh phù hợp để thu hút và giữ chân khách
hàng, như tăng cường chất lượng dịch vụ, đưa ra chính sách khuyến mãi,...
1.2.3 Đối tượng nghiên cứu

Chọn bộ dữ liệu “Credit Card Customers” bộ dữ liệu này liên quan đến vấn đề
quản lý khách hàng trong lĩnh vực tín dụng. Bộ dữ liệu này chứa thông tin về khách
hàng sử dụng thẻ tín dụng, bao gồm thông tin cá nhân, doanh thu hằng năm, loại thẻ,...
được sử dụng rộng rãi trong nghiên cứu về phân tích dữ liệu và dự đoán khách hàng
trong lĩnh vực tài chính.
13

lOMoARcPSD|36908422
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ

CÁC PHƯƠNG PHÁP SỬ DỤNG
2.1 CÁC PHƯƠNG PHÁP CỦA EXEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descripitive Statistics
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần thống kê.
Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp
thoại Descriptive Statistics.
Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong tháng 03 tại siêu
thị ABC.
Hình 1. Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại Descriptive
Statistics
Trong hộp thoại Descriptive Statistics, nhập vào Input Range là cột chứa dữ liệu
thịt heo, Output Range là ô xuất dữ liệu. Confidence Level for Mean là 95%. Sau đó ta
sẽ nhận được bảng kết quả.
14

lOMoARcPSD|36908422
• Mean: Giá trị trung bình

• Standard Error: Sai số chuẩn
• Median: Trung vị
• Mode: Yếu vị
• Standard Deviation: Độ lệch chuẩn
• Sample Variance: Phương sai mẫu
• Kurtosis: Độ nhọn
• Skewness: Độ bất đối xứng (Độ
nghiêng)
• Range: Khoảng biến thiên (Max – Min)
• Minimum: Số nhỏ nhất
• Maximum: Số lớn nhất
• Sum: Tổng
• Count: Số lượng phần tử
• Confidence Level: Độ tin cậy
Hình 2. Bảng kết quả thống kê bằng công cụ Descriptive Statistics
2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

Chức năng của Subtotal:
 Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu
như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
 Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.

Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là
Salesperson)
Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu.
Bước 3: Chọn Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal.
15

lOMoARcPSD|36908422
Ví dụ: Thống kê số tiền mà mỗi nhân viên thực hiện được
Hình 3. Dữ liệu nhân viên
• At each change in: chọn cột gom nhóm

(Salesperson).
• Use function: chọn hàm thống kê dùng để tổng
hợp dữ liệu (Sum).
• Add subtotal to: chọn cột thống kê giá trị
(Order Amount).
• Replace current subtotals: chọn để thay thế kết
quả thống kê trước đó.
• Page break between group: chọn để ngắt trang
giữa các nhóm, khi in ra giấy thì mỗi nhóm một
trang giấy.
• Summary below data: chọn để kết quả tổng
hợp ở dưới mỗi nhóm.
• Remove All: để xóa bỏ các kết quả tổng hợp.
Hình 4.Hộp thoại Subtotal
Và sau đó, ta được kết quả bảng tổng hợp số tiền mà mỗi nhân viên thực hiện được.
16

lOMoARcPSD|36908422
Hình 5. Tổng hợp số tiền mà mỗi nhân viên thực hiện
2.1.1.3 Hợp nhất dữ liệu với Consolidate

Chức năng của Consolidate:
 Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau.
 Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
o Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.
o Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về
cấu trúc.

Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.
Bước 2: Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại
Consolidate.
Ví dụ: Hợp nhất doanh thu của 3 cửa hàng
17

lOMoARcPSD|36908422
Hình 6. Doanh thu 3 cửa hàng
• Function: chọn hàm tổng hợp.

• Reference: để tham chiếu lần lượt
các bảng dữ liệu nguồn.
• All references: chứa tất cả các
vùng dữ liệu nguồn cần thiết cho
việc hợp nhất.
• Top row: chọn nếu muốn dùng tên
cột của vùng nguồn.
• Left column: chọn nếu muốn dùng
các giá trị của cột đầu tiên của vùng
nguồn.
• Create links to source data: chọn
nếu muốn dữ liệu hợp nhất được cập
nhật mỗi khi có thay đổi ở vùng dữ
liệu nguồn.
Hình 7. Hộp thoại Consolidate
18

lOMoARcPSD|36908422
Hình 8. Bảng hợp nhất doanh thu 3 cửa hàng
2.1.1.4 Tổng hợp đa chiều với Pivot Table

Cách thực hiện trên Excel:
Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu.
Bước 2: Chọn lệnh Insert → PivotTable.
Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa
PivotTable, click nút OK.
Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS,
COLUMNS và VALUES.
Ví dụ: Tổng hợp dữ liệu đa chiều với Pivot Table
Hình 9. Tổng hợp dữ liệu đa chiều với Pivot Table
19

lOMoARcPSD|36908422
 Table/Range: Là các dữ liệu

muốn thống kê.
 New Worksheet: Pivot Table sẽ
xuất hiện ở trang tính mới.
 Existing Worksheet: Sẽ xuất dữ
liệu ở 1 trang tính mới.
 Location: Chọn vị trí muốn tạo
bảng Pivot Table.
Hình 10. Hộp thoại Create Pivot Table
Hình 11. Kết quả tổng hợp đa chiều với Pivot Table
2.1.2 Phương pháp về phân tích dự báo
2.1.2.1 Phương pháp trung bình trượt ( Moving Average )
Chức năng: Giúp làm giảm độ nhiễu của dữ liệu bằng cách loại bỏ các giá trị
nhiễu tạm thời và tạo ra một bảng trung bình có ý nghĩa hơn. Nó cũng giúp xác định
xu hướng và mức độ biến động của dữ liệu, giúp cho việc dự đoán và quản lý rủi ro trở
nên dễ dàng hơn.
Bước 1: Chuẩn bị bảng số liệu cần dự báo.
Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại
Moving Average.
Bước 3: Khai báo các thông số Input và Output Options.
20

lOMoARcPSD|36908422
 Input Range: tham chiếu đến vùng dữ liệu thực tế.

 Labels in First Row: Khai báo hàng đầu tiên của Input range có chứa tiêu
đề cột hay không.
 Interval (w) : Số lượng các kỳ trước đó muốn tính.
 Output Range: tham chiếu đến vùng xuất ra kết quả. Những ô không đủ số
lượng các giá trị các kỳ trước đó để tính toán thì sẽ xuất ra giá trị #N/A.
 Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết
quả.
 Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn.
Ví dụ: Dự báo số liệu bán thịt gà của siêu thị ABC.
Hình 12. Số liệu bán và hộp thoại Moving Average

Sau khi chọn vùng dữ liệu cần khai báo vào Input Range, chọn các kỳ trước đó
muốn ước tính trong Interval, ở bài này cho giá trị là 3, có nghĩa là 3 kì để trượt từ đó
dự báo được số liệu số con gà. Sau đó, chọn vùng muốn hiển thị kết quả ở ô Output
Range.
2.1.2.2 Phương pháp san bằng mũ

Chức năng: Dự báo giá trị tương lai của một chuỗi dữ liệu dựa trên xu hướng và
mức độ biến động của dữ liệu trong quá khứ. Nó cũng giúp loại bỏ các giá trị nhiễu,
dự báo kết quả kinh doanh và quản lý rủi ro, cải thiện độ chính xác của dự báo và đưa
ra quyết định dựa trên dữ liệu chính xác hơn.
21

lOMoARcPSD|36908422

Bước 1: Chuẩn bị bảng số liệu cần dự báo.
Bước 2: Chọn lệnh Data → Data Analysis→ Exponential Smoothing, xuất hiện hộp
thoại Exponential Smoothing.
Bước 3: Khai báo các thông số Input và Output Options.
 Input Range : tham chiếu đến vùng dữ liệu thực tế.

 Damping factor: giá trị dùng làm hệ số san bằng. Đó là giá trị điều chỉnh sự
bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)
 Labels: tùy chọn cho biết hàng/cột đầu tiên của Input Range có chứa tiêu đề
hay không.
Ví dụ: Dự báo số liệu bán thịt gà tại siêu thị ABC có hệ số điều chỉnh bằng 0.3
Hình 13. Số liệu bán thịt gà và hộp thoại Exponential Smoothing
Input Range là cột dữ liệu cần được dự báo. Hệ số san bằng Damping Factor là
a=0.7 � 1-a=0.3 . Ta được hệ số điều chỉnh là 0.3, ngày 17 lượng thịt gà dự đoán bán
được là 47.53 con gà.
22

lOMoARcPSD|36908422
2.1.2.3 Phương pháp hồi quy ( Regression )

Chức năng: Uớc tính mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều
biến độc lập, từ đó có thể dự đoán giá trị của biến phụ thuộc dựa trên các giá trị có sẵn
của biến độc lập.
 Cách thực hiện bằng đồ thị:
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo.
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến
độc lập X.
Bước 3: Vẽ đồ thi dạng Scatter.
Bước 4: Click chuột phải vào data series, chọn Add Trendline.
Bước 5: Tuỳ chọn hiển thị trong Trendline Options.
 Linear: dạng đường thẳng

 Display Equation on chart
 Display R-squared value on chart
Ví dụ: Tác động của chi phí lên doanh thu.
Hình 14. Tác động chi phí lên doanh thu thông qua biểu đồ
23

lOMoARcPSD|36908422
 Cách thực hiện bằng công cụ Regression:
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại
Regression
Bước 3: Khai báo các thông số Input và Output Options
Ví dụ: Tác động của chi phí lên doanh thu.
 Input Y Range: Vùng địa chỉ

chứa biến phụ thuộc Y
 Input X Range: Vùng địa chỉ
chứa các biến độc lập X (Có thể
chọn nhiều biến X trong trường
hợp hồi quy đa biến)
 Labels: Tích vào mục này để
khẳng định ô (các ô) đầu tiên
không chứa dữ liệu hồi quy
 Constant is Zero: Tích vào mục
này để khẳng định hệ số tự do
của hàm hồi quy tuyến tính a = 0
 Confidentce Level: Độ tin cậy
của hồi quy (mặc định là 95%)
bằng 1-α, với α là mức ý nghĩa
hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng.
Hình 15. Hộp thoại của Regression
 Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả
 New Worksheet Ply: In kết quả ra một sheet khác
 New Workbook: In kết quả ra một file Excel mới
 Residuals: Sai số do ngẫu nhiên
 Standardardlized Residuals: Chuẩn hóa sai số
 Residuals Plots: Đồ thị sai số
 Line Fit Plots: Đồ thị hàm hồi quy tuyến tính
24

lOMoARcPSD|36908422
 Normal Probability Plots: Đồ thị xác suất phân phối chuẩn
Input Y Range là cột doanh thu, Input X Range là cột chi phí. Độ tin cậy hồi quy
Confidence Level là 95%. Kết quả là a=1.7911 và b=3.8132
Hình 16. Kết quả hồi quy
2.1.3 Phương pháp phân tích tối ưu

Tình huống: Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án
trồng trọt bao nhiêu tấn lúa mì và lúa gạo để đạt tối đa hóa lợi nhuận của dự án dựa
trên các số liệu sau:
Số liệu đầu vào đối với một Loại sản phẩm Khả năng lớn nhất của các
đơn vị sản phẩm Lúa gạo Lúa mì nguồn tài nguyên có sẵn
Diện tích đất (ha/ tấn) 2 3 50 ha
Lượng nước(m3/tấn) 6 4 90 m3
Nhân công(người/tấn) 15 12 250 người
Lợi nhuận (USD/tấn) 18 21
Bảng 1. Số liệu dự án
 Các bước lập mô hình:
25

lOMoARcPSD|36908422
Bước 1: Xác định biến quyết định

 Gọi x1 là lượng lúa gạo, x2 là lượng lúa mì (tấn) cần sản xuất
Bước 2: Xác định hàm mục tiêu
 Mục tiêu bài toán là tối đa hóa lợi nhuận ta có
 P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max
Bước 3: Xác định hệ ràng buộc
 Ràng buộc tài nguyên sử dụng:
 Về diện tích đất: 2x1 + 3x2 ≤ 50
 Về nước tưới: 6x1 + 4x2 ≤ 90
 Về lao động: 15x1 + 12x2 ≤ 250
 Ràng buộc tự nhiên: x1, x2 ≥ 0
Sử dụng công cụ SOLVER để giải mô hình tối ưu
Bước1: Thiết lập bảng tính
Hình 17. Thiết lập bảng tính

Giả định biến x1, x2 bằng 1, nhập các hệ ràng buộc tương đương về diện tích,
mức nước, nhân công. Sau đó, dùng hàm SUMPRODUCT để tính các giá trị vế trái
theo biến khởi tạo.
Bước 2: Chọn lệnh Data Data -> Analysis -> Solver.
26

lOMoARcPSD|36908422
Hình 18. Hộp thoại Solver Parameters

Nhập ô chứa hàm mục tiêu Set Objective là ô sẽ chứa lợi nhuận max E5. Chọn
To: MAX bởi vì đây là bài toán tối đa hóa lợi nhuận. Nhập ô chưa biến quyết định By
Changing Variable Cells, trong trường hợp này là ô C4 và D4. Nhập các ràng buộc
bằng cách nhấn Add trong Subject to the Constraints.
Bước 3: Nhấn ô Solve để giải bài toàn, chọn Sensitivity và nhấn OK để xem kết quả
mô hình bài toán.
Hình 19. Kết quả tính lợi nhuận tối đa

Và ta thu được kết quả bài toán là để thỏa mãn tất cả các điều kiện ràng buộc ta
sẽ đạt lợi nhuận tối đa là 378 đô la với việc trồng 7 cây lúa gạo và 12 cây lúa mì.
27

lOMoARcPSD|36908422
2.2 PHẦN MỀM ORANGE
2.2.1 Tổng quan về phần mềm Orange
Hình 20. Hình ảnh phần mềm Orange

Trong thời đại công nghệ số phát triển mạnh mẽ, khai phá dữ liệu (Data
Mining) và học máy (Machine Learning) là những lĩnh vực khó khăn và phức tạp. Để
giúp người dùng nghiên cứu và khám phá những bài toán trong hai lĩnh vực này, đã
xuất hiện nhiều phần mềm với mục tiêu đơn giản hóa quá trình nghiên cứu. Một trong
số đó là Orange.
Orange là một phần mềm nổi tiếng, tích hợp các công cụ khai phá dữ liệu mã
nguồn mở và học máy thông minh, được viết bằng ngôn ngữ Python với giao diện trực
quan và dễ sử dụng. Với nhiều chức năng mạnh mẽ, phần mềm này có khả năng phân
tích dữ liệu từ đơn giản đến phức tạp, tạo ra những biểu đồ hấp dẫn và thú vị, và giúp
việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và
chuyên gia. Đặc biệt, Orange cũng là một giải pháp khai thác dữ liệu dành cho doanh
nghiệp, cho phép xây dựng quy trình phân tích dữ liệu và trực quan hóa, bao gồm các
phép chiếu tuyến tính, heatmaps, MDS, cây quyết định và nhiều công cụ khác trên một
nền tảng tập trung. Nó cung cấp giao diện đồ họa (GUI) cho nhân viên, giúp họ thực
hiện phân tích dữ liệu định tính thông qua các phương pháp khám phá dữ liệu và xây
dựng mô hình.
Các công cụ (widgets) trong Orange cung cấp các chức năng cơ bản như đọc dữ
liệu, hiển thị dữ liệu dưới dạng bảng, lựa chọn thuộc tính đặc trưng của dữ liệu, huấn
luyện dữ liệu để dự đoán, so sánh các thuật toán học máy và trực quan hóa các thành
phần dữ liệu, và còn nhiều tính năng khác.
28

lOMoARcPSD|36908422
2.2.2 Tính năng
2.2.2.1 Nhóm Data
- Chức năng: Dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
Hình 21. Giao diện chức năng Data

+ File: Có chức năng đọc dữ liệu từ một tệp đầu vào và gửi tệp dữ liệu đến kênh đầu
ra.
29

lOMoARcPSD|36908422
Hình 22. Giao diện của công cụ File

File Duyệt các tệp dữ liệu đã mở trước đó hoặc tải bất kì tệp mẫu nào.
URL Chèn dữ liệu bằng địa chỉ URL.
Info Instances: bản ghi
Features: trường dữ liệu
Missing values/ No Missing values: trường bị lỗi/ trường không bị lỗi
Columns Name: Tên thường
Type: Kiểu dữ liệu
Role: Vai trò các trường dữ liệu và thông thường dữ liệu tồn tại ở 2 dạng
( feature: trường độc lập, target: trường phụ thuộc )
Bảng 2. Bảng chức năng của File
+ Datasets: Chức năng giúp nạp dữ liệu và kết nối với các dữ liệu trên Internet được
chia sẻ miễn phí. Và đây cũng là nơi cung cấp các thông tin mô tả về bộ dữ liệu trong
phần Description.
30

lOMoARcPSD|36908422
Hình 23. Giao diện của Datasets
+ Data Table: Nơi chứa và hiển thị dữ liệu có trong File trên bảng tính. Công cụ cũng
cho phép sắp xếp các dữ liệu theo thuộc tính và giúp ta chọn dữ liệu.
Hình 24. Giao diện của Data Table
+ Data Sampler: Sử dụng lấy mẫu ngẫu nhiên từ dữ liệu ban đầu để phù hợp với nhu
cầu phân tích.
31

lOMoARcPSD|36908422
Hình 25. Giao diện của Data Sampler

Fixed proportion of data Thể hiện tỉ lệ phần trăm dữ liệu
Fixed sample size Trả về một số trường hợp dữu liệu được chọn
Cross Validdation Phân vùng các trường hợp thành tập hợp con bổ sung
Nhấn Sampler Data Để xuất ra dữ liệu mới
Bảng 3. Bảng chức năng của Data Sampler
+ Save Data: Lữu trữ dữ liệu ta thực hiện trên Orange vào máy tính.
2.2.2.2 Nhóm Visualize
- Chức năng: Dùng để biểu diễn biểu đồ (chart) giúp người dùng quan sát dữ liệu được
tốt hơn.
32

lOMoARcPSD|36908422
Hình 26. Giao diện chức năng Visualize

+ Tree Viewer: Thể hiện hình ảnh trực quan của cây phân loại và hồi quy.
2.2.2.3 Nhóm Model
- Chức năng: Gồm các hàm máy học (machine learning) phân lớp dữ liệu với các phương
pháp như Tree, Logistics Regression, SVM,… thường hay xuất hiện và sử dụng trong các bài
toán phân lớp dữ liệu.”
33

lOMoARcPSD|36908422
Hình 27. Giao diện chức năng Model

+ Tree: Thuật toán cây quyết định
+ SVM: Thuật toán siêu phẳng
+ Logistic Regression: Thuật toán hồi quy Logistic
2.2.2.4 Nhóm Evaluate
- Chức năng: Bao gồm các phương pháp đánh giá mô hình như : Test& Score, Prediction,
Confusion Matrix, … giúp người dùng dễ dàng đánh giá được mức độ hoàn hảo của mô hình
mình đang sử dụng cũng như giúp họ dự báo trước được một số trường hợp cần thiết.”
34

lOMoARcPSD|36908422
Hình 28. Giao diện chức năng Evaluate

+ Test and Score: Đánh giá hiệu suất của mô hình dự đoán trên tệp dữ liệu kiểm tra.
Cung cấp các phương pháp và số liệu thống kê để đo lường và so sánh kết quả dự đoán
của mô hình với nhãn thực tế.
Hình 29. Giao diện Test and score

AUC Diện tích đường cong ROC và đo lường khả năng phân
35

lOMoARcPSD|36908422
loại của mô hình.

CA Đo lường tỉ lệ phân loại chính xác cảu mô hình trên tập dữ
liệu kiểm tra.
Number of folds Chia dữ liệu thành bao nhiêu phần, từ đây có thể thay đổi kết
quả của Test and score.
Bảng 4. Bảng chức năng của Test and score
+ Prediction:“Dự báo các kết quả của thuật toán phân loại thử nghiệm.”
+ Confusion Matrix:“Là bước bổ sung tiếp theo của Test and Score, từ đó có thêm cơ
sở để đánh giá mô hình là tốt nhất của dự báo.”
Hình 30. Giao diện của Confusion Matrix

Sai lầm loại 2 nằm ở góc trên bên phải ( Ví dụ 396 ) càng lớn thì mô hình càng không
chính xác. Do đó ta nên lựa chọn mô hình có sai lầm loại 2 càng nhỏ càng tốt.
2.2.2.5 Nhóm Unsupervised
36

lOMoARcPSD|36908422
Hình 31. Giao diện chức năng Unsupervised
+ Hierachical Clustering:“Đây là phần hiển thị các cụm của dữ liệu và ta có thể điều
chỉnh số cụm theo mong muốn của mình.”
+ K-mean: Để tìm cách phân chia dữ liệu thành các nhóm dựa trên đặc điểm của
chúng. Cho phép xác định số lượng nhóm, tùy chỉnh các tham số và hiển thị kết quả
phân cụm.
2.2.2.6 Nhóm Educational
Hình 32. Giao diện của Educational

+ Interactive K-means: Xác định được cụm nào là tốt nhất để chọn nó là tiêu chuẩn khi
ta áp dụng vào bài toán phân cụm cụ thể.
37

lOMoARcPSD|36908422
2.3 PHƯƠNG PHÁP PHÂN LỚP
2.3.1 Phân lớp dữ liệu
2.3.1.1 Khái niệm về phân lớp dữ liệu
“Phân lớp dữ liệu là một quá trình phân một đối tượng dữ liệu vào một hay
nhiều lớp đã cho trước nhờ 1 mô hình phân lớp. Mô hình này được xây dựng trên một
tệp dữ liệu đã gán nhãn. Quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình
phân lớp dữ liệu.”
2.3.1.2 Quá trình phân lớp
Hình 33. Quá trình phân lớp

Quá trình phân lớp dữ liệu gồm 2 bước chính:
 Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Từ dữ liệu đầu vào, sử dụng các thuật toán để phân lớp dữ liệu, cụ thể hơn là
giải bài toán cho phương trình f(x)=y để tìm ra mô hình phân lớp.
 Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.
 Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Từ dữ liệu đầu vào là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lí,
bộ dữ liệu này nhỏ hơn bộ dữ liệu training ( Chia tỉ lệ khoảng 70/30 ). Tuy
nhiên, lúc đưa vào mô hình phân lớp, ta bỏ lướt qua thuộc tính đã được gán
nhãn. So sánh thuộc tính gán nhãn và kết quả phân lớp để xác định tính đúng
đắn của mô hình.
38

lOMoARcPSD|36908422
 Bước 2.2: Phân lớp dữ liệu mới
Dữ liệu đầu là dữ liệu khuyết thuộc tính cần dự lớp ( nhãn ). Mô hình sẽ tự
động gán nhãn cho các đối tượng đó dựa vào mô hình huấn luyện ở Bước 1.
2.3.1.3 Ứng dụng của phân lớp dữ liệu
 Tài chính ngân hàng
❑ Dự báo giá chứng khoán
❑ Xếp hạng tín dụng cá nhân và tổ chức
❑ Đánh giá rủi ro tài chính
 Sales & Marketing
❑ Dự báo doanh thu
❑ Dự báo khách hàng trung thành
 Kinh tế học
❑ Dự báo khủng hoảng kinh tế
❑ Dự báo cung cầu
2.3.2 Một số phương pháp phân lớp dữ liệu
2.3.2.1 Hồi quy Logistic ( Logistic Regression )
Hình 34. Biểu đồ hàm Logistic
39

lOMoARcPSD|36908422
 Hồi quy Logistic là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một
tập các giá trị đầu vào và được biểu diễn dưới dạng vector.
 Hàm Logistic dự đoán đối tượng xem

đối tượng � sở hữu các thuộc tính cụ thể sẽ thuộc vào lớp � nào.
2.3.2.2 SVM ( Support Vector Machine )
 Định nghĩa: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem
chúng như những các vector trong không gian và phân loại chúng vào các lớp
khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều
làm mặt phân cách các lớp dữ liệu.
 Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng
cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
 SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.
Loại SVM Tính chất
Hard Margin SVM Hai lớp cần phân lớp có thể chia tuyến tính
Soft Margin SVM Hai lớp cần phân lớp là gần phân chia tuyến tính
Multi-class SVM Phân lớp đa lớp ( Biên giữa các lớp là tuyến tính )
Kenel SVM Dữ liệu là phi tuyến
Bảng 5. Các loại biến thể SVM
Ưu điểm Nhược điểm

Chạy nhanh, tiết kiệm bộ nhớ. Chưa thể hiện tính xác suất trong phân
loại.
Vừa phân loại tuyến tính, vừa phân loại Kết quả không tốt đối với trường hợp số
phi tính. chiều dữ liệu lớn hơn số dòng dữ liệu.
Xử lý được trong không gian nhiều

chiều.
Bảng 6. Bảng so sánh ưu nhược điểm
=> Mục đích cuối cùng của mô hình SVM là tạo ra 2 mặt phẳng giữa 2 lớp dữ liệu.
2.3.2.3 Cây quyết định ( Decision Tree )
40

lOMoARcPSD|36908422
Hình 35. Mô hình cây quyết định

 Định nghĩa: Cây quyết định là đồ thị các quyết định cùng các cùng các kết quả
khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định; là phương pháp nhằm mô tả,
phân loại và tổng quát hóa tập dữ liệu cho trước.

Dễ hiểu. Khó giải quyết trong tình huống dữ liệu
phụ thuộc thời gian.
Không đòi hỏi việc chuẩn hóa dữ liệu. Chi phí xây dựng mô hình cao.
Có thể xử lý trên nhiều kiểu dữ liệu

khác nhau.
Xử lý tốt lượng dữ liệu lớn trong thời
gian ngắn.
Bảng 7. Ưu nhược điểm của cây quyết định
2.4 MỘT SÔ PHƯƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH PHÂN LỚP

2.4.1 Ma trận nhầm lẫn
41

lOMoARcPSD|36908422
- Chức năng: Là công cụ phân tích được sử dụng trong lĩnh vực đánh giá hiệu suất của
các mô hình phân loại. Được sử dụng để đánh giá mức độ dự đoán chính xác của một
mô hình phân loại bằng cách so sánh các giá trị dự đoán và nhãn thực tế của các mẫu
dữ liệu.
Hình 36. Ví dụ về ma trận nhầm lẫn

TP ( True Positive ) Số dự báo chính xác được nhận giá trị TP
TN ( True Negative ) Số dự báo chính xác một cách gián tiếp
FP ( False Positive ) Sai lầm loại 1, số liệu dự báo sai lệch
FN ( False Negative ) Sai lầm loại 2, số liệu dự báo sai lệch
Bảng 8. Bảng chú thích về ma trận nhầm lẫn
2.4.2 Hold-out
- Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ
nhất định ( 70/30; 60/40...).
- Phương pháp này thích hợp cho các dữ liệu nhỏ. Tuy nhiên, các mẫu có thể không
đại diện cho toàn bộ dữ liệu ( thiếu lớp trong tập thử nghiệm ).
2.4.3 K-fold cross validation
- Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước ( gọi là
Fold ).
- Một trong các fold sẽ được sử dụng làm tập dữ liệu đánh giá và phần còn lại được sử
dụng làm tập huấn luyện. Quá trình lập lại cho đến khi tất cả các fold đều được dùng
làm tập dữ liệu đánh giá.
42

lOMoARcPSD|36908422
2.4.4 ROC, AUC
- ROC: Đồ thị đánh giá phân loại mô hình phân nhị. Tạo ra bằng cách dựa trên tỉ lệ
TPR ( True Positive Rate ) và FPR ( False Positive Rate ).
=> Một mô hình hiệu quả khi có FPR thấp và TPR cao hay ROC càng tiệm cận với
điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.
- AUC: Là diện tích nằm dưới đường cùng ROC. Giá trị này là một số dương nhỏ hơn
hoặc bằng 1.
=> Giá trị này càng lớn thì mô hình càng hiệu quả.
2.5 PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU
 Phân biệt học có giảm sát và học không giám sát
Học có giám sát
- Học có giám sát hay còn gọi là học có thầy là thuật toán dự đoán nhãn
(label)/đầu ra (output) của một dữ liệu mới dựa trên tập dữ liệu huấn luyện
mà trong đó mỗi mẫu dữ liệu đều đã được gán nhãn
- Ví dụ: Hồi quy tuyến tính cho các vấn đề hồi quy.
Nguyên lý “Khu rừng ngẫu nhiên” cho việc phân loại và hồi quy.
Hỗ trợ các hệ máy vector cho các vấn đề về phân loại.
Học không giám sát

- Học không giám sát hay học không thầy là thuật toán dự đoán nhãn của một
dữ liệu mới dựa trên tập dữ liệu huấn luyện mà trong đó tất cả các mẫu dữ
liệu đều chưa được gán nhãn hay nói cách khác là ta không biết câu trả lời
43

lOMoARcPSD|36908422
chính xác cho mỗi dữ liệu đầu vào.

- Ví dụ: Xây dựng tham số “k-Mean” cho vấn đề chia nhóm.
Thuật toán Apriori cho các vấn đề liên quan đến việc học tập quy tắc.
Bảng 9. Phân biệt học có giám sát và học không có giám sát
2.5.1 Phân cụm dữ liệu
2.5.1.1 Khái niệm về phân cụm dữ liệu
Phân cụm dữ liệu là quá trình nhóm ( gom cụm ) các đối tượng dữ liệu có đặc điểm
tương đồng vào các nhóm ( cụm ) tương ứng, giống nhau, có tính chất tương tự nhau.
2.5.1.2 Quy trình phân cụm dữ liệu
Hình 37. Quy trình phân cụm dữ liệu

2.5.1.3 Ứng dụng của phân cụm dữ liệu
 Dự báo khách hàng tiềm năng.
 Phân tích xu hướng hành vi khách hàng.
 Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp.
 Phân tích đặc tính sản phẩm dịch vụ.
 Đánh giá kết quả hoạt động kinh doanh.
 Phân tích hành vi người dùng mạng xã hội.
2.5.2 Một số phương pháp phân cụm

44

lOMoARcPSD|36908422
2.5.2.1 Phân cụm theo phân cấp (Hierarchical Methods)
- Định nghĩa: Là quá trình xây dựng một cây phân cấp cho dữ liệu cần gom cụm, dựa
trên 2 tiêu chí:
 Tạo ra ma trận khoảng cách giữa các phần tử (Ma trận tương đồng, ma trận
không tương đồng).
 Độ đo khoảng cách giữa các cụm ( Single link, complete link,...).
Hình 38. Đồ thị của quá trình phân chia hoặc hợp nhất theo phương pháp phân cụm
phân cấp
2.5.2.2 Phương pháp K-Means
- Định nghĩa: K-Means là một thuật toán rất quan trọng và được sử dụng phổ biến
trong kỹ thuật phân cụm. Ý tưởng chính của thuật toán K-Means là tìm cách nhóm một
đối tượng cho trước thành K cụm, trong đó K là số cụm được xác định trước và K là số
nguyên dương, sao cho kết quả là tổng bình phương khoảng cách giữa các đối tượng
đến trung tâm nhóm (centroid) là nhỏ nhất.
Để hiểu rõ về phương pháp này, cần hiểu rõ thuật toán phân cụm K-means chủ yếu
thực hiện hai nhiệm vụ như sau:
 “Xác định giá trị tốt nhất cho K điểm trung tâm hoặc trọng tâm bằng quy trình
lặp.”
45

lOMoARcPSD|36908422
 “Chỉ định mỗi điểm dữ liệu cho trung tâm K gần nhất của nó. Những điểm dữ
liệu gần trung tâm K cụ thể sẽ tạo ra một cụm.”
Hình 39. Sơ đồ giải thích hoạt động của thuật toán k-Means
Sau khi biết rõ được nhiệm vụ của thuật toán, ta có thể dễ dàng biết được hoạt động
của thuật toán K-Means diễn ra như thế nào. Các bước sau đây sẽ giải thích kĩ hơn về
cách thức mà thuật toán K-Means hoạt động:
 Bước 1: “Chọn số K để quyết định số cụm.”
 Bước 2: “Chọn ngẫu nhiên K điểm hoặc trọng tâm. (Nó có thể khác với tập dữ
liệu đầu vào).”
 Bước 3: “Gán từng điểm dữ liệu cho trọng tâm gần nhất của nó, tâm này sẽ tạo
thành các cụm K được xác định trước.””
 Bước 4: “Tính toán phương sai và đặt trọng tâm mới của mỗi cụm.”
 Bước 5: “Lặp lại bước 3, nghĩa là gán lại từng điểm dữ liệu cho tâm mới gần
nhất của mỗi cụm.”
 Bước 6: “Nếu có bất kỳ sự chỉ định lại nào xảy ra, hãy chuyển sang bước 4, nếu
không thì hãy chuyển sang hoàn tất.”
 Bước 7: “Mô hình đã sẵn sàng.”
K-means là thuật toán đơn giản, dễ dàng Số K cần được xác định trước. Ở nhiều
sử dụng tốt cho các bài toán phân cụm. bài toán, việc xác định được K không
phải là dễ dàng, khi đó K-means sẽ
46

lOMoARcPSD|36908422
không hiệu quả.

K-means thực hiện phân cụm tốt mà K-means không đảm bảo tìm được
không cần biết nhãn dữ liệu đầu vào. nghiệm tối ưu toàn cục. Và nghiệm cuối
(Học không giám sát). cùng phụ thuộc hoàn toàn vào việc khởi
tạo các tâm cụm ban đầu.
K-means là nền tảng cho nhiều thuật
toán phức tạp sau này.
Bảng 10. Ưu nhược điểm phương pháp k-Means
2.5.2.3 Phân cụm phân hoạch (Partitioning Methods)
 Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con
biểu diễn một cụm.
 Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo
phân cụm) sao cho:
 Mỗi đối tượng thuộc ít nhất một cụm, các phần tử trong cụm có sự tương tự
nhau.
 Mỗi cụm có ít nhất một phần tử.
 Các thuật toán điển hình: K-means, K-mediods, Fuzzy C-means.
2.5.3 Đánh giá mô hình phân cụm
2.5.3.1 Đánh giá ngoài (external validation)
Là kết quả đánh giá phân cụm dựa vào cấu trúc, xu hướng phân cụm được chỉ
định trước cho tập dữ liệu.
2.5.3.2 Đánh giá nội bộ (internal validation)
Là kết quả đánh giá phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa
trên các vector chính của dữ liệu thông qua ma trận xấp xỉ.
Tối ưu hóa các chỉ số nội bộ: Độ nén, độ phân tách.
2.5.3.3 Đánh giá tương đối (relative validation)
Đánh giá kết quả gom cụm bằng việc so sánh với:
+ Kết quả gom cụm ứng với các bộ trị thông số khác nhau.
+ Kết quả gom cụm của các phương pháp khác.
47

lOMoARcPSD|36908422
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN

THỰC TẾ
3.1 PHÂN TÍCH DỮ LIỆU

3.1.1 Tiền xử lí dữ liệu
 Ta tiến hành xử lý dữ liệu gồm các bước sau trên phần mềm Orange:
Hình 40. Các bước tiến hành xử lý dữ liệu

o Nạp dữ liệu Credit card customer: Mở File chọn Credit card customer
Hình 41. Nạp dữ liệu

o Ta quan sát bộ dữ liệu:
+ “ Attrition_Flag ” là biến phân loại với các giá trị “ Attrited Customer ”, “
Existing Customer ”.
48

lOMoARcPSD|36908422
+ “ Gender ” là biến phân loại với các giá trị “ F ” viết tắt của từ Female, “ M ” viết
tắt của từ Male. Để sử dụng dữ liệu này trong các thuật toán máy học, ta cần biến
đổi phân loại này thành dạng số học bằng cách sử dụng One-hot encoding.
Hình 42. Nạp dữ liệu Credit Card customers vào trong File
o Trong hộp thoại Continuize -> Chọn Attrition_Flag và Gender -> One-hot
encoding để chuyển đổi thành dạng số học.
o Chọn Education Level, Marital_Status, Income_Category, Card_Category ->
Chọn Keep categorical để giữ nguyên thuộc tính trong bảng.
49

lOMoARcPSD|36908422
Hình 43. Hộp thoại Continuize

o Quan sát lại dữ liệu đã xử lí bằng cách nối Continuize vào Data table. Ở đây ta
sẽ thấy Attrition_Flag và Gender đã chuyển đổi thành dạng số học (0),

(1).
Hình 44. Quan sát dữ liệu đã xử lí
o Ta loại bỏ 2 cột cuối vì không cần thiết tới đề bài, trong cột Attrition_Flag và
Gender giữ lại 1 cột làm chuẩn.
o Chọn Select Columns -> Chọn tất cả các cột ( Trừ 2 cột cuối và Attrition_Flag =
50

lOMoARcPSD|36908422
Attrited Customer và Gender = F )
Hình 45. Bảng Select Columns

 Lưu dữ liệu đã xử lý. Xuất dữ liệu ra file excel mới với tên Credit Card
customers đã xử lí dữ liệu.xlsx.
3.1.2 Mô tả bộ dữ liệu
Bộ dữ liệu được tổng hợp từ nhiều khách hàng trong lĩnh vực tài chính:
https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers
Dữ liệu thô gồm 10127 mẫu dữ liệu ( instances ) và 21 thuộc tính ( features ):
51

lOMoARcPSD|36908422
Hình 46. Mẫu dữ liệu
Thuộc tính Ý nghĩa Mô tả

CLIENTNUM Mã khách hàng 1 chuỗi kí tự số
Attrition_Flag Trạng thái khách hàng hiện Khách hàng đang sử
tại? dụng dịch vụ ( 1 )
Khách hàng đã rời đi
(0)
Customer_Age Tuổi khách hàng 1 chuỗi kí tự số
Gender Giới tính Nam ( 1 )
Nữ ( 0 )
Dependent_count Số người phụ thuộc mà chủ 1 chuỗi kí tự số
thẻ có trong gia đình
Education_Level Trình độ học vấn 1 chuỗi kí tự chữ
High School = Tốt
nghiệp trung học
Graduate = Tốt nghiệp
đại học
College = Đi học cao
đẳng hoặc đại học
Uneducated = Không có
52

lOMoARcPSD|36908422
học vấn
Doctorate = Tốt nghiệp
tiến sĩ hoặc có bằng tiến
sĩ
Post-Graduate = Sau đại
học
Unknown = Không biết
Marital_Status Tình trạng hôn nhân 1 chuỗi kí tự chữ
Married: Đã kết hôn
Single: Độc thân
Divorced: Ly hôn
Unknown: Không biết
Income_Category Mức thu nhập hàng năm của 1 chuỗi kí tự số
khách hàng
Card_Category Loại thẻ tín dụng 1 chuỗi kí tự chữ
Blue = Thẻ cơ bản
Silver = Thẻ bạc
Gold = Thẻ vàng
Platinum = Thẻ kim
cương
Months_on_book Thời gian sỡ hữu thẻ tín 1 chuỗi kí tự số
dụng từ khi mở thẻ đến thời
điểm được cập nhật dữ liệu
Total_Relationship_Count Tổng số tài khoản mà khách 1 chuỗi kí tự số
hàng đang sở hữu tại ngân
hàng
Months_Inactive_12_mon Số tháng mà khách hàng 1 chuỗi kí tự số
không hoạt động trên tài
khoản thẻ tín dụng trong
vòng 12 tháng gần nhất.
Contacts_Count_12_mon Số lượng lần liên hệ của 1 chuỗi kí tự số
khách hàng với ngân hàng
trong vòng 12 tháng gần
nhất.
53

lOMoARcPSD|36908422
Credit_Limit Hạn mức tín dụng của thẻ 1 chuỗi kí tự số

Total_Revolving_Bal Số dư còn lại trên thẻ 1 chuỗi kí tự số
Avg_Open_To_Buy Tiền trung bình mà khách 1 chuỗi kí tự số
hàng có sẵn để sử dụng trên
thẻ tín dụng
Total_Amt_Chng_Q4_Q1 Tổng số tiền giao dịch trên 1 chuỗi kí tự số
thẻ tín dụng của khách hàng
từ quý thứ nhất (Q1) đến
quý thứ tư (Q4)
Total_Trans_Amt Tổng số tiền giao dịch trên 1 chuỗi kí tự số
trong một năm
Total_Trans_Ct Tổng số lần giao dịch trên 1 chuỗi kí tự số
trong một năm.
Total_Ct_Chng_Q4_Q1 Biểu thị sự thay đổi tổng số 1 chuỗi kí tự số
lần giao dịch trên thẻ tín
dụng của khách hàng từ quý
thứ nhất (Q1) đến quý thứ tư
(Q4)
Avg_Utilization_Ratio Biểu thị tỷ lệ sử dụng trung 1 chuỗi kí tự số
bình của hạn mức tín dụng
của khách hàng
Bảng 11. Mô tả những thuộc tính của dữ liệu
3.1.3 Thống kê mô tả
 Giới tính
54

lOMoARcPSD|36908422
Hình 47. Biểu đồ tròn thể hiện tỉ lệ giới tính của khách hàng sử dụng thẻ tín dụng
Nhìn qua sơ đồ, ta thấy tỷ lệ khách hàng nữ sử dụng thẻ tín dụng nhiều hơn khách
hàng nam (Nữ chiếm: 53%, Nam chiếm 47%).
Hình 48. Lượng khách hàng ở lại và rời đi thông qua giới tính
Lượng khách hàng nữ ở lại và tiếp tục sử dụng thẻ tín dụng chiếm số lượng nhiều hơn
khách hàng nam.
 Trung bình tổng số tiền giao dịch của khách hàng dựa trên hoạt động của
55

lOMoARcPSD|36908422
khách hàng
Hình 49. Biểu đồ tròn về trung bình tổng số tiền giao dịch của khách hàng dựa trên
hoạt động của khách hàng
Qua sơ đồ ta thấy, số tiền giao dịch trung bình mà khách hàng rời đi ít hơn số tiền mà
khách hàng đang ở lại. Điều này thể hiện rằng lượng khách hàng rời đi có xu hướng
chi tiêu ít hơn và có khả năng sẽ không tạo ra lợi nhuận cao cho doanh nghiệp so với
khách hàng đang ở lại.
 Độ tuổi
56

lOMoARcPSD|36908422
Hình 50. Biểu đồ thể hiện khách hàng có độ tuổi lớn nhất, nhỏ nhất
Hình 51. Biểu đồ thống kê số khách hàng ở các độ tuổi

Dựa vào 2 biểu đồ trên, ta thấy rằng nhóm tuổi từ 50-55 có số lượng khách hàng
nhiều nhất chiếm 17,24% , trong khi nhóm tuổi từ 71-75 có số lượng khách hàng thấp
nhất chiếm 0,01%. Cùng với đó khách hàng trẻ tuổi nhất là 26 tuổi và lớn tuổi nhất là
73 tuổi.
 Tình trạng hôn nhân

57

lOMoARcPSD|36908422
Hình 52. Biểu đồ thống kê tình trạng hôn nhân

Nhìn qua biểu đồ, trong số 10127 có đến 4687 khách hàng đều là những người
đã kết hôn chiếm 46%, cùng với số lượng khách hàng độc thân gồm 3943 khách hàng
chiếm tỉ lệ khá cao là 39%. Bên cạnh đó là các trường hợp ly hôn, không rõ chiếm tỉ lệ
nhỏ.
 Trình độ học vấn
Hình 53.Biểu đồ cột thể hiện trình độ học vấn của các khách hàng
58

lOMoARcPSD|36908422
Biểu đồ cho thấy khách hàng đa số đều đã tốt nghiệp đại học là 3125 người
chiếm 31%. Tiếp đến là khách hàng đã tốt nghiệp trung học là 2010 người chiếm 20%
trong tổng số.
Hình 54. Biểu đồ cột thể hiện phần trăm khách hàng rời đi phân theo trình độ học vấn
 Loại thẻ
59

lOMoARcPSD|36908422
Hình 55. Biểu đồ cột về số lượng khách hàng sử dụng các loại thẻ
Khách hàng tập trung chủ yếu là những người sử dụng loại thẻ cơ bản, và chỉ có
duy nhất 20 khách hàng sử dụng thẻ kim cương.
 Hạn mức thẻ tín dụng
Hình 56. Hạn mức trung bình của thẻ
60

lOMoARcPSD|36908422
 Thu nhập
Hình 57. Sơ đồ cột thể hiện tổng số khách hàng rời đi dựa trên mức thu nhập và giới
tính
Nhìn qua sơ đồ, số khách hàng rời đi có mức thu nhập không cụ thể “ Unknown
” ở nữ nhiều hơn số khách hàng nam. Đa số khách hàng nữ rời đi có mức thu nhập ít
hơn 40k$ nhiều hơn so với khách hàng nam.
3.2 PHÂN LỚP DỮ LIỆU
3.2.1. Một số phương pháp phân lớp

Sử dụng các phương pháp phân lớp như:
 Cây quyết định (Decision Tree)
61

lOMoARcPSD|36908422
 SVM (Support Vector Machines)
 Hồi quy Logistic (Logistic

Regression)
3.2.2. Kết quả mô hình

Bước 1: Xây dựng mô hình
- Lấy tập dữ liệu huấn luyện từ file dữ liệu đã tiền dữ liệu trước đó
(Credit-Card-customers-đã-xử-lí-dữ-liệu.xlsx)
- Sử dụng Data Sampler để thực hiện lấy mẫu dữ liệu.
Hình 58. Lấy mẫu từ dữ liệu
62

lOMoARcPSD|36908422
- Chọn save Data và lưu dưới file Excel (Credit-Card-customers-đã-xử-

lí-dữ-liệu-70%.xlsx).
Hình 59. Mẫu dữ liệu
- Tập dữ liệu sau khi lấy mẫu huấn luyện sẽ có 7089 mẫu dữ liệu, 21
biến và không có dữ liệu bị lỗi.
- âLấy tập dữ liệu 30% mẫu dữ liệu từ file dữ liệu đã tiền dữ liệu trước
đó (Credit-Card-customers-đã-xử-lí-dữ-liệu.xlsx) và lưu dưới file
Excel (Credit-Card-customers-đã-xử-lí-dữ-liệu-30%.xlsx). Từ tập dữ
liệu 30% đó lấy ra tập dữ liệu dự báo chọn lấy 100 mẫu dữ liệu để
đem đi dự báo và lưu dưới file Excel (Credit-Card-customers-đã-xử-
lí-dữ-liệu- forecast.xlsx).
63

lOMoARcPSD|36908422
Hình 60. Lấy dữ liệu dự báo

 Tập dữ liệu dự báo có 100 mẫu dữ liệu, 20 biến và không có dữ liệu nào bị lỗi.
Bước 2: Sử dụng mô hình

 Vì các dữ liệu sau khi lấy mẫu đã đạt chuẩn, không có dữ liệu bị lỗi nên ta sẽ bỏ
qua bước tiền xử lí dữ liệu.
 Sử dụng các phương pháp phân lớp, Test and Score, và ma trận nhầm lẫn
(Confusion Matrix) để so sánh đánh giá các phương pháp. Để lựa chọn ra
phương pháp tốt nhất, chính xác nhất phục vụ cho việc dự báo.
 Sử dụng Credit-Card-customers-đã-xử-lí-dữ-liệu-70%.xlsx là tập huấn luyện,

chọn biến Attrition_Flag là biến phụ thuộc (target).
64

lOMoARcPSD|36908422
Hình 61. Tập dữ liệu huấn luyện
Hình 62. Mô hình so sánh các thuật toán

65

lOMoARcPSD|36908422
 Tại bảng Test and Score, chọn chia tỷ lệ lấy mẫu, chọn tỷ lệ lấy mẫu tại Cross
Validation hoặc Random Slamping để có được chỉ số đẹp nhất.
 Chọn tỷ lệ lấy mẫu Cross Validation
Hình 63. Kết quả mẫu khi chia mẫu dữ liệu 5 phần
Hình 64. Kết quả mẫu dữ liệu khi chia 10 phần

66

lOMoARcPSD|36908422
 Chọn tỷ lệ lấy mẫu Random Samping
Hình 65. Kết quả khi chia mẫu dữ liệu 50-90%
67

lOMoARcPSD|36908422

 Nhận xét: Đánh giá kết quả cho ta biết được kết quả định lượng của 3 mô hình
cây quyết định ( Decision Tree), Hồi quy logistic ( Logistic Regression), SVM
(Support Vector Machines) giá trị nào là cao nhất. Sau khi xem xét các chỉ số từ
việc lấy mẫu ngẫu nhiên qua các trường hợp trên ta thấy mô hình Cây quyết
định ( Tree Decision) ở trường hợp chia lấy mẫu dữ liệu theo kiểu Random
Sampling 20-70% là đạt các chỉ số cao nhất. Với các chỉ số như sau:
 Tính chính xác (CA) là: 92.6%
 Giá trị trung bình điều hòa (F1) là: 92.3%
 Độ chính xác (Precision) là 92.3%
 Độ phủ (Recall) là: 92.6%
 Diện tích đường cong (AUC) là 0.812 đạt được chỉ số tốt nhất trong các
trường hợp khác đã ví dụ ở trên.
 Ma trận nhầm lẫn (Confusion Matrix)
68

lOMoARcPSD|36908422
Hình 68. Kết quả ma trận nhẫm lẫn của phương pháp Confusion Matrix
Hình 69. Kết quả ma trận nhẫm lẫn của phương pháp SVM
Hình 70. Kết quả ma trận nhẫm lẫn của phương pháp Logistic
69

lOMoARcPSD|36908422
=> Nhận xét: Với kết quả của Ma trận nhầm lẫn ( Confusion Matrix) chỉ cần quan sát
vào tỷ lệ sai lầm loại 1 và tỷ lệ sai lầm loại 2, loại mô hình tốt nhất là mô hình có tỷ lệ
sai lầm loại 1 và tỷ lệ sai lầm loại 2 thấp nhất. Nhưng tỷ lệ sai lầm loại 2 quan trọng
hơn. Nên nhìn vào kết quả ta thấy với mô hình Cây quyết đinh ( Decision Tree) là mô
hình có tỷ lệ sai lầm loại 2 nhỏ nhất là 5.7%. Nên phương pháp Cây quyết đinh
( Decision Tree) là phù hợp nhất.
 ROC Analysis
Hình 71. Đường cong ROC của Attrition_Flag = 1
70

lOMoARcPSD|36908422
Hình 72. Đường cong ROC của Attrition_Flag = 0

=> Nhận xét: Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay đường cong
ROC càng tiệm cận với điểm (0;1) thì đồ thị mô hình càng hiệu quả. Nên khi nhìn
2 hình trên gồm hình đường cong ROC của Attrition_Flag = 0 và hình đường cong
ROC của Attrition_Flag = 1 thì ta thấy mô hình của Cây quyết định có đường cong
ROC tiệm cận với điểm (0;1) nhất nên mô hình này sẽ là mô hình hiệu quả nhất.
 KẾT LUẬN: Phương pháp Cây quyết định ( Decision Tree) là phương pháp tốt
nhất. Với các nguyên nhân lựa chọn là:
 Phương pháp này có AUC ( Area Under The Curve ) hay diện tích nằm
dưới đường cong ROC là lớn nhất nên là mô hình tốt nhất.
 Phương pháp này có Tính chính xác (CA) là cao nhất.
 Phương pháp này có tỷ lệ sai lầm loại 2 nhỏ nhất.
71

lOMoARcPSD|36908422
Hình 73. Đánh giá mô hình phân lớp

 Sử dụng Credit-Card-customers-đã-xử-lí-dữ-liệu- forecast.xlsx làm tập thử
nghiệm
Hình 74. Tập dữ liệu thử nghiệm
72

lOMoARcPSD|36908422
 Sử dụng Prediction để dự báo dữ liệu theo phương pháp Cây quyết định
(Decision Tree)
Hình 75. Mô hình dự báo 100 mẫu dữ liệu

 Kết quả dự báo:
73

lOMoARcPSD|36908422
Hình 76. Kết quả dự báo của 100 mẫu dữ liệu (1)
74

lOMoARcPSD|36908422
Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Nội dung chương này nhóm sẽ trình bày một cái nhìn tổng quan nhất. Chương
này sẽ cung cấp một bản tóm tắt về đồ án bao gồm quy trình nghiên cứu và kết quả mô
hình. Cùng với đó, từ những kết quả đánh giá của mô hình, nhóm sẽ đề xuất và đưa ra
những khuyến nghị cho đồ án.
4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN
4.1.1 Tóm tắt
Nhóm đã làm về phân tích và dự đoán khả năng rời bỏ thẻ tín dụng dựa trên bộ
dữ liệu phân tích Credit Card customers trên Kaggle. Nhóm xây dựng mô hình dự báo
khả năng rời đi của khách hàng là khách hàng đó rời đi hay đang ở lại. Sau khi tiến
hành xử lý dữ liệu, huấn luyện dữ liệu, phân lớp dữ liệu bằng phần mềm Orange thì
chọn ra được mô hình Cây quyết định ( Decision Tree ) là mô hình tốt nhất để phân
lớp dữ liệu, với độ chính xác lên đến 92,6% và sai lầm loại 2 là 5,7%.
75

lOMoARcPSD|36908422
4.1.2 Kết luận
Mục tiêu của nhóm là dự báo về khả năng khách hàng rời đi hay ở lại. Các phần
lý thuyết được đề cập ở Chương 2 được áp dụng để xây dựng mo hình dự đoán có thể
đảm bảo các ước tính từ phân tích và có tính chính xác cao.
4.2 HƯỚNG PHÁT TRIỂN
Mô hình này có thể được dùng để dự đoán khách hàng rời bỏ thẻ tín dụng dựa
trên các yếu tố khác nhau như độ tuổi, giới tính, trình trạng hôn nhân, trình độ học vấn,
mức thu nhập của khách hàng,...
Từ đó có thể giúp cho các công ty đưa ra các quyết định phù hợp. Chẳng hạn:
- Phân bố giới tính của khách hàng gần như giống nhau. Độ tuổi chung của khách
hàng là từ 40-55 và độ tuổi trung bình là 46. Những người ở độ tuổi trung niên
là đối tượng khách hàng nhiều nhất của ngân hàng này. Bằng cách này, ngân
hàng cung cấp các chiến dịch đặc biệt cho những khách hàng này.
- Khách hàng nói chung đang sử dụng thẻ “ Blue ”. Ý nghĩa của nó, hầu hết trong
số họ sử dụng thẻ cơ bản. Mục tiêu cần giải quyết là làm thế nào ngân hàng có
thể tăng hạng thẻ khác theo thu nhập của khách hàng?
- Trình độ học vấn phổ thông ở mức "Graduate" tốt nghiệp đại học, nghĩa là hầu
hết khách hàng có thể biết cơ bản về kinh tế.
- Khách hàng rời bỏ có trình độ học vấn cao - Trình độ học vấn của khách hàng
rời bỏ chiếm tỷ lệ cao là Cao học (21,06%), tiếp theo là Sau đại học (17,83%).
- Hạn mức tín dụng của khách hàng Nam cao hơn khách hàng Nữ. Điều đó có
nghĩa là Nam đang sử dụng thẻ tín dụng nhiều hơn Nữ. Làm thế nào để có thể
thuyết phục khách hàng Nữ sử dụng thẻ tín dụng nhiều hơn.
- Ngoài ra, loại thu nhập cao nhất chỉ xảy ra bởi khách hàng Nam. Điều đó có
nghĩa là, khách hàng nam có thể biết hầu hết mọi thứ về đầu tư hoặc những thứ
tương tự.
4.3 GIẢI PHÁP

Để tối ưu hóa việc quản lý khách hàng và tăng cường mối quan hệ với khách
hàng nhóm xin đề ra một số giải pháp sau:
- Phân tích hồ sơ khách hàng: Sử dụng dữ liệu khách hàng có sẳn, phân tích hồ
76

lOMoARcPSD|36908422
sơ khách hàng để hiểu rõ hơn về nhu cầu của từng nhóm khách hàng. Các yếu
tố như độ tuổi, thu nhập, loại thẻ sử dụng,... Dựa trên phân tích này, có thể sẽ
tạo ra các chiến lược tiếp cận phù hợp và phát triển của loại thẻ tín dụng, đáp
ứng nhu cầu của từng nhóm khách hàng.
- Xử lí rủi ro khách hàng rời bỏ: Dựa trên thông tin dữ liệu, mình nhanh chóng
phát hiện khách hàng có nguy cơ rời bỏ và áp dụng các chương trình để giữ
chân khách hàng. Điều này có thể bao gồm liện hệ trực tiếp với khách hàng,
cung cấp ưu đãi đặc biệt, tạo sự liên kết bằng cách cũng cấp dịch vụ tốt hơn và
thực hiện các biện pháp khắc phục.
- Xây dựng chương trình khuyến mãi cho khách hàng trung thành: Tạo ra chương
trình khách hàng trung thành để tăng cường sự gắn kết của khách hàng và
khuyến khích họ tiếp tục sử dụng thẻ tín dụng. Chương trình có thể bao gồm
các ưu đãi đặc biệt, điểm thưởng hoặc các chường trình cashback cho việc sử
dụng thẻ. Đồng thời, chú trọng đến chất lượng dịch vụ dành cho khách hàng.
Đây sẽ là yếu tố quan trọng để duy trì lòng trung thành của khách hàng.
77

lOMoARcPSD|36908422
TÀI LIỆU THAM KHẢO
1. TS. Nguyễn Quốc Hùng, slide bài giảng và các tài liệu môn
Khoa học dữ liệu
2. Admin. (2022). Khái niệm biến định tính, định lượng trong xử
lý dữ liệu. XLDL. https://xulydinhluong.com/khai-niem-bien-
dinh-tinh-dinh-luong-la-gi/
3. ThuyDinh, A. (2021). Dữ liệu là gì? Tầm quan trọng của dữ
liệu khách hàng đối với doanh nghiệp. A1 DigiHub.
https://a1digihub.com/du-lieu-la-gi/
78

Do An Nhom 6 Mau

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Do An Nhom 6 Mau

Uploaded by

Copyright:

Available Formats

lOMoARcPSD|36908422

Scan to open on Studocu

Studocu is not sponsored or endorsed by any college or university

ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

BÁO CÁO ĐỒ ÁN HỌC PHẦN

Đề tài: PHÂN TÍCH VÀ DỰ ĐOÁN KHẢ NĂNG KHÁCH

GVHD: TS.GVC Nguyễn Quốc Hùng

Nhóm thực hiện: 6

Nguyễn Đào Như Ánh (Trưởng nhóm)

TP. Hồ Chí Minh, Tháng 5/2023

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

DANH MỤC HÌNH ẢNH.

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Hình 30. Giao diện của Confusion Matrix...................................................................35

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Hình 58. Lấy mẫu từ dữ liệu........................................................................................62

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

DANH MỤC BẢNG BIỂU.

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

DANH MỤC TỪ VIẾT TẮT.

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI

1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

1.1.1 Khái niệm dữ liệu

 Dữ liệu có cấu trúc

+ Thường được gọi là dữ liệu định lượng.

 Dữ liệu không có cấu trúc

+ Thường được gọi là dữ liệu định tính.

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

1.1.3 Sự phát triển của khoa học dữ liệu

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu

1.1.4.1 Ứng dụng trong ngành ngân hàng

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

1.2 GIỚI THIỆU ĐỀ TÀI

1.2.1 Lý do chọn đề tài

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

1.2.2 Mục tiêu nghiên cứu ( CÓ GÌ CHỈNH SỬA LẠI )

1.2.3 Đối tượng nghiên cứu

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

• Mean: Giá trị trung bình

Hình 2. Bảng kết quả thống kê bằng công cụ Descriptive Statistics

2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

Cách thực hiện:

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Ví dụ: Thống kê số tiền mà mỗi nhân viên thực hiện được

Hình 3. Dữ liệu nhân viên

• At each change in: chọn cột gom nhóm

Hình 4.Hộp thoại Subtotal

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Hình 5. Tổng hợp số tiền mà mỗi nhân viên thực hiện

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Cách thực hiện:

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)

Hình 6. Doanh thu 3 cửa hàng

• Function: chọn hàm tổng hợp.

Downloaded by Nguy?n V?n Quân (nvquan34892003@gmail.com)