Professional Documents
Culture Documents
Do An Nhom 6 Mau
Do An Nhom 6 Mau
Đồ án nhóm 6 - mẫu
Khoa học dữ liệu (Trường Đại học Kinh tế Thành phố Hồ Chí Minh)
MỤC LỤC
DANH MỤC HÌNH ẢNH....................................................................................................................2
DANH MỤC BẢNG BIỂU...................................................................................................................3
DANH MỤC TỪ VIẾT TẮT................................................................................................................4
Lời mở đầu............................................................................................................................................5
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN........................................................................................6
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI..........................7
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ
DỤNG..................................................................................................................................................12
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ......................................47
Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................................74
TÀI LIỆU THAM KHẢO..................................................................................................................76
1
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
4
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
5
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
6
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Lời mở đầu.
7
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
8
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Khoa học dữ liệu là ngành nghiên cứu khoa học về quản trị và phân tích dữ liệu,
chuyển đổi dữ liệu thành những tri thức, thông tin giá trị trợ giúp trong việc đưa ra các
quyết định hành động của doanh nghiệp.
Mục đích của Khoa học dữ liệu là giúp ta có cái nhìn sâu hơn, đánh giá kỹ hơn,
phân tích và chuyển hóa những dữ liệu thô trở thành những giá trị hữu ích.
Công việc của Khoa học dữ liệu gồm quá trình thu thập dữ liệu và xử lý, tiến
hành phân tích chuyên sâu, cuối cùng là trình bày thành quả, đưa ra quyết định và hành
động.
Khoa học dữ liệu sẽ yêu cầu thực hiện:
Quan sát
Đặt câu hỏi
Hình thành các giả thuyết
Tạo các bài kiểm tra
Phân tích kết quả
Khuyến nghị thực tế
10
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
1.1.4.2 Ứng dụng của Khoa học dữ liệu trong ngành tài chính
Ngành khoa học dữ liệu là chìa khóa để tạo ra giao dịch dựa trên thuật toán.
Dựa vào quy trình phân tích dữ liệu cố định, những doanh nghiệp tài chính dễ dàng
tìm ra giải pháp cho dữ liệu họ nắm giữ, mang đến trải nghiệm và xây dựng quan hệ
khách hàng tốt hơn.
Đây là bước tiến vượt trội trong việc áp dụng phân tích dữ liệu người dùng qua
quy trình cá nhân hóa dữ liệu. Những kỹ thuật và thuật toán Machine Learning thúc
đẩy tương tác trên truyền thông đa phương tiện, tăng tốc độ tiếp nhận phản hồi, chăm
sóc khách hàng để phân tích hiệu quả.
1.1.4.3 Ứng dụng của Khoa học dữ liệu trong ngành sản xuất
Những nhà khoa học nắm giữ vai trò chủ chốt trong nền sản xuất vì bằng các
ứng dụng của Khoa học dữ liệu, nền sản xuất có thể cải thiện được khả năng tạo ra sản
phẩm, tối ưu hiệu suất, giảm chi phí và tăng lợi nhuận.
Hơn nữa, với công cụ như IoT, Khoa học dữ liệu cho phép nhưng doanh nghiệp
dự đoán được vấn đề, điều phối hệ thống và phân tích dòng dữ liệu của họ.
1.1.4.4 Ứng dụng của Data Science trong ngành giao thông vận tải
Một lĩnh vực ứng dụng của Khoa học dữ liệu quan trọng là ngành giao thông
vận tải. Khoa học dữ liệu giúp môi trường giao thông an toàn hơn cho người điều
khiển giao thông. Khoa học dữ liệu giúp các phương tiện giao thông được cải tiến,
thêm yếu tố tự động hóa.
Thông qua nhiều biến số của thông tin khách hàng, địa điểm, chỉ dẫn kinh tế,
logistics, phương tiện như xe cộ có thể nhận biết đoạn đường thuận lợi và chỉ hướng
cho người điều khiển một cách tự động.
1.1.4.5 Ứng dụng của Khoa học dữ liệu trong ngành y tế - chăm sóc sức khỏe
Từ khi có ứng dụng của Khoa học dữ liệu, ngành y tế và chăm sóc sức khỏe
cũng có những bước nhảy vọt quan trọng.
11
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
1.1.4.6 Ứng dụng của Khoa học dữ liệu trong Thương mại điện tử
Khoa học dữ liệu cũng có ý nghĩa đối với phân đoạn thị trường và chọn lọc đối
tượng khách hàng mục tiêu của các doanh nghiệp. Sử dụng Khoa học dữ liệu trong các
đề xuất nâng cao của hệ thống, nền tảng thương mại điện tử hoàn toàn có thể đưa ra
những thông tin giá trị và khả thi đối với doanh nghiệp để họ định hướng chiến lược
mua và bán của thị trường.
12
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Phân tích các đặc điểm khách hàng như độ tuổi, giới tính, thu nhập, nghề
nghiệp,... để xác định các nhóm khách hàng có khả năng cao hoặc thấp trong
việc rời bỏ thẻ tín dụng của công ty.
Phân tích các thông tin về lịch sử sử dụng dịch vụ của khách hàng, như số tiền
đã chi tiêu, tần suất giao dịch,... để đánh giá sự hài lòng và mức độ trung thành
của khách hàng.
Phân tích các yếu tố khác như chất lượng dịch vụ, thời gian phản hồi,... để đánh
giá mức độ hài lòng của khách hàng và tìm ra các vấn đề cần được cải thiện để
giữ chân khách hàng.
Áp dụng các phương pháp dự đoán khách hàng rời bỏ thẻ tín dụng của công ty,
như mô hình hồi quy logistic, mô hình cây quyết định,...
Đưa ra những chiến lược kinh doanh phù hợp để thu hút và giữ chân khách
hàng, như tăng cường chất lượng dịch vụ, đưa ra chính sách khuyến mãi,...
13
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
2.1 CÁC PHƯƠNG PHÁP CỦA EXEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descripitive Statistics
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần thống kê.
Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp
thoại Descriptive Statistics.
Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong tháng 03 tại siêu
thị ABC.
Hình 1. Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại Descriptive
Statistics
Trong hộp thoại Descriptive Statistics, nhập vào Input Range là cột chứa dữ liệu
thịt heo, Output Range là ô xuất dữ liệu. Confidence Level for Mean là 95%. Sau đó ta
sẽ nhận được bảng kết quả.
14
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu
như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.
15
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Và sau đó, ta được kết quả bảng tổng hợp số tiền mà mỗi nhân viên thực hiện được.
16
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau.
Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
o Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.
o Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về
cấu trúc.
17
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
18
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
19
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hình 11. Kết quả tổng hợp đa chiều với Pivot Table
2.1.2 Phương pháp về phân tích dự báo
2.1.2.1 Phương pháp trung bình trượt ( Moving Average )
Chức năng: Giúp làm giảm độ nhiễu của dữ liệu bằng cách loại bỏ các giá trị
nhiễu tạm thời và tạo ra một bảng trung bình có ý nghĩa hơn. Nó cũng giúp xác định
xu hướng và mức độ biến động của dữ liệu, giúp cho việc dự đoán và quản lý rủi ro trở
nên dễ dàng hơn.
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần dự báo.
Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại
Moving Average.
20
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
21
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Bước 2: Chọn lệnh Data → Data Analysis→ Exponential Smoothing, xuất hiện hộp
thoại Exponential Smoothing.
Ví dụ: Dự báo số liệu bán thịt gà tại siêu thị ABC có hệ số điều chỉnh bằng 0.3
Input Range là cột dữ liệu cần được dự báo. Hệ số san bằng Damping Factor là
a=0.7 � 1-a=0.3 . Ta được hệ số điều chỉnh là 0.3, ngày 17 lượng thịt gà dự đoán bán
được là 47.53 con gà.
22
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến
độc lập X.
Bước 4: Click chuột phải vào data series, chọn Add Trendline.
Hình 14. Tác động chi phí lên doanh thu thông qua biểu đồ
23
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại
Regression
Output Range: Vùng hoặc ô phía trên bên trái của vùng chứa kết quả
New Worksheet Ply: In kết quả ra một sheet khác
New Workbook: In kết quả ra một file Excel mới
Residuals: Sai số do ngẫu nhiên
Standardardlized Residuals: Chuẩn hóa sai số
Residuals Plots: Đồ thị sai số
Line Fit Plots: Đồ thị hàm hồi quy tuyến tính
24
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Input Y Range là cột doanh thu, Input X Range là cột chi phí. Độ tin cậy hồi quy
Confidence Level là 95%. Kết quả là a=1.7911 và b=3.8132
25
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
26
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
27
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
28
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
- Chức năng: Dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
+ Datasets: Chức năng giúp nạp dữ liệu và kết nối với các dữ liệu trên Internet được
chia sẻ miễn phí. Và đây cũng là nơi cung cấp các thông tin mô tả về bộ dữ liệu trong
phần Description.
30
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
+ Data Table: Nơi chứa và hiển thị dữ liệu có trong File trên bảng tính. Công cụ cũng
cho phép sắp xếp các dữ liệu theo thuộc tính và giúp ta chọn dữ liệu.
+ Data Sampler: Sử dụng lấy mẫu ngẫu nhiên từ dữ liệu ban đầu để phù hợp với nhu
cầu phân tích.
31
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
- Chức năng: Dùng để biểu diễn biểu đồ (chart) giúp người dùng quan sát dữ liệu được
tốt hơn.
32
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
- Chức năng: Gồm các hàm máy học (machine learning) phân lớp dữ liệu với các phương
pháp như Tree, Logistics Regression, SVM,… thường hay xuất hiện và sử dụng trong các bài
toán phân lớp dữ liệu.”
33
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
- Chức năng: Bao gồm các phương pháp đánh giá mô hình như : Test& Score, Prediction,
Confusion Matrix, … giúp người dùng dễ dàng đánh giá được mức độ hoàn hảo của mô hình
mình đang sử dụng cũng như giúp họ dự báo trước được một số trường hợp cần thiết.”
34
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
+ Confusion Matrix:“Là bước bổ sung tiếp theo của Test and Score, từ đó có thêm cơ
sở để đánh giá mô hình là tốt nhất của dự báo.”
36
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
+ Hierachical Clustering:“Đây là phần hiển thị các cụm của dữ liệu và ta có thể điều
chỉnh số cụm theo mong muốn của mình.”
+ K-mean: Để tìm cách phân chia dữ liệu thành các nhóm dựa trên đặc điểm của
chúng. Cho phép xác định số lượng nhóm, tùy chỉnh các tham số và hiển thị kết quả
phân cụm.
“Phân lớp dữ liệu là một quá trình phân một đối tượng dữ liệu vào một hay
nhiều lớp đã cho trước nhờ 1 mô hình phân lớp. Mô hình này được xây dựng trên một
tệp dữ liệu đã gán nhãn. Quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình
phân lớp dữ liệu.”
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Từ dữ liệu đầu vào, sử dụng các thuật toán để phân lớp dữ liệu, cụ thể hơn là
giải bài toán cho phương trình f(x)=y để tìm ra mô hình phân lớp.
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Từ dữ liệu đầu vào là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lí,
bộ dữ liệu này nhỏ hơn bộ dữ liệu training ( Chia tỉ lệ khoảng 70/30 ). Tuy
nhiên, lúc đưa vào mô hình phân lớp, ta bỏ lướt qua thuộc tính đã được gán
nhãn. So sánh thuộc tính gán nhãn và kết quả phân lớp để xác định tính đúng
đắn của mô hình.
38
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Dữ liệu đầu là dữ liệu khuyết thuộc tính cần dự lớp ( nhãn ). Mô hình sẽ tự
động gán nhãn cho các đối tượng đó dựa vào mô hình huấn luyện ở Bước 1.
Kinh tế học
39
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hồi quy Logistic là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một
tập các giá trị đầu vào và được biểu diễn dưới dạng vector.
Định nghĩa: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem
chúng như những các vector trong không gian và phân loại chúng vào các lớp
khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều
làm mặt phân cách các lớp dữ liệu.
Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng
cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.
Loại SVM Tính chất
Hard Margin SVM Hai lớp cần phân lớp có thể chia tuyến tính
Soft Margin SVM Hai lớp cần phân lớp là gần phân chia tuyến tính
Multi-class SVM Phân lớp đa lớp ( Biên giữa các lớp là tuyến tính )
Kenel SVM Dữ liệu là phi tuyến
Bảng 5. Các loại biến thể SVM
=> Mục đích cuối cùng của mô hình SVM là tạo ra 2 mặt phẳng giữa 2 lớp dữ liệu.
2.3.2.3 Cây quyết định ( Decision Tree )
40
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
41
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
- Chức năng: Là công cụ phân tích được sử dụng trong lĩnh vực đánh giá hiệu suất của
các mô hình phân loại. Được sử dụng để đánh giá mức độ dự đoán chính xác của một
mô hình phân loại bằng cách so sánh các giá trị dự đoán và nhãn thực tế của các mẫu
dữ liệu.
- Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ
nhất định ( 70/30; 60/40...).
- Phương pháp này thích hợp cho các dữ liệu nhỏ. Tuy nhiên, các mẫu có thể không
đại diện cho toàn bộ dữ liệu ( thiếu lớp trong tập thử nghiệm ).
- Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước ( gọi là
Fold ).
- Một trong các fold sẽ được sử dụng làm tập dữ liệu đánh giá và phần còn lại được sử
dụng làm tập huấn luyện. Quá trình lập lại cho đến khi tất cả các fold đều được dùng
làm tập dữ liệu đánh giá.
42
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
- ROC: Đồ thị đánh giá phân loại mô hình phân nhị. Tạo ra bằng cách dựa trên tỉ lệ
TPR ( True Positive Rate ) và FPR ( False Positive Rate ).
=> Một mô hình hiệu quả khi có FPR thấp và TPR cao hay ROC càng tiệm cận với
điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.
- AUC: Là diện tích nằm dưới đường cùng ROC. Giá trị này là một số dương nhỏ hơn
hoặc bằng 1.
=> Giá trị này càng lớn thì mô hình càng hiệu quả.
- Học có giám sát hay còn gọi là học có thầy là thuật toán dự đoán nhãn
(label)/đầu ra (output) của một dữ liệu mới dựa trên tập dữ liệu huấn luyện
mà trong đó mỗi mẫu dữ liệu đều đã được gán nhãn
- Ví dụ: Hồi quy tuyến tính cho các vấn đề hồi quy.
Nguyên lý “Khu rừng ngẫu nhiên” cho việc phân loại và hồi quy.
Hỗ trợ các hệ máy vector cho các vấn đề về phân loại.
43
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Phân cụm dữ liệu là quá trình nhóm ( gom cụm ) các đối tượng dữ liệu có đặc điểm
tương đồng vào các nhóm ( cụm ) tương ứng, giống nhau, có tính chất tương tự nhau.
Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp.
- Định nghĩa: Là quá trình xây dựng một cây phân cấp cho dữ liệu cần gom cụm, dựa
trên 2 tiêu chí:
Tạo ra ma trận khoảng cách giữa các phần tử (Ma trận tương đồng, ma trận
không tương đồng).
Hình 38. Đồ thị của quá trình phân chia hoặc hợp nhất theo phương pháp phân cụm
phân cấp
2.5.2.2 Phương pháp K-Means
- Định nghĩa: K-Means là một thuật toán rất quan trọng và được sử dụng phổ biến
trong kỹ thuật phân cụm. Ý tưởng chính của thuật toán K-Means là tìm cách nhóm một
đối tượng cho trước thành K cụm, trong đó K là số cụm được xác định trước và K là số
nguyên dương, sao cho kết quả là tổng bình phương khoảng cách giữa các đối tượng
đến trung tâm nhóm (centroid) là nhỏ nhất.
Để hiểu rõ về phương pháp này, cần hiểu rõ thuật toán phân cụm K-means chủ yếu
thực hiện hai nhiệm vụ như sau:
“Xác định giá trị tốt nhất cho K điểm trung tâm hoặc trọng tâm bằng quy trình
lặp.”
45
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
“Chỉ định mỗi điểm dữ liệu cho trung tâm K gần nhất của nó. Những điểm dữ
liệu gần trung tâm K cụ thể sẽ tạo ra một cụm.”
Hình 39. Sơ đồ giải thích hoạt động của thuật toán k-Means
Sau khi biết rõ được nhiệm vụ của thuật toán, ta có thể dễ dàng biết được hoạt động
của thuật toán K-Means diễn ra như thế nào. Các bước sau đây sẽ giải thích kĩ hơn về
cách thức mà thuật toán K-Means hoạt động:
Bước 1: “Chọn số K để quyết định số cụm.”
Bước 2: “Chọn ngẫu nhiên K điểm hoặc trọng tâm. (Nó có thể khác với tập dữ
liệu đầu vào).”
Bước 3: “Gán từng điểm dữ liệu cho trọng tâm gần nhất của nó, tâm này sẽ tạo
thành các cụm K được xác định trước.””
Bước 4: “Tính toán phương sai và đặt trọng tâm mới của mỗi cụm.”
Bước 5: “Lặp lại bước 3, nghĩa là gán lại từng điểm dữ liệu cho tâm mới gần
nhất của mỗi cụm.”
Bước 6: “Nếu có bất kỳ sự chỉ định lại nào xảy ra, hãy chuyển sang bước 4, nếu
không thì hãy chuyển sang hoàn tất.”
Bước 7: “Mô hình đã sẵn sàng.”
Ưu điểm Nhược điểm
K-means là thuật toán đơn giản, dễ dàng Số K cần được xác định trước. Ở nhiều
sử dụng tốt cho các bài toán phân cụm. bài toán, việc xác định được K không
phải là dễ dàng, khi đó K-means sẽ
46
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con
biểu diễn một cụm.
Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo
phân cụm) sao cho:
Mỗi đối tượng thuộc ít nhất một cụm, các phần tử trong cụm có sự tương tự
nhau.
Mỗi cụm có ít nhất một phần tử.
Các thuật toán điển hình: K-means, K-mediods, Fuzzy C-means.
2.5.3 Đánh giá mô hình phân cụm
2.5.3.1 Đánh giá ngoài (external validation)
Là kết quả đánh giá phân cụm dựa vào cấu trúc, xu hướng phân cụm được chỉ
định trước cho tập dữ liệu.
2.5.3.2 Đánh giá nội bộ (internal validation)
Là kết quả đánh giá phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa
trên các vector chính của dữ liệu thông qua ma trận xấp xỉ.
Tối ưu hóa các chỉ số nội bộ: Độ nén, độ phân tách.
2.5.3.3 Đánh giá tương đối (relative validation)
Đánh giá kết quả gom cụm bằng việc so sánh với:
+ Kết quả gom cụm ứng với các bộ trị thông số khác nhau.
+ Kết quả gom cụm của các phương pháp khác.
47
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
+ “ Attrition_Flag ” là biến phân loại với các giá trị “ Attrited Customer ”, “
Existing Customer ”.
48
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
+ “ Gender ” là biến phân loại với các giá trị “ F ” viết tắt của từ Female, “ M ” viết
tắt của từ Male. Để sử dụng dữ liệu này trong các thuật toán máy học, ta cần biến
đổi phân loại này thành dạng số học bằng cách sử dụng One-hot encoding.
Hình 42. Nạp dữ liệu Credit Card customers vào trong File
o Trong hộp thoại Continuize -> Chọn Attrition_Flag và Gender -> One-hot
encoding để chuyển đổi thành dạng số học.
o Chọn Education Level, Marital_Status, Income_Category, Card_Category ->
Chọn Keep categorical để giữ nguyên thuộc tính trong bảng.
49
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
o Ta loại bỏ 2 cột cuối vì không cần thiết tới đề bài, trong cột Attrition_Flag và
Gender giữ lại 1 cột làm chuẩn.
o Chọn Select Columns -> Chọn tất cả các cột ( Trừ 2 cột cuối và Attrition_Flag =
50
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
3.1.2 Mô tả bộ dữ liệu
Bộ dữ liệu được tổng hợp từ nhiều khách hàng trong lĩnh vực tài chính:
https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers
Dữ liệu thô gồm 10127 mẫu dữ liệu ( instances ) và 21 thuộc tính ( features ):
51
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
52
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
học vấn
Doctorate = Tốt nghiệp
tiến sĩ hoặc có bằng tiến
sĩ
Post-Graduate = Sau đại
học
Unknown = Không biết
Marital_Status Tình trạng hôn nhân 1 chuỗi kí tự chữ
Married: Đã kết hôn
Single: Độc thân
Divorced: Ly hôn
Unknown: Không biết
Income_Category Mức thu nhập hàng năm của 1 chuỗi kí tự số
khách hàng
Card_Category Loại thẻ tín dụng 1 chuỗi kí tự chữ
Blue = Thẻ cơ bản
Silver = Thẻ bạc
Gold = Thẻ vàng
Platinum = Thẻ kim
cương
Months_on_book Thời gian sỡ hữu thẻ tín 1 chuỗi kí tự số
dụng từ khi mở thẻ đến thời
điểm được cập nhật dữ liệu
Total_Relationship_Count Tổng số tài khoản mà khách 1 chuỗi kí tự số
hàng đang sở hữu tại ngân
hàng
Months_Inactive_12_mon Số tháng mà khách hàng 1 chuỗi kí tự số
không hoạt động trên tài
khoản thẻ tín dụng trong
vòng 12 tháng gần nhất.
Contacts_Count_12_mon Số lượng lần liên hệ của 1 chuỗi kí tự số
khách hàng với ngân hàng
trong vòng 12 tháng gần
nhất.
53
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
3.1.3 Thống kê mô tả
Giới tính
54
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hình 47. Biểu đồ tròn thể hiện tỉ lệ giới tính của khách hàng sử dụng thẻ tín dụng
Nhìn qua sơ đồ, ta thấy tỷ lệ khách hàng nữ sử dụng thẻ tín dụng nhiều hơn khách
hàng nam (Nữ chiếm: 53%, Nam chiếm 47%).
Hình 48. Lượng khách hàng ở lại và rời đi thông qua giới tính
Lượng khách hàng nữ ở lại và tiếp tục sử dụng thẻ tín dụng chiếm số lượng nhiều hơn
khách hàng nam.
Trung bình tổng số tiền giao dịch của khách hàng dựa trên hoạt động của
55
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
khách hàng
Hình 49. Biểu đồ tròn về trung bình tổng số tiền giao dịch của khách hàng dựa trên
hoạt động của khách hàng
Qua sơ đồ ta thấy, số tiền giao dịch trung bình mà khách hàng rời đi ít hơn số tiền mà
khách hàng đang ở lại. Điều này thể hiện rằng lượng khách hàng rời đi có xu hướng
chi tiêu ít hơn và có khả năng sẽ không tạo ra lợi nhuận cao cho doanh nghiệp so với
khách hàng đang ở lại.
Độ tuổi
56
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hình 50. Biểu đồ thể hiện khách hàng có độ tuổi lớn nhất, nhỏ nhất
Hình 53.Biểu đồ cột thể hiện trình độ học vấn của các khách hàng
58
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Biểu đồ cho thấy khách hàng đa số đều đã tốt nghiệp đại học là 3125 người
chiếm 31%. Tiếp đến là khách hàng đã tốt nghiệp trung học là 2010 người chiếm 20%
trong tổng số.
Hình 54. Biểu đồ cột thể hiện phần trăm khách hàng rời đi phân theo trình độ học vấn
Loại thẻ
59
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hình 55. Biểu đồ cột về số lượng khách hàng sử dụng các loại thẻ
Khách hàng tập trung chủ yếu là những người sử dụng loại thẻ cơ bản, và chỉ có
duy nhất 20 khách hàng sử dụng thẻ kim cương.
60
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Thu nhập
Hình 57. Sơ đồ cột thể hiện tổng số khách hàng rời đi dựa trên mức thu nhập và giới
tính
Nhìn qua sơ đồ, số khách hàng rời đi có mức thu nhập không cụ thể “ Unknown
” ở nữ nhiều hơn số khách hàng nam. Đa số khách hàng nữ rời đi có mức thu nhập ít
hơn 40k$ nhiều hơn so với khách hàng nam.
3.2 PHÂN LỚP DỮ LIỆU
61
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
62
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
- Tập dữ liệu sau khi lấy mẫu huấn luyện sẽ có 7089 mẫu dữ liệu, 21
biến và không có dữ liệu bị lỗi.
- âLấy tập dữ liệu 30% mẫu dữ liệu từ file dữ liệu đã tiền dữ liệu trước
đó (Credit-Card-customers-đã-xử-lí-dữ-liệu.xlsx) và lưu dưới file
Excel (Credit-Card-customers-đã-xử-lí-dữ-liệu-30%.xlsx). Từ tập dữ
liệu 30% đó lấy ra tập dữ liệu dự báo chọn lấy 100 mẫu dữ liệu để
đem đi dự báo và lưu dưới file Excel (Credit-Card-customers-đã-xử-
lí-dữ-liệu- forecast.xlsx).
63
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Sử dụng các phương pháp phân lớp, Test and Score, và ma trận nhầm lẫn
(Confusion Matrix) để so sánh đánh giá các phương pháp. Để lựa chọn ra
phương pháp tốt nhất, chính xác nhất phục vụ cho việc dự báo.
64
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Tại bảng Test and Score, chọn chia tỷ lệ lấy mẫu, chọn tỷ lệ lấy mẫu tại Cross
Validation hoặc Random Slamping để có được chỉ số đẹp nhất.
Hình 63. Kết quả mẫu khi chia mẫu dữ liệu 5 phần
67
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Diện tích đường cong (AUC) là 0.812 đạt được chỉ số tốt nhất trong các
trường hợp khác đã ví dụ ở trên.
68
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hình 68. Kết quả ma trận nhẫm lẫn của phương pháp Confusion Matrix
Hình 69. Kết quả ma trận nhẫm lẫn của phương pháp SVM
Hình 70. Kết quả ma trận nhẫm lẫn của phương pháp Logistic
69
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
=> Nhận xét: Với kết quả của Ma trận nhầm lẫn ( Confusion Matrix) chỉ cần quan sát
vào tỷ lệ sai lầm loại 1 và tỷ lệ sai lầm loại 2, loại mô hình tốt nhất là mô hình có tỷ lệ
sai lầm loại 1 và tỷ lệ sai lầm loại 2 thấp nhất. Nhưng tỷ lệ sai lầm loại 2 quan trọng
hơn. Nên nhìn vào kết quả ta thấy với mô hình Cây quyết đinh ( Decision Tree) là mô
hình có tỷ lệ sai lầm loại 2 nhỏ nhất là 5.7%. Nên phương pháp Cây quyết đinh
( Decision Tree) là phù hợp nhất.
ROC Analysis
70
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Phương pháp này có AUC ( Area Under The Curve ) hay diện tích nằm
dưới đường cong ROC là lớn nhất nên là mô hình tốt nhất.
71
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
72
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Sử dụng Prediction để dự báo dữ liệu theo phương pháp Cây quyết định
(Decision Tree)
73
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hình 76. Kết quả dự báo của 100 mẫu dữ liệu (1)
Hình 77. Kết quả dự báo của 100 mẫu dữ liệu (2)
74
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Hình 78. Kết quả dự báo của 100 mẫu dữ liệu (3)
Nhóm đã làm về phân tích và dự đoán khả năng rời bỏ thẻ tín dụng dựa trên bộ
dữ liệu phân tích Credit Card customers trên Kaggle. Nhóm xây dựng mô hình dự báo
khả năng rời đi của khách hàng là khách hàng đó rời đi hay đang ở lại. Sau khi tiến
hành xử lý dữ liệu, huấn luyện dữ liệu, phân lớp dữ liệu bằng phần mềm Orange thì
chọn ra được mô hình Cây quyết định ( Decision Tree ) là mô hình tốt nhất để phân
lớp dữ liệu, với độ chính xác lên đến 92,6% và sai lầm loại 2 là 5,7%.
75
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
Mục tiêu của nhóm là dự báo về khả năng khách hàng rời đi hay ở lại. Các phần
lý thuyết được đề cập ở Chương 2 được áp dụng để xây dựng mo hình dự đoán có thể
đảm bảo các ước tính từ phân tích và có tính chính xác cao.
Mô hình này có thể được dùng để dự đoán khách hàng rời bỏ thẻ tín dụng dựa
trên các yếu tố khác nhau như độ tuổi, giới tính, trình trạng hôn nhân, trình độ học vấn,
mức thu nhập của khách hàng,...
Từ đó có thể giúp cho các công ty đưa ra các quyết định phù hợp. Chẳng hạn:
- Phân bố giới tính của khách hàng gần như giống nhau. Độ tuổi chung của khách
hàng là từ 40-55 và độ tuổi trung bình là 46. Những người ở độ tuổi trung niên
là đối tượng khách hàng nhiều nhất của ngân hàng này. Bằng cách này, ngân
hàng cung cấp các chiến dịch đặc biệt cho những khách hàng này.
- Khách hàng nói chung đang sử dụng thẻ “ Blue ”. Ý nghĩa của nó, hầu hết trong
số họ sử dụng thẻ cơ bản. Mục tiêu cần giải quyết là làm thế nào ngân hàng có
thể tăng hạng thẻ khác theo thu nhập của khách hàng?
- Trình độ học vấn phổ thông ở mức "Graduate" tốt nghiệp đại học, nghĩa là hầu
hết khách hàng có thể biết cơ bản về kinh tế.
- Khách hàng rời bỏ có trình độ học vấn cao - Trình độ học vấn của khách hàng
rời bỏ chiếm tỷ lệ cao là Cao học (21,06%), tiếp theo là Sau đại học (17,83%).
- Hạn mức tín dụng của khách hàng Nam cao hơn khách hàng Nữ. Điều đó có
nghĩa là Nam đang sử dụng thẻ tín dụng nhiều hơn Nữ. Làm thế nào để có thể
thuyết phục khách hàng Nữ sử dụng thẻ tín dụng nhiều hơn.
- Ngoài ra, loại thu nhập cao nhất chỉ xảy ra bởi khách hàng Nam. Điều đó có
nghĩa là, khách hàng nam có thể biết hầu hết mọi thứ về đầu tư hoặc những thứ
tương tự.
- Phân tích hồ sơ khách hàng: Sử dụng dữ liệu khách hàng có sẳn, phân tích hồ
76
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
sơ khách hàng để hiểu rõ hơn về nhu cầu của từng nhóm khách hàng. Các yếu
tố như độ tuổi, thu nhập, loại thẻ sử dụng,... Dựa trên phân tích này, có thể sẽ
tạo ra các chiến lược tiếp cận phù hợp và phát triển của loại thẻ tín dụng, đáp
ứng nhu cầu của từng nhóm khách hàng.
- Xử lí rủi ro khách hàng rời bỏ: Dựa trên thông tin dữ liệu, mình nhanh chóng
phát hiện khách hàng có nguy cơ rời bỏ và áp dụng các chương trình để giữ
chân khách hàng. Điều này có thể bao gồm liện hệ trực tiếp với khách hàng,
cung cấp ưu đãi đặc biệt, tạo sự liên kết bằng cách cũng cấp dịch vụ tốt hơn và
thực hiện các biện pháp khắc phục.
- Xây dựng chương trình khuyến mãi cho khách hàng trung thành: Tạo ra chương
trình khách hàng trung thành để tăng cường sự gắn kết của khách hàng và
khuyến khích họ tiếp tục sử dụng thẻ tín dụng. Chương trình có thể bao gồm
các ưu đãi đặc biệt, điểm thưởng hoặc các chường trình cashback cho việc sử
dụng thẻ. Đồng thời, chú trọng đến chất lượng dịch vụ dành cho khách hàng.
Đây sẽ là yếu tố quan trọng để duy trì lòng trung thành của khách hàng.
77
Báo cáo đồ án học phần Khoa học dữ liệu (DS)
1. TS. Nguyễn Quốc Hùng, slide bài giảng và các tài liệu môn
Khoa học dữ liệu
2. Admin. (2022). Khái niệm biến định tính, định lượng trong xử
lý dữ liệu. XLDL. https://xulydinhluong.com/khai-niem-bien-
dinh-tinh-dinh-luong-la-gi/
3. ThuyDinh, A. (2021). Dữ liệu là gì? Tầm quan trọng của dữ
liệu khách hàng đối với doanh nghiệp. A1 DigiHub.
https://a1digihub.com/du-lieu-la-gi/
78
Báo cáo đồ án học phần Khoa học dữ liệu (DS)