Professional Documents
Culture Documents
TIỂU LUẬN
MÔN KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING
QUA CÁC THUẬT TOÁN TRÊN ORANGE
LỜI MỞ ĐẦU
LỜI CẢM ƠN
DANH MỤC BẢNG, HÌNH ẢNH
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu về Khoa học dữ liệu:...............................................................................1
1.2. Giới thiệu về đề tài..................................................................................................2
1.2.1. Lý do chọn đề tài...............................................................................................2
1.2.2. Mục tiêu nghiên cứu.........................................................................................2
1.2.3. Phương pháp thực hiện.....................................................................................3
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ
CÁC PHƯƠNG PHÁP SỬ DỤNG
2.1. Tổng quan về phần mềm Orange:............................................................................3
2.2 Tổng quan về các phương pháp sử dụng...................................................................4
2.2.1. Tiền xử lý dữ liệu..............................................................................................4
2.2.1.1. Làm sạch dữ liệu........................................................................................4
2.2.1.2. Tích hợp và chuyển đổi dữ liệu..................................................................6
2.2.1.3. Rút gọn dữ liệu...........................................................................................7
2.2.2. Phân cụm..........................................................................................................7
2.2.2.1. Định nghĩa..................................................................................................7
2.2.2.2. Đặc điểm....................................................................................................8
2.2.2.3. Các ứng dụng của phân cụm dữ liệu...........................................................8
2.2.2.4. Các phương pháp phân cụm.......................................................................9
2.2.3. Phân lớp..........................................................................................................12
2.2.3.1. Định nghĩa................................................................................................12
2.2.3.2. Quá trình phân lớp dữ liệu:.......................................................................12
2.2.3.3. Các vấn đề liên quan đến phân lớp dữ liệu...............................................12
2.2.3.4. Môt số phương pháp phân lớp..................................................................13
2.2.3.5. Các phương pháp đánh giá mô hình phân lớp..........................................13
2.2.3.6. Các ứng dụng phân lớp dữ liệu trong kinh tế............................................14
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN
4.1. Tiền xử lý dữ liệu..................................................................................................16
4.1.1. Chọn số lượng khảo sát...................................................................................16
4.1.2. Loại bỏ các biến không phù hợp.....................................................................17
4.2. Phân cụm dữ liệu...................................................................................................19
4.2.1. Phương pháp Hierarchical Clustering.............................................................20
4.2.2. Phương pháp K-Mean.....................................................................................21
4.3. Phân lớp dữ liệu.....................................................................................................25
CHƯƠNG 5: KẾT LUẬN
5.1. Kết luận................................................................................................................29
5.2. Hướng phát triển....................................................................................................29
TÀI LIỆU THAM KHẢO
LỜI CẢM ƠN
Hoàn thành được bài báo cáo về đề tài “Phân tích bộ dữ liệu Bank Marketing qua các
thuật toán trên Orange” không chỉ có riêng sự cố gắng của các thành viên trong nhóm
mà còn nhờ vào sự hỗ trợ của rất nhiều thầy cô. Chúng tôi xin được gửi lời cảm ơn chân
thành đến:
Thầy Trương Việt Phương - Giảng viên môn Khoa học dữ liệu đã tận tình
hướng dẫn chúng em về cách thức tiến hành đề tài nghiên cứu, để có thể
hoàn thành tốt bài báo cáo này.
DANH MỤC BẢNG, HÌNH ẢNH
Bảng 1: Phân loại các phương pháp phân cụm.
Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu.
Hình 2: Kết quả xử lý “Role” của các thuộc tính.
Hình 3: Bảng Select Columns loại bỏ các biến kinh tế không liên quan
Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange.
Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange.
Hình 6: Silhouette Plot thể hiện phân cụm theo phương pháp Hierarchical Clustering.
Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi
so sánh với nhãn ban đầu.
Hình 8: Bảng kết quả phân cụm bằng phương pháp K-Mean trên Orange.
Hình 9: Silhouette Plot thể hiện phân cụm theo phương pháp K-Mean.
Hình 10: Bảng dữ liệu excel đã phân cụm theo phương pháp K-Mean khi so sánh với
nhãn ban đầu.
Hình 11: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange.
Hình 12: Bảng kết quả cây quyết định.
Hình 13: Bảng đánh giá Test & Score.
Hình 14: Bảng kết quả ma trận nhầm lẫn của phương pháp hồi quy logistic.
Hình 15: Bảng kết quả dự báo bằng phương pháp hồi quy logistic.
Hình 16: Bảng kết quả dự báo bằng bằng phương pháp hồi quy logistic xuất ra excel.
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1
(Programming), kiến thức chuyên ngành (Domain Knowledge) và một số kỹ năng quan
trọng khác.
2
So sánh dựa trên nhãn “Subscribed” (đã đăng kí) cho việc ký gửi tiền.
Dự đoán liệu khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay không.
Cung cấp cái nhìn tổng quan về hoạt động của ngân hàng, từ đó đưa ra nhận xét
đánh giá dựa trên dữ liệu đã phân tích.
3
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ
CÁC PHƯƠNG PHÁP SỬ DỤNG
4
liệu. Quá trình tiền xử lý dữ liệu bao gồm: Làm sạch dữ liệu, tích hợp và biến đổi dữ liệu,
rút gọn dữ liệu.
5
Phương pháp hồi quy tuyến tính tìm một đường thẳng tối ưu để khít với 2 thuộc
tính (hay 2 biến), do đó một thuộc tính có thể dùng để dự đoán thuộc tính còn lại.
+ Phân cụm
Các giá trị ngoại lai có thể được dò bởi sự phân cụm, trong đó các giá trị được tổ
chức thành các nhóm, hay còn gọi là các "cluster". Bằng trực giác, các giá trị rơi ra ngoài
tập hợp của các cluster có thể được xem như là các giá trị ngoại lai.
6
Kết hợp, trong đó các phép toán tóm tắt (summary) hay các phép toán kết hợp
(aggregation) được áp dụng cho dữ liệu. Ví dụ, dữ liệu bán hàng hàng ngày có thể được
tính toán theo tháng hay theo năm. Bước này có thể sử dụng trong việc xây dựng khối dữ
liệu của dữ liệu ở nhiều mức.
Khái quát hóa dữ liệu, trong đó dữ liệu ở mức khái niệm thấp hay dữ liệu thô được
tổng hợp ở khái niệm mức cao hơn.
Chuẩn hóa, trong đó thuộc tính dữ liệu được tính tỉ lệ sao cho nó nằm trong một
khoảng nhỏ nào đó ví dụ như -1 đến 1; 0 đến 1.
7
2.2.2. Phân cụm
8
Bảo hiểm: nhận dạng nhóm tham gia bảo hiểm có chi phí yêu cầu bồi thường trung
bình cao, xác định gian lận trong bảo hiểm thông qua các mẫu cá biệt.
Quy hoạch đô thị: nhận dạng các nhóm nhà theo kiểu, vị trí địa lý, giá trị,... nhằm
cung cấp thông tin cho quy hoạch đô thị.
Khai phá Web (Web mining): phân cụm dữ liệu có thể khám phá các nhóm tài liệu
quan trọng, có nhiều ý nghĩa trong môi trường web. Các lớp tài liệu này hỗ trợ trong việc
phát hiện ra thông tin.
Dựa trên phân cấp Phân cấp các đối tượng dựa trên một Diana, Agnes,
(Hierarchical approach) số tiêu chí. BIRCH,
CAMELEON.
Dựa trên phân hoạch Xây dựng các phân hoạch khác nhau K-means, K-medoids,
(Partitioning approach) và đánh giá chúng. Sau đó, tìm cách Fuzzy C-means.
tối thiểu hóa tổng bình phương độ
lỗi.
Dựa trên mật độ (Density- Dựa trên các kết nối giữa các đối DBSCAN, OPTICS,
based approach) tượng và hàm mật độ. DenClue.
Dựa trên lưới (Grid-based Dựa trên cấu trúc độ chi tiết nhiều STING, Wave
approach) cấp. Cluster, CLIQUE.
Dựa trên mô hình (Model- Giả định mỗi cụm có một mô hình và EM, SOM, COBWEB
based) tìm cách fit mô hình đó vào mỗi
cụm.
Bảng 1: Phân loại các phương pháp phân cụm.
Hai phương pháp phân lớp tiêu biểu nhất là phương pháp phân cấp và phương pháp
phân hoạch.
9
a) Phương pháp phân cấp
Quá trình thực hiện phân cụm theo phương pháp này được mô tả bởi một đồ thị có
cấu trúc cây, vì vậy nó còn được gọi là phương pháp phân cụm cây. Trong đó, tập dữ liệu
được sắp xếp thành một cấu trúc có dạng hình cây gọi là cây phân cụm. Cây này có thể
được xây dựng nhờ kỹ thuật đệ quy theo hai phương pháp tổng quát: phương pháp dưới
lên (bottom up) và phương pháp trên xuống (top down). Các thuật toán theo phương pháp
dưới lên còn gọi là các thuật toán trộn. Ban đầu, người ta khởi tạo mỗi đối tượng làm một
cụm và dùng thủ tục đệ quy để trộn hai cụm gần nhất với nhau trong mỗi bước để có kết
quả chia cụm mới. Thủ tục đệ quy kết thúc ta có tập duy nhất là toàn bộ dữ liệu. Các
thuật toán phân biệt với nhau ở tiêu chuẩn đánh giá hai cụm nào là gần nhất dựa trên
khoảng cách các cụm chọn trước. Quy tắc để chọn các cụm trộn này được gọi là quy tắc
liên kết. Quá trình thực hiện thuật toán được biểu diễn thành cây và quyết định phân dữ
liệu thành bao nhiêu cụm sẽ do người dùng quyết định. Người dùng cũng dựa trên cây
này để nhận được kết quả phân cụm.
Phương pháp trên xuống còn gọi là phương pháp tách, được thực hiện theo trình tự
ngược với phương pháp trộn. Trong mỗi bước người ta chọn một cụm để tách thành cụm
con theo quy tắc đánh giá và tách cụm cho trước. Phương pháp này phức tạp và lâu hơn
phương pháp dưới lên và thường chỉ được áp dụng khi người ta có thêm thông tin về
phân bố cụm để có phương pháp tách phù hợp. Ta không đi sâu vào phương pháp này
Các quy tắc liên kết:
Với metric trong không gian đặc trưng xác định bởi một chuẩn ||.|| đã có, sau đây là
một số quy tắc liên kết thông dụng.
Liên kết đơn (Single link)
Ký hiệu là NN (Nearest Neighbour). Trong quy tắc này, khoảng cách giữa hai cụm
được xác định nhờ khoảng cách nhỏ nhất giữa hai mẫu (đối tượng) tương ứng với hai
cụm:
d ( ci , c j )=min {∥ x − y ∥ : x ∈c i , x ∈c j }
Liên kết đầy (Complete link)
10
Ký hiệu là FN (Furthest Neighbour). Trong quy tắc này, khoảng cách giữa hai cụm
được xác định nhờ khoảng cách lớn nhất giữa hai mẫu tương ứng với hai cụ:
d ( ci , c j )=max {∥ x− y ∥ : x ∈c i , y ∈ c j }
Liên kết trung bình giữa các nhóm (Average link)
Ký hiệu là UPGMA (Un-Weighted Pair-Group Method using Arithmetic averages).
Như tên gọi của nó, khoảng cách 𝑑(𝑐𝑖 ,𝑐𝑗) là trung bình của khoảng cách giữa các cặp đối
tượng thuộc hai cụm tương ứng:
1
d ( ci , c j )=
ni n j ∑ ∑ ∥ x− y ∥
x ∈c
i x∈ c j
Trong đó: 𝑛𝑖 và 𝑛𝑗 là số phần tử của các cụm 𝑐𝑖 , 𝑐𝑗 tương ứng.
Liên kết trung bình trong phạm vi nhóm (Weighted link)
Ký hiệu là UWGMA (un-weighted within-group method using arithmetic averages).
Trong quy tắc này, khoảng cách 𝑑(𝑐𝑖 ,𝑐𝑗) là trung bình của khoảng cách giữa các đối
tượng trong nhóm mới sau khi đã trộn hai nhóm:
1
d ( ci , c j )= ∑ ∥x − y ∥
c (ni +n j ,2) x, y ∈c ∪c i j
11
được phân thành k cụm sao cho tổng bình phương độ lệch của mỗi mẫu tới tâm của nó là
nhỏ nhất. Và K-Mean là thuật toán điển hình cho cho phương pháp phân cụm này.
12
2.2.3.3. Các vấn đề liên quan đến phân lớp dữ liệu
Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thể thiếu và có
vai trò quan trọng quyết định tới sự áp dụng được hay không của mô hình phân lớp. Quá
trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính hiệu quả và khả năng mở rộng
được của mô hình phân lớp.
Làm sạch dữ liệu: Làm sạch dữ liệu liên quan đến việc xử lý với lỗi và giá trị thiếu
trong tập dữ liệu ban đầu
Phân tích sự cần thiết của dữ liệu : nhằm mục đích loại bỏ những thuộc tính không
cần thiết, dư thừa khỏi quá trình học vì những thuộc tính đó sẽ làm chậm, phức tạp và gây
ra sự hiểu sai trong quá trình học dẫn tới một mô hình phân lớp không dùng được.
13
Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ
bao nhiêu mẫu có đúng.
ROC và AUC:
+ ROC : Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân
loại nhị phân.
+ AUC: Là diện tích nằm dưới đường cong ROC. Giá trị này là một số dương nhỏ
hơn hoặc bằng 1. Giá trị này càng lớn thì mô hình càng tốt.
2.2.3.6. Các ứng dụng phân lớp dữ liệu trong kinh tế
Tài chính ngân hàng: dự báo chứng khoán, xếp hạng tín dụng cá nhân và tổ chức,
đánh giá rủi ro tài chính,...
Sale & Marketing: dự báo doanh thu tương lai, dự báo khách hàng trung thành,....
Kinh tế học: dự báo khủng hoảng kinh tế, cung cầu,...
14
3. Marital là tình trạng hôn nhân; được định dạng là biến định tính bao gồm ly hôn
(divorced), đã kết hôn (married), độc thân (single), chưa biết (unknown) .
4. Education là trình độ học vấn; được định dạng là biến định tính bao gồm 4 năm
tiểu học (basic.4y), 6 năm tiểu học (basic.6y), Trung học cơ sở (basic.9y), trung học phổ
thông (high school), không có đi học (illiterate), khoá học chuyên nghiệp (professional
course), bậc đaị học (university degree), chưa biết (unknown).
5. Default là có tín dụng trong tình trạng vỡ nợ không?; được định dạng là biến định
tính bao gồm hai giá trị có (yes), không (no) và chưa biết (unknown).
6. Housing là có khoản vay mua nhà không?; được định dạng là biến định tính bao
gồm hai giá trị có (yes), không (no) và chưa biết (unknown).
7. Loan là có khoản vay cá nhân không?, được định dạng là biến định tính bao gồm
hai giá trị có (yes), không (no) và chưa biết (unknown).
8. Contact là hình thức liên lạc; được định dạng là biến định tính bao gồm điện thoại
di động (cellular) và điện thoại có dây (telephone).
9. Month là tháng liên lạc cuối cùng trong năm; được định dạng là biến định tính bao
gồm từ tháng 1 đến tháng 12, lận lượt là jan, feb, mar, apr, may, jun, jul, aug, sep, oct,
nov, dec.
10.Day of week là ngày liên lạc cuối cùng trong tuần; được định dạng là biến định
tính bao gồm thứ hai (mon), thứ ba (tue), thứ tư (wed), thứ năm (thu), thứ sáu (fri).
11.Duration là thời lượng liên lạc cuối cùng; được định dạng là biến định lượng và
được tính bằng giây Lưu ý quan trọng: thuộc tính này ảnh hưởng nhiều đến mục tiêu đầu
ra vì nếu thời lượng liên lạc bằng 0 thì kéo theo biến mục tiêu cũng bằng 0 và thời lượng
liên lạc được xác định thì biến mục tiêu cũng sẽ xác định được.
12.Campaign là số lần liên lạc được thực hiện đối với khách hàng trong chiến dịch
này; được định dạng là biến định lượng bao gồm cả liên hệ cuối cùng.
13.Pdays số ngày sau khi khách hàng được liên hệ lần cuối từ một chiến dịch trước
đó; là biến định lượng và giá trị 999 có nghĩa là khách hàng chưa được liên hệ trước đó.
14.Previous số lần liên lạc đã thực hiện đối với khách hàng trong chiến dịch trước;
được định dạng là biến định lượng.
15
15.Poutcome kết quả của chiến dịch tiếp thị trước đó; là biến định tính bao gồm thất
bại (failure), không tồn tại (nonexistent), thành công (success).
16.emp.var.rate là tỷ lệ thay đổi việc làm - chỉ báo hàng quý.
17.cons.price.idx chỉ số giá tiêu dùng - chỉ báo hàng tháng.
18.cons.conf.idx chỉ số niềm tin của người tiêu dùng - chỉ báo hàng tháng.
19.euribor3m lãi suất euribor 3 tháng - chỉ số hàng ngày.
20.nr.employed số lượng nhân viên - chỉ số hàng quý .
Các biến thuộc thuộc tính bối cảnh kinh tế và xã hội đều được định dạng là biến định
lượng.
21.Subscribed là khách hàng đã đăng ký tiền gửi có kỳ hạn chưa? Biến này được định
dạng là biến mục tiêu bao gồm có đăng ký tiền gửi có kỳ hạn (yes) và không đăng kí (no).
16
Dữ liệu gốc ban đầu có hơn 40000 kết quả khảo sát (không có dữ liệu bị thiếu). Số
lượng trên là quá lớn để tiến hành khai thác, làm mất nhiều thời gian, đặc biệt khi tiến
hành phân cụm với phương pháp K- means thì chỉ chạy được tối đa 5000 instances. Vì
thế nhóm tác giả sử dụng công cụ Data Sampler để lấy ngẫu nhiên 4999 khảo sát để thỏa
điều kiện nói trên và tiến hành dễ dàng hơn.
Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu.
17
4.1.2. Loại bỏ các biến không phù hợp
Dữ liệu nhằm mục đích tìm hiểu sự lựa chọn của khách hàng về gửi tiền có kỳ hạn
nên ta lựa chọn biến Subscribed (đã đăng ký) là biến mục tiêu Target.
Hình 3: Bảng Select Columns loại bỏ các biến kinh tế không liên quan.
18
Từ hình 3 cho thấy: Đối với các biến emp.var.rate, cons.price.idx, cons.conf.idx,
euribor3m, nr.employed, đây là các biến liên quan đến tình hình chung bối cảnh kinh tế -
xã hội, không ảnh hưởng đến quyết định gửi tiền của khách hàng, nên nhóm quyết định
loại bỏ bằng công cụ Select Columns.
Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange.
4.2. Phân cụm dữ liệu
19
Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange.
4.2.1 Phương pháp Hierarchical clustering
Hình 6: Silhouette Plot thể hiện phân cụm theo phương pháp Hierarchical Clustering.
Với số cụm là 2, nhóm thực hiện phân cụm bằng phương pháp pháp Hierarchical
clustering và sử dụng phương pháp tính bằng liên kết đơn (Single) thì cho ra kết quả phân
cụm hợp lý nhất. Cụm 1 (màu xanh) có giá trị Silhouette nằm trong khoảng từ 0.5 đến
0.83 và cụm 2 (màu đỏ) có giá trị Silhouette nằm trong khoảng từ 0.4 đến 0.83. Vì các
20
khoảng này đều nằm trong khoảng dương và tiến về 1 nên phương pháp phân cụm này là
sát với thực tế.
Sau khi phân tích trên Orange, nhóm tiến hành xuất kết quả phân cụm dưới dạng
excel và so sánh với nhãn ban đầu.
Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi
so sánh với nhãn ban đầu.
Nhóm thực hiện so sánh với nhãn ban đầu và tính được tỷ lệ chính xác khi phân
cụm theo phương pháp Hierarchical Clustering bằng cách tính liên kết đơn xấp xỉ 0.9.
Đây là kết quả khá cao thể hiện độ chính xác khi phân cụm biến Subscribed theo phương
pháp này.
21
Hình 8: Bảng kết quả phân cụm bằng phương pháp K-Mean trên Orange.
Để đánh giá số cụm tốt nhất để lựa chọn phân cụm bằng phương pháp K-Mean phải
dựa vào giá trị Silhouette của từng cụm. Vì vậy, nhóm cho chạy random từ 2 đến 5 thì
nhận được kết quả lần lượt là 0.658, 0.723, 0.656 và 0.586. Qua đó, ta thấy được giá trị
Silhouette cao nhất khi phân thành ba cụm nhưng biến cần phân cụm ở đây là Subscribed
chỉ có hai giá trị “yes, no” nên buộc phải chia thành hai cụm và giá trị Silhouette khi phân
thành hai cụm cũng rất cao (0.658>0.5).
Qua hình 9, ta quan sát được thì cụm 1 (màu xanh) giá trị Silhouette nằm trong
khoảng đa số từ 0.4 đến 0.8 và cụm 2 (màu đỏ) có giá trị Silhouette nằm trong khoảng đa
số từ 0.3 đến 0.5. Vì các khoảng này đều nằm trong khoảng dương (trừ cụm 2 có khoảng
22
25 mẫu âm) và tiến về 1 nên phân cụm theo phương pháp K-Mean cũng khá sát với thực
tế, đáng tin cậy.
23
Hình 9: Silhouette Plot thể hiện phân cụm theo phương pháp K-Mean.
Tiếp theo, nhóm tiến hành xuất kết quả phân cụm bằng phương pháp K-Mean trên
Excel và cũng đem đi so sánh với nhãn ban đầu. Kết quả so sánh được thể hiện chi tiết
trong bảng sau đây:
Hình 10: Bảng dữ liệu excel đã phân cụm theo phương pháp K-Mean khi so sánh với
nhãn ban đầu.
Nhóm thực hiện so sánh với nhãn ban đầu và tính được tỷ lệ chính xác khi phân
cụm theo phương pháp K-Mean bằng cách tính liên kết đơn xấp xỉ 0.85. Và đây cũng
thuộc tỷ lệ chính xác khá cao.
Kết luận: Cả hai phương pháp Hierachical Clustering và K-means, khi thực hiện
phân cụm dữ liệu với số cụm là 2 đều thu được kết quả hợp lý, sát thực tế. Vì vậy, nhóm
tiến hành so sánh kết quả phân cụm với nhãn ban đầu, tính tỷ lệ chính xác để tìm ra
phương pháp tốt hơn. Kết quả cho thấy khi phương pháp Hierarchical Clustering có tỳ lệ
chính xác cao hơn so với phương pháp K-means (0.89>0.85). Vì vậy đối với bộ dữ liệu
của nhóm thì phân cụm theo phương pháp Hierarchical Clustering là tốt nhất.
24
4.3. Phân lớp dữ liệu
Trong khoa học dữ liệu, bài toán phân lớp dữ liệu là một trong những bài toán cơ
bản nhưng có ý nghĩa quan trọng và có nhiều ứng dụng thực tiễn. Phân lớp dữ liệu có thể
được ứng dụng cho một loạt bài toán như dự báo kinh doanh, dự báo tài chính, chẩn đoán
y khoa, nhận dạng đối tượng, dịch thuật, ….
Hình 11: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange.
25
Hình 13: Bảng đánh giá Test & Score.
Bảng Test and Score ta thấy được chỉ số AUC của Tree là 0.607 , SVM là 0.717 và
Hồi quy Logistic là 0.909 lớn nhất trong các phương pháp còn lại và gần với 1 nhất. Điểu
này cho thấy phương pháp Hồi quy Logistic là phương pháp được xem là đánh giá tốt
nhất cho dữ liệu trên
Ma trận nhầm lẫn (Confusion Matrix)
Hình 14: Bảng kết quả ma trận nhầm lẫn của phương pháp hồi quy logistic.
Xét ma trận nhầm lẫn của phương pháp hồi quy logistic, ma trận này thể hiện rõ:
4331 no-no: 4331 khách hàng ta đoán không đăng ký tiền gửi có kỳ hạn và trên
thực tế là không đăng ký.
106 yes-no: 106 khách hàng ta đoán có đăng ký tiền gửi có kỳ hạn nhưng thực tế
là không đăng ký.
352 no- yes: 352 khách hàng ta đoán không đăng ký tiền gửi có kỳ hạn nhưng thực
tế là có đăng ký.
26
210 yes-yes: 210 khách hàng ta đoán có đăng ký tiền gửi có kỳ hạn và trên thực tế
là có đăng ký.
Điều trên cho thấy, đa số khách hàng không có nhu cầu đăng ký tiền gửi có kỳ
hạn.
Công cụ Predictions
Hình 15: Bảng kết quả dự báo bằng phương pháp hồi quy logistic.
Chọn ngẫu nhiên 500 khách hàng (10% trong bộ data) để dự đoán, ta thấy rằng “no”
chiếm số lượng lớn so với “yes”.Với kết quả trên cho thấy rằng, khách hàng không đăng
ký tiền gửi có kỳ hạn chiếm tỷ lệ cao so với khách hàng đăng ký tiền gửi có kỳ hạn.
27
Hình 16: Bảng kết quả dự báo bằng bằng phương pháp hồi quy logistic xuất ra excel.
28
a) Xác định đúng khách hàng cần hướng đến
Bởi vì khả năng tất toán của tiền gửi bị hạn chế nhiều trong khoản thời gian khách
hàng đang gửi tiết kiệm, cho nên phân khúc khách hàng mà chúng ta hướng đến sẽ là
những người có mối quan tâm đến gửi tiết kiệm, thu nhập ổn định, có một khoản tiền
nhàn rỗi sẵn sàng để có thể gửi tiết kiệm.
b) Cung cấp thông tin về sản phẩm
Sau khi đã có được khách hàng tiềm năng, thì ngân hàng phải tư vấn cho khách
hàng về các gói tiền gửi có về lợi ích khi đăng ký gói tiền gửi có hạn, so với việc đăng ký
tại ngân hàng này thì có khác gì so với các ngân hàng khác, cho khách hàng thấy sự khác
biệt.
Mức lãi suất: Lãi suất thường cao hơn nhiều so với tiền gửi không kỳ hạn.
Kỳ hạn gửi: Kỳ hạn linh hoạt: theo tuần, theo tháng hoặc theo năm
Phương thức trả lãi: Trả lãi trước, trả lãi định kỳ hoặc trả lãi sau.
Các ưu đãi: Khách hàng sẽ thường xuyên nhận được các chương trình ưu đãi từ
ngân hàng như mở thẻ tín dụng không cần chứng minh thu nhập, ưu đãi lãi suất khi vay.
c) Đa dạng các sản phẩm tiền gửi có kỳ hạn
Cũng là một khoản Tiền gửi có kỳ hạn nhưng để thu hút được khách hàng thì ngân
hàng cần tạo ra đa dạng các hình thức, dịch vụ để khách hàng cảm thấy dễ dàng, không
khó chịu khi sử dụng dịch vụ. Ví dụ như về kênh giao dịch, khách hàng có thể lựa chọn
gửi tiền tại quầy hoặc gửi online (trực tuyến), các gói sản phẩm có kỳ hạn và mức lãi suất
hấp dẫn,... Điều này sẽ làm cho khách hàng có thể chủ động lựa chọn, phù hợp với số tiền
nhàn rỗi của mỗi khách hàng.
d) Tăng cường các chiến dịch quảng cáo, tiếp thị
Có lẽ nhắc đến chiến lược thu hút khách hàng mới thì chắc chắn không thể “vắng
mặt” các chiến dịch quảng cáo, tiếp thị. Đây chính là “vũ khí” để sản phẩm, dịch vụ và
thương hiệu của bạn có thể “phủ sóng” rộng rãi và thu hút được những khách hàng mới
ngày càng nhiều hơn. Với sự phát triển mạnh mẽ của công nghệ - thông tin, hiện nay việc
triển khai các chiến dịch quảng cáo, tiếp thị cũng được tối ưu hơn rất nhiều. Thậm chí,
nếu ngân sách có phần eo hẹp bạn có thể ưu tiên trước cho các hoạt động digital
29
marketing trước. Sau đó, khi đã có “khởi sắc” thì những hoạt động marketing truyền
thống như báo chí, quảng cáo ngoài trời,… có thể xen kẽ triển khai để tối ưu về hiệu quả
nhất.
e) Luôn giữ tương tác với khách hàng
Rất nhiều khách hàng cũ không trở thành khách hàng trung thành do không có sự
liên hệ và tương tác qua lại hai bên.
Triển khai một vài phương pháp giữ liên lạc đơn giản với khách hàng như email,
gọi điện định kỳ hàng tháng, sẽ đảm bảo khách hàng không cảm thấy bị bỏ rơi sau khi đã
mua hàng. Nếu đã lỡ đánh mất khách hàng theo cách này, thì một trong những cách sửa
sai là gửi một email (thư điện tử) cho khách hàng, thể hiện rằng doanh nghiệp rất tiếc khi
họ đã ngừng mua hàng và đề nghị tặng cho họ một ưu đãi trong một khoảng thời gian
nhất định nào đó. Một số doanh nghiệp đã sử dụng cách này và thông thường giới hạn số
thư từ 5-7 thư nếu họ không nhận được bất kỳ phản hồi tích cực nào.
30
TÀI LIỆU THAM KHẢO
Nguyễn Thị Thùy Linh (2005), bài luận tốt nghiệp “Nghiên cứu các thuật toán phân lớp
dựa trên cây quyết định”, Trường Đại học Công nghệ, ĐHQGHN.
Vi Văn Sơn (2016), luận văn thạc sĩ “Phân cụm thô của dữ liệu tuần tự”, Trường Đại học
Công nghệ, ĐHQGHN.
García, S., Luengo, J., & Herrera, F. (2015), “Data Preprocessing in Data Mining”, New
York: Springer.
Foster Provos, Tom Fawcett (2013), Data Science for Business, “What you need to know
about Data Mining and Data-Analytic Thinking”.
Một số link tài liệu:
https://abiz.edu.vn/khoa-hoc-du-lieu-data-science-la-gi/
https://www.oracle.com/in/data-science/what-is-data-science/
https://searchenterpriseai.techtarget.com/definition/data-science
https://hocvien.haravan.com/blogs/guides/5-chien-luoc-giu-chan-khach-hang-giup-
doanh-nghiep-cua-ban-phat-trien
https://bizfly.vn/techblog/6-meo-thu-hut-khach-hang-ban-le-trong-kinh-doanh-khong-
ngo-toi.html
https://ongxuanhong.wordpress.com/2018/02/03/voc-thu-orange-phan-mem-data-mining/
https://123docz.net/document/2841059-cac-phuong-phap-phan-cum-du-lieu.htm
https://123docz.net/document/3570720-ung-dung-ky-thuat-khai-pha-du-lieu-trong-
ids.htm