TL Word

ĐẠI HỌC UEH
TRƯỜNG KINH DOANH

KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
TIỂU LUẬN
MÔN KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING
QUA CÁC THUẬT TOÁN TRÊN ORANGE
Giảng viên hướng dẫn: Trương Việt Phương

Mã học phần: 21C1INF50905911
Nhóm sinh viên thực hiện:
Dương Trọng Anh 31201022014
Lê Thị Kiều Diễm 31201022108
Thái Quang Hào 31201022773
Võ Thị Mỹ Ngọc 31201022281
Liễu Ngọc Khánh Tuyền 31201022715
TP Hồ Chí Minh, Tháng 12/2021

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN
STT Họ Và Tên Nhiệm Vụ Đánh giá
Tìm bộ dữ liệu, thảo luận đề tài , giới

1 Dương Trọng Anh thiệu tổng quan về KHDL, nhận xét, 100%
làm powerpoint.
Tìm bộ dữ liệu, thảo luận đề tài, cơ sở

2 Lê Thị Kiều Diễm lý thuyết, mô tả các biến, nhận xét, kết 100%
luận.

3 Thái Quang Hào lý thuyết, xử lý dữ liệu trên Orange, 100%
tổng hợp trên Word.

4 Võ Thị Mỹ Ngọc 100%
lý thuyết, nhận xét, làm powerpoint.
Tìm bộ dữ liệu, thảo luận đề tài, giới

5 Liễu Ngọc Khánh Tuyền 100%
thiệu đề tài, nhận xét, kết luận.
LỜI MỞ ĐẦU
Những năm gần đây, vai trò của các hệ thống thông tin trong các doanh nghiệp đã
ngày càng lớn mạnh. Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn
phòng, hệ thống thông tin đã trở nên có vai trò chiến lược trong doanh nghiệp. Đặc biệt
những thành tựu trong công nghệ thông tin đã khiến doanh nghiệp ngày càng chú ý hơn
tới việc áp dụng những nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình.
Khoa học dữ liệu là thuật ngữ dần trở nên quen thuộc ở Việt Nam trong giai đoạn
ngày nay, và đang dần trở thành xu hướng được các doanh nghiệp hướng tới để đẩy mạnh
hoạt động kinh doanh nhờ việc sử dụng những thông tin được phân tích do công nghệ này
mang lại. Khi cuộc cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia và doanh nghiệp
đều phải dựa nhiều hơn vào khoa học công nghệ và dữ liệu.
Để phù hợp với chuyên ngành, chúng tôi đã tìm được bộ dữ liệu của một tổ chức
ngân hàng và xử lý thông tin thông qua công cụ Orange để nhìn nhận và tìm ra hướng
phát triển của tổ chức. Với mục tiêu phát triển chiến dịch tiếp thị qua cuộc gọi và dự đoán
liệu khách hàng có đăng ký tiền gửi có kỳ hạn hay không ? Trong bài tiểu luận này nhóm
chúng tôi sẽ làm rõ vấn đề trên.
MỤC LỤ
LỜI MỞ ĐẦU
LỜI CẢM ƠN
DANH MỤC BẢNG, HÌNH ẢNH
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu về Khoa học dữ liệu:...............................................................................1
1.2. Giới thiệu về đề tài..................................................................................................2
1.2.1. Lý do chọn đề tài...............................................................................................2
1.2.2. Mục tiêu nghiên cứu.........................................................................................2
1.2.3. Phương pháp thực hiện.....................................................................................3
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ
CÁC PHƯƠNG PHÁP SỬ DỤNG
2.1. Tổng quan về phần mềm Orange:............................................................................3
2.2 Tổng quan về các phương pháp sử dụng...................................................................4
2.2.1. Tiền xử lý dữ liệu..............................................................................................4
2.2.1.1. Làm sạch dữ liệu........................................................................................4
2.2.1.2. Tích hợp và chuyển đổi dữ liệu..................................................................6
2.2.1.3. Rút gọn dữ liệu...........................................................................................7
2.2.2. Phân cụm..........................................................................................................7
2.2.2.1. Định nghĩa..................................................................................................7
2.2.2.2. Đặc điểm....................................................................................................8
2.2.2.3. Các ứng dụng của phân cụm dữ liệu...........................................................8
2.2.2.4. Các phương pháp phân cụm.......................................................................9
2.2.3. Phân lớp..........................................................................................................12
2.2.3.1. Định nghĩa................................................................................................12
2.2.3.2. Quá trình phân lớp dữ liệu:.......................................................................12
2.2.3.3. Các vấn đề liên quan đến phân lớp dữ liệu...............................................12
2.2.3.4. Môt số phương pháp phân lớp..................................................................13
2.2.3.5. Các phương pháp đánh giá mô hình phân lớp..........................................13
2.2.3.6. Các ứng dụng phân lớp dữ liệu trong kinh tế............................................14
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN
4.1. Tiền xử lý dữ liệu..................................................................................................16
4.1.1. Chọn số lượng khảo sát...................................................................................16
4.1.2. Loại bỏ các biến không phù hợp.....................................................................17
4.2. Phân cụm dữ liệu...................................................................................................19
4.2.1. Phương pháp Hierarchical Clustering.............................................................20
4.2.2. Phương pháp K-Mean.....................................................................................21
4.3. Phân lớp dữ liệu.....................................................................................................25
CHƯƠNG 5: KẾT LUẬN
5.1. Kết luận................................................................................................................29
5.2. Hướng phát triển....................................................................................................29
TÀI LIỆU THAM KHẢO
LỜI CẢM ƠN
Hoàn thành được bài báo cáo về đề tài “Phân tích bộ dữ liệu Bank Marketing qua các
thuật toán trên Orange” không chỉ có riêng sự cố gắng của các thành viên trong nhóm
mà còn nhờ vào sự hỗ trợ của rất nhiều thầy cô. Chúng tôi xin được gửi lời cảm ơn chân
thành đến:
 Thầy Trương Việt Phương - Giảng viên môn Khoa học dữ liệu đã tận tình
hướng dẫn chúng em về cách thức tiến hành đề tài nghiên cứu, để có thể
hoàn thành tốt bài báo cáo này.
DANH MỤC BẢNG, HÌNH ẢNH
Bảng 1: Phân loại các phương pháp phân cụm.
Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu.
Hình 2: Kết quả xử lý “Role” của các thuộc tính.
Hình 3: Bảng Select Columns loại bỏ các biến kinh tế không liên quan
Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange.
Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange.
Hình 6: Silhouette Plot thể hiện phân cụm theo phương pháp Hierarchical Clustering.
Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi
so sánh với nhãn ban đầu.
Hình 8: Bảng kết quả phân cụm bằng phương pháp K-Mean trên Orange.
Hình 9: Silhouette Plot thể hiện phân cụm theo phương pháp K-Mean.
Hình 10: Bảng dữ liệu excel đã phân cụm theo phương pháp K-Mean khi so sánh với
nhãn ban đầu.
Hình 11: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange.
Hình 12: Bảng kết quả cây quyết định.
Hình 13: Bảng đánh giá Test & Score.
Hình 14: Bảng kết quả ma trận nhầm lẫn của phương pháp hồi quy logistic.
Hình 15: Bảng kết quả dự báo bằng phương pháp hồi quy logistic.
Hình 16: Bảng kết quả dự báo bằng bằng phương pháp hồi quy logistic xuất ra excel.
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu về Khoa học dữ liệu:

Khoa học dữ liệu (DS) là khoa học về việc quản trị và phân tích dữ liệu, trích xuất
các giá trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn
dắt hành động.
Khoa học dữ liệu gồm ba phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu,
và chuyển kết quả phân tích thành giá trị của hành động. Việc phân tích và dùng dữ liệu
lại dựa vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy
học) và tri thức của lĩnh vực ứng dụng cụ thể. Cũng như các hình thức thí nghiệm khác,
khoa học dữ liệu sẽ yêu cầu thực hiện các quan sát, đặt câu hỏi, hình thành các giả thuyết,
tạo các bài kiểm tra, phân tích kết quả và đưa ra một khuyến nghị thực tế. Chính vì vậy
mà mục đích chính của Khoa học Dữ liệu là biến đổi một lượng lớn dữ liệu chưa qua xử
lý, làm thế nào để định vị được thành mô hình kinh doanh, từ đó giúp đỡ các tổ chức tiết
giảm chi phí, gia tăng hiệu quả làm việc, nhìn nhận cơ hội, rủi ro trên thị trường và làm
gia tăng lợi thế cạnh tranh của doanh nghiệp.
Các lĩnh vực của khoa học dữ liệu: khai thác dữ liệu (Data mining), thống kê
(Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).
Khoa học dữ liệu kết hợp nhiều lĩnh vực để chiết xuất giá trị từ dữ liệu. Những
người thực hành khoa học dữ liệu được gọi là data scientists và họ kết hợp một loạt các
kỹ năng để phân tích dữ liệu thu thập được từ web, điện thoại thông minh, khách hàng,
cảm biến và các nguồn khác để thu được những thông tin chi tiết hữu ích. Nó chủ yếu
được thực hiện bởi data scientists lành nghề , mặc dù các nhà phân tích dữ liệu cấp thấp
hơn cũng có thể tham gia. Ngoài ra, nhiều tổ chức hiện dựa một phần vào citizen data
scientists , một nhóm có thể bao gồm các chuyên gia kinh doanh thông minh (BI), nhà
phân tích kinh doanh, người dùng doanh nghiệp am hiểu dữ liệu, kỹ sư dữ liệu và những
người lao động khác không có nền tảng khoa học dữ liệu chính thức. Một nhà khoa học
dữ liệu cần phát triển 3 nhóm kỹ năng quan trọng là phân tích (Analytics), lập trình
1
(Programming), kiến thức chuyên ngành (Domain Knowledge) và một số kỹ năng quan
trọng khác.
1.2. Giới thiệu về đề tài
1.2.1. Lý do chọn đề tài

Hiện nay việc khai thác, phân tích dữ liệu đã trở nên không thể thiếu đối với các
ngành nghề, đặc biệt ở đây chúng tôi đề cập đến là trong kinh doanh, thương mại,... Một
loạt các dữ liệu khổng lồ từ khách hàng, hoạt động kinh doanh, đối tác,... không thể xử lý
bằng sức người, do đó việc số hóa các dữ liệu này là điều cần thiết, phải làm của các công
ty, các tập đoàn lớn nhỏ. Việc phân tích các vấn đề kinh doanh: lấy dữ liệu làm trung tâm,
việc tạo và đánh giá các giải pháp khoa học dữ liệu cũng như đánh giá các chiến lược và
đề xuất khoa học dữ liệu chung.
Để có thể phân tích được các dữ liệu một cách tự động, chúng ta cần đến các phần
mềm cũng như là công cụ để hỗ trợ như: Excel, R và Python, Power BI,... Với bộ dữ liệu
mà nhóm đã thu thập được, chúng tôi sẽ sử dụng Orange để xây dựng quy trình khai thác
dữ liệu trực quan - đây là phần mềm khai thác dữ liệu phổ biến có thể được thực hiện mà
không cần lập trình.
Nhóm đã tìm được bộ dữ liệu của một tổ chức ngân hàng Bồ Đào Nha, dữ liệu có
liên quan đến các chiến dịch tiếp thị bằng các cuộc gọi, kêu gọi khách hàng đăng ký tiền
gửi có kỳ hạn của ngân hàng. Dữ liệu sau khi được phân tích bởi Orange, chúng tôi sẽ
đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích; đánh giá độ hiệu quả của và
đề xuất một số hướng phát triển dành cho chiến dịch tiếp thị qua cuộc gọi này. Và đó lý
do nhóm tác giả chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán
trên Orange”.
1.2.2. Mục tiêu nghiên cứu

 Khám phá dữ liệu.
 Làm sạch dữ liệu.
 Phân cụm, phân lớp dữ liệu.
2
 So sánh dựa trên nhãn “Subscribed” (đã đăng kí) cho việc ký gửi tiền.
 Dự đoán liệu khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay không.
 Cung cấp cái nhìn tổng quan về hoạt động của ngân hàng, từ đó đưa ra nhận xét
đánh giá dựa trên dữ liệu đã phân tích.
1.2.3. Phương pháp thực hiện

Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm,
phân lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân
lớp.
 Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là
Hierarchical clustering và K-means.
+ Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khoảng cách
giữa các phần tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5
và quan sát trên Silhouette Plot.
+ Đối với phương pháp K-means nhóm quan sát chỉ số Silhouette trung bình khi
phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng
biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot.
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành
chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm.
 Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” (đã đăng kí) cho việc
gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết
định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic
Rgression). Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối
cùng là quan sát trên ma trận nhầm lẫn.
3
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ
CÁC PHƯƠNG PHÁP SỬ DỤNG
2.1. Tổng quan về phần mềm Orange:

Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE). Hệ
điều hành này dựa trên kiến trúc x86 (32-bit) của Intel và chạy được dưới bộ vi x86 của
Intel hay AMD. Orange là một nền tảng được xây dựng để tạo các đường ống học máy
trên quy trình làm việc giao diện đồ họa người dùng (GUI). Orange là một công cụ khá
trực quan để nghiên cứu về các thuật toán machine learning và thực hành data
mining. Những người không có kỹ năng mã hóa có thể vận hành Orange một cách dễ
dàng. Người ta có thể thực hiện mọi nhiệm vụ ngay từ khi chuẩn bị dữ liệu đến đánh giá
mô hình mà không cần viết một dòng mã nào. Orange là một giải pháp khai thác dữ liệu
giúp các doanh nghiệp từ nhỏ đến lớn tạo quy trình công việc phân tích và trực quan hóa
dữ liệu để tạo các phép chiếu tuyến tính, bản đồ nhiệt, MDS, cây quyết định,... trên nền
tảng tập trung.
Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp người dùng bắt
tay ngay vào phân tích dữ liệu gồm:
 Data dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
 Visualize dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.
 Model gồm các hàm machine learning phân lớp dữ liệu.
 Evaluate: các phương pháp đánh giá mô hình máy học.
 Unsupervised: gồm các hàm machine learning gom nhóm dữ liệu.
2.2 Tổng quan về các phương pháp sử dụng
2.2.1. Tiền xử lý dữ liệu

Dữ liệu trong thực tế thường không sạch, và không nhất quán. Các kỹ thuật tiền xử
lý dữ liệu có thể cải thiện được chất lượng của dữ liệu, do đó nó giúp các quá trình khai
phá dữ liệu chính xác và hiệu quả. Tiền xử lý dữ liệu là một bước quan trọng trong quá
trình khám phá tri thức, bởi vì chất lượng các quyết định phải dựa trên chất lượng của dữ
4
liệu. Quá trình tiền xử lý dữ liệu bao gồm: Làm sạch dữ liệu, tích hợp và biến đổi dữ liệu,
rút gọn dữ liệu.
2.2.1.1. Làm sạch dữ liệu

Dữ liệu trong thực tế thường không đầy đủ, nhiễu, và không nhất quán. Quá trình
làm sạch dữ liệu sẽ cố gắng điền các giá trị thiếu, loại bỏ nhiễu, và sửa chữa sự không
nhất quán của dữ liệu.
 Với dữ liệu bị thiếu:
+ Bỏ qua bộ có giá trị thiếu: Phương pháp này thường được sử dụng khi nhãn lớp bị
thiếu. Phương pháp này rất không hiệu quả khi phần trăm giá trị thiếu trong từng thuộc
tính là đáng kể.
+ Điền vào bằng tay các giá trị thiếu: Cách tiếp cận này tốn thời gian và không khả
thi khi thực hiện trên tập dữ liệu lớn với nhiều giá trị thiếu.
+ Sử dụng một hằng số toàn cục để điền vào các giá trị thiếu: Thay thế toàn bộ giá
trị thiếu của các thuộc tính bằng một hằng số như "Unknown" hay vô cực.
+ Sử dụng giá trị trung bình của thuộc tính để điền các giá trị thiếu.
+ Sử dụng một giá trị trung bình của thuộc tính cho tất cả các mẫu thử thuộc về cùng
một lớp với bộ đã cho.
+ Sử dụng một giá trị có khả năng nhất để điền vào các giá trị thiếu: giá trị này có
thể tìm ra bằng phương pháp hồi qui, hay dựa trên các công cụ sử dụng hình thức
Bayesian.
 Với dữ liệu nhiễu:
Nhiễu là một lỗi hay một sự mâu thuẫn ngẫu nhiên trong việc đo các biến số. Các kỹ
thuật loại bỏ nhiễu bao gồm
+ Phương pháp Bining
Đầu tiên sắp xếp dữ liệu và phân hoạch dữ liệu thành những bin. Sau đó người
dùng có thể làm trơn dữ liệu bằng các giá trị trung bình của bin, bằng trung vị của bin,
bằng các biên của bin,… Bin có độ rộng càng lớn thì tập dữ liệu thu được sẽ càng "trơn".
+ Phương pháp hồi quy
5
Phương pháp hồi quy tuyến tính tìm một đường thẳng tối ưu để khít với 2 thuộc
tính (hay 2 biến), do đó một thuộc tính có thể dùng để dự đoán thuộc tính còn lại.
+ Phân cụm
Các giá trị ngoại lai có thể được dò bởi sự phân cụm, trong đó các giá trị được tổ
chức thành các nhóm, hay còn gọi là các "cluster". Bằng trực giác, các giá trị rơi ra ngoài
tập hợp của các cluster có thể được xem như là các giá trị ngoại lai.
2.2.1.2. Tích hợp và chuyển đổi dữ liệu

Khai thác dữ liệu thường đòi hỏi sự tích hợp dữ liệu tức là sự hợp nhất dữ liệu từ
nhiều kho chứa. Dữ liệu có thể được chuyển đổi sang các hình thức thích hợp cho khai
thác dữ liệu.
 Phân tích dữ liệu:
Các tác vụ phân tích dữ liệu của bạn sẽ đòi hỏi sự tích hợp dữ liệu, nó kết hợp dữ
liệu từ nhiều nguồn khác nhau thành một khối dữ liệu gắn kết, như trong quá trình xây
dựng và sử dụng KDL (data warehousing).
Một số vấn đề trong quá trình tích hợp dữ liệu:
 Làm thế nào để những thực thể trong thế giới thực từ nhiều nguồn khác nhau có
thể phù hợp với nhau. Ví dụ: customer_id và cus_id chỉ là một thuộc tính chứ không phải
hai.
 Siêu dữ liệu dùng để tránh sự phát sinh lỗi trong quá trình tích hợp các lược đồ và
chuyển đổi dữ liệu.
 Sự dư thừa dữ liệu: Giá trị một thuộc tính có thể được tính toán từ giá trị của các
thuộc tính khác. Sự không nhất quán trong việc đặt tên các thuộc tính cũng có thể gây ra
kết quả dư thừa trong tập dữ liệu.
 Biến đổi dữ liệu:
Trong biến đổi dữ liệu, dữ liệu được chuyển đổi hay hợp nhất về dạng phù hợp cho
việc khai thác dữ liệu. Biến đổi dữ liệu bao gồm những việc sau đây:
 Làm trơn, tức là loại bỏ nhiễu ra khỏi dữ liệu. Các kỹ thuật bao gồm: binning,
regression, và clustering.
6
 Kết hợp, trong đó các phép toán tóm tắt (summary) hay các phép toán kết hợp
(aggregation) được áp dụng cho dữ liệu. Ví dụ, dữ liệu bán hàng hàng ngày có thể được
tính toán theo tháng hay theo năm. Bước này có thể sử dụng trong việc xây dựng khối dữ
liệu của dữ liệu ở nhiều mức.
 Khái quát hóa dữ liệu, trong đó dữ liệu ở mức khái niệm thấp hay dữ liệu thô được
tổng hợp ở khái niệm mức cao hơn.
 Chuẩn hóa, trong đó thuộc tính dữ liệu được tính tỉ lệ sao cho nó nằm trong một
khoảng nhỏ nào đó ví dụ như -1 đến 1; 0 đến 1.
2.2.1.3. Rút gọn dữ liệu

Kỹ thuật rút gọn dữ liệu có thể được áp dụng để có được sự biễu diễn rút gọn của
tập dữ liệu mà nhỏ hơn nhiều về số lượng, mà vẫn giữ được tính nguyên vẹn của dữ liệu
gốc. Tức là, khai thác dữ liệu trên dữ liệu rút gọn sẽ hiệu quả hơn so với khai thác dữ liệu
trên dữ liệu gốc. Các giai đoạn rút gọn dữ liệu như sau:
 Tổng hợp khối dữ liệu, trong đó các phép toán tổng hợp được áp dụng trên dữ liệu
trong cấu trúc của khối dữ liệu.
 Lựa chọn tập thuộc tính con, trong đó các thuộc tính hay các chiều không liên
quan, liên quan yếu, hay dư thừa có thể được tìm và xóa.
 Rút gọn chiều, trong đó cơ chế mã hóa được sử dụng để rút gọn kích thước tập dữ
liệu.
 Giảm số lượng, trong đó dữ liệu được thay thế hay được đánh giá bởi dữ liệu khác,
nhỏ hơn về số lượng như các mô hình tham số (chỉ cần lưu giữ các tham số mô hình thay
vì phải lưu giữ dữ liệu thật) hay các phương pháp không dùng tham số (nonparametric
method) như clustering, lấy mẫu (sampling), và sử dụng các lược đồ (histograms).
 Rời rạc hóa và tạo các phân cấp khái niệm, trong đó các giá trị dữ liệu thô của các
thuộc tính được thay thế bởi các dải hay các mức khái niệm cao hơn. Rời rạc hóa là
những công cụ mạnh mẽ cho khai thác dữ liệu, trong đó nó cho phép khai thác dữ liệu ở
nhiều mức khác nhau của khái niệm.
7
2.2.2. Phân cụm
2.2.2.1. Định nghĩa

Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng hay dữ liệu có các đặc
điểm tương đồng vào các cụm/nhóm tương ứng, còn các đối tượng hay dữ liệu thuộc các
cụm/nhóm khác nhau thì sẽ không tương đồng. Không giống như phân lớp dữ liệu, phân
cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Chính vì
thế có thể coi việc phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ
liệu là học bằng ví dụ. Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước
tiền xử lý cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có
tác dụng trong việc phát hiện ra các cụm.
2.2.2.2. Đặc điểm

 Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu.
 Phân cụm thuộc nhóm phương pháp học không giám sát (Unsupervised learning)
vì không biết trước được số nhóm.
 Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao
+ Độ tương đồng bên trong cụm cao.
+ Độ tương tự giữa các cụm thấp (khác biệt cao).
 Các ứng dụng điển hình:
+ Công cụ phân cụm dữ liệu độc lập.
+ Là giai đoạn tiền xử lý cho các thuật toán khác.
2.2.2.3. Các ứng dụng của phân cụm dữ liệu

Cụ thể, các kỹ thuật phân cụm dữ liệu đã được áp dụng cho một số ứng dụng điển
hình trong các lĩnh vực sau:
 Sinh học: phân loại động, thực vật qua các chức năng gen tương đồng của chúng.
 Thương mại: tìm kiếm nhóm các hành khách quan trọng dựa vào các thuộc tính
đặc trưng tương đồng và những đặc tả của họ trong các bản ghi mua bán của cơ sở dữ
liệu.
8
 Bảo hiểm: nhận dạng nhóm tham gia bảo hiểm có chi phí yêu cầu bồi thường trung
bình cao, xác định gian lận trong bảo hiểm thông qua các mẫu cá biệt.
 Quy hoạch đô thị: nhận dạng các nhóm nhà theo kiểu, vị trí địa lý, giá trị,... nhằm
cung cấp thông tin cho quy hoạch đô thị.
 Khai phá Web (Web mining): phân cụm dữ liệu có thể khám phá các nhóm tài liệu
quan trọng, có nhiều ý nghĩa trong môi trường web. Các lớp tài liệu này hỗ trợ trong việc
phát hiện ra thông tin.
2.2.2.4. Các phương pháp phân cụm

Các phương pháp
Loại Đặc điểm điển hình
Dựa trên phân cấp Phân cấp các đối tượng dựa trên một Diana, Agnes,
(Hierarchical approach) số tiêu chí. BIRCH,
CAMELEON.
Dựa trên phân hoạch Xây dựng các phân hoạch khác nhau K-means, K-medoids,
(Partitioning approach) và đánh giá chúng. Sau đó, tìm cách Fuzzy C-means.
tối thiểu hóa tổng bình phương độ
lỗi.
Dựa trên mật độ (Density- Dựa trên các kết nối giữa các đối DBSCAN, OPTICS,
based approach) tượng và hàm mật độ. DenClue.
Dựa trên lưới (Grid-based Dựa trên cấu trúc độ chi tiết nhiều STING, Wave
approach) cấp. Cluster, CLIQUE.
Dựa trên mô hình (Model- Giả định mỗi cụm có một mô hình và EM, SOM, COBWEB
based) tìm cách fit mô hình đó vào mỗi
cụm.
Bảng 1: Phân loại các phương pháp phân cụm.
Hai phương pháp phân lớp tiêu biểu nhất là phương pháp phân cấp và phương pháp
phân hoạch.
9
a) Phương pháp phân cấp
Quá trình thực hiện phân cụm theo phương pháp này được mô tả bởi một đồ thị có
cấu trúc cây, vì vậy nó còn được gọi là phương pháp phân cụm cây. Trong đó, tập dữ liệu
được sắp xếp thành một cấu trúc có dạng hình cây gọi là cây phân cụm. Cây này có thể
được xây dựng nhờ kỹ thuật đệ quy theo hai phương pháp tổng quát: phương pháp dưới
lên (bottom up) và phương pháp trên xuống (top down). Các thuật toán theo phương pháp
dưới lên còn gọi là các thuật toán trộn. Ban đầu, người ta khởi tạo mỗi đối tượng làm một
cụm và dùng thủ tục đệ quy để trộn hai cụm gần nhất với nhau trong mỗi bước để có kết
quả chia cụm mới. Thủ tục đệ quy kết thúc ta có tập duy nhất là toàn bộ dữ liệu. Các
thuật toán phân biệt với nhau ở tiêu chuẩn đánh giá hai cụm nào là gần nhất dựa trên
khoảng cách các cụm chọn trước. Quy tắc để chọn các cụm trộn này được gọi là quy tắc
liên kết. Quá trình thực hiện thuật toán được biểu diễn thành cây và quyết định phân dữ
liệu thành bao nhiêu cụm sẽ do người dùng quyết định. Người dùng cũng dựa trên cây
này để nhận được kết quả phân cụm.
Phương pháp trên xuống còn gọi là phương pháp tách, được thực hiện theo trình tự
ngược với phương pháp trộn. Trong mỗi bước người ta chọn một cụm để tách thành cụm
con theo quy tắc đánh giá và tách cụm cho trước. Phương pháp này phức tạp và lâu hơn
phương pháp dưới lên và thường chỉ được áp dụng khi người ta có thêm thông tin về
phân bố cụm để có phương pháp tách phù hợp. Ta không đi sâu vào phương pháp này
Các quy tắc liên kết:
Với metric trong không gian đặc trưng xác định bởi một chuẩn ||.|| đã có, sau đây là
một số quy tắc liên kết thông dụng.
 Liên kết đơn (Single link)
Ký hiệu là NN (Nearest Neighbour). Trong quy tắc này, khoảng cách giữa hai cụm
được xác định nhờ khoảng cách nhỏ nhất giữa hai mẫu (đối tượng) tương ứng với hai
cụm:
d ( ci , c j )=min ⁡{∥ x − y ∥ : x ∈c i , x ∈c j }
 Liên kết đầy (Complete link)
10
Ký hiệu là FN (Furthest Neighbour). Trong quy tắc này, khoảng cách giữa hai cụm
được xác định nhờ khoảng cách lớn nhất giữa hai mẫu tương ứng với hai cụ:
d ( ci , c j )=max ⁡{∥ x− y ∥ : x ∈c i , y ∈ c j }
 Liên kết trung bình giữa các nhóm (Average link)
Ký hiệu là UPGMA (Un-Weighted Pair-Group Method using Arithmetic averages).
Như tên gọi của nó, khoảng cách 𝑑(𝑐𝑖 ,𝑐𝑗) là trung bình của khoảng cách giữa các cặp đối
tượng thuộc hai cụm tương ứng:
1
d ( ci , c j )=
ni n j ∑ ∑ ∥ x− y ∥
x ∈c
i x∈ c j
Trong đó: 𝑛𝑖 và 𝑛𝑗 là số phần tử của các cụm 𝑐𝑖 , 𝑐𝑗 tương ứng.
 Liên kết trung bình trong phạm vi nhóm (Weighted link)
Ký hiệu là UWGMA (un-weighted within-group method using arithmetic averages).
Trong quy tắc này, khoảng cách 𝑑(𝑐𝑖 ,𝑐𝑗) là trung bình của khoảng cách giữa các đối
tượng trong nhóm mới sau khi đã trộn hai nhóm:
1
d ( ci , c j )= ∑ ∥x − y ∥
c (ni +n j ,2) x, y ∈c ∪c i j
 Phương pháp Ward

Trong phương pháp này, khoảng cách giữa hai cụm là trung bình của bình phương
khoảng cách tới tâm trong phạm vi cụm:
1
d ( c i , c j )= ∥ x−m∥ 2
ni +n j x, y∑
∈c ∪ c
i j
Trong đó: m là tâm của cụm trộn.

b) Phương pháp phân hoạch
Trong các phương pháp phân hoạch, với số lượng cụm đã định, người ta lần lượt
phân các đối tượng dữ liệu vào các cụm, sau đó thực hiện lặp quá trình điều chỉnh để cực
tiểu hàm mục tiêu được chọn. Thông dụng nhất là thuật toán k-mean và các biến thể của
nó. Trong các thuật toán này, số lượng cụm k thường được xác định trước hoặc đặt dưới
dạng tham số. Với tập dữ liệu D gồm n đối tượng trong không gian d chiều, các đối tượng
11
được phân thành k cụm sao cho tổng bình phương độ lệch của mỗi mẫu tới tâm của nó là
nhỏ nhất. Và K-Mean là thuật toán điển hình cho cho phương pháp phân cụm này.
2.2.3. Phân lớp

Có thể thấy phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai
phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn con
người có thể trích rút ra các quyết định nghiệp vụ thông minh.
2.2.3.1. Định nghĩa

Phân lớp dữ liệu là một tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các đối tượng
vào một trong các lớp đã được định nghĩa trước.
2.2.3.2. Quá trình phân lớp dữ liệu:

Gồm 2 bước chính
 Bước 1: Xây dựng mô hình phân lớp: mô tả một tập những lớp được định nghĩa
trước.
Trong đó:
+ Dữ liệu đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lý có thể là các mẫu
(sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case)
+ Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật,…
 Bước 2: Sử dụng mô hình: Việc sử dụng mô hình phục vụ cho mục đích phân lớp
dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến.
Được chia thành 2 bước nhỏ:
+ Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình).
Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết
quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu.
+ Phân lớp dữ liệu mới:
Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào
những gì được huấn luyện ở bước 1.
12
2.2.3.3. Các vấn đề liên quan đến phân lớp dữ liệu
Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thể thiếu và có
vai trò quan trọng quyết định tới sự áp dụng được hay không của mô hình phân lớp. Quá
trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính hiệu quả và khả năng mở rộng
được của mô hình phân lớp.
 Làm sạch dữ liệu: Làm sạch dữ liệu liên quan đến việc xử lý với lỗi và giá trị thiếu
trong tập dữ liệu ban đầu
 Phân tích sự cần thiết của dữ liệu : nhằm mục đích loại bỏ những thuộc tính không
cần thiết, dư thừa khỏi quá trình học vì những thuộc tính đó sẽ làm chậm, phức tạp và gây
ra sự hiểu sai trong quá trình học dẫn tới một mô hình phân lớp không dùng được.
2.2.3.4. Môt số phương pháp phân lớp

 Hồi quy logistic (Logistic Regression): là một kỹ thuật thống kê để xem xét mối
liên hệ giữa biến độc lập (biến số hoặc biến phân loại) với biến phụ thuộc là biến nhị
phân.
 Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là đồ thị
các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định. Trong
lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng
quát hóa tập dữ liệu cho trước.
 SVM (Support Vector Machine): SVM là một thuật toán có giám sát, SVM nhận
dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào
các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm
mặt phân cách các lớp dữ liệu.
2.2.3.5. Các phương pháp đánh giá mô hình phân lớp

Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên dữ liệu
có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không.
 Ma trận nhầm lẫn (Confusion Matrix): là ma trận chỉ ra có bao nhiêu điểm dữ liệu
thực sự thuộc vào một lớp cụ thể, và được dự đoán là rơi vào lớp nào.
13
 Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ
bao nhiêu mẫu có đúng.
 ROC và AUC:
+ ROC : Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân
loại nhị phân.
+ AUC: Là diện tích nằm dưới đường cong ROC. Giá trị này là một số dương nhỏ
hơn hoặc bằng 1. Giá trị này càng lớn thì mô hình càng tốt.
2.2.3.6. Các ứng dụng phân lớp dữ liệu trong kinh tế
 Tài chính ngân hàng: dự báo chứng khoán, xếp hạng tín dụng cá nhân và tổ chức,
đánh giá rủi ro tài chính,...
 Sale & Marketing: dự báo doanh thu tương lai, dự báo khách hàng trung thành,....
 Kinh tế học: dự báo khủng hoảng kinh tế, cung cầu,...
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT

Nhóm tác giả chọn dữ liệu “Bank Marketing” làm mô hình nghiên cứu. Dữ liệu này
là chiến dịch marketing của một ngân hàng ở Bồ Đào Nha, họ thực hiện tính toán dựa
trên các cuộc gọi điện thoại đã thực hiện. Chiến dịch này được thực hiện với mục đích
tìm hiểu xem khách hàng có đăng kí (yes) hay không có đăng kí (no) các sản phẩm của
ngân hàng mà sản phẩm chính ở đây đó là đăng kí gửi tiền có kỳ hạn.
Tiếp theo, nhóm tác giả tiến hành mô tả dữ liệu và giải thích các thuộc tính của bộ
dữ liệu “Bank Marketing”.
1. Age là tuổi; được định dạng là biến định tính.
2. Job là nghề nghiệp của khách hàng; là biến định tính bao gồm quản trị viên
(admin), người lao động phổ thông (blue-collar), doanh nhân (entrepreneur), người giúp
việc (housemaid), nhà quản lý (management), người về hưu (retired), lao động tự do
(self-employed), dịch vụ (services), học sinh (student), kỹ thuật viên (technician), thất
nghiệp (unemployed), chưa biết (unknown).
14
3. Marital là tình trạng hôn nhân; được định dạng là biến định tính bao gồm ly hôn
(divorced), đã kết hôn (married), độc thân (single), chưa biết (unknown) .
4. Education là trình độ học vấn; được định dạng là biến định tính bao gồm 4 năm
tiểu học (basic.4y), 6 năm tiểu học (basic.6y), Trung học cơ sở (basic.9y), trung học phổ
thông (high school), không có đi học (illiterate), khoá học chuyên nghiệp (professional
course), bậc đaị học (university degree), chưa biết (unknown).
5. Default là có tín dụng trong tình trạng vỡ nợ không?; được định dạng là biến định
tính bao gồm hai giá trị có (yes), không (no) và chưa biết (unknown).
6. Housing là có khoản vay mua nhà không?; được định dạng là biến định tính bao
gồm hai giá trị có (yes), không (no) và chưa biết (unknown).
7. Loan là có khoản vay cá nhân không?, được định dạng là biến định tính bao gồm
hai giá trị có (yes), không (no) và chưa biết (unknown).
8. Contact là hình thức liên lạc; được định dạng là biến định tính bao gồm điện thoại
di động (cellular) và điện thoại có dây (telephone).
9. Month là tháng liên lạc cuối cùng trong năm; được định dạng là biến định tính bao
gồm từ tháng 1 đến tháng 12, lận lượt là jan, feb, mar, apr, may, jun, jul, aug, sep, oct,
nov, dec.
10.Day of week là ngày liên lạc cuối cùng trong tuần; được định dạng là biến định
tính bao gồm thứ hai (mon), thứ ba (tue), thứ tư (wed), thứ năm (thu), thứ sáu (fri).
11.Duration là thời lượng liên lạc cuối cùng; được định dạng là biến định lượng và
được tính bằng giây Lưu ý quan trọng: thuộc tính này ảnh hưởng nhiều đến mục tiêu đầu
ra vì nếu thời lượng liên lạc bằng 0 thì kéo theo biến mục tiêu cũng bằng 0 và thời lượng
liên lạc được xác định thì biến mục tiêu cũng sẽ xác định được.
12.Campaign là số lần liên lạc được thực hiện đối với khách hàng trong chiến dịch
này; được định dạng là biến định lượng bao gồm cả liên hệ cuối cùng.
13.Pdays số ngày sau khi khách hàng được liên hệ lần cuối từ một chiến dịch trước
đó; là biến định lượng và giá trị 999 có nghĩa là khách hàng chưa được liên hệ trước đó.
14.Previous số lần liên lạc đã thực hiện đối với khách hàng trong chiến dịch trước;
được định dạng là biến định lượng.
15
15.Poutcome kết quả của chiến dịch tiếp thị trước đó; là biến định tính bao gồm thất
bại (failure), không tồn tại (nonexistent), thành công (success).
16.emp.var.rate là tỷ lệ thay đổi việc làm - chỉ báo hàng quý.
17.cons.price.idx chỉ số giá tiêu dùng - chỉ báo hàng tháng.
18.cons.conf.idx chỉ số niềm tin của người tiêu dùng - chỉ báo hàng tháng.
19.euribor3m lãi suất euribor 3 tháng - chỉ số hàng ngày.
20.nr.employed số lượng nhân viên - chỉ số hàng quý .
Các biến thuộc thuộc tính bối cảnh kinh tế và xã hội đều được định dạng là biến định
lượng.
21.Subscribed là khách hàng đã đăng ký tiền gửi có kỳ hạn chưa? Biến này được định
dạng là biến mục tiêu bao gồm có đăng ký tiền gửi có kỳ hạn (yes) và không đăng kí (no).
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN
4.1. Tiền xử lý dữ liệu
4.1.1. Chọn số lượng khảo sát
16
Dữ liệu gốc ban đầu có hơn 40000 kết quả khảo sát (không có dữ liệu bị thiếu). Số
lượng trên là quá lớn để tiến hành khai thác, làm mất nhiều thời gian, đặc biệt khi tiến
hành phân cụm với phương pháp K- means thì chỉ chạy được tối đa 5000 instances. Vì
thế nhóm tác giả sử dụng công cụ Data Sampler để lấy ngẫu nhiên 4999 khảo sát để thỏa
điều kiện nói trên và tiến hành dễ dàng hơn.
Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu.
17
4.1.2. Loại bỏ các biến không phù hợp
Dữ liệu nhằm mục đích tìm hiểu sự lựa chọn của khách hàng về gửi tiền có kỳ hạn
nên ta lựa chọn biến Subscribed (đã đăng ký) là biến mục tiêu  Target.
Hình 2: Kết quả xử lý “Role” của các thuộc tính.
Hình 3: Bảng Select Columns loại bỏ các biến kinh tế không liên quan.
18
Từ hình 3 cho thấy: Đối với các biến emp.var.rate, cons.price.idx, cons.conf.idx,
euribor3m, nr.employed, đây là các biến liên quan đến tình hình chung bối cảnh kinh tế -
xã hội, không ảnh hưởng đến quyết định gửi tiền của khách hàng, nên nhóm quyết định
loại bỏ bằng công cụ Select Columns.
Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange.
4.2. Phân cụm dữ liệu
19
Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange.
4.2.1 Phương pháp Hierarchical clustering
Hình 6: Silhouette Plot thể hiện phân cụm theo phương pháp Hierarchical Clustering.
Với số cụm là 2, nhóm thực hiện phân cụm bằng phương pháp pháp Hierarchical
clustering và sử dụng phương pháp tính bằng liên kết đơn (Single) thì cho ra kết quả phân
cụm hợp lý nhất. Cụm 1 (màu xanh) có giá trị Silhouette nằm trong khoảng từ 0.5 đến
0.83 và cụm 2 (màu đỏ) có giá trị Silhouette nằm trong khoảng từ 0.4 đến 0.83. Vì các
20
khoảng này đều nằm trong khoảng dương và tiến về 1 nên phương pháp phân cụm này là
sát với thực tế.
Sau khi phân tích trên Orange, nhóm tiến hành xuất kết quả phân cụm dưới dạng
excel và so sánh với nhãn ban đầu.
Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi
so sánh với nhãn ban đầu.
Nhóm thực hiện so sánh với nhãn ban đầu và tính được tỷ lệ chính xác khi phân
cụm theo phương pháp Hierarchical Clustering bằng cách tính liên kết đơn xấp xỉ 0.9.
Đây là kết quả khá cao thể hiện độ chính xác khi phân cụm biến Subscribed theo phương
pháp này.
4.2.2. Phương pháp K-Mean

Nhóm tác giả tiến hành phân cụm dữ liệu theo phương pháp K-Mean. Sau khi chạy
dữ thiệu thì đã cho ra bảng kết quả như sau:
21
Hình 8: Bảng kết quả phân cụm bằng phương pháp K-Mean trên Orange.
Để đánh giá số cụm tốt nhất để lựa chọn phân cụm bằng phương pháp K-Mean phải
dựa vào giá trị Silhouette của từng cụm. Vì vậy, nhóm cho chạy random từ 2 đến 5 thì
nhận được kết quả lần lượt là 0.658, 0.723, 0.656 và 0.586. Qua đó, ta thấy được giá trị
Silhouette cao nhất khi phân thành ba cụm nhưng biến cần phân cụm ở đây là Subscribed
chỉ có hai giá trị “yes, no” nên buộc phải chia thành hai cụm và giá trị Silhouette khi phân
thành hai cụm cũng rất cao (0.658>0.5).
Qua hình 9, ta quan sát được thì cụm 1 (màu xanh) giá trị Silhouette nằm trong
khoảng đa số từ 0.4 đến 0.8 và cụm 2 (màu đỏ) có giá trị Silhouette nằm trong khoảng đa
số từ 0.3 đến 0.5. Vì các khoảng này đều nằm trong khoảng dương (trừ cụm 2 có khoảng
22
25 mẫu âm) và tiến về 1 nên phân cụm theo phương pháp K-Mean cũng khá sát với thực
tế, đáng tin cậy.
23
Hình 9: Silhouette Plot thể hiện phân cụm theo phương pháp K-Mean.
Tiếp theo, nhóm tiến hành xuất kết quả phân cụm bằng phương pháp K-Mean trên
Excel và cũng đem đi so sánh với nhãn ban đầu. Kết quả so sánh được thể hiện chi tiết
trong bảng sau đây:
Hình 10: Bảng dữ liệu excel đã phân cụm theo phương pháp K-Mean khi so sánh với
nhãn ban đầu.
Nhóm thực hiện so sánh với nhãn ban đầu và tính được tỷ lệ chính xác khi phân
cụm theo phương pháp K-Mean bằng cách tính liên kết đơn xấp xỉ 0.85. Và đây cũng
thuộc tỷ lệ chính xác khá cao.
Kết luận: Cả hai phương pháp Hierachical Clustering và K-means, khi thực hiện
phân cụm dữ liệu với số cụm là 2 đều thu được kết quả hợp lý, sát thực tế. Vì vậy, nhóm
tiến hành so sánh kết quả phân cụm với nhãn ban đầu, tính tỷ lệ chính xác để tìm ra
phương pháp tốt hơn. Kết quả cho thấy khi phương pháp Hierarchical Clustering có tỳ lệ
chính xác cao hơn so với phương pháp K-means (0.89>0.85). Vì vậy đối với bộ dữ liệu
của nhóm thì phân cụm theo phương pháp Hierarchical Clustering là tốt nhất.
24
4.3. Phân lớp dữ liệu
Trong khoa học dữ liệu, bài toán phân lớp dữ liệu là một trong những bài toán cơ
bản nhưng có ý nghĩa quan trọng và có nhiều ứng dụng thực tiễn. Phân lớp dữ liệu có thể
được ứng dụng cho một loạt bài toán như dự báo kinh doanh, dự báo tài chính, chẩn đoán
y khoa, nhận dạng đối tượng, dịch thuật, ….
Hình 11: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange.
Cây quyết định (Decision Tree)

 Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả
khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định.
 Trong lĩnh vực khai phá dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân
loại và tổng quát hóa tập dữ liệu cho trước.
Hình 12: Bảng kết quả cây quyết định.
Nhìn vào tree viewer ta có thể thấy, bộ dữ liệu sau khi được phân lớp có 363 models
và 182 nhánh cho thấy cây quyết định đã phân loại và tổng quát hóa tập dữ liệu rất rõ
ràng.
25
Hình 13: Bảng đánh giá Test & Score.
Bảng Test and Score ta thấy được chỉ số AUC của Tree là 0.607 , SVM là 0.717 và
Hồi quy Logistic là 0.909 lớn nhất trong các phương pháp còn lại và gần với 1 nhất. Điểu
này cho thấy phương pháp Hồi quy Logistic là phương pháp được xem là đánh giá tốt
nhất cho dữ liệu trên
Ma trận nhầm lẫn (Confusion Matrix)
Hình 14: Bảng kết quả ma trận nhầm lẫn của phương pháp hồi quy logistic.
Xét ma trận nhầm lẫn của phương pháp hồi quy logistic, ma trận này thể hiện rõ:
 4331 no-no: 4331 khách hàng ta đoán không đăng ký tiền gửi có kỳ hạn và trên
thực tế là không đăng ký.
 106 yes-no: 106 khách hàng ta đoán có đăng ký tiền gửi có kỳ hạn nhưng thực tế
là không đăng ký.
 352 no- yes: 352 khách hàng ta đoán không đăng ký tiền gửi có kỳ hạn nhưng thực
tế là có đăng ký.
26
 210 yes-yes: 210 khách hàng ta đoán có đăng ký tiền gửi có kỳ hạn và trên thực tế
là có đăng ký.
 Điều trên cho thấy, đa số khách hàng không có nhu cầu đăng ký tiền gửi có kỳ
hạn.
Công cụ Predictions
Hình 15: Bảng kết quả dự báo bằng phương pháp hồi quy logistic.
Chọn ngẫu nhiên 500 khách hàng (10% trong bộ data) để dự đoán, ta thấy rằng “no”
chiếm số lượng lớn so với “yes”.Với kết quả trên cho thấy rằng, khách hàng không đăng
ký tiền gửi có kỳ hạn chiếm tỷ lệ cao so với khách hàng đăng ký tiền gửi có kỳ hạn.
27
Hình 16: Bảng kết quả dự báo bằng bằng phương pháp hồi quy logistic xuất ra excel.
CHƯƠNG 5: KẾT LUẬN
5.1. Kết luận

Với bộ dữ liệu có liên quan đến các chiến dịch tiếp thị trực tiếp của một tổ chức
ngân hàng Bồ Đào Nha với mục tiêu xác định khách hàng đăng ký tiền gửi có kỳ hạn hay
không. Nhóm tác giả đã tiến hành tiền xử lý dữ liệu với Data Sampler và bỏ qua một số
thuộc tính không quan trọng, phân lớp với phương pháp Hồi quy Logistic và tiến hành
phân cụm dữ liệu với phương pháp Hierarchical.
Sau thời gian tiến hành nghiên cứu, với biến thuộc tính Previous thể hiện số lần liên
lạc với khách hàng trong chiến lược trước đa số đều là 0 lần, một số ít là 1 lần và 2 lần.
Pountcome kết quả của chiến dịch trước đa số đều không tồn tại. Cho thấy ngân hàng
không quan tâm tới khách hàng cũ và không giữ liên lạc với khách hàng trong chiến dịch
trước sẽ ảnh hưởng tới kết quả chiến dịch và biến thuộc tính Duration, đây là biến thuộc
tính quan trọng ảnh hưởng nhiều đến mục tiêu đầu ra, với thời lượng liên lạc cuối cùng
với khách hàng, thời lượng càng nhiều thông tin thu thập được càng nhiều và độ chính
xác cao, cho kết quả xác thực tế hơn và cho thấy được khách hàng có đang quan tâm đến
chiến dịch này không.
Với các biến thuộc tính nhóm tác giả tiến hành nghiên cứu đã dự báo được khách
hàng đã đăng ký tiền gửi có kỳ hạn và khách hàng chưa đăng ký tiền gửi có kỳ hạn.
Khách hàng chưa đăng ký tiền gửi có kỳ hạn chiếm phần lớn so với khách hàng đã đăng
ký tiền gửi có kỳ hạn. Với kết quả đạt được không lệch nhiều so với nhãn mục tiêu sẵn có
trong bộ dữ liệu. Các chiến dịch tiếp thị qua điện thoại vẫn là một trong những cách hiệu
quả nhất để tiếp cận với mọi người cung cấp thông tin xác định dự báo khách hàng đăng
ký tiền gửi có kỳ hạn.
5.2. Hướng phát triển

Sau khi phân tích, nhóm tác giả đưa ra một số đề xuất về hướng phát triển chiến
lược thu hút khách hàng đăng ký tiền gửi có kỳ hạn như sau:
28
a) Xác định đúng khách hàng cần hướng đến
Bởi vì khả năng tất toán của tiền gửi bị hạn chế nhiều trong khoản thời gian khách
hàng đang gửi tiết kiệm, cho nên phân khúc khách hàng mà chúng ta hướng đến sẽ là
những người có mối quan tâm đến gửi tiết kiệm, thu nhập ổn định, có một khoản tiền
nhàn rỗi sẵn sàng để có thể gửi tiết kiệm.
b) Cung cấp thông tin về sản phẩm
Sau khi đã có được khách hàng tiềm năng, thì ngân hàng phải tư vấn cho khách
hàng về các gói tiền gửi có về lợi ích khi đăng ký gói tiền gửi có hạn, so với việc đăng ký
tại ngân hàng này thì có khác gì so với các ngân hàng khác, cho khách hàng thấy sự khác
biệt.
 Mức lãi suất: Lãi suất thường cao hơn nhiều so với tiền gửi không kỳ hạn.
 Kỳ hạn gửi: Kỳ hạn linh hoạt: theo tuần, theo tháng hoặc theo năm
 Phương thức trả lãi: Trả lãi trước, trả lãi định kỳ hoặc trả lãi sau.
 Các ưu đãi: Khách hàng sẽ thường xuyên nhận được các chương trình ưu đãi từ
ngân hàng như mở thẻ tín dụng không cần chứng minh thu nhập, ưu đãi lãi suất khi vay.
c) Đa dạng các sản phẩm tiền gửi có kỳ hạn
Cũng là một khoản Tiền gửi có kỳ hạn nhưng để thu hút được khách hàng thì ngân
hàng cần tạo ra đa dạng các hình thức, dịch vụ để khách hàng cảm thấy dễ dàng, không
khó chịu khi sử dụng dịch vụ. Ví dụ như về kênh giao dịch, khách hàng có thể lựa chọn
gửi tiền tại quầy hoặc gửi online (trực tuyến), các gói sản phẩm có kỳ hạn và mức lãi suất
hấp dẫn,... Điều này sẽ làm cho khách hàng có thể chủ động lựa chọn, phù hợp với số tiền
nhàn rỗi của mỗi khách hàng.
d) Tăng cường các chiến dịch quảng cáo, tiếp thị
Có lẽ nhắc đến chiến lược thu hút khách hàng mới thì chắc chắn không thể “vắng
mặt” các chiến dịch quảng cáo, tiếp thị. Đây chính là “vũ khí” để sản phẩm, dịch vụ và
thương hiệu của bạn có thể “phủ sóng” rộng rãi và thu hút được những khách hàng mới
ngày càng nhiều hơn. Với sự phát triển mạnh mẽ của công nghệ - thông tin, hiện nay việc
triển khai các chiến dịch quảng cáo, tiếp thị cũng được tối ưu hơn rất nhiều. Thậm chí,
nếu ngân sách có phần eo hẹp bạn có thể ưu tiên trước cho các hoạt động digital
29
marketing trước. Sau đó, khi đã có “khởi sắc” thì những hoạt động marketing truyền
thống như báo chí, quảng cáo ngoài trời,… có thể xen kẽ triển khai để tối ưu về hiệu quả
nhất.
e) Luôn giữ tương tác với khách hàng
Rất nhiều khách hàng cũ không trở thành khách hàng trung thành do không có sự
liên hệ và tương tác qua lại hai bên.
Triển khai một vài phương pháp giữ liên lạc đơn giản với khách hàng như email,
gọi điện định kỳ hàng tháng, sẽ đảm bảo khách hàng không cảm thấy bị bỏ rơi sau khi đã
mua hàng. Nếu đã lỡ đánh mất khách hàng theo cách này, thì một trong những cách sửa
sai là gửi một email (thư điện tử) cho khách hàng, thể hiện rằng doanh nghiệp rất tiếc khi
họ đã ngừng mua hàng và đề nghị tặng cho họ một ưu đãi trong một khoảng thời gian
nhất định nào đó. Một số doanh nghiệp đã sử dụng cách này và thông thường giới hạn số
thư từ 5-7 thư nếu họ không nhận được bất kỳ phản hồi tích cực nào.
30
TÀI LIỆU THAM KHẢO
Nguyễn Thị Thùy Linh (2005), bài luận tốt nghiệp “Nghiên cứu các thuật toán phân lớp
dựa trên cây quyết định”, Trường Đại học Công nghệ, ĐHQGHN.
Vi Văn Sơn (2016), luận văn thạc sĩ “Phân cụm thô của dữ liệu tuần tự”, Trường Đại học
Công nghệ, ĐHQGHN.
García, S., Luengo, J., & Herrera, F. (2015), “Data Preprocessing in Data Mining”, New
York: Springer.
Foster Provos, Tom Fawcett (2013), Data Science for Business, “What you need to know
about Data Mining and Data-Analytic Thinking”.
Một số link tài liệu:
https://abiz.edu.vn/khoa-hoc-du-lieu-data-science-la-gi/
https://www.oracle.com/in/data-science/what-is-data-science/
https://searchenterpriseai.techtarget.com/definition/data-science
https://hocvien.haravan.com/blogs/guides/5-chien-luoc-giu-chan-khach-hang-giup-
doanh-nghiep-cua-ban-phat-trien
https://bizfly.vn/techblog/6-meo-thu-hut-khach-hang-ban-le-trong-kinh-doanh-khong-
ngo-toi.html
https://ongxuanhong.wordpress.com/2018/02/03/voc-thu-orange-phan-mem-data-mining/
https://123docz.net/document/2841059-cac-phuong-phap-phan-cum-du-lieu.htm
https://123docz.net/document/3570720-ung-dung-ky-thuat-khai-pha-du-lieu-trong-
ids.htm

TL Word

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

TL Word

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC UEH

TRƯỜNG KINH DOANH

Giảng viên hướng dẫn: Trương Việt Phương

TP Hồ Chí Minh, Tháng 12/2021

Tìm bộ dữ liệu, thảo luận đề tài , giới

Tìm bộ dữ liệu, thảo luận đề tài, cơ sở

Tìm bộ dữ liệu, thảo luận đề tài, cơ sở

Tìm bộ dữ liệu, thảo luận đề tài, cơ sở

Tìm bộ dữ liệu, thảo luận đề tài, giới

1.1 Giới thiệu về Khoa học dữ liệu:

1.2. Giới thiệu về đề tài

1.2.1. Lý do chọn đề tài

1.2.2. Mục tiêu nghiên cứu

1.2.3. Phương pháp thực hiện

2.1. Tổng quan về phần mềm Orange:

2.2 Tổng quan về các phương pháp sử dụng

2.2.1. Tiền xử lý dữ liệu

2.2.1.1. Làm sạch dữ liệu

2.2.1.2. Tích hợp và chuyển đổi dữ liệu

2.2.1.3. Rút gọn dữ liệu

2.2.2.1. Định nghĩa

2.2.2.2. Đặc điểm

2.2.2.3. Các ứng dụng của phân cụm dữ liệu

2.2.2.4. Các phương pháp phân cụm

 Phương pháp Ward

Trong đó: m là tâm của cụm trộn.

2.2.3. Phân lớp

2.2.3.1. Định nghĩa

2.2.3.2. Quá trình phân lớp dữ liệu:

2.2.3.4. Môt số phương pháp phân lớp

2.2.3.5. Các phương pháp đánh giá mô hình phân lớp

CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT

CHƯƠNG 4: KẾT QUẢ THỰC HIỆN

4.1. Tiền xử lý dữ liệu

4.1.1. Chọn số lượng khảo sát

Hình 2: Kết quả xử lý “Role” của các thuộc tính.

4.2.2. Phương pháp K-Mean

Cây quyết định (Decision Tree)

CHƯƠNG 5: KẾT LUẬN

5.1. Kết luận

5.2. Hướng phát triển

You might also like