You are on page 1of 85

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

ÁP DỤNG MÔ HÌNH MÁY HỌC DỰ ĐOÁN KHÁCH HÀNG


TRUNG THÀNH RỜI NGÂN HÀNG

NGUYỄN QUANG TRƯỜNG

LUẬN VĂN THẠC SĨ KINH TẾ

TP. Hồ Chí Minh – Năm 2021


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

ÁP DỤNG MÔ HÌNH MÁY HỌC DỰ ĐOÁN KHÁCH HÀNG


TRUNG THÀNH RỜI NGÂN HÀNG

Chuyên ngành: Công nghệ thiết kế thông tin và truyền thông


Hướng đào tạo: Ứng dụng
Mã số: 8340405

LUẬN VĂN THẠC SĨ KINH TẾ

GIÁO VIÊN HƯỚNG DẪN KHOA HỌC


TS. NGUYỄN QUỐC HÙNG

TP. Hồ Chí Minh – Năm 2022


LỜI CAM ĐOAN
Tôi cam đoan đề tài luận văn “Mô hình chủ đề trong khám phá xu hướng nghiên cứu và ứng
dụng công nghệ Điện toán biên của doanh nghiệp” là do tôi thực hiện với sự hướng dẫn của TS. Bùi
Thanh Hiếu. Kết quả thực nghiệm trình bày trong luận văn được đúc kết từ những kiến thức trong quá
trình học tập dưới sự hướng dẫn tận tình của các giảng viên Khoa Hệ thống thông tin kinh doanh.
Cơ sở thực hiện luận văn căn cứ trên xu hướng phát triển thực tế của công nghệ và khoảng trống
trong nghiên cứu khoa học về mô hình chủ đề. Kết quả nghiên cứu của luận văn đảm bảo chưa từng có
trong các công bố nào trước đây. Ngoài các nghiên cứu tham khảo đã trích dẫn cụ thể trong luận văn, các
nội dung từ thu thập dữ liệu đến kết quả thực nghiệm do chính tác giả phân tích và tổng hợp.

TP. Hồ Chí Minh, ngày 07 tháng 10 năm 2021


Người thực hiện

Nguyễn Quang Trường


Chương 1: TỔNG QUAN ĐỀ TÀI……………………………………………….1
1.1. Cơ sở hình thành đề tài................................................................................1
1.2. Mục tiêu nghiên cứu<Thầy Hùng sửa>......................................................8
1.3. Đối tượng nghiên cứu...................................................................................9
1.4. Phạm vi nghiên cứu......................................................................................9
1.5. Phương pháp nghiên cứu.............................................................................9
1.6. Ý nghĩa khoa học hoặc thực tiễn.................................................................9
1.7. Kết cấu luận văn.........................................................................................10
Chương 2: CƠ SỞ LÝ THUYẾT VÀ TỔNG QUAN NGIÊM CỨU................11
2.1. Khái niệm cơ bản về khách hàng trung thành rời bỏ (Tập trung về kiến
thức ngân hàng).................................................................................................11
2.1.1. Định nghĩa khách hàng trung thành....................................................................................11
2.1.2. Cơ sở lý thuyết xác định khách hàng trung thành rời bỏ...................................................15
2.1.2.1 Churn rate.........................................................................................................................15
2.1.2.2 Retention rate....................................................................................................................16
2.1.2.3 Mối quan hệ giữa churn rate và retention rate..................................................................16
2.1.2.4 Các Phương pháp xác định churn rate..............................................................................16
2.1.3. Dự đoán khách hàng trung thành rời bỏ.............................................................................24
2.2. Các mô hình học máy................................................................................26
2.2.1. Máy học..................................................................................................................................26
2.2.2. Các giải thuật.........................................................................................................................28
2.2.2.1 Logistic regresion..............................................................................................................28
2.2.2.2 Decision tree......................................................................................................................30
2.2.2.3 Random forests (Ensembles of Decision Trees).................................................................33
2.2.2.4 Gradient boosted regression trees (gradient boosting machines)......................................37
2.3. Tình hình nghiêm cứu liên quan...............................................................39
2.3.1. Các nghiên cứu liên quan......................................................................................................39
2.3.2. Phân tích và đánh giá các nghiên cứu..................................................................................43
2.4. Môi trường thực hiện.................................................................................44
Chương 3: ĐỀ XUẤT MÔ HÌNH 47
3.1. Quy trình thực nghiệm...............................................................................47
3.1.1. Sơ đồ thực hiện.......................................................................................................................47
3.1.2. Diễn giải quy trình.................................................................................................................47
3.2. Mô tả dữ liệu...............................................................................................48
3.2.1. Thu thập dữ liệu.....................................................................................................................48
3.2.2. Phương pháp định nghĩa các tiêu chí...................................................................................49
3.2.3. Tiền xử lý dữ liệu...................................................................................................................51
3.2.3.1 Xử lý các dữ liệu trống......................................................................................................51
3.2.3.2 Xử lý các dữ liệu có giá trị ngoại lai.................................................................................52
3.2.3.3 Các xử lý dữ liệu khác.......................................................................................................53
3.2.3.4 Khai phá dữ liệu................................................................................................................55
3.2.4. Xác định mối quan hệ giữa biến phụ thuộc và biến độc lập...............................................55
3.2.4.1 Xác định biến mục tiêu (Performance windows)...............................................................55
3.2.4.2 Phân tích đơn biến.............................................................................................................59
3.3. Xây dựng mô hình......................................................................................69
Chương 4: ĐÁNH GIÁ KẾT QUẢ VÀ BÀN LUẬN..........................................72
4.1. Phương pháp lựa chọn và đánh giá mô hình..........................................72
4.2. Lựa chọn mô hình tốt cho bài toán dự đón khách hàng rời bỏ ngân
hàng.....................................................................................................................75
4.2.1. Kết quả mô hình:...................................................................................................................75
4.2.2. Đánh giá mô hình...................................................................................................................76
4.3. Hiện thực hóa Mô hình..............................................................................77
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................77
5.1. Tổng quả kết quả nghiêm cứu...................................................................77
5.2. Hướng phát triển........................................................................................77
TÀI LIỆU THAM KHẢO 77
Chương 1: GIỚI THIỆU ĐỀ TÀI

1.1. Cơ sở hình thành đề tài


Khách hàng luôn là tài sản quý giá nhất đối với bất kỳ tổ chức nào, trong môi
trường kinh doanh ngày càng cạnh tranh ngày nay, khách hàng có thể dễ dàng chuyển
đổi giữa các đối thủ cạnh tranh, do đó việc giữ chân khách hàng dường như là một yêu
cầu cơ bản, thiết yếu và có tầm quan trọng đối với bất kỳ một tổ chức nào. Nhiều công
ty gặp phải vấn đề nghiêm trọng về việc khách hàng bỏ đi, do sự cạnh tranh khốc liệt do
thị trường bão hòa, điều kiện thị trường năng động và liên tục đưa ra các dịch vụ cạnh
tranh mới. Các ngân hàng cũng không nằm ngoài quy luật này. Với Số lượng khách
hàng của các ngân hàng và công ty tài chính ngày càng tăng, các ngân hàng lớn
thường có hàng chục triệu khách hàng trong danh mục kinh doanh của họ và điều này
khiến các ngân hàng ý thức được chất lượng dịch vụ mà họ cung cấp. Hiện tượng rời
đi của khách hàng, được gọi là 'churn', tức là sự chuyển đổi lòng trung thành từ nhà
cung cấp dịch vụ này sang nhà cung cấp dịch vụ khác xảy ra do các lý do như sự sẵn
có của công nghệ mới nhất, nhân viên ngân hàng thân thiện với khách hàng, lãi suất
thấp, vị trí địa lý gần, dịch vụ đa dạng được cung cấp, v.v. Môi trường cạnh tranh của
các dịch vụ ngân hàng thương mại được cung cấp bởi các ngân hàng khác nhau làm
tăng sự cần thiết của việc giữ chân khách hàng, trong khi cố gắng tăng thị phần của
mình vào việc thu hút khách hàng mới. Tầm quan trọng của việc hiểu được sự rời bỏ
của khách hàng đã được nhấn mạnh trong một số nghiên cứu gần đây. Tỷ lệ duy trì
tăng 1% cho thấy giá trị công ty tăng trung bình 5%(Gupta, Lehmann, & Stuart,
2004). Việc giảm tỷ lệ rời bỏ 5 phần trăm đã được chứng minh là giúp tăng gấp đôi lợi
nhuận trong một số ngành(Reichheld, 1996).
Nhu cầu sử dụng sản phẩm dịch vụ của khách hàng là yếu tố quan trọng nhất
trong sự hình thành của bất cứ thị trường và doanh nghiệp nào. Nó thu hút các công ty
Trang 1
để đáp ứng nhu cầu của họ bằng cách phát triển các sản phẩm và dịch vụ mới. Một số
nghiên cứu đã chỉ ra rằng có được một khách hàng mới thường đắt gấp 5 đến 6 lần so
với việc giữ chân một khách hàng hiện có (Colgate & Danaher, 2000). Do tầm quan
trọng của khách hàng và chi phí thu hút khách hàng mới cao hơn so với việc duy trì
khách hàng hiện tại, các ngân hàng và các ngành phụ thuộc vào khách hàng khác phải
có khả năng tự động hóa quá trình dự đoán hành vi của khách hàng bằng cách sử dụng
dữ liệu của khách hàng trong cơ sở dữ liệu của họ. Trong khi đó, khách hàng rời đi là
một trong những vấn đề quan trọng nhất đối với Ngân hàng. Nó tước đi của một ngân
hàng các khoản thu nhập khác nhau và thu nhập từ phí ( tiền gửi không kỳ hạn, phí
chuyển tiền,…). Và quan trọng hơn, tiền gửi của khách hàng là nguồn thu nhập chính
của một ngân hàng trong hệ thống ngân hàng. Nó có thể dẫn đến việc rút một phần
tiền gửi của ngân hàng. Khi xem xét việc mất đi hai nguồn thu nhập này, cùng với khả
năng gia tăng rủi ro về uy tín, có thể dẫn ngân hàng đến bờ vực phá sản. Khi khách
hàng rời bỏ sẽ ảnh hưởng trực tiếp tới doanh thu và lợi nhuận của Ngân hàng. Mặt
khác, chi phí để duy trì một khách hàng hiện hữu thấp hơn nhiều so với chi phí tìm
kiếm một khách hàng mới. Vậy nên, hiểu rõ và giữ chân khách hàng là việc quan
trọng luôn được các doanh nghiệp quan tâm. Khách hàng rời bỏ trong lĩnh vực ngân
hàng mô tả một khách hàng bị mất đã hủy đăng ký dịch vụ ngân hàng và đăng ký một
ngân hàng khác. Các ngân hàng và các tổ chức tài chính khác thường xuyên kiểm tra
các giao dịch của khách hàng để phát hiện các dấu hiệu cảnh báo phổ biến trong hành
vi của khách hàng trước khi xảy ra churn. Quản lý rời bỏ đã trở thành một phần của
quản lý quan hệ khách hàng (CRM) vì thách thức nghiêm trọng của việc khách hàng
rời bỏ trong lĩnh vực ngân hàng. Quản lý rời bỏ nhấn mạnh sự cần thiết của các ngân
hàng để thực hiện các bước để ngăn chặn hoặc giảm thiểu sự rời bỏ của khách hàng
thông qua một số chương trình giữ chân khách hàng. Điều này cũng giúp thiết lập mối
quan hệ lâu dài với khách hàng và tối đa hóa giá trị cơ sở khách hàng của họ. Khách
hàng rời bỏ đặt ra mối quan tâm nghiêm trọng đối với các ngân hàng vì nó gây ra tổn
Trang 2
thất doanh thu cho ngành. Vì lý do này, các ngân hàng rất muốn xác định những
khách hàng có khả năng hủy đăng ký dịch vụ của họ cao nhất. Dự đoán rời bỏ cho
phép sử dụng hồ sơ giao dịch của khách hàng để xác định khả năng khách hàng từ bỏ
dịch vụ trước khi khách hàng thật sự rời bỏ. Nhắm mục tiêu khách hàng trên cơ sở
hành vi mua hàng (đang thay đổi) của họ có thể giúp tổ chức kinh doanh tốt hơn và
các chương trình phần thưởng cho lòng trung thành giúp tổ chức xây dựng mối quan
hệ bền chặt hơn với khách hàng.
Mặc dù nó có thể tạo ra sự thu hút thích hợp đối với khách hàng của Ngân hàng,
nhưng Ngân hàng cần phải hiểu rõ về hành vi năng động của khách hàng. Dựa trên sự
hiểu biết này, chúng ta có thể đưa ra kế hoạch phù hợp để giữ chân khách hàng. Trong
ngân hàng, khách hàng là thành phần chủ yếu của hoạt động kinh doanh ngân hàng.
Tất cả các chiến lược và kế hoạch của họ được tổ chức để thu hút khách hàng mới, giữ
chân khách hàng hiện tại và cuối cùng là nâng cao sự hài lòng của khách hàng. Nhiều
Ngân hàng đã chuyển từ chiến lược lấy ưu đãi làm trung tâm, được thiết kế để bán càng
nhiều ưu đãi càng tốt, sang phương pháp duy trì hướng đến khách hàng nhằm tìm cách
giảm tỷ lệ rời bỏ một cách rõ ràng.
Một trong những điều khó khăn nhất trong việc ngăn chặn tình trạng rời bỏ Ngân
hàng là đó không phải là công việc của riêng ai, theo nghĩa là không một người nào hoặc
bộ phận công việc nào có thể làm việc đó một mình. Rất khó để chống lại tình trạng rời
bỏ vì các bộ phận khác nhau của doanh nghiệp chịu trách nhiệm giảm tỷ lệ rời bỏ theo
những cách khác nhau. Tất cả các nhóm này đều có các công cụ và phương pháp khác
nhau và chúng có thể không phù hợp với tình huống và chiến lược. Ngoài ra, mọi phương
pháp để giảm tỷ lệ rời bỏ đều yêu cầu doanh nghiệp nhắm mục tiêu can thiệp vào những
khách hàng có nhiều khả năng phản hồi nhất. Do đó, để chống lại tình trạng rời bỏ sản
phẩm, các doanh nghiệp cần có một tập hợp các sự kiện hoặc quy tắc được chia sẻ để
hiểu khách hàng và mức độ tương tác của họ với sản phẩm. Xem xét các chiến lược để
giảm tỷ lệ rời bỏ được mô tả trong phần trước: cải tiến sản phẩm, chiến dịch tương tác, hỗ

Trang 3
trợ và thành công của khách hàng, bán hàng và định giá. Những chức năng đó bao trùm
hơn một nửa các phòng ban trong một tổ chức điển hình. Điều đó có nghĩa là việc giảm tỷ
lệ churn sẽ gặp phải các vấn đề về giao tiếp và phối hợp có bộ phân trong Ngaanh ngàng.
Nếu không được kiểm soát, các nhóm khác nhau sẽ có xu hướng đưa ra các phương pháp
tiếp cận không phối hợp để giảm tình trạng churn. Ví dụ, sẽ phản tác dụng nếu nhóm sản
phẩm và tiếp thị quyết định tập trung vào việc thúc đẩy việc sử dụng các tính năng hoặc
nội dung khác nhau. Và những cách tiếp cận đó có thể dựa trên thông tin hạn chế hoặc
thiếu sót. Vì họ không phải là chuyên gia dữ liệu, nên không có gì đảm bảo rằng các lựa
chọn do các nhóm độc lập đưa ra sẽ được dữ liệu định hướng chính xác. Ngoài ra, trong
một tình huống điển hình, người cung cấp dữ liệu không thể tự mình làm bất cứ điều gì
để giảm tỷ lệ rời bỏ. Việc giảm tỷ lệ rời bỏ phụ thuộc vào các hành động được thực hiện
bởi các chuyên gia trong các bộ phận khác nhau của doanh nghiệp, chứ không phải bởi
một cá nhân quản lý dữ liệu. Những người phụ trách dữ liệu thường không có trách
nhiệm trực tiếp đối với kết quả kinh doanh cụ thể (chẳng hạn như doanh thu), trong khi
những người ở các vai trò khác đó thường làm. Theo quan điểm của người làm dữ liệu,
Ngân hàng là người dùng cuối của kết quả phân tích dữ liệu.Cách tốt nhất để biến dữ liệu
thành vũ khí trong cuộc chiến chống lại sự rời bỏ là sử dụng dữ liệu để tạo ra các phép đo
khách hàng hiệu quả và đưa các phép đo đó đến tay những người chống lại sự rời bỏ của
doanh nghiệp.
Các chiến lược cố gắng giảm tỷ lệ rời bỏ liên quan đến sự can thiệp của con
người không phát triển tốt, Ngân hàng khó có khả năng thích ứng đủ nhanh với những
thay đổi trong nhu cầu của khách hàng, mặc dù các ngân hàng phân khúc khách hàng
theo các nhà quản lý địa phương, nhưng vẫn khó phát hiện các mẫu khách hàng theo
cách thủ công, đặc biệt nếu họ quản lý một số lượng lớn khách hàng. Dự đoán rời bỏ
khách hàng là phương pháp gán xác suất rời bỏ cho từng khách hàng trong cơ sở dữ liệu
của công ty, theo mối quan hệ được dự đoán giữa thông tin lịch sử của khách hàng đó và
hành vi rời bỏ trong tương lai của khách hàng đó. Trên thực tế, xác suất chấm dứt mối
quan hệ với Ngân hàng sau đó được sử dụng để xếp hạng các khách hàng từ ít có khả
Trang 4
năng rời bỏ nhất đến ít nhất và những khách hàng có xu hướng rời bỏ cao nhất sẽ nhận
được các chiến dịch duy trì tiếp thị. Hai thách thức ảnh hưởng đến sự thành công của các
chiến dịch này. Đầu tiên, điều quan trọng là phải phát triển các chiến thuật tiếp thị phù
hợp để thuyết phục những người rời bỏ tiềm năng ở lại. Thứ hai, các công ty có thể cải
thiện lợi tức đầu tư của họ vào các chiến dịch duy trì bằng cách phân biệt những người
rời bỏ tiềm năng, những người nhạy cảm hơn với các hành động tiếp thị (tức là những
khách hàng dễ thuyết phục) với những người sẽ rời đi, cho dù họ có nhận được đề nghị
giữ chân hay không (tức là không thuyết phục được khách hàng ở lại). Nỗ lực này được
gọi là hiệu ứng ròng hoặc mô hình nâng cao.

Ngày nay, các phương pháp khai thác dữ liệu như kỹ thuật học máy hiện đang
được sử dụng để dự đoán sự rời bỏ của khách hàng trong các Ngân hàng cạnh tranh và
để khám phá các thông tin có giá trị đối với việc giải quyết vấn đề khách hàng rời bỏ.
Khi các thuật toán máy học được đào tạo với dữ liệu phát sinh từ các giao dịch của
khách hàng, kiến thức hữu ích trong dữ liệu được phát hiện và các thách thức trong
ngân hàng được giải quyết bằng cách tìm một số mẫu thông thường, quan hệ nhân quả
và mối tương quan với thông tin kinh doanh. Khả năng khách hàng hủy đăng ký dịch
vụ của một Ngân hàng cũng có thể được dự đoán. Điều này rất quan trọng vì nó giúp
ban lãnh đạo ngân hàng xác định những khách hàng có nguy cơ rời bỏ và phân tích
xem họ có đáng để giữ lại hay không. Như đã được chứng minh bởi một số nghiên
cứu, các mô hình rời bỏ máy học rất quan trọng để triển khai các kỹ thuật CRM trong
ngân hàng và nhiều ngành khác nhằm nâng cao tỷ lệ giữ chân khách hàng.
Sự tiến bộ của công nghệ trong vài thập kỷ qua đã giúp các ngân hàng và nhiều
tổ chức dịch vụ khác có thể thu thập và lưu trữ dữ liệu về khách hàng của họ và phân
loại họ thành các loại khách hàng rời bỏ hoặc không. Bản thân dữ liệu không có nhiều
giá trị nếu chúng không được nghiên cứu để tiết lộ thông tin chứa trong chúng. Để tìm
thông tin có giá trị từ dữ liệu, một quá trình gọi là khai thác dữ liệu được áp dụng.
Học máy, một tập hợp con của khai thác dữ liệu, cho phép các tổ chức nghiên cứu
Trang 5
hành vi của khách hàng, bao gồm cả việc rời bỏ mô tả trạng thái trong đó khách hàng
hủy đăng ký hoặc rời bỏ tổ chức để đến với Ngân hàng đối thủ, do đó dẫn đến tổn thất
về doanh thu và lợi nhuận. Các nhà nghiên cứu và các tổ chức phụ thuộc vào khách
hàng đã xác định nhu cầu nghiên cứu các mẫu và xu hướng trong dữ liệu và rút ra kết
luận từ chúng, dự đoán liệu khách hàng có phải là người rời bỏ tiềm năng hay không.
Kiến thức quan trọng này cho phép các ngân hàng duy trì sự liên quan và giữ chân
khách hàng bằng cách áp dụng các chương trình khách hàng thân thiết làm tăng sự hài
lòng của khách hàng.
Hiện nay, phân tích và dự đoán tỷ lệ khách hàng rời bỏ Ngân hàng được rất
nhiều nhà nghiên cứu quan tâm và được xử lý thông qua các mô hình như: Random
Forest, Logistic regression, Decision Tree, XGBoot,…Nhưng trong mỗi mô hình được
sử dụng này đều có các lỗ hổng như Random Forest rất dễ bị ngưng hoạt động nếu
vượt quá hạn mức (overfitting), Mô hình Decision Tree phụ thuộc rất lớn vào dữ liệu
của bạn, với một sự thay đổi nhỏ trong bộ dữ liệu, cấu trúc mô hình Decision Tree có
thể thay đổi hoàn toàn, Logistic Regression là nó yêu cầu các điểm dữ liệu được tạo ra
một cách độc lập với nhau,… . Ngân hàng cũng như các công ty tài chính luôn có một
nguồn dữ liệu khách hàng rất lớn dẫn đến việc phải có một mô hình có thể đáp ứng
hoạt động được trên nguồn dữ liệu lớn này. Tiêu chí lợi nhuận tối đa dự kiến được
phát triển gần đây được sử dụng như một trong những biện pháp đo lường hiệu suất
chính để cung cấp thêm thông tin chi tiết từ góc độ lợi ích chi phí. Kết quả thực
nghiệm cho thấy thước đo đánh giá được áp dụng có tác động lớn đến hiệu suất của
các kỹ thuật. Việc khám phá chuyên sâu về các kiểu phản ứng đối với các biện pháp
khác nhau được thực hiện bằng cách so sánh nội bộ gia đình trong từng nhóm giải
pháp và so sánh toàn cầu giữa các kỹ thuật đại diện từ các nhóm khác nhau. Kết quả
cũng chỉ ra rằng có nhiều không gian để cải thiện hiệu suất của các giải pháp về mặt
đo lường dựa trên lợi nhuận. Nghiên cứu của chúng ta cung cấp những hiểu biết có giá

Trang 6
trị cho các học giả và chuyên gia, đồng thời nó cũng cung cấp cơ sở để phát triển các
phương pháp mới nhằm giải quyết sự mất cân bằng giai cấp trong dự đoán rời bỏ.
Do đó, dự đoán khách hàng rời bỏ có thể được trình bày dưới dạng nhiệm vụ phân
loại nhị phân với sự phân bổ lớp không cân bằng, trong đó những người rời bỏ thuộc về
nhóm thiểu số và những người không rời bỏ thuộc về nhóm đa số. Vấn đề mất cân bằng
lớp tạo ra ảnh hưởng tiêu cực lớn đến các thuật toán học phân loại tiêu chuẩn. Hầu hết
trong số họ có xu hướng thiên về tầng lớp đa số. Trong những trường hợp cực đoan,
Ngân hàng có thể phân loại tất cả các trường hợp thành nhóm đa số, dẫn đến độ chính xác
tổng thể cao nhưng độ chính xác thấp không thể chấp nhận được đối với nhóm lợi ích
thiểu số. Chẳng hạn, khi một mô hình được đào tạo trên một tập dữ liệu với 1% trường
hợp thuộc lớp thiểu số, tỷ lệ chính xác 99% có thể đạt được bằng cách chỉ cần phân loại
tất cả các trường hợp thuộc về lớp đa số. Thật vậy, bài toán học trên tập dữ liệu mất cân
bằng được coi là một trong mười bài toán thách thức trong nghiên cứu khai phá dữ liệu.
Để giải quyết vấn đề học tập từ các tập dữ liệu mất cân bằng, nhiều giải pháp đã được đề
xuất trong vài năm qua. Hầu hết các giải pháp được đề xuất nổi tiếng gần như rơi vào ba
nhóm: cấp độ dữ liệu, cấp độ thuật toán và giải pháp đồng bộ. Các giải pháp cấp dữ liệu
áp dụng lấy mẫu lại như một bước tiền xử lý để giảm tác động tiêu cực do mất cân bằng
lớp. Các giải pháp ở cấp độ thuật toán nhằm mục đích phát triển các thuật toán mới hoặc
sửa đổi các thuật toán hiện có để học tập thiên vị đối với lớp thiểu số. Các giải pháp đồng
bộ hoặc sửa đổi các thuật toán học tập đồng bộ ở cấp dữ liệu để xử lý trước dữ liệu trước
giai đoạn học tập của các bộ phân loại cơ sở hoặc nhúng một khung nhạy cảm với chi phí
trong quy trình học tập đồng bộ. Mỗi loại giải pháp đều có ưu và nhược điểm, không có
sự đồng thuận rõ ràng về điều gì tạo nên giải pháp tốt nhất để giải quyết vấn đề mất cân
bằng giai cấp trong dự đoán rời bỏ.

Để giảm tỷ lệ rời bỏ, Ngân hàng thường có thể chạy một chiến dịch email để thúc
đẩy việc sử dụng một tính năng của sản phẩm. Nhưng một chiến dịch như vậy nên được
nhắm mục tiêu đến những người dùng không sử dụng tính năng này, chứ không phải gửi

Trang 7
đến tất cả những người dùng có nguy cơ rời bỏ vì bất kỳ lý do gì. Làm tắc nghẽn hộp thư
đến của người dùng với nội dung không phù hợp sẽ khiến họ bỏ đi chứ không cứu được
họ! Dự đoán rủi ro rời bỏ có thể là một biến số hữu ích trong việc lựa chọn khách hàng để
các nhóm Thành công của Khách hàng can thiệp trực tiếp, nhưng ngay cả khi đó, nó chỉ
là một biến số xác định mục tiêu.

Việc xậy dựng mô hình máy học để dự đoán khách hàng trung thành rời bỏ phải
phù hợp với ý nghĩa về mặc kinh doanh của Ngân hàng (mô hình phải dựa trên thông tin
hành vi hiện tại để dự doán khách hàng rời đi trong tương lại). Phù hợp với pháp luật về
bảo mật thông tin khách hàng của Ngân hàng. Dễ hiểu để các bộ phận trong Ngân hàng
có thể phối hợp nhịp hàng để triển khai. Hữu ý cho hiều nhiều chức năng để Ngân hàng
có thể thực hiện các công việc cần làm tiếp theo để lên phương án và thực hiện chiến dịch
để giữ chân khách hàng (sản phẩm, tiếp thị, hỗ trợ, v.v.).

1.2. Mục tiêu nghiên cứu<Thầy Hùng sửa>

Đề tài ‘’Áp dụng mô hình máy học dự đoán khách hàng trung thành ròi bỏ Ngân hàng” là
quy trình tạo ra mô hình mấy học dựa trên thông tin hành vi và thông tin khách hàng để
dự doán khách hàng rời bỏ ngân hàng trong tương lai. Thông qua mô hình này có thể
giúp Ngân hàng:

− Giữ chân được khách hàng hiện tại có khả năng rời bỏ trong tương lai.

− Tập tận dụng hiểu quả nguồn lực ngân hàng.

− Phát triển được các sản phẩm phù hợp với khách hàng hơn.

− Tính toán ước lượng được dòng tiền trong ngân hàng

− Tuân thủ thông tư 07/2019/TT-NHNN của ngân hàng nhà nước.

− Giữ chân khách hàng làm giảm nhu cầu tìm kiếm khách hàng mới, cho phép các tổ
chức tập trung vào việc củng cố mối quan hệ với khách hàng hiện tại.

Trang 8
− Khách hàng có thời gian quan hệ dài với Ngân hàng, quen thuộc với công ty hơn,
có xu hướng mua hàng nhiều hơn và khi hài lòng, họ có thể thực hành tiếp thị giới
thiệu.
− Phục vụ và duy trì khách hàng lâu dài ít tốn kém hơn do kiến thức thu được tăng
lên trong vòng đời tiêu dùng của họ.

1.3. Đối tượng nghiên cứu

− Đề tài nghiêm cứu dự trên tập dữ liệu thực tế Khách hàng cá nhân đã và
đang có quan hệ Ngân hàng thông qua hệ thống ( T24, Wayfour,…) của một
ngân hàng cổ phần thương mại lớn tại Việt Nam.

1.4. Phạm vi nghiên cứu


Đề tài này được thực hiện trên dữ liệu mẫu thông tin nội bộ của Ngân hàng
từ 2018-2020 để thực hiện xây đựng mô hinh máy học và hướng phát triển,
không bị ảnh hưởng từ các ý tố bên ngoài ( thông tin bất lợi với Ngân hàng,
độ phủ và quy mô hình Ngân hàng,….).

1.5. Phương pháp nghiên cứu

− Nghiên cứu tổng quan, lý thuyết: Dựa trên việc nghiên cứu phân tích các
công trình nghiên cứu liên quan, từ đó đánh giá ưu nhược điểm của các
hướng tiếp cận và đề xuất phương pháp phù hợp với ứng dụng cụ thể.
− Nghiên cứu thực nghiệm: Các phương pháp đề xuất, sau khi đã được phân
tích đánh giá định tính sẽ được cài đặt thử nghiệm và đánh giá trên các bộ dữ
liệu thực tế.
− Đánh giá thử nghiệm: Trước tiên sẽ được tiến hành một cách độc lập trên
từng mô đun, sau đó sẽ kết hợp và triển khai hệ thống hoàn chỉnh.

Trang 9
1.6. Ý nghĩa khoa học hoặc thực tiễn

− Ý nghĩa lý thuyết: Luận văn khi hoàn thành không chỉ là hệ thống hoá các
kiến thức về phương pháp trong lĩnh vực học máy mà còn là tài liệu để tham
khảo trong việc xây dựng các mô hình khác liên quan tới các bài toán phân
loại trong Ngân hàng (Dự báo khách hàng vỡ nợ, dự báo khách hàng có
hành vi gian lận,…) .
− Ý nghĩa thực tiễn: giúp cho doanh nghiệp nguyên nhân khách hàng trung
thành rời bỏ, xác định giá phân nhóm khách hàng cần tập trung vào mang lại
giá trị, ước lượng lượng rủi ro dòng tiền cho các tổ chức tài chính.

1.7. Kết cấu luận văn


Đề tài được trình bày theo năm chương chính như sau:

Chương 1: Tổng quan đề tài

Chương 2: Tổng quan nghiêm cứu và cơ sở lý thuyết

Chương 3: Đề xuất mô hình

Chương 4: Đánh giá kết quả và bàn luận

Chương 5: Kết luận và hướng phát triển

Trang 10
Chương 2: CƠ SỞ LÝ THUYẾT VÀ TỔNG QUAN
NGIÊM CỨU

2.1. Khái niệm cơ bản về khách hàng trung thành rời bỏ (Tập
trung về kiến thức ngân hàng)
2.1.1. Định nghĩa khách hàng trung thành

Từ churn có nguồn gốc từ thuật ngữ tỷ lệ churn, dùng để chỉ khách hàng rời đi
trong một khoảng thời gian nhất định sau khi đã sử dụng sản phẩm hoặc dịch vụ., như
chúng ta sẽ thảo luận chi tiết hơn ở phần sau. Điều này dẫn đến khách hàng hoặc dân số
người dùng thay đổi theo thời gian, đó là lý do tại sao thuật ngữ churn có ý nghĩa. Từ ban
đầu có nghĩa là “di chuyển mạnh mẽ”.

Tùy theo ngành, sản phẩm dịch vụ cung cấp của mỗi tổ chức, chúng ta có thể chia
churn thành các nhóm như sau:

◦ Một sản phẩm hoặc dịch vụ được cung cấp và sử dụng trên cơ sở định kỳ
(các ứng dụng trả phí theo hàng tháng,…).
◦ Khách hàng tương tác với sản phẩm (Facebook, zalo,…).
◦ Đăng ký có thể bị kết thúc hoặc hủy bỏ, được gọi là churn. Nếu không có
đăng ký, khách hàng sẽ rời bỏ khi họ ngừng sử dụng sản phẩm. (Các gói
dịch vụ mạng viễn thông,…)

Trang 11
◦ Đăng ký có thể bị kết thúc hoặc hủy bỏ, Thời gian, giá và thanh toán cho
khách hàng và đăng ký (nếu có) được ghi lại trong cơ sở dữ liệu, điển hình
là cơ sở dữ liệu giao dịch. (Ngân hàng, tổ chức tín dụng,….)
◦ Khi khách hàng sử dụng hoặc tương tác với sản phẩm hoặc dịch vụ, những
sự kiện này thường được theo dõi và lưu trữ trong kho dữ liệu.(Lazada,
shopee, Tiki,…)

Thông thường trong lĩnh vực tài chính Ngân hàng, không có trường hoặc cờ trên
đăng ký hoặc tài khoản nào nói rằng “Đây là tài khoản/khách churn” trong cấu trúc quản
lý dữ liệu của một tổ chức (chỉ biết khi khách hàng đã rời đi khi khách hàng đến chi
nhánh/ phòng giao dịch hủy tài khoản như vậy không tín kịp thời với công nghệ số và
nghiệp vụ quan hệ khách hàng hiện tại). Đúng hơn, churn là một trạng thái động cho mỗi
tài khoản hay mỗi khách phải được xác định tại một thời điểm nhất định tuỳ theo mục
tiêu của một chức nhất định. Đối với vấn đề đó, nếu có một trường hoặc cờ trên tài khoản
hoặc tập lệnh phụ cho biết đó là một churn, chúng ta phải được trên thực trạng của dữ
liệu rồi tự định nghĩa thông qua trao đổi với người có kinh nghiệm để xác định khách
hàng churn (ví dụ trong ngân hàng thì có thể trao đổi với bộ phân quản trị rủi ro).

Định nghĩa phổ biến nhất về khách hàng đang hoạt động cho các sản phẩm không
đăng ký/ sử dụng chỉ đơn giản là khách hàng đã sử dụng sản phẩm trong khoảng thời gian
gần đây. Hoạt động của người dùng có xu hướng được nhóm lại, do đó, việc coi khoảng
thời gian hoạt động là một chuỗi các sự kiện là điều tự nhiên mà không có khoảng cách
lớn giữa hai sự kiện liên tiếp bất kỳ ( sử dụng thường xuyên sang trạng thái không sử
dụng sản phẩm dịch vụ). Nếu vượt quá giới hạn thời gian tối đa (thông lệ là 6 tháng), đó
được coi là churn. Giới hạn thời gian như vậy nên được đặt đủ lâu để hầu hết những
người làm việc vượt quá giới hạn sẽ không quay lại với việc sử dụng sản phẩm/dịch vụ, ít
nhất là trong một thời gian (thông lệ là 6 tháng).

Ví dụ: Khách hàng tại một Ngân hàng không có bất kỳ giao dịch phát sinh (chuyển tiền
qua tài khoản) trong vòng sáu tháng liên tục.
Trang 12
Mục tiêu chính của bất kỳ dịch vụ nào là phát triển bằng cách thêm khách hàng
hoặc người dùng thông qua việc tham gia thị trường và bán hàng. (Điều này đúng đối với
cả doanh nghiệp vì lợi nhuận và phi lợi nhuận.). Khi các khách hàng rời đi, điều này sẽ
ảnh hưởng đến sự phát triển của công ty và thậm chí có thể dẫn đến thu hẹp. Hầu hết các
nhà cung cấp dịch vụ tập trung vào việc khách hàng quay lại mua hàng hay sử dụng lại
dịch vụ. Nhưng để thành công, một dịch vụ cũng phải hoạt động để giảm thiểu tình trạng
khách hàng rời đi. Nếu tình trạng Khách hàng rời đi không được giải quyết một cách liên
tục và chủ động, sản phẩm hoặc dịch vụ sẽ không phát huy hết tiềm năng của nó. Do đó,
nhu cầu duy trì doanh thu của họ đã thúc đẩy các công ty hiểu và phân tích hành vi của
khách hàng để xác định trước những khách hàng có xu hướng churn hơn. Bằng cách này,
doanh nghiệp có thể chủ động hành động để giữ chân khách hàng và tăng lợi nhuận.

Việc phát hiện tình trạng churn cụ thể trong lĩnh vực ngân hàng có thêm những
thách thức. Thứ nhất, các ngân hàng lớn thường có hàng chục triệu khách hàng trong
danh mục khách hàng của họ. Các chiến lược cố gắng giảm thiểu tình trạng churn liên
quan đến sự can thiệp của con người không mở rộng quy mô tốt. Thứ hai, họ không có
khả năng thích ứng đủ nhanh với những thay đổi trong nhu cầu của khách hàng. Thứ ba,
mặc dù các ngân hàng phân khúc khách hàng qua các nhà quản lý địa phương, vẫn khó
phát hiện các mẫu khách hàng theo cách thủ công, đặc biệt nếu họ quản lý một số lượng
lớn khách hàng. Những tính năng này tạo ra nhu cầu của các phương pháp tự động có thể
phát hiện các mẫu hành vi không tầm thường của khách hàng có thể đề xuất trước sự xáo
trộn tiềm năng trong các tập dữ liệu khổng lồ này. Những đặc điểm này thúc đẩy việc sử
dụng các kỹ thuật học máy, cung cấp các phương pháp học có giám sát đã chứng minh
tìm hiểu các mẫu không tầm thường trong dữ liệu (không có sự can thiệp của con người)
và khái quát hóa tốt cho dữ liệu chưa từng thấy trước đó.

Tuy nhiên, không phải tất cả khách hàng đều cần mức độ dịch vụ giống nhau,
cũng như tất cả họ đều sẵn sàng trả tiền như nhau cho dịch vụ đó hoặc để có được dịch vụ
theo cùng một cách. Ý thức chung cho chúng ta biết rằng không thể thực hiện một cách
Trang 13
trọn vẹn, trong một môi trường ngày càng không đồng nhất, nhiệm vụ khó khăn là phát
triển lòng trung thành của tất cả khách hàng. Vì lý do này, bắt đầu từ sự chắc chắn rằng
khách hàng không hài lòng sẽ luôn tồn tại, các công ty phải tập trung nỗ lực vào việc phát
triển một chương trình duy trì trên phạm vi rộng, duy trì và cải thiện các khía cạnh đó của
ưu đãi và các rào cản để thay đổi điều đó tác động nhiều nhất và tốt nhất đến liên kết tổng
thể của khách hàng như một nhóm. Mục tiêu không phải là bảo vệ tất cả khách hàng, mà
là bảo vệ càng nhiều khách hàng càng tốt và đặc biệt là những người có giá trị nhất đối
với một công ty nhất định.

Mặt khác, mặc dù các khoảng thời gian quan trọng làm tăng thời gian cho phép
phản ứng của ngân hàng, chúng cũng có thể dễ dàng dẫn đến kết quả không nhất quán do
có thể có sự thay đổi trong môi trường giai đoạn này kết luận rằng những thay đổi liên
quan trong nền kinh tế, sự gián đoạn trong mô hình kinh doanh hoặc thậm chí là khủng
hoảng chính trị hoặc tài chính có thể ảnh hưởng đến xu hướng rời bỏ ngân hàng của
khách hàng. Tất cả những điều này cho thấy cần phải tìm ra sự cân bằng tối ưu giữa độ
chính xác của các dự đoán và thời gian phản ứng cho phép. Vì lý do này, điều cần thiết là
phải xác định trước thời gian chúng ta muốn và chúng ta có thể biết liệu khách hàng có
xu hướng churn hay không. Câu trả lời này phụ thuộc vào nhu cầu của ngân hàng và cũng
là một thách thức đáng kể.

Tuy nhiên, và mặc dù sự hài lòng của khách hàng có ảnh hưởng tích cực đến mức
độ liên kết, nhưng điều đó không phải lúc nào cũng đủ. Có nhiều tình huống trong đó
chất lượng dịch vụ tốt hơn không có tác động đáng kể đến lòng trung thành của khách
hàng. Ví dụ: khách hàng thay đổi ngân hàng do ủng hộ người quen, khách hàng không rõ
về thông tin sản phẩm, thái độ của nhân viên đối khách hàng,... Do đó, còn phải có các
yếu tố khác, ngoài sự hài lòng với dịch vụ, ảnh hưởng đến lòng trung thành của khách
hàng.

Trong thời gian tồn tại tự nhiên của khách hàng, có thể xảy ra những thay đổi bên
ngoài như sự xuất hiện của sản phẩm mới, sự thay đổi trong cung cấp của đối thủ cạnh
Trang 14
tranh, thay đổi công nghệ và / hoặc thay đổi nội bộ (nâng cao trình độ hiểu biết của khách
hàng hoặc tăng khả năng chuyên môn của họ, thay đổi kinh tế xã hội , v.v.) xảy ra có thể
ảnh hưởng đến kỳ vọng của khách hàng và kết quả là mức độ hài lòng của họ. Các Ngân
hàng phải theo dõi những thay đổi này để điều chỉnh các chính sách và thủ tục của họ sao
cho họ có thể duy trì và cải thiện ý kiến của khách hàng về dịch vụ được cung cấp. Quá
trình phân tích các khía cạnh có tác động nhiều nhất đến sự hài lòng và sự điều chỉnh tiếp
theo trong các thủ tục và chính sách thương mại phải trở thành một quá trình liên tục theo
thời gian.

Mặt khác, ở góc độ hoạt động, việc thỉnh thoảng hỏi ý kiến của tất cả các khách
hàng là không thể, với chi phí cao, thậm chí không thể thỉnh thoảng hỏi ý kiến của họ
(thậm chí còn hơn thế nữa trong trường hợp các công ty có quy mô hàng trăm nghìn hoặc
thậm chí hàng triệu khách hàng đang hoạt động) về sự hài lòng nhận thấy về dịch vụ mà
họ đang được cung cấp và / hoặc mức độ gắn kết của họ. Do đó, các công ty phải làm
việc với đủ mẫu đại diện và phát triển, dựa trên phân tích của họ, các chính sách thương
mại phù hợp.

Để bền vững, các rào cản đối với sự thay đổi phải được xây dựng, như sự hài lòng,
dựa trên nhận thức của khách hàng. Bằng cách này, sự phát triển tích cực của các rào cản
đối với sự thay đổi trở thành một yếu tố xuất sắc, bên cạnh sự hài lòng về dịch vụ, điều
mà đối thủ cạnh tranh khó vượt qua trong nỗ lực thu hút khách hàng tốt nhất. Việc xây
dựng các chính sách và thủ tục nhằm duy trì và cải thiện sự xuất sắc ở cả hai khía cạnh
(sự hài lòng và các rào cản đối với sự thay đổi) nên hoạt động như những công cụ phòng
ngừa để bảo vệ khách hàng khỏi bị các đối thủ cạnh tranh dụ dỗ.

Nỗ lực kinh doanh này — được đo lường dưới dạng chiết khấu, lợi ích và đặc
quyền dành cho khách hàng để họ loại bỏ ý định thay đổi nhà cung cấp — cần được cân
bằng với giá trị mong đợi của khách hàng. Điều này có nghĩa là có thể có những khách
hàng mà công ty sẽ quyết định không giữ lại ngay cả khi ý định thay đổi của họ đã được

Trang 15
xác định trước, vì lợi nhuận kỳ vọng khi kéo dài tuổi thọ khách hàng của họ không đủ
cho chi phí của hành động thương mại cần thiết.

2.1.2. Cơ sở lý thuyết xác định khách hàng trung thành rời bỏ

2.1.2.1 Churn rate

Churn rate là tỷ lệ khách hàng (quan sát ) churn trên tổng số lượng khách hàng
( tổng quan sát ) tại cùng một thời điểm.Tỷ lệ churn tiêu chuẩn thường được gọi là tỷ lệ
churn khách hàng vì nó đề cập đến tình trạng ngừng hoạt động hoàn toàn của một chủ tài
khoản có thể có nhiều đăng ký. Vì vậy, đối với tỷ lệ churn tiêu chuẩn, một chủ tài khoản
hủy một đăng ký nhưng vẫn giữ một đăng ký khác không được coi là bỏ qua.

Kháchhàng churn
Công thức: Churn rate= (2.1)
Tổng khách hàng

2.1.2.2 Retention rate

Trái ngược với churn rate ta có Retention rate (tỷ lệ giữ chân khách hàng ), được tính
bằng khách hàng trung thành trên tổng số lượng khách hàng ( tổng quan sát ) tại cùng một
thời điểm.

Khách hàng Retention


Công thức: Retention rate= (2.2)
Tổng khách hàng

2.1.2.3 Mối quan hệ giữa churn rate và retention rate

Đây là một thực tế quan trọng về tỷ lệ churn (churn rate ) và tỷ lệ duy


trì( Retention rate): chúng có liên quan theo một cách rất chính xác và là hai mặt của
cùng một đồng tiền.

Công thức: Churn rate + Retention rate=100 % (2.3)

2.1.2.4 Các Phương pháp xác định churn rate


Trang 16
A. Net retention rate (NRR)

Tỷ lệ duy trì ròng (NRR) là tỷ lệ doanh thu định kỳ mà công ty hay tổ chức vẫn
nhận được vào cuối kỳ từ những người đăng ký có mặt lúc đầu. Giống như tất cả các
đảm bảo về khách hàng churn và khách hàng duy trì, tỷ lệ duy trì ròng được đo lường
trong một khoảng thời gian cụ thể (thường là một năm). Giống như tất cả các thước đo
churn, tỷ lệ giữ chân ròng bỏ qua doanh thu mới có được từ các lần đăng ký trong khoảng
thời gian. Mặt khác, một thực tế quan trọng về tỷ lệ giữ chân thực là nó bao gồm những
thay đổi về doanh thu từ những người đăng ký được giữ lại nếu điều này xảy ra. Điều này
có thể xảy ra đối với bất kỳ sản phẩm hoặc dịch vụ nào có nhiều gói sản phẩm, số lượng
không hợp lý tạm thời hoặc thay đổi gói giá (hầu hết các gói đăng ký trả phí).

Ví dụ:

Bảng 2.1: Minh họa xác định churn rate theo phương pháp NRR

Ngày ghi
Ngày bắt đầu giao Doanh thu hàng Trạng
Mã khách hàng nhận doanh
dịch tháng (MRR) thái
thu

00000001 5-Feb-16 31-Jan-18 5,000,000

00000002 9-Apr-16 31-Jan-18 10,000,000

00000003 10-Nov-16 31-Jan-18 1,000,000

00000004 4-Jan-17 31-Jan-18 550,000

00000005 5-May-17 31-Jan-18 3,000,000

00000001 5-Feb-16 28-Feb-18 5,000,000

Trang 17
Ngày ghi
Ngày bắt đầu giao Doanh thu hàng Trạng
Mã khách hàng nhận doanh
dịch tháng (MRR) thái
thu

00000002 9-Apr-16 28-Feb-18 - Churn

00000003 10-Nov-16 28-Feb-18 1,000,000

00000004 4-Jan-17 28-Feb-18 550,000

00000005 5-May-17 28-Feb-18 3,000,000

00000006 4-Feb-18 28-Feb-18 100,000 New

00000007 5-Feb-18 28-Feb-18 500,000 New

Để tính NRR là MRR của những khách hàng đã ở lại (tổng số khách hàng 1, 3, 4
và 5 trên 28/02/2018 hoặc 9,550,000 vnd) chia cho MRR của những người đã sử dụng
dịch vụ lúc đầu (19,550,000 vnd) , hoặc 9,550,000 / 19,550,000 = 48.85%

Tỷ lệ giữ chân ròng = 9,550,000 / 19,550,000 = 48.85%

Tỷ lệ churn ròng =100% - 48.85% = 51.15%

Tỷ lệ giữ chân ròng là phép đo duy nhất liên quan đến thời gian chờ thường được
trích dẫn hơn là tỷ lệ giữ chân chứ không phải tỷ lệ churn. Điều này một phần là do
các tình huống phát sinh trong các gói đăng ký nhiều mức giá, đặc biệt là khả năng
mất thời gian ròng âm (mặt khác, tỷ lệ giữ chân thực luôn dương).

● Vì cách tính thời gian hoạt động dựa trên NRR, khách hàng trả nhiều tiền hơn
có tác động lớn hơn đến tỷ lệ khi họ rời đi.

Trang 18
● Những thay đổi về NRR đối với những khách hàng không rời đi cũng ảnh
hưởng đến tỷ lệ.

Tỷ lệ giữ chân ròng và Tỷ lệ churn ròng dựa trên doanh thu khác với tỷ lệ churn
(tiêu chuẩn) dựa trên số lượng người đăng ký. Tác động của việc bán thêm đối với
những người đăng ký được giữ lại có thể bù đắp hiệu quả tình trạng ngừng hoạt động,
và việc giảm doanh số giữa những người đăng ký được giữ lại có thể làm tăng hiệu
quả tình trạng ngừng hoạt động. Việc tăng giá và hết thời gian giảm giá làm giảm tỷ lệ
churn rõ ràng trong tỷ lệ giữ chân ròng, điều này làm cho nó trở thành một phép đo ít
cụ thể hơn về tình trạng churn và ít hữu ích hơn để chống lại tình trạng churn. Độ
churn tiêu chuẩn (dựa trên số lượng) và độ churn MRR được mô tả trong các phần sau
là các phép đo cụ thể hơn về độ churn và được ưu tiên hơn.

Một lý do có cơ sở hơn một chút là bất cứ khi nào hàng bán tăng cao hơn lượng
bán giảm, tỷ lệ churn ròng (bắt nguồn từ 100% trừ đi tỷ lệ duy trì ròng) ít hơn so với
tỷ lệ churn tiêu chuẩn (dựa trên số lượng) bỏ qua các thay đổi về doanh thu. Như tôi
vừa giải thích, những thay đổi về doanh thu thuần (hàng bán thêm và hết hạn chiết
khấu trừ đi hàng bán) che giấu một cách hiệu quả tỷ lệ churn cơ bản thực sự. Đối với
nhiều công ty, việc báo cáo tỷ lệ giữ chân ròng thay vì một trong các phép đo thời
gian cụ thể hơn là một vấn đề của mối quan hệ đầu tư tốt hơn và một chút sai lệch về
các nguyên tắc kinh doanh cơ bản. Trong những trường hợp cực đoan, sự gia tăng
trong nhóm doanh thu từ hàng bán thêm có thể lớn hơn tác động tổng hợp của việc
giảm lượng hàng bán ra và làm giảm nguồn doanh thu. Đây là một kịch bản hiếm gặp
nhưng rất đáng mong đợi, được gọi là rối loạn tiêu cực.

B. Tỷ lệ churn tiêu chuẩn

Tỷ lệ churn dựa trên tài khoản tiêu chuẩn có ý nghĩa đơn giản nhất vì nó không
bị ảnh hưởng bởi các đợt bán thêm, giảm giá và hết hạn chiết khấu. Nó luôn đơn giản
Trang 19
đề cập đến tỷ lệ khách hàng hoàn toàn hủy bỏ dịch vụ. Tỷ lệ churn tiêu chuẩn được sử
dụng làm chỉ số hoạt động chính khi tất cả người đăng ký trả số tiền tương tự hoặc
đăng ký miễn phí. Nếu tất cả người đăng ký trả tiền giống hệt nhau (nghĩa là không có
chiết khấu hoặc bất kỳ biến thể nào hoặc sản phẩm miễn phí), thì thời gian churn tiêu
chuẩn có thể được tính bằng truy vấn tỷ lệ giữ chân thực hoặc truy vấn tỷ lệ churn tiêu
chuẩn. Nhưng nếu có sự thay đổi nhỏ về giá cả hoặc nếu có các khoản chiết khấu tạm
thời, thì bạn nên sử dụng phương pháp tính churn tiêu chuẩn được đưa ra trong phần
này. Hoạt động của người dùng có xu hướng được nhóm lại, do đó, việc coi khoảng
thời gian hoạt động là một chuỗi các sự kiện là điều tự nhiên mà không có khoảng
cách lớn giữa hai sự kiện liên tiếp bất kỳ. Nếu vượt quá giới hạn thời gian tối đa, đó
được coi là bỏ cuộc. Giới hạn thời gian như vậy nên được đặt đủ lâu để hầu hết những
người làm việc vượt quá giới hạn sẽ không quay lại, ít nhất là trong một thời gian.
( phù hợp với Ngân hàng)

Ví dụ:

Bảng 2.2: Minh họa xác định churn rate theo phương pháp tỷ lệ tiêu chuẩn

Ngày ghi
Ngày bắt đầu giao Doanh thu hàng
Mã khách hàng nhận doanh Trạng thái
dịch tháng (MRR)
thu

00000001 5-Feb-16 31-Jan-18 5,000,000

00000002 9-Apr-16 31-Jan-18 10,000,000

00000003 10-Nov-16 31-Jan-18 1,000,000

00000004 4-Jan-17 31-Jan-18 550,000

00000005 5-May-17 31-Jan-18 3,000,000

Trang 20
Ngày ghi
Ngày bắt đầu giao Doanh thu hàng
Mã khách hàng nhận doanh Trạng thái
dịch tháng (MRR)
thu

00000001 5-Feb-16 28-Feb-18 5,000,000

00000002 9-Apr-16 28-Feb-18 - Churn

00000003 10-Nov-16 28-Feb-18 1,000,000

00000004 4-Jan-17 28-Feb-18 550,000

00000005 5-May-17 28-Feb-18 3,000,000

00000006 4-Feb-18 28-Feb-18 100,000 New

00000007 5-Feb-18 28-Feb-18 500,000 New

Để tính churn tiêu chuẩn là những khách hàng đã ở lại (tổng số khách hàng 1, 3, 4 và
5 trên 28/02/2018 chia cho MRR của người đã sử dụng dịch vụ lúc đầu.

Tỷ lệ giữ chân =4 / 5 = 80%

Tỷ lệ churn =100% - 80% = 20%

C. Churn rate nâng cao (Doanh thu định kỳ hàng tháng - MRR )

Tỷ lệ churn tiêu chuẩn có thể có vấn đề với các sản phẩm đăng ký nhiều mức
giá. Tỷ lệ churn tiêu chuẩn bỏ qua lượng bán giảm, điều này nên được coi là một phần
của thời gian ngừng hoạt động, trong khi tỷ lệ duy trì ròng bao gồm lượng bán giảm
nhưng cũng bao gồm hàng bán tăng thêm, không nên được coi là churn. Có một biện
pháp khác được thực hiện cho tình huống này: MRR churn. Đây là cách tính churn
phúc tạp nhất, nhưng nó là chính xác nhất khi có nhiều sản phẩm và giá cả của tập

Trang 21
lệnh phụ. Sử dụng MRR churn nếu bạn có những khách hàng trả nhiều mức giá khác
nhau: nghĩa là những khách hàng có giá trị nhất của bạn trả gấp đôi mức giá thấp nhất
của bạn trở lên. Trong phần mềm B2B dành cho doanh nghiệp, những khách hàng có
giá trị nhất có thể trả nhiều hơn gấp 100 lần những khách hàng ít giá trị nhất và MRR
churn là điều cần thiết tuyệt đối trong các tình huống như vậy. MRR churn một lần
nữa là tỷ lệ lỗ so với trạng thái ban đầu, nhưng bây giờ tử số của tỷ lệ churn là tổng số
lỗ từ cả số lần bán chạy và giảm, trong khi mẫu số là doanh thu của khách hàng khi
bắt đầu. minh họa cho các tính toán hỗn loạn với bán tăng và giảm bán, chu kỳ MRR
bao gồm mất hoàn toàn MRR từ các chu kỳ hoàn toàn (xu hướng từ trên xuống hướng
xuống trong hình 2.6) cũng như tổn thất do bán giảm (hình lưỡi liềm hướng xuống thứ
hai trong Hình 2.6) là tử số. Nó bao gồm MRR được giữ lại dưới dạng giá trị tự nhiên
nhưng không bao gồm MRR bán thêm. Vì lý do này, đây là thước đo chính xác nhất
để đánh giá tình hình hoạt động của các sản phẩm đăng ký đa giá.

Ví dụ:

Bảng 2.3: Minh họa xác định churn rate theo phương pháp MRR

Ngày ghi Doanh thu


Ngày bắt đầu giao
Mã khách hàng nhận doanh hàng tháng Trạng thái
dịch
thu (MRR)

00000001 5-Feb-16 31-Jan-18 5,000,000

00000002 9-Apr-16 31-Jan-18 10,000,000

00000003 10-Nov-16 31-Jan-18 1,000,000

00000004 4-Jan-17 31-Jan-18 550,000

Trang 22
Ngày ghi Doanh thu
Ngày bắt đầu giao
Mã khách hàng nhận doanh hàng tháng Trạng thái
dịch
thu (MRR)

00000005 5-May-17 31-Jan-18 3,000,000

00000001 5-Feb-16 28-Feb-18 5,000,000

00000002 9-Apr-16 28-Feb-18 - Churn

00000003 10-Nov-16 28-Feb-18 500,000

00000004 4-Jan-17 28-Feb-18 550,000

00000005 5-May-17 28-Feb-18 3,000,000

00000006 4-Feb-18 28-Feb-18 100,000 New

00000007 5-Feb-18 28-Feb-18 500,000 New

Tỷ lệ churn MRR là MRR của những khách hàng còn lại hoặc bây giờ trả ít hơn
(10trd vnd từ khách hàng 2, người đã churn, và 0.5 trd vnd thay đổi so với khách hàng 3,
người đã hạ cấp, cho một tổng là 9.05trd vnd ) chia cho MRR của tất cả các khách hàng
lúc bắt đầu (19,550)

MRR churn = 9.05/ 19.55 = 46.29%

D. So sánh các phương pháp tính churn rate

Một tình huống khá phổ biến không thích hợp để sử dụng Tỷ lệ churn theo doanh
thu là đối với các kịch bản phụ có kế hoạch hàng năm với Tỷ lệ churn theo doanh thu
thấp hơn kế hoạch hàng tháng. Các khách hàng sử dụng sản phẩm, dịch vụ có thể chốt ở
mức thấp nhưng cam kết cả năm bằng cách trả trước. Điều này thường tốt cho việc kinh
doanh thuê bao vì nếu thực hiện đúng, nó sẽ dẫn đến giá trị lâu dài hơn cho người đăng
ký. Tuy nhiên, nó sẽ được coi là giảm giá khi người đăng ký chuyển từ gói hàng tháng kế
Trang 23
hoạch hàng năm và những thay đổi như vậy sẽ có tác động tiêu cực đến tỷ lệ churn được
báo cáo. Trong trong tình huống như vậy, có lẽ tốt hơn là sử dụng tỷ lệ churn tiêu chuẩn.

Tỷ lệ churn theo doanh thu là thích hợp nhất khi có sự khác biệt thực sự lớn giữa
Tỷ lệ churn theo doanh thu của các loại tài khoản khác nhau: trong bán hàng phần mềm
B2B, các tài khoản lớn có thể dễ dàng thanh toán gấp 10 lần hoặc hơn số tiền của các tài
khoản nhỏ. Đối với các công ty có sự khác biệt trong giá cả của họ, thường có một mối
quan hệ nhất quán giữa ba thước đo thời gian.

Tỷ lệ churn tiêu chuẩn > Tỷ lệ churn theo doanh thu > Tỷ lệ churn ròng

Bảng 2.4: So sánh các phương pháp tính churn rate

  Tiêu chí đánh giá

Cách Sản phẩm Biến động giá Quy mô Khách hàng

tính churn

Có ít sản Biến động giá ít giữ


Tỷ lệ churn ròng Tổ chức nhỏ Doanh ngiệp
phẩm dòng sản phẩm

Có nhiều
Biến động giá
Tỷ lệ churn tiêu dòng sản Cá nhân/ doanh
nhiều giữ dòng sản Tổ chức lớn
chuẩn phẩm đa nghiệp
phẩm
dạng

Tỷ lệ churn theo Có ít sản Biến động giá ít giữ


Tổ chức lớn Doanh ngiệp
doanh thu phẩm dòng sản phẩm

Chúng ta có thể mong đợi rằng Tỷ lệ churn theo doanh thu thường sẽ cao hơn
thước đo Tỷ lệ churn tiêu chuẩn vì Tỷ lệ churn theo doanh thu bao gồm tác động của việc
bán giảm, nhưng churn tiêu chuẩn thì không. Tuy nhiên, hầu như luôn luôn xảy ra trường
hợp các tài khoản trả nhiều tiền hơn thường xuyên hơn các tài khoản trả ít hơn cho các
sản phẩm đa giá. Những người đăng ký trả ít nhất hầu như luôn luôn kiếm được nhiều
tiền hơn. Điều này có vẻ nghịch lý nếu chúng ta không làm việc trên một sản phẩm như
Trang 24
vậy, theo logic rằng trả nhiều tiền hơn sẽ khiến khách hàng không hài lòng hơn. Tuy
nhiên, trong các sản phẩm B2B, giá cao hơn sẽ đến với những người đăng ký công ty lớn
sử dụng sản phẩm nhiều hơn (có nhiều người dùng hơn), và các công ty lớn hơn hầu như
luôn ổn định hơn các công ty nhỏ hơn. Ngoài ra, các công ty lớn hơn trả nhiều tiền hơn
có xu hướng cam kết sử dụng sản phẩm lâu hơn vì họ đã có một quá trình cân nhắc lâu
hơn trước khi mua hàng và đầu tư nhiều hơn vào việc thiết lập và vận hành sản phẩm
đăng ký. Do đó, Tỷ lệ churn theo doanh thu tính tất cả người đăng ký như nhau hầu như
luôn cao hơn Tỷ lệ churn theo doanh thu cho một sản phẩm B2B.

Tỷ lệ churn ròng được tính từ việc duy trì ròng hầu như luôn luôn là ít nhất trong
tất cả các biện pháp churn. Điều này là do, ngoài việc phản ánh tỷ lệ gián đoạn thấp của
những người đăng ký công ty lớn, nó cũng tính số tiền bán lại trong các tài khoản được
giữ lại so với t Tỷ lệ churn tiêu chuẩn. Như đã đề cập trước đây, tỷ lệ churn ròng được
tính từ khách hàng giữ lại ròng thậm chí có thể là âm khi hàng bán tăng cao hơn lượng
bán xuống và số lần bán chạy.

2.1.3. Dự đoán khách hàng trung thành rời bỏ

Dự đoán Churn là một nhiệm vụ phân tích yếu tố của kinh doanh nhằm phát hiện
những khách hàng có khả năng tự ý rời bỏ công ty. Khi một công ty đã xác định được
những người không thích tiềm năng, một chiến dịch duy trì tùy chỉnh có thể được thiết kế
để nâng cao lòng trung thành của khách hàng. Lòng trung thành cực kỳ có lợi vì những
khách hàng gắn bó tạo ra nhiều doanh thu hơn những khách hàng khác, đồng thời nó làm
giảm chi phí hoạt động và việc tiêu tiền do những nỗ lực tiếp thị không hiệu quả gây ra.

Sự thành công của các chiến dịch giữ chân không chỉ phụ thuộc vào độ chính xác
của việc dự đoán những churn tiềm năng, mà với tầm quan trọng không kém, nó phụ
thuộc vào thời điểm dự đoán được thực hiện. Các công trình trước đây liên quan đến dự
đoán thời gian không hoạt động đã trình bày các mô hình dự đoán thời gian gián đoạn
hàng tháng với trọng tâm là hành vi tĩnh của khách hàng và thậm chí các nghiên cứu xem
Trang 25
xét hành vi động của khách hàng, chủ yếu xem xét hành vi cấp độ hàng tháng. Tuy nhiên,
hành vi của khách hàng dễ bị thay đổi theo các ngày trong tháng và trong thời gian dẫn
đến quyết định bỏ qua của khách hàng, họ bắt đầu cư xử khác. Do đó, việc xem xét các
đặc điểm hành vi hàng tháng ảnh hưởng tiêu cực đến hiệu suất dự đoán, vì nó bỏ qua
những thay đổi trong hành vi qua các ngày trong tháng. Hơn nữa, việc dự đoán khách
hàng churn đi hàng tháng sẽ là muộn đối với những khách hàng đã quyết định rời đi vào
đầu tháng vì họ sẽ không bị phát hiện là người quấy rầy cho đến tháng sau.

Dự đoán Churn đã được thực hiện bằng cách sử dụng các kỹ thuật khác nhau bao
gồm học dự đoán và giữ chân những khách hàng khó tính, giúp đưa ra quyết định và
chuyển thông tin sang CRM. Quá trình phát triển của khách hàng phải được theo dõi và
phải ước tính số lượng khách hàng có nguy cơ rời bỏ. Đó là lý do tại sao các công ty phải
có một mô hình dự đoán đáng tin cậy (được điều chỉnh cho phù hợp với nghiên cứu thị
trường và dựa trên thông tin hành vi được công ty thu thập một cách có hệ thống) cho
phép họ xác định — với đủ dự đoán — những khách hàng có xu hướng chuyển đổi nhà
cung cấp dịch vụ và, do đó, khởi chạy các hành động giữ chân hiệu quả. Theo phép ẩn dụ
y học, việc chẩn đoán sớm xu hướng mắc bệnh sẽ làm giảm đáng kể mức độ tích cực của
phương pháp điều trị gắn kết lòng trung thành bắt buộc và sẽ tăng khả năng phục hồi của
khách hàng. Trong bối cảnh này, giá trị của khách hàng (được hiểu là giá trị của khách
hàng là tổng giá trị lặp lại thực tế và giá trị tiềm năng của họ) trở thành thứ nguyên cơ
bản sẽ xác định loại liệu pháp nào, chủ động và / hoặc phản ứng, nên được áp dụng bất kỳ
lúc nào.

Vấn đề dự đoán churn có thể được giải quyết thông qua học có giám sát, chuyển nhiệm
vụ thành một bài toán phân loại nhị phân. Máy học có thể được sử dụng để dự đoán
khách hàng nào có nhiều khả năng sẽ chấp nhận hơn. Với nhiều loại kỹ thuật dự đoán,
chiến lược thông thường để chọn đúng là xây dựng một số mô hình và đánh giá hiệu suất
dự đoán của chúng bằng cách sử dụng các biện pháp thống kê. Tuy nhiên, cách tiếp cận
này gần đây đã bị chỉ trích vì nó xa rời mục tiêu chính của quá trình học tập, đó là thực
Trang 26
hiện hành động có lợi cho khách hàng thông qua các chiến dịch duy trì. Theo nghĩa này,
các số liệu định hướng mục tiêu đã được phát triển trong những năm gần đây để giải
quyết vấn đề dự đoán churn, tính toán lợi nhuận kỳ vọng của một chiến dịch giữ chân.

2.2. Các mô hình học máy


2.2.1. Máy học

Học máy là một nhánh đang phát triển của các thuật toán điện toán được thiết kế
để mô phỏng trí thông minh (AI) của con người bằng cách học hỏi từ môi trường xung
quanh. Chúng được coi là phát triển làm việc trong kỷ nguyên mới của cái gọi là dữ liệu
lớn (big dataO. Các kỹ thuật dựa trên học máy đã được áp dụng thành công trong nhiều
lĩnh vực khác nhau như kỹ thuật tàu vũ trụ, tài chính, giải trí và sinh học tính toán đến các
ứng dụng y sinh và y học, v.v.

Học máy có thể được phân loại rộng rãi dựa trên việc máy tính học (tức là lắp mô
hình) là “có giám sát” hay “không giám sát”. Học có giám sát gần giống với kiểu khớp
mô hình tiêu chuẩn trong thực hành dịch tễ học: Giá trị của kết quả (tức là biến phụ
thuộc), thường được gọi là “nhãn” của nó trong học máy, được biết cho mỗi lần quan sát.
Dữ liệu với các giá trị kết quả được chỉ định được gọi là “dữ liệu được dán nhãn”. Các kỹ
thuật học có giám sát phổ biến bao gồm các phương pháp tiếp cận dịch tễ học tiêu chuẩn
như hồi quy tuyến tính và logistic, cũng như nhiều thuật toán học máy phổ biến nhất (ví
dụ: cây quyết định, máy vectơ hỗ trợ).

Học máy có giám sát là một trong những loại học máy thành công và được sử
dụng phổ biến nhất. Hãy nhớ rằng học có giám sát được sử dụng bất cứ khi nào chúng ta
muốn dự đoán một kết quả nhất định từ một đầu vào nhất định và chúng ta có ví dụ về
các cặp đầu vào/đầu ra. Chúng ta xây dựng một mô hình máy học từ các cặp đầu vào/đầu
ra này, bao gồm tập huấn luyện của chúng tôi. Mục tiêu của chúng ta là đưa ra dự đoán
chính xác cho dữ liệu mới, chưa từng thấy trước đây. Học tập có giám sát thường đòi hỏi

Trang 27
nỗ lực của con người để xây dựng tập huấn luyện, nhưng sau đó tự động hóa và thường
tăng tốc một nhiệm vụ tốn nhiều công sức hoặc không khả thi.

Có hai loại vấn đề học máy được giám sát chính, được gọi là phân loại và hồi quy.
Trong bài toán phân loại, mục tiêu là dự đoán phân lớp, là lựa chọn từ danh sách các khả
năng được xác định trước. Chúng ta đã sử dụng ví dụ về phân loại diên vĩ thành một
trong ba loài có thể. Phân loại đôi khi được tách thành phân loại nhị phân, đó là trường
hợp đặc biệt của việc phân biệt chính xác hai lớp và phân loại đa lớp, là sự phân loại giữa
nhiều hơn hai lớp. Chúng ta có thể nghĩ về phân loại nhị phân giống như cố gắng trả lời
câu hỏi có/không. Phân loại khách hàng có vỡ nợ hay không là một ví dụ về vấn đề phân
loại nhị phân. Trong nhiệm vụ phân loại nhị phân này, câu hỏi có/không được hỏi sẽ là
"Khách hàng này có phải là khách hàng vỡ không?" Trong phân loại nhị phân, chúng ta
thường nói về một lớp là lớp tích cực và lớp kia là lớp tiêu cực. Ở đây, tích cực không đại
diện cho lợi ích hay giá trị, mà là đối tượng của nghiên cứu là gì. Vì vậy, khi tìm kiếm
khách hàng vỡ nợ, "tiêu cực" có thể có nghĩa là loại khách hàng vỡ nợ.

Đối với các tác vụ hồi quy, mục tiêu là dự đoán một số liên tục theo thuật ngữ lập
trình (hoặc số thực theo thuật ngữ toán học). Dự đoán thu nhập hàng năm của một người
từ trình độ học vấn, tuổi tác và nơi họ sinh sống là một ví dụ về nhiệm vụ hồi quy. Khi dự
đoán thu nhập, giá trị dự đoán là một số tiền và có thể là bất kỳ số nào trong một phạm vi
nhất định. Một ví dụ khác về nhiệm vụ hồi quy là dự đoán sản lượng của một trang trại
ngô dựa trên các thuộc tính như sản lượng trước đó, thời tiết và số lượng nhân viên làm
việc trong trang trại. Năng suất lại có thể là một số tùy ý.

Một cách dễ dàng để phân biệt giữa nhiệm vụ phân loại và hồi quy là hỏi xem liệu có sự
liên tục nào đó trong đầu ra hay không. Nếu có sự liên tục giữa các kết quả có thể xảy ra,
thì vấn đề là một vấn đề hồi quy. Hãy suy nghĩ về việc dự đoán thu nhập hàng năm. Có
một sự liên tục rõ ràng trong đầu ra. Việc một người kiếm được 40.000 đô la hay 40.001
đô la một năm không tạo ra sự khác biệt rõ ràng, mặc dù đây là những khoản tiền khác

Trang 28
nhau, nếu thuật toán của chúng ta dự đoán 39.999 đô la hoặc 40.001 đô la trong khi lẽ ra
nó phải dự đoán 40.000 đô la, thì chúng ta không bận tâm lắm về điều đó.

2.2.2. Các giải thuật

2.2.2.1 Logistic regresion

Logistic regresion là phương pháp hồi quy thông dụng nhất, áp dụng cho các biến
mục thiêu không phải là biến định lượng liên tục. Theo IBM, Logistic regresion hay logit
model được ứng dụng trong phân tích dự báo, đã và đang ứng dụng rộng rãi trong lĩnh
vực học máy – Machine learning. Logistic regresion xuất hiện hầu hết các phần mềm
thống kê, các package code và khai phá dữ liệu, giúp người dùng tìm hiểu mối quan hệ
giữa các biến mục tiêu thông qua thiết lập phương trình hồi quy logit.

Ứng dụng logistic regression trong việc xây dựng mô hình dự báo đối với các
công ty ngyà nay như một phương pháp tạo nên sự khác biệt và lợi thế cạnh tranh. Vì đơn
giải các mô hình dự bóa sẽ giúp họ khai phá các mối quan hệ, những yếu tố sẽ tác động
lên doanh thu, lợi nhuận trong tương lai, thôn qua tìm hiểu hành vi của khách hàng, từ đó
có thể đưa ra quyết định hợp ký và kịp thời hiểu quả. Trong lĩnh vực ngân hàng, Logistic
regression thường được dùng để đánh giá rủi ro tín dụng khách hàng như xây dựng mô
hình dự báo khả năng vỡ nợ của khách hàng từ hành vi của khách hàng từ đó có thể lên
kế hoạch và phản ứng kịp thời khi sự việc xảy ra, nhằm bảo tồn được nguồn vốn và lợi
nhuận của Ngân hàng.

Phương trình tổng quát của Logistic regression đơn biến:

eB + B x
0 1

P= B +B x
1+e 0 1

Trang 29
Tham số B tỏng mô hình thể hiện giá trị trung bình của P tăng hay giảm khi x
tăng. Khi B1 > 0 , xác suất P tăng khi x tăng và ngược lại. Bên trên là phương tổng quát
hồi quy logistic đơn biến với duy nhất 1 biến độc lập và một biến mục tiêu. Trong thực tế
khi phân tích chúng sẽ để tâm tới nhiều yếu tố hơn đối tượng mục tiêu nghiêm cứu hơn.

Phương trình tổng quát của Logistic regression đa biến:

e B + B x + B x +…+ B x
0 1 1 2 2 p p

P=
1+e B +B x +B x +…+B
0 1 1 2 2 p xp

Trang 30
Các mô hình tuyến tính được đào tạo rất nhanh và cũng rất nhanh để dự đoán.
Chúng mở rộng quy mô thành các tập dữ liệu rất lớn và hoạt động tốt với dữ liệu thưa
thớt (dữ liệu ít). Nếu dữ liệu của chúng ta bao gồm hàng trăm nghìn hoặc hàng triệu mẫu,
chúng ta có thể muốn điều tra bằng cách sử dụng tùy chọn Solver='sag' trong
logisticRegression và Ridge, tùy chọn này có thể nhanh hơn tùy chọn mặc định trên các
bộ dữ liệu lớn. Các tùy chọn khác là lớp SGDClassifier và lớp SGDRegressor, thực hiện
các phiên bản có thể mở rộng hơn nữa của các mô hình tuyến tính được mô tả ở đây. 

Một điểm mạnh khác của các mô hình tuyến tính là chúng làm cho việc dự đoán
được thực hiện tương đối dễ dàng, bằng cách sử dụng các công thức hồi quy và phân loại
mà chúng ta đã thấy trước đó. Thật không may, thường không hoàn toàn rõ ràng tại sao
các hệ số lại như vậy. Điều này đặc biệt đúng nếu tập dữ liệu của bạn có các tính năng
tương quan cao, trong những trường hợp này, các hệ số có thể khó giải thích. 

Các mô hình tuyến tính thường hoạt động tốt khi số lượng tính năng lớn so với số
lượng mẫu. Chúng cũng thường được sử dụng trên các tập dữ liệu rất lớn, đơn giản vì
việc đào tạo các mô hình khác là không khả thi. Tuy nhiên, trong không gian có chiều
thấp hơn, các mô hình khác có thể mang lại hiệu suất tổng quát hóa tốt hơn.

2.2.2.2 Decision tree

Cây quyết định là mô hình được sử dụng rộng rãi cho các nhiệm vụ phân loại và
hồi quy. Về cơ bản, họ học một hệ thống phân cấp các câu hỏi nếu/khác, dẫn đến một
quyết định. Học cây quyết định có nghĩa là học chuỗi câu hỏi if/else đưa chúng ta đến câu
trả lời thực sự nhanh nhất.Là phương pháp phổ biến nhất được sử dụng để xây dựng mô
hình LGD (Tỷ lệ tổn thất tại thời điểm vỡ nợ) do đặc tính các biến dự báo LGD thường
tập trung vào một số giá trị cụ thể. Trong trường hợp này, hồi quy tuyến tính có thể được
sử dụng nếu giá trị LGD kỳ vọng trải dài giữa 0-1 tuân theo phân phối chuẩn tuy nhiên
trường hợp này không thường gặp với mô hình LGD.

Trang 31
Kỹ thuật phát triển cây quyết định -chaid tree:
- Là kỹ thuật phát triển cây quyết định phổ biến nhất được sử dụng để phân khúc
trong đó các quyết định liên quan đến phát triển cây dựa trên các kết quả kiểm
tra thống kê. CHAID hợp nhất các biến/nhóm tương đồng về mặt thống kê trong
quan hệ với biến phụ thuộc và phân tách tổng thể dựa trên các khác biệt về mặt
thống kê.
- CHAID thực hiện tạo ra các cây có nhiều con khác nhau tức là một node cha có
thể tạo ra nhiều node con. Để xử lý vấn đề phân loại tức là khi biến phụ thuộc ở
dạng phân loại, kiểm tra Chi-square (chi tiết về kiểm định này được trình bày
bên dưới) được thực hiện, trong khi đối với vấn đề hồi quy tức là biến phụ thuộc
ở dạng liên tục, F-test sẽ được thực hiện để hợp/tách các nhóm.
- Về bản chất, thuật toán CHAID chỉ dùng cho biến độc lập dạng phân loại
(categorical) tuy nhiên một số phần mềm có hỗ trợ việc nhóm các giá trị gốc của
các biến độc lập thành số lượng tối đa các nhóm (categorical) mà thuật toán có
thể xử lý để xác định ngưỡng cắt tối ưu. Do đó, Ngân hàng cần cân nhắc xem
phần mềm có hỗ trợ việc phân nhóm hay không trước khi quyết định sử dụng
chuỗi giá trị gốc hay chuỗi giá trị đã được phân nhóm giá trị.
- Trường hợp phần mềm có hỗ trợ, một cách lý tưởng, chuỗi giá trị gốc của các
Trang 32
biến độc lập và biến phụ thuộc nên được sử dụng làm giá trị đầu vào của cây
quyết định vì phần mềm sẽ hỗ trợ xác định ngưỡng cắt tối ưu dựa trên các kết
quả thống kê. Tuy nhiên, đối với mô hình rủi ro tín dụng, ý nghĩa kinh tế của
biến đóng vai trò rất quan trọng.
Cây quyết định có hai lợi thế so với nhiều thuật toán mà chúng ta đã thảo luận cho
đến nay: mô hình kết quả có thể dễ dàng được hình dung và hiểu bởi những người
không chuyên (ít nhất là đối với các cây nhỏ hơn) và các thuật toán hoàn toàn bất biến
đối với việc chia tỷ lệ dữ liệu. Vì mỗi tính năng được xử lý riêng biệt và khả năng
phân tách dữ liệu có thể không phụ thuộc vào tỷ lệ, nên không cần tiền xử lý như
chuẩn hóa hoặc tiêu chuẩn hóa các tính năng cho thuật toán cây quyết định. Cụ thể,
cây quyết định hoạt động tốt khi bạn có các tính năng ở các tỷ lệ hoàn toàn khác nhau
hoặc kết hợp các tính năng nhị phân và liên tục. 

Nhược điểm chính của cây quyết định là ngay cả khi sử dụng cắt tỉa trước, chúng
có xu hướng khớp quá mức và mang lại hiệu suất tổng quát hóa kém. Do đó, trong
hầu hết các ứng dụng, các phương pháp tập hợp mà chúng ta thảo luận tiếp theo
thường được sử dụng thay cho một cây quyết định duy nhất. 

Tiêu chí quan trọng của các mô hình dạng cây quyết định 

Thay vì nhìn vào toàn bộ cây, có một số thuộc tính hữu ích mà chúng ta có thể rút
ra để tóm tắt hoạt động của cây. Tóm tắt được sử dụng phổ biến nhất là tầm quan trọng
của tính năng, đánh giá mức độ quan trọng của từng tính năng đối với quyết định mà cây
đưa ra. Đó là một số từ 0 đến 1 cho mỗi tính năng, trong đó 0 có nghĩa là “hoàn toàn
không được sử dụng” và 1 có nghĩa là “dự đoán mục tiêu một cách hoàn hảo”. Tầm quan
trọng của tính năng luôn tổng bằng 1: 

Ở đây, chúng ta thấy rằng tính năng được sử dụng trong phân chia hàng đầu (“bán
kính tồi tệ nhất”) cho đến nay là tính năng quan trọng nhất. Điều này xác nhận quan sát
của chúng ta khi phân tích cây rằng cấp độ đầu tiên đã phân tách hai lớp khá tốt. Tuy
nhiên, nếu một tính năng có feature_importance thấp, điều đó không có nghĩa là tính

Trang 33
năng này không cung cấp thông tin. Điều đó chỉ có nghĩa là tính năng này không được
chọn bởi cây, có thể là do một tính năng khác mã hóa thông tin tương tự. 

2.2.2.3  Random forests (Ensembles of Decision Trees)

Như chúng ta vừa quan sát, nhược điểm chính của cây quyết định là chúng có xu
hướng khớp dữ liệu huấn luyện quá mức. Random forests là một cách để giải quyết vấn
đề này. Random forests về cơ bản là một tập hợp các cây quyết định, trong đó mỗi cây
hơi khác so với các cây khác. Ý tưởng đằng sau các khu rừng ngẫu nhiên là mỗi cây có
thể thực hiện công việc dự đoán tương đối tốt, nhưng có khả năng sẽ khớp quá mức trên
một phần dữ liệu. Nếu chúng ta xây dựng nhiều cây, tất cả đều hoạt động tốt và trang bị
quá mức theo những cách khác nhau, thì chúng ta có thể giảm mức độ trang bị quá mức
bằng cách lấy trung bình kết quả của chúng. Việc giảm quá mức này, trong khi vẫn giữ
được sức mạnh dự đoán của cây, có thể được hiển thị bằng cách sử dụng toán học nghiêm
ngặt. 

Để thực hiện chiến lược này, chúng ta cần xây dựng nhiều cây quyết định. Mỗi
cây nên thực hiện một công việc dự đoán mục tiêu có thể chấp nhận được và cũng phải
khác với những cây khác. Các mô Random forests lấy tên của chúng từ việc đưa tính
ngẫu nhiên vào cấu trúc cây để đảm bảo mỗi cây đều khác nhau. Có hai cách để ngẫu
nhiên hóa các cây trong một khu rừng ngẫu nhiên: bằng cách chọn các điểm dữ liệu được
sử dụng để tạo cây và bằng cách chọn các tính năng trong mỗi thử nghiệm phân tách. Hãy
đi vào quá trình này chi tiết hơn. 

Để xây dựng mô hình Random forests, chúng ta cần quyết định số lượng cây cần
xây dựng (tham số n_estimators của RandomForestRegressor hoặc
RandomForestClassifier). Giả sử chúng ta muốn xây dựng 10 cái cây. Những cây này sẽ
được xây dựng hoàn toàn độc lập với nhau và thuật toán sẽ đưa ra các lựa chọn ngẫu
nhiên khác nhau cho mỗi cây để đảm bảo các cây khác biệt. Để xây dựng một cây, trước
tiên chúng ta lấy cái được gọi là mẫu bootstrap của dữ liệu của chúng tôi. Nghĩa là, từ

Trang 34
n_samples điểm dữ liệu của chúng tôi, chúng ta liên tục rút ra một ví dụ ngẫu nhiên bằng
cách thay thế (có nghĩa là cùng một mẫu có thể được chọn nhiều lần), n_samples lần.
Điều này sẽ tạo ra một tập dữ liệu lớn bằng tập dữ liệu gốc, nhưng một số điểm dữ liệu sẽ
bị thiếu (khoảng một phần ba) và một số sẽ được lặp lại. 

Tiếp theo, một cây quyết định được xây dựng dựa trên tập dữ liệu mới được tạo
này. Tuy nhiên, thuật toán mà chúng ta mô tả cho cây quyết định đã được sửa đổi một
chút. Thay vì tìm kiếm phép thử tốt nhất cho từng nút, trong mỗi nút, thuật toán chọn
ngẫu nhiên một tập hợp con các tính năng và tìm kiếm phép thử tốt nhất có thể liên quan
đến một trong các tính năng này. Số lượng tính năng được chọn được kiểm soát bởi tham
số max_features. Việc lựa chọn tập hợp con các tính năng này được lặp lại riêng biệt
trong mỗi nút để mỗi nút trong cây có thể đưa ra quyết định bằng cách sử dụng một tập
hợp con khác nhau của các tính năng. 

Việc lấy mẫu bootstrap dẫn đến mỗi cây quyết định trong rừng ngẫu nhiên được
xây dựng trên một tập dữ liệu hơi khác. Do việc lựa chọn các tính năng trong mỗi nút,
mỗi phần tách trong mỗi cây hoạt động trên một tập hợp con các tính năng khác nhau.
Cùng với nhau, hai cơ chế này đảm bảo rằng tất cả các cây trong rừng ngẫu nhiên đều
khác nhau. 

Một tham số quan trọng trong quy trình này là max_features. Nếu chúng ta đặt
max_features thành n_features, điều đó có nghĩa là mỗi phần tách có thể xem xét tất cả
các tính năng trong tập dữ liệu và sẽ không có tính ngẫu nhiên nào được đưa vào lựa chọn
tính năng (tuy nhiên, tính ngẫu nhiên do bootstrapping vẫn còn). Nếu chúng ta đặt
max_features thành 1, điều đó có nghĩa là các phần tách hoàn toàn không có lựa chọn nào
để kiểm tra tính năng nào và chỉ có thể tìm kiếm qua các ngưỡng khác nhau cho tính năng
được chọn ngẫu nhiên. Do đó, max_features cao có nghĩa là các cây trong khu rừng ngẫu
nhiên sẽ khá giống nhau và chúng sẽ có thể khớp dữ liệu một cách dễ dàng bằng cách sử
dụng các tính năng đặc biệt nhất. Max_features thấp có nghĩa là các cây trong khu rừng
ngẫu nhiên sẽ khá khác nhau và mỗi cây có thể cần phải rất sâu để phù hợp với dữ liệu. 
Trang 35
Để đưa ra dự đoán bằng cách sử dụng Random forests, trước tiên thuật toán đưa ra
dự đoán cho mọi cây trong rừng. Đối với hồi quy, chúng ta có thể lấy trung bình các kết
quả này để có dự đoán cuối cùng. Để phân loại, chiến lược “bỏ phiếu mềm” được sử
dụng. Điều này có nghĩa là mỗi thuật toán đưa ra dự đoán “mềm”, cung cấp xác suất cho
từng nhãn đầu ra có thể. Xác suất được dự đoán bởi tất cả các cây được tính trung bình và
loại có xác suất cao nhất được dự đoán.  

Random forests phù hợp ít hơn bất kỳ cây nào riêng lẻ và cung cấp ranh giới quyết
định trực quan hơn nhiều. Trong bất kỳ ứng dụng thực tế nào, chúng ta sẽ sử dụng nhiều
cây hơn (thường là hàng trăm hoặc hàng nghìn), dẫn đến các ranh giới thậm chí còn mượt
mà hơn. 

Như bạn có thể thấy, Random forests mang lại tầm quan trọng khác không đối với
nhiều tính năng hơn so với cây đơn lẻ. Tương tự như cây quyết định duy nhất Random
forests cũng rất coi trọng tính năng “bán kính xấu nhất”, nhưng nó thực sự chọn “chu vi
xấu nhất” là tính năng có nhiều thông tin nhất về tổng thể. Tính ngẫu nhiên trong việc
xây dựng Random forests buộc thuật toán phải xem xét nhiều cách giải thích có thể có,
kết quả là khu rừng ngẫu nhiên thu được bức tranh dữ liệu rộng hơn nhiều so với một cây
đơn lẻ. 

 Random forests để hồi quy và phân loại hiện là một trong những phương pháp
học máy được sử dụng rộng rãi nhất. Chúng rất mạnh mẽ, thường hoạt động tốt mà không
cần điều chỉnh nhiều thông số và không yêu cầu mở rộng dữ liệu. 

Về cơ bản, Random forests chia sẻ tất cả lợi ích của cây quyết định, đồng thời bù
đắp một số thiếu sót của chúng. Một lý do để vẫn sử dụng cây quyết định là nếu bạn cần
một biểu diễn nhỏ gọn của quá trình ra quyết định. Về cơ bản, không thể giải thích chi
tiết hàng chục hoặc hàng trăm cây và cây trong rừng ngẫu nhiên có xu hướng sâu hơn cây
quyết định (do sử dụng các tập hợp con đặc trưng). Do đó, nếu bạn cần tóm tắt quá trình
đưa ra dự đoán theo cách trực quan cho những người không phải là chuyên gia, thì một

Trang 36
cây quyết định duy nhất có thể là lựa chọn tốt hơn. Mặc dù việc xây dựng các khu rừng
ngẫu nhiên trên các bộ dữ liệu lớn có thể hơi tốn thời gian, nhưng nó có thể được thực
hiện song song trên nhiều lõi CPU trong một máy tính một cách dễ dàng. Nếu bạn đang
sử dụng bộ xử lý đa lõi (như hầu hết các máy tính hiện đại đều sử dụng), bạn có thể sử
dụng tham số n_jobs để điều chỉnh số lượng lõi sẽ sử dụng. Sử dụng nhiều lõi CPU hơn
sẽ giúp tăng tốc độ tuyến tính (sử dụng hai lõi, quá trình đào tạo rừng ngẫu nhiên sẽ
nhanh gấp đôi), nhưng việc chỉ định n_jobs lớn hơn số lượng lõi sẽ không giúp ích gì.
Bạn có thể đặt n_jobs=-1 để sử dụng tất cả các lõi trong máy tính của mình.  

Chúng ta nên nhớ rằng Random forests, về bản chất, là ngẫu nhiên và việc đặt các
trạng thái ngẫu nhiên khác nhau (hoặc hoàn toàn không đặt Random_state) có thể thay
đổi đáng kể mô hình được xây dựng. Càng có nhiều cây trong rừng thì nó càng mạnh mẽ
hơn trước sự lựa chọn trạng thái ngẫu nhiên. Nếu bạn muốn có kết quả có thể lặp lại, điều
quan trọng là phải sửa lỗi Random_state. 

Random forests không có xu hướng hoạt động tốt trên dữ liệu thưa thớt, có nhiều
chiều, chẳng hạn như dữ liệu văn bản. Đối với loại dữ liệu này, các mô hình tuyến tính có
thể phù hợp hơn. Random forests thường hoạt động tốt ngay cả trên các bộ dữ liệu rất lớn
và việc đào tạo có thể dễ dàng được thực hiện song song trên nhiều lõi CPU trong một
máy tính mạnh mẽ. Tuy nhiên, các khu rừng ngẫu nhiên yêu cầu nhiều bộ nhớ hơn, đào
tạo và dự đoán chậm hơn so với các mô hình tuyến tính. Nếu thời gian và bộ nhớ là quan
trọng trong một ứng dụng, thì có thể sử dụng mô hình tuyến tính để thay thế. 

Các tham số quan trọng cần điều chỉnh là n_estimators, max_features và có thể là
các tùy chọn cắt tỉa trước như max_depth. Đối với n_estimators, lớn hơn luôn tốt hơn.
Tính trung bình nhiều cây hơn sẽ mang lại một tập hợp mạnh mẽ hơn bằng cách giảm
trang bị thừa. Tuy nhiên, lợi nhuận giảm dần và nhiều cây hơn cần nhiều bộ nhớ hơn và
nhiều thời gian hơn để huấn luyện. Một nguyên tắc chung là xây dựng “càng nhiều càng
tốt nếu bạn có thời gian/bộ nhớ”. 

Trang 37
2.2.2.4 Gradient boosted regression trees (gradient boosting machines)

Gradient boosted regression trees là một phương pháp tập hợp khác kết hợp nhiều
cây quyết định để tạo ra một mô hình mạnh mẽ hơn. Mặc dù có từ "hồi quy" trong tên,
các mô hình này có thể được sử dụng để hồi quy và phân loại. Trái ngược với cách tiếp
cận rừng trị liệu, tăng cường độ dốc hoạt động bằng cách xây dựng các cây theo cách nối
tiếp, trong đó mỗi cây cố gắng sửa lỗi của cây trước đó. Theo mặc định, không có ngẫu
nhiên hóa trong Gradient boosted regression trees, thay vào đó, cắt tỉa trước mạnh mẽ
được sử dụng. Các cây được tăng cường độ dốc thường sử dụng các cây rất nông, có độ
sâu từ một đến năm, giúp mô hình nhỏ hơn về bộ nhớ và đưa ra dự đoán nhanh hơn. 

Ý tưởng chính đằng sau Gradient boosted regression trees là kết hợp nhiều mô
hình đơn giản (trong ngữ cảnh này được gọi là người học yếu), giống như các cây nông.
Mỗi cây chỉ có thể đưa ra dự đoán tốt trên một phần dữ liệu và do đó, ngày càng có nhiều
cây được thêm vào để cải thiện hiệu suất lặp đi lặp lại. 

Gradient boosted regression trees thường là mục chiến thắng trong các cuộc thi
máy học và được sử dụng rộng rãi trong công nghiệp. Chúng thường nhạy hơn một chút
với cài đặt tham số so với rừng ngẫu nhiên, nhưng có thể cung cấp độ chính xác cao hơn
nếu các tham số được đặt chính xác. 

Ngoài việc cắt tỉa trước và số lượng cây trong quần thể, một tham số quan trọng
khác của việc tăng cường độ dốc là learning_rate, kiểm soát mức độ mỗi cây cố gắng sửa
lỗi của các cây trước đó. Tốc độ học cao hơn có nghĩa là mỗi cây có thể thực hiện các
hiệu chỉnh mạnh hơn, cho phép tạo ra các mô hình phức tạp hơn. Thêm nhiều cây hơn
vào quần thể, có thể được thực hiện bằng cách tăng n_estimators, cũng làm tăng độ phức
tạp của mô hình, vì mô hình có nhiều cơ hội hơn để sửa lỗi trên tập huấn luyện. 

Cả hai phương pháp giảm độ phức tạp của mô hình đều làm giảm độ chính xác của
tập huấn luyện, như mong đợi. Trong trường hợp này, việc giảm độ sâu tối đa của cây
Trang 38
mang lại sự cải thiện đáng kể cho mô hình, trong khi việc giảm tốc độ học chỉ làm tăng
hiệu suất khái quát hóa một chút. 

Chúng ta có thể thấy rằng tầm quan trọng của tính năng của Gradient boosted
regression trees có phần giống với tầm quan trọng của tính năng của các khu rừng ngẫu
nhiên, mặc dù việc tăng cường độ dốc hoàn toàn bỏ qua một số tính năng. 

Vì cả Gradient boosted regression trees và Radom forest đều hoạt động tốt trên các
loại dữ liệu tương tự, nên một cách tiếp cận phổ biến trước tiên là thử Radom forest, hoạt
động khá mạnh mẽ. Nếu Radom forest hoạt động tốt nhưng thời gian dự đoán ở mức cao
hoặc điều quan trọng là phải loại bỏ phần trăm độ chính xác cuối cùng từ mô hình máy
học, thì việc chuyển sang tăng cường độ dốc thường sẽ hữu ích. 

Cây quyết định được tăng cường độ dốc là một trong những mô hình mạnh mẽ và
được sử dụng rộng rãi nhất cho việc học có giám sát. Hạn chế chính của chúng là chúng
yêu cầu điều chỉnh cẩn thận các tham số và có thể mất nhiều thời gian để đào tạo. Tương
tự như các mô hình dựa trên cây khác, thuật toán hoạt động tốt mà không cần mở rộng
quy mô và trên sự kết hợp của các tính năng nhị phân và liên tục

Các tham số chính của mô hình cây được tăng cường độ dốc là số lượng cây,
n_estimators và learning_rate, kiểm soát mức độ mà mỗi cây được phép sửa lỗi của các
cây trước đó. Hai tham số này có mối liên hệ chặt chẽ với nhau, vì learning_rate thấp hơn
có nghĩa là cần nhiều cây hơn để xây dựng một mô hình có độ phức tạp tương tự. Trái
ngược với các khu rừng ngẫu nhiên, trong đó giá trị n_estimators cao hơn luôn tốt hơn,
việc tăng n_estimators trong quá trình tăng cường độ dốc dẫn đến một mô hình phức tạp
hơn, điều này có thể dẫn đến trang bị thừa. Một thực tế phổ biến là điều chỉnh
n_estimators tùy thuộc vào ngân sách thời gian và bộ nhớ, sau đó tìm kiếm trên các
learning_rates khác nhau. Các mô hình dựa trên cây khác, nó cũng thường không hoạt
động tốt trên dữ liệu thưa thớt nhiều chiều. 

2.3. Tình hình nghiêm cứu liên quan


Trang 39
2.3.1. Các nghiên cứu liên quan

Nghiêm cứu của Nhi N. Y. Vo (Vo et al., 2018) đã áp dụng sử dụng dữ liệu phi
cấu trúc từ nhật ký cuộc gọi của khách hàng để xây dựng mô hình dự báo rời bỏ. Từ dữ
liệu cuộc gọi của khách hàng họ đã dùng kỹ thuật trong NLP 1 để thành các tiêu kết hợp
với các thông tin cấu trúc đã được thu thập từ khách hàng để nâng cao độ chính xác của
mô hình khách rời bỏ tại một tổ chức tài chính và đã thành công.

Nghiêm cứu của Kuo-Hsiung Liao và Hao-En Chueh (Liao & Chueh, 2011) là sử
dụng các kỹ thuật fuzzy để phân tích các bản ghi quá khứ về kết quả của các hoạt động
tiếp thị khác nhau của lĩnh vực viễn thông nhằm thiết lập một mô hình tiếp thị. Trong
nghiên cứu này, mô hình tiếp thị được đề xuất có thể giúp các công ty xác định các chiến
lược tiếp thị tốt nhất cho các nhóm khách hàng khác nhau.

James Brownlow và cộng sự (Brownlow et al., 2018) đã giới thiệu một phương
pháp mới để dự đoán rời bỏ trong các dịch vụ quản lý quỹ và việc triển khai nó trong một
công ty quản lý quỹ ở Úc. Khung lấy mẫu dựa trên học tập đồng bộ và cơ chế trọng số
mới dựa trên số dư tài khoản được đề xuất để giải quyết các vấn đề mất cân bằng và nhạy
cảm về chi phí với dữ liệu tài chính. Các bước thực tế của việc triển khai mô hình cũng
được giới thiệu, đặc biệt là cách khai thác và tích hợp các dữ liệu khác nhau từ các nguồn
không đồng nhất để có được cái nhìn thống nhất về khách hàng. Đánh giá bằng cách sử
dụng dữ liệu từ thực xác nhận tính ưu việt của mô hình của chúng ta trong việc nắm bắt
những người rời bỏ giá trị cao so với các phương pháp truyền thống. Hơn nữa, phương
pháp của họ đã được áp dụng trong các ứng dụng thực tế và hỗ trợ nhóm tiếp thị thu hẹp
mục tiêu chiến dịch marketing của họ.

Nghiêm cứu của Floris Devriendt và cộng sự (Devriendt, Berrevoets, & Verbeke,
2021) đã giới thiệu một thước đo đánh giá mới, hướng đến lợi nhuận được gọi là thước
đo nâng cao lợi nhuận tối đa để đánh giá hiệu suất của các mô hình nâng cao tỷ lệ rời bỏ
1
NLP (Natural Language Processing) là một nhánh cực kỳ quan trọng của Trí tuệ nhân tạo (AI), là giao điểm của
Ngôn ngữ học, Khoa học Máy tính và AI
Trang 40
của khách hàng. Thước đo mức tăng lợi nhuận tối đa được đề xuất mở rộng thước đo lợi
nhuận tối đa cho các mô hình dự đoán tỷ lệ rời bỏ khách hàng và cho phép đánh giá hiệu
suất của mô hình nâng cao tỷ lệ khách hàng rời bỏ xét về lợi nhuận trên mỗi khách hàng
trong cơ sở khách hàng kiếm được khi nhắm mục tiêu tỷ lệ khách hàng tối ưu với mức
cao nhất nâng cao điểm số bằng một chiến dịch duy trì. Tỷ lệ khách hàng mục tiêu tối ưu
được xác định bằng cách tối đa hóa lợi nhuận do chiến dịch giữ chân tạo ra, được chỉ ra
trong bài báo này là có liên quan trực tiếp đến khả năng của mô hình nâng cao trong việc
xác định cái gọi là có thể thuyết phục, tức là những khách hàng là sắp rời đi ai sẽ được
giữ lại nếu được nhắm mục tiêu bởi chiến dịch.

Nghiêm cứu của T. Vafeiadis và cộng sự (Vafeiadis, Diamantaras, Sarigiannidis,


Chatzisavvas, & Theory, 2015) đã được thực hiện phương pháp phân loại hiện đại, phổ
biến nhất cho vấn đề dự đoán rời bỏ khách hàng trong lĩnh vực viễn thông dựa trên bộ dữ
liệu có sẵn công khai. Ban đầu, tất cả các phương pháp đã được thử nghiệm mà không sử
dụng tăng tốc trong các cài đặt khác nhau. Hai phương pháp hoạt động tốt nhất về lỗi
kiểm tra tương ứng là thuật toán cây quyết định. Công việc này đã làm sáng tỏ hiệu suất
của các kỹ thuật học máy phổ biến để dự churn vấn đề và hỗ trợ lợi thế của việc áp dụng
các kỹ thuật thúc đẩy. Trong công việc trong tương lai, họ dự định khám phá các sơ đồ
mô phỏng bổ sung cho các tham số của người học yếu đối với thuật toán XGboost và
khám phá hiệu suất của các thuật toán tăng cường bổ sung ngoài XGboost. Ngoài ra, để
sử dụng bộ dữ liệu lớn hơn và chi tiết hơn từ ngành viễn thông nhằm tối đa hóa ý nghĩa
thống kê của các kết quả của họ.

Nghiêm cứu của Eunjo Lee và cộng sự (Lee et al., 2018), Họ đề xuất một quy
trình dự đoán churn xem xét lợi nhuận dự kiến của trò chơi trực tuyến bằng cách tham
khảo các phương pháp nghiên cứu hiện có và áp dụng nó vào trò chơi trực tiếp đã hoạt
động hơn chín năm để xác minh tính hiệu quả của nó. Có ba tính năng chính của phương
pháp đề xuất của họ. Đầu tiên, chúng ta xác định tỷ lệ rời bỏ thông qua việc phân tích các
kiểu truy cập của người dùng. Thứ hai, những khách hàng trung thành lâu dài với lợi ích
Trang 41
cao được xác định và sử dụng để dự đoán rời bỏ. Cuối cùng, họ tính toán lợi nhuận dự
kiến trên mỗi người dùng thông qua phân tích lợi ích chi phí và tối ưu hóa mô hình dự
đoán. Theo các thử nghiệm của họ, chỉ những người dùng có ít lợi ích mới có nhiều khả
năng được phát hiện nhất khi áp dụng mô hình dự đoán rời bỏ cho toàn bộ người dùng.
Do đó, xét về chi phí chiến dịch, có thể bị lỗ doanh thu. Mặt khác, nếu mô hình dự đoán
chỉ được áp dụng cho khách hàng trung thành, lợi nhuận cao có thể được kỳ vọng trong
hầu hết các tình huống. Hơn nữa, việc tối ưu hóa ngưỡng của mô hình dự đoán có thể thu
được lợi ích bổ sung khoảng 10%–30% so với mô hình được tối ưu hóa về độ chính xác.

Nghiêm cứu của Yixin Li và cộng sự (Li et al., 2021) đã đề xuất sử dụng dữ liệu
lớn để xây dựng mô hình máy học dự đoán khách hàng rời bỏ và đóng góp vào chiến
lược tiếp thị trong ngành phát thanh và truyền hình. Họ đã kết hợp mô hình dự báo khách
hàng rời mạng với việc giữ chân khách hàng trong lĩnh vực mạng truyền hình cáp. Khác
với các nghiên cứu khác, họ đã phân tích và thu thập các yếu tố có thể ảnh hưởng đến sự
rời bỏ của khách hàng trong ngành mạng cáp. Nghiên cứu này của họ chứng minh rằng
cường độ xem của khách hàng, mức tiêu thụ của khách hàng, thói quen trả tiền của khách
hàng và sở thích của khách hàng có thể được sử dụng để đánh giá xu hướng rời bỏ của
khách hàng. Ngoài ra, với tư cách là đầu tàu của ngành phát thanh và truyền hình truyền
thống, các doanh nghiệp mạng cáp nên hết sức coi trọng lượng khách hàng trung thành
hiện có, sử dụng đường cong giá hình chuông (cường độ xem càng cao, giá càng thấp) để
phát triển thói quen của khách hàng. Ngoài ra, việc phân tích sở thích xem của khách
hàng và cung cấp cho khách hàng các phương thức thanh toán thuận tiện hơn cũng nên
được sử dụng làm chiến lược tiếp thị.

Nghiêm cứu của Rosa (Rosa, 2019) đã đưa ra một giải pháp thay thế đáng tin cậy
để dự đoán và giám sát hành vi rời bỏ của khách hàng, trái ngược với phương pháp tiếp
cận phản ứng hiện tại do ngân hàng đang nghiên cứu thực hiện, bao gồm phát triển các
chiến lược tiếp thị tập trung vào việc giành lại những khách hàng cũ đã rời bỏ. Dựa trên
những kết quả đáng khích lệ được thể hiện trong công việc này, phương pháp hiện tại
Trang 42
được dẫn dắt trong suốt dự án này có thể chứng tỏ là một công cụ có giá trị để dự đoán sự
rời bỏ trong một công ty vẫn chưa tận dụng hết các công cụ Business Intelligence có sẵn
để giải quyết vấn đề khách hàng rời bỏ.

Nghiêm cứu của Silveira và cộng sự (Silveira, Pinheiro, Junior, & Management,
2021) đã cho chúng ta biết cách xây dựng mô hình dự đoná khách hàng rời bỏ đcướ tính
hợp vòa hệ thống CRM cho phép giám sát và quản lý. Để tăng lợi nhuận hoặc thậm chí
để duy trì hoạt động trên thị trường, công ty phải tránh làm giảm cơ sở khách hàng của
mình. Dự đoán những khách hàng nào churn hoặc chuyển sang đối thủ cạnh tranh, với
mục đích cung cấp các cơ chế để tránh tình trạng này là một vấn đề có thể được giải
quyết thông qua các phương pháp phân tích dự đoán, cho phép các tổ chức quản lý chủ
động. Trong bối cảnh của các tổ chức tài chính Brazil, đặc biệt là trong các tổ chức ngân
hàng, có rất ít nghiên cứu lý thuyết về các phương pháp tiếp cận dự đoán, trong số các
yếu tố khác, có thể là đặc điểm của một nền văn hóa mới bắt đầu sử dụng các phương
pháp dự đoán để hỗ trợ việc duy trì. Do đó, sau khi áp dụng mô hình rời bỏ, có thể rút ra
hồ sơ của những khách hàng có nhiều khả năng bỏ cuộc nhất, cũng như những khách
hàng ít có khả năng nhất. Một yếu tố quan trọng khác cần xem xét là đối với mỗi khách
hàng không trốn tránh, sẽ giảm nguy cơ khách hàng đưa ra nhận xét tiêu cực về công ty
(quản lý rủi ro). Ngoài ra, việc giữ một khách hàng trung bình rẻ hơn năm lần so với việc
có được một khách hàng mới (quản lý tài chính).

Nghiêm cứu của D. Vélez, A. Ayuso (Vélez, Ayuso, Perales-González, &


Rodríguez, 2020), đã đề xuất một phương pháp mới để lựa chọn biến tập trung vào khả
năng diễn giải mô hình đã được đề xuất trong bối cảnh hồi quy logistic với các biến
Weight of Evidence (WOE). Với mục đích này, một định nghĩa mới về các biến WOE
cho các mục tiêu thứ tự đã được giới thiệu, cho phép tránh một số vấn đề thường liên
quan đến việc phân biệt các đầu vào thông qua các biến giả nhị phân, đặc biệt đơn giản
hóa mọi quy trình lựa chọn biến tiếp theo. Ngoài ra, định nghĩa cụ thể của các biến WOE
này là phương tiện có trọng số của mục tiêu đòi hỏi chúng phải có liên quan tích cực hoặc
Trang 43
trực tiếp đến tỷ lệ cược log mục tiêu, cho phép dễ dàng xác định liệu mô hình có phản
ánh đầy đủ logic kinh doanh đã được xác thực của các biến này hay không. Tính năng
này cung cấp cơ sở cho quy trình lựa chọn biến theo từng bước kinh doanh cũng được đề
xuất trong công việc này, giúp nâng cao khả năng diễn giải bằng cách đảm bảo cho người
dùng một biểu thức chính xác về sự phụ thuộc giữa đầu vào và mục tiêu. Đây là một tính
năng khá phù hợp khi, như trong trường hợp rời bỏ, các mô hình phân tích sau này phải
được áp dụng trong bối cảnh ra quyết định, trong đó các quyết định được đưa ra phải dựa
trên các mẫu và mối quan hệ được mô hình thu thập . Như các kết quả được hiển thị cho
thấy, chiến lược lập mô hình này mang lại khả năng dự đoán cạnh tranh đồng thời giúp
giải thích dễ dàng các kết quả.

2.3.2. Phân tích và đánh giá các nghiên cứu

Qua những bài nghiêm cứu trên cho chúng ta thấy được quy trình và cách thức xây
dựng một hôm hình máy học để xác đinh khách hàng rời bỏ ở nhiều lĩnh vực như Viễn
thông, truyền hình, tổ chức tài chính,….Thông qua đó cho chúng ta thấy được:

 Ưu điểm: Đã mô tả rất chi tiết quy trình xây dựng và sử dụng các phương pháp
mới để xây dựng mô hình khách hàng rời bỏ ( sử dựng NLP để xây dựng các tiêu
chí, WoE chuyển các tiêu chí dạng liên lục thành các nhóm để cho mô hình chính
xác hơn)
 Nhược điểm : Các mô hình Machine learning được trình bày ở những nghiên cứu
trên hầu như chưa đưa ra được các thuật mới hiện nay (XGBoost,
Randomforest,...) và không sử dụng nhiều thuật toán trong một nghiêm cứu nên
không thể so sánh tính hiệu quả của từng mô hình trên cung một tập dữ liệu với
nhau, bài toán phân lại chỉ xác định khách hàng rời bỏ khách hàng ở thời điểm
hiện tai không dự đoán được thời khách hàng rời bỏ trong tương lai (ví dụ nếu
chúng ta có dữ liệu khách hàng 31/01/2020 mô hình cũng phân loại được được là
khách hàng rời bỏ, nhưng nó không phù hợp về mặt kinh doanh do khách hàng đã

Trang 44
rời bỏ 31/01/2020). Chưa xác định được ngưỡng ra giá trị khách hàng bình quân
mang lại cho doanh nghiệp để biết được khi nào để cho một khách hàng rời bỏ đi.
 Khoảng trống nghiên cứu: Hướng nghiêm cứu của chúng ta là xây dựng môt mô
hình dự trên hành vi của quá khứ và hiện tại nhằm xác định churn trong tương lai
để cho Ngân hàng có thể dư trên đó mà có thể đưa ra các chiến lược và hành động
phù hợp để giảm thiệu lượng khách hàng rời bỏ và đưa ra những ngưỡng tiêu chí
để phân loại khách hàng nào cần giữ lại.

2.4. Môi trường thực hiện


Oracle
Cơ sở dữ liệu Oracle là một tập hợp dữ liệu được coi là một đơn vị. Mục đích của
cơ sở dữ liệu là lưu trữ và truy xuất thông tin liên quan. Một máy chủ cơ sở dữ liệu là
chìa khóa để giải quyết các vấn đề về quản lý thông tin. Nhìn chung, một máy chủ quản
lý một lượng lớn dữ liệu một cách đáng tin cậy trong môi trường nhiều người dùng để
nhiều người dùng có thể truy cập đồng thời cùng một dữ liệu. Tất cả điều này được thực
hiện trong khi cung cấp hiệu suất cao. Máy chủ cơ sở dữ liệu cũng ngăn chặn truy cập trái
phép và cung cấp các giải pháp hiệu quả để khắc phục sự cố. Cơ sở dữ liệu Oracle là cơ
sở dữ liệu đầu tiên được thiết kế cho điện toán lưới doanh nghiệp, cách linh hoạt và tiết
kiệm chi phí nhất để quản lý thông tin và ứng dụng. Điện toán lưới doanh nghiệp tạo ra
các nhóm lớn máy chủ và bộ lưu trữ mô-đun, tiêu chuẩn công nghiệp. Với kiến trúc này,
mỗi hệ thống mới có thể được cung cấp nhanh chóng từ nhóm các thành phần. Không cần
khối lượng công việc cao điểm vì có thể dễ dàng bổ sung hoặc phân bổ lại năng lực từ
các nhóm tài nguyên khi cần. Cơ sở dữ liệu có cấu trúc logic và cấu trúc vật lý. Vì cấu
trúc vật lý và logic là riêng biệt nên việc lưu trữ dữ liệu vật lý có thể được quản lý mà
không ảnh hưởng đến quyền truy cập vào cấu trúc lưu trữ logic. Một cơ sở dữ liệu được
chia thành các đơn vị lưu trữ logic được gọi là không gian bảng, nhóm các cấu trúc logic
liên quan lại với nhau. Ví dụ, các không gian bảng thường nhóm tất cả các đối tượng ứng
Trang 45
dụng lại với nhau để đơn giản hóa một số thao tác quản trị. Mỗi cơ sở dữ liệu được chia
hợp lý thành một hoặc nhiều không gian bảng. Một hoặc nhiều tệp dữ liệu được tạo rõ
ràng cho mỗi vùng bảng để lưu trữ vật lý dữ liệu của tất cả các cấu trúc logic trong một
vùng bảng. Kích thước kết hợp của các tệp dữ liệu trong một vùng bảng là tổng dung
lượng lưu trữ của vùng bảng. Oracle cũng cho phép bạn tạo các không gian bảng. Điều
này cho phép Cơ sở dữ liệu Oracle chứa các không gian bảng được tạo thành từ các tệp
lớn đơn lẻ thay vì nhiều tệp nhỏ hơn. Điều này cho phép Cơ sở dữ liệu Oracle tận dụng
khả năng của các hệ thống 64 bit để tạo và quản lý các tệp siêu lớn. Hậu quả của việc này
là Cơ sở dữ liệu Oracle hiện có thể mở rộng quy mô lên tới 8 exabyte. Với các tệp do
Oracle quản lý, các không gian bảng bigfile làm cho các tệp dữ liệu hoàn toàn trong suốt
đối với người dùng. Nói cách khác, bạn có thể thực hiện các thao tác trên các vùng bảng,
thay vì các tệp dữ liệu bên dưới. Vì vậy chúng ta nên dùng oracle trong việc tạo bảng, tạo
và quản lý các tiêu chí (biến phụ thuộc và biến độc lâp) dùng để xây dựng mô hình máy
học.

Python (google colab)


Google Colab là sổ ghi chép Jupyter trên đám mây được sử dụng rộng rãi để dạy
máy học bằng cách viết giải thích văn bản và mã Python thông qua trình duyệt. Công việc
này giới thiệu các tiện ích mở rộng Colab mới để dạy thiết kế mạch logic, ngôn ngữ
Verilog, bộ xử lý và kiến trúc GPU. Colab cho phép chúng ta chia sẻ các thử nghiệm có
thể lặp lại trên Web. Các sinh viên trở nên có động lực để thực hiện các bài tập trong
phòng thí nghiệm mà không cần tải xuống/cấu hình các gói phần mềm và các phụ thuộc
trên máy tính của họ. Hơn nữa, hầu hết tất cả các trường đại học đã phải đóng cửa do đại
dịch COVID-19, buộc chúng ta phải thích nghi với các kịch bản học tập ảo. Colab cung
cấp tính di động và khả năng truy cập vì nó thậm chí có thể chạy trên điện thoại thông
minh. Các bài tập trong phòng thí nghiệm bao gồm các bài tập có hướng dẫn trung cấp,
giải thích văn bản, số liệu, câu đố trực tuyến, tập hợp các vấn đề và các nhiệm vụ thực
hành cơ bản. Chúng ta phát triển một thiết lập đơn giản cho các khung Icarus Verilog,

Trang 46
PyEDA, CUDA, Valgrind và Gem5. Công trình này trình bày những hiểu biết sâu sắc về
mô phỏng kiến trúc máy tính và giảng dạy Verilog bằng cách sử dụng Valgrind và Gem5,
cũng như cấu hình kiến trúc máy tính GPU ở cấp độ lắp ráp chỉ lệnh và luồng.

Các nghiên cứu khác nhau đã báo cáo tính linh hoạt và phạm vi rộng lớn của các
công cụ lập trình trong mọi lĩnh vực kiến thức. Viết Code nói chung là vô cùng quan
trọng đối với sinh viên hóa học bất kể họ có ý định làm việc với hóa học lý thuyết hay
không. Sổ tay Google Colab có thể giới thiệu cho sinh viên các khái niệm lập trình và có
thể là một công cụ thuận tiện để hỗ trợ quá trình giảng dạy hóa học. Trong bài viết này,
chúng ta đã triển khai sổ ghi chép Google Colab để hỗ trợ việc giảng dạy nhiệt động lực
học trong lớp hóa lý. Chúng ta đã trình bày sáu sổ ghi chép, bao gồm các khái niệm cơ
bản về mã hóa và nhiệt động lực học dưới dạng một tập hợp các đối tượng học tập có thể
hữu ích trong môi trường học tập ảo. Ngoài ra, trong một số sổ ghi chép, chúng ta đã đính
kèm hướng dẫn từng bước về cách chạy mô phỏng phòng thí nghiệm ảo. Sổ ghi chép
Colab được tạo cho sinh viên chưa có kinh nghiệm lập trình trước đó. Tất cả sổ tay Colab
đều có bài tập của các hoạt động và lời giải của các bài tập đề xuất. Ngoài ra, bạn có thể
sửa đổi và tải xuống tất cả sổ ghi chép Colab từ kho lưu trữ Github. Cuối cùng, chúng ta
đã sử dụng ngôn ngữ lập trình Python và Colab vì chúng miễn phí và được cộng đồng
học thuật sử dụng rộng rãi.

Chương 3: ĐỀ XUẤT MÔ HÌNH

3.1. Quy trình thực nghiệm


3.1.1. Sơ đồ thực hiện

Trang 47
Hình 3.1: Quy trình làm tạo mô hình học máy với khách hàng churn

3.1.2. Diễn giải quy trình

Chi tiết quy trình như sau:

Business & Data UnderStanding sử dụng mục tiêu kinh doanh và bối cảnh dữ liuệ
hiện tại để xác định mục tiêu khai thác.
Data Prepration: thực hiện các bước tinề xử lý để chuẩn hóa dữ liệu sẵn sàn cho các
giai đoạn tiếp theo. Giai đoạn này thường chiếm đến 90% thời gian của quy trình (sẽ
được đề cập ở mục 3.2).

Trang 48
Mô hình hóa và đánh giá: sử dụng mô hình thống kê, máy học để xác định các
mẫu/quy luật của dữ liệu và kiẻm tra tính hiệu quả của mô hình có đáp ứng với mục
tiêu kinh doanh hay không, có đủ tin cậy h không
Triển khai: đưa mô hình giải phsap vào ứng dụng trong các hoạt động của doanh
nghiệp

3.2. Mô tả dữ liệu 
3.2.1. Thu thập dữ liệu

Sau khi danh sách đầy đủ các nhân tố khách hàng rời bỏ được xác định, dữ liệu
các nhân tố churn sau đó sẽ được tiến hành thu thập và kiểm tra ( thu thập từ tiếp từ hệ
thống data warehouse). Thông thường, dữ liệu nhân tố churn nên được ngân hàng lưu
trên hệ thống đảm bảo sẵn có để xây dựng mô hình. Việc này cũng sẽ đảm bảo các yêu
cầu kiểm định mô hình hàng năm phù hợp với tiêu chuẩn mà Ngân hàng đặt ra mà không
cần phải thu thập thủ công dữ liệu. Việc này bao gồm thu thập các thông tin liên quan từ
hồ sơ khách hàng, và nhập các thông tin này trên hệ thống thu thập dữ liệu nhân tố churn.

Chất lượng dữ liệu là một nhân tố quan trọng ảnh hưởng tới chất lượng mô hình.
Việc đảm bảo tính toàn vẹn, đầy đủ, chính xác, nhất quán của dữ liệu đóng vai trò quan
trọng trong việc xây dựng mô hình. Do vậy, các quy tắc kiểm tra chất lượng dữ liệu cần
được cài đặt trên hệ thống và cần được thực hiện trước khi xây dựng mô hình. Ngoài ra,
các nhân tố churn không đáp ứng các tiêu chuẩn chất lượng dữ liệu được xử lý để đảm
bảo dữ liệu không chính xác sẽ không được sử dụng để xây dựng mô hình.

Các thủ tục kiểm tra chất lượng dữ liệu cơ bản được khuyến nghị bao gồm nhưng
không giới hạn các nội dung sau:

- Kiểm tra tính đầy đủ của dữ liệu liên quan đến độ dài lịch sử dữ liệu, số lượng
quan sát, số lượng quan sát xấu.

Trang 49
- Kiểm tra phân phối của dữ liệu: bao gồm các giá trị Min, Max, Mean, Median,
Mode, giá trị Phân vị, số lượng giá trị duy nhất, giá trị ngoại lai…
- Kiểm tra tính trùng lặp của dữ liệu theo các mã khóa duy nhất trong tệp dữ liệu. Ví
dụ: có 2 bản ghi trùng lặp mã hồ sơ (Customer_ID) hay không?
- Kiểm tra tính logic của dữ liệu: tức là kiểm tra mối quan hệ logic giữa các trường
dữ liệu. Ví dụ: khách hàng có có lần giao dịch thành công trong tháng mà số tiền
giao dịch bằng 0 có hợp lý không?
- So sánh đối chiếu với các báo cáo thông tin quản lý MIS 2, số liệu báo cáo tài chính
để xác minh mức độ tin cậy của dữ liệu thu thâp được.

3.2.2. Phương pháp định nghĩa các tiêu chí 

Trong giai đoạn này, Ngân hàng cần xây dựng danh sách yêu cầu dữ liệu cho mục
đích quản trị như thông tin định danh khách hàng (mã khách hàng), số tài khoản,sản
phẩm, danh mục, …Dữ liệu Ngân hàng được khuyến nghị sử dụng nhiều nguồn khác
nhau như cơ sở dữ liệu nội bộ của Ngân hàng, tiêu chí đánh giá tài chính nội bộ của
Ngân hàng, tiêu chí xếp hạng được sử dụng trong các mô hình rủi ro tài chính toàn cầu
khác nhau, nguồn thông tin bên ngoài… Danh sách các nhân tố churn cần được lựa
chọn một cách cẩn trọng với sự tham gia ý kiến của các phòng ban liên quan và các
chuyên gia quan hệ khách hàng ví dụ: lãnh đạo đơn vị kinh doanh, bộ phận xây dựng
mô hình, cán bộ quan hệ khách hàng…

Một số tiêu chí cần được xem xét khi lựa chọn nhân tố churn:

● Dựa trên dữ liệu, thông tin sẵn có và chất lượng cơ bản được đảm bảo.
● Phù hợp từ góc độ kinh tế.
● Trực quan, dễ trả lời và sử dụng trong thực tế.

2
MIS MANAGEMENT INFORMATION SYSTEM : Hệ thống thông tin quản lý của Ngân hàng
Trang 50
Tạo ra các tiêu chí là việc tạo ra các hình thức biến đổi khác của dữ liệu gốc nhằm
phản ánh tiêu chí cần dự báo một cách có ý nghĩa hơn. Ví dụ mô hình xây dựng cần xác
định thông tin hành vi khách hàng, nhưng hệ thống Ngân hàng thường là cấp tài khoản
(ATM) , có tiêu chí là số dư tài khoản khách hàng, khách hàng lại có nhiều số tài khoản
nên tạo tiêu chí cần cộng số tiền các tài khoản lại với nhau. Cần lưu ý rằng không có tiêu
chuẩn chung cho việc tạo các tiêu chí. Việc tạo biến phụ thuộc vào loại mô hình, ý kiến
chuyên gia trong Ngân hàng và kinh nghiệm của cán bộ xây dựng mô hình. Các tiêu chí
tỷ lệ thường được khuyến nghị sử dụng do có ý nghĩa hơn so với biến giá trị tuyệt đối
( Tỷ lệ số tiền giao dịch vào trên số tiền giao dịch ra tài khoản). Đối với nhóm thông tin
giao dịch, hành vi, phương pháp RFM 3có thể được sử dụng:

● R - Tính cập nhật (Recency): Các biến phản ánh thời gian kể từ lần gần nhất xảy
ra sự kiện trong một khoảng thời gian cụ thể có thể được tạo ra. Ví dụ: Thời gian
kể từ lần giao dịch gần nhất.
● F - Tần suất (Frequency): Tần suất xảy ra sự kiện trong một khoảng thời gian
nhất định có thể được tạo ra. Ví dụ: Số lần chuyển tiền vào tài khoản trong vòng
3/6/12 tháng gần nhất.
● M - Mức độ (Monetary): Mức độ nghiêm trọng của một sự kiện trong một
khoảng thời gian xác định có thể được tạo ra. Ví dụ: Số tiền chuyển tiền ra trung
bình trong 3/6/12 tháng gần nhất

Theo thông lệ, chúng ta đưa ra các nhóm nhân tố churn phổ biến cho từng loại mô hình
để tham khảo như sau. Danh sách nhân tố churn thực tế tại Ngân hàng sẽ được thảo luận
và thống nhất khi thực hiện xây dựng mô hình.

3.2.3. Tiền xử lý dữ liệu

Các vấn đề về dữ liệu phát hiện được nên được xử lý trước khi xây dựng mô hình
để đảm bảo độ tin cậy của kết quả phân tích. Một số khía cạnh vốn có trong nhân tố
3
RFM (Recency – Frequency – M (Monetary Value): là một phần của Marketing Analysis và được sử dụng để
phân tích giá trị khách hàng (Customer Value)
Trang 51
churn như giá trị bị thiếu và các dữ liệu ngoại lai cần được xử lý cẩn trọng vì có thể ảnh
hưởng đến kết quả phân tích thống kê. Phần này mô tả chi tiết về xử lý dữ liệu cho các
giá trị bị thiếu và các dữ liệu ngoại lai cho mẫu xây dựng và mẫu kiểm định.

3.2.3.1 Xử lý các dữ liệu trống

Hầu hết dữ liệu đều có các giá trị bị thiếu. Các giá trị bị thiếu này có thể do một số
trường thông tin không được thu thập, thu thập bị gián đoạn, không có sẵn hoặc không
được khách hàng điền vào, giá trị sai do lỗi nhập thủ công, hoặc đơn giản là các giá trị
ngoại lệ biểu thị cho các trường hợp đặc biệt (999997, 999998,…). Một số kỹ thuật thống
kê như cây quyết định (decision tree) không bị ảnh hưởng bởi các giá trị bị thiếu. Tuy
nhiên, hồi quy logistic cần một tập dữ liệu hoàn chỉnh không có dữ liệu bị thiếu. Có bốn
phương pháp chính để xử lý các giá trị bị thiếu:

● Loại bỏ tất cả dữ liệu có giá trị bị thiếu — hay chỉ phân tích trường hợp đầy đủ dữ
liệu. Phương pháp này sẽ giúp có được tập dữ liệu hoàn chỉnh phản ánh đúng dữ
liệu thực tế. Tuy nhiên, trong hầu hết trường hợp, cách xử lý này có thể sẽ dẫn tới
chỉ còn một tập dữ liệu rất nhỏ thỏa mãn điều kiện, do đó có thể không đủ dữ liệu
để phân tích. Ngoài ra, việc loại bỏ dữ liệu thiếu có thể không phù hợp với thực
tiễn kinh doanh của Ngân hàng do trong nhiều trường hợp, dữ liệu thiếu là hợp lý
và có thể phát sinh.
● Loại bỏ các biến hoặc các quan sát có tỷ lệ bị thiếu đáng kể (theo thông lệ là hơn
50%) khỏi mẫu xây dựng mô hình, đặc biệt nếu mức độ thiếu dữ liệu này được dự
đoán sẽ tiếp tục trong tương lai. Phương án này đảm bảo cân bằng giữa việc có đủ
dữ liệu để phân tích và phần lớn các quan sát đều có giá trị (ít nhất > 50%). Tuy
nhiên, các kết quả thống kê có thể bị ảnh hưởng do vẫn còn giá trị thiếu.
● Đưa các biến có giá trị bị thiếu vào xây dựng mô hình. Theo đó, các trường hợp
"bị thiếu" có thể được coi là một thuộc tính riêng biệt, được nhóm lại và được sử
dụng trong hồi quy như một thông tin đầu vào. Sau đó, mô hình có thể gán trọng

Trang 52
số cho thuộc tính này. Đây là phương án phổ biến nhất được sử dụng khi xây dựng
mô hình xếp hạng tín dụng do phù hợp với thực tiễn hoạt động kinh doanh của
Ngân hàng. Trên thực tế trong một số trường hợp, missing có ý nghĩa. Việc loại bỏ
như phương án (1) (2) hay thay thế dữ liệu bị thiếu như phương án (4) dựa trên giả
định dữ liệu missing không có ý nghĩa và điều này không thực sự đúng trong thực
tế.
● Thay thế các giá trị bị thiếu bằng cách sử dụng các kỹ thuật thống kê như thay thế
bằng giá trị (0, mean, median, mode,…). Việc lựa chọn các giá trị mean, median
hay mode phụ thuộc vào đặc điểm dữ liệu và nhận định của cán bộ xây dựng mô
hình. Đối với biến phân loại (categorical), giá trị mode sẽ được sử dụng do không
có giá trị mean hay median. Đối với biến dạng số, trường hợp dữ liệu có nhiều giá
trị ngoại lai có thể ảnh hưởng đến giá trị mean, giá trị median được khuyến nghị sử
dụng. Giá trị mode không được khuyến nghị cho các biến dạng số do khoảng giá
rất rộng của các biến dạng số. Phương án này có ưu điểm là rất nhanh và đơn giản.
Tuy nhiên, việc đồng loạt thay thế giá trị bị thiếu bằng một giá trị có thể làm lệch
phân phối của biến cũng như đánh giá thấp mức độ biến động (phương sai) của dữ
liệu.

Theo thực trạng dữ liệu hiên tại của Ngân hàng , chúng ta nên kết hợp giữ phương
pháp thứ 3 và phương pháp thứ 2 là đưa dữ thông tin bị thiếu thành một nhóm và nếu
thông tin bị thiếu 50% quan sát thì sẽ loại tiêu chí đó khỏi mô hình.

3.2.3.2 Xử lý các dữ liệu có giá trị ngoại lai

Phần lớn các giá trị ngoại lai được phân loại là lỗi dữ liệu, nên được khắc phục
trong giai đoạn chuẩn bị dữ liệu. Thông thường, các đơn vị nghiệp vụ và bộ phận xây
dựng mô hình sẽ thảo luận và thống nhất cách xử lý dữ liệu ngoại lai dựa trên kinh
nghiệm của mình. Ví dụ: tuổi dưới 18 được thay bằng 18 tuổi. Trong một số trường hợp,
có thể kiểm tra lại hồ sơ thực tế hoặc dữ liệu trên các hệ thống khác để tìm lại đúng giá trị

Trang 53
của các trường hợp nay và thay thế chúng. Các giá trị ngoại lai còn lại được xử lý tương
tự như các giá trị bị thiếu đã trình bày ở trên.

3.2.3.3 Các xử lý dữ liệu khác

Cuối cùng, trong trường hợp một số lỗi rõ ràng nhưng không có lý do để nghi ngờ
tính hợp lệ của toàn bộ quan sát hoặc các tiêu chí, chúng ta có thể áp dụng một số phương
pháp hoặc quy ước để sửa lỗi dữ liệu sau khi thống nhất giữa các bên liên quan. Ví dụ: Số
tiền gốc được nhập vào được làm tròn đến hàng triệu, Tuổi của khách hàng không được
dưới 18 tuổi. Nhìn chung, các quan sát được sử dụng để xây dựng mô hình phải là những
quan sát sẽ được triển khai trong hoạt động thông thường của Ngân hàng ví dụ đối với
mô hình churn phải là những hồ sơ sẽ được chấm điểm trong hoạt động cấp tín dụng hàng
ngày. Tất cả các quan sát không được triển khai hoặc triển khai thông qua một quy trình
bất thường ví dụ: khách hàng là VIP, nhân viên của ngân hàng mà không cần chấm điểm,
cần được loại bỏ khỏi mẫu. Ngoài ra, các tài khoản có hành vi bất thường hoặc hành vi
của tài khoản đó không đại diện cho đúng hành vi của khách hàng cũng cần được loại bỏ.
Một số ví dụ có thể kể đến như:

- Khách hàng là nhân viên ngân hàng, Khách hàng là khách hàng VIP.
- Khách hàng bị mất/đánh cắp/gian lận thẻ
- Khách hàng tử vong
- Khách hàng đang có khoản vay tại ngân hàng (trừ các khoản vay tuần hoàn như
thẻ tín dụng, thấu chi,….)
- Khách hàng churn tại thời điểm quan sát
- Khách hàng có thời gian mở tài khoản tại ngân hàng nhỏ hơn 6 tháng (MOB4<6)
Về góc độ xây dựng mô hình, có một số trường hợp do hạn chế về dữ liệu từ góc độ
kỹ thuật xây dựng mô hình cũng sẽ được loại bỏ khỏi mẫu. Một số trường hợp điển hình
như:

4
MOB (Month on Book) trong Ngân hàng được hiểu là thời gian số tháng khách hàng mở tài khoản tới thời điểm
báo cáo
Trang 54
- Các quan sát không có đủ kỳ đánh giá. Ví dụ: kỳ đánh giá sử dụng là 6 tháng vậy
thì dữ liệu 1 năm gần nhất sẽ bị loại bỏ do đây là các quan sát mới mà chúng ta
chưa có cơ sở đủ 6 tháng để nhận diện hành vi của quan sát là tốt hay xấu do điểm
cắt thu thập dữ liệu chỉ thu thập được đến hiện tại. Trường hợp các quan sát bị
churn sớm trước 6 tháng, khi thực hiện xây dựng mô hình, chúng ta có thể cân
nhắc có đưa các quan sát này vào mẫu không. Trường hợp đã có đủ quan sát xấu,
ngân hàng có thể loại bỏ các quan sát này và ngược lại đưa vào mẫu nếu số lượng
quan sát xấu hạn chế. Trong trường hợp vẫn đưa vào mẫu sẽ dẫn đến tỷ lệ vỡ nợ
của mẫu dữ liệu xây dựng mô hình sẽ khác với tỷ lệ vỡ nợ của tổng thể (do chỉ đưa
quan sát xấu trước 6 tháng vào mà không đưa quan sát tốt), vì vậy, cần phải thực
hiện hiệu chỉnh mô hình sau khi xây dựng.
- Các quan sát không có đủ kỳ quan sát. Ví dụ: đối với mỗi quan sát, chúng ta
không chỉ đánh giá thông tin hiện tại mà còn cần thông tin quá khứ của khách
hàng trong 6 tháng gần nhất. Tuy nhiên do điểm cắt dữ liệu chúng ta chỉ thu thập
được từ một thời điểm nào đó trong quá khứ. 6 tháng đầu tiên của dữ liệu quá khứ
cũng xem xét loại bỏ.
- Các quan sát có Month-on-book (thời gian khách hàng có trên dữ liệu) < 6 tháng.
Đối với mô hình churn, chúng ta cần đánh giá hành vi quá khứ của quan sát trong
một khoảng thời gian nhất định để dự báo cho hành vi tương lai. Với khoản cấp tín
dụng có MOB < 6 tháng, hành vi trong quá khứ chưa có nhiều thông tin để mang
tính dự báo cho tương lai nên xem xét loại bỏ.
- Các quan sát không hoạt động trong 6 tháng liên tục đối với thẻ Casa. Đối với mô
hình churn, chúng ta cần đánh giá hành vi quá khứ của quan sát trong một khoảng
thời gian nhất định tối thiểu 6 tháng để dự báo cho hành vi tương lai. Do đó, các
quan sát không hoạt động (không có dư nợ, thanh toán, mua hàng, rút tiền…) nên
xem xét loại bỏ.
- Các quan sát đã churn tại thời điểm quan sát (nếu 31/01/2021 khách hàng đã churn
nên loại quan sát này ra khỏi tập huấn liệu mô hình). Mô hình được xây dựng với
Trang 55
mục đích dự báo hành vi của quan sát nếu quan sát bị churn trong tương lai trong
kỳ đánh giá dựa trên hành vi hiện tại của quan sát khi đang ở trạng thái tốt. Với
những quan sát đã churn tại thời điểm hiện tại, hành vi của một quan sát bị churn
đã được phản ánh ở hành vi hiện tại. Việc đưa các quan sát này vào mẫu xây dựng
mô hình có thể tạo ra sai lệch (bias) khi xây dựng mô hình.
3.2.3.4 Khai phá dữ liệu

Một thực hành tốt trước khi bắt đầu công việc mô hình hóa thực tế là khám phá dữ
liệu mẫu. Các số liệu thống kê đơn giản như phân phối giá trị, giá trị trung bình /
trung bình, tỷ lệ thiếu và phạm vi giá trị cho từng đặc điểm có thể cung cấp thông
tin chi tiết tuyệt vời về doanh nghiệp và việc xem xét chúng là một bài tập tốt để
kiểm tra tính toàn vẹn của dữ liệu. Các kỹ thuật phân tích hình ảnh thường rất xuất
sắc cho công việc này. Nếu sử dụng mẫu, phân phối dữ liệu mẫu cũng phải được
so sánh với phân phối danh mục tổng thể để xác nhận rằng mẫu là đại diện cho
danh mục đầu tư. Dữ liệu cũng cần được kiểm tra để giải thích (ví dụ, để đảm bảo
rằng “0” đại diện cho các giá trị không và không bị thiếu) và để xác nhận rằng bất
kỳ giá trị đặc biệt nào, chẳng hạn như các trường hợp đặc biệt khác nhau của dữ
liệu cục bị thiếu đều được ghi lại. Bước này một lần nữa xác nhận rằng dữ liệu đã
được thu thập như được chỉ định và rằng tất cả các khía cạnh của dữ liệu đều được
hiểu, bao gồm cả những sai sót về dữ liệu. Dưới đây là môt số biểu đồ :

3.2.4. Xác định mối quan hệ giữa biến phụ thuộc và biến độc lập

3.2.4.1 Xác định biến mục tiêu (Performance windows)

Mô hình dự đoán khách hàng rời bỏ được phát triển bằng cách sử dụng giả định
rằng “kết quả trong tương lai được phản ánh bằng hành vi trong quá khứ”. Dựa trên giả
định này, hoạt động của các tài khoản khách hàng đã mở trước đó được phân tích để dự
đoán hoạt động của các tài khoản trong tương lai. Để thực hiện phân tích này, chúng ta
cần thu thập dữ liệu cho các tài khoản được mở trong một khung thời gian cụ thể, sau đó
Trang 56
theo dõi hiệu suất của chúng trong một khoảng thời gian cụ thể khác để xác định xem
chúng tốt (retention) hay xấu (churn). Dữ liệu được thu thập (các tiêu chí) cùng với phân
loại tốt / xấu (mục tiêu) tạo thành mẫu phát triển mà từ đó thẻ điểm được phát triển. Đối
với thẻ điểm hành vi, điều tương tự cũng được thực hiện cho các tài khoản hiện có, nơi
chúng ta xem xét các tài khoản tại một thời điểm và theo dõi hành vi thanh toán của họ
trong một khoảng thời gian được chỉ định để xác định mục tiêu. Dữ liệu được thu thập
(các tiêu chí) cùng với phân loại tốt / xấu (mục tiêu) tạo thành mẫu phát triển mà từ đó
thẻ điểm được phát triển. Đối với thẻ điểm hành vi, điều tương tự cũng được thực hiện
cho các tài khoản hiện có, nơi chúng tôi xem xét các tài khoản tại một thời điểm và theo
dõi hành vi thanh toán của họ trong một khoảng thời gian được chỉ định để xác định mục
tiêu. Ví dụ: tất cả các tài khoản không churn kể từ tháng 1 sẽ được theo dõi trong 12
tháng tới để xác định tài khoản nào sau đó đã trở thành churn.

Hình 3.2: Phân tích Vingate nhằm xác định Performance windows

Trang 57
Hình 3.2 Phân tích Vingate là phân tích dựa trên thông tin nếu là khách hàng rời
bỏ thì bao lâu khách hàng rời bỏ được tính trên số cộng dòng tích lũy. Theo tính vẽ ta
thấy được MOB là 12 tháng và trục tung chỉ số là 30%, có nghĩa là nếu khách hàng rời bỏ
Ngân hàng trong 12 tháng sẽ có 30% số khách hàng rời bỏ Ngân hàng. Theo hình 3.2 và
trao đổi với các chuyên gia trong Ngân hàng cho Performance windows là 12 tháng là số
hợp lý để Ngân hàng có thể lên kết hoạch ứng phó với vấn đề khách hàng rời bỏ Ngân
hàng.

Như thường được thực hành trong tính điểm hành vi, để tạo ra một biến mục tiêu
để phát triển mô hình, người ta sẽ chọn một ngày quan sát đủ lâu trong quá khứ (hơn 12
tháng), và sau đó quan sát hiệu suất thanh toán của các khách hàng được mở trong 12
tháng kể từ ngày quan sát ngày để xem liệu một sự kiện churn đã xảy ra hay chưa. Quá
trình này có thể được lặp lại với nhiều ngày quan sát, để đảm bảo rằng thông tin mặc định
không thiên về một khoảng thời gian 12 tháng cụ thể. Điều này được thực hiện khá
thường xuyên trong ngành thông qua việc tạo ra các mẫu xếp chồng lên nhau, đặc biệt là
đối với các danh mục đầu tư mặc định thấp cũng như các mẫu có tính thời vụ. Người ta
có thể sử dụng lại các trường hợp tương tự hoặc nếu có đủ số lượng trường hợp, sử dụng
các mẫu ngẫu nhiên khác nhau cho các ngày quan sát khác nhau để đảm bảo tính độc lập
của các quan sát.

Trang 58
Hình 3.2: Minh họa xác định churn in future (churn trong 12 tháng tới)

Quy trình trên đảm bảo rằng mọi trường hợp đơn lẻ đều được liên kết với biến
churn mục tiêu dựa trên khoảng thời gian hoạt động 12 tháng. Điều này là cần thiết để
phát triển các mô hình như mô hình hồi quy, bao gồm cả thẻ điểm. Thay vào đó, điều
thường được yêu cầu là tỷ lệ churn được đo lường cho một nhóm trường hợp, chẳng hạn
như xếp hạng hoặc danh mục đầu tư tổng thể, thể hiện rủi ro churn trong 12 tháng. Điều
này có thể đạt được theo những cách khác hơn là tính trung bình cho từng cá nhân khách
hàng.

Một ví dụ là tình huống có nhiều giá trị churn giống nhau trường hợp trong thời
hạn 12 tháng phải được tính toán. Trong trường hợp như vậy, chúng ta sẽ tính số lượng
tất cả các sự kiện churn xảy ra trong vòng 12 tháng, cho một nhóm tài khoản không có
churn vào ngày quan sát và chúng ta sẽ bao gồm các sự kiện churn lại sau Tuy nhiên,
điều này được thực hiện với điều kiện là mô hình tỷ lệ churn liên quan đến cùng danh
mục đầu tư đó đã được tạo tương ứng theo cách tính đến các giá trị churn lại của cùng
một trường hợp. Do đó, tỷ lệ churn tương đối cao hơn sẽ bị phản đối bởi rủi ro churn
Trang 59
tương đối cao hơn. Như vậy sau khi thống nhất với các chuyên gia Ngân hàng, chúng ta
có thể xác đinh được biến mục tiêu của chúng ta cho ‘’ mô hình máy học dự đoán khác
hàng trung thành rời bỏ Ngân hàng’’ là churn trong dòng 12 tháng tới của khách hàng
tính từ thời điểm quan sát.

3.2.4.2 Phân tích đơn biến

Phân tích đặc tính ban đầu liên quan đến hai nhiệm vụ chính. Bước đầu tiên là
đánh giá sức mạnh của từng đặc tính riêng lẻ như một yếu tố dự báo về hiệu suất và bản
chất của mối quan hệ của nó với mục tiêu. Đây còn được gọi là sàng lọc đơn biến và
được thực hiện để sàng lọc các đặc điểm yếu hoặc phi logic.Một khi nó được thiết lập
rằng đặc tính mạnh và hợp lý, nó sẽ được nhóm lại. Điều này áp dụng cho các thuộc tính
ở cả đặc tính liên tục và rời rạc, và được thực hiện vì một vài lý do, bao gồm cả lý do
hiển nhiên. Các mô hình cũng có thể được và đang được sản xuất bằng cách sử dụng các
đặc tính liên tục (không nhóm). Tuy nhiên, quá trình phân nhóm mang lại một số lợi thế:

● Nó cung cấp một cách dễ dàng hơn để đối phó với các ngoại lệ với các biến
khoảng thời gian và các lớp hiếm. Tác động của các yếu tố ngoại lai được giảm
bớt thông qua việc phân nhóm.
● Quá trình phân nhóm giúp bạn dễ dàng hiểu các mối quan hệ và do đó có thêm
kiến thức về danh mục các tiêu chí. Biểu đồ hiển thị mối quan hệ giữa các thuộc
tính của một đặc tính và hiệu suất là một công cụ mạnh hơn nhiều so với một
thống kê cường độ biến đơn giản. Nó cho phép người dùng giải thích bản chất của
mối quan hệ này, ngoài sức mạnh của mối quan hệ. Điều này giúp các nhà phân
tích hiểu các điểm trong dữ liệu nơi hành vi thay đổi (hữu ích cho chiến lược) và
xác định các biến quy tắc chính sách mới (ví dụ: biến nhị phân mạnh).
● Các phụ thuộc phi tuyến có thể được mô hình hóa bằng các mô hình tuyến tính.
● Nó cho phép kiểm soát chưa từng có đối với quá trình phát triển bằng cách định
hình các nhóm, một người định hình thành phần cuối cùng của thẻ điểm. Điều này

Trang 60
cho phép sử dụng phán đoán kinh doanh, đặc biệt khi xử lý các tập dữ liệu sai lệch
hoặc nhỏ.
● Quá trình nhóm các đặc điểm cho phép người dùng phát triển hiểu biết sâu sắc về
hành vi của các nhà dự báo rủi ro và nâng cao hiểu biết về danh mục các tiêu chí,
điều này có thể giúp phát triển các chiến lược tốt hơn để quản lý danh mục các tiêu
chí.

Một khi các đặc điểm mạnh nhất được nhóm lại và xếp hạng, việc lựa chọn biến được
thực hiện. Khi kết thúc phân tích đặc tính ban đầu, nhà phát triển thẻ điểm sẽ có một tập
hợp các đặc điểm chủ yếu là mạnh, được nhóm lại, tốt nhất là đại diện cho các loại thông
tin độc lập, để sử dụng trong bước hồi quy.

Độ mạnh của một đặc tính được đánh giá bằng cách sử dụng bốn tiêu chí chính:

● Sức mạnh dự đoán của từng tiêu chí. Weight of Evidence (WOE) được sử dụng
cho mục đích này (thao khảo mục ,..).
● Phạm vi và xu hướng của WOE trên các thuộc tính được nhóm trong một đặc tính.

● Sức mạnh dự đoán của đặc tính. Ở đây, Information value (IV) được sử dụng cho
mục đích này. Tuy nhiên, có nhiều cách khác để đánh giá điều này.
● Các cân nhắc về hoạt động và kinh doanh.

Một số nhà phân tích chạy các thuật toán lựa chọn biến khác (ví dụ: những thuật toán
xếp hạng sức mạnh dự đoán bằng cách sử dụng chi bình phương, Gini hoặc R-bình phương)
trước khi nhóm các đặc điểm. Điều này cung cấp cho họ một dấu hiệu về sức mạnh đặc
trưng bằng cách sử dụng các phương tiện độc lập và cũng có các cảnh báo chúng trong
trường hợp con số IV cao / thấp so với các thước đo khác.

Bước lựa chọn / xếp hạng biến không nên được coi chỉ là một bước để xác định các yếu
tố dự đoán hàng đầu. Khi xử lý dữ liệu sai lệch hoặc cỡ mẫu thấp, chúng cũng chú ý đến các
biến có vẻ yếu về mặt thống kê. Những gì chúng ta đang tìm kiếm là các tiêu chí được coi là
Trang 61
dự đoán dựa trên phán đoán và kinh nghiệm, nhưng hiển thị mối tương quan thống kê thấp
với mục tiêu. Điều này có thể là do sai lệch lựa chọn nghiêm trọng hoặc chỉ do dữ liệu thưa
thớt. Trong những trường hợp như vậy, chúng ta có thể cần phải điều chỉnh các biến này, vì
chúng ta sẽ thảo luận ở phần sau của chương. Những biến như vậy đôi khi kết thúc yếu về
mặt thống kê là những biến thường được sử dụng để phân xử thủ công và các quy tắc chính
sách và có vẻ yếu do sai lệch đó.

Quá trình phân tích đặc tính ban đầu nên mang tính tương tác và sự tham gia của người
dùng doanh nghiệp và nhân viên vận hành cần được khuyến khích. Đặc biệt, chúng có thể
cung cấp thêm thông tin chi tiết về bất kỳ mẫu hành vi bất ngờ hoặc phi logic nào và tăng
cường nhóm tất cả các biến. Thông thường, nhà phát triển mô hình thực hiện phân loại các
biến và sau đó nhận đầu vào từ nhân viên quản lý rủi ro cho điều chỉnh.

Bước đầu tiên trong việc thực hiện phân tích này là thực hiện nhập nhóm ban đầu của
các biến và xếp thứ tự chúng theo IV hoặc một số thước đo sức mạnh khác. Điều này có thể
được thực hiện bằng cách sử dụng một số kỹ thuật binning.

Bước mở rộng ở đây là xem xét một đường cong WoE chưa nhóm hoặc đã nhóm binning
để quyết định xem nó có hợp lý hay không. Khi chúng ta quyết định điều này, chúng tôi sẽ
dành thời gian làm việc để làm cho các binning tốt hơn.

Dựa trên việc chia biến thành các nhóm (binning) chúng ta có ví dụ sau:

Bảng 3.1: Phân nhóm của tiêu chí AB52

Binning (AB52: Tổng doanh


Churn
số gửi tiền mặt ra tài khoản Coun Non-churn churn rate in
Count (%) in
trung bình trong 3 tháng gần t in furure furure
furure
đây)

(-inf, 500000.00) 60060 0.739591 49930 10130 0.168665

[500000.00, 1515200.00) 1657 0.020405 1501 156 0.094146

Trang 62
Binning (AB52: Tổng doanh
Churn
số gửi tiền mặt ra tài khoản Coun Non-churn churn rate in
Count (%) in
trung bình trong 3 tháng gần t in furure furure
furure
đây)

[1515200.00, 3333333.33) 3024 0.037238 2920 104 0.034392

[3333333.33, inf) 16466 0.202766 16032 434 0.026357

Missing 0 0 0 0 0

A. Weight of Evidence (WoE)

Tại bước phân tích phân nhóm (coarse classing), các biến được tiếp tục chuyển đổi
bằng cách sử dụng Weight of Evidence (WOE). Điều này cho phép chúng ta biến đổi các
nhóm thành một giá trị phù hợp để sử dụng trong xây dựng mô hình hồi quy logistic và
các thuật toán cho mô hình AI. WoE (weight of evidence) là thước đo về mức độ mà một
biến độc lập (như: tuổi của một người, thời gian quan hệ với ngân hàng, …) liên quan đến
biến phụ thuộc (xác suất churn trong tương lai). WOE được tính toán như sau:

WoE=ln ( Distr Gi
Distr Bi )
Trong đó:

• Gi : số lượng quan sát tốt trong nhóm i

Gi
• Distr Gi= số lượng quan sát tốt trong nhóm i / Tổng số quan sát tốt
∑Gi

• Bi: số lượng quan sát xấu (vỡ nợ) trong nhóm i

Bi
• Distr Bi= số lượng quan sát xấu trong nhóm i / Tổng số quan sát xấu
∑ Bi

Ví dụ:
Trang 63
Bảng 3.2: Phân nhóm của tính WoE tiêu chí AB52

Bin ( biến AB52) Count Count Non- Churn churn rate WoE
(%) churn in in in future
future future

(-inf, 500000.00) 60,060 0.739591 49,930 10,130 0.168665 -0.27707

[500000.00, 1515200.00) 1,657 0.020405 1,501 156 0.094146 0.391845

[1515200.00,
3333333.33) 3,024 0.037238 2,920 104 0.034392 1.462762

[3333333.33, inf) 16,466 0.202766 16,032 434 0.026357 1.737112

Missing 0 0 0 0 0 0

Total 81,207 70,383 10,824

49,940:70,383
Woe ((-inf, 500000.00)) = ln (
10,130 :10,824
) = -0.27707
Lợi ích khu dùng Woe để chuyển đổi như sau:

● Nó có thể xử lý các ngoại lệ. Giả sử bạn có một biến số liên tục chẳng hạn như
Tổng doanh số gửi tiền mặt ra tài khoản trung bình trong 3 tháng gần đây là
hơn 3 triệu VND. Các giá trị này sẽ được nhóm lại thành một loại (giả sử từ 3
triệu VND đến giá trị lớn nhất của biến Tổng doanh số gửi tiền mặt ra tài
khoản trung bình trong 3 tháng gần đây). Sau đó, thay vì sử dụng các giá trị
thô, chúng ta sẽ sử dụng điểm WOE của mỗi bin.

● Nó có thể xử lý các giá trị bị thiếu vì các giá trị bị thiếu có thể được xếp vào
bin riêng.

● Vì WOE Transformation xử lý biến phân loại (biến giá trị là chữ như khu vực
sinh sống của khách hàng) nên không cần biến giả.

Trang 64
● Chuyển đổi WoE giúp chúng ta xây dựng mối quan hệ tuyến tính chặt chẽ với
churn rate in future (WOE cho các giá trị không bỏ qua cũng tuân theo một
phân phối hợp lý, đi từ âm sang dương mà không có bất kỳ sự đảo ngược nào.
Điều này xác nhận logic kinh doanh). Nếu không, không dễ dàng để thực hiện
mối quan hệ tuyến tính bằng cách sử dụng các phương pháp biến đổi khác như
log, OLS,….giúp khi xây dụng mô hình được chính xác hơn.

B. Information value (IV))

Phép nhân với 100 dựa trên sở thích cá nhân và được thực hiện để làm cho các số dễ
làm việc hơn. Số âm ngụ ý rằng thuộc tính cụ thể đang cô lập tỷ lệ hàng xấu cao hơn
hàng hóa. IV, hoặc tổng sức mạnh của đặc tính, đi kèmtừ lý thuyết thông tin, và được đo
bằng công thức:

IV =∑ ¿ ¿

Trong đó:

• Gi : số lượng hợp đồng vay tốt trong nhóm i

Gi
• Distr Gi= : số lượng hợp đồng vay tốt trong nhóm i / Tổng số hợp đồng vay tốt
∑Gi

• Bi: số lượng hợp đồng vay xấu (vỡ nợ) trong nhóm i

Bi
• Distr Bi= : số lượng hợp đồng vay xấu trong nhóm i / Tổng số hợp đồng vay xấu
∑ Bi

Theo các thông lệ tốt, giá trị IV và khả năng dự báo của một biến có mối quan hệ như
sau:

Giá trị thông tin đo lường khả năng phân biệt khách hàng tốt/xấu của từng biến riêng lẻ,
do lường môi quan hệ giữa biến độc lập với biến phụ thuộc của mô hình. Giá trị thông tin

Trang 65
biến là tổng các giá trị thông tin từ mỗi thuộc tính của biến. Các biện pháp khác thường
được sử dụng trong việc xây dựng mô hình bao gồm Gini và chi-square. Trong nhiều
trường hợp, khi một biến yếu, nhưng có mối quan hệ logic và được coi là hữu ích từ góc
độ kinh doanh, các nhà quản lý rủi ro thường sẽ đưa nó vào mô hình.Trong trường hợp
thẻ điểm đang được phát triển bằng cách sử dụng các đặc điểm không phân nhóm, thống
kê để đánh giá sức mạnh dự đoán bao gồm bình phương R và bình phương chi. Cả hai
phương pháp này đều sử dụng các tiêu chí phù hợp để đánh giá các đặc tính.

Bảng 3.3: Tiêu chuẩn tham chiếu của IV theo thông lệ

IV Khả năng dự báo5

Nhỏ hơn 0.02 Không có khả năng dự báo

0.02 – 0.1 Khả năng dự báo yếu

0.1 – 0.3 Khả năng dự báo trung bình

0.3 – 0.5 Khả năng dự báo mạnh

Lớn hơn 0.5 Đáng nghi ngờ, quá tốt để tin tưởng

Các đặc điểm có IV lớn hơn 0,5 nên được kiểm tra xem có bị ghi chép quá mức
hay không - chúng có thể bị loại khỏi quá trình mô hình hóa, hoặc được sử dụng một cách
có kiểm soát, chẳng hạn như sẽ được mô tả ở phần sau trong phần “Phiếu ghi điểm sơ
bộ”.

IV được tính toán cho biến theo công thức như sau:
5
Thực tế các ngưỡng này sẽ được cân nhắc điều chỉnh nếu có hạn chế về mặt dữ liệu, điều chỉnh ngưỡng thấp hơn để có thể lấy
được nhiều và đa dạng các biến tại bước phân tích đơn biến.
Trang 66
Bảng 3.4: Ví dụ minh họa cho IV của một biến AB52

Bin ( biến Count Count Non- Churn churn WoE IV IV


AB52) (%) churn in rate in Report
in future future
future

(-inf,
500000.00) 60,060 0.739591 49,930 10,130 0.168665 -0.27707 0.06274943 0.438122

[500000.00,
1515200.00) 1,657 0.020405 1,501 156 0.094146 0.391845 0.00270912 0.438122

[1515200.00
, 0.04663141
3333333.33) 3,024 0.037238 2,920 104 0.034392 1.462762 3 0.438122

[3333333.33 0.32603186
, inf) 16,466 0.202766 16,032 434 0.026357 1.737112 6 0.438122

Missing 0 0 0 0 0 0 0 0.438122

Total 81,207 70,383 10,824 0.438122

C. Đa cộng tuyến

Đa cộng tuyến không phải là một mối quan tâm đáng kể khi phát triển các mô hình
cho mục đích dự đoán với các tập dữ liệu lớn. Tác động của đa cộng tuyến trong việc
giảm sức mạnh thống kê của một mô hình có thể được khắc phục bằng cách sử dụng một
mẫu đủ lớn sao cho vẫn có thể ước tính được các tác động riêng biệt của từng đầu vào
một cách đáng tin cậy. Trong trường hợp này, các ước lượng tham số thu được thông qua
hồi quy bình phương nhỏ nhất thông thường (OLS) sẽ đáng tin cậy.

Xác định mối tương quan có thể được thực hiện trước hoặc sau khi phân tích đặc
trưng ban đầu, nhưng trước bước hồi quy. Cả hai các bước tương quan và nhóm cung cấp
Trang 67
thông tin có giá trị về dữ liệu hiện có và không chỉ là các bài tập thống kê. Trong khi
giảm số lượng các đặc điểm được nhóm lại (bằng cách kiểm tra mối tương quan trước) là
một cách tiết kiệm thời gian, người ta cũng bị tước đi cơ hội để xem xét bản chất của mối
quan hệ giữa nhiều đặc điểm và hiệu suất. Do đó, cách tiếp cận tốt nhất có thể là sự kết
hợp loại bỏ một số đặc điểm thừa và chọn nhiều hơn một đặc điểm từ mỗi “cụm” tương
quan dựa trên trực giác kinh doanh và hoạt động. Điều này giúp cân bằng nhu cầu về hiệu
quả với cơ hội có được thông tin chi tiết về dữ liệu.

D. Cân nhắc các yếu tố kinh nghiệm từ hoạt động kinh doanh

Các cân nhắc thống kê và logic kinh doanh đã được thảo luận như các biện pháp
dùng để nhóm các thuộc tính. Cân nhắc thứ ba là mức độ liên quan đến kinh doanh hoặc
hoạt động. Đối với phân loại — rằng Đối với phân loại — nghĩa là, danh nghĩa — các
biến, chẳng hạn như mã bưu điện hoặc mã lối sống, các nhóm tự động thường được thực
hiện dựa trên trọng số tương tự và sẽ luôn tạo ra xu hướng hợp lý (tức là các thuộc tính có
trọng số tương tự được nhóm lại với nhau), dựa trên WOE được tính toán. Các nhóm tự
động này phải được điều tra về logic. Việc thiết lập logic trong các biến phân loại có
phần khó hơn so với các biến liên tục mà chúng ta đã thấy trước đây. Các kết quả sai lệch
và phi logic trong các kết quả phân loại là do hai vấn đề chính.

Thứ nhất, các quy tắc chính sách dựa trên khu vực, sản phẩm, tình trạng nhà ở và,
trong một số trường hợp, các loại việc làm sẽ dẫn đến một số danh mục nhất định hoạt
động tốt hơn mức cần thiết, do quá tải và kén chọn. Những điều này tương tự như ví dụ
như các biến địa lý chúng ta có thể gộp các khu vực có tính chất tương tự với nhau.

Thứ hai, lý do phổ biến nhất dẫn đến sự thiên vị tích cực — mọi người coi thường
dữ liệu là tốt nhưng có vẻ xấu — trong nhóm phân loại binning (các thuật toán đặt các
WOE tương tự lại với nhau) là số lượng thấp hoặc dữ liệu thưa thớt. Ví dụ: một khách
hàng có tính chất mà chúng ta đánh giá là tỉ lệ churn thấp hơn khách hàng trẻ tuổi, dựa
trên WOE âm hoặc một nghề nghiệp có quan hệ lâu năm với ngân hàng với những người

Trang 68
có quan hệ với ngân hàng thấp hơn. Khi đối mặt với những tình huống như thế này, điều
đầu tiên chúng ta nên làm là kiểm tra danh mục cá nhân để đảm bảo rằng nó có đủ số
lượng. Nếu dữ liệu trong danh mục đó đủ lớn, thì lý do của kết quả dường như phi logic
cần được điều tra.Tuy nhiên, thông thường, những trường hợp như vậy là do dữ liệu thưa
thớt. Điều này cần được xác nhận bằng cách nhìn vào số lượng tốt và xấu. Cách khắc
phục tình trạng này thường là lấy danh mục đó và chuyển sang một danh mục khác với
các thương hiệu cao cấp tương tự. Do số lượng thấp trong thuộc tính đó, các WOE, IV,
v.v. của biến sẽ không bị ảnh hưởng. Tuy nhiên, từ góc độ logic và kinh doanh, nó sẽ tạo
ra sự khác biệt đáng kể.

Quá trình binning tương tác và chuyên sâu theo cách thủ công, vì nó yêu cầu nhiều
thông tin đầu vào của người dùng để nhận được kết quả hữu íchó. Yêu cầu giải thích và
tạo logic từ các mối quan hệ WOE cũng là lý do tại sao người xây dựng mô hình cần phải
hiểu từng biến số, ý nghĩa của nó, cách nó bắt nguồn và bản chất tại sao nó lại hữu ích
cho việc quản lý thanh khoản. Được thiết lập, thông qua tương tác với các nhà quản lý rủi
ro thanh khoản / chính sách, rằng các mối quan hệ WOE là hợp lý. Điều này được thực
hiện tốt nhất bằng cách thông qua các biến với người quản lý rủi ro thanh khoản, cũng
như chuyên gia ngân hàng xác nhận mô hình. Trong một số trường hợp, người quản lý rủi
ro thanh khoản sẽ yêu cầu các thay đổi đối với các bins, chọn sử dụng các biến yếu nhưng
hợp lý hoặc chọn loại bỏ các biến vì lý do khác. Tất cả những điều này nên được lập
thành văn bản. Lưu ý rằng nhân viên tiếp thị / kinh doanh có thể được tham vấn trong giai
đoạn này để giúp giải thích các hiện tượng, nhưng họ không được có tiếng nói cuối cùng
về bất kỳ biến số nào, cũng như không được phủ quyết chúng. Hiểu dữ liệu tốt hơn —
ngoài việc xác định các biến có tương quan thống kê mạnh mẽ với mục tiêu, giờ đây
chúng ta cũng biết chúng có liên quan như thế nào. Chúng ta nhận ra các loại khách hàng
có rủi ro cao / thấp, các điểm mà hành vi thay đổi và dữ liệu bị sai lệch như thế nào.

Bất kể kỹ thuật mô hình hóa được sử dụng là gì, quá trình này sẽ tạo ra một thẻ điểm
bao gồm sự kết hợp tối ưu của các đặc điểm, có tính đến các vấn đề khác như:
Trang 69
● Tương quan giữa các đặc điểm (biến)
● Sức mạnh thống kê cuối cùng của thẻ điểm
● Phù hợp với kinh doanh
● Tuân thủ các quy định và luật pháp địa phương.
● Khả năng diễn giải (quan hệ nhân quả) của các đặc điểm từ góc độ kinh doanh —
có thể giải thích bằng ngôn ngữ kinh doanh đơn giản tại sao biến đó lại mạnh và
nên có trong mô hình.
● Khả năng thực hiện từ góc độ kỹ thuật.
● Tính minh bạch của phương pháp luận đối với các yêu cầu điều chỉnh nội bộ và
quy định.

3.3. Xây dựng mô hình


Sau khi qua trình phân tích của dữ liệu ban đầu đã được mô tả từng bước tại mục
3.2 ta có kết quả sau khi tiền xử lý dữ liệu và phân tích đơn biến như:

Hình 3.3: Quy trình và kết quả phân tích đơn biến

Bảng 3.5: Danh sách số lượng biến cho xây dựng mô hình máy học dự đoán khách
hàng rời bỏ
Trang 70
STT Tên tiêu chí Mô tả

1 Tổng số dư bình quân của các tài khoảng tại tháng báo cáo/ Tổng số
AB10
dư của các tài khoảng tại tháng báo cáo
2 Tỷ lệ Tổng doanh số gửi tiền mặt ra tài khoản trên Tổng doanh số
AB21
giao dịch chuyển tiền
3 Tỷ lệ Tổng doanh số tiền ra tài khoản quy đổi (-) trên Tổng doanh số
AB22
tiền vào tài khoản quy đổi (-)tháng trước
4 Tỷ lệ Tổng số dư của các tài khoảng tại tháng báo cáo trên Tổng số
AB32
dư của các tài khoảng tại tháng báo cáo tháng trước
5 Tỷ lệ Tổng số dư bình quân của các tài khoảng tại tháng trên Tổng số
AB33
dư bình quân của các tài khoảng tại tháng trước
6 Tổng doanh số giao dịch qua tài khoản thanh toán quy đổi trung bình
AB37
trong 3 tháng gần đây
7 Tổng số dư bình quân của các tài khoảng tại tháng báo cáo/ Tổng số
AB42 dư của các tài khoảng tại tháng báo cáo trung bình trong 3 tháng gần
đây
8 Tỷ lệ tổng chi phí chuyển qua tài khoản trên Tổng doanh số giao dịch
AB48
chuyển tiền trung bình trong 3 tháng gần đây
9 Tỷ lệ Tổng doanh số gửi tiền mặt ra tài khoản trên Tổng doanh số
AB53
giao dịch chuyển tiền trung bình trong 3 tháng gần đây
10 Tỷ lệTổng doanh số tiền vào tài khoản quy đổi (-) trên Tổng doanh số
AB57 giao dịch qua tài khoản thanh toán quy đổi tháng trước trung bình
trong 3 tháng gần đây
11 Tỷ lệ Tổng số dư của các tài khoảng tại tháng báo cáo trên Tổng số
AB64 dư của các tài khoảng tại tháng báo cáo tháng trước trung bình trong
3 tháng gần đây
12 Tỷ lệ Tổng số dư bình quân của các tài khoảng tại tháng trên Tổng số
AB65 dư bình quân của các tài khoảng tại tháng trước trung bình trong 3
tháng gần đây

Trang 71
STT Tên tiêu chí Mô tả

13 Tổng số dư của các tài khoảng tại tháng báo cáo trung bình trong 6
AB66
tháng gần đây
14 Tổng số dư bình quân của các tài khoảng tại tháng báo cáo/ Tổng số
AB73 dư của các tài khoảng tại tháng báo cáo trung bình trong 6 tháng gần
đây
15 Tỷ lệ tổng chi phí chuyển qua tài khoản trên Tổng doanh số giao dịch
AB79
chuyển tiền trung bình trong 6 tháng gần đây
16 Tỷ lệ Tổng doanh số tiền vào tài khoản quy đổi (-) TTổng doanh số
AB89 tiền vào tài khoản quy đổi (-) tháng trước trung bình trong 6 tháng
gần đây
17 Tỷ lệ Tổng số dư của các tài khoảng tại tháng báo cáo trên Tổng số
AB95 dư của các tài khoảng tại tháng báo cáo tháng trước trung bình trong
6 tháng gần đây
18 NUM_NO_CREDIT Số sản phẩm tín dụng khách hàng sử dụng
19 Z1 Tuổi khách hàng
20 Z6 Thời gian quan hệ với ngân hàng

Từ kết quả tiền xử lý dữ liệu và phân tích ta biến ta được, một bảng dữ liệu có 20 tiêu
chí và 116,011 quan sát (với 100,548 quan sát Retention_next_12M và 15,463 quan sát
Churn_next_12M). Để tiến hành xây dựng mô hình máy học dự đoán khách hàng trung
thành ròi bỏ Ngân hàng từ đó chúng ta tiến hàng chia dữ liệu thành 2 phần là train (70%)
và test (30%) tường ứng tập train (xây dụng) có 81207 quan sát , tập test (kiểm định) có
34,804. Dùng hai tập dữ liệu nói trên chúng ta tiến hành xây dựng mô hình với các thuật
toán như Logistic Regression, Decision Tree, RandomForest, Xgboot.

Chương 4: ĐÁNH GIÁ KẾT QUẢ VÀ BÀN LUẬN


Trang 72
4.1. Phương pháp lựa chọn và đánh giá mô hình
Confusion matrix hay contigency table là một trong những phương pháp đánh giá mô
hình phân loại quan trọng và phổ biến nhất cũng là cơ sở hình thành cho các phương
pháp đánh giá khác. Confusion matrix là một ma trận tổng quát thể hiện kết quả phân loại
chính xác và kết quả phân loại đúng sai được tạo ra bởi mô hình phân loại bằng cách so
sánh với gia trị thật của biến mục tiêu của tập dữ liệu test thường có dạng mã trận 2x2.

Bảng 4.1: Tổng quát ma trận Confusion

Predicted class
Positive Negative
False Negative Sentitivity
True Positive
Positive (FN) TP
(TP)
Actual Type II error TP+ FN

class False Positive Specificity


True Negative
Negative (FP) TN
(TN)
Type I error TN + FP

Precision Negative Accuracy


Predictive Value
TP TN TP+TN
TP+ FP TN+ FN TP+ TN + FP+ FN

(1) Nếu kết quả của mô hình dùng dữ liệu từ tập kiểm đinh đưa ra dự báo/phân loại
“Positive” đúng với kết quả thực tế từ tập kiểm đinh “Positive” chúng ta gọi là
True Positive (TP).
(2) Nếu kết quả của mô hình dùng dữ liệu từ tập kiểm đinh đưa ra dự báo/phân loại
“Positive” sai với kết quả thực tế từ tập kiểm đinh “Negative” chúng ta gọi là
False Positive (FP) hay còn được gọi là Type 1 Error (sai lầm loại 1)

Trang 73
(3) Nếu kết quả của mô hình dùng dữ liệu từ tập kiểm đinh đưa ra dự báo/phân loại
“Negative” sai với kết quả thực tế từ tập kiểm đinh “Positive” chúng ta gọi là
False Negative (FN) hay còn được gọi là Type 2 Error (sai lầm loại 2)
(4) Nếu kết quả của mô hình dùng dữ liệu từ tập kiểm đinh đưa ra dự báo/phân loại
“Negative” đúng với kết quả thực tế từ tập kiểm đinh “Negative” chúng ta gọi là
True Negative (TN).

Precision (Positive PredictedValue) là tỷ lệ trường các trường hơp Positive được phân lại
đúng.
(1) TP
Precision ¿ = (4.1)
(1 )+(2) TP + FP
Negative Predictive Value là tỷ lệ các trường hợp Negative được phân loại đúng.
(3) FN
Negative Predictive Value¿ = (4.2)
( 3 )+(4) FN +TN
Accuracy là tỷ lệ mô hình dự báo/phân loại đúng cho tất cả trường hợp Positive và
Negative.
Accuracy¿ ( 1 ) +¿ ¿ (4.3)
Recall (Sentitivity) là tỷ lệ các trường hợp Positive thực thực sự (actual) được phân loại
đúng. Lưu ý tránh nhầm lẫn với Precision. Sensitivity là tỷ lệ mà trong tất cả giá trị mô
hình phân loại, có bao nhiêu giá trị (Positive) thực sự đã được phân loại đúng, còn bao
nhiêu giá trị (Positive) thực sự đã được phân loại đúng, còn Precision là tỷ lyje mà trong
tất cả giá trị Positive thực sự có boa nhiêu giá trị (Positive) đã được phân loại đúng.
Precision cung cấp cho chúng ta thông tin là: mô hình đã “bắt” đúng, chính xác bao nhiêu
giá trị Positive thực sự, còn Sentitivity cung cấp cho chúng ta thông tin là: mô hình đã
“bỏ lỡ” bao nhiêu giá trị Positive thực sự.
(1) TP
Sentitivity ¿ = (4.4)
(1 )+ ( 3 ) TP+ FN

Specificity là tỷ lệ các trường hợp Negative thực sự (actual) đã được phân loại đúng. Lưu
ý tránh nhầm lẫn với Negative Predictive Value. Specificity là tỷ lệ mà trong tất cả giá trị
mà mô hình phân loại, có bao nhiêu giá trị ( negative) thực sự đã được phân loại đúng,
còn Negative Predictive Value là tỷ lệ mà trong tất cả giá trị Negative thực sự có bao
nhiêu giá trị( negative) đã được phân loại đúng.

Trang 74
(2) TN
Specificity¿ = (4.5)
( 2 )+ ( 4 ) TN + FP

F1 score (F1 measure)


Chỉ số F1 điều hòa “harmonic” tầm quan trọng của cả Recall và Precsion sao cho tương
đương nhau. Công thức của chỉ số F1:
recall−1 + precision−1 −1 precision x recall
F1 score = ( ) =2 x (4.6)
2 precision+recall
F1 score nằm trong khoảng giá trị từ 0 đến 1, càng lớn thì độ hiệu quả của mô hình phân
loại càng cao.
ROC
H

ROC (Receiver operating characteristic) là đồ thị dạng đường cong, một trong những
phương pháp phổ biến để đánh giá mô hình phân loại, sử dụng 2 giá trị đó chính là tỷ lệ
đạt được True Positive trong tổng số các giá trị thực Positive ( chính là giá trị Sensitity)
và tỷ lệ bị False Positive trong tổng số các giá trị thực Positive ( chính là giá trị 1 –
Specificity). Giá trị ROC nằm trong giới hạn từ 0 đến 1.

Trang 75
4.2. Lựa chọn mô hình tốt cho bài toán dự đón khách hàng rời bỏ
ngân hàng
4.2.1. Kết quả mô hình:

4.2.1.1 Mô hình Logistic Regression

4.2.1.2

Mô hìnhDecision Tree

4.2.1.3 Mô hình RandomForest

Trang 76
4.2.1.4 Mô hình Xgboost.

4.2.2. Đánh giá mô hình

  Mô hình precision recall f1-score accuracy ROC

Logistic
0.93 0.98 0.95 0.919233 0.92204
Regression

Retention in Random Forest 0.96 0.97 0.97 0.944719 0.962572


future
Decision Tree 0.96 0.96 0.96 0.93087 0.881269

XGBoost 0.96 0.97 0.97 0.94153 0.95471

Churn in future Logistic 0.79 0.54 0.64 0.919233 0.92204


Regression

Trang 77
Random Forest 0.82 0.75 0.78 0.944719 0.962572

Decision Tree 0.75 0.73 0.74 0.93087 0.881269

XGBoost 0.81 0.74 0.77 0.94153 0.95471

4.3. Hiện thực hóa Mô hình

Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Tổng quả kết quả nghiêm cứu

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Brownlow, J., Chu, C., Fu, B., Xu, G., Culbert, B., & Meng, Q. (2018). Cost-sensitive
churn prediction in fund management services. Paper presented at the
International Conference on Database Systems for Advanced Applications.
Colgate, M. R., & Danaher, P. J. J. J. o. t. A. o. m. S. (2000). Implementing a customer
relationship strategy: The asymmetric impact of poor versus excellent execution.
28(3), 375-387.
Devriendt, F., Berrevoets, J., & Verbeke, W. J. I. S. (2021). Why you should stop
predicting customer churn and start using uplift models. 548, 497-515.
Gupta, S., Lehmann, D. R., & Stuart, J. A. (2004). Valuing customers. Journal of
marketing research, 41(1), 7-18.
Lee, E., Kim, B., Kang, S., Kang, B., Jang, Y., & Kim, H. K. J. I. T. o. G. (2018). Profit
optimizing churn prediction for long-term loyal customers in online games. 12(1),
41-53.
Trang 78
Li, Y., Hou, B., Wu, Y., Zhao, D., Xie, A., & Zou, P. J. J. o. B. R. (2021). Giant fight:
Customer churn prediction in traditional broadcast industry. 131, 630-639.
Liao, K.-H., & Chueh, H.-E. (2011). Applying fuzzy data mining to telecom churn
management. Paper presented at the International Conference on Intelligent
Computing and Information Science.
Reichheld, F. F. J. H. b. r. (1996). Learning from customer defections. 74(2), 56-67.
Rosa, N. B. d. C. (2019). Gauging and foreseeing customer churn in the banking
industry: a neural network approach.
Silveira, L. J., Pinheiro, P. R., Junior, L. S. d. M. J. J. o. R., & Management, F. (2021). A
Novel Model Structured on Predictive Churn Methods in a Banking Organization.
14(10), 481.
Vafeiadis, T., Diamantaras, K. I., Sarigiannidis, G., Chatzisavvas, K. C. J. S. M. P., &
Theory. (2015). A comparison of machine learning techniques for customer churn
prediction. 55, 1-9.
Vo, N. N., Liu, S., Brownlow, J., Chu, C., Culbert, B., & Xu, G. (2018). Client churn
prediction with call log analysis. Paper presented at the International Conference
on Database Systems for Advanced Applications.

Vélez, D., Ayuso, A., Perales-González, C., & Rodríguez, J. T. J. K.-B. S. (2020). Churn
and Net Promoter Score forecasting for business decision-making through a new
stepwise regression methodology. 196, 105762.

Trang 79

You might also like