Chương I, II - NGUYỄN QUANG TRƯỜNG - Comments

Chương 1: TỔNG QUAN ĐỀ TÀI........................................................
1
1.1. Cơ sở hình thành đề tài................................................................................1
1.2. Mục tiêu nghiên cứu.....................................................................................8
1.3. Đối tượng nghiên cứu...................................................................................9
1.4. Phạm vi nghiên cứu......................................................................................9
1.5. Phương pháp nghiên cứu.............................................................................9
1.6. Ý nghĩa khoa học hoặc thực tiễn.................................................................9
1.7. Kết cấu luận văn.........................................................................................10
Chương 2: TỔNG QUAN NGIÊM CỨU VÀ CƠ SỞ LÝ THUYẾT
................................................................................................................11
2.1. Tình hình nghiêm cứu liên quan...............................................................11
2.1.1. Các nghiên cứu liên quan......................................................................................................11
2.1.2. Phân tích và đánh giá các nghiên cứu..................................................................................15
2.2. Cơ sở lý thuyết............................................................................................16
2.2.1. Khách hàng trung thành rời bỏ............................................................................................16
a. Định nghĩa khách hàng trung thành..........................................................................................16
b. Cơ sở lý thuyết xác định khách hàng trung thành rời bỏ...........................................................21
c. Dự đoán khách hàng trung thành rời bỏ....................................................................................30
2.2.2. Máy học và giải thuật học máy điển hình............................................................................31
a. Máy học.....................................................................................................................................31
b. Các giải thuật............................................................................................................................33
2.3. Môi trường thực hiện.................................................................................46
Chương 3: ĐỀ XUẤT MÔ HÌNH........................................................48
3.1. Quy trình thực nghiệm...............................................................................48
3.1.1. Sơ đồ thực hiện.......................................................................................................................48
3.1.2. Diễn giải quy trình.................................................................................................................48
3.2. Mô tả dữ liệu...............................................................................................48
3.2.1. Thu thập dữ liệu.....................................................................................................................48
3.2.2. Phương định nghĩa tiêu chí...................................................................................................48
3.2.3. Tiền xử lý dữ liệu...................................................................................................................48
3.2.4. Xác định mối quan hệ giữa biến phụ thuộc và biến độc lập...............................................48
3.3. Xây dựng mô hình......................................................................................48
Chương 4: ĐÁNH GIÁ KẾT QUẢ VÀ BÀN LUẬN.........................49
4.1. Phương pháp lựa chọn và đánh giá mô hình..........................................49
4.2. Lựa chọn mô hình tốt cho bài toán dự đón khách hàng rời bỏ ngân
hàng.....................................................................................................................49
4.3. Hiện thực hóa Mô hình..............................................................................49
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.......................49
5.1. Tổng quả kết quả nghiêm cứu...................................................................49
5.2. Hướng phát triển........................................................................................49
TÀI LIỆU THAM KHẢO....................................................................49
PHỤ LỤC..............................................................................................49
Chương 1: TỔNG QUAN ĐỀ TÀI
Cơ sở hình thành đề tài

Khách hàng luôn là tài sản quý giá nhất đối với bất kỳ tổ chức nào, trong môi
trường kinh doanh ngày càng cạnh tranh ngày nay, khách hàng có thể dễ dàng chuyển
đổi giữa các đối thủ cạnh tranh, do đó việc giữ chân khách hàng dường như là một yêu
cầu cơ bản, thiết yếu và có tầm quan trọng đối với bất kỳ một tổ chức nào. Nhiều công
ty gặp phải vấn đề nghiêm trọng về việc khách hàng bỏ đi, do sự cạnh tranh khốc liệt do
thị trường bão hòa, điều kiện thị trường năng động và liên tục đưa ra các dịch vụ cạnh
tranh mới. Các ngân hàng cũng không nằm ngoài quy luật này. Với Số lượng khách
hàng của các ngân hàng và công ty tài chính ngày càng tăng, các ngân hàng lớn
thường có hàng chục triệu khách hàng trong danh mục kinh doanh của họ và điều này
khiến các ngân hàng ý thức được chất lượng dịch vụ mà họ cung cấp. Hiện tượng rời
đi của khách hàng, được gọi là 'churn', tức là sự chuyển đổi lòng trung thành từ nhà
cung cấp dịch vụ này sang nhà cung cấp dịch vụ khác xảy ra do các lý do như sự sẵn
có của công nghệ mới nhất, nhân viên ngân hàng thân thiện với khách hàng, lãi suất
thấp, vị trí địa lý gần, dịch vụ đa dạng được cung cấp, v.v. Môi trường cạnh tranh của
các dịch vụ ngân hàng thương mại được cung cấp bởi các ngân hàng khác nhau làm
tăng sự cần thiết của việc giữ chân khách hàng, trong khi cố gắng tăng thị phần của
mình vào việc thu hút khách hàng mới. Tầm quan trọng của việc hiểu được sự rời bỏ
của khách hàng đã được nhấn mạnh trong một số nghiên cứu gần đây. Tỷ lệ duy trì
tăng 1% cho thấy giá trị công ty tăng trung bình 5% [1]. Việc giảm tỷ lệ rời bỏ 5 phần
trăm đã được chứng minh là giúp tăng gấp đôi lợi nhuận trong một số ngành [2].
Nhu cầu sử dụng sản phẩm dịch vụ của khách hàng là yếu tố quan trọng nhất
trong sự hình thành của bất cứ thị trường và doanh nghiệp nào. Nó thu hút các công ty
để đáp ứng nhu cầu của họ bằng cách phát triển các sản phẩm và dịch vụ mới. Một số
Trang 1
nghiên cứu đã chỉ ra rằng có được một khách hàng mới thường đắt gấp 5 đến 6 lần so
với việc giữ chân một khách hàng hiện có [3]. Do tầm quan trọng của khách hàng và
chi phí thu hút khách hàng mới cao hơn so với việc duy trì khách hàng hiện tại, các
ngân hàng và các ngành phụ thuộc vào khách hàng khác phải có khả năng tự động hóa
quá trình dự đoán hành vi của khách hàng bằng cách sử dụng dữ liệu của khách hàng
trong cơ sở dữ liệu của họ. Trong khi đó, khách hàng rời đi là một trong những vấn đề
quan trọng nhất đối với Ngân hàng. Nó tước đi của một ngân hàng các khoản thu nhập
khác nhau và thu nhập từ phí ( tiền gửi không kỳ hạn, phí chuyển tiền,…). Và quan
trọng hơn, tiền gửi của khách hàng là nguồn thu nhập chính của một ngân hàng trong
hệ thống ngân hàng. Nó có thể dẫn đến việc rút một phần tiền gửi của ngân hàng. Khi
xem xét việc mất đi hai nguồn thu nhập này, cùng với khả năng gia tăng rủi ro về uy
tín, có thể dẫn ngân hàng đến bờ vực phá sản. Khi khách hàng rời bỏ sẽ ảnh hưởng
trực tiếp tới doanh thu và lợi nhuận của Ngân hàng. Mặt khác, chi phí để duy trì một
khách hàng hiện hữu thấp hơn nhiều so với chi phí tìm kiếm một khách hàng mới.
Vậy nên, hiểu rõ và giữ chân khách hàng là việc quan trọng luôn được các doanh
nghiệp quan tâm. Khách hàng rời bỏ trong lĩnh vực ngân hàng mô tả một khách hàng
bị mất đã hủy đăng ký dịch vụ ngân hàng và đăng ký một ngân hàng khác. Các ngân
hàng và các tổ chức tài chính khác thường xuyên kiểm tra các giao dịch của khách
hàng để phát hiện các dấu hiệu cảnh báo phổ biến trong hành vi của khách hàng trước
khi xảy ra churn. Quản lý rời bỏ đã trở thành một phần của quản lý quan hệ khách
hàng (CRM) vì thách thức nghiêm trọng của việc khách hàng rời bỏ trong lĩnh vực
ngân hàng. Quản lý rời bỏ nhấn mạnh sự cần thiết của các ngân hàng để thực hiện các
bước để ngăn chặn hoặc giảm thiểu sự rời bỏ của khách hàng thông qua một số
chương trình giữ chân khách hàng. Điều này cũng giúp thiết lập mối quan hệ lâu dài
với khách hàng và tối đa hóa giá trị cơ sở khách hàng của họ. Khách hàng rời bỏ đặt
ra mối quan tâm nghiêm trọng đối với các ngân hàng vì nó gây ra tổn thất doanh thu
cho ngành. Vì lý do này, các ngân hàng rất muốn xác định những khách hàng có khả
Trang 2
năng hủy đăng ký dịch vụ của họ cao nhất. Dự đoán rời bỏ cho phép sử dụng hồ sơ
giao dịch của khách hàng để xác định khả năng khách hàng từ bỏ dịch vụ trước khi
khách hàng thật sự rời bỏ. Nhắm mục tiêu khách hàng trên cơ sở hành vi mua hàng
(đang thay đổi) của họ có thể giúp tổ chức kinh doanh tốt hơn và các chương trình
phần thưởng cho lòng trung thành giúp tổ chức xây dựng mối quan hệ bền chặt hơn
với khách hàng.
Mặc dù nó có thể tạo ra sự thu hút thích hợp đối với khách hàng của Ngân hàng,
nhưng Ngân hàng cần phải hiểu rõ về hành vi năng động của khách hàng. Dựa trên sự
hiểu biết này, chúng ta có thể đưa ra kế hoạch phù hợp để giữ chân khách hàng. Trong
ngân hàng, khách hàng là thành phần chủ yếu của hoạt động kinh doanh ngân hàng.
Tất cả các chiến lược và kế hoạch của họ được tổ chức để thu hút khách hàng mới, giữ
chân khách hàng hiện tại và cuối cùng là nâng cao sự hài lòng của khách hàng. Nhiều
Ngân hàng đã chuyển từ chiến lược lấy ưu đãi làm trung tâm, được thiết kế để bán càng
nhiều ưu đãi càng tốt, sang phương pháp duy trì hướng đến khách hàng nhằm tìm cách
giảm tỷ lệ rời bỏ một cách rõ ràng.
Một trong những điều khó khăn nhất trong việc ngăn chặn tình trạng rời bỏ Ngân
hàng là đó không phải là công việc của riêng ai, theo nghĩa là không một người nào hoặc
bộ phận công việc nào có thể làm việc đó một mình. Rất khó để chống lại tình trạng rời
bỏ vì các bộ phận khác nhau của doanh nghiệp chịu trách nhiệm giảm tỷ lệ rời bỏ theo
những cách khác nhau. Tất cả các nhóm này đều có các công cụ và phương pháp khác
nhau và chúng có thể không phù hợp với tình huống và chiến lược. Ngoài ra, mọi phương
pháp để giảm tỷ lệ rời bỏ đều yêu cầu doanh nghiệp nhắm mục tiêu can thiệp vào những
khách hàng có nhiều khả năng phản hồi nhất. Do đó, để chống lại tình trạng rời bỏ sản
phẩm, các doanh nghiệp cần có một tập hợp các sự kiện hoặc quy tắc được chia sẻ để
hiểu khách hàng và mức độ tương tác của họ với sản phẩm. Xem xét các chiến lược để
giảm tỷ lệ rời bỏ được mô tả trong phần trước: cải tiến sản phẩm, chiến dịch tương tác, hỗ
trợ và thành công của khách hàng, bán hàng và định giá. Những chức năng đó bao trùm
Trang 3
hơn một nửa các phòng ban trong một tổ chức điển hình. Điều đó có nghĩa là việc giảm tỷ
lệ churn sẽ gặp phải các vấn đề về giao tiếp và phối hợp có bộ phân trong Ngaanh ngàng.
Nếu không được kiểm soát, các nhóm khác nhau sẽ có xu hướng đưa ra các phương pháp
tiếp cận không phối hợp để giảm tình trạng churn. Ví dụ, sẽ phản tác dụng nếu nhóm sản
phẩm và tiếp thị quyết định tập trung vào việc thúc đẩy việc sử dụng các tính năng hoặc
nội dung khác nhau. Và những cách tiếp cận đó có thể dựa trên thông tin hạn chế hoặc
thiếu sót. Vì họ không phải là chuyên gia dữ liệu, nên không có gì đảm bảo rằng các lựa
chọn do các nhóm độc lập đưa ra sẽ được dữ liệu định hướng chính xác. Ngoài ra, trong
một tình huống điển hình, người cung cấp dữ liệu không thể tự mình làm bất cứ điều gì
để giảm tỷ lệ rời bỏ. Việc giảm tỷ lệ rời bỏ phụ thuộc vào các hành động được thực hiện
bởi các chuyên gia trong các bộ phận khác nhau của doanh nghiệp, chứ không phải bởi
một cá nhân quản lý dữ liệu. Những người phụ trách dữ liệu thường không có trách
nhiệm trực tiếp đối với kết quả kinh doanh cụ thể (chẳng hạn như doanh thu), trong khi
những người ở các vai trò khác đó thường làm. Theo quan điểm của người làm dữ liệu,
Ngân hàng là người dùng cuối của kết quả phân tích dữ liệu.Cách tốt nhất để biến dữ liệu
thành vũ khí trong cuộc chiến chống lại sự rời bỏ là sử dụng dữ liệu để tạo ra các phép đo
khách hàng hiệu quả và đưa các phép đo đó đến tay những người chống lại sự rời bỏ của
doanh nghiệp.
Các chiến lược cố gắng giảm tỷ lệ rời bỏ liên quan đến sự can thiệp của con
người không phát triển tốt, Ngân hàng khó có khả năng thích ứng đủ nhanh với những
thay đổi trong nhu cầu của khách hàng, mặc dù các ngân hàng phân khúc khách hàng
theo các nhà quản lý địa phương, nhưng vẫn khó phát hiện các mẫu khách hàng theo
cách thủ công, đặc biệt nếu họ quản lý một số lượng lớn khách hàng. Dự đoán rời bỏ
khách hàng là phương pháp gán xác suất rời bỏ cho từng khách hàng trong cơ sở dữ liệu
của công ty, theo mối quan hệ được dự đoán giữa thông tin lịch sử của khách hàng đó và
hành vi rời bỏ trong tương lai của khách hàng đó. Trên thực tế, xác suất chấm dứt mối
quan hệ với Ngân hàng sau đó được sử dụng để xếp hạng các khách hàng từ ít có khả
năng rời bỏ nhất đến ít nhất và những khách hàng có xu hướng rời bỏ cao nhất sẽ nhận
Trang 4
được các chiến dịch duy trì tiếp thị. Hai thách thức ảnh hưởng đến sự thành công của các
chiến dịch này. Đầu tiên, điều quan trọng là phải phát triển các chiến thuật tiếp thị phù
hợp để thuyết phục những người rời bỏ tiềm năng ở lại. Thứ hai, các công ty có thể cải
thiện lợi tức đầu tư của họ vào các chiến dịch duy trì bằng cách phân biệt những người
rời bỏ tiềm năng, những người nhạy cảm hơn với các hành động tiếp thị (tức là những
khách hàng dễ thuyết phục) với những người sẽ rời đi, cho dù họ có nhận được đề nghị
giữ chân hay không (tức là không thuyết phục được khách hàng ở lại). Nỗ lực này được
gọi là hiệu ứng ròng hoặc mô hình nâng cao.
Ngày nay, các phương pháp khai thác dữ liệu như kỹ thuật học máy hiện đang
được sử dụng để dự đoán sự rời bỏ của khách hàng trong các Ngân hàng cạnh tranh và
để khám phá các thông tin có giá trị đối với việc giải quyết vấn đề khách hàng rời bỏ.
Khi các thuật toán máy học được đào tạo với dữ liệu phát sinh từ các giao dịch của
khách hàng, kiến thức hữu ích trong dữ liệu được phát hiện và các thách thức trong
ngân hàng được giải quyết bằng cách tìm một số mẫu thông thường, quan hệ nhân quả
và mối tương quan với thông tin kinh doanh. Khả năng khách hàng hủy đăng ký dịch
vụ của một Ngân hàng cũng có thể được dự đoán. Điều này rất quan trọng vì nó giúp
ban lãnh đạo ngân hàng xác định những khách hàng có nguy cơ rời bỏ và phân tích
xem họ có đáng để giữ lại hay không. Như đã được chứng minh bởi một số nghiên
cứu, các mô hình rời bỏ máy học rất quan trọng để triển khai các kỹ thuật CRM trong
ngân hàng và nhiều ngành khác nhằm nâng cao tỷ lệ giữ chân khách hàng.
Sự tiến bộ của công nghệ trong vài thập kỷ qua đã giúp các ngân hàng và nhiều
tổ chức dịch vụ khác có thể thu thập và lưu trữ dữ liệu về khách hàng của họ và phân
loại họ thành các loại khách hàng rời bỏ hoặc không. Bản thân dữ liệu không có nhiều
giá trị nếu chúng không được nghiên cứu để tiết lộ thông tin chứa trong chúng. Để tìm
thông tin có giá trị từ dữ liệu, một quá trình gọi là khai thác dữ liệu được áp dụng.
Học máy, một tập hợp con của khai thác dữ liệu, cho phép các tổ chức nghiên cứu
hành vi của khách hàng, bao gồm cả việc rời bỏ mô tả trạng thái trong đó khách hàng
Trang 5
hủy đăng ký hoặc rời bỏ tổ chức để đến với Ngân hàng đối thủ, do đó dẫn đến tổn thất
về doanh thu và lợi nhuận. Các nhà nghiên cứu và các tổ chức phụ thuộc vào khách
hàng đã xác định nhu cầu nghiên cứu các mẫu và xu hướng trong dữ liệu và rút ra kết
luận từ chúng, dự đoán liệu khách hàng có phải là người rời bỏ tiềm năng hay không.
Kiến thức quan trọng này cho phép các ngân hàng duy trì sự liên quan và giữ chân
khách hàng bằng cách áp dụng các chương trình khách hàng thân thiết làm tăng sự hài
lòng của khách hàng.
Hiện nay, phân tích và dự đoán tỷ lệ khách hàng rời bỏ Ngân hàng được rất
nhiều nhà nghiên cứu quan tâm và được xử lý thông qua các mô hình như: Random
Forest, Logistic regression, Decision Tree, XGBoot,…Nhưng trong mỗi mô hình được
sử dụng này đều có các lỗ hổng như Random Forest rất dễ bị ngưng hoạt động nếu
vượt quá hạn mức (overfitting), Mô hình Decision Tree phụ thuộc rất lớn vào dữ liệu
của bạn, với một sự thay đổi nhỏ trong bộ dữ liệu, cấu trúc mô hình Decision Tree có
thể thay đổi hoàn toàn, Logistic Regression là nó yêu cầu các điểm dữ liệu được tạo ra
một cách độc lập với nhau,… . Ngân hàng cũng như các công ty tài chính luôn có một
nguồn dữ liệu khách hàng rất lớn dẫn đến việc phải có một mô hình có thể đáp ứng
hoạt động được trên nguồn dữ liệu lớn này. Tiêu chí lợi nhuận tối đa dự kiến được
phát triển gần đây được sử dụng như một trong những biện pháp đo lường hiệu suất
chính để cung cấp thêm thông tin chi tiết từ góc độ lợi ích chi phí. Kết quả thực
nghiệm cho thấy thước đo đánh giá được áp dụng có tác động lớn đến hiệu suất của
các kỹ thuật. Việc khám phá chuyên sâu về các kiểu phản ứng đối với các biện pháp
khác nhau được thực hiện bằng cách so sánh nội bộ gia đình trong từng nhóm giải
pháp và so sánh toàn cầu giữa các kỹ thuật đại diện từ các nhóm khác nhau. Kết quả
cũng chỉ ra rằng có nhiều không gian để cải thiện hiệu suất của các giải pháp về mặt
đo lường dựa trên lợi nhuận. Nghiên cứu của chúng ta cung cấp những hiểu biết có giá
trị cho các học giả và chuyên gia, đồng thời nó cũng cung cấp cơ sở để phát triển các
phương pháp mới nhằm giải quyết sự mất cân bằng giai cấp trong dự đoán rời bỏ.
Trang 6
Do đó, dự đoán khách hàng rời bỏ có thể được trình bày dưới dạng nhiệm vụ phân
loại nhị phân với sự phân bổ lớp không cân bằng, trong đó những người rời bỏ thuộc về
nhóm thiểu số và những người không rời bỏ thuộc về nhóm đa số. Vấn đề mất cân bằng
lớp tạo ra ảnh hưởng tiêu cực lớn đến các thuật toán học phân loại tiêu chuẩn. Hầu hết
trong số họ có xu hướng thiên về tầng lớp đa số. Trong những trường hợp cực đoan,
Ngân hàng có thể phân loại tất cả các trường hợp thành nhóm đa số, dẫn đến độ chính xác
tổng thể cao nhưng độ chính xác thấp không thể chấp nhận được đối với nhóm lợi ích
thiểu số. Chẳng hạn, khi một mô hình được đào tạo trên một tập dữ liệu với 1% trường
hợp thuộc lớp thiểu số, tỷ lệ chính xác 99% có thể đạt được bằng cách chỉ cần phân loại
tất cả các trường hợp thuộc về lớp đa số. Thật vậy, bài toán học trên tập dữ liệu mất cân
bằng được coi là một trong mười bài toán thách thức trong nghiên cứu khai phá dữ liệu.
Để giải quyết vấn đề học tập từ các tập dữ liệu mất cân bằng, nhiều giải pháp đã được đề
xuất trong vài năm qua. Hầu hết các giải pháp được đề xuất nổi tiếng gần như rơi vào ba
nhóm: cấp độ dữ liệu, cấp độ thuật toán và giải pháp đồng bộ. Các giải pháp cấp dữ liệu
áp dụng lấy mẫu lại như một bước tiền xử lý để giảm tác động tiêu cực do mất cân bằng
lớp. Các giải pháp ở cấp độ thuật toán nhằm mục đích phát triển các thuật toán mới hoặc
sửa đổi các thuật toán hiện có để học tập thiên vị đối với lớp thiểu số. Các giải pháp đồng
bộ hoặc sửa đổi các thuật toán học tập đồng bộ ở cấp dữ liệu để xử lý trước dữ liệu trước
giai đoạn học tập của các bộ phân loại cơ sở hoặc nhúng một khung nhạy cảm với chi phí
trong quy trình học tập đồng bộ. Mỗi loại giải pháp đều có ưu và nhược điểm, không có
sự đồng thuận rõ ràng về điều gì tạo nên giải pháp tốt nhất để giải quyết vấn đề mất cân
bằng giai cấp trong dự đoán rời bỏ.
Để giảm tỷ lệ rời bỏ, Ngân hàng thường có thể chạy một chiến dịch email để thúc
đẩy việc sử dụng một tính năng của sản phẩm. Nhưng một chiến dịch như vậy nên được
nhắm mục tiêu đến những người dùng không sử dụng tính năng này, chứ không phải gửi
đến tất cả những người dùng có nguy cơ rời bỏ vì bất kỳ lý do gì. Làm tắc nghẽn hộp thư
đến của người dùng với nội dung không phù hợp sẽ khiến họ bỏ đi chứ không cứu được
Trang 7
họ! Dự đoán rủi ro rời bỏ có thể là một biến số hữu ích trong việc lựa chọn khách hàng để
các nhóm Thành công của Khách hàng can thiệp trực tiếp, nhưng ngay cả khi đó, nó chỉ
là một biến số xác định mục tiêu.
Việc xậy dựng mô hình máy học để dự đoán khách hàng trung thành rời bỏ phải
phù hợp với ý nghĩa về mặc kinh doanh của Ngân hàng (mô hình phải dựa trên thông tin
hành vi hiện tại để dự doán khách hàng rời đi trong tương lại). Phù hợp với pháp luật về
bảo mật thông tin khách hàng của Ngân hàng. Dễ hiểu để các bộ phận trong Ngân hàng
có thể phối hợp nhịp hàng để triển khai. Hữu ý cho hiều nhiều chức năng để Ngân hàng
có thể thực hiện các công việc cần làm tiếp theo để lên phương án và thực hiện chiến dịch
để giữ chân khách hàng (sản phẩm, tiếp thị, hỗ trợ, v.v.).
Mục tiêu nghiên cứu <Thầy Hùng sửa>
Đề tài ‘’Áp dụng mô hình máy học dự đoán khách hàng trung thành ròi bỏ Ngân hàng” là
quy trình tạo ra mô hình mấy học dựa trên thông tin hành vi và thông tin khách hàng để
dự doán khách hàng rời bỏ ngân hàng trong tương lai. Thông qua mô hình này có thể
giúp Ngân hàng:
− Giữ chân được khách hàng hiện tại có khả năng rời bỏ trong tương lai.
− Tập tận dụng hiểu quả nguồn lực ngân hàng.
− Phát triển được các sản phẩm phù hợp với khách hàng hơn.
− Tính toán ước lượng được dòng tiền trong ngân hàng
− Tuân thủ thông tư 07/2019/TT-NHNN của ngân hàng nhà nước.
− Giữ chân khách hàng làm giảm nhu cầu tìm kiếm khách hàng mới, cho phép các tổ
chức tập trung vào việc củng cố mối quan hệ với khách hàng hiện tại.
− Khách hàng có thời gian quan hệ dài với Ngân hàng, quen thuộc với công ty hơn,
có xu hướng mua hàng nhiều hơn và khi hài lòng, họ có thể thực hành tiếp thị giới
thiệu.
Trang 8
− Phục vụ và duy trì khách hàng lâu dài ít tốn kém hơn do kiến thức thu được tăng
lên trong vòng đời tiêu dùng của họ.
Đối tượng nghiên cứu
− Đề tài nghiêm cứu dự trên tập dữ liệu thực tế Khách hàng cá nhân đã và
đang có quan hệ Ngân hàng thông qua hệ thống ( T24, Wayfour,…) của một
ngân hàng cổ phần thương mại lớn tại Việt Nam.
Phạm vi nghiên cứu

Đề tài này được thực hiện trên dữ liệu mẫu thông tin nội bộ của Ngân hàng
từ 2018-2020 để thực hiện xây đựng mô hinh máy học và hướng phát triển,
không bị ảnh hưởng từ các ý tố bên ngoài ( thông tin bất lợi với Ngân hàng,
độ phủ và quy mô hình Ngân hàng,….).
Phương pháp nghiên cứu
− Nghiên cứu tổng quan, lý thuyết: Dựa trên việc nghiên cứu phân tích các
công trình nghiên cứu liên quan, từ đó đánh giá ưu nhược điểm của các
hướng tiếp cận và đề xuất phương pháp phù hợp với ứng dụng cụ thể.
− Nghiên cứu thực nghiệm: Các phương pháp đề xuất, sau khi đã được phân
tích đánh giá định tính sẽ được cài đặt thử nghiệm và đánh giá trên các bộ dữ
liệu thực tế.
− Đánh giá thử nghiệm: Trước tiên sẽ được tiến hành một cách độc lập trên
từng mô đun, sau đó sẽ kết hợp và triển khai hệ thống hoàn chỉnh.
Ý nghĩa khoa học hoặc thực tiễn
Trang 9
− Ý nghĩa lý thuyết: Luận văn khi hoàn thành không chỉ là hệ thống hoá các
kiến thức về phương pháp trong lĩnh vực học máy mà còn là tài liệu để tham
khảo trong việc xây dựng các mô hình khác liên quan tới các bài toán phân
loại trong Ngân hàng (Dự báo khách hàng vỡ nợ, dự báo khách hàng có
hành vi gian lận,…) .
− Ý nghĩa thực tiễn: giúp cho doanh nghiệp nguyên nhân khách hàng trung
thành rời bỏ, xác định giá phân nhóm khách hàng cần tập trung vào mang lại
giá trị, ước lượng lượng rủi ro dòng tiền cho các tổ chức tài chính.
Kết cấu luận văn

Đề tài được trình bày theo năm chương chính như sau:
Chương 1: Tổng quan đề tài
Chương 2: Tổng quan nghiêm cứu và cơ sở lý thuyết
Chương 3: Đề xuất mô hình
Chương 4: Đánh giá kết quả và bàn luận
Chương 5: Kết luận và hướng phát triển
Trang 10
Chương 2: CƠ SỞ LÝ THUYẾT VÀ TỔNG QUAN
NGIÊM CỨU
2.1 Khái niệm cơ bản về khách hàng trung thành rời bỏ (Tập
trung về kiến thức ngân hàng)
a. Định nghĩa khách hàng trung thành
Từ churn có nguồn gốc từ thuật ngữ tỷ lệ churn, dùng để chỉ khách hàng rời đi
trong một khoảng thời gian nhất định sau khi đã sử dụng sản phẩm hoặc dịch vụ., như
chúng ta sẽ thảo luận chi tiết hơn ở phần sau. Điều này dẫn đến khách hàng hoặc dân số
người dùng thay đổi theo thời gian, đó là lý do tại sao thuật ngữ churn có ý nghĩa. Từ ban
đầu có nghĩa là “di chuyển mạnh mẽ”.
Tùy theo ngành, sản phẩm dịch vụ cung cấp của mỗi tổ chức, chúng ta có thể chia
churn thành các nhóm như sau:
◦ Một sản phẩm hoặc dịch vụ được cung cấp và sử dụng trên cơ sở định kỳ
(các ứng dụng trả phí theo hàng tháng,…).
◦ Khách hàng tương tác với sản phẩm (Facebook, zalo,…).
◦ Đăng ký có thể bị kết thúc hoặc hủy bỏ, được gọi là churn. Nếu không có
đăng ký, khách hàng sẽ rời bỏ khi họ ngừng sử dụng sản phẩm. (Các gói
dịch vụ mạng viễn thông,…)
◦ Đăng ký có thể bị kết thúc hoặc hủy bỏ, Thời gian, giá và thanh toán cho
khách hàng và đăng ký (nếu có) được ghi lại trong cơ sở dữ liệu, điển hình
là cơ sở dữ liệu giao dịch. (Ngân hàng, tổ chức tín dụng,….)
Trang 11
◦ Khi khách hàng sử dụng hoặc tương tác với sản phẩm hoặc dịch vụ, những
sự kiện này thường được theo dõi và lưu trữ trong kho dữ liệu.( Lazada,
shopee, Tiki,…)
Thông thường trong lĩnh vực tài chính Ngân hàng, không có trường hoặc cờ trên
đăng ký hoặc tài khoản nào nói rằng “Đây là tài khoản/khách churn” trong cấu trúc quản
lý dữ liệu của một tổ chức (chỉ biết khi khách hàng đã rời đi khi khách hàng đến chi
nhánh/ phòng giao dịch hủy tài khoản như vậy không tín kịp thời với công nghệ số và
nghiệp vụ quan hệ khách hàng hiện tại). Đúng hơn, churn là một trạng thái động cho mỗi
tài khoản hay mỗi khách phải được xác định tại một thời điểm nhất định tuỳ theo mục
tiêu của một chức nhất định. Đối với vấn đề đó, nếu có một trường hoặc cờ trên tài khoản
hoặc tập lệnh phụ cho biết đó là một churn, chúng ta phải được trên thực trạng của dữ
liệu rồi tự định nghĩa thông qua trao đổi với người có kinh nghiệm để xác định khách
hàng churn (ví dụ trong ngân hàng thì có thể trao đổi với bộ phân quản trị rủi ro).
Định nghĩa phổ biến nhất về khách hàng đang hoạt động cho các sản phẩm không
đăng ký/ sử dụng chỉ đơn giản là khách hàng đã sử dụng sản phẩm trong khoảng thời gian
gần đây. Hoạt động của người dùng có xu hướng được nhóm lại, do đó, việc coi khoảng
thời gian hoạt động là một chuỗi các sự kiện là điều tự nhiên mà không có khoảng cách
lớn giữa hai sự kiện liên tiếp bất kỳ ( sử dụng thường xuyên sang trạng thái không sử
dụng sản phẩm dịch vụ). Nếu vượt quá giới hạn thời gian tối đa (thông lệ là 6 tháng), đó
được coi là churn. Giới hạn thời gian như vậy nên được đặt đủ lâu để hầu hết những
người làm việc vượt quá giới hạn sẽ không quay lại với việc sử dụng sản phẩm/dịch vụ, ít
nhất là trong một thời gian (thông lệ là 6 tháng).
Ví dụ: Khách hàng tại một Ngân hàng không có bất kỳ giao dịch phát sinh (chuyển tiền
qua tài khoản) trong vòng sáu tháng liên tục.
Mục tiêu chính của bất kỳ dịch vụ nào là phát triển bằng cách thêm khách hàng
hoặc người dùng thông qua việc tham gia thị trường và bán hàng. (Điều này đúng đối với
Trang 12
cả doanh nghiệp vì lợi nhuận và phi lợi nhuận.). Khi các khách hàng rời đi, điều này sẽ
ảnh hưởng đến sự phát triển của công ty và thậm chí có thể dẫn đến thu hẹp. Hầu hết các
nhà cung cấp dịch vụ tập trung vào việc khách hàng quay lại mua hàng hay sử dụng lại
dịch vụ. Nhưng để thành công, một dịch vụ cũng phải hoạt động để giảm thiểu tình trạng
khách hàng rời đi. Nếu tình trạng Khách hàng rời đi không được giải quyết một cách liên
tục và chủ động, sản phẩm hoặc dịch vụ sẽ không phát huy hết tiềm năng của nó. Do đó,
nhu cầu duy trì doanh thu của họ đã thúc đẩy các công ty hiểu và phân tích hành vi của
khách hàng để xác định trước những khách hàng có xu hướng churn hơn. Bằng cách này,
doanh nghiệp có thể chủ động hành động để giữ chân khách hàng và tăng lợi nhuận.
Việc phát hiện tình trạng churn cụ thể trong lĩnh vực ngân hàng có thêm những
thách thức. Thứ nhất, các ngân hàng lớn thường có hàng chục triệu khách hàng trong
danh mục khách hàng của họ. Các chiến lược cố gắng giảm thiểu tình trạng churn liên
quan đến sự can thiệp của con người không mở rộng quy mô tốt. Thứ hai, họ không có
khả năng thích ứng đủ nhanh với những thay đổi trong nhu cầu của khách hàng. Thứ ba,
mặc dù các ngân hàng phân khúc khách hàng qua các nhà quản lý địa phương, vẫn khó
phát hiện các mẫu khách hàng theo cách thủ công, đặc biệt nếu họ quản lý một số lượng
lớn khách hàng. Những tính năng này tạo ra nhu cầu của các phương pháp tự động có thể
phát hiện các mẫu hành vi không tầm thường của khách hàng có thể đề xuất trước sự xáo
trộn tiềm năng trong các tập dữ liệu khổng lồ này. Những đặc điểm này thúc đẩy việc sử
dụng các kỹ thuật học máy, cung cấp các phương pháp học có giám sát đã chứng minh
tìm hiểu các mẫu không tầm thường trong dữ liệu (không có sự can thiệp của con người)
và khái quát hóa tốt cho dữ liệu chưa từng thấy trước đó.
Tuy nhiên, không phải tất cả khách hàng đều cần mức độ dịch vụ giống nhau,
cũng như tất cả họ đều sẵn sàng trả tiền như nhau cho dịch vụ đó hoặc để có được dịch vụ
theo cùng một cách. Ý thức chung cho chúng ta biết rằng không thể thực hiện một cách
trọn vẹn, trong một môi trường ngày càng không đồng nhất, nhiệm vụ khó khăn là phát
triển lòng trung thành của tất cả khách hàng. Vì lý do này, bắt đầu từ sự chắc chắn rằng
Trang 13
khách hàng không hài lòng sẽ luôn tồn tại, các công ty phải tập trung nỗ lực vào việc phát
triển một chương trình duy trì trên phạm vi rộng, duy trì và cải thiện các khía cạnh đó của
ưu đãi và các rào cản để thay đổi điều đó tác động nhiều nhất và tốt nhất đến liên kết tổng
thể của khách hàng như một nhóm. Mục tiêu không phải là bảo vệ tất cả khách hàng, mà
là bảo vệ càng nhiều khách hàng càng tốt và đặc biệt là những người có giá trị nhất đối
với một công ty nhất định.
Mặt khác, mặc dù các khoảng thời gian quan trọng làm tăng thời gian cho phép
phản ứng của ngân hàng, chúng cũng có thể dễ dàng dẫn đến kết quả không nhất quán do
có thể có sự thay đổi trong môi trường giai đoạn này kết luận rằng những thay đổi liên
quan trong nền kinh tế, sự gián đoạn trong mô hình kinh doanh hoặc thậm chí là khủng
hoảng chính trị hoặc tài chính có thể ảnh hưởng đến xu hướng rời bỏ ngân hàng của
khách hàng. Tất cả những điều này cho thấy cần phải tìm ra sự cân bằng tối ưu giữa độ
chính xác của các dự đoán và thời gian phản ứng cho phép. Vì lý do này, điều cần thiết là
phải xác định trước thời gian chúng ta muốn và chúng ta có thể biết liệu khách hàng có
xu hướng churn hay không. Câu trả lời này phụ thuộc vào nhu cầu của ngân hàng và cũng
là một thách thức đáng kể.
Tuy nhiên, và mặc dù sự hài lòng của khách hàng có ảnh hưởng tích cực đến mức
độ liên kết, nhưng điều đó không phải lúc nào cũng đủ. Có nhiều tình huống trong đó
chất lượng dịch vụ tốt hơn không có tác động đáng kể đến lòng trung thành của khách
hàng. Ví dụ: khách hàng thay đổi ngân hàng do ủng hộ người quen, khách hàng không rõ
về thông tin sản phẩm, thái độ của nhân viên đối khách hàng,... Do đó, còn phải có các
yếu tố khác, ngoài sự hài lòng với dịch vụ, ảnh hưởng đến lòng trung thành của khách
hàng.
Trong thời gian tồn tại tự nhiên của khách hàng, có thể xảy ra những thay đổi bên
ngoài như sự xuất hiện của sản phẩm mới, sự thay đổi trong cung cấp của đối thủ cạnh
tranh, thay đổi công nghệ và / hoặc thay đổi nội bộ (nâng cao trình độ hiểu biết của khách
hàng hoặc tăng khả năng chuyên môn của họ, thay đổi kinh tế xã hội , v.v.) xảy ra có thể
Trang 14
ảnh hưởng đến kỳ vọng của khách hàng và kết quả là mức độ hài lòng của họ. Các Ngân
hàng phải theo dõi những thay đổi này để điều chỉnh các chính sách và thủ tục của họ sao
cho họ có thể duy trì và cải thiện ý kiến của khách hàng về dịch vụ được cung cấp. Quá
trình phân tích các khía cạnh có tác động nhiều nhất đến sự hài lòng và sự điều chỉnh tiếp
theo trong các thủ tục và chính sách thương mại phải trở thành một quá trình liên tục theo
thời gian.
Mặt khác, ở góc độ hoạt động, việc thỉnh thoảng hỏi ý kiến của tất cả các khách
hàng là không thể, với chi phí cao, thậm chí không thể thỉnh thoảng hỏi ý kiến của họ
(thậm chí còn hơn thế nữa trong trường hợp các công ty có quy mô hàng trăm nghìn hoặc
thậm chí hàng triệu khách hàng đang hoạt động) về sự hài lòng nhận thấy về dịch vụ mà
họ đang được cung cấp và / hoặc mức độ gắn kết của họ. Do đó, các công ty phải làm
việc với đủ mẫu đại diện và phát triển, dựa trên phân tích của họ, các chính sách thương
mại phù hợp.
Để bền vững, các rào cản đối với sự thay đổi phải được xây dựng, như sự hài lòng,
dựa trên nhận thức của khách hàng. Bằng cách này, sự phát triển tích cực của các rào cản
đối với sự thay đổi trở thành một yếu tố xuất sắc, bên cạnh sự hài lòng về dịch vụ, điều
mà đối thủ cạnh tranh khó vượt qua trong nỗ lực thu hút khách hàng tốt nhất. Việc xây
dựng các chính sách và thủ tục nhằm duy trì và cải thiện sự xuất sắc ở cả hai khía cạnh
(sự hài lòng và các rào cản đối với sự thay đổi) nên hoạt động như những công cụ phòng
ngừa để bảo vệ khách hàng khỏi bị các đối thủ cạnh tranh dụ dỗ.
Nỗ lực kinh doanh này — được đo lường dưới dạng chiết khấu, lợi ích và đặc
quyền dành cho khách hàng để họ loại bỏ ý định thay đổi nhà cung cấp — cần được cân
bằng với giá trị mong đợi của khách hàng. Điều này có nghĩa là có thể có những khách
hàng mà công ty sẽ quyết định không giữ lại ngay cả khi ý định thay đổi của họ đã được
xác định trước, vì lợi nhuận kỳ vọng khi kéo dài tuổi thọ khách hàng của họ không đủ
cho chi phí của hành động thương mại cần thiết.
Trang 15
b. Cơ sở lý thuyết xác định khách hàng trung thành rời bỏ
Churn rate
Churn rate là tỷ lệ khách hàng (quan sát ) churn trên tổng số lượng khách hàng
( tổng quan sát ) tại cùng một thời điểm.Tỷ lệ churn tiêu chuẩn thường được gọi là tỷ lệ
churn khách hàng vì nó đề cập đến tình trạng ngừng hoạt động hoàn toàn của một chủ tài
khoản có thể có nhiều đăng ký. Vì vậy, đối với tỷ lệ churn tiêu chuẩn, một chủ tài khoản
hủy một đăng ký nhưng vẫn giữ một đăng ký khác không được coi là bỏ qua.
Kháchhàng churn
Công thức: Churn rate= (Công thức đánh số)
Tổng khách hàng
Retention rate
Trái ngược với churn rate ta có Retention rate (tỷ lệ giữ chân khách hàng ), được tính
bằng khách hàng trung thành trên tổng số lượng khách hàng ( tổng quan sát ) tại cùng một
thời điểm.
Khách hàng Retention

Công thức: Retention rate=
Tổng khách hàng
Mối quan hệ giữa churn rate và retention rate
Đây là một thực tế quan trọng về tỷ lệ churn (churn rate ) và tỷ lệ duy trì( Retention rate):
chúng có liên quan theo một cách rất chính xác và là hai mặt của cùng một đồng tiền.
Công thức: Churn rate + Retention rate=100 %
Các Phương pháp xác định churn rate
Net retention rate (NRR)
Trang 16
Tỷ lệ duy trì ròng (NRR) là tỷ lệ doanh thu định kỳ mà công ty hay tổ chức vẫn
nhận được vào cuối kỳ từ những người đăng ký có mặt lúc đầu. Giống như tất cả các
đảm bảo về khách hàng churn và khách hàng duy trì, tỷ lệ duy trì ròng được đo lường
trong một khoảng thời gian cụ thể (thường là một năm). Giống như tất cả các thước đo
churn, tỷ lệ giữ chân ròng bỏ qua doanh thu mới có được từ các lần đăng ký trong khoảng
thời gian. Mặt khác, một thực tế quan trọng về tỷ lệ giữ chân thực là nó bao gồm những
thay đổi về doanh thu từ những người đăng ký được giữ lại nếu điều này xảy ra. Điều này
có thể xảy ra đối với bất kỳ sản phẩm hoặc dịch vụ nào có nhiều gói sản phẩm, số lượng
không hợp lý tạm thời hoặc thay đổi gói giá (hầu hết các gói đăng ký trả phí).
Ví dụ:
Ngày ghi
Ngày bắt đầu giao Doanh thu hàng Trạng
Mã khách hàng nhận doanh
dịch tháng (MRR) thái
thu
00000001 5-Feb-16 31-Jan-18 5,000,000
00000002 9-Apr-16 31-Jan-18 10,000,000
00000003 10-Nov-16 31-Jan-18 1,000,000
00000004 4-Jan-17 31-Jan-18 550,000
00000005 5-May-17 31-Jan-18 3,000,000
00000001 5-Feb-16 28-Feb-18 5,000,000
00000002 9-Apr-16 28-Feb-18 - Churn
00000003 10-Nov-16 28-Feb-18 1,000,000
00000004 4-Jan-17 28-Feb-18 550,000

Trang 17
Ngày ghi
Ngày bắt đầu giao Doanh thu hàng Trạng
Mã khách hàng nhận doanh
dịch tháng (MRR) thái
thu
00000005 5-May-17 28-Feb-18 3,000,000
00000006 4-Feb-18 28-Feb-18 100,000 New
00000007 5-Feb-18 28-Feb-18 500,000 New
Bảng 2.1: Minh họa tính tỷ lệ churn theo NRR
Để tính NRR là MRR của những khách hàng đã ở lại (tổng số khách hàng 1, 3, 4 và 5
trên 28/02/2018 hoặc 9,550,000) chia cho MRR của những người đã sử dụng dịch vụ lúc
đầu (19,550,000 ) , hoặc 9,550,000 / 19,550,000 = 48.85%
Tỷ lệ giữ chân ròng = 9,550,000 / 19,550,000 = 48.85%
Tỷ lệ churn ròng =100% - 48.85% = 51.15%
Tỷ lệ giữ chân ròng là phép đo duy nhất liên quan đến thời gian chờ thường được trích
dẫn hơn là tỷ lệ giữ chân chứ không phải tỷ lệ churn. Điều này một phần là do các tình
huống phát sinh trong các gói đăng ký nhiều mức giá, đặc biệt là khả năng mất thời
gian ròng âm (mặt khác, tỷ lệ giữ chân thực luôn dương).
● Vì cách tính thời gian hoạt động dựa trên NRR, khách hàng trả nhiều tiền hơn
có tác động lớn hơn đến tỷ lệ khi họ rời đi.
● Những thay đổi về NRR đối với những khách hàng không rời đi cũng ảnh
hưởng đến tỷ lệ.
Trang 18
Tỷ lệ giữ chân ròng và Tỷ lệ churn ròng dựa trên doanh thu khác với tỷ lệ churn
(tiêu chuẩn) dựa trên số lượng người đăng ký. Tác động của việc bán thêm đối với
những người đăng ký được giữ lại có thể bù đắp hiệu quả tình trạng ngừng hoạt động,
và việc giảm doanh số giữa những người đăng ký được giữ lại có thể làm tăng hiệu
quả tình trạng ngừng hoạt động. Việc tăng giá và hết thời gian giảm giá làm giảm tỷ lệ
churn rõ ràng trong tỷ lệ giữ chân ròng, điều này làm cho nó trở thành một phép đo ít
cụ thể hơn về tình trạng churn và ít hữu ích hơn để chống lại tình trạng churn. Độ
churn tiêu chuẩn (dựa trên số lượng) và độ churn MRR được mô tả trong các phần sau
là các phép đo cụ thể hơn về độ churn và được ưu tiên hơn.
Một lý do có cơ sở hơn một chút là bất cứ khi nào hàng bán tăng cao hơn lượng
bán giảm, tỷ lệ churn ròng (bắt nguồn từ 100% trừ đi tỷ lệ duy trì ròng) ít hơn so với
tỷ lệ churn tiêu chuẩn (dựa trên số lượng) bỏ qua các thay đổi về doanh thu. Như tôi
vừa giải thích, những thay đổi về doanh thu thuần (hàng bán thêm và hết hạn chiết
khấu trừ đi hàng bán) che giấu một cách hiệu quả tỷ lệ churn cơ bản thực sự. Đối với
nhiều công ty, việc báo cáo tỷ lệ giữ chân ròng thay vì một trong các phép đo thời
gian cụ thể hơn là một vấn đề của mối quan hệ đầu tư tốt hơn và một chút sai lệch về
các nguyên tắc kinh doanh cơ bản. Trong những trường hợp cực đoan, sự gia tăng
trong nhóm doanh thu từ hàng bán thêm có thể lớn hơn tác động tổng hợp của việc
giảm lượng hàng bán ra và làm giảm nguồn doanh thu. Đây là một kịch bản hiếm gặp
nhưng rất đáng mong đợi, được gọi là rối loạn tiêu cực.
Tỷ lệ churn tiêu chuẩn
Tỷ lệ churn dựa trên tài khoản tiêu chuẩn có ý nghĩa đơn giản nhất vì nó không
bị ảnh hưởng bởi các đợt bán thêm, giảm giá và hết hạn chiết khấu. Nó luôn đơn giản
đề cập đến tỷ lệ khách hàng hoàn toàn hủy bỏ dịch vụ. Tỷ lệ churn tiêu chuẩn được sử
dụng làm chỉ số hoạt động chính khi tất cả người đăng ký trả số tiền tương tự hoặc
Trang 19
đăng ký miễn phí. Nếu tất cả người đăng ký trả tiền giống hệt nhau (nghĩa là không có
chiết khấu hoặc bất kỳ biến thể nào hoặc sản phẩm miễn phí), thì thời gian churn tiêu
chuẩn có thể được tính bằng truy vấn tỷ lệ giữ chân thực hoặc truy vấn tỷ lệ churn tiêu
chuẩn. Nhưng nếu có sự thay đổi nhỏ về giá cả hoặc nếu có các khoản chiết khấu tạm
thời, thì bạn nên sử dụng phương pháp tính churn tiêu chuẩn được đưa ra trong phần
này. Hoạt động của người dùng có xu hướng được nhóm lại, do đó, việc coi khoảng
thời gian hoạt động là một chuỗi các sự kiện là điều tự nhiên mà không có khoảng
cách lớn giữa hai sự kiện liên tiếp bất kỳ. Nếu vượt quá giới hạn thời gian tối đa, đó
được coi là bỏ cuộc. Giới hạn thời gian như vậy nên được đặt đủ lâu để hầu hết những
người làm việc vượt quá giới hạn sẽ không quay lại, ít nhất là trong một thời gian.
( phù hợp với Ngân hàng)
Ví dụ:
Ngày ghi
Ngày bắt đầu giao Doanh thu hàng
Mã khách hàng nhận doanh Trạng thái
dịch tháng (MRR)
thu
00000001 5-Feb-16 31-Jan-18 5,000,000
00000002 9-Apr-16 31-Jan-18 10,000,000
00000003 10-Nov-16 31-Jan-18 1,000,000
00000004 4-Jan-17 31-Jan-18 550,000
00000005 5-May-17 31-Jan-18 3,000,000
00000001 5-Feb-16 28-Feb-18 5,000,000
00000002 9-Apr-16 28-Feb-18 - Churn
Trang 20
Ngày ghi
Ngày bắt đầu giao Doanh thu hàng
Mã khách hàng nhận doanh Trạng thái
dịch tháng (MRR)
thu
00000003 10-Nov-16 28-Feb-18 1,000,000
00000004 4-Jan-17 28-Feb-18 550,000
00000005 5-May-17 28-Feb-18 3,000,000
00000006 4-Feb-18 28-Feb-18 100,000 New
00000007 5-Feb-18 28-Feb-18 500,000 New
Bảng 2.2: Minh họa tính tỷ lệ churn theo tiêu chuẩn
Để tính churn tiêu chuẩn là những khách hàng đã ở lại (tổng số khách hàng 1, 3, 4 và
5 trên 28/02/2018 chia cho MRR của người đã sử dụng dịch vụ lúc đầu.
Tỷ lệ giữ chân =4 / 5 = 80%
Tỷ lệ churn =100% - 80% = 20%
Churn rate nâng cao (Doanh thu định kỳ hàng tháng - MRR )
Tỷ lệ churn tiêu chuẩn có thể có vấn đề với các sản phẩm đăng ký nhiều mức
giá. Tỷ lệ churn tiêu chuẩn bỏ qua lượng bán giảm, điều này nên được coi là một phần
của thời gian ngừng hoạt động, trong khi tỷ lệ duy trì ròng bao gồm lượng bán giảm
nhưng cũng bao gồm hàng bán tăng thêm, không nên được coi là churn. Có một biện
pháp khác được thực hiện cho tình huống này: MRR churn. Đây là cách tính churn
phúc tạp nhất, nhưng nó là chính xác nhất khi có nhiều sản phẩm và giá cả của tập
lệnh phụ. Sử dụng MRR churn nếu bạn có những khách hàng trả nhiều mức giá khác
nhau: nghĩa là những khách hàng có giá trị nhất của bạn trả gấp đôi mức giá thấp nhất
Trang 21
của bạn trở lên. Trong phần mềm B2B dành cho doanh nghiệp, những khách hàng có
giá trị nhất có thể trả nhiều hơn gấp 100 lần những khách hàng ít giá trị nhất và MRR
churn là điều cần thiết tuyệt đối trong các tình huống như vậy. MRR churn một lần
nữa là tỷ lệ lỗ so với trạng thái ban đầu, nhưng bây giờ tử số của tỷ lệ churn là tổng số
lỗ từ cả số lần bán chạy và giảm, trong khi mẫu số là doanh thu của khách hàng khi
bắt đầu. minh họa cho các tính toán hỗn loạn với bán tăng và giảm bán, chu kỳ MRR
bao gồm mất hoàn toàn MRR từ các chu kỳ hoàn toàn (xu hướng từ trên xuống hướng
xuống trong hình 2.6) cũng như tổn thất do bán giảm (hình lưỡi liềm hướng xuống thứ
hai trong Hình 2.6) là tử số. Nó bao gồm MRR được giữ lại dưới dạng giá trị tự nhiên
nhưng không bao gồm MRR bán thêm. Vì lý do này, đây là thước đo chính xác nhất
để đánh giá tình hình hoạt động của các sản phẩm đăng ký đa giá.
Ví dụ:
Ngày ghi Doanh thu

Ngày bắt đầu giao
Mã khách hàng nhận doanh hàng tháng Trạng thái
dịch
thu (MRR)
00000001 5-Feb-16 31-Jan-18 5,000,000
00000002 9-Apr-16 31-Jan-18 10,000,000
00000003 10-Nov-16 31-Jan-18 1,000,000
00000004 4-Jan-17 31-Jan-18 550,000
00000005 5-May-17 31-Jan-18 3,000,000
00000001 5-Feb-16 28-Feb-18 5,000,000
00000002 9-Apr-16 28-Feb-18 - Churn
Trang 22
Ngày ghi Doanh thu
Ngày bắt đầu giao
Mã khách hàng nhận doanh hàng tháng Trạng thái
dịch
thu (MRR)
00000003 10-Nov-16 28-Feb-18 500,000
00000004 4-Jan-17 28-Feb-18 550,000
00000005 5-May-17 28-Feb-18 3,000,000
00000006 4-Feb-18 28-Feb-18 100,000 New
00000007 5-Feb-18 28-Feb-18 500,000 New
Bảng 2.3: Minh họa tính tỷ lệ churn theo MRR
Tỷ lệ churn MRR là MRR của những khách hàng còn lại hoặc bây giờ trả ít hơn
(10trd vnd từ khách hàng 2, người đã churn, và 0.5 trd vnd thay đổi so với
khách hàng 3, người đã hạ cấp, cho một tổng là 9.05trd vnd ) chia cho MRR của
tất cả các khách hàng lúc bắt đầu (19,550)
MRR churn = 9.05/ 19.55 = 46.29%
So sánh các phương pháp
Một tình huống khá phổ biến không thích hợp để sử dụng Tỷ lệ churn theo doanh thu là
đối với các kịch bản phụ có kế hoạch hàng năm với Tỷ lệ churn theo doanh thu thấp hơn
kế hoạch hàng tháng. Các khách hàng sử dụng sản phẩm, dịch vụ có thể chốt ở mức thấp
nhưng cam kết cả năm bằng cách trả trước. Điều này thường tốt cho việc kinh doanh thuê
bao vì nếu thực hiện đúng, nó sẽ dẫn đến giá trị lâu dài hơn cho người đăng ký. Tuy
nhiên, nó sẽ được coi là giảm giá khi người đăng ký chuyển từ gói hàng tháng kế hoạch
hàng năm và những thay đổi như vậy sẽ có tác động tiêu cực đến tỷ lệ churn được báo
cáo. Trong trong tình huống như vậy, có lẽ tốt hơn là sử dụng tỷ lệ churn tiêu chuẩn.
Trang 23
Tỷ lệ churn theo doanh thu là thích hợp nhất khi có sự khác biệt thực sự lớn giữa Tỷ lệ
churn theo doanh thu của các loại tài khoản khác nhau: trong bán hàng phần mềm B2B,
các tài khoản lớn có thể dễ dàng thanh toán gấp 10 lần hoặc hơn số tiền của các tài khoản
nhỏ. Đối với các công ty có sự khác biệt trong giá cả của họ, thường có một mối quan hệ
nhất quán giữa ba thước đo thời gian.
Tỷ lệ churn tiêu chuẩn > Tỷ lệ churn theo doanh thu > Tỷ lệ churn ròng
Tiêu chí đánh giá
Cách Sản phẩm Biến động giá Quy mô Khách hàng
tính churn
Có ít sản Biến động giá ít giữ

Tỷ lệ churn ròng Tổ chức nhỏ Doanh ngiệp
phẩm dòng sản phẩm
Có nhiều
Biến động giá
Tỷ lệ churn tiêu dòng sản Cá nhân/ doanh
nhiều giữ dòng sản Tổ chức lớn
chuẩn phẩm đa nghiệp
phẩm
dạng
Tỷ lệ churn theo Có ít sản Biến động giá ít giữ

Tổ chức lớn Doanh ngiệp
doanh thu phẩm dòng sản phẩm
Bảng 2.4: So sánh cách tính tỷ lệ churn (nằm trên bảng)
Chúng ta có thể mong đợi rằng Tỷ lệ churn theo doanh thu thường sẽ cao hơn thước đo
Tỷ lệ churn tiêu chuẩn vì Tỷ lệ churn theo doanh thu bao gồm tác động của việc bán
giảm, nhưng churn tiêu chuẩn thì không. Tuy nhiên, hầu như luôn luôn xảy ra trường hợp
các tài khoản trả nhiều tiền hơn thường xuyên hơn các tài khoản trả ít hơn cho các sản
phẩm đa giá. Những người đăng ký trả ít nhất hầu như luôn luôn kiếm được nhiều tiền
hơn. Điều này có vẻ nghịch lý nếu chúng ta không làm việc trên một sản phẩm như vậy,
theo logic rằng trả nhiều tiền hơn sẽ khiến khách hàng không hài lòng hơn. Tuy nhiên,
Trang 24
trong các sản phẩm B2B, giá cao hơn sẽ đến với những người đăng ký công ty lớn sử
dụng sản phẩm nhiều hơn (có nhiều người dùng hơn), và các công ty lớn hơn hầu như
luôn ổn định hơn các công ty nhỏ hơn. Ngoài ra, các công ty lớn hơn trả nhiều tiền hơn
có xu hướng cam kết sử dụng sản phẩm lâu hơn vì họ đã có một quá trình cân nhắc lâu
hơn trước khi mua hàng và đầu tư nhiều hơn vào việc thiết lập và vận hành sản phẩm
đăng ký. Do đó, Tỷ lệ churn theo doanh thu tính tất cả người đăng ký như nhau hầu như
luôn cao hơn Tỷ lệ churn theo doanh thu cho một sản phẩm B2B.
Tỷ lệ churn ròng được tính từ việc duy trì ròng hầu như luôn luôn là ít nhất trong tất cả
các biện pháp churn. Điều này là do, ngoài việc phản ánh tỷ lệ gián đoạn thấp của những
người đăng ký công ty lớn, nó cũng tính số tiền bán lại trong các tài khoản được giữ lại
so với t Tỷ lệ churn tiêu chuẩn. Như đã đề cập trước đây, tỷ lệ churn ròng được tính từ
khách hàng giữ lại ròng thậm chí có thể là âm khi hàng bán tăng cao hơn lượng bán
xuống và số lần bán chạy.
c. Dự đoán khách hàng trung thành rời bỏ
Dự đoán Churn là một nhiệm vụ phân tích yếu tố của kinh doanh nhằm phát hiện những
khách hàng có khả năng tự ý rời bỏ công ty. Khi một công ty đã xác định được những
người không thích tiềm năng, một chiến dịch duy trì tùy chỉnh có thể được thiết kế để
nâng cao lòng trung thành của khách hàng. Lòng trung thành cực kỳ có lợi vì những
khách hàng gắn bó tạo ra nhiều doanh thu hơn những khách hàng khác, đồng thời nó làm
giảm chi phí hoạt động và việc tiêu tiền do những nỗ lực tiếp thị không hiệu quả gây ra.
Sự thành công của các chiến dịch giữ chân không chỉ phụ thuộc vào độ chính xác của
việc dự đoán những churn tiềm năng, mà với tầm quan trọng không kém, nó phụ thuộc
vào thời điểm dự đoán được thực hiện. Các công trình trước đây liên quan đến dự đoán
thời gian không hoạt động đã trình bày các mô hình dự đoán thời gian gián đoạn hàng
tháng với trọng tâm là hành vi tĩnh của khách hàng và thậm chí các nghiên cứu xem xét
hành vi động của khách hàng, chủ yếu xem xét hành vi cấp độ hàng tháng. Tuy nhiên,
Trang 25
hành vi của khách hàng dễ bị thay đổi theo các ngày trong tháng và trong thời gian dẫn
đến quyết định bỏ qua của khách hàng, họ bắt đầu cư xử khác. Do đó, việc xem xét các
đặc điểm hành vi hàng tháng ảnh hưởng tiêu cực đến hiệu suất dự đoán, vì nó bỏ qua
những thay đổi trong hành vi qua các ngày trong tháng. Hơn nữa, việc dự đoán khách
hàng churn đi hàng tháng sẽ là muộn đối với những khách hàng đã quyết định rời đi vào
đầu tháng vì họ sẽ không bị phát hiện là người quấy rầy cho đến tháng sau.
Dự đoán Churn đã được thực hiện bằng cách sử dụng các kỹ thuật khác nhau bao gồm
học dự đoán và giữ chân những khách hàng khó tính, giúp đưa ra quyết định và chuyển
thông tin sang CRM. Quá trình phát triển của khách hàng phải được theo dõi và phải ước
tính số lượng khách hàng có nguy cơ rời bỏ. Đó là lý do tại sao các công ty phải có một
mô hình dự đoán đáng tin cậy (được điều chỉnh cho phù hợp với nghiên cứu thị trường và
dựa trên thông tin hành vi được công ty thu thập một cách có hệ thống) cho phép họ xác
định — với đủ dự đoán — những khách hàng có xu hướng chuyển đổi nhà cung cấp dịch
vụ và, do đó, khởi chạy các hành động giữ chân hiệu quả. Theo phép ẩn dụ y học, việc
chẩn đoán sớm xu hướng mắc bệnh sẽ làm giảm đáng kể mức độ tích cực của phương
pháp điều trị gắn kết lòng trung thành bắt buộc và sẽ tăng khả năng phục hồi của khách
hàng. Trong bối cảnh này, giá trị của khách hàng (được hiểu là giá trị của khách hàng là
tổng giá trị lặp lại thực tế và giá trị tiềm năng của họ) trở thành thứ nguyên cơ bản sẽ xác
định loại liệu pháp nào, chủ động và / hoặc phản ứng, nên được áp dụng bất kỳ lúc nào.
Vấn đề dự đoán churn có thể được giải quyết thông qua học có giám sát, chuyển nhiệm
vụ thành một bài toán phân loại nhị phân. Máy học có thể được sử dụng để dự đoán
khách hàng nào có nhiều khả năng sẽ chấp nhận hơn. Với nhiều loại kỹ thuật dự đoán,
chiến lược thông thường để chọn đúng là xây dựng một số mô hình và đánh giá hiệu suất
dự đoán của chúng bằng cách sử dụng các biện pháp thống kê. Tuy nhiên, cách tiếp cận
này gần đây đã bị chỉ trích vì nó xa rời mục tiêu chính của quá trình học tập, đó là thực
hiện hành động có lợi cho khách hàng thông qua các chiến dịch duy trì. Theo nghĩa này,
Trang 26
các số liệu định hướng mục tiêu đã được phát triển trong những năm gần đây để giải
quyết vấn đề dự đoán churn, tính toán lợi nhuận kỳ vọng của một chiến dịch giữ chân.
2.2 Các mô hình học máy
d. Máy học
Học máy là một nhánh đang phát triển của các thuật toán điện toán được thiết kế
để mô phỏng trí thông minh (AI) của con người bằng cách học hỏi từ môi trường xung
quanh. Chúng được coi là phát triển làm việc trong kỷ nguyên mới của cái gọi là dữ liệu
lớn (big dataO. Các kỹ thuật dựa trên học máy đã được áp dụng thành công trong nhiều
lĩnh vực khác nhau như kỹ thuật tàu vũ trụ, tài chính, giải trí và sinh học tính toán đến các
ứng dụng y sinh và y học, v.v.
Học máy có thể được phân loại rộng rãi dựa trên việc máy tính học (tức là lắp mô
hình) là “có giám sát” hay “không giám sát”. Học có giám sát gần giống với kiểu khớp
mô hình tiêu chuẩn trong thực hành dịch tễ học: Giá trị của kết quả (tức là biến phụ
thuộc), thường được gọi là “nhãn” của nó trong học máy, được biết cho mỗi lần quan sát.
Dữ liệu với các giá trị kết quả được chỉ định được gọi là “dữ liệu được dán nhãn”. Các kỹ
thuật học có giám sát phổ biến bao gồm các phương pháp tiếp cận dịch tễ học tiêu chuẩn
như hồi quy tuyến tính và logistic, cũng như nhiều thuật toán học máy phổ biến nhất (ví
dụ: cây quyết định, máy vectơ hỗ trợ).
Học máy có giám sát là một trong những loại học máy thành công và được sử
dụng phổ biến nhất. Hãy nhớ rằng học có giám sát được sử dụng bất cứ khi nào chúng ta
muốn dự đoán một kết quả nhất định từ một đầu vào nhất định và chúng ta có ví dụ về
các cặp đầu vào/đầu ra. Chúng ta xây dựng một mô hình máy học từ các cặp đầu vào/đầu
ra này, bao gồm tập huấn luyện của chúng tôi. Mục tiêu của chúng ta là đưa ra dự đoán
chính xác cho dữ liệu mới, chưa từng thấy trước đây. Học tập có giám sát thường đòi hỏi
Trang 27
nỗ lực của con người để xây dựng tập huấn luyện, nhưng sau đó tự động hóa và thường
tăng tốc một nhiệm vụ tốn nhiều công sức hoặc không khả thi.
Có hai loại vấn đề học máy được giám sát chính, được gọi là phân loại và hồi quy.
Trong bài toán phân loại, mục tiêu là dự đoán phân lớp, là lựa chọn từ danh sách các khả
năng được xác định trước. Chúng ta đã sử dụng ví dụ về phân loại diên vĩ thành một
trong ba loài có thể. Phân loại đôi khi được tách thành phân loại nhị phân, đó là trường
hợp đặc biệt của việc phân biệt chính xác hai lớp và phân loại đa lớp, là sự phân loại giữa
nhiều hơn hai lớp. Chúng ta có thể nghĩ về phân loại nhị phân giống như cố gắng trả lời
câu hỏi có/không. Phân loại khách hàng có vỡ nợ hay không là một ví dụ về vấn đề phân
loại nhị phân. Trong nhiệm vụ phân loại nhị phân này, câu hỏi có/không được hỏi sẽ là
"Khách hàng này có phải là khách hàng vỡ không?" Trong phân loại nhị phân, chúng ta
thường nói về một lớp là lớp tích cực và lớp kia là lớp tiêu cực. Ở đây, tích cực không đại
diện cho lợi ích hay giá trị, mà là đối tượng của nghiên cứu là gì. Vì vậy, khi tìm kiếm
khách hàng vỡ nợ, "tiêu cực" có thể có nghĩa là loại khách hàng vỡ nợ.
Đối với các tác vụ hồi quy, mục tiêu là dự đoán một số liên tục theo thuật ngữ lập
trình (hoặc số thực theo thuật ngữ toán học). Dự đoán thu nhập hàng năm của một người
từ trình độ học vấn, tuổi tác và nơi họ sinh sống là một ví dụ về nhiệm vụ hồi quy. Khi dự
đoán thu nhập, giá trị dự đoán là một số tiền và có thể là bất kỳ số nào trong một phạm vi
nhất định. Một ví dụ khác về nhiệm vụ hồi quy là dự đoán sản lượng của một trang trại
ngô dựa trên các thuộc tính như sản lượng trước đó, thời tiết và số lượng nhân viên làm
việc trong trang trại. Năng suất lại có thể là một số tùy ý.
Một cách dễ dàng để phân biệt giữa nhiệm vụ phân loại và hồi quy là hỏi xem liệu
có sự liên tục nào đó trong đầu ra hay không. Nếu có sự liên tục giữa các kết quả có thể
xảy ra, thì vấn đề là một vấn đề hồi quy. Hãy suy nghĩ về việc dự đoán thu nhập hàng
năm. Có một sự liên tục rõ ràng trong đầu ra. Việc một người kiếm được 40.000 đô la
hay 40.001 đô la một năm không tạo ra sự khác biệt rõ ràng, mặc dù đây là những khoản
Trang 28
tiền khác nhau, nếu thuật toán của chúng ta dự đoán 39.999 đô la hoặc 40.001 đô la trong
khi lẽ ra nó phải dự đoán 40.000 đô la, thì chúng ta không bận tâm lắm về điều đó.
e. Các giải thuật
Logistic regresion
Logistic regresion là phương pháp hồi quy thông dụng nhất, áp dụng cho các biến
mục thiêu không phải là biến định lượng liên tục. Theo IBM, Logistic regresion hay logit
model được ứng dụng trong phân tích dự báo, đã và đang ứng dụng rộng rãi trong lĩnh
vực học máy – Machine learning. Logistic regresion xuất hiện hầu hết các phần mềm
thống kê, các package code và khai phá dữ liệu, giúp người dùng tìm hiểu mối quan hệ
giữa các biến mục tiêu thông qua thiết lập phương trình hồi quy logit.
Ứng dụng logistic regression trong việc xây dựng mô hình dự báo đối với các
công ty ngyà nay như một phương pháp tạo nên sự khác biệt và lợi thế cạnh tranh. Vì đơn
giải các mô hình dự bóa sẽ giúp họ khai phá các mối quan hệ, những yếu tố sẽ tác động
lên doanh thu, lợi nhuận trong tương lai, thôn qua tìm hiểu hành vi của khách hàng, từ đó
có thể đưa ra quyết định hợp ký và kịp thời hiểu quả. Trong lĩnh vực ngân hàng, Logistic
regression thường được dùng để đánh giá rủi ro tín dụng khách hàng như xây dựng mô
hình dự báo khả năng vỡ nợ của khách hàng từ hành vi của khách hàng từ đó có thể lên
kế hoạch và phản ứng kịp thời khi sự việc xảy ra, nhằm bảo tồn được nguồn vốn và lợi
nhuận của Ngân hàng.
Phương trình tổng quát của Logistic regression đơn biến:

B 0+ B 1 x
e
P= B +B x
1+e 0 1
Trang 29
Tham số B tỏng mô hình thể hiện giá trị trung bình của P tăng hay giảm khi x
tăng. Khi B1 > 0 , xác suất P tăng khi x tăng và ngược lại. Bên trên là phương tổng quát
hồi quy logistic đơn biến với duy nhất 1 biến độc lập và một biến mục tiêu. Trong thực tế
khi phân tích chúng sẽ để tâm tới nhiều yếu tố hơn đối tượng mục tiêu nghiêm cứu hơn.
Phương trình tổng quát của Logistic regression đa biến:
e B + B x + B x +…+ B x
0 1 1 2 2 p p
P=
1+e B +B x +B x +…+B
0 1 1 2 2 p xp
Trang 30
Các mô hình tuyến tính được đào tạo rất nhanh và cũng rất nhanh để dự đoán.
Chúng mở rộng quy mô thành các tập dữ liệu rất lớn và hoạt động tốt với dữ liệu thưa
thớt (dữ liệu ít). Nếu dữ liệu của chúng ta bao gồm hàng trăm nghìn hoặc hàng triệu mẫu,
chúng ta có thể muốn điều tra bằng cách sử dụng tùy chọn Solver='sag' trong
logisticRegression và Ridge, tùy chọn này có thể nhanh hơn tùy chọn mặc định trên các
bộ dữ liệu lớn. Các tùy chọn khác là lớp SGDClassifier và lớp SGDRegressor, thực hiện
các phiên bản có thể mở rộng hơn nữa của các mô hình tuyến tính được mô tả ở đây.
Một điểm mạnh khác của các mô hình tuyến tính là chúng làm cho việc dự đoán
được thực hiện tương đối dễ dàng, bằng cách sử dụng các công thức hồi quy và phân loại
mà chúng ta đã thấy trước đó. Thật không may, thường không hoàn toàn rõ ràng tại sao
các hệ số lại như vậy. Điều này đặc biệt đúng nếu tập dữ liệu của bạn có các tính năng
tương quan cao, trong những trường hợp này, các hệ số có thể khó giải thích.
Các mô hình tuyến tính thường hoạt động tốt khi số lượng tính năng lớn so với số
lượng mẫu. Chúng cũng thường được sử dụng trên các tập dữ liệu rất lớn, đơn giản vì
việc đào tạo các mô hình khác là không khả thi. Tuy nhiên, trong không gian có chiều
thấp hơn, các mô hình khác có thể mang lại hiệu suất tổng quát hóa tốt hơn.
Decision tree
Cây quyết định là mô hình được sử dụng rộng rãi cho các nhiệm vụ phân loại và
hồi quy. Về cơ bản, họ học một hệ thống phân cấp các câu hỏi nếu/khác, dẫn đến một
quyết định. Học cây quyết định có nghĩa là học chuỗi câu hỏi if/else đưa chúng ta đến câu
trả lời thực sự nhanh nhất.Là phương pháp phổ biến nhất được sử dụng để xây dựng mô
hình LGD (Tỷ lệ tổn thất tại thời điểm vỡ nợ) do đặc tính các biến dự báo LGD thường
tập trung vào một số giá trị cụ thể. Trong trường hợp này, hồi quy tuyến tính có thể được
sử dụng nếu giá trị LGD kỳ vọng trải dài giữa 0-1 tuân theo phân phối chuẩn tuy nhiên
trường hợp này không thường gặp với mô hình LGD.
Trang 31
Kỹ thuật phát triển cây quyết định -chaid tree:
- Là kỹ thuật phát triển cây quyết định phổ biến nhất được sử dụng để phân khúc
trong đó các quyết định liên quan đến phát triển cây dựa trên các kết quả kiểm
tra thống kê. CHAID hợp nhất các biến/nhóm tương đồng về mặt thống kê trong
quan hệ với biến phụ thuộc và phân tách tổng thể dựa trên các khác biệt về mặt
thống kê.
- CHAID thực hiện tạo ra các cây có nhiều con khác nhau tức là một node cha có
thể tạo ra nhiều node con. Để xử lý vấn đề phân loại tức là khi biến phụ thuộc ở
dạng phân loại, kiểm tra Chi-square (chi tiết về kiểm định này được trình bày
bên dưới) được thực hiện, trong khi đối với vấn đề hồi quy tức là biến phụ thuộc
ở dạng liên tục, F-test sẽ được thực hiện để hợp/tách các nhóm.
- Về bản chất, thuật toán CHAID chỉ dùng cho biến độc lập dạng phân loại
(categorical) tuy nhiên một số phần mềm có hỗ trợ việc nhóm các giá trị gốc của
các biến độc lập thành số lượng tối đa các nhóm (categorical) mà thuật toán có
thể xử lý để xác định ngưỡng cắt tối ưu. Do đó, Ngân hàng cần cân nhắc xem
phần mềm có hỗ trợ việc phân nhóm hay không trước khi quyết định sử dụng
chuỗi giá trị gốc hay chuỗi giá trị đã được phân nhóm giá trị.
- Trường hợp phần mềm có hỗ trợ, một cách lý tưởng, chuỗi giá trị gốc của các
Trang 32
biến độc lập và biến phụ thuộc nên được sử dụng làm giá trị đầu vào của cây
quyết định vì phần mềm sẽ hỗ trợ xác định ngưỡng cắt tối ưu dựa trên các kết
quả thống kê. Tuy nhiên, đối với mô hình rủi ro tín dụng, ý nghĩa kinh tế của
biến đóng vai trò rất quan trọng.
Cây quyết định có hai lợi thế so với nhiều thuật toán mà chúng ta đã thảo luận cho
đến nay: mô hình kết quả có thể dễ dàng được hình dung và hiểu bởi những người
không chuyên (ít nhất là đối với các cây nhỏ hơn) và các thuật toán hoàn toàn bất biến
đối với việc chia tỷ lệ dữ liệu. Vì mỗi tính năng được xử lý riêng biệt và khả năng
phân tách dữ liệu có thể không phụ thuộc vào tỷ lệ, nên không cần tiền xử lý như
chuẩn hóa hoặc tiêu chuẩn hóa các tính năng cho thuật toán cây quyết định. Cụ thể,
cây quyết định hoạt động tốt khi bạn có các tính năng ở các tỷ lệ hoàn toàn khác nhau
hoặc kết hợp các tính năng nhị phân và liên tục.
Nhược điểm chính của cây quyết định là ngay cả khi sử dụng cắt tỉa trước, chúng
có xu hướng khớp quá mức và mang lại hiệu suất tổng quát hóa kém. Do đó, trong
hầu hết các ứng dụng, các phương pháp tập hợp mà chúng ta thảo luận tiếp theo
thường được sử dụng thay cho một cây quyết định duy nhất.
Tiêu chí quan trọng của các mô hình dạng cây quyết định
Thay vì nhìn vào toàn bộ cây, có một số thuộc tính hữu ích mà chúng ta có thể rút
ra để tóm tắt hoạt động của cây. Tóm tắt được sử dụng phổ biến nhất là tầm quan trọng
của tính năng, đánh giá mức độ quan trọng của từng tính năng đối với quyết định mà cây
đưa ra. Đó là một số từ 0 đến 1 cho mỗi tính năng, trong đó 0 có nghĩa là “hoàn toàn
không được sử dụng” và 1 có nghĩa là “dự đoán mục tiêu một cách hoàn hảo”. Tầm quan
trọng của tính năng luôn tổng bằng 1:
Ở đây, chúng ta thấy rằng tính năng được sử dụng trong phân chia hàng đầu (“bán
kính tồi tệ nhất”) cho đến nay là tính năng quan trọng nhất. Điều này xác nhận quan sát
của chúng ta khi phân tích cây rằng cấp độ đầu tiên đã phân tách hai lớp khá tốt. Tuy
nhiên, nếu một tính năng có feature_importance thấp, điều đó không có nghĩa là tính
Trang 33
năng này không cung cấp thông tin. Điều đó chỉ có nghĩa là tính năng này không được
chọn bởi cây, có thể là do một tính năng khác mã hóa thông tin tương tự.
Random forests (Ensembles of Decision Trees)
Như chúng ta vừa quan sát, nhược điểm chính của cây quyết định là chúng có xu
hướng khớp dữ liệu huấn luyện quá mức. Random forests là một cách để giải quyết vấn
đề này. Random forests về cơ bản là một tập hợp các cây quyết định, trong đó mỗi cây
hơi khác so với các cây khác. Ý tưởng đằng sau các khu rừng ngẫu nhiên là mỗi cây có
thể thực hiện công việc dự đoán tương đối tốt, nhưng có khả năng sẽ khớp quá mức trên
một phần dữ liệu. Nếu chúng ta xây dựng nhiều cây, tất cả đều hoạt động tốt và trang bị
quá mức theo những cách khác nhau, thì chúng ta có thể giảm mức độ trang bị quá mức
bằng cách lấy trung bình kết quả của chúng. Việc giảm quá mức này, trong khi vẫn giữ
được sức mạnh dự đoán của cây, có thể được hiển thị bằng cách sử dụng toán học nghiêm
ngặt.
Để thực hiện chiến lược này, chúng ta cần xây dựng nhiều cây quyết định. Mỗi
cây nên thực hiện một công việc dự đoán mục tiêu có thể chấp nhận được và cũng phải
khác với những cây khác. Các mô Random forests lấy tên của chúng từ việc đưa tính
ngẫu nhiên vào cấu trúc cây để đảm bảo mỗi cây đều khác nhau. Có hai cách để ngẫu
nhiên hóa các cây trong một khu rừng ngẫu nhiên: bằng cách chọn các điểm dữ liệu được
sử dụng để tạo cây và bằng cách chọn các tính năng trong mỗi thử nghiệm phân tách. Hãy
đi vào quá trình này chi tiết hơn.
Để xây dựng mô hình Random forests, chúng ta cần quyết định số lượng cây cần
xây dựng (tham số n_estimators của RandomForestRegressor hoặc
RandomForestClassifier). Giả sử chúng ta muốn xây dựng 10 cái cây. Những cây này sẽ
được xây dựng hoàn toàn độc lập với nhau và thuật toán sẽ đưa ra các lựa chọn ngẫu
nhiên khác nhau cho mỗi cây để đảm bảo các cây khác biệt. Để xây dựng một cây, trước
Trang 34
tiên chúng ta lấy cái được gọi là mẫu bootstrap của dữ liệu của chúng tôi. Nghĩa là, từ
n_samples điểm dữ liệu của chúng tôi, chúng ta liên tục rút ra một ví dụ ngẫu nhiên bằng
cách thay thế (có nghĩa là cùng một mẫu có thể được chọn nhiều lần), n_samples lần.
Điều này sẽ tạo ra một tập dữ liệu lớn bằng tập dữ liệu gốc, nhưng một số điểm dữ liệu sẽ
bị thiếu (khoảng một phần ba) và một số sẽ được lặp lại.
Tiếp theo, một cây quyết định được xây dựng dựa trên tập dữ liệu mới được tạo
này. Tuy nhiên, thuật toán mà chúng ta mô tả cho cây quyết định đã được sửa đổi một
chút. Thay vì tìm kiếm phép thử tốt nhất cho từng nút, trong mỗi nút, thuật toán chọn
ngẫu nhiên một tập hợp con các tính năng và tìm kiếm phép thử tốt nhất có thể liên quan
đến một trong các tính năng này. Số lượng tính năng được chọn được kiểm soát bởi tham
số max_features. Việc lựa chọn tập hợp con các tính năng này được lặp lại riêng biệt
trong mỗi nút để mỗi nút trong cây có thể đưa ra quyết định bằng cách sử dụng một tập
hợp con khác nhau của các tính năng.
Việc lấy mẫu bootstrap dẫn đến mỗi cây quyết định trong rừng ngẫu nhiên được
xây dựng trên một tập dữ liệu hơi khác. Do việc lựa chọn các tính năng trong mỗi nút,
mỗi phần tách trong mỗi cây hoạt động trên một tập hợp con các tính năng khác nhau.
Cùng với nhau, hai cơ chế này đảm bảo rằng tất cả các cây trong rừng ngẫu nhiên đều
khác nhau.
Một tham số quan trọng trong quy trình này là max_features. Nếu chúng ta đặt
max_features thành n_features, điều đó có nghĩa là mỗi phần tách có thể xem xét tất cả
các tính năng trong tập dữ liệu và sẽ không có tính ngẫu nhiên nào được đưa vào lựa chọn
tính năng (tuy nhiên, tính ngẫu nhiên do bootstrapping vẫn còn). Nếu chúng ta đặt
max_features thành 1, điều đó có nghĩa là các phần tách hoàn toàn không có lựa chọn nào
để kiểm tra tính năng nào và chỉ có thể tìm kiếm qua các ngưỡng khác nhau cho tính năng
được chọn ngẫu nhiên. Do đó, max_features cao có nghĩa là các cây trong khu rừng ngẫu
nhiên sẽ khá giống nhau và chúng sẽ có thể khớp dữ liệu một cách dễ dàng bằng cách sử
Trang 35
dụng các tính năng đặc biệt nhất. Max_features thấp có nghĩa là các cây trong khu rừng
ngẫu nhiên sẽ khá khác nhau và mỗi cây có thể cần phải rất sâu để phù hợp với dữ liệu.
Để đưa ra dự đoán bằng cách sử dụng Random forests, trước tiên thuật toán đưa ra
dự đoán cho mọi cây trong rừng. Đối với hồi quy, chúng ta có thể lấy trung bình các kết
quả này để có dự đoán cuối cùng. Để phân loại, chiến lược “bỏ phiếu mềm” được sử
dụng. Điều này có nghĩa là mỗi thuật toán đưa ra dự đoán “mềm”, cung cấp xác suất cho
từng nhãn đầu ra có thể. Xác suất được dự đoán bởi tất cả các cây được tính trung bình và
loại có xác suất cao nhất được dự đoán.
Random forests phù hợp ít hơn bất kỳ cây nào riêng lẻ và cung cấp ranh giới quyết
định trực quan hơn nhiều. Trong bất kỳ ứng dụng thực tế nào, chúng ta sẽ sử dụng nhiều
cây hơn (thường là hàng trăm hoặc hàng nghìn), dẫn đến các ranh giới thậm chí còn mượt
mà hơn.
Như bạn có thể thấy, Random forests mang lại tầm quan trọng khác không đối với
nhiều tính năng hơn so với cây đơn lẻ. Tương tự như cây quyết định duy nhất Random
forests cũng rất coi trọng tính năng “bán kính xấu nhất”, nhưng nó thực sự chọn “chu vi
xấu nhất” là tính năng có nhiều thông tin nhất về tổng thể. Tính ngẫu nhiên trong việc
xây dựng Random forests buộc thuật toán phải xem xét nhiều cách giải thích có thể có,
kết quả là khu rừng ngẫu nhiên thu được bức tranh dữ liệu rộng hơn nhiều so với một cây
đơn lẻ.
Random forests để hồi quy và phân loại hiện là một trong những phương pháp
học máy được sử dụng rộng rãi nhất. Chúng rất mạnh mẽ, thường hoạt động tốt mà không
cần điều chỉnh nhiều thông số và không yêu cầu mở rộng dữ liệu.
Về cơ bản, Random forests chia sẻ tất cả lợi ích của cây quyết định, đồng thời bù
đắp một số thiếu sót của chúng. Một lý do để vẫn sử dụng cây quyết định là nếu bạn cần
một biểu diễn nhỏ gọn của quá trình ra quyết định. Về cơ bản, không thể giải thích chi
tiết hàng chục hoặc hàng trăm cây và cây trong rừng ngẫu nhiên có xu hướng sâu hơn cây
Trang 36
quyết định (do sử dụng các tập hợp con đặc trưng). Do đó, nếu bạn cần tóm tắt quá trình
đưa ra dự đoán theo cách trực quan cho những người không phải là chuyên gia, thì một
cây quyết định duy nhất có thể là lựa chọn tốt hơn. Mặc dù việc xây dựng các khu rừng
ngẫu nhiên trên các bộ dữ liệu lớn có thể hơi tốn thời gian, nhưng nó có thể được thực
hiện song song trên nhiều lõi CPU trong một máy tính một cách dễ dàng. Nếu bạn đang
sử dụng bộ xử lý đa lõi (như hầu hết các máy tính hiện đại đều sử dụng), bạn có thể sử
dụng tham số n_jobs để điều chỉnh số lượng lõi sẽ sử dụng. Sử dụng nhiều lõi CPU hơn
sẽ giúp tăng tốc độ tuyến tính (sử dụng hai lõi, quá trình đào tạo rừng ngẫu nhiên sẽ
nhanh gấp đôi), nhưng việc chỉ định n_jobs lớn hơn số lượng lõi sẽ không giúp ích gì.
Bạn có thể đặt n_jobs=-1 để sử dụng tất cả các lõi trong máy tính của mình.
Chúng ta nên nhớ rằng Random forests, về bản chất, là ngẫu nhiên và việc đặt các
trạng thái ngẫu nhiên khác nhau (hoặc hoàn toàn không đặt Random_state) có thể thay
đổi đáng kể mô hình được xây dựng. Càng có nhiều cây trong rừng thì nó càng mạnh mẽ
hơn trước sự lựa chọn trạng thái ngẫu nhiên. Nếu bạn muốn có kết quả có thể lặp lại, điều
quan trọng là phải sửa lỗi Random_state.
Random forests không có xu hướng hoạt động tốt trên dữ liệu thưa thớt, có nhiều
chiều, chẳng hạn như dữ liệu văn bản. Đối với loại dữ liệu này, các mô hình tuyến tính có
thể phù hợp hơn. Random forests thường hoạt động tốt ngay cả trên các bộ dữ liệu rất lớn
và việc đào tạo có thể dễ dàng được thực hiện song song trên nhiều lõi CPU trong một
máy tính mạnh mẽ. Tuy nhiên, các khu rừng ngẫu nhiên yêu cầu nhiều bộ nhớ hơn, đào
tạo và dự đoán chậm hơn so với các mô hình tuyến tính. Nếu thời gian và bộ nhớ là quan
trọng trong một ứng dụng, thì có thể sử dụng mô hình tuyến tính để thay thế.
Các tham số quan trọng cần điều chỉnh là n_estimators, max_features và có thể là
các tùy chọn cắt tỉa trước như max_depth. Đối với n_estimators, lớn hơn luôn tốt hơn.
Tính trung bình nhiều cây hơn sẽ mang lại một tập hợp mạnh mẽ hơn bằng cách giảm
trang bị thừa. Tuy nhiên, lợi nhuận giảm dần và nhiều cây hơn cần nhiều bộ nhớ hơn và
Trang 37
nhiều thời gian hơn để huấn luyện. Một nguyên tắc chung là xây dựng “càng nhiều càng
tốt nếu bạn có thời gian/bộ nhớ”.
Gradient boosted regression trees (gradient boosting machines)
Gradient boosted regression trees là một phương pháp tập hợp khác kết hợp nhiều
cây quyết định để tạo ra một mô hình mạnh mẽ hơn. Mặc dù có từ "hồi quy" trong tên,
các mô hình này có thể được sử dụng để hồi quy và phân loại. Trái ngược với cách tiếp
cận rừng trị liệu, tăng cường độ dốc hoạt động bằng cách xây dựng các cây theo cách nối
tiếp, trong đó mỗi cây cố gắng sửa lỗi của cây trước đó. Theo mặc định, không có ngẫu
nhiên hóa trong Gradient boosted regression trees, thay vào đó, cắt tỉa trước mạnh mẽ
được sử dụng. Các cây được tăng cường độ dốc thường sử dụng các cây rất nông, có độ
sâu từ một đến năm, giúp mô hình nhỏ hơn về bộ nhớ và đưa ra dự đoán nhanh hơn.
Ý tưởng chính đằng sau Gradient boosted regression trees là kết hợp nhiều mô
hình đơn giản (trong ngữ cảnh này được gọi là người học yếu), giống như các cây nông.
Mỗi cây chỉ có thể đưa ra dự đoán tốt trên một phần dữ liệu và do đó, ngày càng có nhiều
cây được thêm vào để cải thiện hiệu suất lặp đi lặp lại.
Gradient boosted regression trees thường là mục chiến thắng trong các cuộc thi
máy học và được sử dụng rộng rãi trong công nghiệp. Chúng thường nhạy hơn một chút
với cài đặt tham số so với rừng ngẫu nhiên, nhưng có thể cung cấp độ chính xác cao hơn
nếu các tham số được đặt chính xác.
Ngoài việc cắt tỉa trước và số lượng cây trong quần thể, một tham số quan trọng
khác của việc tăng cường độ dốc là learning_rate, kiểm soát mức độ mỗi cây cố gắng sửa
lỗi của các cây trước đó. Tốc độ học cao hơn có nghĩa là mỗi cây có thể thực hiện các
hiệu chỉnh mạnh hơn, cho phép tạo ra các mô hình phức tạp hơn. Thêm nhiều cây hơn
vào quần thể, có thể được thực hiện bằng cách tăng n_estimators, cũng làm tăng độ phức
tạp của mô hình, vì mô hình có nhiều cơ hội hơn để sửa lỗi trên tập huấn luyện.
Trang 38
Cả hai phương pháp giảm độ phức tạp của mô hình đều làm giảm độ chính xác của
tập huấn luyện, như mong đợi. Trong trường hợp này, việc giảm độ sâu tối đa của cây
mang lại sự cải thiện đáng kể cho mô hình, trong khi việc giảm tốc độ học chỉ làm tăng
hiệu suất khái quát hóa một chút.
Chúng ta có thể thấy rằng tầm quan trọng của tính năng của Gradient boosted
regression trees có phần giống với tầm quan trọng của tính năng của các khu rừng ngẫu
nhiên, mặc dù việc tăng cường độ dốc hoàn toàn bỏ qua một số tính năng.
Vì cả Gradient boosted regression trees và Radom forest đều hoạt động tốt trên các
loại dữ liệu tương tự, nên một cách tiếp cận phổ biến trước tiên là thử Radom forest, hoạt
động khá mạnh mẽ. Nếu Radom forest hoạt động tốt nhưng thời gian dự đoán ở mức cao
hoặc điều quan trọng là phải loại bỏ phần trăm độ chính xác cuối cùng từ mô hình máy
học, thì việc chuyển sang tăng cường độ dốc thường sẽ hữu ích.
Cây quyết định được tăng cường độ dốc là một trong những mô hình mạnh mẽ và
được sử dụng rộng rãi nhất cho việc học có giám sát. Hạn chế chính của chúng là chúng
yêu cầu điều chỉnh cẩn thận các tham số và có thể mất nhiều thời gian để đào tạo. Tương
tự như các mô hình dựa trên cây khác, thuật toán hoạt động tốt mà không cần mở rộng
quy mô và trên sự kết hợp của các tính năng nhị phân và liên tục
Các tham số chính của mô hình cây được tăng cường độ dốc là số lượng cây,
n_estimators và learning_rate, kiểm soát mức độ mà mỗi cây được phép sửa lỗi của các
cây trước đó. Hai tham số này có mối liên hệ chặt chẽ với nhau, vì learning_rate thấp hơn
có nghĩa là cần nhiều cây hơn để xây dựng một mô hình có độ phức tạp tương tự. Trái
ngược với các khu rừng ngẫu nhiên, trong đó giá trị n_estimators cao hơn luôn tốt hơn,
việc tăng n_estimators trong quá trình tăng cường độ dốc dẫn đến một mô hình phức tạp
hơn, điều này có thể dẫn đến trang bị thừa. Một thực tế phổ biến là điều chỉnh
n_estimators tùy thuộc vào ngân sách thời gian và bộ nhớ, sau đó tìm kiếm trên các
Trang 39
learning_rates khác nhau. Các mô hình dựa trên cây khác, nó cũng thường không hoạt
động tốt trên dữ liệu thưa thớt nhiều chiều.
Môi trường thực hiện

Oracle
Cơ sở dữ liệu Oracle là một tập hợp dữ liệu được coi là một đơn vị. Mục đích của
cơ sở dữ liệu là lưu trữ và truy xuất thông tin liên quan. Một máy chủ cơ sở dữ liệu là
chìa khóa để giải quyết các vấn đề về quản lý thông tin. Nhìn chung, một máy chủ quản
lý một lượng lớn dữ liệu một cách đáng tin cậy trong môi trường nhiều người dùng để
nhiều người dùng có thể truy cập đồng thời cùng một dữ liệu. Tất cả điều này được thực
hiện trong khi cung cấp hiệu suất cao. Máy chủ cơ sở dữ liệu cũng ngăn chặn truy cập trái
phép và cung cấp các giải pháp hiệu quả để khắc phục sự cố. Cơ sở dữ liệu Oracle là cơ
sở dữ liệu đầu tiên được thiết kế cho điện toán lưới doanh nghiệp, cách linh hoạt và tiết
kiệm chi phí nhất để quản lý thông tin và ứng dụng. Điện toán lưới doanh nghiệp tạo ra
các nhóm lớn máy chủ và bộ lưu trữ mô-đun, tiêu chuẩn công nghiệp. Với kiến trúc này,
mỗi hệ thống mới có thể được cung cấp nhanh chóng từ nhóm các thành phần. Không cần
khối lượng công việc cao điểm vì có thể dễ dàng bổ sung hoặc phân bổ lại năng lực từ
các nhóm tài nguyên khi cần. Cơ sở dữ liệu có cấu trúc logic và cấu trúc vật lý. Vì cấu
trúc vật lý và logic là riêng biệt nên việc lưu trữ dữ liệu vật lý có thể được quản lý mà
không ảnh hưởng đến quyền truy cập vào cấu trúc lưu trữ logic. Một cơ sở dữ liệu được
chia thành các đơn vị lưu trữ logic được gọi là không gian bảng, nhóm các cấu trúc logic
liên quan lại với nhau. Ví dụ, các không gian bảng thường nhóm tất cả các đối tượng ứng
Trang 40
dụng lại với nhau để đơn giản hóa một số thao tác quản trị. Mỗi cơ sở dữ liệu được chia
hợp lý thành một hoặc nhiều không gian bảng. Một hoặc nhiều tệp dữ liệu được tạo rõ
ràng cho mỗi vùng bảng để lưu trữ vật lý dữ liệu của tất cả các cấu trúc logic trong một
vùng bảng. Kích thước kết hợp của các tệp dữ liệu trong một vùng bảng là tổng dung
lượng lưu trữ của vùng bảng. Oracle cũng cho phép bạn tạo các không gian bảng. Điều
này cho phép Cơ sở dữ liệu Oracle chứa các không gian bảng được tạo thành từ các tệp
lớn đơn lẻ thay vì nhiều tệp nhỏ hơn. Điều này cho phép Cơ sở dữ liệu Oracle tận dụng
khả năng của các hệ thống 64 bit để tạo và quản lý các tệp siêu lớn. Hậu quả của việc này
là Cơ sở dữ liệu Oracle hiện có thể mở rộng quy mô lên tới 8 exabyte. Với các tệp do
Oracle quản lý, các không gian bảng bigfile làm cho các tệp dữ liệu hoàn toàn trong suốt
đối với người dùng. Nói cách khác, bạn có thể thực hiện các thao tác trên các vùng bảng,
thay vì các tệp dữ liệu bên dưới. Vì vậy chúng ta nên dùng oracle trong việc tạo bảng, tạo
và quản lý các tiêu chí (biến phụ thuộc và biến độc lâp) dùng để xây dựng mô hình máy
học.
Python (google colab)

Google Colab là sổ ghi chép Jupyter trên đám mây được sử dụng rộng rãi để dạy
máy học bằng cách viết giải thích văn bản và mã Python thông qua trình duyệt. Công việc
này giới thiệu các tiện ích mở rộng Colab mới để dạy thiết kế mạch logic, ngôn ngữ
Verilog, bộ xử lý và kiến trúc GPU. Colab cho phép chúng ta chia sẻ các thử nghiệm có
thể lặp lại trên Web. Các sinh viên trở nên có động lực để thực hiện các bài tập trong
phòng thí nghiệm mà không cần tải xuống/cấu hình các gói phần mềm và các phụ thuộc
trên máy tính của họ. Hơn nữa, hầu hết tất cả các trường đại học đã phải đóng cửa do đại
dịch COVID-19, buộc chúng ta phải thích nghi với các kịch bản học tập ảo. Colab cung
cấp tính di động và khả năng truy cập vì nó thậm chí có thể chạy trên điện thoại thông
minh. Các bài tập trong phòng thí nghiệm bao gồm các bài tập có hướng dẫn trung cấp,
giải thích văn bản, số liệu, câu đố trực tuyến, tập hợp các vấn đề và các nhiệm vụ thực
hành cơ bản. Chúng ta phát triển một thiết lập đơn giản cho các khung Icarus Verilog,
Trang 41
PyEDA, CUDA, Valgrind và Gem5. Công trình này trình bày những hiểu biết sâu sắc về
mô phỏng kiến trúc máy tính và giảng dạy Verilog bằng cách sử dụng Valgrind và Gem5,
cũng như cấu hình kiến trúc máy tính GPU ở cấp độ lắp ráp chỉ lệnh và luồng.
Các nghiên cứu khác nhau đã báo cáo tính linh hoạt và phạm vi rộng lớn của các
công cụ lập trình trong mọi lĩnh vực kiến thức. Viết mã nói chung là vô cùng
quan trọng đối với sinh viên hóa học bất kể họ có ý định làm việc với hóa học lý
thuyết hay không. Sổ tay Google Colab có thể giới thiệu cho sinh viên các khái
niệm lập trình và có thể là một công cụ thuận tiện để hỗ trợ quá trình giảng dạy
hóa học. Trong bài viết này, chúng ta đã triển khai sổ ghi chép Google Colab để
hỗ trợ việc giảng dạy nhiệt động lực học trong lớp hóa lý. Chúng ta đã trình bày
sáu sổ ghi chép, bao gồm các khái niệm cơ bản về mã hóa và nhiệt động lực học
dưới dạng một tập hợp các đối tượng học tập có thể hữu ích trong môi trường
học tập ảo. Ngoài ra, trong một số sổ ghi chép, chúng ta đã đính kèm hướng dẫn
từng bước về cách chạy mô phỏng phòng thí nghiệm ảo. Sổ ghi chép Colab được
tạo cho sinh viên chưa có kinh nghiệm lập trình trước đó. Tất cả sổ tay Colab
đều có bài tập của các hoạt động và lời giải của các bài tập đề xuất. Ngoài ra, bạn
có thể sửa đổi và tải xuống tất cả sổ ghi chép Colab từ kho lưu trữ Github. Cuối
cùng, chúng ta đã sử dụng ngôn ngữ lập trình Python và Colab vì chúng miễn
phí và được cộng đồng học thuật sử dụng rộng
2.3 Các nghiên cứu liên quan
Phân tích và xây dựng mô hình dữ đoán khách hàng rời bỏ của Nhi N. Y. Vo[5]
, Họ ,áp dụng ba phương pháp khai thác văn bản trên bộ dữ liệu nhật ký cuộc gọi
của khách hàng tư nhân để thu được ba bộ tính năng văn bản khác nhau: Thông tin ngữ
nghĩa, Tầm quan trọng của từ và Nhúng từ. Sau đó, họ sẽ kết hợp từng và cả ba cách tiếp
Trang 42
cận với cơ sở dữ liệu có cấu trúc khách hàng hiện tại để xây dựng mô hình dự đoán rời bỏ
cuối cùng với độ chính xác cao hơn.
Nghiêm cứu của Kuo-Hsiung Liao và Hao-En Chueh[6] là sử dụng các kỹ thuật
fuzzy để phân tích các bản ghi quá khứ về kết quả của các hoạt động tiếp thị khác nhau
của lĩnh vực viễn thông nhằm thiết lập một mô hình tiếp thị. Trong nghiên cứu này, mô
hình tiếp thị được đề xuất có thể giúp các công ty xác định các chiến lược tiếp thị tốt nhất
cho các nhóm khách hàng khác nhau.
James Brownlow và cộng sự [7] này giới thiệu một phương pháp mới để dự đoán
rời bỏ trong các dịch vụ quản lý quỹ và việc triển khai nó trong một công ty quản lý quỹ
ở Úc. Khung lấy mẫu dựa trên học tập đồng bộ và cơ chế trọng số mới dựa trên số dư tài
khoản được đề xuất để giải quyết các vấn đề mất cân bằng và nhạy cảm về chi phí với dữ
liệu tài chính. Các bước thực tế của việc triển khai mô hình cũng được giới thiệu, đặc biệt
là cách khai thác và tích hợp các dữ liệu khác nhau từ các nguồn không đồng nhất để có
được cái nhìn thống nhất về khách hàng. Đánh giá bằng cách sử dụng dữ liệu từ thực xác
nhận tính ưu việt của mô hình của chúng ta trong việc nắm bắt những người rời bỏ giá trị
cao so với các phương pháp truyền thống. Hơn nữa, phương pháp của họ đã được áp
dụng trong các ứng dụng thực tế và hỗ trợ nhóm tiếp thị thu hẹp mục tiêu chiến dịch của
họ.
Nghiêm cứu của Floris Devriendt, Jeroen Berrevoets, Wouter Verbeke [8] đã giới
thiệu một thước đo đánh giá mới, hướng đến lợi nhuận được gọi là thước đo nâng cao lợi
nhuận tối đa để đánh giá hiệu suất của các mô hình nâng cao tỷ lệ rời bỏ của khách hàng.
Thước đo mức tăng lợi nhuận tối đa được đề xuất mở rộng thước đo lợi nhuận tối đa cho
các mô hình dự đoán tỷ lệ rời bỏ khách hàng và cho phép đánh giá hiệu suất của mô hình
nâng cao tỷ lệ khách hàng rời bỏ xét về lợi nhuận trên mỗi khách hàng trong cơ sở khách
hàng kiếm được khi nhắm mục tiêu tỷ lệ khách hàng tối ưu với mức cao nhất nâng cao
điểm số bằng một chiến dịch duy trì. Tỷ lệ khách hàng mục tiêu tối ưu được xác định
bằng cách tối đa hóa lợi nhuận do chiến dịch giữ chân tạo ra, được chỉ ra trong bài báo
Trang 43
này là có liên quan trực tiếp đến khả năng của mô hình nâng cao trong việc xác định cái
gọi là có thể thuyết phục, tức là những khách hàng là sắp rời đi ai sẽ được giữ lại nếu
được nhắm mục tiêu bởi chiến dịch.
Nghien cứu T. Vafeiadis và cộng sự [9] là mô phỏng Monte Carlo 1 được thực hiện
bằng cách sử dụng năm phương pháp phân loại hiện đại, phổ biến nhất cho vấn đề dự
đoán rời bỏ khách hàng viễn thông dựa trên bộ dữ liệu có sẵn công khai. Ban đầu, tất cả
các phương pháp đã được thử nghiệm mà không sử dụng tăng tốc trong các cài đặt khác
nhau. Hai phương pháp hoạt động tốt nhất về lỗi kiểm tra tương ứng là Propagation
Network với 15 đơn vị ẩn và thuật toán cây quyết định. Công việc này đã làm sáng tỏ
hiệu suất của các kỹ thuật học máy phổ biến để dự churn vấn đề và hỗ trợ lợi thế của việc
áp dụng các kỹ thuật thúc đẩy. Trong công việc trong tương lai, họ dự định khám phá các
sơ đồ mô phỏng bổ sung cho các tham số của người học yếu đối với thuật toán
AdaBoost.M1 và khám phá hiệu suất của các thuật toán tăng cường bổ sung ngoài
AdaBoost. Ngoài ra, để sử dụng bộ dữ liệu lớn hơn và chi tiết hơn từ ngành viễn thông
nhằm tối đa hóa ý nghĩa thống kê của các kết quả của họ.
Theo nghiêm cứu của Eunjo Lee và cộng sự [10], Họ đề xuất một quy trình dự
đoán churn xem xét lợi nhuận dự kiến của trò chơi trực tuyến bằng cách tham khảo các
phương pháp nghiên cứu hiện có và áp dụng nó vào trò chơi trực tiếp đã hoạt động hơn
chín năm để xác minh tính hiệu quả của nó. Có ba tính năng chính của phương pháp đề
xuất của chúng tôi. Đầu tiên, chúng ta xác định tỷ lệ rời bỏ thông qua việc phân tích các
kiểu truy cập của người dùng. Thứ hai, những khách hàng trung thành lâu dài với lợi ích
cao được xác định và sử dụng để dự đoán rời bỏ. Cuối cùng, chúng ta tính toán lợi nhuận
dự kiến trên mỗi người dùng thông qua phân tích lợi ích chi phí và tối ưu hóa mô hình dự
đoán. Theo các thử nghiệm của họ, chỉ những người dùng có ít lợi ích mới có nhiều khả
năng được phát hiện nhất khi áp dụng mô hình dự đoán rời bỏ cho toàn bộ người dùng.
Do đó, xét về chi phí chiến dịch, có thể bị lỗ doanh thu. Mặt khác, nếu mô hình dự đoán
1
Monte Carlo: lád
Trang 44
chỉ được áp dụng cho khách hàng trung thành, lợi nhuận cao có thể được kỳ vọng trong
hầu hết các tình huống. Hơn nữa, việc tối ưu hóa ngưỡng của mô hình dự đoán có thể thu
được lợi ích bổ sung khoảng 10%–30% so với mô hình được tối ưu hóa về độ chính xác.
Yixin Li và cộng sự [11] cho chúng ta biết cách tận dụng lợi thế của dữ liệu lớn và
đóng góp vào chiến lược tiếp thị trong ngành phát thanh và truyền hình. Họ đã kết hợp
mô hình dự báo khách hàng rời mạng với việc giữ chân khách hàng trong lĩnh vực mạng
truyền hình cáp. Khác với các nghiên cứu khác, họ đã phân tích và thu thập các yếu tố có
thể ảnh hưởng đến sự rời bỏ của khách hàng trong ngành mạng cáp. Nghiên cứu này của
họ chứng minh rằng cường độ xem của khách hàng, mức tiêu thụ của khách hàng, thói
quen trả tiền của khách hàng và sở thích của khách hàng có thể được sử dụng để đánh giá
xu hướng rời bỏ của khách hàng. Ngoài ra, với tư cách là đầu tàu của ngành phát thanh và
truyền hình truyền thống, các doanh nghiệp mạng cáp nên hết sức coi trọng lượng khách
hàng trung thành hiện có, sử dụng đường cong giá hình chuông (cường độ xem càng cao,
giá càng thấp) để phát triển thói quen của khách hàng. Đồng thời, họ có thể giới thiệu các
tài nguyên độc quyền để thu hút khách hàng tình cờ. Ngoài ra, việc phân tích sở thích
xem của khách hàng và cung cấp cho khách hàng các phương thức thanh toán thuận tiện
hơn cũng nên được sử dụng làm chiến lược tiếp thị.
Công trình nghiêm cứu của Rosa [12] đề xuất …… nhằm cung cấp cơ sở để giải
quyết tình trạng churn trong một ngân hàng hiện không sử dụng cơ sở dữ liệu phong phú
và các công cụ phân tích để giải quyết vấn đề nghiêm trọng này. Mục đích của dự án này
là đưa ra một giải pháp thay thế đáng tin cậy để dự đoán và giám sát hành vi rời bỏ của
khách hàng, trái ngược với phương pháp tiếp cận phản ứng hiện tại do ngân hàng đang
nghiên cứu thực hiện, bao gồm phát triển các chiến lược tiếp thị tập trung vào việc giành
lại những khách hàng cũ đã rời bỏ. Dựa trên những kết quả đáng khích lệ được thể hiện
trong công việc này, phương pháp hiện tại được dẫn dắt trong suốt dự án này có thể
chứng tỏ là một công cụ có giá trị để dự đoán sự rời bỏ trong một công ty vẫn chưa tận
dụng hết các công cụ Business Intelligence có sẵn để giải quyết vấn đề này.
Trang 45
Bài nghiêm cứu của Silveira và cộng sự [13] ?? ……. đã xây dựng và cần thiết là
phải hiểu các giai đoạn của mối quan hệ, với các phương pháp và quy trình cho phép
giám sát và quản lý. Để tăng lợi nhuận hoặc thậm chí để duy trì hoạt động trên thị trường,
công ty phải tránh làm giảm cơ sở khách hàng của mình. Dự đoán những khách hàng nào
sắp trốn tránh hoặc chuyển sang đối thủ cạnh tranh, với mục đích cung cấp các cơ chế để
tránh tình trạng này là một vấn đề có thể được giải quyết thông qua các phương pháp
phân tích dự đoán, cho phép các tổ chức quản lý chủ động. Trong bối cảnh của các tổ
chức tài chính Brazil, đặc biệt là trong các tổ chức ngân hàng, có rất ít nghiên cứu lý
thuyết về các phương pháp tiếp cận dự đoán, trong số các yếu tố khác, có thể là đặc điểm
của một nền văn hóa mới bắt đầu sử dụng các phương pháp dự đoán để hỗ trợ việc duy
trì. Do đó, sau khi áp dụng mô hình rời bỏ, có thể rút ra hồ sơ của những khách hàng có
nhiều khả năng bỏ cuộc nhất, cũng như những khách hàng ít có khả năng nhất. Một yếu
tố quan trọng khác cần xem xét là đối với mỗi khách hàng không trốn tránh, sẽ giảm nguy
cơ khách hàng đưa ra nhận xét tiêu cực về công ty (quản lý rủi ro). Ngoài ra, việc giữ một
khách hàng trung bình rẻ hơn năm lần so với việc có được một khách hàng mới (quản lý
tài chính).
Trong bài nghiệm cứu của D. Vélez , A. Ayuso [14] đề xuất một phương pháp
mới Weight of Evidence (WOE) để lựa chọn biến tập trung vào khả năng diễn giải mô
hình đã được đề xuất trong bối cảnh hồi quy logistic với các biến Weight of Evidence
(WOE). Với mục đích này, một định nghĩa mới về các biến WOE cho các mục tiêu thứ tự
đã được giới thiệu, cho phép tránh một số vấn đề thường liên quan đến việc phân biệt các
đầu vào thông qua các biến giả nhị phân, đặc biệt đơn giản hóa mọi quy trình lựa chọn
biến tiếp theo. Ngoài ra, định nghĩa cụ thể của các biến WOE này là phương tiện có trọng
số của mục tiêu đòi hỏi chúng phải có liên quan tích cực hoặc trực tiếp đến tỷ lệ cược log
mục tiêu, cho phép dễ dàng xác định liệu mô hình có phản ánh đầy đủ logic kinh doanh
đã được xác thực của các biến này hay không. Tính năng này cung cấp cơ sở cho quy
trình lựa chọn biến theo từng bước kinh doanh cũng được đề xuất trong công việc này,
Trang 46
giúp nâng cao khả năng diễn giải bằng cách đảm bảo cho người dùng một biểu thức chính
xác về sự phụ thuộc giữa đầu vào và mục tiêu. Đây là một tính năng khá phù hợp khi,
như trong trường hợp rời bỏ, các mô hình phân tích sau này phải được áp dụng trong bối
cảnh ra quyết định, trong đó các quyết định được đưa ra phải dựa trên các mẫu và mối
quan hệ được mô hình thu thập . Như các kết quả được hiển thị cho thấy, chiến lược lập
mô hình này mang lại khả năng dự đoán cạnh tranh đồng thời giúp giải thích dễ dàng các
kết quả.
2.1.2. Phân tích và đánh giá các nghiên cứu
Machine learning được trình bày ở những nghiên cứu trên hầu như chưa đưa ra
được các thuật mới hiện nay (XGB, Randomforest,...) , bài toán phân lại chỉ xác định
khách hàng rời bỏ khách hàng ở thời điểm hiện tai không dự đoán được thời khách hàng
rời bỏ trong tương lai. Chưa xác định được ngưỡng ra giá trị khách hàng bình quân mang
lại cho doanh nghiệp để biết được khi nào để cho một khách hàng rời bỏ đi. Hướng triển
khai là xây dựng môt mô hình dự trên hành vi của quá khứ và hiện tại nhằm xác định
churn trong tương lai để cho Ngân hàng có thể dư trên đó mà có thể dưa ra các chiến lược
và hành động phù hợp để giảm thiệu lượng khách hàng rời bỏ và phân loại khách hàng
nào cần giữ lại.
 Ưu điểm: …..
 Nhược điểm…
 Khoảng trống nghiên cứu: (còn một số hướng mà mình sẽ nhắm tới)
Trang 47
rãi.
Chương 3: ĐỀ XUẤT MÔ HÌNH
Quy trình thực nghiệm

3.1.1. Sơ đồ thực hiện
3.1.2. Diễn giải quy trình
Mô tả dữ liệu
3.1.3. Thu thập dữ liệu
3.1.4. Phương định nghĩa tiêu chí
3.1.5. Tiền xử lý dữ liệu
3.1.6. Xác định mối quan hệ giữa biến phụ thuộc và biến độc lập
Xây dựng mô hình
Chương 4: ĐÁNH GIÁ KẾT QUẢ VÀ BÀN LUẬN
Phương pháp lựa chọn và đánh giá mô hình
Lựa chọn mô hình tốt cho bài toán dự đón khách hàng rời bỏ
ngân hàng
Hiện thực hóa Mô hình
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trang 48
Tổng quả kết quả nghiêm cứu
Hướng phát triển
TÀI LIỆU THAM KHẢO

[1] Gupta, S., Lehmann, D. R., & Stuart, J. A. (2004). Valuing customers. Journal of marketing
research, 41(1), 7-18.
[2] Reichheld, F. F. (1996). Learning from customer defections. Harvard business review, 74(2), 56-67.
[3] Mark R. Colgate & Peter J. Danaher Journal of the Academy of Marketing
Science volume 28, pages375–387 (2000)
[5] Vo, N. N., Liu, S., Brownlow, J., Chu, C., Culbert, B., & Xu, G. (2018, May). Client churn prediction
with call log analysis. In International Conference on Database Systems for Advanced Applications (pp.
752-763). Springer, Cham.
[6] Liao, K. H., & Chueh, H. E. (2011, January). Applying fuzzy data mining to telecom churn
management. In International Conference on Intelligent Computing and Information Science (pp. 259-
264). Springer, Berlin, Heidelberg.
[7] Brownlow, J., Chu, C., Fu, B., Xu, G., Culbert, B., & Meng, Q. (2018, May). Cost-sensitive churn
prediction in fund management services. In International Conference on Database Systems for Advanced
Applications (pp. 776-788). Springer, Cham.
[8] Devriendt, F., Berrevoets, J., & Verbeke, W. (2021). Why you should stop predicting customer churn
and start using uplift models. Information Sciences, 548, 497-515.
[9] Vafeiadis, T., Diamantaras, K. I., Sarigiannidis, G., & Chatzisavvas, K. C. (2015). A comparison of
machine learning techniques for customer churn prediction. Simulation Modelling Practice and
Theory, 55, 1-9.
[10] Lee, E., Kim, B., Kang, S., Kang, B., Jang, Y., & Kim, H. K. (2018). Profit optimizing churn prediction
for long-term loyal customers in online games. IEEE Transactions on Games, 12(1), 41-53.
[11] Li, Y., Hou, B., Wu, Y., Zhao, D., Xie, A., & Zou, P. (2021). Giant fight: Customer churn prediction in
traditional broadcast industry. Journal of Business Research, 131, 630-639.
[12] Rosa, N. B. D. C. (2019). Gauging and foreseeing customer churn in the banking industry: a neural
network approach (Doctoral dissertation).
[13] Silveira, L. J., Pinheiro, P. R., & Junior, L. S. D. M. (2021). A Novel Model Structured on Predictive
Churn Methods in a Banking Organization. Journal of Risk and Financial Management, 14(10), 481.
[14] Vélez, D., Ayuso, A., Perales-González, C., & Rodríguez, J. T. (2020). Churn and Net Promoter
Score forecasting for business decision-making through a new stepwise regression
methodology. Knowledge-Based Systems, 196, 105762
Trang 49
PHỤ LỤC
Trang 50

Chương I, II - NGUYỄN QUANG TRƯỜNG - Comments

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chương I, II - NGUYỄN QUANG TRƯỜNG - Comments

Uploaded by

Copyright:

Available Formats

Chương 1: TỔNG QUAN ĐỀ TÀI........................................................

Cơ sở hình thành đề tài

Mục tiêu nghiên cứu <Thầy Hùng sửa>

− Tập tận dụng hiểu quả nguồn lực ngân hàng.

− Tuân thủ thông tư 07/2019/TT-NHNN của ngân hàng nhà nước.

Đối tượng nghiên cứu

Phạm vi nghiên cứu

Phương pháp nghiên cứu

Ý nghĩa khoa học hoặc thực tiễn

Kết cấu luận văn

Chương 1: Tổng quan đề tài

Chương 2: Tổng quan nghiêm cứu và cơ sở lý thuyết

Chương 3: Đề xuất mô hình

Chương 4: Đánh giá kết quả và bàn luận

Chương 5: Kết luận và hướng phát triển

Khách hàng Retention

Mối quan hệ giữa churn rate và retention rate

Công thức: Churn rate + Retention rate=100 %

Các Phương pháp xác định churn rate

Net retention rate (NRR)

00000001 5-Feb-16 31-Jan-18 5,000,000

00000002 9-Apr-16 31-Jan-18 10,000,000

00000003 10-Nov-16 31-Jan-18 1,000,000

00000004 4-Jan-17 31-Jan-18 550,000

00000005 5-May-17 31-Jan-18 3,000,000

00000001 5-Feb-16 28-Feb-18 5,000,000

00000002 9-Apr-16 28-Feb-18 - Churn

00000003 10-Nov-16 28-Feb-18 1,000,000

00000004 4-Jan-17 28-Feb-18 550,000

00000005 5-May-17 28-Feb-18 3,000,000

00000006 4-Feb-18 28-Feb-18 100,000 New

00000007 5-Feb-18 28-Feb-18 500,000 New

Bảng 2.1: Minh họa tính tỷ lệ churn theo NRR

Tỷ lệ giữ chân ròng = 9,550,000 / 19,550,000 = 48.85%

Tỷ lệ churn ròng =100% - 48.85% = 51.15%

Tỷ lệ churn tiêu chuẩn

00000001 5-Feb-16 31-Jan-18 5,000,000

00000002 9-Apr-16 31-Jan-18 10,000,000

00000003 10-Nov-16 31-Jan-18 1,000,000

00000004 4-Jan-17 31-Jan-18 550,000

00000005 5-May-17 31-Jan-18 3,000,000

00000001 5-Feb-16 28-Feb-18 5,000,000

00000002 9-Apr-16 28-Feb-18 - Churn

00000003 10-Nov-16 28-Feb-18 1,000,000

00000004 4-Jan-17 28-Feb-18 550,000

00000005 5-May-17 28-Feb-18 3,000,000

00000006 4-Feb-18 28-Feb-18 100,000 New

00000007 5-Feb-18 28-Feb-18 500,000 New

Bảng 2.2: Minh họa tính tỷ lệ churn theo tiêu chuẩn

Tỷ lệ giữ chân =4 / 5 = 80%

Tỷ lệ churn =100% - 80% = 20%

Ngày ghi Doanh thu

00000001 5-Feb-16 31-Jan-18 5,000,000

00000002 9-Apr-16 31-Jan-18 10,000,000

00000003 10-Nov-16 31-Jan-18 1,000,000

00000004 4-Jan-17 31-Jan-18 550,000

00000005 5-May-17 31-Jan-18 3,000,000

00000001 5-Feb-16 28-Feb-18 5,000,000

00000002 9-Apr-16 28-Feb-18 - Churn

00000003 10-Nov-16 28-Feb-18 500,000

00000004 4-Jan-17 28-Feb-18 550,000

00000005 5-May-17 28-Feb-18 3,000,000

00000006 4-Feb-18 28-Feb-18 100,000 New