You are on page 1of 11

A novel ensemble classifier based tree model for credit scoring (Một mô hình cây

dựa trên bộ phân loại quần thể mới để chấm điểm tín dụng)
Tóm tắt:
Chấm điểm tín dụng là một trường hợp điển hình của việc phân loại mất cân bằng, thách
thức các thuật toán học máy truyền thống và các bộ phân loại thống kê để cung cấp kết
quả dự đoán chính xác cho khách hàng vỡ nợ. Trong bài báo này, một công cụ phân loại
tập hợp điểm tín dụng mới có tên là DTE đã được đề xuất để giải quyết vấn đề mất cân
bằng và chỉ ra các đặc điểm quan trọng của các quan sát ảnh hưởng đến xác suất vỡ nợ
của khách hàng. Một thử nghiệm toàn diện trên bốn bộ dữ liệu tín dụng thực cho thấy
DTE có hiệu suất tốt hơn so với mô hình cây dựa trên bộ phân loại tập hợp phổ biến như
Bagging, AdaBoost, and Random forest với các kỹ thuật resampling phổ biến để giải
quyết vấn đề mất cân bằng.
1. Introduction
Ở hầu hết các quốc gia, nền kinh tế phụ thuộc vào hệ thống ngân hàng, hệ thống
thu được lợi ích lớn từ hoạt động tín dụng. Nó có thể dẫn đến tăng trưởng tín dụng quá
mức, đánh giá khách hàng thiếu thận trọng và nợ xấu trong hệ thống ngân hàng tăng lên.
Điều đó có thể không chỉ đe dọa khả năng điều hành của hệ thống ngân hàng mà còn đẩy
nền kinh tế đến hàng loạt đổ vỡ thậm chí phá sản. Vì vậy, quản lý rủi ro tín dụng là một
trong những nhiệm vụ quan trọng hàng đầu của ngân hàng và các tổ chức tài chính [11].
Thuật ngữ “chấm điểm tín dụng” được sử dụng để diễn đạt các công việc liên quan đến
đánh giá rủi ro tín dụng [28]. Hình thức chấm điểm tín dụng đơn giản nhất là các mô hình
phân loại nhị phân, sử dụng các đặc điểm của khách hàng để phân biệt họ thành “bad”
(hoặc “defaulf” ) và “good” (“non-default”) [21,32].
Có hai yêu cầu của mô hình chấm điểm tín dụng, bao gồm (i) khả năng phân loại
chính xác khách hàng xấu và (ii) xác định các đặc điểm quan trọng ảnh hưởng đến xác
suất vỡ nợ của khách hàng. Yêu cầu đầu tiên đã được giải quyết bằng cách phát triển các
phương pháp học máy và thống kê mới có thể cải thiện hiệu suất của các mô hình chấm
điểm tín dụng. Tiến trình này đi cùng với sự thay đổi từ các phân loại đơn lẻ sang kết
hợp. Tuy nhiên, độ chính xác của lớp mô hình chấm điểm tín dụng mặc định bị thách
thức bởi sự phân bố lớp không cân bằng trong dữ liệu đào tạo, tồn tại sự khác biệt lớn
giữa số lượng khách hàng non-default và khách hàng default. Nếu tỷ lệ mất cân bằng khá
cao, thông tin về lớp thiểu số không đủ để các bộ phân loại thông thường nhận ra default.
Bên cạnh đó, hầu hết các bộ phân loại được thiết kế theo quy tắc tối đa hóa độ chính xác
toàn cục nên kết quả dự đoán thường thiên về lớp đa số [18,19]. Trong khi đó, khách
hàng xấu là đối tượng quan trọng cần phải được xác định chính xác vì có thể xảy ra tổn
thất tài chính hoặc phá sản nếu phân loại sai. Các nghiên cứu thực nghiệm cũng chỉ ra
rằng dữ liệu mất cân bằng ảnh hưởng đến hiệu suất của các mô hình chấm điểm tín dụng
[3,7]. Trong một mô hình chấm điểm tín dụng, thường có sự đánh đổi giữa yêu cầu thứ
nhất và yêu cầu thứ hai liên quan đến việc đánh giá, quản lý và phòng ngừa rủi ro tín
dụng của người cho vay [7]. Các phương pháp có độ chính xác cao thường tạo ra các mô
hình hộp đen không hiển thị các đầu vào quan trọng. Để khắc phục những khó khăn trên,
phương pháp phổ biến nhất là sử dụng kỹ thuật re-sampling để cân bằng tập huấn luyện,
sau đó áp dụng các mô hình phân loại có thể chỉ ra các đặc trưng quan trọng của khách
hàng để dự đoán tình trạng rủi ro tín dụng của họ. Tuy nhiên, phương pháp này không
hoạt động đối với các tập dữ liệu bị mất cân bằng nghiêm trọng.
Lấy cảm hứng từ những thực tế này và ý tưởng về một mô hình chấm điểm tín
dụng đáp ứng hai yêu cầu, đặc biệt là giải quyết vấn đề mất cân bằng, a classification
ensemble model-based Decision tree (DT) called Decision tree ensemble (DTE) is
proposed. DTE giải quyết vấn đề mất cân bằng bằng cách kết hợp các kỹ thuật lấy over-
sampling và under-sampling để tạo ra một họ tập dữ liệu huấn luyện cân bằng. Sau đó,
trên mỗi chúng, bộ phân loại DT được áp dụng để xây dựng bộ phân loại con của DTE.
Dự đoán về trạng thái của một mẫu được xác định bằng biểu quyết đa số về kết quả từ
các phân loại con của DTE. Bên cạnh đó, sử dụng đặc trưng của DT, DTE có thể thể hiện
mức độ quan trọng của các đặc trưng đầu vào. DTE được thực hiện trên bốn bộ dữ liệu tín
dụng bao gồm Đức, Đài Loan và hai bộ dữ liệu Việt Nam mất cân bằng cao để so sánh
các thước đo hiệu suất với các mô hình tập hợp phổ biến như Bagging, AdaBoost, and
Random forest, thậm chí áp dụng một số kỹ thuật lấy mẫu lại phổ biến để cân bằng dữ
liệu huấn luyện.
Bài báo được tổ chức như sau. Phần 2 xem xét các công việc liên quan đến mô
hình chấm điểm tín dụng và các cách tiếp cận để giải quyết vấn đề mất cân bằng. Phần 3
mô tả mô hình tập hợp được đề xuất DTE và dành cho các kết quả thực nghiệm trên bốn
bộ dữ liệu tín dụng thực. Cuối cùng, phần 4 là phần đánh giá và kết luận.
2. Related works
Nói chung, với phân loại nhị phân, các nhãn của các mẫu thường được ký hiệu là
“−1” và “1". Nó còn được gọi là mẫu âm tính và mẫu dương tính. Trong dữ liệu chấm
điểm tín dụng, khách hàng mặc định tạo thành lớp tích cực và khách hàng không mặc
định tương ứng với lớp tiêu cực.
Bộ phân loại nhị phân là một hàm ánh xạ tập dữ liệu X vào tập {−1, 1}. Một bộ
phân loại được cho là yếu nếu hiệu suất của nó chỉ cao hơn một chút so với bộ phân loại
ngẫu nhiên. Ví dụ, Cây quyết định (DT) là một bộ phân loại yếu do DT tạo ra các mô
hình có phương sai cao (xem, [18,25]).
2.1. Credit scoring models
Các mô hình chấm điểm tín dụng có thể được sắp xếp thành hai loại: phân loại đơn lẻ và
tập hợp, được minh họa trong Hình 1.

Một số bộ phân loại đơn phổ biến được sử dụng để chấm điểm tín dụng là Phân
tích phân biệt (DA), Hồi quy logistic (LR), Cây quyết định (DT), Máy vectơ hỗ trợ
(SVM), Mạng thần kinh nhân tạo (ANN) [7,16,32]. Thực tế là hiệu quả của các bộ phân
loại đơn lẻ phụ thuộc vào bộ dữ liệu. Thật vậy, LR có hiệu suất cao hơn DA [12,40] và
DT [30,37] nhưng kém hơn ANN [15] trong khi theo [4], thước đo hiệu suất của LR nhỏ
hơn DT. Các nghiên cứu thực nghiệm về chấm điểm tín dụng dẫn đến kết luận quan trọng
rằng không có bộ phân loại duy nhất tốt nhất cho tất cả các bộ dữ liệu.
Gần đây, các bộ phân loại tập hợp đã trở thành xu hướng được yêu thích trong
việc chấm điểm tín dụng. Thuật ngữ “mô hình tập hợp” đề cập đến tập hợp các bộ phân
loại khá giống nhau. Các mô hình tập hợp có thể hoạt động theo cách song song hoặc
tuần tự. Loại thứ nhất dựa trên đa số phiếu bầu hoặc phiếu bầu có trọng số, chẳng hạn
như Bagging [5] và Random forest (RF) [6]. Loại thứ hai dựa trên sự đổi mới, phân loại
phụ sau được phát triển bằng cách sửa đổi phân loại trước, chẳng hạn như Boosting [32].
Ý tưởng hoạt động của các mô hình tập hợp tận dụng sức mạnh tập thể để ra quyết định
trên nhiều phân loại con [32]. Thông thường, một bộ phân loại yếu như DT được chọn
làm bộ học cơ bản của một nhóm để tiết kiệm thời gian và tài nguyên máy tính. Trong tài
liệu chấm điểm tín dụng, các nghiên cứu thực nghiệm đã so sánh hiệu suất của các mô
hình tập hợp và đơn lẻ trên các bộ dữ liệu thực và đồng ý rằng các tập hợp có hiệu suất
vượt trội so với mô hình đơn lẻ [7,30].
Trong số các bộ phân loại đơn lẻ được liệt kê ở trên, LR và DT có thể diễn giải
được vì chúng có thể cho thấy tầm quan trọng của các biến để dự đoán trong khi SVM và
ANN là đại diện của các mô hình “hộp đen”. Thường có sự đánh đổi giữa việc diễn giải
và độ chính xác của các mô hình chấm điểm tín dụng [7]. Chẳng hạn, hầu hết các bộ phân
loại tập trung vào tính chính xác của kết quả dự đoán và bỏ qua vai trò của các tính năng
đầu vào. Tuy nhiên, các cây dựa trên mô hình tập hợp, như Bagging tree và RF, có thể
xếp hạng mức độ quan trọng của các tính năng đầu vào cho kết quả dự đoán cuối cùng.
2.2. Approaches to imbalanced data in credit scoring
Một tập dữ liệu được gọi là mất cân bằng nếu tỷ lệ mất cân bằng (IR) của nó lớn hơn 1,
trong đó IR là tỷ lệ của các mẫu số lượng của lớp đa số và mẫu thiểu số. Có ba cách tiếp
cận phổ biến để xử lý các vấn đề mất cân bằng: cấp độ thuật toán, cấp độ dữ liệu và cách
tiếp cận kết hợp giữa cấp độ dữ liệu và mô hình tập hợp [18]. Hình 2 mô tả các cách tiếp
cận chính để chấm điểm tín dụng với các bộ dữ liệu mất cân bằng.

Cách tiếp cận cấp thuật toán giải quyết dữ liệu mất cân bằng bằng cách sửa đổi
thuật toán của bộ phân loại, ví dụ: gán trọng số cho các mẫu, điều chỉnh ngưỡng quyết
định, áp đặt hoặc sửa chữa chi phí mất mát khi phân loại sai. Trong chấm điểm tín dụng,
Học tập nhạy cảm với chi phí (CSL) là một đại diện của cách tiếp cận cấp độ thuật toán
[41,42,45]. CSL đặt chi phí tổn thất khi một mẫu dương tính bị phân loại sai lớn hơn chi
phí tổn thất khác. Tuy nhiên, trong thực tế, chênh lệch giữa chi phí lỗ thường được thiết
kế theo ý chủ quan của người nghiên cứu. Vì vậy, CSL thường gây tranh cãi giữa các nhà
nghiên cứu cũng như các nhà quản lý rủi ro tín dụng trong thực tế.
Cách tiếp cận mức dữ liệu bao gồm các kỹ thuật lấy mẫu lại để cân bằng sự phân
bổ các lớp của tập dữ liệu gốc. Cách tiếp cận này không phụ thuộc vào thuật toán của các
bộ phân loại, do đó nó có thể được tích hợp rộng rãi với các bộ phân loại đơn lẻ hoặc tập
hợp. Trong chấm điểm tín dụng, có một số kỹ thuật lấy mẫu lại phổ biến: lấy mẫu dưới
mức ngẫu nhiên (RUS), lấy mẫu quá mức ngẫu nhiên (ROS), SMOTE [3,7] và ADASYN
[22]. Tuy nhiên, hiệu quả của các kỹ thuật lấy mẫu lại khác nhau giữa các tập dữ liệu.
- RUS loại bỏ các mẫu âm tính ngẫu nhiên để có được tập hợp con cân bằng của dữ
liệu gốc. RUS giảm kích thước mẫu và rút ngắn thời gian thực hiện. Trong một số
bối cảnh, RUS vượt trội so với ROS [13,24]. Tuy nhiên, nếu IR khá lớn, RUS có
thể lãng phí thông tin quan trọng của các mẫu âm tính.
- Trái ngược với RUS, ROS tạo ra một bộ dữ liệu cân bằng mới bằng cách sao chép
ngẫu nhiên các mẫu dương tính. Một số điểm tín dụng thử nghiệm chỉ ra rằng
ROS hiệu quả hơn RUS [7,23,31]. Tuy nhiên, ROS có thể lặp lại các ngoại lệ hoặc
nhiễu có thể dẫn đến mô hình over-fitting [2,35].
- SMOTE là một cải tiến của ROS bằng cách tạo ra một số mẫu dương tính tổng
hợp [8]. SMOTE được coi là có thể giải quyết vấn đề mất cân bằng và tránh mô
hình quá phù hợp. Tuy nhiên, SMOTE có thể tạo ra nhiều mẫu chồng chéo hơn
giữa hai lớp làm giảm hiệu suất của bộ phân loại [29].
- ADASYN là một phiên bản của SMOTE. Thay vì tạo các mẫu dương tính tổng
hợp là các mẫu lân cận của từng mẫu của lớp thiểu số, ADASYN chỉ thực hiện
trên lớp con bao gồm các mẫu dương tính được bao quanh bởi nhiều mẫu âm tính.
Ý tưởng chính của ADASYN là cung cấp thêm thông tin về các mẫu dương tính
mà các bộ phân loại quá khó để học [22]. Tuy nhiên, ADASYN không hạn chế
vấn đề chồng chéo của SMOTE.
Cách tiếp cận thứ ba là sự kết hợp giữa phương thức mức dữ liệu và bộ phân loại tập
hợp. Ban đầu, một kỹ thuật cụ thể của cách tiếp cận cấp dữ liệu được sử dụng để cân
bằng lại dữ liệu huấn luyện. Trong một số trường hợp, một số kỹ thuật lấy mẫu lại được
kết hợp để nâng cao hiệu quả của các phân loại sau áp dụng [18]. Một số nghiên cứu về
phân loại đã sử dụng cách tiếp cận này và thu được kết quả tốt hơn so với tập hợp mà
không giải quyết được vấn đề mất cân bằng, chẳng hạn như SMOTEBoost [9];
RUSBoost [33]; SMOTEBagging [35]; UnderOverBagging [39]. Tuy nhiên, cách tiếp
cận thứ ba vẫn chưa chú ý đến việc chấm điểm tín dụng.
3. The proposed ensemble model for credit scoring
3.1. The proposed algorithms
Sự kết hợp giữa phương pháp cấp dữ liệu và mô hình tập hợp là ý tưởng cho bộ
phân loại tập hợp được đề xuất, được gọi là tập hợp cây quyết định (DTE). DT, một bộ
phân loại yếu, được chọn làm bộ học cơ sở của DTE để giảm bớt gánh nặng cho quá trình
tính toán của tập hợp. Hơn nữa, DT có thể chỉ ra tầm quan trọng của các tính năng đầu
vào. Nói tóm lại, DTE dự kiến sẽ đáp ứng hai yêu cầu của mô hình chấm điểm tín dụng.
DTE bao gồm các phân loại phụ B là các mô hình DT được đào tạo trên các tập dữ
liệu huấn luyện cân bằng B với số lượng khác nhau. Phản hồi dự đoán cuối cùng là kết
quả phổ biến nhất của phân loại phụ B. Vì thuận tiện, DTE(B) được ký hiệu là DTE với
B phân loại phụ.
Có hai giai đoạn của quá trình tính toán DTE(B), bao gồm (i) cân bằng dữ liệu và
(ii) xây dựng các phân loại con. Trong giai đoạn đầu tiên, ROS và RUS được kết hợp để
tạo tập dữ liệu huấn luyện cân bằng B với số lượng khác nhau. Trong giai đoạn thứ hai,
DT được áp dụng trên các tập dữ liệu cân bằng B để lấy các mô hình con B. Hai giai đoạn
của DTE(B) được thực hiện dựa trên thuật toán OUS(B) và thuật toán DTE(B).
3.1.1. Algorithm for balancing data - OUS(B) algorithm
Với tập dữ liệu huấn luyện S, D là sự khác biệt về số lượng của lớp đa số và thiểu
D× i
số của S. Với B đã cho, nhân đôi ngẫu nhiên các mẫu dương tính và loại bỏ ngẫu
B
nhiên các mẫu âm tính cho đến khi nhận được dữ liệu cân bằng S i (i = 1, .., B). Khi i thay
đổi từ 1 đến B thì tập Si không những cân bằng mà còn có các đại lượng khác với các tập
còn lại. Điều đó tạo nên sự đa dạng của các phân loại con của DTE(B) và ngăn chặn mô
hình khớp quá mức. Thuật toán OUS(B) được mô tả trong Bảng 1.

3.1.2. Algorithm for constructing ensemble classifier - DTE(B) algorithm


Trên mỗi bộ dữ liệu cân bằng của đầu ra của thuật toán OUS(B), thuật toán RPART (Cây
hồi quy và phân vùng đệ quy) được sử dụng để xây dựng các bộ phân loại con của
DTE(B) [36]. Trong mỗi phân loại con, các tham số được gán như sau. Số lượng quan sát
tối thiểu trong bất kỳ nút đầu cuối nào là 10. Quá trình cắt tỉa của mỗi cây được xác định
bằng xác thực chéo 5 lần với tham số phức tạp 0,001.
Trong mỗi bộ phân loại phụ, khi một tính năng được phân tách, việc giảm hàm mất mát
(ví dụ: lỗi phân loại) được sử dụng để đo lường tầm quan trọng của thuộc tính này. Trong
một số trường hợp, một thuộc tính có thể được sử dụng nhiều lần trong một cây. Do đó,
tổng mức giảm trong hàm mất mát trên tất cả các lần phân tách bằng tính năng này là tính
năng đo lường quan trọng. Thước đo tổng thể của các tính năng quan trọng là giá trị trung
bình của B giá trị của thước đo này từ B phân loại phụ. Trong nghiên cứu này, các giá trị
này được chuẩn hóa sao cho các tính năng quan trọng nhất là 100 và các tính năng còn lại
được cho điểm dựa trên mức độ tương đối của chúng so với nhiều nhất. Cuối cùng, lớp
dự đoán của một mẫu mới được đa số bình chọn bởi B phân loại phụ của DTE(B). Thuật
toán để xây dựng DTE(B) là thể hiện trong Bảng 2.

3.2. Empirical results


3.2.1. Implementation protocol
Quy trình chấm điểm tín dụng của DTE(B) tuân theo các bước trong Bảng 3.

Trên hai tập dữ liệu của Việt Nam, quá trình này được lặp lại với nhiều giá trị của B để
xác định bộ phân loại DTE(B*) theo thời gian. Sau đó, DTE(B*) được thử nghiệm trên
một số bộ dữ liệu phổ biến để so sánh các biện pháp đo lường hiệu suất với Bagging, RF
và AdaBoost có và không có các kỹ thuật lấy mẫu lại thông thường. Trong phần so sánh,
có một số thay đổi ở bước 2 và 3 của quá trình tính toán DTE(B).
- Bước 2’: Dữ liệu huấn luyện được cân bằng bằng một trong các kỹ thuật lấy mẫu
lại RUS, ROS, SMOTE hoặc ADASYN.
- Bước 3’: Áp dụng một trong các bộ phân loại, Bagging, RF hoặc Adaboost cho dữ
liệu huấn luyện cân bằng.
Để có được những đánh giá chắc chắn, trên mỗi tập dữ liệu, quá trình tính toán của các bộ
phân loại được xem xét được thực hiện 50 lần. Sau đó, các phép so sánh dựa trên giá trị
trung bình của các phép đo hiệu suất trong 50 lần.
3.2.2. Data sets for empirical study
Bốn bộ dữ liệu tín chỉ tiếng Đức (GER), tiếng Đài Loan (TAI), tiếng Việt 1 (VN1)
và tiếng Việt 2 (VN2) được sử dụng trong nghiên cứu thực nghiệm.
VN1 và VN2 được sử dụng để xây dựng tổ hợp DTE(B*) tối ưu được đề xuất.
Chúng tôi chỉ có thể truy cập thông tin rất cơ bản về khách hàng tín dụng tại các ngân
hàng Việt Nam vì các vấn đề bảo mật tại Việt Nam. Vì lý do đó, tất cả các đặc trưng
trong VN1 và VN2 đều ở dạng danh nghĩa. Các thuộc tính như lãi suất, kỳ hạn, thời hạn,
số tiền vay, giới tính khách hàng, mục đích vay, tài sản đảm bảo, dư nợ gốc, dư nợ hiện
tại, loại khách hàng, loại sản phẩm, lịch sử tín dụng của khách hàng, chi nhánh ngân
hàng... Bên cạnh đó , tình trạng mất cân đối của VN1 và VN2 khá cao, đặc biệt là VN2.
Những đặc điểm này làm cho bộ dữ liệu của Việt Nam khác với các bộ dữ liệu khác.
GER và TAI được công khai trên các kho chấm điểm tín dụng. Chúng là các bộ dữ
liệu xác thực để so sánh DTE(B*) với các bộ phân loại tập hợp phổ biến, chẳng hạn như
Bagging, RF và AdaBoost có và không có các kỹ thuật lấy mẫu lại thông thường. Chi tiết
của bộ dữ liệu là được mô tả trong Bảng 4.

3.2.3. Performance measures


Hiệu suất phân loại của tất cả các mô hình được xem xét được đánh giá theo năm
tiêu chí là Area Under the Receiver Operating Characteristics Curve (AUC),
Kolmogorov-Smirnov statistic (KS), F-measure, G-mean [26,35], and H-measure[20].
AUC là một trong những tiêu chí đánh giá phổ biến nhất của các bộ phân loại, đặc biệt
trong tình trạng dữ liệu mất cân bằng [2,3,7,27,38]. AUC cho thấy sự đánh đổi giữa Tỷ lệ
dương tính thực (TPR) và Tỷ lệ dương tính giả (FPR) thông qua tất cả các ngưỡng của bộ
phân loại. Do đó, AUC không phụ thuộc vào phân bố lớp và ngưỡng phân biệt mẫu mặc
định - không mặc định. Với một loạt các ngưỡng rời rạc {α i }1n, AUC có thể được ước tính
theo công thức:
trong đó T(α i) và F(α i) là tỷ lệ dương tính Đúng và tỷ lệ dương tính Sai tương ứng với
ngưỡng α i.
3.2.4. The optimal DTE
Với Bagging, RF và AdaBoost, giá trị của các lần lặp, B, có thể lớn tùy ý. Tuy
nhiên, với bộ phân loại DTE(B), các giá trị của B được giới hạn bởi D, sự khác biệt giữa
các mẫu đại lượng của lớp âm và lớp dương. Khi B tiến gần hơn đến giới hạn trên này,
mỗi tập huấn luyện cân bằng của đầu ra của thuật toán OUS(B) sẽ khác một chút so với
các tập khác. Do đó, các phân loại phụ trong DTE(B) không đa dạng. Do đó, thời gian
tính toán lâu hơn nhưng các phép đo hiệu suất của DTE(B) không tăng.
Do đó, một số giá trị đủ cao của B đã được kiểm tra để tìm bộ phân loại tối ưu trên
VN1 và VN2 dựa trên AUC, KS và thước đo F. Bảng 5 trình bày số đo AUC, KS và F
trung bình của DTE(B) được tính trung bình sau 50 lần cố định trên bộ thử nghiệm.
Không dễ để xác định xu hướng của AUC. Trên VN1, giá trị cực đại của AUC
tương ứng với DTE(3) còn trên VN2, AUC đạt giá trị cực đại khi B lớn hơn. Tuy nhiên,
AUC dần ổn định khi B đủ lớn. Trong khi đó, giá trị KS và F-mesure có xu hướng tăng
khi B tăng. Xét về thời gian tính toán và các thước đo hiệu suất, giá trị tối ưu của B cho
VN1 và VN2 là 39.
3.2.5. Performance of optimal DTE on Vietnamese data sets
Có một thực tế là các bộ phân loại truyền thống với các kỹ thuật lấy mẫu lại phổ biến
không hoạt động tốt trên VN1 và VN2. Bảng 6 cho thấy hiệu suất của DTE(39) đối với
Bagging, FR và Adaboost ngay cả khi các bộ phân loại này được áp dụng sau khi kỹ
thuật lấy mẫu lại để xử lý các vấn đề mất cân bằng. Trên VN1, DTE(39) chiến thắng các
phân loại được xem xét khác ít nhất trên ba tiêu chí (AUC, KS và H-mesure) trong khi
trên VN2, nó vượt trội so với các phân loại khác trên năm tiêu chí đánh giá. Nói tóm lại,
DTE(39) hiệu quả hơn so với sự kết hợp của các kỹ thuật lấy mẫu lại phổ biến và các bộ
phân loại tập hợp phổ biến.
Một đầu ra khác của thuật toán DTE(B) là vector FI biểu diễn các đặc trưng quan trọng
ảnh hưởng đến xác suất vỡ nợ. Hình 3 và Hình 4 cho thấy điểm số của các tính năng quan
trọng của VN1 và VN2. TRONG
VN1, “Nội dung" là tính năng quan trọng nhất, tiếp theo lần lượt là “Mục đích”, “Thời
lượng” và “Lịch sử". Tương tự, ở VN2, các yếu tố dự báo quan trọng nhất là “Sở thích”,
“Thời lượng”, “Loại sản phẩm” và
“Chi nhánh" tương ứng. Các đặc điểm này của khách hàng có thể cung cấp nhiều thông
tin hơn về xác suất vỡ nợ so với các đặc điểm khác. Do đó, các nhà quản lý ngân hàng
Việt Nam có thể đặt ra các tiêu chí cho vay dựa trên đặc điểm của các khách hàng này.
3.2.6. Comparing with other ensemble classifiers
DTE(39) được so sánh với cây dựa trên bộ phân loại tập hợp phổ biến không có và
có các kỹ thuật lấy mẫu lại phổ biến RUS, ROS, SMOTE và ADASYN. Trong Bagging,
RF và AdaBoost, số lượng cây càng lớn thì tỷ lệ lỗi càng nhỏ [5,17]. Bên cạnh đó, việc
tăng số lượng cây trong quần thể này không dẫn đến mô hình quá khớp.
Tuy nhiên, việc cải thiện tỷ lệ lỗi không đáng kể khi số lượng cây lớn hơn 20 đối
với Bagging và 100 đối với RF [5,6]. Với AdaBoost là mô hình tuần tự nên thời gian tính
toán sẽ rất lâu nếu tổng thể có nhiều cây. Vì tất cả những lý do này, các tham số của bộ
phân loại tập hợp được chỉ định như sau:
- Bagging và AdaBoost: Số lượng nút cùng với đường dẫn dài nhất từ nút gốc đến
nút đầu cuối xa nhất là 10. Số lượng cây là 30.
- Rừng ngẫu nhiên: Số lượng cây là 300. Số lượng yếu tố dự đoán cho mỗi cây là
căn bậc hai của tổng số yếu tố dự đoán của mỗi bộ dữ liệu.
Giao thức triển khai được áp dụng lại cho GER và TAI. Các phép đo hiệu suất
được thể hiện trong Bảng 7 và 8. Trên GER, DTE(39) nhận được các giá trị AUC và H-
measure cao nhất. Bên cạnh đó, so với từng bộ phân loại, DTE(39) luôn thắng ít nhất ba
trong số năm tiêu chí đánh giá hiệu năng. Tương tự, trên TAI, DTE(39) là bộ phân loại
hiệu quả nhất vì DTE(39) đánh bại bộ phân loại khác trên AUC, KS và H-measure. Ngoài
ra, các phép đo hiệu suất của DTE(39) được so sánh với một số nghiên cứu thực nghiệm
gần đây cũng được trình bày trong Bảng 7 và 8. DTE(B*) vẫn gần như chiếm ưu thế
trong tiêu chí AUC. Hơn nữa, DTE(B*) có hiệu suất cao hơn so với các mẫu EBCA [23]
và GSCI [10] trên GER, với BSAC [1] và LSTM [34] trên TAI.
4. Evaluations and Conclusions
4.1. Evaluations
Tóm lại, khi so sánh với các cây dựa trên bộ phân loại tập hợp phổ biến, DTE(39)
mang lại giá trị AUC vượt trội trên bốn bộ dữ liệu. Trên GER và VN1, AUC của
DTE(B*) thậm chí còn lớn hơn khá nhiều so với các loại khác được xem xét. Nhìn
chung, DTE(B*) gần như vượt trội so với RF, Bagging và AdaBoost, đặc biệt trên VN1
và VN2. Cần lưu ý rằng VN1 và VN2 bị mất cân đối hơn so với các VN1 và VN2 khác.
Giá trị tối ưu của B cho DTE(B) trên VN1 và VN2 là 39. Giá trị này có thể là giá
trị khác tương ứng với các bộ dữ liệu. Tuy nhiên, DTE(39) vẫn có màn trình diễn ấn
tượng trên GER và TAI.
Một số kết quả khác được rút ra từ nghiên cứu thực nghiệm. Đầu tiên, trên bốn tập
dữ liệu thực, không có ROS, RUS, SMOTE và ADASYN nào là kỹ thuật lấy mẫu lại nổi
bật để xử lý dữ liệu mất cân bằng. Thứ hai, một số phương pháp giải quyết dữ liệu mất
cân bằng không phải lúc nào cũng hoạt động như mong đợi. Ví dụ: trên GER, bộ phân
loại Bagging không có bất kỳ kỹ thuật lấy mẫu lại nào có các thước đo hiệu suất cao hơn
các bộ phân loại khác (xem Bảng 7). Do đó, cần xem xét một số kỹ thuật lấy mẫu lại khi
áp dụng phương pháp cấp dữ liệu. Cuối cùng, sự kết hợp giữa các kỹ thuật lấy mẫu lại và
phân loại tập hợp có hiệu suất tốt hơn so với cách tiếp cận ở cấp độ dữ liệu.
4.2. Conclusions
Chấm điểm tín dụng luôn là một trong những nhiệm vụ quan trọng hàng đầu của
các tổ chức tài chính. Trong chấm điểm tín dụng, một chút cải thiện về hiệu quả của mô
hình phân loại có thể cứu vãn được tổn thất đáng kể của khu vực tài chính. Do đó, quá
trình phát triển các mô hình phân loại vẫn tiếp tục với việc tăng cường các thuật toán
phân loại và thuật toán cân bằng. Nghiên cứu này đóng góp vào tài liệu chấm điểm tín
dụng với hai thuật toán, OUS(B) để giải quyết dữ liệu huấn luyện mất cân bằng và
DTE(B) để xây dựng cây dựa trên tập hợp bộ phân loại. Trình phân loại tập hợp được đề
xuất DTE(39) không chỉ cải thiện các phép đo hiệu suất phổ biến mà còn thể hiện mức độ
quan trọng của các tính năng đầu vào. Trong số các bộ phân loại tập hợp dựa trên cây
được xem xét, DTE(39) chứng tỏ hiệu quả vượt trội so với Bagging và AdaBoost, thậm
chí kết hợp với các kỹ thuật lấy mẫu lại phổ biến như ROS, RUS, SMOTE và ADASYN.
Hơn nữa, DTE(39) đang cạnh tranh với RF và các mô hình tính điểm tín dụng gần đây
khác, đặc biệt là theo AUC và H-measure. Do đó, DTE(39) là một lựa chọn tốt để giải
quyết vấn đề chấm điểm tín dụng mất cân bằng.
Bên cạnh đó, nên thực hành thuật toán OUS(B) và DTE(B) trên nhiều tập dữ liệu
hơn để có kết luận cụ thể hơn về giá trị tối ưu của B.
Nghiên cứu chỉ coi IR là tham số ảnh hưởng đến hiệu suất của bộ phân loại trên dữ
liệu không cân bằng. Trên thực tế, chồng chéo cũng là một vấn đề phổ biến trong phân
loại mất cân bằng. Cần xem xét kỹ thuật toán OUS(B) trên các tập dữ liệu vừa mất cân
bằng vừa chồng chéo để nâng cao hiệu quả.

You might also like