Professional Documents
Culture Documents
A Novel Ensemble Classifier Based Tree Model For Credit Scoring
A Novel Ensemble Classifier Based Tree Model For Credit Scoring
dựa trên bộ phân loại quần thể mới để chấm điểm tín dụng)
Tóm tắt:
Chấm điểm tín dụng là một trường hợp điển hình của việc phân loại mất cân bằng, thách
thức các thuật toán học máy truyền thống và các bộ phân loại thống kê để cung cấp kết
quả dự đoán chính xác cho khách hàng vỡ nợ. Trong bài báo này, một công cụ phân loại
tập hợp điểm tín dụng mới có tên là DTE đã được đề xuất để giải quyết vấn đề mất cân
bằng và chỉ ra các đặc điểm quan trọng của các quan sát ảnh hưởng đến xác suất vỡ nợ
của khách hàng. Một thử nghiệm toàn diện trên bốn bộ dữ liệu tín dụng thực cho thấy
DTE có hiệu suất tốt hơn so với mô hình cây dựa trên bộ phân loại tập hợp phổ biến như
Bagging, AdaBoost, and Random forest với các kỹ thuật resampling phổ biến để giải
quyết vấn đề mất cân bằng.
1. Introduction
Ở hầu hết các quốc gia, nền kinh tế phụ thuộc vào hệ thống ngân hàng, hệ thống
thu được lợi ích lớn từ hoạt động tín dụng. Nó có thể dẫn đến tăng trưởng tín dụng quá
mức, đánh giá khách hàng thiếu thận trọng và nợ xấu trong hệ thống ngân hàng tăng lên.
Điều đó có thể không chỉ đe dọa khả năng điều hành của hệ thống ngân hàng mà còn đẩy
nền kinh tế đến hàng loạt đổ vỡ thậm chí phá sản. Vì vậy, quản lý rủi ro tín dụng là một
trong những nhiệm vụ quan trọng hàng đầu của ngân hàng và các tổ chức tài chính [11].
Thuật ngữ “chấm điểm tín dụng” được sử dụng để diễn đạt các công việc liên quan đến
đánh giá rủi ro tín dụng [28]. Hình thức chấm điểm tín dụng đơn giản nhất là các mô hình
phân loại nhị phân, sử dụng các đặc điểm của khách hàng để phân biệt họ thành “bad”
(hoặc “defaulf” ) và “good” (“non-default”) [21,32].
Có hai yêu cầu của mô hình chấm điểm tín dụng, bao gồm (i) khả năng phân loại
chính xác khách hàng xấu và (ii) xác định các đặc điểm quan trọng ảnh hưởng đến xác
suất vỡ nợ của khách hàng. Yêu cầu đầu tiên đã được giải quyết bằng cách phát triển các
phương pháp học máy và thống kê mới có thể cải thiện hiệu suất của các mô hình chấm
điểm tín dụng. Tiến trình này đi cùng với sự thay đổi từ các phân loại đơn lẻ sang kết
hợp. Tuy nhiên, độ chính xác của lớp mô hình chấm điểm tín dụng mặc định bị thách
thức bởi sự phân bố lớp không cân bằng trong dữ liệu đào tạo, tồn tại sự khác biệt lớn
giữa số lượng khách hàng non-default và khách hàng default. Nếu tỷ lệ mất cân bằng khá
cao, thông tin về lớp thiểu số không đủ để các bộ phân loại thông thường nhận ra default.
Bên cạnh đó, hầu hết các bộ phân loại được thiết kế theo quy tắc tối đa hóa độ chính xác
toàn cục nên kết quả dự đoán thường thiên về lớp đa số [18,19]. Trong khi đó, khách
hàng xấu là đối tượng quan trọng cần phải được xác định chính xác vì có thể xảy ra tổn
thất tài chính hoặc phá sản nếu phân loại sai. Các nghiên cứu thực nghiệm cũng chỉ ra
rằng dữ liệu mất cân bằng ảnh hưởng đến hiệu suất của các mô hình chấm điểm tín dụng
[3,7]. Trong một mô hình chấm điểm tín dụng, thường có sự đánh đổi giữa yêu cầu thứ
nhất và yêu cầu thứ hai liên quan đến việc đánh giá, quản lý và phòng ngừa rủi ro tín
dụng của người cho vay [7]. Các phương pháp có độ chính xác cao thường tạo ra các mô
hình hộp đen không hiển thị các đầu vào quan trọng. Để khắc phục những khó khăn trên,
phương pháp phổ biến nhất là sử dụng kỹ thuật re-sampling để cân bằng tập huấn luyện,
sau đó áp dụng các mô hình phân loại có thể chỉ ra các đặc trưng quan trọng của khách
hàng để dự đoán tình trạng rủi ro tín dụng của họ. Tuy nhiên, phương pháp này không
hoạt động đối với các tập dữ liệu bị mất cân bằng nghiêm trọng.
Lấy cảm hứng từ những thực tế này và ý tưởng về một mô hình chấm điểm tín
dụng đáp ứng hai yêu cầu, đặc biệt là giải quyết vấn đề mất cân bằng, a classification
ensemble model-based Decision tree (DT) called Decision tree ensemble (DTE) is
proposed. DTE giải quyết vấn đề mất cân bằng bằng cách kết hợp các kỹ thuật lấy over-
sampling và under-sampling để tạo ra một họ tập dữ liệu huấn luyện cân bằng. Sau đó,
trên mỗi chúng, bộ phân loại DT được áp dụng để xây dựng bộ phân loại con của DTE.
Dự đoán về trạng thái của một mẫu được xác định bằng biểu quyết đa số về kết quả từ
các phân loại con của DTE. Bên cạnh đó, sử dụng đặc trưng của DT, DTE có thể thể hiện
mức độ quan trọng của các đặc trưng đầu vào. DTE được thực hiện trên bốn bộ dữ liệu tín
dụng bao gồm Đức, Đài Loan và hai bộ dữ liệu Việt Nam mất cân bằng cao để so sánh
các thước đo hiệu suất với các mô hình tập hợp phổ biến như Bagging, AdaBoost, and
Random forest, thậm chí áp dụng một số kỹ thuật lấy mẫu lại phổ biến để cân bằng dữ
liệu huấn luyện.
Bài báo được tổ chức như sau. Phần 2 xem xét các công việc liên quan đến mô
hình chấm điểm tín dụng và các cách tiếp cận để giải quyết vấn đề mất cân bằng. Phần 3
mô tả mô hình tập hợp được đề xuất DTE và dành cho các kết quả thực nghiệm trên bốn
bộ dữ liệu tín dụng thực. Cuối cùng, phần 4 là phần đánh giá và kết luận.
2. Related works
Nói chung, với phân loại nhị phân, các nhãn của các mẫu thường được ký hiệu là
“−1” và “1". Nó còn được gọi là mẫu âm tính và mẫu dương tính. Trong dữ liệu chấm
điểm tín dụng, khách hàng mặc định tạo thành lớp tích cực và khách hàng không mặc
định tương ứng với lớp tiêu cực.
Bộ phân loại nhị phân là một hàm ánh xạ tập dữ liệu X vào tập {−1, 1}. Một bộ
phân loại được cho là yếu nếu hiệu suất của nó chỉ cao hơn một chút so với bộ phân loại
ngẫu nhiên. Ví dụ, Cây quyết định (DT) là một bộ phân loại yếu do DT tạo ra các mô
hình có phương sai cao (xem, [18,25]).
2.1. Credit scoring models
Các mô hình chấm điểm tín dụng có thể được sắp xếp thành hai loại: phân loại đơn lẻ và
tập hợp, được minh họa trong Hình 1.
Một số bộ phân loại đơn phổ biến được sử dụng để chấm điểm tín dụng là Phân
tích phân biệt (DA), Hồi quy logistic (LR), Cây quyết định (DT), Máy vectơ hỗ trợ
(SVM), Mạng thần kinh nhân tạo (ANN) [7,16,32]. Thực tế là hiệu quả của các bộ phân
loại đơn lẻ phụ thuộc vào bộ dữ liệu. Thật vậy, LR có hiệu suất cao hơn DA [12,40] và
DT [30,37] nhưng kém hơn ANN [15] trong khi theo [4], thước đo hiệu suất của LR nhỏ
hơn DT. Các nghiên cứu thực nghiệm về chấm điểm tín dụng dẫn đến kết luận quan trọng
rằng không có bộ phân loại duy nhất tốt nhất cho tất cả các bộ dữ liệu.
Gần đây, các bộ phân loại tập hợp đã trở thành xu hướng được yêu thích trong
việc chấm điểm tín dụng. Thuật ngữ “mô hình tập hợp” đề cập đến tập hợp các bộ phân
loại khá giống nhau. Các mô hình tập hợp có thể hoạt động theo cách song song hoặc
tuần tự. Loại thứ nhất dựa trên đa số phiếu bầu hoặc phiếu bầu có trọng số, chẳng hạn
như Bagging [5] và Random forest (RF) [6]. Loại thứ hai dựa trên sự đổi mới, phân loại
phụ sau được phát triển bằng cách sửa đổi phân loại trước, chẳng hạn như Boosting [32].
Ý tưởng hoạt động của các mô hình tập hợp tận dụng sức mạnh tập thể để ra quyết định
trên nhiều phân loại con [32]. Thông thường, một bộ phân loại yếu như DT được chọn
làm bộ học cơ bản của một nhóm để tiết kiệm thời gian và tài nguyên máy tính. Trong tài
liệu chấm điểm tín dụng, các nghiên cứu thực nghiệm đã so sánh hiệu suất của các mô
hình tập hợp và đơn lẻ trên các bộ dữ liệu thực và đồng ý rằng các tập hợp có hiệu suất
vượt trội so với mô hình đơn lẻ [7,30].
Trong số các bộ phân loại đơn lẻ được liệt kê ở trên, LR và DT có thể diễn giải
được vì chúng có thể cho thấy tầm quan trọng của các biến để dự đoán trong khi SVM và
ANN là đại diện của các mô hình “hộp đen”. Thường có sự đánh đổi giữa việc diễn giải
và độ chính xác của các mô hình chấm điểm tín dụng [7]. Chẳng hạn, hầu hết các bộ phân
loại tập trung vào tính chính xác của kết quả dự đoán và bỏ qua vai trò của các tính năng
đầu vào. Tuy nhiên, các cây dựa trên mô hình tập hợp, như Bagging tree và RF, có thể
xếp hạng mức độ quan trọng của các tính năng đầu vào cho kết quả dự đoán cuối cùng.
2.2. Approaches to imbalanced data in credit scoring
Một tập dữ liệu được gọi là mất cân bằng nếu tỷ lệ mất cân bằng (IR) của nó lớn hơn 1,
trong đó IR là tỷ lệ của các mẫu số lượng của lớp đa số và mẫu thiểu số. Có ba cách tiếp
cận phổ biến để xử lý các vấn đề mất cân bằng: cấp độ thuật toán, cấp độ dữ liệu và cách
tiếp cận kết hợp giữa cấp độ dữ liệu và mô hình tập hợp [18]. Hình 2 mô tả các cách tiếp
cận chính để chấm điểm tín dụng với các bộ dữ liệu mất cân bằng.
Cách tiếp cận cấp thuật toán giải quyết dữ liệu mất cân bằng bằng cách sửa đổi
thuật toán của bộ phân loại, ví dụ: gán trọng số cho các mẫu, điều chỉnh ngưỡng quyết
định, áp đặt hoặc sửa chữa chi phí mất mát khi phân loại sai. Trong chấm điểm tín dụng,
Học tập nhạy cảm với chi phí (CSL) là một đại diện của cách tiếp cận cấp độ thuật toán
[41,42,45]. CSL đặt chi phí tổn thất khi một mẫu dương tính bị phân loại sai lớn hơn chi
phí tổn thất khác. Tuy nhiên, trong thực tế, chênh lệch giữa chi phí lỗ thường được thiết
kế theo ý chủ quan của người nghiên cứu. Vì vậy, CSL thường gây tranh cãi giữa các nhà
nghiên cứu cũng như các nhà quản lý rủi ro tín dụng trong thực tế.
Cách tiếp cận mức dữ liệu bao gồm các kỹ thuật lấy mẫu lại để cân bằng sự phân
bổ các lớp của tập dữ liệu gốc. Cách tiếp cận này không phụ thuộc vào thuật toán của các
bộ phân loại, do đó nó có thể được tích hợp rộng rãi với các bộ phân loại đơn lẻ hoặc tập
hợp. Trong chấm điểm tín dụng, có một số kỹ thuật lấy mẫu lại phổ biến: lấy mẫu dưới
mức ngẫu nhiên (RUS), lấy mẫu quá mức ngẫu nhiên (ROS), SMOTE [3,7] và ADASYN
[22]. Tuy nhiên, hiệu quả của các kỹ thuật lấy mẫu lại khác nhau giữa các tập dữ liệu.
- RUS loại bỏ các mẫu âm tính ngẫu nhiên để có được tập hợp con cân bằng của dữ
liệu gốc. RUS giảm kích thước mẫu và rút ngắn thời gian thực hiện. Trong một số
bối cảnh, RUS vượt trội so với ROS [13,24]. Tuy nhiên, nếu IR khá lớn, RUS có
thể lãng phí thông tin quan trọng của các mẫu âm tính.
- Trái ngược với RUS, ROS tạo ra một bộ dữ liệu cân bằng mới bằng cách sao chép
ngẫu nhiên các mẫu dương tính. Một số điểm tín dụng thử nghiệm chỉ ra rằng
ROS hiệu quả hơn RUS [7,23,31]. Tuy nhiên, ROS có thể lặp lại các ngoại lệ hoặc
nhiễu có thể dẫn đến mô hình over-fitting [2,35].
- SMOTE là một cải tiến của ROS bằng cách tạo ra một số mẫu dương tính tổng
hợp [8]. SMOTE được coi là có thể giải quyết vấn đề mất cân bằng và tránh mô
hình quá phù hợp. Tuy nhiên, SMOTE có thể tạo ra nhiều mẫu chồng chéo hơn
giữa hai lớp làm giảm hiệu suất của bộ phân loại [29].
- ADASYN là một phiên bản của SMOTE. Thay vì tạo các mẫu dương tính tổng
hợp là các mẫu lân cận của từng mẫu của lớp thiểu số, ADASYN chỉ thực hiện
trên lớp con bao gồm các mẫu dương tính được bao quanh bởi nhiều mẫu âm tính.
Ý tưởng chính của ADASYN là cung cấp thêm thông tin về các mẫu dương tính
mà các bộ phân loại quá khó để học [22]. Tuy nhiên, ADASYN không hạn chế
vấn đề chồng chéo của SMOTE.
Cách tiếp cận thứ ba là sự kết hợp giữa phương thức mức dữ liệu và bộ phân loại tập
hợp. Ban đầu, một kỹ thuật cụ thể của cách tiếp cận cấp dữ liệu được sử dụng để cân
bằng lại dữ liệu huấn luyện. Trong một số trường hợp, một số kỹ thuật lấy mẫu lại được
kết hợp để nâng cao hiệu quả của các phân loại sau áp dụng [18]. Một số nghiên cứu về
phân loại đã sử dụng cách tiếp cận này và thu được kết quả tốt hơn so với tập hợp mà
không giải quyết được vấn đề mất cân bằng, chẳng hạn như SMOTEBoost [9];
RUSBoost [33]; SMOTEBagging [35]; UnderOverBagging [39]. Tuy nhiên, cách tiếp
cận thứ ba vẫn chưa chú ý đến việc chấm điểm tín dụng.
3. The proposed ensemble model for credit scoring
3.1. The proposed algorithms
Sự kết hợp giữa phương pháp cấp dữ liệu và mô hình tập hợp là ý tưởng cho bộ
phân loại tập hợp được đề xuất, được gọi là tập hợp cây quyết định (DTE). DT, một bộ
phân loại yếu, được chọn làm bộ học cơ sở của DTE để giảm bớt gánh nặng cho quá trình
tính toán của tập hợp. Hơn nữa, DT có thể chỉ ra tầm quan trọng của các tính năng đầu
vào. Nói tóm lại, DTE dự kiến sẽ đáp ứng hai yêu cầu của mô hình chấm điểm tín dụng.
DTE bao gồm các phân loại phụ B là các mô hình DT được đào tạo trên các tập dữ
liệu huấn luyện cân bằng B với số lượng khác nhau. Phản hồi dự đoán cuối cùng là kết
quả phổ biến nhất của phân loại phụ B. Vì thuận tiện, DTE(B) được ký hiệu là DTE với
B phân loại phụ.
Có hai giai đoạn của quá trình tính toán DTE(B), bao gồm (i) cân bằng dữ liệu và
(ii) xây dựng các phân loại con. Trong giai đoạn đầu tiên, ROS và RUS được kết hợp để
tạo tập dữ liệu huấn luyện cân bằng B với số lượng khác nhau. Trong giai đoạn thứ hai,
DT được áp dụng trên các tập dữ liệu cân bằng B để lấy các mô hình con B. Hai giai đoạn
của DTE(B) được thực hiện dựa trên thuật toán OUS(B) và thuật toán DTE(B).
3.1.1. Algorithm for balancing data - OUS(B) algorithm
Với tập dữ liệu huấn luyện S, D là sự khác biệt về số lượng của lớp đa số và thiểu
D× i
số của S. Với B đã cho, nhân đôi ngẫu nhiên các mẫu dương tính và loại bỏ ngẫu
B
nhiên các mẫu âm tính cho đến khi nhận được dữ liệu cân bằng S i (i = 1, .., B). Khi i thay
đổi từ 1 đến B thì tập Si không những cân bằng mà còn có các đại lượng khác với các tập
còn lại. Điều đó tạo nên sự đa dạng của các phân loại con của DTE(B) và ngăn chặn mô
hình khớp quá mức. Thuật toán OUS(B) được mô tả trong Bảng 1.
Trên hai tập dữ liệu của Việt Nam, quá trình này được lặp lại với nhiều giá trị của B để
xác định bộ phân loại DTE(B*) theo thời gian. Sau đó, DTE(B*) được thử nghiệm trên
một số bộ dữ liệu phổ biến để so sánh các biện pháp đo lường hiệu suất với Bagging, RF
và AdaBoost có và không có các kỹ thuật lấy mẫu lại thông thường. Trong phần so sánh,
có một số thay đổi ở bước 2 và 3 của quá trình tính toán DTE(B).
- Bước 2’: Dữ liệu huấn luyện được cân bằng bằng một trong các kỹ thuật lấy mẫu
lại RUS, ROS, SMOTE hoặc ADASYN.
- Bước 3’: Áp dụng một trong các bộ phân loại, Bagging, RF hoặc Adaboost cho dữ
liệu huấn luyện cân bằng.
Để có được những đánh giá chắc chắn, trên mỗi tập dữ liệu, quá trình tính toán của các bộ
phân loại được xem xét được thực hiện 50 lần. Sau đó, các phép so sánh dựa trên giá trị
trung bình của các phép đo hiệu suất trong 50 lần.
3.2.2. Data sets for empirical study
Bốn bộ dữ liệu tín chỉ tiếng Đức (GER), tiếng Đài Loan (TAI), tiếng Việt 1 (VN1)
và tiếng Việt 2 (VN2) được sử dụng trong nghiên cứu thực nghiệm.
VN1 và VN2 được sử dụng để xây dựng tổ hợp DTE(B*) tối ưu được đề xuất.
Chúng tôi chỉ có thể truy cập thông tin rất cơ bản về khách hàng tín dụng tại các ngân
hàng Việt Nam vì các vấn đề bảo mật tại Việt Nam. Vì lý do đó, tất cả các đặc trưng
trong VN1 và VN2 đều ở dạng danh nghĩa. Các thuộc tính như lãi suất, kỳ hạn, thời hạn,
số tiền vay, giới tính khách hàng, mục đích vay, tài sản đảm bảo, dư nợ gốc, dư nợ hiện
tại, loại khách hàng, loại sản phẩm, lịch sử tín dụng của khách hàng, chi nhánh ngân
hàng... Bên cạnh đó , tình trạng mất cân đối của VN1 và VN2 khá cao, đặc biệt là VN2.
Những đặc điểm này làm cho bộ dữ liệu của Việt Nam khác với các bộ dữ liệu khác.
GER và TAI được công khai trên các kho chấm điểm tín dụng. Chúng là các bộ dữ
liệu xác thực để so sánh DTE(B*) với các bộ phân loại tập hợp phổ biến, chẳng hạn như
Bagging, RF và AdaBoost có và không có các kỹ thuật lấy mẫu lại thông thường. Chi tiết
của bộ dữ liệu là được mô tả trong Bảng 4.