You are on page 1of 10

QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

Mô hình chấm điểm tín dụng dựa trên sự kết hợp


giữa mô hình Cây quyết định, Logit, K láng giềng
gần nhất và Mạng thần kinh nhân tạo

Nguyễn Tiến Hưng


Lê Thị Huyền Trang

Ngày nhận: 03/06/2018 Ngày nhận bản sửa: 06/06/2018 Ngày duyệt đăng: 18/06/2018

Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn
đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm
trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam.
Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại
các nước phát triển được tiến hành nhằm nâng cao tính chính xác
của các mô hình chấm điểm tín dụng. Tuy nhiên, tại Việt Nam chưa
có nhiều nghiên cứu về lĩnh vực này. Các nghiên cứu chủ yếu sử dụng
các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA).
Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết
định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo
(ANN). Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả
của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu
hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính
xác cho các mô hình chấm điểm tín dụng.
Từ khóa: Chấm điểm tín dụng, Cây quyết định, K láng giềng gần
nhất, Mạng thần kinh nhân tạo

1. Giới thiệu số lượng tiền là bao nhiêu và họ cần phải xây


dựng những chiến lược gì để gia tăng được lợi
hấm điểm tín dụng được hiểu nhuận trong khi vẫn quản lý hiệu quả các rủi ro
một cách rộng rãi là việc đánh đi kèm. Việc xây dựng được một công cụ chấm
giá rủi ro tiềm tàng của các đối điểm hiệu quả đem lại rất nhiều lợi ích cho các
tượng đi vay theo một thang TCTD:
điểm nhất định. Mô hình chấm ○○ Cải thiện dòng vốn
điểm tín dụng là một công cụ giúp cho nhà ○○ Bảo đảm tài sản thế chấp là phù hợp
quản trị biết được khi nào họ nên cho vay, với ○○ Giảm các khoản lỗ tín dụng

© Học viện Ngân hàng Tạp chí Khoa học & Đào tạo Ngân hàng
ISSN 1859 - 011X 46 Số 193- Tháng 6. 2018
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

○○ Giảm chi phí phân tích tín dụng hợp hiệu quả đã được tìm ra, tuy nhiên càng
○○ Giảm thời gian đưa ra quyết định cấp tín kết hợp nhiều kỹ thuật thì việc giải thích sự tác
dụng động giữa các dữ liệu đầu vào đến kết quả điểm
○○ Đa dạng hoá các sản phẩm tín dụng theo các được chấm càng khó khăn. Bài nghiên cứu sẽ
phân cấp rủi ro khác nhau xây dựng, đánh giá hiệu quả của mô hình kết
○○ Hiểu được hành vi của khách hàng. hợp các mô hình DT_LR, DT_KNN, DT_ANN,
Chấm điểm tín dụng đo lường định lượng rủi ro nhằm tăng cường độ chính xác cho các mô hình
tiềm tàng của khách hàng bằng cách phân tích chấm điểm tín dụng.
dữ liệu cá nhân để tìm ra khả năng vỡ nợ của họ
với khoản vay trong tương lai. Hoạt động này 2. Các mô hình xếp hạng tín dụng
cũng có thể được hiểu như là một kỹ thuật khai
phá dữ liệu, tìm kiếm các quy luật của các dữ 2.1. Mô hình Logit
liệu lịch sử và áp dụng đưa ra quyết định cấp
tín dụng cho các khách hàng trong tương lai. Mô hình Logit là mô hình hồi quy với biến phụ
Các kĩ thuật khai phá dữ liệu sử dụng trong lĩnh thuộc (Y) là biến nhị phân, chỉ nhận hai giá trị
vực chấm điểm tín dụng được phát minh từ thập là 0 và 1; các biến độc lập có thể là biến nhị
niên 50 thế kỉ trước (Lando, 2004). Đến nay, đã phân, biến rời rạc hoặc biến liên tục. Trong mô
có rất nhiều các kĩ thuật được phát triển và ứng hình xếp hạng tín dụng, biến phụ thuộc Y nhận
dụng, trong đó phổ biến nhất phải kể đến các giá trị 0 khi khách hàng không trả được nợ và
kĩ thuật như: Phân tích phân biệt (DA), logit, 1 khi khách hàng trả được nợ (Lee và cộng sự,
K láng giềng gần nhất, mạng thần kinh nhân 2000). Các biến độc lập đại diện cho các thông
tạo (ANN) (Thomas và cộng sự, 2009; Abdou, tin định tính và định lượng của khách hàng như
2011). Sự bùng nổ của công nghệ thông tin 4.0 thu nhập, độ tuổi, giới tính, trình độ học vấn...
cùng với sự phát triển của trí tuệ thông minh, Sau khi hồi quy mô hình Logit, thu được Ŷ = α
thì việc tập trung vào khai phá dữ liệu sử dụng + β1X1 + β2X2 + ... + βkXk là giá trị ước lượng
các kỹ thuật trí tuệ nhân tạo đang là xu hướng của Y. Khi đó, xác suất trả nợ của khách hàng
trong lĩnh vực chấm điểm tín dụng. được tính bằng công thức sau:
Bên cạnh sự phát triển của các kĩ thuật phân P = 1/ (1 + e−Y)
loại đơn lẻ, đã có nhiều nghiên cứu tiến hành Giá trị P nhận được trong khoảng (0,1) được
đánh giá hiệu quả của việc kết hợp các thuật so sánh với các ngưỡng mà ngân hàng đặt ra
toán đơn lẻ nhằm tối đa hoá khả năng dự báo để xếp hạng khách hàng. Tuy nhiên, trong bài
trong các mô hình chấm điểm tín dụng. Một số nghiên cứu này, để dễ dàng hơn trong việc so
nghiên cứu của Kim và cộng sự (2001), Ahn và sánh hiệu quả của các mô hình, giá trị ngưỡng
cộng sự (2009), Luo và cộng sự (2009) đề cập để phân loại khách hàng được chọn là 0,5. Điều
đến việc sử dụng các kĩ thuật phân loại dữ liệu này có nghĩa rằng nếu giá trị P < 0,5, khách
như Seft-Organzing Map (SOM), thuật toán hàng sẽ được dự báo vỡ nợ, và ngược lại nếu P
di truyền (GA), thuật toán phân
nhóm (K-MC), sau đó sử dụng
dữ liệu mới này cho các mô hình Hình 1. Cây quyết định (Decision tree)
chấm điểm như phân tích phân biệt
(DA), Logit (LR), K-NN, ANN.
Một số nghiên cứu khác của Lee
và cộng sự (2005), Li và cộng sự
(2010) kết hợp các kĩ thuật phân
loại, trong đó kết quả dự báo của
kĩ thuật này sẽ được sử dụng như
là một nhân tố đầu vào cho kĩ thuật
khác. Đã có rất nhiều cách kết
Nguồn: Abdou. (2011)

Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018 47
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

≥ 0,5, khách hàng sẽ được dự báo trả được nợ. 2.3. K Láng giềng gần nhất (K-Nearest
Neighbor- KNN)
2.2. Cây quyết định (Decision Tree- DT)
KNN là phương pháp học máy để phân lớp các
Cây quyết định (DT) là một kiểu mô hình phân đối tượng dựa vào khoảng cách gần nhất giữa
lớp các quan sát dựa vào dãy các luật. Mô hình đối tượng cần xếp lớp và tất cả các đối tượng
này bao gồm một nút gốc (Root node), các nút trong dữ liệu huấn luyện. Lớp của một điểm dữ
bên trong (Internal node) và nút lá (Leaf node). liệu mới (hay phân loại khách hàng) được suy
Mỗi một nút trong DT tương ứng với một biến; ra trực tiếp từ K điểm dữ liệu gần nhất trong
đường nối giữa nó với nút con của nó thể hiện dữ liệu huấn luyện. Lớp này có thể được quyết
một giá trị cụ thể cho biến đó (đây chính là điều định theo lớp có số lượng điểm (trong K điểm
kiện hay luật để phân nhánh cho mỗi node). gần nhất) nhiều nhất.
Mỗi nút lá đại diện cho giá trị dự đoán của biến Từ Hình 2 có thể thấy, nếu chọn số điểm gần
mục tiêu; các giá trị cho trước của các biến nhất để phân loại là 3 thì xung quanh điểm cần
được biểu diễn bởi đường đi từ nút gốc tới nút phân lớp có 3 điểm trong đó 1 điểm thuộc lớp 1
lá đó (Hình 1). và 2 điểm thuộc lớp 2. Với số điểm thuộc lớp 2
Cây quyết định được xây dựng bằng cách phân nhiều hơn, điểm cần phân lớp được đưa vào lớp
tách thuộc tính các giá trị tại mỗi nút dựa trên số 1. Tương tự như vậy, nếu lựa chọn số điểm
một thuộc tính đầu vào. Quá trình phân lớp sử gần nhất k=5 thì có năm điểm xung quanh điểm
dụng các thuộc tính phân tách được thực hiện cần phân lớp, trong đó có 3 điểm thuộc lớp số 1
liên tục cho tới khi gặp các nút lá (giá trị mục và 2 điểm thuộc lớp 2. Nếu theo dữ liệu này thì
tiêu). Tập hợp các luật đường đi từ nút gốc tới điểm cần phân lớp sẽ thuộc lớp số 1.
nút lá sẽ xác định cho chúng ta các luật quyết Trên thực tế dữ liệu cần phân loại có nhiều
định mà hàm mục tiêu trả về giá trị là mức độ thuộc tính trong đó mỗi thuộc tính tương ứng
rủi ro tương ứng với khách hàng. với một chiều không gian, do vậy khi tính
DT là một phương pháp phân lớp rất hiệu quả khoảng cách gần nhất cần tính khoảng cách
và dễ hiểu. Tuy nhiên, hiệu quả phân lớp của vector trong không gian đa chiều với công thức
cây quyết định phụ thuộc rất lớn vào dữ liệu khoảng cách Euclidean:
huấn luyện (training data). Do vậy, việc sử
dụng một bộ dữ liệu lớn về lịch sử vay nợ của
khách hàng là rất cần thiết để xây dựng mô hình
DT đáng tin cậy.

Hình 2. K Láng giềng gần nhất (K-Nearest neighbor- KNN)

Nguồn: Marinakis và cộng sự (2008)

48 Số 193- Tháng 6. 2018 Tạp chí Khoa học & Đào tạo Ngân hàng
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

Hình 3. Cơ chế hoạt động nơ ron nhân tạo (node)

Nguồn: Lee và cộng sự (2000)

Trong đó: x, y là 2 điểm cần xác định khoảng trở thành 1 đầu vào duy nhất. Tại các node sẽ
cách; n là số chiều không gian (số thuộc tính có các hàm kích hoạt để tính toán các kết quả
của biến mục tiêu). đầu ra. Trong nghiên cứu này, để có sự tương
đồng với mô hình logit, hàm kích hoạt sigmoid
2.4. Mô hình Mạng Nơ ron nhân tạo (ANN) sẽ được dùng để xây dựng mô hình ANN. Hàm

Nơ ron nhân tạo Hình 4. Mô hình mạng nơ ron đa lớp truyền thẳng
Ý tưởng về mạng nơ ron nhân tạo (MLP)
(ANN) được hình thành từ những quan
sát bộ não con người với chức năng cơ
bản là tiếp nhận thông tin, xử lý thông
tin và đưa ra kết quả. Cụ thể, bộ não
được cấu thành từ các nơ ron liên kết
với nhau. Mỗi nơ ron tiếp nhận thông
tin đầu vào, xử lý và xuất thông tin đầu
ra. Vì các nơ ron có sự liên kết phức tạp
với nhau nên thông tin đầu ra của nơ
ron này sẽ là thông tin đầu vào của nơ
ron khác. Đến khi các thông tin được
xử lý thỏa mãn theo các yêu cầu thì não
bộ sẽ ngừng quá trình này lại và đưa ra
kết quả cuối cùng.
Sự tương tác phức tạp của hàng tỉ nơ
ron được mô hình hóa thành các mô
hình nơ ron nhân tạo (ANN). Về cơ
bản, ANN cấu tạo bởi các nơ ron nhân
tạo hay còn được gọi là các “node”.
Hình 3 mô tả cơ chế hoạt động của một
node.
Các biến số sẽ được các node tiếp nhận
theo các trọng số khác nhau thể hiện
sự quan trọng của các nhân tố đầu vào
này. Các biến số đầu vào sau khi nhân
với các trọng số sẽ được lấy tổng để
Nguồn: Lee và cộng sự (2005)

Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018 49
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

sigmoid được mô tả bởi công thức S(x) = 1/ bộ dữ liệu. Sau mỗi lần huấn luyện mạng sai số
(1- ), do đó, với mọi giá trị đầu vào x nhận giá sẽ được lan truyền ngược lại và các trọng số sẽ
trị từ -∞ đến +∞ thì kết quả đầu ra nằm trong được điều chỉnh để giảm sai số. Quá trình huấn
khoảng (0,1) luyện sẽ dừng lại khi khi mạng đạt được sai số
nhỏ nhất, hay nói cách khác, mạng MLP đạt
Mạng Nơ ron nhân tạo được cấu trúc hợp lý nhất để hiểu về bộ dữ liệu.
Một mạng nơ ron đầy đủ bao gồm 3 lớp với tên
gọi lớp đầu vào (input layer), lớp ẩn (hidden 3. Đề xuất Mô hình kết hợp
layer) và lớp đầu ra (output layer). Trong đó
một mạng nơ ron có thể có nhiều hơn một lớp Phương pháp kết hợp này dùng để cải thiện
ẩn, tuy nhiên, Lee và cộng sự (2005) chỉ ra rằng hiệu suất và độ chính xác phân loại. Hệ thống
mạng nơ ron một lớp ẩn có thể giải quyết hầu phân loại được chia làm nhiều lớp dựa trên sự
hết các bộ số liệu kinh tế phức tạp. Mỗi lớp kết hợp của hai hay nhiều các mô hình phân
được cấu tạo từ một cho đến nhiều node. Trong loại để đạt được hiệu suất cao hơn. Mục tiêu
lịch sử phát triển của mạng nơ ron nhân tạo, của các mô hình kết hợp là sẽ điều chỉnh các
nhiều kiểu kiến trúc mạng quy định kết nối giữa tập dữ liệu huấn luyện, xây dựng các tập dữ liệu
các node được hình thành, tuy nhiên, bài nghiên đào tạo mới trong đó có sử dụng được kết quả
cứu sử dụng mạng nơ ron truyền thẳng đa lớp (thế mạnh dự báo) của các mô hình khác. Nhiều
(MLP), một trong những mạng được sử dụng nghiên cứu chỉ ra rằng dữ liệu huấn luyện có
phổ biến và đem lại hiệu quả cao nhất. thể không cung cấp đủ thông tin để lựa chọn
Cấu trúc của mạng truyền thẳng đa lớp được một mô hình phân loại tốt nhất. Việc sử dụng
mô tả trong Hình 4. Số lượng node trong một các mô hình phân loại kết hợp có thể bù trừ
lớp và số lượng lớp phụ thuộc vào sự phức tạp giảm thiểu những hạn chế của các mô hình đơn
của cơ sở dữ liệu đầu vào và yêu cầu xử lý. Các lẻ.
node của lớp trước sẽ được truyền thẳng và kết Một số nghiên cứu trước đây của Peter và cộng
nối tới tất cả node của lớp sau. Thông tin lan sự (2015), Radall (2017) đã tiến hành kết hợp
truyền trong mạng sẽ được gắn với các trọng số mô hình DT và mô hình mạng ANN. Sự kết hợp
khác nhau. này được đánh giá là hiệu quả khi hai mô hình
Các trọng số được ước lượng bằng thuật được kết hợp có chung khả năng là xử lý khối
toán lan truyền ngược (Back-Propagation lượng dữ liệu lớn. Mô hình DT với ưu điểm là
alogorithm), lần đầu tiên được giới thiệu bởi khả năng giải thích biến rõ ràng giúp cải thiện
Rumelhart và cộng sự (1986). Thuật toán này khả năng giải thích của mô hình chấm điểm tín
điều chỉnh liên tục các trọng số của các kết nối dụng khi kết hợp với các mô hình “hộp đen”
trong mạng để tối thiểu hóa sự khác biệt giữa như ANN.
giá trị đầu ra ước lượng và giá trị đầu ra thực Mô hình đề xuất trong bài nghiên cứu là sự
tế, quá trình này còn được gọi là quá trình huấn kết hợp giữa mô hình DT và các mô hình LR,
luyện mạng. Cụ thể, trong giai đoạn đầu tiên KNN, ANN nhằm so sánh hiệu quả giữa mô
khi hình thành mạng MLP, các trọng số được hình kết hợp với các kĩ thuật hiện đại và truyền
khởi tạo ngẫu nhiên. Các giá trị đầu ra của thống. Quy trình kết hợp được mô tả trong Hình
mạng được thiết lập thông qua giá trị bộ giữ 5, trong đó mô hình DT được thiết lập dựa trên
liệu đầu vào. Sự chênh lệch giữa giá trị đầu ra bộ dữ liệu nghiên cứu. Kết quả từ mô hình DT
ước lượng và đầu ra thực tế, hay còn gọi là sai bao gồm dự báo về phân loại khách hàng và xác
số của mạng được xác định bởi công thức: xuất rủi ro được xem như 2 biến mới để kết hợp
với bộ dữ liệu đã có làm nhân tố đầu vào cho
các mô hình được kết hợp cùng.

Trong đó f(Xi) là ước lượng đầu ra thứ i, Yj là 4. Dữ liệu nghiên cứu


giá trị đầu ra thực tế và p là số trường hợp trong

50 Số 193- Tháng 6. 2018 Tạp chí Khoa học & Đào tạo Ngân hàng
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

Hình 5. Cấu trúc của mô hình kết hợp

Nguồn: Tác giả đề xuất

Bài nghiên cứu sử dụng dữ liệu thông tin về ý rằng, nợ xấu và nợ tốt trong bài nghiên cứu
các khoản vay tiêu dùng và kinh doanh cá nhân này có sự khác biệt với nợ đủ tiêu chuẩn và nợ
được trích xuất trực tiếp từ cơ sở dữ liệu tại một xấu theo quy định phân loại nợ của Ngân hàng
ngân hàng thương mại Nhà nước trong khoảng Nhà nước Việt Nam, và những tỉ lệ này không
thời gian từ năm 2009 đến 2014. Sau khi loại đại diện cho tỉ lệ nợ xấu và nợ đủ tiêu chuẩn
bỏ các trường hợp thiếu sót và cân nhắc giữa số của toàn bộ hệ thống ngân hàng mà tác giả
lượng đặc điểm khách hàng và số lượng khách nghiên cứu.
hàng, bộ dữ liệu cuối cùng được sử dụng bao Bảng 1 mô tả về các dữ liệu khách hàng được
gồm thông tin về 15.470 khách hàng cá nhân đưa vào xây dựng mô hình chấm điểm tín dụng,
với 19 đặc điểm (trong đó 18 đặc điểm được ký mỗi đặc tính được phân chia thành các nhóm
hiệu thành các biến từ x1 đến x18, đặc điểm thứ với tỉ trọng từng nhóm. Bảng thống kê cho thấy
19 là tình trạng nợ, tương ứng với cột “Tỷ lệ”- cơ sở dữ liệu có sự đa dạng về thông tin khách
Bảng 1). hàng và phù hợp trong việc xây dựng các mô
Các khoản nợ cá nhân được phân loại thành hình xếp hạng tín dụng.
12.118 khoản nợ tốt (hoàn trả trong hạn hoặc
thời gian quá hạn dưới 90 ngày) chiếm tỉ trọng 5. Kết quả nghiên cứu
78,3% và 3.352 khoản nợ xấu (quá hạn từ 90
ngày trở lên) chiếm tỉ trọng 21,7%. Có một lưu 5.1. Kết quả của các mô hình đơn lẻ

Bảng 1. Mô tả dữ liệu
Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm
Đặc điểm khách Tỉ lệ Tỉ lệ Tỉ lệ Tỉ lệ
Nhóm Nhóm Nhóm Nhóm
hàng (%) (%) (%) (%)
Tuổi (X1) 0 đến 30 6,90 30 đến 45 49,60 45 đến 60 40,20 Trên 60 3,30
Giới tính (X2) Nữ 30,30 Nam 67,90

Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018 51
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm


Đặc điểm khách Tỉ lệ Tỉ lệ Tỉ lệ Tỉ lệ
Nhóm Nhóm Nhóm Nhóm
hàng (%) (%) (%) (%)
Dưới trung Trung cấp,
Trình độ (X3) 34,40 Trung học 35,30 30,30
học và trên
Sở hữu nhà (X4) không 4,50 có 95,50
Người phụ thuộc (X5) 0 đến 1 35,20 Trên 1 64,80
Đã có gia
Hôn nhân (X6) Độc thân 8,80 91,20
đình
Quan hệ với gia đình
Xấu 2,10 Tốt 97,90
(X7)
Năm làm việc (X8) 0 đến 5 8,80 5 đến 10 15,90 Trên 10 75,30
Lao động Lao động Văn phòng,
Nghề nghiệp (X9) 16,80 52,50 30,70
không đào tạo được đào tạo CNVC
Bảo hiểm nhân thọ
Không 90,90 Có 9,10
(X10)
Thu nhập hàng tháng
0 đến 3,5 11,30 3,5 đến 10 39,90 Trên 10 48,70
(X11) (triệu VND)
Tài khoản thanh toán
Không 46,40 Có 53,60
(X12)
Tài khoản tiết kiệm
Không 95,30 Có 4,70
(X13)
Đặc điểm khoản vay
Lãi suất (X14) Thấp 4,90 Cao 95,10
Thời hạn (X15) (ngày) 0 đến 185 36,40 185 đến 365 41,00 Trên 365 22,60
Giá trị khoản vay (X16) 0 đến 50 37,10 50 đến 100 22,60 100 đến 200 18,30 Trên 200 22,00
Mục đích vay (X17) Tiêu dùng 9,00 Kinh doanh 91,00
Phương thức trả (X18) Một lần 78,40 Từng phần 21,60
Tình trạng nợ (X19) Nợ xấu 21,7 Nợ tốt 78,3

Để đảm bảo độ tin cậy và tính đại diện của các hình ANN có độ chính xác cao nhất khi phân
kết quả phân loại, các mô hình được thực hiện loại các khoản nợ xấu với tỷ lệ phân loại đúng
lặp lại 10 lần và kết quả phân loại cuối cùng 52,47% trong khi mô hình KNN kém hiệu quả
là trung bình kết quả của các lần chạy trước. nhất khi chỉ phân loại đúng được 36,28% các
Kết quả của các mô hình đơn lẻ cho thấy mô khoản nợ xấu. Đối với các khoản nợ tốt thì

Bảng 2. Kết quả phân loại của các mô hình đơn lẻ


Mô Mẫu huấn luyện (30%) Mẫu kiểm tra (70%) Tổng thể
hình CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể%
DT 37,60 89,49 78,24 38,91 87,42 76,90 38,52 88,04 77,31
LR 39,50 92,94 81,36 38,89 93,94 82,01 39,07 93,64 81,81
KNN 35,54 97,94 84,42 36,59 96,83 83,78 36,28 97,16 83,97
ANN 51,97 94,33 85,15 52,69 94,02 85,06 52,47 94,11 85,09
Ghi chú: CCB%: Tỷ lệ phân loại đúng các khoản nợ xấu; CCG%: Tỷ lệ phân loại đúng các khoản nợ tốt
Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions

52 Số 193- Tháng 6. 2018 Tạp chí Khoa học & Đào tạo Ngân hàng
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

Bảng 3. Kết quả phân loại của các mô hình kết hợp
Mô hình Mẫu huấn luyện (30%) Mẫu kiểm tra (70%) Tổng thể
CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể%
DT_LR 51,45 90,04 81,67 49,97 91,34 82,38 50,41 91,34 82,17
DT_KNN 45,54 96,54 85,49 46,49 95,87 85,17 46,21 95,87 85,27
DT_ANN 60,23 95,03 87,49 61,83 95,45 88,17 61,35 95,32 87,96
Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions

mô hình được coi là hiệu quả nhất là KNN với So với nhiều nước phát triển, hoạt động chấm
97,16% khoản nợ loại này được phân loại chính điểm tín dụng tại Việt Nam chưa nhận được
xác. nhiều sự quan tâm nghiên cứu. Những mô hình
truyền thống đang được sử dụng phổ biến tại
5.2. Kết quả các mô hình kết hợp các ngân hàng thương mại là mô hình chuyên
gia dựa trên kinh nghiệm và một số mô hình cổ
Kết quả phân loại tổng thể cho thấy rõ rằng điển như LDA, LR. Việc nghiên cứu áp dụng
phương pháp kết hợp đem lại kết quả dự báo tốt các mô hình mới là cần thiết để nâng cao tính
hơn với cả 3 mô hình (Bảng 4). Trong khi mô chính xác, độ tin cậy, tính khách quan khi ra
hình kết hợp DT_ANN cho thấy có sự cải thiện quyết định cho vay.
trong cả kết quả phân loại các khoản nợ xấu và Bài nghiên cứu đã đề cập đến một hướng đi
nợ tốt, thì đối với mô hình DT_LR và DT_KNN mới đang được nhiều học giả quan tâm, đó là
hiệu phân loại nợ xấu và nợ tốt thay đổi theo kết hợp các kĩ thuật thống kê hiện đại nhằm
hai xu hướng ngược nhau. Tỷ lệ phân loại nợ phát huy tối đa khả năng khai phá dữ liệu của
xấu đúng tăng từ 8-11% cho cả ba mô hình kết những công cụ này để thiết lập một mô hình
hợp trong khi tỷ lệ phân loại nợ tốt đúng giảm chấm điểm tín dụng tốt nhất. Kết quả nghiên
nhẹ từ 1-2% với mô hình DT_LR và DT_KNN. cứu thực nghiệm dựa trên cơ sở dữ liệu 15.470
Trên thực tế, việc cải thiện khả năng dự báo các khách hàng cá nhân chỉ ra rằng, các mô hình
khoản nợ xấu đúng đem lại lợi ích lớn cho các kết hợp có khả năng phân loại nợ tốt hơn các
ngân hàng khi so sánh với việc dự báo đúng các mô hình đơn lẻ, đặc biệt về khả năng phân loại
khoản nợ tốt. Quan sát tình trạng vay nợ của nợ xấu. Kết quả cũng chỉ ra rằng mô hình kết
khách hàng cho thấy thiệt hại đến từ các khoản hợp DT_ANN có hiệu qủa phân loại tốt nhất và
nợ xấu thường cao hơn nhiều lần lợi nhuận của sự kết hợp này làm tăng độ chính xác đối với cả
một khoản nợ tốt mang lại. Đặc biệt trong bối chức năng phân loại nợ xấu và nợ tốt.
cảnh hiện nay khi mà các hệ thống ngân hàng Đối với các TCTD khi áp dụng mô hình
đang tập trung vào hoạt động quản trị rủi ro, DT_ANN này cần phải có cơ sở dữ liệu lịch sử
giảm thiểu nợ xấu thì việc dự báo các khoản nợ khách hàng vay lớn, đa dạng và trong khoảng
xấu sẽ có ý nghĩa cấp thiết hơn. thời gian dài. Với sự bùng nổ của cách mạng
4.0 thì các gói dữ liệu lớn về khách hàng đang
6. Kết luận được chia sẻ thường xuyên giữa nhiều TCTD,

Bảng 4. So sánh kết quả phân loại giữa mô hình đơn lẻ và mô hình kết hợp
Mô Mô hình đơn lẻ Mô hình kết hợp Chênh lệch sau kết hợp
hình CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể%
LR 39,07 93,64 81,81 50,41 91,34 82,17 11,34 -2,3 0,36
KNN 36,28 97,16 83,97 46,21 95,87 85,27 9,93 -1,29 1,3
ANN 52,47 94,11 85,09 61,35 95,32 87,96 8,88 1,21 2,87
Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions

Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018 53
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP

đây là cơ hội để xây dựng các mô hình chấm nhiên, khi sử dụng những kĩ thuật này sẽ gặp
điểm tín dụng sử dụng các kĩ thuật khai phá dữ phải một số khó khăn liên quan đến việc giải
liệu hiện đại như học máy, trí tuệ nhân tạo. Tuy
xem tiếp trang 75

Tài liệu tham khảo


1. Abdou, H. ; & Pointon, J. (2011). Credit Scoring, Statistical Techniques and Evaluation Criteria: A Review of the Literature.
Intelligent Systems in Accounting, Finance & Management, 59-88.
2. Ahn, H.; Kim, K.-J. (2009). Bankruptcy prediction modeling with hybrid case-based reasoning and genetic algorithms
approach. Appl. Soft Comput. 9, 599–607.
3. Kim, K.S.; Han, I. (2001). The cluster-indexing method for case based reasoning using self-organizing maps and learning
vector quantization for bond rating cases. Expert Syst, 147–156.
4. Lando, D. (2004). Credit risk modeling: Theory and applications, Princeton Series in Finance; Princeton University Press:
Princeton, NJ, USA.
5. Lee, T. H.; Jung, S. (2000). Forecasting creditworthiness: Logistic vs. artificial neural net. The Journal of Business
Forecasting Methods and Systems 18: 28–30
6. Lee, T.S.; Chen, I.F. (2005). A two-stage hybrid credit scoring model using artificial neural networks and multivariate
adaptive regression splines. Expert Syst, 743–752.
7. Li, J.; Wei, L.; Li, G.; Xu, W. (2011). An evolution strategy-based multiple kernels multi-criteria programming approach: The
case of credit decision making. Decis. Support Syst, 292–298.
8. Luo, S.-T.; Cheng, B.-W.; Hsieh, C.-H. (2009). Prediction model building with clustering-launched classification and support
vector machines in credit scoring. Expert Syst,7562–7566.
9. Marinakis, Y.; Marinaki, M.; Doumpos, M.; and Matsatsinis, N. (2008). Constantin Zopounidis, Optimization of nearest
neighbor classifiers via metaheuristic algorithms for credit risk assessment. Journal of Global Optimization 42(2), 279-293.
10. Peter, K.; Madalina, F.; Antonio, C.; Samuel, R. (2015) Deep neural decision forests. In IEEE International Conference on
Computer Vision, 1467–1475.
11. Rumelhart, D.; Hinton, G.; & Williams, R. (1986). Learning representations by back-propagating errors. Nature, 533-536.
12. Radall, B (2017). Neural Decision Trees; https://arxiv.org/pdf/1702.07360.pdf
13. Thomas, L.C.; Edelman, D.B.; Crook, J.N. (2002). Credit Scoring and its Applications, SIAM; Monographs on Mathematical
Modeling and Computation; SIAM: Philadelphia, PA, USA.

Thông tin tác giả


Nguyễn Tiến Hưng, Thạc sỹ
Phòng Thanh tra- Quản lý chất lượng, Học viện Ngân hàng
Email: hungnguyen@hvnh.edu.vn
Lê Thị Huyền Trang, Thạc sỹ
Khoa Quản trị kinh doanh, Học viện Ngân hàng
Email: tranglth@hvnh.edu.vn

Summary
Credit scoring model based on Decision tree, Logit, K-nearest neighbor and neural network
Credit scoring models have been widely studied in academic world and the business community. Over the
last decades, there have been many studies in the field of credit conducted to improve the accuracy of credit
scoring models. However, in Vietnam, there is not much research in this field. Most of researchs uses traditional
techniques such as Logistic Regression (LR), discriminant analysis (DA), some others studies modern techniques
included decision tree (DT), K-nearest neighbor (KNN), Artificial neural network (ANN). In this paper, we propose
hybrid credit scoring models based on Decision Tree, Logistic Regression, K-nearest neighbor and artificial neural
network. The experimental results demonstrate that DT_MLP hybrid credit scoring models is the most effective
model.
Key- words: Credit scoring, Decision Tree, K-nearest neighbor, Artificial neural network.
Hung Tien Nguyen, MEc.
Head of Inspection and Education Quality Department, Banking Academy
Trang Thi Huyen Le, MEc.
Business Administration Faculty, Banking Academy

54 Số 193- Tháng 6. 2018 Tạp chí Khoa học & Đào tạo Ngân hàng
PHÁT TRIỂN NGUỒN NHÂN LỰC

and colleges and allows schools to be autonomous in developing enrollment plans. The number of candidates has
decreased over the years, while increasing enrollment targets of universities and colleges has created pressure
for universities and colleges to compete to improve quality, reputation, and job orientation in order to attract
candidates. The research was conducted to develop a model that illustrates the factors that determines the
choice of the BA’s undergraduate program of students. The results of multiple linear regression analyzed from
186 questionaire respondents of BA’s 1st year and 2nd year students show that the groups of factors that have
the significant impact in descending order are: Fixed Characteristics of the insitute, Communication Efforts of
the institue, Social influencers to the student’s choice of the institute, Individual Characteristics of the student.
Based on the obtained results, the research team proposes recommendations to improve the effectiveness of the
enrollment process for universities, colleges in general and for BA institute in particular.
Keywords: Factors, bachelor program, enrollment, Banking Academy of Vietnam.
Mai Ngoc Tran, MEc.
Faculty of International Business, Banking Academy
Huong Thi Thu Nguyen
Student of K18KDQTA, Faculty of International Business, Banking Academy
Linh Thuy Do
Student of K18KDQTA, Faculty of International Business, Banking Academy
liệu nhằm báo cáo mức lợi nhuận ổn định. Do
tiếp theo trang 36 đó, các nghiên cứu tương lai có thể phát triển
cho nhiều trường hợp khác nhau. Việc sử dụng các mô hình nghiên cứu nhằm tìm kếm bằng
tốt sẽ dẫn đến các giao dịch nhanh hơn, minh chứng bổ sung để có thể đưa ra kết luận về việc
bạch hơn. Giải pháp Blockchain cũng sẽ làm có NHTM có thực sự thao túng số liệu để ổn
giảm chi phí và gánh nặng hành chính đối với định lợi nhuận hay không, và các công cụ nào
ngân hàng và khách hàng. Ước tính rằng các hay ước tính kế toán nào có thể bị lợi dụng để
công nghệ Blockchain có thể làm giảm chi ổn định lợi nhuận. ■
phí cơ sở hạ tầng của ngân hàng khoảng 15-
20 tỷ USD một năm vào năm 2022- như tuyên tiếp theo trang 54
bố trong “FinTech 2.0 Paper” của Santander thích điểm tín dụng theo những đặc điểm của
InnoVentures. Blockchain cũng đặt ra thách khách hàng, bởi phần lớn cơ chế giải thích của
thức đòi hỏi tất cả các bên liên quan sẽ phải các kĩ thuật này rất phức tạp và vẫn còn nằm
tham gia hợp tác vào sự phát triển trong lĩnh trong “hộp đen”.
vực này, “sẽ cần phải có một tập thể chung” Những kết quả được đưa ra trong bài nghiên
giữa các ngân hàng, nhà quản lý và các công ty cứu có thể là cơ sở để mở ra các nghiên cứu,
công nghệ. Bên cạnh đó, thách thức về sự riêng đưa ra những phương pháp mới kết hợp các
tư, bảo mật, khả năng mở rộng… cũng là những kĩ thuật nhằm nâng cao hiệu quả các mô hình
vấn đề cần xem xét. Blockchain có thể là giải chấm điểm tín dụng. Ngoài việc xem xét kết
pháp công nghệ tiềm năng cho ngành tài chính quả của của các mô hình kết hợp thì việc giải
ngân hàng, tuy nhiên nó còn cần phải tiếp tục thích cơ chế tác động của các nhân tố đầu vào
được hoàn thiện, phát triển về công nghệ, giảm với nhân tố mục tiêu phân loại đối với các mô
thiểu chi phí khi áp dụng và khắc phục các vấn hình cũng cần được quan tâm nghiên cứu. ■
đề khác đang tồn tại. ■
tiếp theo trang 63
tiếp theo trang 44 kiệm, vay vốn với quy mô nhỏ, thời gian đáo
dụng hồi quy với biến giả (đã đề cập ở Phần hạn nhanh phù hợp hơn với nhóm khách hàng
1 của bài viết) để tìm kiếm bằng chứng thực này. Mặt khác, thủ tục, giấy tờ luôn là một rào
nghiệm về tác động của một số nhân tố đến cản lớn đối với người dân khi tiếp cận các dịch
mức độ điều chỉnh số liệu nhằm tránh báo cáo vụ tài chính tại nông thôn, điều này đã được đề
lỗ và ổn định lợi nhuận. Bên cạnh đó, các bằng cập trong nhiều nghiên cứu. Việc cải thiện thủ
chứng thực nghiệm trong nghiên cứu này cũng tục hành chính sẽ tăng khả năng tiếp cận dịch
cho thấy các NHTM có xu hướng điều chỉnh số vụ tài chính của khu vực nông thôn. ■

Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018 75

You might also like