You are on page 1of 50

ĐẠI HỌC KINH TẾ TP.

HCM
KHOA KẾ TOÁN

TIỂU LUẬN
MÔN: KHOA HỌC DỮ LIỆU
ĐỀ TÀI:“PHÂN TÍCH BỘ DỮ LIỆU TỔ CHỨC TÀI CHÍNH VÀ
TIẾN HÀNH DỰ BÁO XÉT DUYỆT HỒ SƠ VAY VỚI ORANGE”
Giảng viên hướng dẫn: Trương Việt Phương
Khóa: K48
Năm học: 2023
Mã lớp học phần: 23C1INF50905932
Nhóm sinh viên thực hiện:
1. Nguyễn Đức Minh: 31221020228
2. Lê Trần Phương Linh: 31221020559
3. Phan Ngọc Anh Thư: 31221026993
4. Lương Thị Mai Anh: 31221021082
5. Nguyễn Đoàn Thiên Kim: 31221020487
Thành phố Hồ Chí Minh, tháng 12 năm 2023
BẢN PHÂN CÔNG CÁC THÀNH VIÊN
STT HỌ TÊN NHIỆM VỤ ĐÁNH
GIÁ

1 Nguyễn Đức Minh Xử lí dữ liệu trên Orange, Tốt


Excel, Canva

2 Lê Trần Phương Linh Xử lí dữ liệu trên Orange, Tốt


Excel, Canva

3 Phan Ngọc Anh Thư Tìm bộ dữ liệu, Word, thuyết Tốt


trình

4 Lương Thị Mai Anh Cơ sở lý thuyết, Word, thuyết Tốt


trình

5 Nguyễn Đoàn Thiên Kim Tìm bộ dữ liệu, cơ sở lý thuyết, Tốt


nhận xét
MỤC LỤC
LỜI MỞ ĐẦU.......................................................................................................................................1
DANH MỤC ẢNH................................................................................................................................2
Tổng quan về khoa học dữ liệu và đề tài nghiên cứu.........................................................................3
1.1. Giới thiệu về KHDL:...........................................................................................................3
1.2. Giới thiệu về đề tài:..............................................................................................................3
1.2.1. Lý do chọn đề tài:.........................................................................................................3
1.2.2. Mục tiêu nghiên cứu:....................................................................................................4
CHƯƠNG 2:.........................................................................................................................................6
Tổng quan về chương trình Orange và các phương pháp sử dụng..................................................6
2.1. Tổng quan về phần mềm Orange:.......................................................................................6
2.2. Tổng quan về các phương pháp sử dụng:...........................................................................6
2.2.1. Tiền xử lý dữ liệu..........................................................................................................6
2.2.2. Phân lớp dữ liệu (Classification):................................................................................9
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT.......................................................................17
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN............................................................................................19
4.1. Tiền xử lý:...........................................................................................................................19
4.1.1. Làm sạch dữ liệu:........................................................................................................19
4.1.2. Loại bỏ các biến không phù hợp:...............................................................................21
4.2. Phân cụm:...........................................................................................................................23
4.2.1. Phương pháp Hierarchical clustering:......................................................................24
4.2.2. Phương pháp K-Means:.............................................................................................26
4.2.3. Tiến hành Đánh giá Ngoại hai phương pháp phân cụm:.........................................28
4.3. Phân lớp dữ liệu:.................................................................................................................34
4.3.1. Xây dựng mô hình:.....................................................................................................34
4.3.2. Đánh giá các mô hình:................................................................................................35
4.4. Dự báo:................................................................................................................................39
4.4.1. Lấy mẫu dự liệu:.........................................................................................................39
4.4.2. Tiến hành dự báo:.......................................................................................................40
4.5. Đánh giá kết quả nghiên cứu:............................................................................................41
CHƯƠNG 5: KẾT LUẬN..................................................................................................................43
5.1 Kết luận:....................................................................................................................................43
5.2 Hạn chế và Hướng phát triển:.................................................................................................44
TÀI LIỆU THAM KHẢO..................................................................................................................46

LỜI MỞ ĐẦU
Trong thế giới ngày nay, theo cùng đà phát triển của khoa học công nghệ - kĩ
thuật và quá trình chuyển đổi số, dữ liệu đang trở thành một loại tài sản quan trọng.
Các doanh nghiệp và tổ chức chức đang tích cực thu thập và lưu trữ một lượng lớn dữ
liệu về khách hàng, sản phẩm, dịch vụ,.... Dữ liệu này có thể được sử dụng để tạo ra
những giá trị to lớn nếu được phân tích một cách chính xác. Do đó, việc ứng dụng
khoa học dữ liệu - ngành khoa học rút trích và phân tích dữ liệu - là vô cùng cần thiết,
đặc biệt là trong lĩnh vực kinh doanh và tài chính – lĩnh vực đòi hỏi sự thích ứng, thay
đổi liên tục và phải đoán đầu được xu hướng, cần đưa quyết định một cách hợp lí.

1
DANH MỤC ẢNH
Hình 1. Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
Hình 2: Minh họa thuật toán phân lớp Support Vector Machine (SVM)
Hình 3. Biểu đồ thể hiện giá trị Margin và Support Vector
Hình 4. Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cụ thể
Hình 5. Hình vẽ thể hiện mạng lưới hoạt động của Neural Network
Hình 6: Bảng mô thống kê mô tả các biến khảo sát của dữ liệu gốc.
Hình 7: Type và Role ban đầu của các thuộc tính.
Hình 8: Kết quả thực hiện điều chỉnh Role
Hình 9: Kết quả đánh giá các thuộc tính trong Rank.
Hình 10: Thực hiện loại bỏ thuộc tính “no_of_dependents”.
Hình 11 : Bảng thể hiện các thao tác trong phần tiền xử lí dữ liệu.
Hình 12: Bước xử lí skip thuộc tính “Loan_Status”.
Hình 13: Các thao tác thực hiện phân cụm dữ liệu.
Hình 14: Kết quả phân cấp trên Orange.
Hình 15: Bảng Silhouette Plot phân cụm cho cụm 1
Hình 16: Bảng Silhouette Plot phân cụm cho cụm 2
Hình 17: Bảng phân tích k-Means cho bộ dữ liệu
Hình 18: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).
Hình 19: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).
Hình 20: Bảng dữ liệu excel khi đã phân cụm theo phương pháp Hierarchical clustering.
Hình 21: Bảng dữ liệu excel khi đã phân cụm theo phương pháp k-Means
Hình 22: Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có.
Hình 23: Câu lệnh dán nhãn cho dữ liệu đã phân cụm.
Hình 24: So sánh giữa dữ liệu phân cụm và nhãn hiện có
Hình 25: Bảng hiển thị kết quả so sánh với nhãn hiện có.
Hình 26: Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Hình 27: Câu lệnh dán nhãn cho dữ liệu đã phân cụm.
Hình 28: So sánh giữa dữ liệu phân cụm và nhãn hiện có
Hình 29: Bảng hiển thị kết quả so sánh với nhãn hiện có.
Hình 30: Các thao tác bộ bộ dữ liệu “Huấn luyện” và “Dự báo”
Hình 31: Chuỗi thao tác phân lớp dữ liệu.
Hình 32: Kết quả khi chia mẫu dữ liệu 5 phần (Cross validation)
Hình 33: Kết quả khi chia mẫu dữ liệu 10 phần (Cross validation)
Hình 34: Kết quả ma trận nhầm lẫn của phương pháp Decision Tree
Hình 35: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
Hình 36: Kết quả ma trận nhầm lẫn của phương pháp SVM
Hình 37: Đường cong ROC
Hình 38: Đưa bộ dữ liệu “Dự báo và Orange”
Hình 39: Mô hình dự báo
Hình 40: Kết quả dự báo.

2
CHƯƠNG 1:
Tổng quan về khoa học dữ liệu và đề tài nghiên cứu
1.1. Giới thiệu về KHDL:
Trong những năm gần đây, xã hội đang ngày càng phát triển và thay đổi không
ngừng với sự bùng nổ của ngành công nghệ thông tin. Thời đại công nghệ 4.0 đã khiến
việc khai thác và phân tích dữ liệu của các hệ thống thông tin quản lý trở thành một
vấn đề được quan tâm và chú trọng hơn cả. Trước hiện tượng tăng trưởng nhanh chóng
của thông tin, những người ra quyết định trong các lĩnh vực như tài chính, thương mại,
khoa học, kinh doanh... không muốn bị bỏ sót hoặc lạc hậu về bất cứ thông tin hữu ích
nào. Họ dựa vào chúng để đưa ra các quyết định đúng đắn hơn, có cái nhìn bao quát
hơn và dự đoán chính xác hơn về các sự kiện hiện tượng có thể xảy ra trong tương lai.
Đó chính là tiền đề cho sự ra đời của ngành Khoa học dữ liệu khi nhu cầu phát triển
các kỹ thuật thu thập, lưu trữ, xử lí, phân tích dữ liệu,…. tăng cao.
Theo đó, Khoa học dữ liệu là ngành khoa học về việc quản trị và phân tích dữ
liệu, trích xuất các thông tin có giá trị từ dữ liệu để giúp các doanh nghiệp, tổ chức đưa
ra quyết định logic và đem lại nhiều lợi ích nhất. Khoa học dữ liệu nghiên cứu xử lý
khối dữ liệu khổng lồ để tìm kiếm, phân tích để thu được các thông tin có ý nghĩa và
hỗ trợ đưa ra các quyết định kinh doanh. Ngoài ra có thể nói rằng Khoa học dữ liệu là
tổng hợp kiến thức nhiều lĩnh vực bao gồm thống kê, phương pháp khoa học, trí tuệ
nhân tạo và phân tích dữ liệu để chiết xuất những giá trị hữu ích từ dữ liệu. Những
người thực hiện khoa học dữ liệu là nhà khoa học dữ liệu. Mục đích của khoa học dữ
liệu là giúp ta có cái nhìn sâu hơn, đánh giá kỹ, phân tích và chuyển hóa những dữ liệu
thô thành những giá trị hữu ích. Các công việc có thể nói đến của khoa học dữ liệu như
các quá trình thu thập dữ liệu và xử lý, tiến hành phân tích chuyên sâu, trình bày thành
quả, đưa ra quyết định và hành động. Từ tầm quan trọng của của Khoa học dữ liệu mà
ta có thể nói rằng tuy đây là lĩnh vực nghiên cứu mới xuất hiện thời gian gần đây
nhưng lại có tầm quan trọng vô cùng to lớn, quyết định tương của nhân loại.

1.2. Giới thiệu về đề tài:


1.2.1. Lý do chọn đề tài:
Trong thời buổi bùng nổ công nghệ thông tin như hiện nay, khi các công nghệ
như Điện toán đám mây, AI, Blockchain, IoTs,… ngày càng phát triển mạnh mẽ và
được ứng dụng rộng rãi trong đa phần các lĩnh vực trong đời sống của chúng ta, với sự
gia tăng không ngừng của dữ liệu, việc phân tích và xử lý chúng để đưa ra những
thông tin hữu ích và có giá trị cho doanh nghiệp là điều cần thiết. Quá trình khai thác,
phân tích dữ liệu ngày càng được chú trọng, trong đó nổi bật ở đây là việc thu thập,
khai thác, phân tích và dự báo các hiện tượng kinh tế, đặc biệt là dịch vụ tài chính tín
dụng và cho vay.
Song song với đó, thực tế trong thời đại nền kinh tế hiện nay và đặc biệt là sau
đại dịch Covid thì nhu cầu đi vay vốn của các cá nhân và tổ chức là một trong những
vấn đề nóng trong thị trường kinh doanh tài chính. Nhu cầu đi vay ngày càng tăng,
thông tin và hồ sơ đi vay gửi đến các tổ chức ngày nhiều và phức tạp. Nếu chỉ xử lí thủ
công thì các tổ chức tài chính phải mất rất nhiều nhân viên và thời gian từ đó gây ra
3
chi phí lớn, lại mất đi nhiều cơ hội cho các việc kinh doanh khác cũng như dễ dàng
xảy ra những sai sót trong xét duyệt, phân tích hồ sơ đi vay của khách hàng.
Mặc khác, các tổ chức kinh tế hay chính những công ty tài chính luôn muốn có
nguồn dữ liệu từ khách hàng một cách chính xác, rõ ràng và cụ thể nhất, để từ đó họ có
thể phân loại, dự đoán hành động của khách hàng trong tương lai mà có được các
chính sách, quyết định đạt được hiệu quả kinh doanh cao nhất. Nhất là khi các tổ chức
tín dụng tiến hành thực hiện quá trình cho vay, họ sẽ xem xét điều kiện của khách
hàng trên rất nhiều yếu tố. Họ muốn biết rõ thông tin về khách hàng và phân tích xem
các khách hàng này có đủ điều kiện đi vay ở công ty mình hay không, các yếu tố nào
ảnh hưởng lớn đến quyết định cho vay hay không của tổ chức. Chính những câu hỏi và
nhu cầu đã đặt ra ở trên mà nhóm có một đề tài dự án liên quan đến chuyên ngành tài
chính.
Hơn nữa, tầm quan trọng của việc phân tích dữ liệu tín dụng rất cao, giúp công
ty đánh giá khả năng trả nợ của khách hàng và phân tích rủi ro từ các thông tin như:
nghề nghiệp, thu nhập, số tiền, mục đích sử dụng vốn vay... của khách hàng để phát
hiện sớm gian lận, thí dụ như có thể so sánh về các thông tin bên khai báo của các
khách hàng và các thông tin của ngân hàng đã thu thập được. Nếu khách hàng có thu
nhập hằng tháng càng cao thì khả năng có rủi ro tín dụng của khách hàng càng thấp, số
tiền vay càng cao thì khả năng trả nợ đúng hạn của khách hàng càng thấp. Hay công ty
cũng nên quan tâm đến nghề nghiệp của khách hàng và đặc biệt lưu ý những khách
hàng làm các công việc không có thu nhập ổn định thì cần bổ sung bảo lãnh của bên
thứ ba. Từ các dữ liệu trên các công ty tài chính sẽ đưa ra các quyết định tín dụng một
cách nhanh chóng và chính xác, cũng như nâng cao trải nghiệm khách hàng và và hiệu
suất tổ chức tài chính.
Hiểu được nhu cầu trên, nhóm em đã chọn bộ dữ liệu “Loan Approval
Prediction”, bộ dữ liệu sẽ giúp công ty xây dựng mô hình dự báo và xét duyệt các hồ
sơ tín dụng một cách hợp lí, hiệu quả hơn. Các chiến lược thu hồi nợ và xét duyệt tín
dụng sẽ giúp tổ chức tài chính tối ưu nguồn lực mà theo đó sẽ giảm chi phí thu hồi, xác
định sớm khả năng nợ quá hạn, phân mức ưu tiên để thu hồi nợ cũng như có các chính
sách thu hút các khách hàng tiềm năng. Đấy là lý do nhóm chọn đề tài “PHÂN TÍCH
BỘ DỮ LIỆU TỔ CHỨC TÀI CHÍNH VÀ TIẾN HÀNH DỰ BÁO XÉT DUYỆT HỒ
SƠ VAY VỚI ORANGE ”.
1.2.2. Mục tiêu nghiên cứu:
a. Mục tiêu tổng quát:
Phân tích bộ dữ liệu gồm các hồ sơ đi vay từ đó phân loại và dự báo các cá
nhân, tổ chức đủ điều kiện đi vay. Đồng thời đánh giá các yếu tố ảnh hưởng đến quyết
định cho vay của tổ chức này. Dùng Orange để xây dựng mô hình phân cụm, phân lớp
và dự đoán những hồ sơ đi vay để điều kiện xét duyệt.
b. Mục tiêu cụ thể:
 Khám phá bộ dữ liệu.
 Mộ tả dữ liệu.
 Tiền xử lí và Làm sạch dữ liệu.

4
 Phân lớp dữ liệu và đánh giá các mô hình phân lớp từ đó chọn cho thuật toán
phân lớp phù hợp nhất.
 Tiến hành dự đoán và phân loại những khách hàng có đủ kiền kiện đi vay từ tổ
chức. Từ đó giúp nhà quản trị tổ chức tài chính có được những chính sách và
chiến lược phát triển hợp lí trong tương lai
1.2.3. Phương pháp thực hiện:
- Nhóm tác giả sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu,
phân cụm, phân lớp dữ liệu và tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa
phân lớp.
- Để thực hiện phân cụm bộ dữ liệu, nhóm sử dụng hai loại chính là phương
pháp phân cụm phân cấp (Hierarchical clustering) và phương pháp phân cụm phân
hoạch với thuật toán K-means.
- Sau khi quan sát hai phương pháp qua các chỉ số Silhouette và đánh giá ngoại,
nhóm tiến hành đánh giá và chọn ra phương pháp tốt nhất để phân cụm cho bộ dữ liệu
“Loan-Approval-Prediction-Dataset”.
- Đối với việc phân lớp dữ liệu, nhóm chọn biến “Loan_status” là biến mục
tiêu, tiến hành phân lớp trên bốn phương pháp là Cây quyết định (Decision Tree),
SVM (Support Vector Machine), Hồi quy Logistic (LogisticRgression) và Neural
Network. Nhóm đánh giá các mô hình bằng cách sử dụng các phương pháp đánh giá
như Test and Score, quan sát chỉ số AUC của từng mô hình, Ma trận nhầm lẫn và ROC
để chọn ra mô hình phân lớp tốt nhất, sau đó dùng thuật toán đó để tiến hành dự báo.

5
CHƯƠNG 2:

Tổng quan về chương trình Orange và các phương pháp sử


dụng
2.1. Tổng quan về phần mềm Orange:

Phần mềm Orange là một phần mềm mã nguồn mở, miễn phí, được sử dụng cho
khai phá dữ liệu và học máy. Phần mềm Orange là một công cụ khai phá dữ liệu và
học máy mã nguồn mở, được viết bằng Python. Phần mềm này có giao diện trực quan
và dễ sử dụng, giúp cả người dùng mới và chuyên gia đều có thể sử dụng. Orange
cung cấp nhiều chức năng mạnh mẽ, có thể phân tích dữ liệu từ đơn giản đến phức tạp,
tạo ra các đồ họa đẹp mắt và thú. Orange giúp việc khai thác dữ liệu và học máy trở
nên dễ dàng hơn vị cho cả người dùng mới và các chuyên gia có kinh nghiệm.

Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp người dùng
bắt tay ngay vào việc phân tích dữ liệu, bao gồm:

 Data: dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).

 Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.

 Model: gồm các hàm machine learning phân lớp dữ liệu.

 Evaluate: các phương pháp đánh giá mô hình máy học.

 Unsupervised: gồm các hàm machine learning gom nhóm dữ liệu.

2.2. Tổng quan về các phương pháp sử dụng:


2.2.1. Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu thô cho các bước phân tích dữ
liệu và học máy tiếp theo. Quá trình này giúp loại bỏ các dữ liệu bị thiếu, bị lỗi hoặc
không cần thiết, hiệu chỉnh dữ liệu để phù hợp với các thuật toán phân tích dữ liệu và
học máy, và biến đổi dữ liệu để phù hợp với các mục tiêu phân tích dữ liệu và học máy
cụ thể. Vì vậy, nó là một bước quan trọng trong quy trình phân tích dữ liệu và học
máy. Nó giúp đảm bảo rằng dữ liệu được chuẩn bị tốt để các bước tiếp theo có thể diễn
ra chính xác và hiệu quả.. Quá trình tiền xử lí dữ liệu bao gồm: Làm sạch dữ liệu, Tích
hợp và biến đổi dữ liệu và Rút gọn dữ liệu.

a. Làm sạch dữ liệu( Data cleansing/ Cleansing):

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách loại bỏ
thông tin không liên quan hoặc không chính xác, không đầy đủ hoặc sai lệch có thể
làm sai lệch kết quả và gây ra các quyết định sai lầm hoặc không thực tế. Quá trình
này là một bước quan trọng trong quy trình phân tích dữ liệu và học máy, vì nó giúp

6
đảm bảo rằng dữ liệu được chuẩn bị tốt để các bước tiếp theo có thể diễn ra chính
xác và hiệu quả.

Quá trình làm sạch dữ liệu sẽ cố gắng tóm tắt hóa dữ liệu, xử lí dữ liệu bị
thiếu và bị nhiễu.

- Đối với tóm tắt hóa dữ liệu:

+ Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính
(central tendency) và sự phân tán (dispersion) của dữ liệu. Các độ đo về xu hướng
chính gồm có: mean, median, mode, midrange… Các độ đo về sự phân tán gồm có:
quartiles, interquartile range (IQR) và variance.

+ Nhận diện dữ liệu nổi bật hay dữ liệu hiếm bằng cách xác định nhiễu (noise) hoặc
phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu.

- Đối với dữ liệu bị thiếu (missing value):

+ Bỏ qua những bộ thiếu giá trị: Phương pháp này thường được dùng khi nhãn lớp
bị thiếu và sẽ không có hiệu quả đối với trường hợp dữ liệu bị thiếu là quá lớn.

+ Xử lý bằng tay: có thể xử lí không tự động hoặc bán tự động. Tuy nhiên, phương
pháp này sẽ mất rất nhiều thời gian đối với một tập dữ liệu lớn có nhiều giá trị bị
thiếu.

+ Dùng những giá trị thay thế, tự động: Ví dụ như sử dụng hằng số toàn cục để thay
thế tất cả những giá trị bị thiếu bằng cùng một hằng số hay dùng giá trị có nhiều khả
năng nhất- được quyết định bằng phương pháp hồi quy, dựa vào những công cụ suy
luận như Phương pháp Bayesian hoặc Cây quyết định. Ngoài ra còn nhiều giá trị
khác được dùng như: trị phổ biến nhất, trung bình toàn cục, trung bình cục bộ,...

+ Ngăn chặn dữ liệu bị thiếu: Giảm thiểu vấn đề bị thiếu dữ liệu thông qua việc đảm
bảo thiết kế thật tốt một CSDL và các thủ tục nhập liệu (ràng buộc dữ liệu).

- Đối với dữ liệu bị nhiễu:

Xử lí dữ liệu bị nhiễu bao gồm: nhận diện được phần tử không tuân theo đặc
tính/ hành vi chung của tập dữ liệu (outliers) và giảm thiểu nhiễu (noisy data).
Trước hết, các kĩ thuật nhận diện phần tử biên gồm:

+ Dựa trên phân bố thống kê (Statistical distribution-based)

+ Dựa trên khoảng cách (Distance-based)

+ Dựa trên mật độ (Density-based)

+ Dựa trên độ lệch (Deviation-based)

7
Các giải pháp giảm thiểu nhiễu gồm:

+ Phân giỏ (Binning): Phương pháp này làm mịn dữ liệu bằng cách tham khảo
những giá trị xung quanh nó (làm mịn dữ liệu cục bộ). Đầu tiên dữ liệu được sắp
xếp vào các giỏ gọi là ‘bin’, sau đó làm mịn dữ liệu bằng các giá trị means, median,
maximum, minimum… của bin.

+ Hồi quy (Regression): Dữ liệu được làm mịn bằng cách làm cho dữ liệu khớp với
một hàm. Phương pháp hồi quy tuyến tính (Linear regression) tìm một đường thẳng
tốt nhất khớp với hai thuộc tính (hoặc biến), vì thế có thể dùng một thuộc tính để dự
đoán thuộc tính còn lại.

+ Gom cụm (Clustering): Các giá trị tương tự nhau theo một tiêu chuẩn cho trước
gom lại thành từng cụm gọi là cluster. Bằng trực giác, những giá trị nằm ngoài tập
hợp cluster có thể xem là các phần tử cá biệt.

- Đối với dữ liệu không nhất quán: Dữ liệu đôi khi bị ghi nhận khác nhau cho
cùng một đối tượng hoặc không phản ánh ngữ nghĩa đúng cho các đối tượng đó. Do
đó gây ra sự không nhất quán trong bộ dữ liệu. Để giảm thiểu điều này cần sử dụng
một số giải pháp:

+ Tận dụng siêu dữ liệu hoặc các ràng buộc dữ liệu cùng với sự kiểm tra của các nhà
phân tích dữ liệu để hỗ trợ cho việc nhận diện sự không nhất quán.

+ Có thể điều chỉnh dữ liệu không nhất quán bằng tay hoặc sử dụng các giải pháp
biến đổi hoặc chuẩn hóa dữ liệu tự động.

b. Tích hợp và chuyển đổi dữ liệu:

Tích hợp dữ liệu (Data integration):

Là kết hợp nhiều nguồn dữ liệu lại với nhau vào cùng một kho dữ liệu. Tích
hợp dữ liệu cung cấp một cái nhìn thống nhất về dữ liệu phân tán trong khi vẫn duy trì
độ chính xác của dữ liệu. Khi thực hiện tích hợp dữ liệu, một số vấn đề thường gặp
phải:

+ Vấn đề nhận dạng thực thể (Identification Entity): Các thực thể thường đến từ
nhiều nguồn dữ liệu khác nhau, vậy làm thế nào để những thực thể đó có thể phù hợp
với nhau? Chúng ta có thể dựa vào siêu dữ liệu (metadata) để giải quyết phần nào vấn
đề này.

+ Vấn đề dư thừa: Giá trị của một thuộc tính có thể được tính ra/ suy ra từ nhiều
thuộc tính khác, làm trùng lặp dữ liệu. Sự không nhất quán trong việc đặt tên các thuộc
tính cũng có thể gây ra sự trùng lặp. Vấn đề dư thừa dữ liệu có thể được phát hiện
bằng Phân tích Tương quan ( Correlation Analysis).

8
+ Vấn đề mâu thuẫn giá trị dữ liệu: Cùng một thực thể thật, các giá trị thuộc tính đến
từ các nguồn khác nhau có thể khác nhau về cách biểu diễn (representation), đo lường
(scaling) và mã hóa (encoding).

Chuyển đổi dữ liệu (Data transformation):

Trong quá trình chuyển đổi dữ liệu, dữ liệu được chuyển đổi hoặc hợp nhất
thành những dạng phù hợp cho việc khai thác, gồm:

+ Làm mịn: khử nhiễu dữ liệu với các kỹ thuật như binning, clustering hay
regression.

+ Tập hợp dữ liệu: tóm tắt và xây dựng các khối dữ liệu (Data cube), các phép toán
tóm tắt (Summary) hay kết hợp (Aggregation) được áp dụng cho dữ liệu.

+Tổng quát hóa: sử dụng hệ thống phân cấp khái niệm để thay thế các dữ liệu thô,
cấp thấp thành những dữ liệu cấp cao hơn.

+ Chuẩn hóa dữ liệu: Các giá trị thuộc tính sẽ được chuyển đổi vào một miền trị nhất
định được định nghĩa trước, một khoảng nhỏ xác định như từ -1 đến 0.

+ Xây dựng thuộc tính mới: xây dựng thuộc tính mới và thêm vào từ tập thuộc tính
sẵn có để phục vụ quá trình binning.

c. Rút gọn dữ liệu:

Rút gọn dữ liệu là làm giảm số lượng dữ liệu nhưng vẫn đảm bảo được tính
nguyên vẹn của dữ liệu ban đầu. Đây là một bước quan trọng trong quá trình tiền xử lý
dữ liệu, hỗ trợ khai thác dữ liệu một cách hiệu quả hơn. Quá trình rút gọn dữ liệu bao
gồm:

- Kết hợp khối dữ liệu (Data cube aggregation):

- Chọn tập con các thuộc tính (Attribute subset selection):

- Thu giảm chiều (Dimensionality reduction ):

- Thu giảm lượng (umerosity reduction):

- Tạo phân cấp khái niệm (Concept hierarchy generation)

- Rời rạc hóa (Dicretilization):

2.2.2. Phân lớp dữ liệu (Classification):


a. Định nghĩa:

Phân lớp dữ liệu là quá trình xác định lớp của một đối tượng dữ liệu vào một hay
nhiều lớp cho trước nhờ một mô hình phân lớp mà mô hình này được xây dựng dựa
9
trên một tập hợp các đối tượng dữ liệu đã được gán nhãn từ trước gọi là tập dữ liệu học
(tập huấn luyện). Các lớp được xác định trước và được gọi là nhãn.

Có ba loại phân lớp dữ liệu chính:

Phân lớp nhị phân: Phân lớp dữ liệu thành hai lớp.

Phân lớp đa lớp: Phân lớp dữ liệu thành nhiều lớp hơn hai.

Phân lớp đa trị: Phân lớp dữ liệu thành nhiều lớp, mỗi đối tượng dữ liệu trong tập huấn
luyện và các đối tượng mới sau khi được phân lớp có thể thuộc nhiều lớp.

b. Quá trình phân lớp dữ liệu: gồm 2 bước chính:


- Bước 1: Xây dựng mô hình, hay còn gọi là giai đoạn ‘học’ hay ‘huấn luyện’.

+ Đầu vào: một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra
bằng các tập có bộ giá trị của các thuộc tính đó.

+ Mỗi bộ giá trị được gọi là một phần tử dữ liệu (data tuple), có thể là các mẫu
(sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case).
Mỗi phần tử dữ liệu thuộc về một lớp định trước.

+ Đầu ra: quy tắc phân lớp dưới dạng cây quyết định, mạng nơron, công thức logic.

- Bước 2: Sử dụng mô hình:

+ Bước 2.1: Đánh giá mô hình (Kiểm tra tính đúng đắn)

 Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì
kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ
liệu.

+Bước 2.2: Phân lớp dữ liệu mới:

 Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào
những gì được huấn luyện ở bước 1.

c. Một số phương pháp phân lớp dữ liệu:


Có rất nhiều phương pháp phân lớp dữ liệu được sử dụng dùng để dự báo dự
liệu, có thể kể đến như Hồi quy Logistic (Logistic Regression), SVM (Support Vector
Machine), Cây quyết định (Decision Tree), Naive Bayes, Neural Network,… Các
phương pháp sẽ được liệt kê rõ hơn ở bên dưới.
 Hồi quy Logistic (Logistic Regression)
Hồi quy Logistic còn có tên gọi khác là hồi quy nhị thức, là một mô hình xác
suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào. Thuật toán này giúp
người dùng tìm hiểu mối quan hệ giữa biến mục tiêu và một hay nhiều biến độc lập
thông qua thiết lập phương trình hồi quy logic.

10
Hồi quy Logistic được sử dụng để dự đoán xác suất của quan sát vào các loại biến phụ
thuộc dựa trên các loại biến phụ thuộc hay một hoặc nhiều biến độc lập có thể các biến
này là liên tục hay được phân loại. Ngoài ra, nếu biến phụ thuộc là một số đếm thì
phương pháp có thể dùng là hồi quy Poisson. Nếu chúng ta có nhiều hơn hai biến phụ
thuộc thì khi đó là gọi là hồi quy Logistic đa thức.
Phương pháp hồi quy Logistic hay Logistic Regression là một mô hình xác suất
dự đoán giá trị đầu ra rời rạc y (discrete target variable) từ một tập các giá trị đầu vào x
(được thể hiện dưới dạng vector). Việc này khá tương đương với việc phân loại đầu
vào x vào các nhóm y tương ứng.
Mô hình hồi quy Logistic sử dụng để chúng ta dự đoán biến phân loại bởi một
hay nhiều biến độc lập liên tục. Biến phụ thuộc của chúng ta có thể là thứ tự, rời rac,…
Đối với biến độc lập có thể là một khoảng hay một tỉ lệ, rời rạc,… hay có thể hỗ hợp
của tất cả. Chúng ta có thể biểu diễn công thức của phương pháp hồi quy Logistic như
sau:
d
z=∑ wi xi
i=0
1
P ( y )=sigmoid ( z )= −z
1+ e
Trong đó:
d là số lượng thuộc tính của dữ liệu.
w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại cho
phù hợp.
Hình 1. Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic

Nguồn: Tác giả tổng hợp


Chúng ta có thể biểu diễn hiệu ứng trong Logistic Regression với mục đích ước
lượng và dự báo, chúng ta bị giới hạn trong phạm vi từ 0 đến 1. Điều này có thể lý giải
rằng nếu một hiệu ứng của biến x cho kết quả của y vượt quá 1 thì đó là một vấn đề.
Hoặc xác suất của chúng ta không thể nào âm hay tức nhỏ hơn 0, vì vậy diễn giải theo
hệ số hồi quy Logistic là vô nghĩa.
 SVM (Support Vector Machine)
SVM là một thuật toán giám sát, nhưng hầu như nó được dùng cho phân loại. Ở
thuật toán này, chúng ta sẽ vẽ đi đồ thị dữ liệu là các điểm trong n chiều (ta xác định n
là các tính năng mà chúng ta có sẵn) với giá trị của mỗi tính năng sẽ là một phần liên
kết. SVM nhận dữ liệu vào, xem các dữ liệu đầu vào là các vector không gian, sau đó

11
chúng được phân loại vào các lớp khác nhau thông qua cơ chế xây dựng một siêu
phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.

Hình 2: Minh họa thuật toán phân lớp Support Vector Machine (SVM)
Để phân lớp dữ liệu một cách tối ưu, chúng ta cần tìm một siêu phẳng sao cho
khoảng cách giữa siêu phẳng và các điểm dữ liệu (margin) của hai lớp càng xa càng
tốt. SVM là một phương pháp phân lớp dựa trên ý tưởng tối đa hóa margin.

Trong trường hợp không gian hai chiều, margin là khoảng cách giữa siêu phẳng và hai
điểm dữ liệu gần nhất của hai lớp. SVM tìm cách tối đa hóa margin để tìm ra một siêu
phẳng phân tách hai lớp tốt nhất. Điều này giúp giảm thiểu khả năng phân lớp sai
(misclassification) đối với dữ liệu mới.

Hình 3. Biểu đồ thể hiện giá trị Margin và Support Vector

Nguồn: Tác giả tổng hợp


Ở Support Vector, bài toán của chúng ta trở thành đi tìm ra hai đường biên của
hai lớp dữ liệu sao cho x 2 cho khoảng cách giữa hai đường này là lớn nhất. Siêu phẳng

12
cách đều hai biên đó chính là siêu phẩm cần tìm. Nhìn vào hình 3 ta có thể xác định
các điểm màu đỏ và xanh dương nằm ở trên hai đường biên màu xanh lá, nó được là là
Support Vector, vì chúng có nhiệm vụ hỗ trở để tìm ra siêu phẳng (đường nét đứt màu
cam ở hình 3).
 Cây quyết định (Decision Tree)
Cây quyết định là một hệ thống phân cấp có cấu trúc được dùng để phân lớp các
đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng có thể thuộc vào nhiều
kiểu dữ liệu khác nhau (Binary, Nominal, Ordinal, Quantitative,…) và thuộc tính phân
lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng
ta mô tả, phân loại, tổng quan dữ liệu cho trước này. Cụ thể hơn, cây quyết định sẽ đưa
ra các dự đoán cho từng đối tượng.
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại. Cây hồi
quy có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trong các mô
hình có giá trị cuối cùng nằm mục đích chính là phần loại.
Để hiểu rõ hơn về cây quyết định, ta xét ưu và nhược điểm như sau. Về ưu
điểm, cây quyết định trình bày một cách đơn giản, dễ hiểu, không cần chuẩn hóa dữ
liệu, có thể xử lý trên nhiều kiểu dữ liệu khác nhau và xử lý tốt một lượng lớn dữ liệu
trong thời gian nhanh nhất. Mặc khác, cây quyết định cũng có một vài khuyết điểm cơ
bản là khó giải quyết trong tình huống dữ liệu bị ảnh hưởng bởi thời gian hoặc chi phí
để xây dựng các mô hình về cây quyết định khá cao.
Hình 4. Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cụ thể

 Neural Network
Neural Network còn có tên gọi khác là Mạng Neural nhân tạo là một chuỗi
thuật toán được đưa ra để dùng xác định các mối quan hệ trong tập hợp các dự liệu cụ
thể, thông qua việc bắt chước bộ não của con người. Neural Network có khả năng
tương thích với mọi thứ ngay từ khi chúng ta thay đổi dữ liệu đầu vào. Nó có thể đưa
ra các kết quả một cách tốt nhất mà chúng ta không cần phải xây dựng các tiêu chí đầu
ra.
Như đã tìm hiểu về khái niệm của Neural Network ở trên, bây giờ chúng ta sẽ
tìm hiểu chi tiết hơn về Neural Network.

13
Ta có thể xem xét đặc điểm của Neural Network trong tài chính chính là hỗ trợ
cho các quá trình như giao dịch thuật toán, phân loại và phân tích chứng khoán, dự báo
về chuỗi thời gian, xây dựng các mô hình quản trị rủi ro, công cụ phát sinh giá cả,…
Neural Network nhân tạo có thể mô phỏng hoạt động của não người. Mỗi một
Neural trung ương thần kinh là một hàm toán học thực hiện các phép tính để thu thập
và phân loại thông tin dựa vào các cấu trúc có sẵn. Neural Network có sự tương quan
mạnh mẽ đối với các phương pháp như phương pháp thống kê, phân tích hồi quy.
Neural Network chứa các lớp bao hàm các nút được liên kết lại với nhau. Mỗi nút có
một cấu trúc tương thích với hàm hồi quy tuyến tính đa biến. Chúng sẽ được sắp xếp
với các lớp liên kết với nhau. Lớp đầu vào sẽ thu nhập các dữ liệu đầu vào và các lớp
đầu ra sẽ nhận các phân loại hoặc tín hiệu đầu ra mà các mẫu đầu vào có thể phản ánh
lại.
Kiến trúc của mạng Neural Network là có sự kết hợp giữa tầng perceptron hay
còn gọi là perceptron đa tầng. Mỗi mạng Neural Network sẽ gồm ba kiểu tầng như sau:
 Tầng input layer (tầng vào): tầng này nằm phía bên trái của mạng, thể hiện cho
các đầu vào của mạng.
 Tầng output layer (tầng ra): Là tầng bên phải của mạng, nó thể hiện cho các đầu
ra của mạng.
 Tầng hidden layer (tầng ẩn): Tầng này nằm ở giữa tầng vào và tầng ra thể hiện
cho các quá trình suy luận logic của Neural Network.
Hình 5. Hình vẽ thể hiện mạng lưới hoạt động của Neural Network

Mỗi một Neural Network chỉ có duy nhất một tầng vào và một tầng ra nhưng lại
có khá là nhiều tầng ẩn. Giữa các tầng có sự liên kết bởi các Neural trong mỗi tầng
hoặc giữa các tầng với nhau. Trong mỗi tầng lại có thể có số lượng Neural khác nhau
cũng như có các kết nối cũng khác nhau. Với mạng Neural Network thì mỗi một nút
mạng là một Sigmoid Neural nhưng chúng có thể có các hàm kích hoạt khác nhau.
Nhưng để cho việc tính toán đơn giản và thuận lợi hơn thì người ta thường sử dụng
chúng cùng lại với nhau hơn. Tại mỗi tầng, số lượng nút mạng có thể khác nhau tùy
thuộc vào từng bài toán hay các cách giải quyết. Khi làm việc, người ta thường sẽ để
các tầng ẩn với số lượng các Neural khác nhau. Bên cạnh đó, các Neural nằm ở tầng
thường sẽ liên kết với nhau để tạo ra một mạng lưới đầy đủ nhất. Khi đó, người dùng
tính toán xem các kích cỡ của mạng khi dựa vào tầng và số lượng Neural.
Ứng dụng của Neural Network có ở rất nhiều lĩnh vực như tài chính, giao dịch,
phân tích kinh doanh, lập các kế hoạch cho doanh nghiệp, hay quản trị rủi ro doanh
14
nghiệp, dự báo thời tiết, .... Neural Network còn sử dụng khá phổ biến để phân biệt sự
phụ thuộc giữa các phi tuyến lẫn nhau của đầu vào. Trong việc lan truyền tuyến của
Neural Network, các nốt mạng Neural đều có thể kết hợp đôi một với nhau vào một
chiều từ tầng vào đến tầng ra duy nhất. Có nghĩa là mỗi nốt ở mỗi tầng sẽ nhận đầu
vào là tất cả các tầng trước đó và ngược lại. Suy diễn Neural Network là một dạng suy
luận tiến (feedforward).
Khi sử dụng Neural Network nhân tạo sẽ có khả năng sử dụng một loại cơ chế
hàm tùy ý mà học được từ việc dữ liệu quan sát. Tuy nhiên, việc sử dụng chúng khá
khó và rất cần phải có sự hiểu biết nhiều về lý thuyết của Neural Network.
 Lựa chọn mô hình: phụ thuộc rất nhiều về cách trình bày dữ liệu cũng như các
ứng dụng. Mô hình này khá phức tạp nên dẫn đến nhiều thử thách cho quá trình học.
 Thuật toán học: thường sẽ có nhiều thỏa thuận giữa các thuật toán học. Chúng
làm việc dựa trên các tham số để huấn luyện dữ liệu mà không thấy các yêu cầu một số
lượng đáng kể các thử nghiệm.
 Mạnh mẽ: nếu như các mô hình, thuật toán và các hàm chi phí được lựa chọn
đúng cách thì Neural Network cho ra kết quả vô cùng hợp lý.
Nếu biết cách sử dụng và thực hiện một cách chính xác về Neural Network thì
chúng ta có thể ứng dụng chúng vào những tập dữ liệu lớn hơn.

d. Các phương pháp đánh giá mô hình phân lớp:


Đánh giá mô hình là một bước không thể thiếu trong quá trình phát triển mô
hình phân tích, giúp kiểm tra tính đúng đắn, tìm ra mô hình tốt và phù hợp nhất với
mục tiêu nghiên cứu đề ra. Một số phương pháp đánh giá mô hình phân lớp phổ biến:
- Ma trận nhầm lẫn (Confusion matrix): là ma
trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào
một lớp cụ thể, và được dự đoán là rơi vào lớp nào.
Một số chỉ số (metrics) liên quan:
+ Tính chính xác (Accuracy): Là tỷ lệ số mẫu được
phân lớp đúng trong toàn bộ tập dữ liệu.
( TP+TN )
acc = => Error rate=1−acc là độ lỗi của mô
n
hình
+ Độ chính xác (Precision): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ
bao nhiêu mẫu có đúng.
TP
precision=
(TP+ FP)

+ F1-score: giá trị trung bình điều hòa (harmonic mean) của hai
độđo Precision và Recall.
- ROC và AUC:

15
+ ROC (Receiver Operating Characteristic): Đường cong này được tạo ra bằng cách
biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo failse positive rate
(FPR) tại các ngưỡng giá trị khác nhau. ROC được sử dụng khá phổ biến trong đánh
giá các mô hình phân loại nhị phân.
+ AUC (Area Under the Curve): Là thước đo khả năng phân biệt các lớp của mô hình
phân loại. AUC là diện tích nằm dưới đường cong ROC. Giá trị này là một số dương
nhỏ hơn hoặc bằng 1.
e. Các ứng dụng phân lớp dữ liệu:
Dữ liệu phân lớp, một lĩnh vực của công nghệ, đã và đang trải qua sự phát triển
vượt bậc để đáp ứng nhu cầu tìm kiếm tri thức của con người. Trong suốt những năm
vừa qua, nó đã thu hút sự chú ý của các nhà nghiên cứu từ nhiều lĩnh vực khác nhau
như học máy, hệ thống chuyên gia và thống kê,... Công nghệ này cũng ứng dụng trong
nhiều lĩnh vực thực tế như:
- Trong lĩnh vực tài chính ngân hàng: dự báo khả năng thanh toán nợ của khách hàng,
đánh giá rủi ro tài chính, dự báo khả năng sinh lời của tài sản,…
- Trong lĩnh vực kinh tế: dự báo cung cầu, biến động ngoại hối…
- Trong lĩnh vực kinh doanh: dự báo doanh thu, chi phí tương lai…
- Trong lĩnh vực kế toán: dự báo hàng tồn kho, …
- Trong lĩnh vực y tế: dự báo chẩn đoán khả năng mắc bệnh,...

16
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
Nhóm sử dụng bộ dữ liệu “Loan-Approval-Prediction-Dataset” do một
công ty tài chính đang tập hợp, xử lý và phân tích dữ liệu về các hồ sơ tài chính
cũng như thông tin liên quan được sử dụng để xác định tính đủ điều kiện phê
duyệt của các cá nhân hoặc tổ chức để vay vốn từ tổ chức cho vay. Nó bao gồm
nhiều yếu tố khác nhau như điểm dân cư, thu nhập, tình trạng việc làm, thời hạn
cho vay, số tiền vay, giá trị tài sản và tình trạng khoản vay,... Bộ dữ liệu này
thường được sử dụng trong học máy và phân tích dữ liệu để phát triển các mô
hình và thuật toán dự đoán khả năng phê duyệt khoản vay dựa trên các tính
năng, thuộc tính nhất định. Mục tiêu của bộ dữ liệu là giúp các nhà quản trị và
nhà điều hành tổ chức tài chính cũng như người đi biết được các điều kiện ảnh
hưởng trực tiếp, tác động mạnh đến điều kiện phê duyệt cho vay của tổ chức.
Đặc biệt qua quá trình thu thập phân tích dữ liệu, bộ dữ liệu còn giúp các nhà
quản trị phân loại và dự đoán được những cá nhân và tổ chức đi vay có đủ điều
kiện dựa trên thông tin của họ.
Bộ dữ liệu này được nhóm lấy từ:
https://www.kaggle.com/datasets/architsharma01/loan-approval-prediction-
dataset
Tiếp theo, nhóm tác giả tiến hành mô tả dữ liệu và giải thích các thuộc
tính của bộ dữ liệu “Loan-Approval-Prediction-Dataset”:
Thuộc tính Ý nghĩa Mô tả
loan_id Số ID nhận dạng hồ sơ tài chính đi Được định dạng là
vay của các cá nhân hoặc tổ chức. Numeric.
no_of_dependents Thể hiện số lượng người phụ thuộc Được định dạng là
của người nộp đơn đi vay. Numeric.
education Trình độ học vấn của người nộp đơn Được định dạng là
đi vay. categorical. Bao gồm hai
giá trị: “Graduate” và
“Not Graduate”.
self_employed Tình trạng việc làm của người nộp Được định dạng là
đơn đi vay. categorical. Bao gồm hai
giá trị: “Yes” và “No”.
income_annum Thu nhập hàng năm của người nộp Được định dạng là
đơn của người đi vay. Numeric.
loan_amount Số tiền vay. Được định dạng là
Numeric.
loan_term Thời hạn cho vay tính theo năm. Được định dạng là
Numeric.
cibil_score Điểm tín dụng. Được định dạng là
numeric.
residential_assets_value Thể hiện giá trị tài sản nhà ở của Được định dạng là
17
người nộp đơn đi vay. numeric.
commercial_assets_value Thể hiện giá trị tài sản thương mại Được định dạng là
của người nộp đơn đi vay. Numeric.
luxury_assets_value Thể hiện giá trị tài sản xa xỉ (có giá Được định dạng là
trị cao như kim cương, vàng) của Numeric.
người nộp đơn đi vay.
bank_asset_value Thể hiện giá trị tài sản gửi ngân hàng Được định dạng là
của người nộp đơn đi vay. Numeric.
loan_status Thể hiện sự xét duyệt hồ sơ đi vay Được định dạng là
của công ty tài chính đối với đối categorical. Bao gồm hai
tượng nộp đơn. Với giá trị giá trị: “Approved” và
“Approved” là chấp thuận và “Rejected”.
“Rejected” là từ chối cho vay.

18
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN
4.1. Tiền xử lý:
4.1.1. Làm sạch dữ liệu:
a. Mô tả dữ liệu:
Bộ dữ liệu “Loan-Approval-Prediction-Dataset” ban đầu bao gồm 4269 bộ hồ
sơ tài chính được công ty tập hợp thông qua 13 thuộc tính quan sát, với “loan_status”
là biến phụ thuộc nhằm mục đích giúp phân loại hồ sơ được phê duyệt và dự đoán các
các nhân hoặc tổ chức có đủ điều kiện để đi vay. Nhóm chúng em đã sử dụng công cụ
Feature Statistics để mô tả thống kê các biến này với những giá trị như Mean, Median,
Dispersion, Min, và Max của 4269 bộ hồ sơ vay này.

Hình 6: Bảng mô thống kê mô tả các biến khảo sát của dữ liệu gốc.

19
Qua mô tả thống kê ta có thể thấy một số thông tin thú vị như: Với bộ dữ liệu
này số lượng hồ sơ được chấp thuận là đa số, giá trị tài sản của các bộ hồ sơ cho vay là
rất cao. Ngoài ra ta thấy rõ được các giá trị trung bình, trung vị và mode của các thuộc
tính đều đạt các giá trị rất cao, thể hiện điều kiện vay và quy mô vay của các khoản
này đều rất lớn.
b. Xử lí Dữ liệu bị thiếu:
Mặc dù công ty tài chính tập hợp đến 4269 hồ sơ cho vay và rất nhiều thông tin
liên quan, chứng tỏ đây là bộ dữ liệu khá lớn nhưng dữ liệu gốc lại không xuất hiện
Missing data hay dữ liệu bị thiếu. Vì đó nhóm không phải xử lí dữ liệu thiếu. Từ đó, ta
thấy rằng quá trình thu thập, ghi nhận và xử lí dữ liệu của công ty tài chính vô cùng
cẩn thận, không xảy ra sai sót và giúp cho quá trình nghiên cứu phân tích sau sẽ hiệu
quả hơn, đạt được kết quả tích cực hơn.
c. Thiết lập Type và Role của các thuộc tính:
Quan sát dữ liệu ban đầu nhóm có được Role và Type cùa 13 thuộc tính như
sau:

Hình 7: Type và Role ban đầu của các thuộc tính.

+ Nhóm thực hiện điều chỉnh Type và Role của các thuộc tính sao cho phù hợp
với nhu cầu xử lí khai thác dữ liệu:

20
- Ban đầu thuộc tính “loan_status” có Role là “Feature”. Nhưng vì mục tiêu của
bộ dữ liệu là dự báo cho biến phụ thuộc nên nhóm phải chuyển Role của thuộc tính
này từ “Feature” sang “Target”.
- Đồng thời, thuộc tính “Loan_ID” chỉ có mục đích phân loại và nhận dạng cho
từng hồ sơ này không tác động đến kết quả dự báo đầu ra nên Role của thuộc tính này
được nhóm điều chỉnh “Skip”.
- Các biến còn lại đều đã được chỉnh Role và Type hợp lí nên không cần điều
chỉnh thêm.

Hình 8: Kết quả thực hiện điều chỉnh Role


4.1.2. Loại bỏ các biến không phù hợp:
Sau khi quan sát và nghiên cứu bộ dữ liệu, cũng như tìm hiểu trong thực tế thì
nhóm cho rằng thuộc tính “no_of_dependents” không có ảnh hưởng lớn đến biến phụ
thuộc “Loan_status”. Đồng thời, khi sử dụng công dụng Rank để phân tích ảnh hưởng
của các biến đến biến phụ thuộc thì nhóm thấy biến này cũng có giá trị Gain ratio và
Gini rất thấp, cả hai đều có giá trị bằng 0. Nên nhóm quyết định loại biến này khỏi mô
hình trong quá trình tiền xử lí để tiến hành các thủ tục phân tích tiếp theo dễ dàng và
hiệu quả hơn.

21
Hình 9: Kết quả đánh giá các thuộc tính trong Rank.

Hình 10: Thực hiện loại bỏ thuộc tính “no_of_dependents”.

22
Hình 11 : Bảng thể hiện các thao tác trong phần tiền xử lí dữ liệu.
Sau tiền xử lí nhóm lưu bộ dữ liệu thành file “File Tien xu li”.
4.2. Phân cụm:
Vì đây là bộ dữ liệu mà nhóm thu thập từ Công ty tài chính để phê duyệt và
phân loại, dự báo các hồ sơ nào có đủ điểu kiện vay. Nên đây là bộ dữ liệu đã phân lớp
hay bài toán đã có nhãn. Nên để thực hiện phân cụm ta phải đưa bộ dữ liệu này về
dạng chưa có nhãn. Nhóm tiến hành giả định rằng bộ dữ liệu này chưa phân lớp bằng
cách skip thuộc tính “Loan_Status”:

Hình 12: Bước xử lí skip thuộc tính “Loan_Status”.

23
Trong nghiên cứu khoa học và phân tích dữ liệu thì Phương pháp Hierarchical
clustering và phương pháp K-Means là hai phương pháp phân cụm phổ biến, đáng tin
cậy và đạt được hiệu quả cao. Do đó, nên nhóm quyết định sẽ dùng hai phương pháp
này để tiến hành phân cụm bộ dữ liệu “Loan-Approval-Prediction-Dataset”.

Hình 13: Các thao tác thực hiện phân cụm dữ liệu.

4.2.1. Phương pháp Hierarchical clustering:

Hình 14: Kết quả phân cấp trên Orange.

24
Khi tiến hành phân cụm với phương pháp Hierarchical clustering, chỉ số liên
kết giữa các đối tượng (Linkage), nhóm sẽ sử dụng cách tính toán khoảng cách trung
bình (Average). Và sau nhiều lần thử phân thành những số cụm riêng biệt khác nhau
như: phân bộ dữ liệu thành hai cụm, ba cụm, bốn cụm… Đồng thời kết hợp thông tin
bộ dữ liệu gồm hai nhan ban đầu. Thì nhóm quyết định chia toàn bộ các mẫu trong bộ
dữ liệu thành hai cụm khác nhau. Sau đó nhóm tiến hành phân bộ dữ liệu thành hai
cụm riêng biệt với kết quả thu được như sau:

Hình 15: Bảng Silhouette Plot phân cụm cho cụm 1

Hình 16: Bảng Silhouette Plot phân cụm cho cụm 2

25
Khi tiến hành đánh giá kết quả phân cụm thì ta chủ yếu dựa vào giá trị
Silhouette của từng mẫu được chia. Với nguyên tắc như sau Giá trị Silhouette có
khoảng giá trị nằm trong khoảng từ -1 đến 1, nếu như giá trị này càng lớn (càng tiến
gần về 1) thì kết quả phân cụm càng chính xác, càng đáng tin cậy.
Như vậy khi quan sát kết quả phân bộ dữ liệu thành hai cụm bằng phương pháp
Hierarchical clustering ở hình 16 ta có thể nhận xét như sau: Với cụm màu xanh (cụm
1) phần lớn có giá trị Silhouette lớn hơn 0,4, càng về sau thì giá trị giảm dần đặc biệt
lưu ý các mẫu cuối có giá trị âm cần sự đánh giá lại của các chuyên gia; đối với cụm
màu đỏ (cụm 2) thì hầu hết các mẫu có giá trị Silhouette lớn hơn 0,6 nhưng cũng giống
cụm 1, các mẫu về sau lại phần lớn có giá trị nhỏ hơn 0. Thế nên có thể nói là chỉ phần
lớn các mẫu của cụm có giá trị Silhouette thỏa mãn nguyên tắc đánh giá nêu ra ở trên,
nhưng những mẫu còn lại cần sự đánh giá và tư vấn của chuyên gia đầu ngành. Đồng
thời thể hiện rằng phương pháp phân cụm Hierarchical clustering với bộ dữ liệu này đã
thu kết quả khá chính xác và khá đáng tin cậy.
4.2.2. Phương pháp K-Means:
Bước đầu khi tiến hành phân cụm với K-Means là chọn số cụm mà nhóm
muốn chia bộ dữ liệu thành. Nguyên tắc chọn dựa hoàn toàn vào chỉ số Silhouette
Scores trung bình của từng cách phân cụm, chỉ số Silhouette Scores trung bình càng
cao nghĩa là cách phân cụm ấy càng hiệu quả và đáng tin cậy. Vì thế cần quan sát Hình
17, kết quả giá trị Silhouette của từng cách phân cụm:

Hình 17: Bảng phân tích k-Means cho bộ dữ liệu


Để xác định số cụm mà nhóm nên dùng để chia bộ dữ liệu với phương pháp k-
Means là hợp lí nhất thì cần phải xét các giá trị Silhouette của từng cách phâm cụm. Ta
ưu tiên chọn số cụm nào có chỉ số Silhouette trung bình cao nhất để tiến hành phân
cụm. Do giá trị Silhouette trung bình càng cao thì phương pháp phân cụm đó sẽ càng
đáng tin cậy và chính xác hơn. Quan sát kết quả phân tích k-Means của hình 17 ta thấy
chia bộ dữ liệu thành 2 cụm đạt giá trị Silhouette cao nhất với giá trị Silhouette Scores
= 0,296.
Đồng thời nhóm thực hiện phân tích đánh giá chi tiết tiết từng mẫu dữ liệu sau khi
dùng sau khi được phân cụm:

26
Hình 18: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).

Hình 19: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).

Vẫn sử dụng nguyên tắc đánh giá phâm cụm theo giá trị Silhouette đã nêu ở
phương pháp Hierarchical clustering mà nhóm sẽ tiếp tục nhận xét kết quả phân cụm

27
theo phương pháp k-Means. Theo kết quả trên ta thấy bộ dữ liệu được phân làm hai
cụm: với cụm một (màu xanh) có các giá trị Silhouette được chia làm hai phần, phần
lớn ở trên bao gồm các giá trị dương trải dài từ 0 đến 0,55 và phần dưới một ít mẫu có
giá trị âm bao gồm các mẫu có giá trị từ -0,3 đến 0. Còn đối với các mẫu màu đỏ (cụm
hai) lại là đa số các mẫu có giá trị dao động từ 0,6 đến 0,8 và càng về sau thì các mẫu
lại có giá trị giảm dần về 0, đặc biệt là vài mẫu cuối của cụm hai có giá trị Silhouette
bé hơn 0. Từ đây có thể nói rằng phân cụm theo phương pháp k-Means đạt kết quả khá
tích cực, độ tin cậy ở mức khá, nhưng cụm một của phương pháp này thì cần sự đánh
giá phân tích lại của chuyên gia có kinh nghiệm vì nó vẫn chưa đạt giá trị Silhouette
hợp lí.
Khi đánh giá bằng chỉ số Silhouette thì nhóm thấy chưa đạt được kết quả so sánh một
cách khách quan nên nhóm quyết định tiến hành thêm đánh giá ngoại hai phương pháp
này.
4.2.3. Tiến hành Đánh giá Ngoại hai phương pháp phân cụm:

Sau khi tiến hành đánh giá nội, đánh giá dựa chủ yếu trên chính dữ liệu phân
cụm hay trong bài nghiên cứu này là đánh giá dựa vào chỉ số Silhouette Plot, thì nhóm
sẽ tiến hành đánh giá ngoài hai phương pháp phân cụm trên. Để từ đó có được cái nhìn
khách quan và chính xác để biết rằng phương pháp nào là phương pháp phân cụm hợp
lí hơn.

Sau khi tiến hành xong quá trình phân cụm dữ liệu với hai phương pháp
Hierarchical clustering và K-Means thì nhóm đã lưu trữ dữ liệu dưới dạng file Excel
để tiến hành so sánh ngoài.

Hình 20: Bảng dữ liệu excel khi đã phân cụm theo phương pháp Hierarchical clustering.

28
Hình 21: Bảng dữ liệu excel khi đã phân cụm theo phương pháp k-Means

Mặc khác, nhóm thực hiện đếm các mẫu của thuộc tính “Loan_Status” trong dữ
liệu ban đầu. Để từ đó có cái nhìn tổng quan về số lượng các mẫu trong mỗi cụm ban
đầu. Sau đó mới tiến hành so sánh với kết quả phân cụm bằng Orange. Qua kết quả
tổng hợp bảng Pivot Table trong Excel, nhóm có được kết quả như sau: 2656 mẫu có
giá trị “Approved” nghĩa là trong 4269 bộ hồ sơ đi vay thì có 2656 hồ sơ có đủ điều
kiện để đăng ký tiền vay và còn lại 1613 kết quả có giá trị “Rejected” nghĩa đây là các
cá nhân hoặc tổ chức không đủ điều kiện xét duyệt cho vay. Qua bước thực hiện đếm
các giá trị này ta có thể kết luận rằng cụm nào xuất hiện nhiều giá trị thì khả năng cao
là cụm gồm những hồ sơ đủ điều kiện để vay tiền và ngược lại.

a. So sánh dữ liệu đã phân cụm bằng phương pháp Hierarchical với dữ liệu
đã có nhãn sãn ban đầu:
Bước 1, nhóm thực hiện sao chép kết quả các mẫu của thuộc tính
“Loan_Status” từ bộ dữ liệu đã tiền xử lí sang dữ liệu phân cụm bằng phương pháp
Hierarchical Clustering.

29
Hình 22: Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có.
Bước 2, vì theo phương pháp Hierarchical Clustering thì cụm C2 có nhiều mẫu
hơn C1 nên nhóm giải định rằng cụm C2 mang giá trị “Approved” và cụm C1 mang
giá trị “Rejected”. Sau đó nhóm tiến hành dán nhãn cho dữ liệu đã phân cụm dựa trên
kết quả phân cụm bằng excel bằng lệnh =IF(L2="C2","Approved","Rejected").

Hình 23: Câu lệnh dán nhãn cho dữ liệu đã phân cụm.
Bước 3, tiến hành so sánh từng biến trong dữ liệu phân cụm theo phương pháp
Hierarchical clustering với nhãn hiện có bằng Excel với câu lệnh ”=M2=N2”, nếu hai

30
kết quả trùng nhau sẽ thu được “True” nếu khác nhau sẽ ra kết quả là “False” sau đó
kéo ra 4269 mẫu quan sát thì thu được kết quả như sau:

Hình 24: So sánh giữa dữ liệu phân cụm và nhãn hiện có


Cuối cùng, nhóm thực hiện đếm số lượng mẫu đã phân cụm chính xác, nghĩa là
đếm số lượng câu lệnh ra kết quả là “True” trong 4269 mẫu bằng câu lệnh
=COUNTIF(O2:O4270,O4), sau đó lấy số mẫu đã phân cụm chính xác chia cho tổng
số 4269 mẫu. Từ đó có được kết quả như sau: với phân cụm bằng phương pháp
Hierarchical có mẫu trong 2384 mẫu đã phân cụm chính xác, chiếm 55,84%.

Hình 25: Bảng hiển thị kết quả so sánh với nhãn hiện có.
31
b. So sánh dữ liệu đã phân cụm bằng phương pháp k-Means với dữ liệu đã có
nhãn sãn ban đầu:
Đầu tiên, nhóm thực hiện sao chép kết quả các mẫu của thuộc tính
“Loan_Status” từ bộ dữ liệu đã tiền xử lí sang dữ liệu phân cụm bằng phương pháp k-
Means.

Hình 26: Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Sau đó, vì theo phương pháp Hierarchical Clustering thì cụm C2 có nhiều mẫu
hơn C1 nên nhóm giải định rằng cụm C2 mang giá trị “Approved” và cụm C1 mang
giá trị “Rejected”. Nhóm tiến hành dán nhãn cho dữ liệu đã phân cụm dựa trên kết quả
phân cụm bằng excel nhờ câu lệnh =IF(K2="C2","Approved","Rejected") sau đó kéo
cho cả 4269 kết quả khảo sát còn lại, cụ thể:

32
Hình 27: Câu lệnh dán nhãn cho dữ liệu đã phân cụm.
Tiếp tục, ta tiến hành so sánh dữ liệu phân cụm theo phương pháp k-Means với
nhãn hiện có bằng Excel với câu lệnh “=N2=Q2”, thu được kết quả như sau:

Hình 28: So sánh giữa dữ liệu phân cụm và nhãn hiện có


Cuối cùng, ta thực hiện đếm số lượng mẫu đã phân cụm chính xác bằng câu lện
= COUNTIF(P2:P615,P2), sau đó kết quả thu được chia cho tổng số 4269 mẫu đã có
nhãn để có được tỷ lệ phân cụm chính xác. Kết quả thu được có 2159 mẫu đã phân
cụm chính xác, chiếm 50,57%.

Hình 29: Bảng hiển thị kết quả so sánh với nhãn hiện có.
Nhữ vậy theo đánh giá ngoài với hai phương pháp phân cụm thì cả hai phương
pháp có tỷ lệ chính xác gần như bằng nhau. Cụ thể với phương pháp Hierarchical

33
clustering thì đạt tỷ lệ chính xác đạt 55,84% và còn với phương pháp k-Means là
50,57%. Như vậy, theo cách đánh giá ngoài thì dường như phân cụm theo phương
pháp Hierarchical clustering có ưu điểm hơn, chính xác hơn so với phân cụm bằng
phương pháp k-Means.

4.3. Phân lớp dữ liệu:


4.3.1. Xây dựng mô hình:
Nhóm đưa bộ dữ liệu đã qua tiền xử lí vào phần mềm Orange và chọn thuộc
tính “Loan_status” làm target. Tiếp theo, Dùng lệnh Data Sampler để chia dữ liệu làm
2 phần với tỷ lệ khác nhau (1 phần gồm 10 dòng dữ liệu và phần còn lại). Dùng file dữ
liệu 4259 dòng dữ liệu là “Bộ dữ liệu huấn luyện”, file 10 dòng dữ liệu là “Bộ dữ liệu
dự báo”. Sau khi phân tách bộ dữ liệu thì nhóm sẽ dùng “Bộ dữ liệu huấn luyện” để
xây dựng mô hình phân lớp và sử dụng “bộ dự liệu dự báo” để tiến hành dự báo.

34
Hình 30: Các thao tác bộ bộ dữ liệu “Huấn luyện” và “Dự báo”
Sau đó, Nhóm tiến hành phân lớp bộ dự liệu theo bốn phương pháp đã học:
- Cây quyết định (Decision Tree)
- Hồi quy Logistic (Logistic Regression)
- SVM (Support Vector Machine)

Hình 31: Chuỗi thao tác phân lớp dữ liệu.


4.3.2. Đánh giá các mô hình:
Sau khi thực hiện các thao tác phân lớp dữ liệu, ta tiến hành đánh giá các mô
hình phân lớp (kiểm tra tính đúng đắn của mô hình) bằng các công cụ sau:
a. Sử dụng Test and Score:
Nhóm dùng công cụ Test and Score như một phương pháp để so sánh, đánh giá
các thuật toán và lựa chọn phương pháp tốt nhất để tiến hành dự báo.
Trong bảng Test and Score có nhiều cách chia tỉ lệ lấy mẫu khác nhau như
Cross validation hay Random Sampling… Dưới đây là một số kết quả tại Bảng Test
and Score với 1 số cách chia tỉ lệ lấy mẫu khác nhau:

35
Hình 32: Kết quả khi chia mẫu dữ liệu 5 phần (Cross validation)

Hình 33: Kết quả khi chia mẫu dữ liệu 10 phần (Cross validation)
Nhận xét: Tại mục “Evaluation results for target” cho biết được các chỉ số đánh
giá về các mô hình. Để đánh giá các mô hình ta sẽ chủ yếu dựa vào các chỉ số AUC,
CA. Nhìn chung qua các trường hợp, nhóm thấy rằng các chỉ số đánh giá cho mô hình
Cây quyết định là cao nhất tiếp theo là mô hình các còn lại đều được đánh giá khá tích
cực. Mô hình Decision Tree được đánh giá cao hơn so với các mô hình còn lại, cụ thể
tại Cross validation=5% thì mô hình Decision Tree có: AUC = 0,973 và CA =0,981.
Như vậy, theo Test and Score thì thuật toán Cây quyết định là một mô hình phân lớp
tốt nhất, hợp lí nhất trong ba phương pháp. Còn hai mô hình còn lại thì đều được đánh
giá khá tốt, tuy nhiên ta thấy mô hình SVM được đánh giá cao hơn Logistic
Regression rất nhiều. Ngoài ra, để có thể chọn ra phương pháp phân lớp tốt nhất thì
nhóm quyết định thực hiện thêm các đánh giá khác để có kết quả tốt nhất, khách quan
nhất.
b. Sử dụng Ma trận nhầm lẫn (Confusion Matrix):

36
Ma trận nhầm lẫn (Confusion Matrix) là một phương pháp rất hữu ích trong
việc đánh giá sự chính xác và hiệu quả của các mô hình phân lớp dữ liệu. Nhóm đã
quyết định sử dụng Ma trận nhầm lẫn để đánh giá về ba phương pháp phân lớp đã thực
hiện ở trên và thu được kết quả như sau:

Hình 34: Kết quả ma trận nhầm lẫn của phương pháp Decision Tree

Hình 35: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression

37
Hình 36: Kết quả ma trận nhầm lẫn của phương pháp SVM
Sau khi có được các kết quả trên, thì hai tỷ số cần đặc biết chú ý là tỷ lệ sai lầm
loại 1 và tỷ lệ sai lầm loại 2. Hai tỷ lệ này cho biết rằng một mô hình phân lớp được
đánh giá là tốt hay xấu và điều kiện đánh giá là mô hình càng chính xác nhất khi có hai
tỷ lệ sai lầm này là thấp nhất.
Dựa vào lý thuyết đã nêu trên và dựa vào kết quả Ma trận nhầm lẫn thì phương
pháp Decision Tree là phương pháp phân lớp hiệu quả và chính xác nhất vì mô hình có
tỷ lệ sai lầm khá nhỏ với sai lầm loại 1 là 2,0% và nhỏ nhất với sai lầm loại 2 là 2,3%.
Nhóm đặc biệt quan tâm đến tỷ lệ sai lầm loại 2, vì đây là loại sai lầm có tác động rất
nghiêm trọng. Sai lầm loại loại 2 nghĩa là dự đoán cá nhân hoặc tổ chức không đủ điều
kiện phê duyệt cho vay nhưng thực sự lại đủ khả năng vay, từ đó làm cho dự đoán và
phân tích của trở nên sai lệch làm công ty mất đi những khách hàng tiềm năng. Tỷ lệ
sai lầm loại 2 của ba phương pháp như sau:
Decision Tree = 2,3% < Logistic Regression = 19,7% < SVM = 37,6%
 Sai lầm loại 2 của phương pháp Decision Tree là nhỏ nhất trong bốn phương pháp.
c. Sử dụng đường cong ROC:
ROC Analysis: là 1 phương tiện so sánh giữa các mô hình phân loại. Đường
cong càng gần đường viền bên trái và sau đó là đường viền trên cùng của không gian
ROC, phân loại càng chính xác.

38
Hình 37: Đường cong ROC

Nhận xét: Một mô hình hiệu quả, đáng tin cậy khi đường cong ROC càng tiệm
cận với điểm (0;1) trong đồ thị. Quan sát bảng kết quá trên ta thấy đường màu xanh
của mô hình Decision Tree là mô hình tiệm cận với điểm (0;1) nhất. Còn mô hình
Logistic Regression lại bị đánh giá thấp hơn.
Kết luận: Phương pháp phân lớp Cây quyết định là phương pháp tốt nhất vì:
+ Phương pháp này có AUC (Area Under the Curve) hay diện tích nằm dưới đường
cong ROC là lớn nhất (xấp xỉ 1), tức là có mô hình tốt nhất;
+ Phương pháp này tỷ lệ sai lầm loại 2 thấp nhất;
+ Độ chính xác (Precision) cao nhất;
+ Phương pháp này có hiệu quả cao nhất vì có đường cong ROC tiệm cận nhất với
điểm (0;1).
4.4. Dự báo:
Sau khi đã thực hiện phân lớp và đánh giá các mô hình phân lớp, ta đã lựa chọn
được phương pháp Decision Tree là tốt nhất. Vì vậy, nhóm sẽ dùng Decision Tree để
tiến hành dự báo cho Bộ dữ liệu “Dự báo” đã chuẩn bị trước đó.

4.4.1. Lấy mẫu dự liệu:


Đưa dữ liệu “Bộ Dự báo” vào Orange và tiến hành dự báo.

39
Hình 38: Đưa bộ dữ liệu “Dự báo và Orange”
4.4.2. Tiến hành dự báo:
Sử dụng Predictions để dự báo dữ liệu theo phương pháp Decision Tree.

Hình 39: Mô hình dự báo


Kết quả dự báo:

40
Hình 40: Kết quả dự báo.
Nhóm sử dụng mô hình Cây quyết định để tiến hành cho bộ dữ liệu nhóm có
được kết quả như sau: Trong 10 mẫu dự báo có 6 mẫu có giá trị “Loan_status” =
“Approved” hay đây là bộ hồ sơ của cá nhân hoặc tổ chức đủ điều kiện để phê duyệt
vay từ tổ chức tài chính và ngược lại, có 5 mẫu có giá trị “Loan_status” = “Rejected”
và đây là những bộ hồ sơ của cá nhân hoặc tổ chức không đủ điều kiện để phê duyệt
vay từ tổ chức tài chính. Và so sánh với bộ dữ liệu ban đầu thì quá trình dự đoán này là
hoàn toàn chính xác, kết quá vô cùng đáng tin cậy và hợp lí.
Sau khi hoàn thành dự báo ta thực hiện lưu kết quả dự báo về máy với tên File
là KQDB.xlxs
4.5. Đánh giá kết quả nghiên cứu:
Qua quá trình nghiên cứu và phân tích bộ dữ liệu này đã giúp cả nhóm đã tiếp
cận gần hơn với ngành “Khoa học dữ liệu”, nhờ đó mà hiểu rõ hơn, tìm hiểu kĩ hơn, có
cái nhìn trực quan và sâu sắc hơn về nó cũng như phần mềm Orange. Đồng thời nhóm
học được cách thức để xây dựng một mô hình xử lý, khai phá dữ liệu bằng phần mềm
Orange. Từ đó áp dụng mô hình đã xây dựng để xử lý bộ dữ liệu “Loan-Approval-
Prediction-Dataset” được nhóm thu thập được bằng các thuật toán phân cụm và
phân lớp phù hợp nhất.
Khi tiến hành tiền xử lí bộ dữ liệu, nhóm đã tiến hành thiết lập lại Role và Type
của các thuộc tính, xử lí dữ liệu nhiễu loại bỏ các biến không cần thiết để từ đó giúp
cho bộ dữ liệu trở nên tinh gọn hơn, không còn các hiện tượng dư thừa những thuộc
tính không cần thiết. Nhờ vậy quá trình nghiên cứu trở nên hiệu quả và chính xác hơn.
Từ đó nhóm hiểu được cách làm cho bộ dữ liệu phù hợp với yêu cầu nghiên cứu đặt ra,
giúp bộ dữ liệu hoàn thiện hơn. Ngoài ra còn giúp nhóm hiểu hơn về bộ dữ liệu, về đặc
điểm của hồ sơ đi vay của các cá nhân hoặc tổ chức đủ điều kiện đi vay.
Với bài toán phân cụm, nhóm đã giả định bộ dữ liệu “Loan-Approval-
Prediction-Dataset” ban đầu không có nhãn và tiến hành phân cụm với hai

41
phương pháp Hierarchical clustering và K-Means. Sau khi tiến hạnh phân cụm và nhờ
vào đánh giá nội, đánh giá ngoại mà nhóm thấy rằng với bộ dữ liệu này thì
Hierarchical clustering là phương pháp phân cụm chính xác, đáng tin cậy hơn. Còn đối
với phân lớp dữ liệu, phương pháp Cây quyết định cho kết quả phân lớp hiệu quả hơn,
hợp lí hơn, được đánh giá thông qua ma trận nhầm lẫn, các chỉ số đánh giá và đường
cong ROC. Ngoài ra kết quả của các mô hình đánh giá cho thấy các thuật toán còn lại
cũng khá hợp lí nhưng tính đáng tin cậy không cao bằng phương pháp Cây Quyết định
đối với bộ dữ liệu này.
Nhóm đã sử dụng phương pháp Cây Quyết định để tiến hành dự báo cho 10
dòng mẫu dữ liệu ngẫu nhiên được lấy từ bộ dữ liệu “Dự báo” và cho kết quả rất tích
cực. Từ kết quả dự đoán của mô hình nghiên cứu mà giúp cho nhà quản trị và các cấp
quản lí của tổ chức tài chính có thể dự đoán, phân loại các bộ hồ sơ đi vay của các cá
nhân hoặc tổ chức đủ điều kiện phê duyệt cho vay. Để từ đó công ty tài chính có thể có
các chính sách hợp lí cho từng hợp đồng cho vay và tìm được các khách hàng tiềm
năng cho tổ chức của họ. Cũng như từ đó có được các chính sách, các quyết định phát
triển kinh doanh, cách quyết định cho vay, xét duyệt cho vay hợp lí với từng khách
hàng cụ thể.

42
CHƯƠNG 5: KẾT LUẬN
5.1 Kết luận:
Thông qua bộ dữ liệu “Loan-Approval-Prediction-Dataset” với quá trình
tiến hành nghiên cứu, khai phá và phân tích dữ liệu nhóm đã hoàn thành những mục
tiêu đề ra từ đầu và có được một số kết quả vô cùng tích cực. Nhóm tác giả đã tiến
hành tiền xử lý dữ liệu, loại bỏ những biến không cần thiết, thiết lập các Role Type
hợp lí cho các thuộc tính nghiên cứu từ đó chuẩn hóa dữ liệu và giúp quá trình nghiên
cứu về sau chính xác, thuận tiện hơn. Sau đó nhóm thực hiện lần lượt các bài toán
phân cụm và phân lớp bộ dữ liệu với nhiều phương pháp khác nhau. Khi tiến hành
phân cụm và đánh giá kết quả phân cụm nhóm thấy rằng đối với bộ dữ liệu này thì
Hierarchical clustering ưu biệt hơn, đáng tin cậy hơn so K-Means, tuy nhiên phương
pháp K-Means vẫn sẽ có những ưu điểm riêng và thích hợp với những loại dữ liệu
khác. Còn với bài toán phân lớp thì sau khi phân tích, so sánh đánh giá các phương
pháp thì nhóm thấy rằng với phân lớp thì mô hình Decision Tree là phương pháp phân
lớp hiệu quả nhất. Và dựa theo mô hình Decision Tree mà nhóm tiến hành dự báo bộ
dữ liệu. Từ mô hình dự báo đã giúp nhóm cũng như người sử dụng bộ dữ liệu và
những nhà quản trị tổ chức tài chính có thể dự đoán, phân loại các bộ hồ sơ của khách
hàng nào sẽ đủ điều kiện xét duyệt cho vay dựa vào các điểm điểm của họ như: thu
nhập, tổng tài sản, thời hạn vay, mực vay, lãi suất,.
Hơn thế nữa, dựa quá trình phân tích dữ liệu mà nhóm và người đọc đã thấy các
yếu tố nào có ảnh hưởng trực tiếp đến quyết định chấp thuận xét duyệt cho vay của tổ
chức tài chính đối với các hồ sơ vay, hay nói cách khác là các thuộc tính nào có tác
động trực tiếp đến quyết định cho vay của tổ chức. Có thể ở đây, các hồ sơ của các cá
nhân hoặc tổ chức có thu nhập hàng năm cao, chỉ số điểm tín dụng cao, tài sản nhà ở
có giá trị cao hoặc tài sản gửi ngân hàng lớn được thể hiện qua các thuộc tính như:
income_annum, cibil_score, residential_assets_value, bank_asset_value thường sẽ
được công ty tài chính chấp nhận xét duyệt cho vay. Và hiện tượng này cũng đúng
trong thực tế hiện nay, các tổ chức tài chính sẽ dễ dàng chấp thuận cho vay với những
khách hàng có thu nhập cao, ổn định, những khách hàng khối lượng tài sản cá nhân lớn
để từ đó có thể làm tăng lòng tin đối với các tổ chức tín dụng cũng như nếu không trả
được nợ vay tài chính thì những khách hàng này có thể dùng tài sản hiện có của họ để
thanh toán hoặc thế chấp. Hay chính các thuộc tính: income_annum, cibil_score,
residential_assets_value, bank_asset_value là các biến có ảnh hưởng trực tiếp đến tình
trạng xét duyệt của các hồ sơ đi vay có được chấp thuận hay không. Từ đây, chỉ cần
dựa vào các điểm đặc này của khách hàng mà tổ chức tài chính tín dụng có thể dự
đoán và phân loại các nhóm khách hàng. Nhờ đó mà chính tổ chức và các nhà quản trị
có thể có hoạch định chiến lược cho từng nhóm khách hàng cụ thể khác nhau. Họ có
thể có những chính sách ưu đãi hoặc khuyến khích lãi suất thấp đối với những khách
hàng tiềm năng để thu hút khách hàng mới hoặc giữ chân những khách hàng lâu năm,
đồng thời thúc đẩy nhanh chóng quá trình xét duyệt và tính toán lãi suất, kì hạn vay
hợp lí với từng hồ sơ vay. Song song với đó là tổ chứ còn có thể loại bỏ hoặc tránh
được những hồ sơ vay xấu, có khả năng không trả được nợ cao, từ đó nâng cao kết quả
hoạt động, uy tín của tổ chức. Ngoài ra nhờ vào quá trình phân tích này, mà nhà quản
trị có được cái nhìn khách quan và trực quan hơn về cái chỉ số tài chính trong môi
trường kinh doanh tín dụng, thấy được sự phát triển, những kì vọng và thành tích mà

43
tổ chức đã đạt được thông qua bộ dữ liệu, nhưng khách hàng tiềm năng mà họ đã bỏ lỗ
cũng như những khu vực khách hàng nên tiếp cận để từ đó sẽ quan tâm hơn đến việc
phân tích dữ liệu và dùng nó trong hoạch định chiến lược phát triển trong tương lai.
Bên cạnh đó, khi tiến hành phân tích bộ dữ liệu này với phần mềm Orange đã giúp
nhóm có thêm cơ hội tiếp cận và thực hành nhiều hơn với “Khoa học dữ liệu” nói
chung và phần mềm Orange nói riêng. Nhờ đó mà từ đây nhóm đã hiểu rõ hơn về
những ưu điểm, tầm quan trọng của cả phân tích dữ liệu lẫn phần mềm Orange. Nhờ
xử lý, phân tích mà mọi dữ liệu đều trở thành những thông tin có ích, hỗ trợ tích cực
cho quá trình ra quyết định được chính xác hơn. Thêm vào đó, nhóm nhận thấy được
rằng với mỗi phương pháp phân tích dữ liệu thì sẽ có những đặc điểm tương thích
riêng với từng bộ dữ liệu khác nhau. Chúng vừa tồn tại những điểm mạnh, yếu tùy
thuộc vào đặc trưng của từng dữ liệu, vì vậy việc phân tích và đánh giá dữ liệu là rất
quan trọng trong việc lựa chọn ra phương pháp tối ưu, đem lại kết quả cao trong quá
trình dự báo. Đồng thời nhờ quá trình nghiên cứu và quá trình học môn “Khoa học dữ
liệu” đã giúp cho nhóm có thêm những kiến thức liên quan đến khai phá, phân tích dữ
liệu, trang bị thêm những hành trang quý giá cho quá trình học và làm việc sau này.
Đặc biệt là trong thời đại 4.0 và thời điểm bùng nổ thông tin dữ liệu như hiện này thì
việc biết và vận dụng được phân tích dữ liệu trong kinh tế, trong dinh doanh và trong
cả ngành kế toán lại được biệt quan trọng và cần thiết đối sinh viên ngành Kế Toán
như chúng em.
5.2 Hạn chế và Hướng phát triển:
Dù nhóm đã tập trung và nỗ lực cố gắng hoàn thành bài nghiên cứu một cách
hoàn chỉnh nhất có thể nhưng trong quá trình làm bài thì nhóm không thể tránh khỏi
một số hạn chế nhất định như:

Thứ nhất, hạn chế về mặt thời gian và không gian thực hiện nên không tránh
khỏi sự ảnh hưởng đến độ chính xác của mô hình. Thời gian nhóm thực hiện bài
nghiên còn quá ít so với độ phủ rộng của đề tài nên không thể tránh những thiếu sót.
Cũng như đây là bộ dữ liệu mà nhóm thu thập được nên nhóm không thể tác động quá
trình và mô hình thu thập dữ liệu trước đó nên có thể mô hình dự báo này không thể
thỏa mãn hết nhu cầu nghiên cứu của nhóm. Đồng thời tính đại diện cùng với khả năng
suy rộng cho tổng thể của mẫu chưa được tuyệt đối.

Thứ hai, thiếu tính ứng dụng thực tiễn vào nền kinh tế Việt Nam hiện nay vì
đây là bộ dữ liệu lấy từ một tổ chức tài chính tín dụng trên nước ngoài nên không thể
áp dụng vào môi trường kinh doanh ở Việt Nam. Khi muốn áp dụng mô hình này vào
Việt Nam cần sự tìm hiểu và đánh giá lại của các chuyên gia tài chính và tiến hành
khảo sát thực tế ở một hoặc một số tổ chức tín dụng ở Việt Nam.
Thứ ba, các biến quan sát còn đơn giản và chưa trả lời hết câu hỏi mà dự án đặt
ra, cần sự khái quát hơn, chuẩn hóa hơn để đạt được hiệu quả nghiên cứu cao hơn. Cần
phải xây dựng một bộ dữ liệu hoàn thiện hơn, chuẩn hóa hơn trong tương lai để quá
trình nghiên cứu thật sự có tính ứng dụng cao.
Thứ tư, tuy bộ dữ liệu được tiến hành cập nhật thường xuyên (theo trang
Kaggle lần cập nhật gần nhất là 5 tháng trước) nhưng trong bộ dữ liệu vẫn không đề
cập và phản ánh những ảnh hưởng cũng như biến động của thời điểm đại dịch Covid
44
diễn ra và hậu Covid, nên nó thiếu tính thiết thực và ít phù hợp với bối cảnh cận kinh
tế hiện tại.
Hạn chế cuối cùng, là về kinh nghiệm và khả năng của nhóm còn hạn chế trong
việc phân tích và khai phá dữ liệu. Do đó có thể làm cho một số nhận định hoặc thao
tác chưa chính xác hoàn toàn.
Dựa trên cơ sở của những hạn chế khiến bài nghiên cứu chưa thật sự hoàn thiện
và trình nghiên cứu phân tích bộ dữ liệu này, nhóm xin đề xuất một số hướng phát
triển đề tài trong tương lai như sau:
Thứ nhất, hạn chế lớn nhất của bài nghiên cứu này là ở bộ dữ liệu các thuộc
tính còn đơn giản, chưa khái quát hết được các thuộc tính thực sự ảnh hưởng đến quyết
định xét duyệt cho vay, số lượng và sự đồng nhất trong việc chọn mẫu chưa cao nên
tính đại diện còn hạn chế. Nên nhóm hy vọng trong các đề tài tiếp theo liên quan đến
xét duyệt tín dụng cho vay sẽ khắc phục được hạn chế này bằng cách đầu tư xây dựng
một mô hình dữ liệu hoàn chỉnh hơn, bổ sung các biến cần thiết như đối với các tổ
chức là tỷ số khả năng thanh toán ngắn hạn, tỷ số nợ trên vốn chủ sở hữu, đối với cá
nhân thì các tài sản thế chấp chấp hoặc các khoản nợ hiện tại, lịch sử nợ xấu,… Đồng
thời mở rộng thu thập dữ liệu của nhiều các nhân, tổ chức ở nhiều khu vực và tổ chức
khác hơn nữa để thu được số lượng mẫu thích hợp nhất. Đồng thời triển khai dự đoán,
kiểm chứng thực tế và đánh giá kết quả một cách thường xuyên để tăng độ chính xác.
Thứ hai, cần tiến hành nghiên cứu và phân tích, đánh giá một cách thường
xuyên, mở rộng thời gian nghiên cứu để tăng độ chính xác của mô hình phân loại và
kết quả dự báo. Cũng như thêm các ảnh hưởng của đại dịch Covid và bối cảnh nền
kinh tế đang khôi phục sau hậu đại dịch trong ngành tài chính tín dụng này. Để từ đó
có thể thấy chính xác hơn, rõ ràng xu hướng đi vay của các khách hàng và giúp kết quả
phân tích, dự báo trở nên chính xác, đáng tin cậy hơn, thông dữ liệu kịp thời phù hợp
với thời điểm nghiên cứu.
Thứ ba, liên quan đến các công ty tài chính tín dụng thì qua bài nghiên cứu này
nhóm thấy rằng các đặc tính của khách hàng như: thu nhập hàng năm, chỉ số điểm tín
dụng, tài sản ở nhà và các tài sản gửi ngân hàng là các thuộc tính tác động mạnh đến
kết quả xét duyệt cho vay. Vì vậy khi xem xét các hồ sơ đi vay các tổ chức tín dụng
cần lưu tâm đặc biệt đến các thuộc tính này để có thể xét duyệt và ra quyết định một
cách chính xác, có được các hợp đồng vay tiềm năng và tránh được các nợ xấu không
thu được tiền.
Mặt khác, các tổ chức cũng cần phải dựa vào xét đoán và kinh nghiệm của mình
trong việc xét duyệt cho vay không thể máy móc chỉ dựa vào mô hình phân tích dự
báo sẽ bỏ sót những hợp đồng vay tiềm năng, nhiều cơ hội.
Thứ tư, về các cá nhân hoặc tổ chức có nhu cầu đi vay, qua bài nghiên cứu này
họ cũng biết được các yếu tố nào về thông tin của bản thân sẽ tác động đến quyết định
xét duyệt của tổ chức tín dụng. Từ đó mà khắc phục và nâng cao khả năng được cho
vay, nhờ vào việc cải thiện các thông tin này một cách hợp lí và hợp pháp, trung thực,
không gian lận.
Cuối cùng, nhóm hi vọng các đề tài nghiên cứu trong thời gian tới sẽ phát hiện ra
nhiều mô hình phù hợp hơn nhằm đi đến kết luận chính xác về các yếu tố thật sự có

45
ảnh hưởng lớn đến quyết định xét duyệt cho vay của tổ chức tín dụng, hỗ trợ cho các
tổ chức này cũng như cá nhân tổ chức có nhu cầu tín dụng trong tương lai.

46
TÀI LIỆU THAM KHẢO
1. Phạm Đình Khánh,”DEEP AI” ,2021

https://phamdinhkhanh.github.io/deepai-book/intro.html (truy cập 8/12/2023)

2. Vũ Minh Đông, “Một số phương pháp phân cụm dữ liệu”, Đồ án tốt nghiệp ĐHDL
Hải Phòng

https://lib.hpu.edu.vn/bitstream/handle/
123456789/18074/12_VuMinhDong_CT1002.pdf (truy cập 8/12/2023)

3. Lưu Tuấn Lâm, “Thuật toán phân cụm dữ liệu nửa giám sát”, Đồ án tốt nghiệp
ĐHDL Hải Phòng

https://www.thuvientailieu.vn/tai-lieu/do-an-thuat-toan-phan-cum-du-lieu-nua-giam-
sat-10750/ (truy cập 8/12/2023)

4. “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán trên Orange”, Tiểu luận
môn Khoa học dữ liệu, Đại học Kinh tế TP.HCM, 2021

5. “Data mining sử dụng Orange”, 2022

https://websitehcm.com/data-mining-su-dung-orange/ (truy cập 8/12/2023)

6. Nguyễn Thị Hoa, “Phân lớp quan điểm khách hàng và ứng dụng”, Luận văn thạc sỹ,
Đại học Công nghệ thông tin và truyền thông, Thái Nguyên, 2016

http://tailieudientu.lrc.tnu.edu.vn/Upload/Collection/brief/
brief_57868_20171013103123_28nguyen%20thi%20thoa.pdf (truy cập 9/12/2023)

47

You might also like